Se muestra el coeficiente de la ecuación de regresión. Ecuación de regresión. Ecuación de regresión múltiple

¿Qué es la regresión?

Considere dos variables continuas x = (x 1, x 2, .., x n), y = (y 1, y 2, ..., y n).

Coloquemos los puntos en un diagrama de dispersión 2D y digamos que tenemos relación lineal si los datos se ajustan con una línea recta.

Si creemos que y depende de X y cambios en y son causadas precisamente por cambios en X, podemos definir la línea de regresión (regresión y sobre X), que describe mejor la relación directa entre las dos variables.

El uso estadístico de la palabra "regresión" proviene de un fenómeno conocido como regresión a la media, atribuido a Sir Francis Galton (1889).

Mostró que aunque los padres altos tienden a tener hijos altos, la altura promedio de los hijos es menor que la de sus padres altos. La estatura media de los hijos "retrocedió" y "revirtió" a la estatura media de todos los padres de la población. Así, en promedio, los padres altos tienen hijos más bajos (pero aún altos), y los padres más bajos tienen hijos más altos (pero aún más bien bajos).

Línea de regresión

Una ecuación matemática que estima una línea de regresión lineal simple (emparejada):

X llamada variable independiente o predictor.

Y- variable dependiente o variable de respuesta. Este es el valor que esperamos y(en promedio) si conocemos el valor X, es decir. este "valor predicho y»

  • a- miembro libre (intersección) de la línea de evaluación; este valor Y, cuando x = 0(Figura 1).
  • B- la pendiente o pendiente de la línea evaluada; representa la cantidad por la cual Y aumenta en promedio si aumentamos X por una unidad.
  • a y B se denominan coeficientes de regresión de la línea estimada, aunque este término se utiliza a menudo sólo para B.

La regresión lineal emparejada se puede ampliar para incluir más de una variable independiente; en este caso se conoce como regresión múltiple.

Figura 1. Línea de regresión lineal que muestra la intersección de ay la pendiente b (la cantidad de aumento en Y cuando x aumenta en una unidad)

Método de mínimos cuadrados

Realizamos análisis de regresión utilizando una muestra de observaciones, donde a y B- estimaciones de muestra de los parámetros verdaderos (generales), α y β, que determinan la línea de regresión lineal en la población ( la población en general).

La mayoría método simple determinación de coeficientes a y B es un método mínimos cuadrados (OLS).

El ajuste se estima considerando los residuos (la distancia vertical de cada punto desde la línea, por ejemplo, residual = observado y- predicho y, Arroz. 2).

Se elige la línea de mejor ajuste de modo que la suma de los cuadrados de los residuos sea mínima.

Arroz. 2. Línea de regresión lineal con los residuos representados (líneas verticales discontinuas) para cada punto.

Supuestos de regresión lineal

Entonces, para cada valor observado, el residuo es igual a la diferencia y el valor predicho correspondiente, cada residuo puede ser positivo o negativo.

Puede utilizar residuales para probar los siguientes supuestos subyacentes a la regresión lineal:

  • Los saldos se distribuyen normalmente con media cero;

Si los supuestos de linealidad, normalidad y / o varianza constante son cuestionables, podemos transformar o calcular una nueva línea de regresión para la cual se satisfagan estos supuestos (por ejemplo, utilice una transformación logarítmica, etc.).

Valores anormales (valores atípicos) y puntos de influencia

Una observación "influyente", si se omite, cambia una o más estimaciones de los parámetros del modelo (es decir, pendiente o intersección).

Un valor atípico (una observación que contradice la mayoría de los valores en un conjunto de datos) puede ser una observación "influyente" y puede detectarse bien visualmente cuando se ve desde un gráfico de dispersión 2D o un gráfico residual.

Tanto para los valores atípicos como para las observaciones "influyentes" (puntos), se utilizan modelos, con y sin ellos, y prestan atención al cambio en la estimación (coeficientes de regresión).

Al realizar el análisis, no descarte automáticamente los valores atípicos o los puntos de influencia, ya que el simple hecho de ignorarlos puede afectar los resultados obtenidos. Siempre investigue y analice las causas de estos valores atípicos.

Hipótesis de regresión lineal

Al construir una regresión lineal, se prueba la hipótesis nula de que la pendiente general de la línea de regresión β es igual a cero.

Si la pendiente de la línea es cero, no hay relación lineal entre y: el cambio no afecta

Para probar la hipótesis nula de que la pendiente verdadera es cero, puede utilizar el siguiente algoritmo:

Calcule un estadístico de prueba igual a la razón que obedece a una distribución con grados de libertad, donde el error estándar del coeficiente es


,

- estimación de la varianza de los residuos.

Por lo general, si el nivel de significancia alcanzado es la hipótesis nula se rechaza.


donde es el punto porcentual de la distribución con grados de libertad que da la probabilidad de una prueba de dos lados

Este es el intervalo que contiene la pendiente general con una probabilidad del 95%.

Para muestras grandes, digamos que podemos aproximarnos con un valor de 1,96 (es decir, las estadísticas de criterio tenderán a una distribución normal)

Evaluación de la calidad de la regresión lineal: coeficiente de determinación R 2

Debido a la relación lineal, y esperamos que cambie a medida que cambia. , y llamamos a esta variación que es causada o explicada por regresión. La variación residual debe ser lo más pequeña posible.

Si este es el caso, entonces la mayor parte de la variación se debe a la regresión y los puntos estarán cerca de la línea de regresión, es decir, la línea coincide bien con los datos.

La proporción de la varianza total que se explica por la regresión se llama coeficiente de determinación, generalmente expresado en términos de porcentaje y denota R 2(en regresión lineal pareada, este es el valor r 2, el cuadrado del coeficiente de correlación), le permite evaluar subjetivamente la calidad de la ecuación de regresión.

La diferencia es el porcentaje de varianza que no se puede explicar con la regresión.

No existe una prueba formal para evaluar, tenemos que confiar en el juicio subjetivo para determinar la calidad del ajuste de la línea de regresión.

Aplicar una línea de regresión para pronosticar

Puede usar una línea de regresión para predecir un valor a partir de un valor dentro del rango observado (nunca extrapolar fuera de estos límites).

Predecimos la media de los observables que tienen un valor particular al insertar ese valor en la ecuación de la línea de regresión.

Entonces, si predecimos cómo usamos este valor predicho y su error estándar para estimar intervalo de confianza de verdad tamaño promedio en la población.

La repetición de este procedimiento para diferentes valores le permite crear límites de confianza para esta línea. Esta es la banda o área que contiene la línea verdadera, por ejemplo, con un nivel de confianza del 95%.

Diseños de regresión simple

Los diseños de regresión simple contienen un predictor continuo. Si hay 3 casos con valores predictores P, por ejemplo, 7, 4 y 9, y el diseño incluye un efecto de primer orden P, entonces la matriz de diseño X tendrá la forma

y la ecuación de regresión que usa P para X1 parece

Y = b0 + b1 P

Si un diseño de regresión simple contiene el efecto orden superior para P, por ejemplo, un efecto cuadrático, los valores de la columna X1 en la matriz de diseño se elevarán a la segunda potencia:

y la ecuación toma la forma

Y = b0 + b1 P2

Los métodos de codificación restringidos por sigma y sobre parametrizados no se aplican a diseños de regresión simple y otros diseños que contienen solo predictores continuos (ya que simplemente no hay predictores categóricos). Independientemente del método de codificación elegido, los valores de las variables continuas se aumentan en el grado apropiado y se utilizan como valores para las X variables. En este caso, no se realiza ninguna grabación. Además, al describir diseños de regresión, puede omitir la consideración de la matriz de diseño X y trabajar solo con la ecuación de regresión.

Ejemplo: análisis de regresión simple

Este ejemplo utiliza los datos presentados en la tabla:

Arroz. 3. Tabla de datos iniciales.

Datos compilados a partir de una comparación de los censos de 1960 y 1970 en 30 distritos seleccionados al azar. Los nombres de los distritos se representan como nombres de observación. La información sobre cada variable se presenta a continuación:

Arroz. 4. Tabla de especificaciones variables.

Tarea de investigación

Para este ejemplo, se analizará la correlación entre la tasa de pobreza y el grado, que predice el porcentaje de familias que se encuentran por debajo de la línea de pobreza. Por lo tanto, trataremos la variable 3 (Pt_Poor) como una variable dependiente.

Se puede plantear la hipótesis de que el cambio de población y el porcentaje de familias por debajo de la línea de pobreza están relacionados. Parece razonable esperar que la pobreza conduzca a una salida de población, por lo que habrá una correlación negativa entre el porcentaje de personas por debajo de la línea de pobreza y el cambio de población. Por lo tanto, trataremos la variable 1 (Pop_Chng) como una variable predictora.

Ver resultados

Coeficientes de regresión

Arroz. 5. Coeficientes de regresión Pt_Poor en Pop_Chng.

En la intersección de la fila Pop_Chng y Param. el coeficiente no estandarizado para la regresión Pt_Poor en Pop_Chng es -0,40374. Esto significa que por cada unidad de disminución en la población, hay un aumento de 40374 en la tasa de pobreza. Los límites de confianza superior e inferior (predeterminados) del 95% para este coeficiente no estandarizado no incluyen cero, por lo que el coeficiente de regresión es significativo en el nivel p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Distribución de variables

Los coeficientes de correlación pueden sobreestimarse o subestimarse significativamente si hay grandes valores atípicos en los datos. Examinemos la distribución de la variable dependiente Pt_Poor por distrito. Para hacer esto, construyamos un histograma de la variable Pt_Poor.

Arroz. 6. Histograma de la variable Pt_Poor.

Como puede ver, la distribución de esta variable difiere notablemente de la distribución normal. Sin embargo, aunque incluso los dos condados (las dos columnas de la derecha) tienen un porcentaje más alto de hogares por debajo de la línea de pobreza que el esperado de la distribución normal, parecen estar "dentro del rango".

Arroz. 7. Histograma de la variable Pt_Poor.

Este juicio es algo subjetivo. Como regla general, los valores atípicos deben tenerse en cuenta si la observación (u observaciones) no se encuentran dentro del intervalo (media ± 3 veces la desviación estándar). En este caso, vale la pena repetir el análisis con y sin valores atípicos para asegurar que no tengan un efecto significativo en la correlación entre los miembros de la población.

Gráfico de dispersión

Si una de las hipótesis es a priori sobre la relación entre las variables dadas, entonces es útil verificarla en la gráfica del diagrama de dispersión correspondiente.

Arroz. 8. Diagrama de dispersión.

El gráfico de dispersión muestra una clara correlación negativa (-.65) entre las dos variables. También muestra el intervalo de confianza del 95% para la línea de regresión, es decir, con una probabilidad del 95% de que la línea de regresión se encuentre entre las dos curvas discontinuas.

Criterios de significación

Arroz. 9. Tabla que contiene los criterios de significación.

El criterio para el coeficiente de regresión Pop_Chng confirma que Pop_Chng está fuertemente relacionado con Pt_Poor, p<.001 .

Salir

Este ejemplo mostró cómo analizar un diseño de regresión simple. También se presentó una interpretación de los coeficientes de regresión estandarizados y no estandarizados. Se discute la importancia de estudiar la distribución de respuestas de la variable dependiente y se demuestra una técnica para determinar la dirección y fuerza de la relación entre el predictor y la variable dependiente.

Cálculo de los coeficientes de la ecuación de regresión.

Es imposible resolver sin ambigüedades el sistema de ecuaciones (7.8) sobre la base de la ED disponible, ya que el número de incógnitas es siempre mayor que el número de ecuaciones. Se necesitan supuestos adicionales para superar este problema. El sentido común sugiere: es aconsejable elegir los coeficientes del polinomio para asegurar el mínimo error en la aproximación de la DE. Se pueden aplicar varias medidas para estimar los errores de aproximación. Como tal medida, el error de la raíz cuadrada media ha encontrado una amplia aplicación. Sobre esta base, se ha desarrollado un método especial para estimar los coeficientes de las ecuaciones de regresión: el método de mínimos cuadrados (MCO). Este método permite obtener estimaciones de la probabilidad máxima de coeficientes desconocidos de la ecuación de regresión para la distribución normal de la variante, pero se puede aplicar para cualquier otra distribución de factores.

El OLS se basa en las siguientes disposiciones:

· Los valores de errores y factores son independientes y, por lo tanto, no están correlacionados, es decir se asume que los mecanismos para generar interferencia no están relacionados con el mecanismo para generar los valores de los factores;

La expectativa matemática del error ε debe ser igual a cero (el componente constante se incluye en el coeficiente un 0), es decir, el error es una cantidad centrada;

· La estimación muestral de la varianza del error debe ser mínima.

Considere la aplicación de MCO en relación con la regresión lineal de valores estandarizados. Para cantidades centradas u j coeficiente un 0 es cero, entonces las ecuaciones de regresión lineal

. (7.9)

Aquí se ha introducido un signo especial "^", que denota los valores del indicador calculados por la ecuación de regresión, en contraste con los valores obtenidos de los resultados de las observaciones.

Según MCO, se determinan tales valores de los coeficientes de la ecuación de regresión que proporcionan un mínimo incondicional a la expresión

El mínimo se encuentra igualando a cero todas las derivadas parciales de la expresión (7.10), tomadas por coeficientes desconocidos, y resolviendo el sistema de ecuaciones

(7.11)

Realizando transformaciones secuencialmente y utilizando las estimaciones de los coeficientes de correlación introducidas previamente

. (7.12)

Entonces, recibido T–1 ecuaciones lineales, lo que le permite calcular los valores sin ambigüedades a 2, a 3, ..., a т.

Si el modelo lineal es inexacto o los parámetros se miden de manera inexacta, entonces en este caso el LSM permite encontrar dichos valores de los coeficientes para los cuales el modelo lineal la mejor manera describe un objeto real en el sentido del criterio seleccionado de la desviación estándar.

Cuando solo hay un parámetro, la ecuación de regresión lineal se convierte en

Coeficiente un 2 se encuentra a partir de la ecuación

Entonces, dado que r 2,2= 1, el coeficiente requerido

a 2 = r y ,2 . (7.13)

La relación (7.13) confirma la afirmación anterior de que el coeficiente de correlación es una medida de la relación lineal entre dos parámetros estandarizados.

Sustituyendo el valor encontrado del coeficiente un 2 en expresión para w, teniendo en cuenta las propiedades de las cantidades centradas y normalizadas, obtenemos el valor mínimo de esta función igual a 1– r 2 años, 2. El valor 1– r 2 años, 2 se llama varianza residual de la variable aleatoria y relativo a una variable aleatoria u 2... Caracteriza el error que se obtiene cuando el indicador es reemplazado por una función del parámetro υ = a 2 u 2... Solo cuando | r y, 2| = 1, la varianza residual es cero y, por lo tanto, no se produce ningún error cuando el exponente se aproxima mediante una función lineal.

Pasar de valores centrados y normalizados del indicador y parámetro

se puede obtener para los valores originales

Esta ecuación también es lineal con respecto al coeficiente de correlación. Es fácil ver que el centrado y la normalización de la regresión lineal permite reducir la dimensión del sistema de ecuaciones en uno, es decir, simplificar la solución del problema de la determinación de los coeficientes y dar a los propios coeficientes un significado claro.

La aplicación del método de mínimos cuadrados para funciones no lineales prácticamente no difiere del esquema considerado (solo el coeficiente a0 en la ecuación original no es igual a cero).

Por ejemplo, suponga que es necesario determinar los coeficientes de regresión parabólica

Varianza del error de muestra

Sobre esta base, se puede obtener el siguiente sistema de ecuaciones

Después de las transformaciones, el sistema de ecuaciones toma la forma

Teniendo en cuenta las propiedades de los momentos de las cantidades estandarizadas, escribimos

La determinación de los coeficientes de regresión no lineal se basa en la resolución de un sistema de ecuaciones lineales. Para hacer esto, puede utilizar paquetes universales de métodos numéricos o paquetes especializados para procesar datos estadísticos.

Con un aumento en el grado de la ecuación de regresión, también aumenta el grado de los momentos de la distribución de los parámetros utilizados para determinar los coeficientes. Entonces, para determinar los coeficientes de la ecuación de regresión de segundo grado, se utilizan los momentos de la distribución de parámetros hasta el cuarto grado inclusive. Se sabe que la precisión y confiabilidad de la estimación de los momentos para una muestra limitada de DE disminuye drásticamente con un aumento en su orden. El uso de polinomios de grado superior al segundo en las ecuaciones de regresión no es práctico.

La calidad de la ecuación de regresión obtenida se evalúa por el grado de proximidad entre los resultados de las observaciones del indicador y los valores predichos por la ecuación de regresión en puntos dados del espacio de parámetros. Si los resultados son cercanos, entonces el problema del análisis de regresión puede considerarse resuelto. De lo contrario, debe cambiar la ecuación de regresión (elija un grado diferente del polinomio o incluso un tipo diferente de ecuación) y repetir los cálculos estimando los parámetros.

Si hay varios indicadores, el problema del análisis de regresión se resuelve de forma independiente para cada uno de ellos.

Al analizar la esencia de la ecuación de regresión, cabe señalar las siguientes disposiciones. El enfoque considerado no proporciona una evaluación separada (independiente) de los coeficientes: un cambio en el valor de un coeficiente implica un cambio en los valores de otros. Los coeficientes obtenidos no deben considerarse como una contribución del parámetro correspondiente al valor del indicador. La ecuación de regresión es solo una buena descripción analítica de la DE disponible, y no una ley que describe la relación entre los parámetros y el indicador. Esta ecuación se utiliza para calcular los valores del indicador en un rango determinado de parámetros. Es conveniente de forma limitada para cálculos fuera de este rango, es decir se puede utilizar para resolver problemas de interpolación y, hasta cierto punto, para extrapolación.



La principal razón de la inexactitud del pronóstico no es tanto la incertidumbre en la extrapolación de la línea de regresión, sino una variación significativa en el indicador debido a factores no contabilizados en el modelo. La limitación de la capacidad de pronóstico es la condición de estabilidad de los parámetros no contabilizados en el modelo y la naturaleza de la influencia de los factores tomados en cuenta en el modelo. Si el entorno externo cambia drásticamente, la ecuación de regresión compilada perderá su significado. Es imposible sustituir en la ecuación de regresión valores de factores que difieren significativamente de los presentados en el ED. Se recomienda no sobrepasar un tercio del rango de variación del parámetro, tanto para los valores máximo como mínimo del factor.

El pronóstico obtenido al sustituir el valor esperado del parámetro en la ecuación de regresión es puntual. La probabilidad de que se realice tal pronóstico es insignificante. Es aconsejable determinar el intervalo de confianza del pronóstico. Para los valores individuales del indicador, el intervalo debe tener en cuenta los errores en la posición de la línea de regresión y las desviaciones de los valores individuales de esta línea. El error de pronóstico promedio del indicador y para el factor x será

dónde ¿Es el error promedio de la posición de la línea de regresión en la población general en X = x k;

- evaluación de la varianza de la desviación del indicador de la línea de regresión en la población general;

x k- el valor esperado del factor.

Los límites de confianza del pronóstico, por ejemplo, para la ecuación de regresión (7.14), están determinados por la expresión

Intersección negativa un 0 en la ecuación de regresión para las variables originales significa que el área de existencia del indicador no incluye valores cero de los parámetros. Si a 0> 0, entonces el área de existencia del indicador incluye valores cero de los parámetros, y el coeficiente en sí mismo caracteriza el valor promedio del indicador en ausencia de los efectos de los parámetros.

Tarea 7.2. Construya una ecuación de regresión para el rendimiento del canal para la muestra dada en la tabla. 7.1.

Solución. Con respecto a la muestra especificada, la construcción de la dependencia analítica en su parte principal se lleva a cabo en el marco del análisis de correlación: el rendimiento depende únicamente del parámetro "relación señal / ruido". Queda por sustituir los valores calculados previamente de los parámetros en la expresión (7.14). La ecuación del ancho de banda se convierte en

ŷ = 26,47 - 0,93 × 41,68 × 5,39 / 6,04 + 0,93 × 5,39 / 6,03 × NS = – 8,121+0,830NS.

Los resultados del cálculo se presentan en la tabla. 7.5.

Cuadro 7.5

N pp Canal de Banda ancha Relación señal / ruido Valor de función Error
Y X ŷ ε
26.37 41.98 26.72 -0.35
28.00 43.83 28.25 -0.25
27/83 42.83 27.42 0.41
31.67 47.28 31.12 0.55
23.50 38.75 24.04 -0.54
21.04 35.12 21.03 0.01
16.94 32.07 18.49 -1.55
37.56 54.25 36.90 0.66
18.84 32.70 19.02 -0.18
25.77 40.51 25.50 0.27
33.52 49.78 33.19 0.33
28.21 43.84 28.26 -0.05
28.76 44.03

Conceptos básicos del análisis de datos.

Un desafío típico en la práctica es definir dependencias o relaciones entre variables. En la vida real, las variables están relacionadas entre sí.... Por ejemplo, en marketing, la cantidad de dinero invertida en publicidad afecta las ventas; en la investigación médica, la dosis del fármaco afecta el efecto; en la producción textil, la calidad del teñido de tejidos depende de la temperatura, la humedad y otros parámetros; en metalurgia, la calidad del acero depende de aditivos especiales, etc. Encontrar dependencias de datos y utilizarlas para sus propios fines es la tarea del análisis de datos.

Suponga que está observando los valores de un par de variables X e Y y desea encontrar la relación entre ellas. Por ejemplo:

X es el número de visitantes de la tienda online, Y es el volumen de ventas;

X - diagonal del panel de plasma, Y - precio;

X es el precio de compra de las acciones, Y es el precio de venta;

X - el costo del aluminio en la Bolsa de Valores de Londres, Y - los volúmenes de ventas;

X es el número de avances en oleoductos, Y es la cantidad de pérdidas;

X es la "edad" de la aeronave, Y es el costo de su reparación;

X - área de ventas, Y - facturación de la tienda;

X es renta, Y es consumo, etc.

La variable X generalmente se llama variable independiente, la variable Y se llama variable dependiente. A veces, la variable X se llama predictor y la variable Y se llama respuesta.



Queremos determinar exactamente la dependencia de X o predecir cuáles serán los valores de Y para valores dados de X. En este caso, observamos los valores X y sus correspondientes valores Y. La tarea es construir un modelo que permita determinar Y a partir de los valores de X que difieren de los observados. En estadística, estas tareas se resuelven dentro del marco análisis de regresión.

Existen varios modelos de regresión determinado por la elección de la función f (x 1, x 2, ..., x m):

1) Regresión lineal simple

2) Regresión múltiple

3) Regresión polinomial

Impares se denominan parámetros de regresión.

La característica principal del análisis de regresión: con su ayuda, puede obtener información específica sobre la forma y la naturaleza de la relación entre las variables estudiadas.

Secuencia de pasos del análisis de regresión

1. Exposición del problema. En esta etapa, se forman hipótesis preliminares sobre la dependencia de los fenómenos investigados.

2. Determinación de variables dependientes e independientes (explicativas).

3. Recopilación de datos estadísticos. Se deben recolectar datos para cada una de las variables incluidas en el modelo de regresión.

4. Formulación de hipótesis sobre la forma de comunicación (simple o múltiple, lineal o no lineal).

5. Determinación de la función de regresión (consiste en calcular los valores numéricos de los parámetros de la ecuación de regresión)

6. Evaluación de la precisión del análisis de regresión.

7. Interpretación de los resultados obtenidos. Los resultados obtenidos del análisis de regresión se comparan con hipótesis preliminares. Se evalúa la exactitud y probabilidad de los resultados obtenidos.

8. Predicción de valores desconocidos de la variable dependiente.

Con la ayuda del análisis de regresión, es posible resolver el problema de la previsión y la clasificación. Los valores predichos se calculan sustituyendo los valores de las variables explicativas en la ecuación de regresión del parámetro. El problema de clasificación se resuelve de la siguiente manera: la línea de regresión divide todo el conjunto de objetos en dos clases, y la parte del conjunto donde el valor de la función es mayor que cero pertenece a una clase, y la parte donde está menos de cero pertenece a otra clase.

Las principales tareas del análisis de regresión: establecer la forma de dependencia, determinar la función de regresión, evaluar los valores desconocidos de la variable dependiente.

Regresión lineal

Regresión lineal se reduce a encontrar una ecuación de la forma

O . (1.1)

X- denominada variable independiente o predictor.

Y- variable dependiente o variable de respuesta. Este es el valor que esperamos y(en promedio) si conocemos el valor X, es decir. este "valor predicho y»

· a- miembro libre (intersección) de la línea de evaluación; este valor Y, cuando x = 0(Figura 1).

· B- la pendiente o pendiente de la línea evaluada; representa la cantidad por la cual Y aumenta en promedio si aumentamos X por una unidad.

· a y B se denominan coeficientes de regresión de la línea estimada, aunque este término se utiliza a menudo sólo para B.

· mi- Variables aleatorias no observables con media 0, o también se les llama errores de observación, se asume que los errores no están correlacionados entre sí.

Figura 1. Línea de regresión lineal que muestra la intersección de ay la pendiente b (la cantidad de aumento en Y cuando x aumenta en una unidad)

La ecuación de la forma permite los valores dados del factor NS tener los valores teóricos del indicador efectivo, sustituyendo los valores reales del factor en él NS... En el gráfico, los valores teóricos representan la línea de regresión.

En la mayoría de los casos (si no siempre), existe una cierta dispersión de observaciones en relación con la línea de regresión.

Recta de regresión teórica Se denomina línea alrededor de la cual se agrupan los puntos del campo de correlación y que indica la dirección principal, la tendencia principal de la conexión.

Un paso importante en el análisis de regresión es determinar el tipo de función que caracteriza la relación entre características. La base principal para elegir el tipo de ecuación debe ser un análisis significativo de la naturaleza de la dependencia estudiada, su mecanismo.

Para encontrar parámetros a y B usamos ecuaciones de regresión método de mínimos cuadrados (MCO). Al usar MCO para encontrar la función que mejor se ajusta a los datos empíricos, se cree que la suma de las desviaciones cuadradas (resto) de los puntos empíricos de la línea de regresión teórica debe ser el valor mínimo.

El ajuste se estima considerando los residuos (la distancia vertical de cada punto desde la línea, por ejemplo, residual = observado y- predicho y, Arroz. 2).

Se elige la línea de mejor ajuste de modo que la suma de los cuadrados de los residuos sea mínima.

Arroz. 2. Línea de regresión lineal con los residuos representados (líneas verticales discontinuas) para cada punto.

Después de simples transformaciones, obtenemos un sistema de ecuaciones normales del método de mínimos cuadrados para determinar los valores de los parámetros. a y B ecuaciones de correlación lineal basadas en datos empíricos:

. (1.2)

Resolviendo este sistema de ecuaciones para B, obtenemos la siguiente fórmula para determinar este parámetro:

(1.3)

Donde y son los valores promedio de y, x.

Valor de parámetro a obtenemos dividiendo ambos lados de la primera ecuación en este sistema por norte:

Parámetro B en la ecuación se llama coeficiente de regresión. En presencia de una correlación directa, el coeficiente de regresión tiene un valor positivo, y en el caso de una relación inversa, el coeficiente de regresión es negativo.

Si el signo del coeficiente de regresión es positivo, la relación entre la variable dependiente y la variable independiente será positiva.

Si el signo del coeficiente de regresión es negativo, la relación entre la variable dependiente y la variable independiente es negativa (inversa).

El coeficiente de regresión muestra cuánto, en promedio, cambia el valor del indicador efectivo y cuando cambia el atributo del factor NS por unidad, el coeficiente de regresión geométrica es la pendiente de la línea recta que representa la ecuación de correlación relativa al eje NS(para la ecuación).

Debido a la relación lineal, y esperamos que cambie a medida que cambia, y llamamos a esta variación, que es causada o explicada por regresión. La variación residual debe ser lo más pequeña posible.

Si este es el caso, entonces la mayor parte de la variación se debe a la regresión y los puntos estarán cerca de la línea de regresión, es decir, la línea coincide bien con los datos.

Una característica cuantitativa del grado de dependencia lineal entre las variables aleatorias X e Y es el coeficiente de correlación r ( Un indicador de la rigidez de la relación entre dos signos. ) .

Coeficiente de correlación:

donde x es el valor del atributo factor;

y es el valor de la característica efectiva;

n es el número de pares de datos.


Fig. 3 - Variantes de la ubicación de la "nube" de puntos

Si el coeficiente de correlación r = 1 entonces entre X y Y hay una dependencia lineal funcional, todos los puntos (x yo, y yo) yacerá en línea recta.

Si el coeficiente de correlación r = 0 (r ~ 0) entonces ellos dicen que X y Y no correlacionado, es decir no existe una relación lineal entre ellos.

La relación entre rasgos (en la escala de Chaddock) puede ser fuerte, media y débil. . La rigidez de la comunicación está determinada por el valor del coeficiente de correlación, que puede tomar valores de -1 a +1 inclusive. Los criterios para evaluar la rigidez de la comunicación se muestran en la Fig. 1.

Arroz. 4. Criterios cuantitativos para evaluar la rigidez de la comunicación

Cualquier relación entre variables tiene dos propiedades importantes: magnitud y confiabilidad. Cuanto más fuerte sea la relación entre dos variables, mayor será la magnitud de la relación y más fácil será predecir el valor de una variable a partir del valor de la otra variable. La magnitud de la relación es más fácil de medir que la confiabilidad.

La fiabilidad de la dependencia no es menos importante que su magnitud. Esta propiedad está asociada a la representatividad de la muestra en estudio. La confiabilidad de una dependencia caracteriza la probabilidad de que esta dependencia se encuentre nuevamente en otros datos.

A medida que aumenta el valor de la dependencia de las variables, su fiabilidad suele aumentar.

La proporción de la varianza total que se explica por la regresión se llama coeficiente de determinación, generalmente expresado en términos de porcentaje y denota R 2(en regresión lineal pareada, este es el valor r 2, el cuadrado del coeficiente de correlación), le permite evaluar subjetivamente la calidad de la ecuación de regresión.

El coeficiente de determinación mide la proporción del margen en relación con la media, que se "explica" por la regresión construida. El coeficiente de determinación se encuentra en el rango de 0 a 1. Cuanto más cercano sea el coeficiente de determinación a 1, mejor "explica" la regresión la dependencia en los datos, un valor cercano a cero significa la mala calidad del modelo construido. El coeficiente de determinación puede acercarse a 1 tanto como sea posible si todos los predictores son diferentes.

La diferencia es el porcentaje de varianza que no se puede explicar con la regresión.

Regresión múltiple

La regresión múltiple se utiliza en situaciones en las que no se puede distinguir un factor dominante de la multitud de factores que influyen en el rasgo efectivo y es necesario tener en cuenta la influencia de varios factores. Por ejemplo, el volumen de producción está determinado por la cantidad de activos fijos y circulantes, la cantidad de personal, el nivel de gestión, etc., el nivel de demanda depende no solo del precio, sino también de los fondos disponibles para el población.

El objetivo principal de la regresión múltiple es construir un modelo con varios factores y determinar la influencia de cada factor por separado, así como su efecto combinado en el indicador estudiado.

La regresión múltiple es una ecuación de relación con varias variables independientes:

El coeficiente de regresión es un valor absoluto por el cual el valor de una característica cambia en promedio cuando otra característica relacionada cambia en una unidad de medida específica. Definición de regresión. La relación entre y y x determina el signo del coeficiente de regresión b (si> 0 - relación directa, en caso contrario - inversa). El modelo de regresión lineal es el más utilizado y más estudiado en econometría.

1.4. Error de aproximación Estimemos la calidad de la ecuación de regresión utilizando el error de aproximación absoluto. Los valores predichos de los factores se sustituyen en el modelo y se obtienen estimaciones predictivas puntuales del indicador estudiado. Por tanto, los coeficientes de regresión caracterizan el grado de significación de los factores individuales para incrementar el nivel del indicador efectivo.

Coeficiente de regresion

Considere ahora la tarea 1 de las tareas de análisis de regresión de la p. 300-301. Uno de los resultados matemáticos de la teoría de la regresión lineal dice que la estimación N es una estimación insesgada con la varianza mínima en la clase de todas las estimaciones lineales insesgadas. Por ejemplo, puede calcular el número de resfriados en promedio a ciertos valores de la temperatura del aire mensual promedio en el período otoño-invierno.

Recta de regresión y ecuación de regresión

La regresión sigma se utiliza para construir una escala de regresión, que refleja la desviación de los valores del rasgo efectivo de su valor medio, representado en la línea de regresión. 1, x2, x3 y los valores medios correspondientes y1, y2 y3, así como los valores más pequeño (y - σy / x) y más grande (y + σy / x) (y) construyen una escala de regresión. Producción. Así, la escala de regresión dentro de los valores calculados del peso corporal le permite determinarlo en cualquier otro valor de altura o evaluar el desarrollo individual del niño.

En forma de matriz, la ecuación de regresión (RE) se escribe como: Y = BX + U (\ displaystyle Y = BX + U), donde U (\ displaystyle U) es la matriz de error. El uso estadístico de la palabra "regresión" proviene de un fenómeno conocido como regresión a la media, atribuido a Sir Francis Galton (1889).

La regresión lineal emparejada se puede ampliar para incluir más de una variable independiente; en este caso, se conoce como regresión múltiple. Tanto para valores atípicos como para observaciones “influyentes” (puntos), se utilizan modelos, con y sin ellos, prestando atención al cambio en la estimación (coeficientes de regresión).

Debido a la relación lineal, y esperamos que cambie a medida que cambia, y llamamos a esta variación, que es causada o explicada por regresión. Si este es el caso, entonces la mayor parte de la variación se debe a la regresión y los puntos estarán cerca de la línea de regresión, es decir, la línea coincide bien con los datos. La diferencia es el porcentaje de varianza que no se puede explicar con la regresión.

Este método se utiliza para imagen visual formas de conexión entre los indicadores económicos estudiados. Basado en el campo de correlación, se puede hipotetizar (para la población general) que la relación entre todos los valores posibles de X e Y es lineal.

Razones de la existencia de un error aleatorio: 1. No incluir variables explicativas significativas en el modelo de regresión; 2. Agregación de variables. Sistema de ecuaciones normales. En nuestro ejemplo, la conexión es directa. Para predecir la variable dependiente del indicador efectivo, es necesario conocer los valores predichos de todos los factores incluidos en el modelo.

Comparación de coeficientes de correlación y regresión

Con una probabilidad del 95%, se puede garantizar que los valores de Y en un número ilimitado un número grande las observaciones no irán más allá de los intervalos encontrados. Si el valor calculado con lang = EN-US> n-m-1) grados de libertad es mayor que el valor tabular para un nivel de significancia dado, entonces el modelo se considera significativo. Esto asegura que no haya correlación entre las posibles desviaciones y, en particular, entre las desviaciones adyacentes.

Coeficientes de regresión y su interpretación

En la mayoría de los casos, la autocorrelación positiva se debe a la influencia constante direccional de algunos factores que no se tuvieron en cuenta en el modelo. La autocorrelación negativa significa efectivamente que una desviación positiva es seguida por una negativa y viceversa.

¿Qué es la regresión?

2. Inercia. Muchos indicadores económicos (inflación, desempleo, PNB, etc.) tienen una cierta naturaleza cíclica asociada a la forma de onda de la actividad empresarial. En muchas áreas industriales y de otro tipo, los indicadores económicos responden a los cambios en las condiciones económicas con un desfase (desfase temporal).

Si se lleva a cabo la estandarización preliminar de los indicadores de factores, entonces b0 es igual al valor promedio del indicador efectivo en el agregado. Los valores específicos de los coeficientes de regresión se determinan a partir de datos empíricos según el método de mínimos cuadrados (como resultado de la resolución de sistemas de ecuaciones normales).

La ecuación de regresión lineal tiene la forma y = bx + a + ε Aquí ε es un error aleatorio (desviación, perturbación). Dado que el error es superior al 15%, no es deseable utilizar esta ecuación como regresión. Sustituyendo los valores x correspondientes en la ecuación de regresión, puede determinar los valores alineados (predichos) del indicador y (x) efectivo para cada observación.

Coeficientes de regresión mostrar la intensidad de la influencia de los factores en el indicador efectivo. Si se lleva a cabo la estandarización preliminar de los indicadores de factores, entonces b 0 es igual al valor promedio del indicador efectivo en el agregado. Los coeficientes b 1, b 2, ..., b n muestran cuántas unidades el nivel del indicador efectivo se desvía de su media si los valores del indicador de factor se desvían de la media igual a cero en una desviación estándar. Por tanto, los coeficientes de regresión caracterizan el grado de significación de los factores individuales para incrementar el nivel del indicador efectivo. Los valores específicos de los coeficientes de regresión se determinan a partir de datos empíricos según el método de mínimos cuadrados (como resultado de la resolución de sistemas de ecuaciones normales).

Línea de regresión- la línea que refleja con mayor precisión la distribución de puntos experimentales en el diagrama de dispersión y la inclinación de la pendiente que caracteriza la relación entre dos variables de intervalo.

La línea de regresión se busca con mayor frecuencia como una función lineal (regresión lineal) que se aproxima mejor a la curva deseada. Esto se hace usando el método de mínimos cuadrados, cuando se minimiza la suma de los cuadrados de las desviaciones realmente observadas de sus estimaciones (nos referimos a estimaciones usando una línea recta que dice representar la dependencia de regresión deseada):

(M es el tamaño de la muestra). Este enfoque se basa en el hecho hecho conocido que la suma que aparece en la expresión anterior toma el valor mínimo precisamente para el caso cuando.
57. Las principales tareas de la teoría de la correlación.

La teoría de la correlación es un aparato que evalúa la estrechez de las conexiones entre fenómenos que no se encuentran solo en relaciones causales. Con la ayuda de la teoría de la correlación, se estiman las relaciones estocásticas, pero no las causales. El autor, junto con M. L. Lukatskaya, intentó obtener estimaciones de las relaciones causales. Sin embargo, la cuestión de la relación causal de los fenómenos, de cómo identificar la causa y el efecto, permanece abierta, y parece que a nivel formal es fundamentalmente imposible de resolver.

Teoría de la correlación y su aplicación al análisis de la producción.

La teoría de la correlación, que es una de las ramas de la estadística matemática, permite hacer suposiciones razonables sobre los posibles límites en los que se ubicará el parámetro investigado con cierto grado de confiabilidad si otros parámetros relacionados estadísticamente reciben ciertos valores.

En la teoría de la correlación, se acostumbra distinguir dos tareas principales.

Primera tarea teoría de la correlación: para establecer la forma de la correlación, es decir, tipo de función de regresión (lineal, cuadrática, etc.).

Segunda tarea teoría de la correlación: para evaluar la rigidez (fuerza) de la correlación.

La rigidez de la correlación (dependencia) Y de X se estima por la magnitud de la dispersión de los valores de Y alrededor de la media condicional. Una dispersión grande indica una dependencia débil de Y con respecto a X, una dispersión pequeña indica una dependencia fuerte.
58. Tabla de correlaciones y sus características numéricas.

En la práctica, como resultado de observaciones independientes de las cantidades X e Y, por regla general, no se trata con el conjunto completo de todos los posibles pares de valores de estas cantidades, sino solo con una muestra limitada de la población general, y el volumen n muestra de población se define como el número de pares de la muestra.

Deje que el valor X en la muestra tome los valores x 1, x 2, .... xm, donde el número de valores diferentes de este valor, y en el caso general, cada uno de ellos en la muestra puede ser repetido. Dejemos que el valor Y en la muestra tome los valores y 1, y 2, .... yk, donde k es el número de valores diferentes de este valor, y en el caso general, cada uno de ellos en la muestra también se puede repetir. En este caso, los datos se ingresan en la tabla, teniendo en cuenta las frecuencias de ocurrencia. Una tabla de este tipo con datos agrupados se denomina tabla de correlación.

La primera etapa del procesamiento estadístico de los resultados es la compilación de una tabla de correlación.

Y \ X x 1 x 2 ... x m n y
año 1 n 12 n 21 n m1 n y1
y 2 n 22 n m2 n y2
...
y k n 1k n 2k n mk n yk
n x n x1 n x2 n xm norte

La primera fila de la parte principal de la tabla enumera en orden ascendente todos los valores de X en la muestra. La primera columna también enumera en orden ascendente todos los valores de Y en la muestra. En la intersección del correspondiente filas y columnas, las frecuencias n ij (i = 1,2, ..., m; j = 1,2, ..., k) igual al número de apariciones del par (xi; yi) en la muestra . Por ejemplo, la frecuencia n 12 es el número de ocurrencias en la muestra del par (x 1; y 1).

También n xi n ij, 1≤i≤m, la suma de los elementos de la i-ésima columna, n yj n ij, 1≤j≤k, es la suma de los elementos de la j-ésima fila yn xi = n yj = n

Los análogos de las fórmulas obtenidas a partir de los datos de la tabla de correlación son los siguientes:


59. Líneas de regresión empíricas y teóricas.

Recta de regresión teórica se puede calcular en este caso a partir de los resultados de las observaciones individuales. Para resolver el sistema de ecuaciones normales, necesitamos los mismos datos: x, y, xy y xr. Disponemos de datos sobre el volumen de producción de cemento y el volumen de las principales activos de producción en 1958 Se establece la tarea: investigar la relación entre el volumen de producción de cemento (en términos físicos) y el volumen de activos fijos. [ 1 ]

Cuanto menos se desvía la línea de regresión teórica (calculada por la ecuación) de la real (empírica), menor es el error de aproximación promedio.

El proceso de encontrar la línea de regresión teórica es el aplanamiento de la línea de regresión empírica con base en el método de mínimos cuadrados.

El proceso de encontrar una línea de regresión teórica se denomina alineación de línea de regresión empírica y consiste en elegir y justificar un tipo; curva y el cálculo de los parámetros de su ecuación.

La regresión empírica se basa en los datos de agrupaciones analíticas o de combinación y representa la dependencia de los valores medios de grupo del atributo de resultado de los valores medios de grupo del factor de atributo. La representación gráfica de la regresión empírica es una línea discontinua formada por puntos, cuyas abscisas son los valores medios de grupo del atributo-factor, y las ordenadas son los valores medios de grupo del atributo-resultado. El número de puntos es igual al número de grupos en la agrupación.

La línea de regresión empírica refleja la tendencia principal de la dependencia considerada. Si la línea de regresión empírica en su apariencia se aproxima a una línea recta, entonces podemos asumir la presencia de una correlación en línea recta entre las características. Y si la línea de comunicación se acerca a la curva, esto puede deberse a la presencia de una correlación curvilínea.
60. Coeficientes seleccionados de correlación y regresión.

Si la relación entre los signos del gráfico indica una correlación lineal, calcule coeficiente de correlación r, que permite evaluar la cercanía de la relación de variables, así como conocer qué proporción de cambios en el rasgo se debe a la influencia del rasgo principal, que es la influencia de otros factores. El coeficiente varía de –1 a +1. Si r= 0, entonces no hay conexión entre las funciones. Igualdad r= 0 indica solo la ausencia de una dependencia de correlación lineal, pero no en general sobre la ausencia de una correlación, y más aún una dependencia estadística. Si r= ± 1, esto significa la presencia de una conexión completa (funcional). En este caso, todos los valores observados se ubican en la línea de regresión, que es una línea recta.
La importancia práctica del coeficiente de correlación está determinada por su valor al cuadrado, que se denomina coeficiente de determinación.
Regresión aproximada (descrita a grandes rasgos) por una función lineal y = kX + b. Para la regresión Y sobre X, la ecuación de regresión es: `y x = ryx X + b; (1). El ryx de la pendiente de la línea de regresión Y-sobre-X se denomina coeficiente de regresión Y-sobre-X.

Si la ecuación (1) se encuentra a partir de datos de muestra, entonces se llama muestra de la ecuación de regresión... En consecuencia, ryx es el coeficiente de regresión de la muestra Y-X, y b es la intersección de la muestra. El coeficiente de regresión mide la variación Y por unidad de variación X. Los parámetros de la ecuación de regresión (coeficientes ryx yb) se encuentran utilizando el método de mínimos cuadrados.
61. Evaluación de la importancia del coeficiente de correlación y la rigidez de la correlación en la población general

Importancia de los coeficientes de correlación verificado por el criterio del estudiante:

dónde - error cuadrático medio del coeficiente de correlación, que se determina mediante la fórmula:

Si el valor calculado (superior al valor tabular, se puede concluir que el valor del coeficiente de correlación es significativo. t se encuentran de acuerdo con la tabla de valores de los criterios del Alumno. Esto tiene en cuenta el número de grados de libertad. (V = n - 1) y el nivel de confianza (en cálculos económicos, generalmente 0.05 o 0.01). En nuestro ejemplo, el número de grados de libertad es: NS - 1 = 40 - 1 = 39. En el nivel de confianza R = 0,05; t= 2,02. Dado que (el real en todos los casos es mayor que el t-tabular, la relación entre los indicadores efectivos y factoriales es confiable y el valor de los coeficientes de correlación es significativo.

Estimación del coeficiente de correlación calculado a partir de una muestra limitada casi siempre es diferente de cero. Pero todavía no se sigue de esto que el coeficiente de correlación la población en general también distinto de cero. Se requiere evaluar la significancia del valor muestral del coeficiente o, de acuerdo con la formulación de los problemas de prueba de hipótesis estadísticas, probar la hipótesis de que el coeficiente de correlación es igual a cero. Si la hiptesis norte Se rechazará 0 sobre la igualdad del coeficiente de correlación con cero, entonces el coeficiente muestral es significativo y los valores correspondientes están relacionados por una relación lineal. Si la hipótesis norte Se acepta 0, entonces la estimación del coeficiente no es significativa y los valores no están relacionados linealmente entre sí (si, por razones físicas, los factores pueden estar relacionados, entonces es mejor decir que esta relación no tiene establecido con base en el ED disponible). Probar la hipótesis sobre la importancia de la estimación del coeficiente de correlación requiere conocer la distribución de esta variable aleatoria. Distribución de cantidad  ik estudiado sólo para un caso especial cuando las variables aleatorias U j y Reino Unido distribuido según la ley normal.

Como criterio para probar la hipótesis nula norte 0 aplicar variable aleatoria ... Si el módulo del coeficiente de correlación está relativamente lejos de la unidad, entonces el valor t si la hipótesis nula es cierta, se distribuye según la ley de Student con norte- 2 grados de libertad. Hipótesis en competencia norte 1 corresponde a la afirmación de que el valor  ik distinto de cero (mayor o menor que cero). Por tanto, el área crítica tiene dos caras.
62. Cálculo del coeficiente de correlación muestral y construcción de la ecuación muestral de la recta de regresión.

Coeficiente de correlación selectiva se encuentra por la fórmula

donde están las desviaciones estándar de la muestra de los valores y.

El coeficiente de correlación muestral muestra la cercanía de la relación lineal entre y: cuanto más cerca de uno, más fuerte es la relación lineal entre y.

La regresión lineal simple encuentra la relación lineal entre una variable de entrada y una variable de salida. Para hacer esto, se determina una ecuación de regresión: este es un modelo que refleja la dependencia de los valores de Y, se describe el valor dependiente de Y de los valores de x, la variable independiente x y la población general por la ecuación:

dónde A0- término libre de la ecuación de regresión;

A1- coeficiente de la ecuación de regresión

Luego se construye la línea recta correspondiente, llamada línea de regresión. Los coeficientes А0 y А1, también llamados parámetros del modelo, se eligen de modo que la suma de los cuadrados de las desviaciones de los puntos correspondientes a las observaciones reales de los datos de la línea de regresión sea mínima. La selección de coeficientes se realiza mediante el método de mínimos cuadrados. En otras palabras, la regresión lineal simple describe un modelo lineal que se aproxima mejor a la relación entre una variable de entrada y una variable de salida.

Compartir este