Análisis de coeficientes de correlación. Análisis de correlación y regresión en Excel: instrucciones de ejecución.

El artículo analiza las definiciones de correlación, análisis de correlación y coeficiente de correlación. Se da una definición de correlación y sus principales características.

  • Análisis de correlación y regresión en el estudio de factores de fecundidad.
  • Evaluación de los factores de fertilidad en la República de Bashkortostán.

Los investigadores a menudo están interesados ​​en cómo dos o gran cantidad variables en una o más muestras de estudio. Por ejemplo, se puede observar tal relación entre el error en el procesamiento de hardware de datos experimentales y la magnitud de las sobretensiones de la red. Otro ejemplo es la relación entre la capacidad del enlace de datos y la relación señal-ruido.

En 1886, el naturalista inglés Francis Galton acuñó el término “correlación” para describir la naturaleza de este tipo de interacción. Más tarde, su alumno Karl Pearson desarrolló fórmula matemática, lo que permite dar una valoración cuantitativa de las correlaciones de características.

Las dependencias entre cantidades (factores, características) se dividen en dos tipos: funcionales y estadísticas.

Con dependencias funcionales, cada valor de una variable corresponde a un determinado valor de otra variable. Además, la conexión funcional de dos factores sólo es posible con la condición de que la segunda cantidad dependa únicamente de la primera y no dependa de ninguna otra cantidad. Si una cantidad depende de muchos factores, una conexión funcional es posible si la primera cantidad no depende de otros factores distintos de los incluidos en el conjunto especificado.

Con dependencia estadística, un cambio en una de las cantidades implica un cambio en la distribución de otras cantidades, que con ciertas probabilidades toman ciertos valores.

De mucho mayor interés es otro caso especial dependencia estadística, cuando existe una relación entre los valores de algunos variables aleatorias con el valor medio de otras, con la particularidad de que en cada caso individual cualquiera de las cantidades interrelacionadas puede tomar valores diferentes.

Este tipo de dependencia entre variables se llama correlación o correlación.

Análisis de correlación- un método que le permite detectar una relación entre varias variables aleatorias.

El análisis de correlación resuelve dos problemas principales:

  • La primera tarea es determinar la forma de comunicación, es decir. al establecer forma matemática, en el que se expresa esta relación. Esto es muy importante, porque desde la elección correcta La forma de comunicación depende del resultado final del estudio de la relación entre características.
  • La segunda tarea es medir el hacinamiento, es decir medidas de conexión entre características para establecer el grado de influencia de un factor determinado en el resultado. Se resuelve matemáticamente determinando los parámetros de la ecuación de correlación.

Luego los resultados obtenidos se evalúan y analizan utilizando indicadores especiales del método de correlación (coeficientes de determinación, correlación lineal y múltiple, etc.), además de comprobar la importancia de la relación entre las características en estudio.

Las siguientes tareas se resuelven utilizando métodos de análisis de correlación:

  1. Relación. ¿Existe una relación entre los parámetros?
  2. Previsión. Si se conoce el comportamiento de un parámetro, entonces se puede predecir el comportamiento de otro parámetro que se correlacione con el primero.
  3. Clasificación e identificación de objetos. El análisis de correlación ayuda a seleccionar un conjunto de características independientes para su clasificación.

La correlación es una relación estadística entre dos o más variables aleatorias (o valores que pueden considerarse como tales con algún grado aceptable de precisión). Su esencia radica en el hecho de que cuando cambia el valor de una variable, se produce un cambio natural (disminución o aumento) de otra variable.

El coeficiente de correlación se utiliza para determinar si existe una relación entre dos propiedades.

Coeficiente de correlación p para población, por regla general, es desconocido, por lo que se estima a partir de datos experimentales, que son una muestra de n pares de valores (x i, y i), obtenidos midiendo conjuntamente dos características X e Y. El coeficiente de correlación se determina a partir de datos de muestra. se llama coeficiente de correlación muestral (o simplemente coeficiente de correlación). Generalmente se denota con el símbolo r.

Las principales propiedades del coeficiente de correlación incluyen:

  1. Los coeficientes de correlación solo pueden caracterizar relaciones lineales, es decir aquellas que se expresan mediante la ecuación de una función lineal. Si existe una relación no lineal entre características variables, se deben utilizar otros indicadores de conexión.
  2. Los valores de los coeficientes de correlación son números abstractos que van de -1 a +1, es decir -1< r < 1.
  3. Con variación independiente de características, cuando no existe conexión entre ellas, r = 0.
  4. Con una relación positiva, o directa, cuando con un aumento en los valores de una característica aumentan los valores de otra, el coeficiente de correlación adquiere un signo positivo (+) y oscila entre 0 y +1, es decir 0< r < 1.
  5. Con una relación negativa o inversa, cuando con un aumento en los valores de una característica los valores de otra disminuyen en consecuencia, el coeficiente de correlación va acompañado de un signo negativo (–) y oscila entre 0 y –1, es decir -1< r <0.
  6. Cuanto más fuerte sea la conexión entre las características, más cercano será el coeficiente de correlación a ô1ô. Si r = ± 1, entonces la relación de correlación se vuelve funcional, es decir Cada valor del atributo X corresponderá a uno o más valores estrictamente definidos del atributo Y.
  7. La confiabilidad de la correlación entre características no puede juzgarse únicamente por la magnitud de los coeficientes de correlación. Este parámetro depende del número de grados de libertad k = n –2, donde: n es el número de pares correlacionados de indicadores X e Y. Cuanto mayor sea n, mayor será la confiabilidad de la relación para el mismo valor del coeficiente de correlación .

El coeficiente de correlación se calcula mediante la siguiente fórmula:

donde x es el valor de la característica del factor; y - el valor del atributo resultante; n - número de pares de datos.

La correlación se estudia sobre la base de datos experimentales, que son los valores medidos x i ,y i de dos características x,y. Si hay relativamente pocos datos experimentales, entonces la distribución empírica bidimensional se representa como una serie doble de valores x i , y i . Al mismo tiempo, la correlación entre características se puede describir de diferentes maneras. La correspondencia entre un argumento y una función puede estar dada por una tabla, fórmula, gráfica, etc.

Cuando se estudia la correlación entre rasgos cuantitativos cuyos valores pueden medirse con precisión en unidades de escalas métricas, muy a menudo se adopta un modelo de población bivariado con distribución normal. Un modelo de este tipo muestra gráficamente la relación entre las variables xey en forma de una ubicación geométrica de puntos en un sistema de coordenadas rectangular. Esta relación gráfica se llama diagrama de dispersión o campo de correlación.

Este modelo de distribución normal bidimensional (campo de correlación) nos permite dar una interpretación gráfica clara del coeficiente de correlación, porque La distribución depende colectivamente de cinco parámetros:

  • expectativas matemáticas E[x], E[y] de los valores x,y;
  • desviaciones estándar px, py de variables aleatorias x,y;
  • coeficiente de correlación p, que es una medida de la relación entre las variables aleatorias, x e y. Demos ejemplos de campos de correlación.

Si p = 0, entonces los valores x i ,y i obtenidos de la población normal bidimensional se ubican en el gráfico dentro del área limitada por el círculo. En este caso, no existe correlación entre las variables aleatorias xey, y se denominan no correlacionadas. Para una distribución normal bivariada, la falta de correlación significa simultáneamente independencia de las variables aleatorias x e y.

Si p = 1 o p = -1, entonces hablamos de correlación completa, es decir, existe una dependencia funcional lineal entre las variables aleatorias x e y.

Cuando p = 1, los valores de x i,y i determinan los puntos que se encuentran en una línea recta con pendiente positiva (con un aumento en x i, los valores de y i también aumentan).

En casos intermedios, cuando -1< p <1, определяемые значениями x i ,y i точки попадают в область, ограниченную некоторым эллипсом, причём при p>0 existe una correlación positiva (con un aumento de x, los valores de y generalmente tienden a aumentar), con p<0 корреляция отрицательная. Чем ближе p к ±1, тем уже эллипс и тем теснее точки, определяемые экспериментальными значениями, группируются около прямой линии.

Aquí vale la pena prestar atención al hecho de que la línea a lo largo de la cual se agrupan los puntos puede ser no solo una línea recta, sino también tener cualquier otra forma: parábola, hipérbola, etc. En estos casos, se considera una correlación no lineal.

La dependencia de correlación entre características se puede describir de diferentes maneras, en particular, cualquier forma de conexión se puede expresar mediante una ecuación general y=f(x), donde la característica y es una variable dependiente o una función de una variable independiente x, llamado argumento.

Así, el análisis visual del campo de correlación ayuda a determinar no sólo la presencia de una relación estadística (lineal o no lineal) entre las características en estudio, sino también su cercanía y forma.

Al estudiar una conexión de correlación, un área importante de análisis es evaluar el grado de cercanía de la conexión. El concepto del grado de cercanía de la conexión entre dos características surge debido al hecho de que, en realidad, muchos factores influyen en el cambio en la característica resultante. En este caso, la influencia de uno de los factores puede expresarse de forma más notoria y clara que la influencia de otros factores. A medida que cambian las condiciones, el papel del factor decisivo puede pasar a ocupar otra característica.

Al estudiar estadísticamente las relaciones, por regla general, sólo se tienen en cuenta los factores principales. Además, teniendo en cuenta el grado de cercanía de la conexión, se evalúa la necesidad de un estudio más detallado de esta conexión en particular y la importancia de su uso práctico.

En general, el conocimiento de una evaluación cuantitativa de la cercanía de la correlación nos permite resolver el siguiente grupo de preguntas:

  • la necesidad de un estudio en profundidad de esta relación entre signos y la viabilidad de su aplicación práctica;
  • el grado de diferencias en la manifestación de la conexión en condiciones específicas (comparando la evaluación de la cercanía de la conexión para diferentes condiciones);
  • Identificación de factores mayores y menores en condiciones específicas dadas mediante consideración secuencial y comparación de un rasgo con varios factores.

Los indicadores de cercanía de la conexión deben cumplir una serie de requisitos básicos:

  • el valor del indicador de cercanía de la conexión debe ser igual o cercano a cero si no existe conexión entre las características (procesos, fenómenos) que se estudian;
  • si existe una conexión funcional entre las características estudiadas, el valor del indicador de cercanía de la conexión debe ser igual a uno;
  • si existe correlación entre las características, el valor absoluto del indicador de cercanía de la conexión debe expresarse como una fracción propia, cuanto mayor sea el valor, más cercana será la conexión entre las características estudiadas (tiende a la unidad).

La dependencia de la correlación está determinada por varios parámetros, entre los cuales los más utilizados son los indicadores emparejados que caracterizan la relación entre dos variables aleatorias: el coeficiente de covarianza (momento de correlación) y el coeficiente de correlación lineal (coeficiente de correlación de Pearson).

La resistencia de la conexión está determinada por el valor absoluto del indicador de estanqueidad de la conexión y no depende de la dirección de la conexión.

Dependiendo del valor absoluto del coeficiente de correlación p, las correlaciones entre características se dividen por fuerza de la siguiente manera:

  • fuerte o apretado (en p >0,70);
  • promedio (a 0,50< p <0,69);
  • moderado (a 0,30< p <0,49);
  • débil (a 0,20< p <0,29);
  • muy débil (en p<0,19).

La forma de la relación de correlación puede ser lineal o no lineal.

Por ejemplo, la relación entre el nivel de formación de un estudiante y las calificaciones finales de certificación puede ser lineal. Un ejemplo de relación no lineal es el nivel de motivación y la eficacia para completar una tarea determinada. (A medida que aumenta la motivación, primero aumenta la eficiencia para completar una tarea; luego, a un cierto nivel de motivación, se logra la máxima eficiencia; pero un mayor aumento de la motivación va acompañado de una disminución de la eficiencia).

En dirección, la relación de correlación puede ser positiva (directa) y negativa (inversa).

Con una correlación lineal positiva, los valores más altos de una característica corresponden a valores más altos de otra, y los valores más bajos de una característica corresponden a valores más bajos de otra. Con una correlación negativa, las relaciones se invierten.

El signo del coeficiente de correlación depende de la dirección de la correlación: con una correlación positiva, el coeficiente de correlación tiene un signo positivo, con una correlación negativa, tiene un signo negativo.

Bibliografía

  1. Ableeva, A. M. Formación de un fondo de herramientas de evaluación en las condiciones del Estándar Educativo del Estado Federal [Texto] / A. M. Ableeva, G. A. Salimova // Problemas actuales de la enseñanza de disciplinas sociales, humanitarias, de ciencias naturales y técnicas en el contexto de la modernización de la educación superior educación: materiales conferencia científica y metodológica internacional, 4-5 de abril de 2014 / Universidad Agraria Estatal de Bashkir, Facultad de Tecnologías y Gestión de la Información. - Ufá, 2014. - págs.11-14.
  2. Ganieva, A.M. Análisis estadístico del empleo y el desempleo [Texto] / A.M. Ganieva, T.N. Lubova // Temas de actualidad de la investigación económico-estadística y las tecnologías de la información: colección de artículos. científico Art.: dedicado al 40 aniversario de la creación del departamento de “Estadística y Sistemas de Información en Economía” / Universidad Agraria Estatal de Bashkir. - Ufá, 2011. - págs. 315-316.
  3. Ismagilov, R. R. Grupo creativo: una forma eficaz de organizar la investigación científica en la educación superior [Texto] / R. R. Ismagilov, M. Kh. Urazlin, D. R. Islamgulov // Complejos científicos, técnicos y científico-educativos de la región: problemas y perspectivas de desarrollo: Materiales de una conferencia científico-práctica / Academia de Ciencias de la República de Bielorrusia, UGATU. - Ufá, 1999. - págs. 105-106.
  4. Islamgulov, D.R. Enfoque de la enseñanza basado en competencias: evaluación de la calidad de la educación [Texto] / D.R. Islamgulov, T.N. Lubova, I.R. Islamgulova // Boletín científico moderno. – 2015. – T. 7. – No. 1. – P. 62-69.
  5. Islamgulov, D. R. El trabajo de investigación de los estudiantes es el elemento más importante en la formación de especialistas en una universidad agrícola [Texto] / D. R. Islamgulov // Problemas de la formación práctica de los estudiantes en una universidad en la etapa actual y formas de resolverlos: recopilación. materiales método científico. Conf., 24 de abril de 2007 / Universidad Agraria Estatal de Bashkir. - Ufá, 2007. - págs.20-22.
  6. Lubova, T.N. La base para la implementación del estándar educativo estatal federal es el enfoque basado en competencias [Texto] / T.N. Lubova, DR. Islamgulov, I.R. Islamgulova // BODEST INVESTIGACIÓN - 2016: Materiales para la XII Conferencia Científica y Práctica Internacional, del 15 al 22 de febrero de 2016. - Sofía: Byal GRAD-BG OOD, 2016. - Volumen 4 Ciencias pedagógicas. – págs. 80-85.
  7. Lubova, T.N. Nuevos estándares educativos: características de implementación [Texto] / T.N. Lubova, DR. Islamgulov // Boletín científico moderno. – 2015. – T. 7. – No. 1. – P. 79-84.
  8. Lubova, T.N. Organización del trabajo independiente de los estudiantes [Texto] / T.N. Lubova, DR. Islamgulov // Implementación de programas educativos de educación superior en el marco del Estándar Educativo de Educación Superior del Estado Federal: materiales de la conferencia científica y metodológica de toda Rusia en el marco de la reunión visitante del Consejo Médico Nacional sobre gestión ambiental y agua. uso de la Institución Educativa Federal en el sistema de educación superior. / Universidad Agraria Estatal de Bashkir. - Ufá, 2016. - págs.214-219.
  9. Lubova, T.N. La base para la implementación del estándar educativo estatal federal es el enfoque basado en competencias [Texto] / T.N. Lubova, DR. Islamgulov, I.R. Islamgulova // Boletín científico moderno. – 2015. – T. 7. – No. 1. – P. 85-93.
  10. Saubanova, L.M. Nivel de carga demográfica [Texto] / L.M. Saubanova, T.N. Lubova // Temas de actualidad de la investigación económico-estadística y las tecnologías de la información: colección de artículos. científico Art.: dedicado al 40 aniversario de la creación del departamento de “Estadística y Sistemas de Información en Economía” / Universidad Agraria Estatal de Bashkir. - Ufá, 2011. - P. 321-322.
  11. Fakhrullina, A.R. Análisis estadístico de la inflación en Rusia [Texto] / A.R. Fakhrullina, T.N. Lubova // Temas de actualidad de la investigación económico-estadística y las tecnologías de la información: colección de artículos. científico Art.: dedicado al 40 aniversario de la creación del departamento de “Estadística y Sistemas de Información en Economía” / Universidad Agraria Estatal de Bashkir. - Ufá, 2011. - págs. 323-324.
  12. Farhutdinova, A.T. Mercado laboral en la República de Bashkortostán en 2012 [recurso electrónico] / A.T. Farkhutdinova, T.N. Lubova // Foro científico estudiantil. Materiales del V Congreso Científico Electrónico Internacional de Estudiantes: congreso científico electrónico (colección electrónica). Academia Rusa de Ciencias Naturales. 2013.

Análisis de correlación

Correlación- relación estadística entre dos o más variables aleatorias (o variables que pueden considerarse como tales con algún grado aceptable de precisión). Además, los cambios en una o más de estas cantidades conducen a un cambio sistemático en otra u otras cantidades. Una medida matemática de la correlación entre dos variables aleatorias es el coeficiente de correlación.

La correlación puede ser positiva y negativa (también es posible que no exista una relación estadística, por ejemplo, para variables aleatorias independientes). Correlación negativa - correlación, en la que un aumento de una variable se asocia con una disminución de otra variable y el coeficiente de correlación es negativo. Correlacion positiva - correlación, en la que un aumento de una variable se asocia con un aumento de otra variable y el coeficiente de correlación es positivo.

Autocorrelación - relación estadística entre variables aleatorias de la misma serie, pero tomadas con un desplazamiento, por ejemplo, para un proceso aleatorio, con un desplazamiento en el tiempo.

Dejar X,Y- dos variables aleatorias definidas en un espacio de probabilidad. Entonces su coeficiente de correlación viene dado por la fórmula:

,

donde cov denota covarianza y D es varianza, o equivalentemente,

,

donde el símbolo denota la expectativa matemática.

Para representar gráficamente dicha relación, puede utilizar un sistema de coordenadas rectangular con ejes que correspondan a ambas variables. Cada par de valores está marcado con un símbolo específico. Este gráfico se llama "diagrama de dispersión".

El método para calcular el coeficiente de correlación depende del tipo de escala a la que pertenecen las variables. Así, para medir variables con escalas interválicas y cuantitativas, es necesario utilizar el coeficiente de correlación de Pearson (correlación momento-producto). Si al menos una de las dos variables está en una escala ordinal o no tiene una distribución normal, se debe utilizar la correlación de rangos de Spearman o la τ (tau) de Kendal. En el caso de que una de las dos variables sea dicotómica, se utiliza una correlación biserial puntual, y si ambas variables son dicotómicas: una correlación de cuatro campos. Calcular el coeficiente de correlación entre dos variables no dicotómicas sólo tiene sentido cuando la relación entre ellas es lineal (unidireccional).

Coeficiente de correlación de Kendell

Se utiliza para medir el desorden mutuo.

Coeficiente de correlación de Spearman

Propiedades del coeficiente de correlación

Si tomamos la covarianza como el producto escalar de dos variables aleatorias, entonces la norma de la variable aleatoria será igual a , y la consecuencia de la desigualdad de Cauchy-Bunyakovsky será: . , Dónde . Además, en este caso los signos y k emparejar: .

Análisis de correlación

Análisis de correlación- método de procesamiento de datos estadísticos, que consiste en estudiar coeficientes ( correlaciones) entre variables. En este caso, se comparan los coeficientes de correlación entre un par o muchos pares de características para establecer relaciones estadísticas entre ellas.

Objetivo Análisis de correlación- proporcionar información sobre una variable utilizando otra variable. En los casos en los que es posible alcanzar un objetivo, se dice que las variables son correlación. En su forma más general, aceptar la hipótesis de una correlación significa que un cambio en el valor de la variable A ocurrirá simultáneamente con un cambio proporcional en el valor de B: si ambas variables aumentan, entonces la correlación es positiva, si una variable aumenta y la otra disminuye, la correlación es negativa.

La correlación refleja sólo la dependencia lineal de los valores, pero no refleja su conectividad funcional. Por ejemplo, si calcula el coeficiente de correlación entre las cantidades A = sinorte(X) Y B = Cohs(X) , entonces será cercano a cero, es decir, no hay dependencia entre las cantidades. Mientras tanto, las cantidades A y B están obviamente relacionadas funcionalmente según la ley sinorte 2 (X) + Cohs 2 (X) = 1 .

Limitaciones del análisis de correlación

Gráficas de distribuciones de pares (x,y) con los coeficientes de correlación x e y correspondientes para cada uno de ellos. Tenga en cuenta que el coeficiente de correlación refleja una relación lineal (línea superior), pero no describe una curva de relación (línea media) y no es en absoluto adecuado para describir relaciones complejas y no lineales (línea inferior).

  1. La aplicación es posible si hay un número suficiente de casos para estudiar: para un tipo particular, el coeficiente de correlación varía de 25 a 100 pares de observaciones.
  2. La segunda limitación se deriva de la hipótesis del análisis de correlación, que incluye dependencia lineal de variables. En muchos casos, cuando se sabe de manera confiable que existe una relación, es posible que el análisis de correlación no arroje resultados simplemente porque la relación no es lineal (expresada, por ejemplo, como una parábola).
  3. El mero hecho de la correlación no proporciona fundamento para afirmar cuál de las variables precede o causa cambios, o que las variables generalmente están relacionadas causalmente entre sí, por ejemplo, debido a la acción de un tercer factor.

Área de aplicación

Este método de procesamiento de datos estadísticos es muy popular en economía y ciencias sociales (en particular en psicología y sociología), aunque el ámbito de aplicación de los coeficientes de correlación es amplio: control de calidad de productos industriales, metalurgia, agroquímica, hidrobiología, biometría y otros.

La popularidad del método se debe a dos factores: los coeficientes de correlación son relativamente fáciles de calcular y su uso no requiere una formación matemática especial. Combinada con su facilidad de interpretación, la facilidad de aplicación del coeficiente ha llevado a su uso generalizado en el campo del análisis de datos estadísticos.

Falsa correlación

A menudo, la tentadora simplicidad de la investigación de correlación anima al investigador a sacar conclusiones intuitivas falsas sobre la presencia de una relación de causa y efecto entre pares de características, mientras que los coeficientes de correlación establecen sólo relaciones estadísticas.

De hecho, en la metodología cuantitativa moderna de las ciencias sociales se han abandonado los intentos de establecer relaciones de causa y efecto entre variables observadas utilizando métodos empíricos. Por lo tanto, cuando los investigadores en ciencias sociales hablan de establecer relaciones entre las variables que se estudian, se implica un supuesto teórico general o una dependencia estadística.

ver también

Fundación Wikimedia. 2010.

Vea qué es "Análisis de correlación" en otros diccionarios:

    Ver ANÁLISIS DE CORRELACIÓN. Antinazi. Enciclopedia de Sociología, 2009 ... Enciclopedia de Sociología

    Rama de la estadística matemática que combina métodos prácticos para estudiar la correlación entre dos (o más) características o factores aleatorios. Ver Correlación (en estadística matemática)... Gran diccionario enciclopédico

    ANÁLISIS DE CORRELACIÓN, una sección de estadística matemática que combina métodos prácticos para estudiar la correlación entre dos (o más) características o factores aleatorios. Ver Correlación (ver CORRELACIÓN (relación mutua... diccionario enciclopédico

    Análisis de correlación- (en economía) una rama de la estadística matemática que estudia las relaciones entre cantidades cambiantes (la correlación es una relación, de la palabra latina correlatio). La relación puede ser completa (es decir, funcional) e incompleta,... ... Diccionario económico y matemático.

    Análisis de correlación- (en psicología) (del latín correlatio ratio) un método estadístico para evaluar la forma, signo y cercanía de la conexión entre las características o factores en estudio. Al determinar la forma de una conexión, se considera su linealidad o no linealidad (es decir, como en promedio... ... Gran enciclopedia psicológica.

    Análisis de correlación- - [L.G. Sumenko. Diccionario inglés-ruso sobre tecnologías de la información. M.: Empresa estatal TsNIIS, 2003.] Temas tecnología de la información en general Análisis de correlación EN ... Guía del traductor técnico

    Análisis de correlación- koreliacinė analizė statusas T sritis Kūno kultūra ir sportas apibrėžtis Statistikos metodas, kuriuo įvertinami tiriamųjų asmenų, reiškinių požymiai arba veiksnių santykiai. atitikmenys: inglés. estudios de correlación vok. Analizar la correlación, f;… … Sporto terminų žodynas

    Un conjunto de métodos basados ​​en la teoría matemática de la correlación (ver Correlación) para detectar una correlación entre dos características o factores aleatorios. K. a. Los datos experimentales incluyen lo siguiente... ... Gran enciclopedia soviética

    sección de matemáticas estadística, combinando prácticas Métodos de investigación correlativos. dependencias entre dos (o más) características o factores aleatorios. Ver Correlación... Gran Diccionario Politécnico Enciclopédico

TRABAJO DEL CURSO

Tema: Análisis de correlación

Introducción

1. Análisis de correlación

1.1 El concepto de correlación

1.2 Clasificación general de correlaciones

1.3 Campos de correlación y el propósito de su construcción.

1.4 Etapas del análisis de correlación

1.5 Coeficientes de correlación

1.6 Coeficiente de correlación de Bravais-Pearson normalizado

1.7 Coeficiente de correlación de rangos de Spearman

1.8 Propiedades básicas de los coeficientes de correlación

1.9 Comprobación de la importancia de los coeficientes de correlación

1.10 Valores críticos del coeficiente de correlación de pares

2. Planificación de un experimento multifactorial

2.1 Condición del problema

2.2 Determinación del centro del plan (nivel básico) y el nivel de variación de los factores

2.3 Construcción de la matriz de planificación

2.4 Comprobación de la homogeneidad de dispersión y equivalencia de medición en diferentes series

2.5 Coeficientes de la ecuación de regresión

2.6 Variación de reproducibilidad

2.7 Comprobación de la importancia de los coeficientes de las ecuaciones de regresión

2.8 Comprobación de la adecuación de la ecuación de regresión

Conclusión

Bibliografía

INTRODUCCIÓN

La planificación experimental es una disciplina matemática y estadística que estudia métodos para la organización racional de la investigación experimental, desde la elección óptima de los factores en estudio y la determinación del plan experimental real de acuerdo con su propósito hasta los métodos para analizar los resultados. La planificación experimental comenzó con los trabajos del estadístico inglés R. Fisher (1935), quien enfatizó que la planificación experimental racional proporciona ganancias no menos significativas en la precisión de las estimaciones que el procesamiento óptimo de los resultados de las mediciones. En los años 60 del siglo XX surgió la teoría moderna de la planificación experimental. Sus métodos están estrechamente relacionados con la teoría de la aproximación de funciones y la programación matemática. Se construyeron planos óptimos y se estudiaron sus propiedades para una amplia clase de modelos.

La planificación experimental es la elección de un plan experimental que cumpla con requisitos específicos, un conjunto de acciones destinadas a desarrollar una estrategia de experimentación (desde la obtención de información a priori hasta la obtención de un modelo matemático viable o la determinación de las condiciones óptimas). Se trata de un control intencionado de un experimento, implementado en condiciones de conocimiento incompleto del mecanismo del fenómeno que se está estudiando.

En el proceso de medición, posterior procesamiento de datos, así como la formalización de los resultados en forma de modelo matemático, surgen errores y parte de la información contenida en los datos originales se pierde. El uso de métodos de planificación experimental permite determinar el error del modelo matemático y juzgar su adecuación. Si la precisión del modelo resulta insuficiente, entonces el uso de métodos de planificación experimental permite modernizar el modelo matemático con experimentos adicionales sin perder información previa y con costos mínimos.

El propósito de planificar un experimento es encontrar condiciones y reglas para realizar experimentos bajo las cuales sea posible obtener información confiable y confiable sobre un objeto con la menor cantidad de trabajo, así como presentar esta información en una forma compacta y conveniente. con una evaluación cuantitativa de la precisión.

Entre los principales métodos de planificación utilizados en las diferentes etapas del estudio se encuentran:

Planificar un experimento de detección, cuyo significado principal es la selección de un conjunto completo de factores significativos que están sujetos a un estudio más detallado;

Diseño experimental para ANOVA, es decir elaboración de planos de objetos con factores cualitativos;

Planificar un experimento de regresión que permita obtener modelos de regresión (polinomiales y otros);

Planificar un experimento extremo en el que la tarea principal sea la optimización experimental del objeto de investigación;

Planificación al estudiar procesos dinámicos, etc.

El propósito del estudio de la disciplina es preparar a los estudiantes para las actividades productivas y técnicas de su especialidad utilizando métodos de la teoría de la planificación y tecnologías de la información modernas.

Objetivos de la disciplina: estudio de métodos modernos de planificación, organización y optimización de experimentos científicos e industriales, realización de experimentos y procesamiento de los resultados obtenidos.

1. ANÁLISIS DE CORRELACIÓN

1.1 El concepto de correlación.

Un investigador suele estar interesado en cómo se relacionan dos o más variables entre sí en una o más muestras que se estudian. Por ejemplo, ¿puede la altura afectar el peso de una persona o la presión arterial puede afectar la calidad del producto?

Este tipo de dependencia entre variables se llama correlación o correlación. Una correlación es un cambio consistente en dos características, que refleja el hecho de que la variabilidad de una característica está de acuerdo con la variabilidad de la otra.

Se sabe, por ejemplo, que en promedio existe una relación positiva entre la altura de las personas y su peso, de modo que a mayor altura, mayor peso. Sin embargo, hay excepciones a esta regla, cuando las personas relativamente bajas tienen sobrepeso y, por el contrario, las personas asténicas de gran estatura tienen bajo peso. La razón de tales excepciones es que cada signo biológico, fisiológico o psicológico está determinado por la influencia de muchos factores: ambientales, genéticos, sociales, ambientales, etc.

Las conexiones de correlación son cambios probabilísticos que sólo pueden estudiarse en muestras representativas utilizando métodos de estadística matemática. Ambos términos (vínculo de correlación y dependencia de correlación) se utilizan a menudo indistintamente. Dependencia implica influencia, conexión, cualquier cambio coordinado que pueda explicarse por cientos de razones. Las conexiones de correlación no pueden considerarse como evidencia de una relación de causa y efecto; sólo indican que los cambios en una característica suelen ir acompañados de ciertos cambios en otra.

Dependencia de correlación - Son cambios que introducen los valores de una característica en la probabilidad de que ocurran diferentes valores de otra característica.

La tarea del análisis de correlación se reduce a establecer la dirección (positiva o negativa) y la forma (lineal, no lineal) de la relación entre diferentes características, medir su cercanía y, finalmente, verificar el nivel de significancia de los coeficientes de correlación obtenidos.

Las conexiones de correlación varían en forma, dirección y grado (fuerza) .

La forma de la relación de correlación puede ser lineal o curvilínea. Por ejemplo, la relación entre el número de sesiones de entrenamiento en el simulador y el número de problemas resueltos correctamente en la sesión de control puede ser sencilla. Por ejemplo, la relación entre el nivel de motivación y la efectividad de una tarea puede ser curvilínea (Figura 1). A medida que aumenta la motivación, primero aumenta la efectividad para completar una tarea, luego se logra el nivel óptimo de motivación, que corresponde a la efectividad máxima para completar la tarea; Un mayor aumento de la motivación va acompañado de una disminución de la eficiencia.

Figura 1 - Relación entre la eficacia de la resolución de problemas y la fuerza de las tendencias motivacionales

En dirección, la relación de correlación puede ser positiva (“directa”) y negativa (“inversa”). Con una correlación lineal positiva, los valores más altos de una característica corresponden a valores más altos de otra, y los valores más bajos de una característica corresponden a valores bajos de otra (Figura 2). Con una correlación negativa, las relaciones son inversas (Figura 3). Con una correlación positiva, el coeficiente de correlación tiene un signo positivo, con una correlación negativa, tiene un signo negativo.

Figura 2 – Correlación directa

Figura 3 – Correlación inversa


Figura 4 – Sin correlación

El grado, fuerza o cercanía de la correlación está determinado por el valor del coeficiente de correlación. La fuerza de la conexión no depende de su dirección y está determinada por el valor absoluto del coeficiente de correlación.

1.2 Clasificación general de correlaciones.

Dependiendo del coeficiente de correlación, se distinguen las siguientes correlaciones:

Fuerte o cercana con un coeficiente de correlación r>0,70;

Promedio (a 0,50

Moderado (a 0,30

Débil (a 0,20

Muy débil (en r<0,19).

1.3 Campos de correlación y el propósito de su construcción.

La correlación se estudia sobre la base de datos experimentales, que son los valores medidos (xi, y i) de dos características. Si hay pocos datos experimentales, entonces la distribución empírica bidimensional se representa como una serie doble de valores x i e y i. Al mismo tiempo, la correlación entre características se puede describir de diferentes maneras. La correspondencia entre un argumento y una función puede estar dada por una tabla, fórmula, gráfica, etc.

El análisis de correlación, al igual que otros métodos estadísticos, se basa en el uso de modelos probabilísticos que describen el comportamiento de las características en estudio en una determinada población general de la que se obtienen los valores experimentales xi e y i. Al estudiar la correlación entre características cuantitativas, cuyos valores se pueden medir con precisión en unidades de escalas métricas (metros, segundos, kilogramos, etc.), muy a menudo se adopta un modelo de población bidimensional distribuido normalmente. Un modelo de este tipo muestra gráficamente la relación entre las variables x i e y i en forma de una ubicación geométrica de puntos en un sistema de coordenadas rectangulares. Esta relación gráfica también se denomina diagrama de dispersión o campo de correlación.
Este modelo de distribución normal bidimensional (campo de correlación) nos permite dar una interpretación gráfica clara del coeficiente de correlación, porque la distribución total depende de cinco parámetros: μ x, μ y – valores medios (expectativas matemáticas); σ x ,σ y – desviaciones estándar de las variables aleatorias X e Y y p – coeficiente de correlación, que es una medida de la relación entre las variables aleatorias X e Y.
Si p = 0, entonces los valores x i , y i obtenidos de una población normal bidimensional se ubican en el gráfico en las coordenadas x, y dentro del área limitada por el círculo (Figura 5, a). En este caso, no existe correlación entre las variables aleatorias X e Y y se denominan no correlacionadas. Para una distribución normal bidimensional, la falta de correlación significa simultáneamente independencia de las variables aleatorias X e Y.

En la investigación científica, a menudo surge la necesidad de encontrar una conexión entre las variables de resultado y factoriales (el rendimiento de un cultivo y la cantidad de precipitación, la altura y el peso de una persona en grupos homogéneos por sexo y edad, frecuencia cardíaca y temperatura corporal). , etc.).

Los segundos son signos que contribuyen a cambios en quienes están asociados a ellos (los primeros).

El concepto de análisis de correlación.

Hay muchos Con base en lo anterior, podemos decir que el análisis de correlación es un método utilizado para probar la hipótesis sobre la significancia estadística de dos o más variables si el investigador puede medirlas, pero no cambiarlas.

Existen otras definiciones del concepto en cuestión. El análisis de correlación es un método de procesamiento que implica estudiar coeficientes de correlación entre variables. En este caso, se comparan los coeficientes de correlación entre un par o muchos pares de características para establecer relaciones estadísticas entre ellas. El análisis de correlación es un método para estudiar la dependencia estadística entre variables aleatorias con la presencia opcional de un carácter funcional estricto, en el que la dinámica de una variable aleatoria conduce a la dinámica de la expectativa matemática de otra.

El concepto de falsa correlación.

Al realizar un análisis de correlación, es necesario tener en cuenta que se puede realizar en relación con cualquier conjunto de características, a menudo absurdas entre sí. A veces no tienen ninguna conexión causal entre sí.

En este caso se habla de una falsa correlación.

Problemas del análisis de correlación.

Con base en las definiciones anteriores, se pueden formular las siguientes tareas del método descrito: obtener información sobre una de las variables buscadas utilizando otra; determinar la cercanía de la relación entre las variables estudiadas.

El análisis de correlación implica determinar la relación entre las características que se estudian y, por lo tanto, las tareas del análisis de correlación se pueden complementar con lo siguiente:

  • identificación de factores que tienen mayor impacto en la característica resultante;
  • identificación de causas de conexiones previamente inexploradas;
  • construcción de un modelo de correlación con su análisis paramétrico;
  • estudio de la importancia de los parámetros de comunicación y su evaluación de intervalos.

Relación entre análisis de correlación y regresión.

El método de análisis de correlación a menudo no se limita a encontrar la cercanía de la relación entre las cantidades estudiadas. A veces se complementa con la elaboración de ecuaciones de regresión, que se obtienen mediante el análisis del mismo nombre y que representan una descripción de la correlación entre la característica (características) resultante y el factor (factor). Este método, junto con el análisis considerado, constituye el método

Condiciones para utilizar el método.

Los factores efectivos dependen de uno o varios factores. El método de análisis de correlación se puede utilizar si hay una gran cantidad de observaciones sobre el valor de los indicadores efectivos y factoriales (factores), mientras que los factores en estudio deben ser cuantitativos y reflejarse en fuentes específicas. El primero puede determinarse mediante la ley normal; en este caso, el resultado del análisis de correlación son los coeficientes de correlación de Pearson o, si las características no obedecen a esta ley, se utiliza el coeficiente de correlación de rango de Spearman.

Reglas para seleccionar factores de análisis de correlación.

Al aplicar este método, es necesario determinar los factores que influyen en los indicadores de desempeño. Se seleccionan teniendo en cuenta que debe existir una relación de causa y efecto entre los indicadores. En el caso de crear un modelo de correlación multifactorial, se seleccionan aquellos que tienen un impacto significativo en el indicador resultante, siendo preferible no incluir en el modelo de correlación factores interdependientes con un coeficiente de correlación de pares superior a 0,85, así como aquellos para los cuales la relación con el parámetro resultante no es de carácter lineal o funcional.

Mostrando resultados

Los resultados del análisis de correlación se pueden presentar en forma de texto y gráficos. En el primer caso se presentan como un coeficiente de correlación, en el segundo, en forma de diagrama de dispersión.

En ausencia de correlación entre los parámetros, los puntos en el diagrama están ubicados al azar, el grado promedio de conexión se caracteriza por un mayor grado de orden y se caracteriza por una distancia más o menos uniforme de las marcas marcadas desde la mediana. Una conexión fuerte tiende a ser recta y en r=1 el diagrama de puntos es una línea plana. La correlación inversa difiere en la dirección del gráfico desde la esquina superior izquierda hasta la inferior derecha, la correlación directa, desde la esquina inferior izquierda hasta la esquina superior derecha.

Representación 3D de un diagrama de dispersión.

Además de la visualización tradicional del diagrama de dispersión 2D, ahora se utiliza una representación gráfica 3D del análisis de correlación.

También se utiliza una matriz de diagrama de dispersión, que muestra todos los diagramas emparejados en una sola figura en formato matricial. Para n variables, la matriz contiene n filas y n columnas. El gráfico ubicado en la intersección de la i-ésima fila y la j-ésima columna es un gráfico de las variables Xi versus Xj. Por lo tanto, cada fila y columna es una dimensión, una sola celda muestra un diagrama de dispersión de dos dimensiones.

Evaluación de la estanqueidad de la conexión.

La cercanía de la conexión de correlación está determinada por el coeficiente de correlación (r): fuerte - r = ±0,7 a ±1, medio - r = ±0,3 a ±0,699, débil - r = 0 a ±0,299. Esta clasificación no es estricta. La figura muestra un diagrama ligeramente diferente.

Un ejemplo de uso del método de análisis de correlación.

En el Reino Unido se llevó a cabo un interesante estudio. Está dedicado a la relación entre el tabaquismo y el cáncer de pulmón y se llevó a cabo mediante análisis de correlación. Esta observación se presenta a continuación.

Datos iniciales para el análisis de correlación.

grupo profesional

mortalidad

Agricultores, silvicultores y pescadores

Mineros y trabajadores de canteras

Fabricantes de gas, coque y productos químicos.

Fabricantes de vidrio y cerámica.

Trabajadores de hornos, forjas, fundiciones y laminadores

Trabajadores de electricidad y electrónica.

Ingeniería y profesiones afines.

Industrias madereras

peletero

Trabajadores textiles

Fabricantes de ropa de trabajo.

Trabajadores de las industrias de alimentos, bebidas y tabaco.

Fabricantes de papel e impresión

Fabricantes de otros productos.

Constructores

Pintores y decoradores

Conductores de motores estacionarios, grúas, etc.

Trabajadores no incluidos en otra parte

Trabajadores del transporte y las comunicaciones.

Trabajadores de almacenes, almacenistas, envasadores y trabajadores de máquinas llenadoras.

Trabajadores de oficina

Vendedores

Trabajadores del deporte y la recreación.

Administradores y gerentes

Profesionales, técnicos y artistas.

Comenzamos el análisis de correlación. Para mayor claridad, es mejor comenzar la solución con un método gráfico, para lo cual construiremos un diagrama de dispersión.

Demuestra una conexión directa. Sin embargo, es difícil sacar una conclusión inequívoca basándose únicamente en el método gráfico. Por lo tanto, continuaremos realizando análisis de correlación. A continuación se presenta un ejemplo de cálculo del coeficiente de correlación.

Usando software (MS Excel se describirá a continuación como ejemplo), determinamos el coeficiente de correlación, que es 0,716, lo que significa una fuerte conexión entre los parámetros en estudio. Determinemos la confiabilidad estadística del valor obtenido usando la tabla correspondiente, para lo cual debemos restar 2 de 25 pares de valores, como resultado obtenemos 23 y usando esta línea en la tabla encontramos r crítico para p = 0.01 (ya que son datos médicos, una dependencia más estricta, en otros casos es suficiente p=0,05), que es 0,51 para este análisis de correlación. El ejemplo demostró que la r calculada es mayor que la r crítica y el valor del coeficiente de correlación se considera estadísticamente confiable.

Uso de software al realizar análisis de correlación

El tipo de procesamiento de datos estadísticos descrito se puede realizar mediante software, en particular MS Excel. La correlación implica calcular los siguientes parámetros usando funciones:

1. El coeficiente de correlación se determina utilizando la función CORREL (matriz1; matriz2). Array1,2 - celda del intervalo de valores de las variables resultantes y factoriales.

El coeficiente de correlación lineal también se denomina coeficiente de correlación de Pearson y, por lo tanto, a partir de Excel 2007, puede utilizar la función con las mismas matrices.

La visualización gráfica del análisis de correlación en Excel se realiza utilizando el panel "Gráficos" con la selección "Gráfico de dispersión".

Después de especificar los datos iniciales, obtenemos un gráfico.

2. Evaluar la importancia del coeficiente de correlación por pares mediante la prueba t de Student. El valor calculado del criterio t se compara con el valor tabulado (crítico) de este indicador de la tabla correspondiente de valores del parámetro considerado, teniendo en cuenta el nivel de significancia especificado y el número de grados de libertad. Esta estimación se realiza mediante la función ESTUDISCOVER(probabilidad; grados_de_libertad).

3. Matriz de coeficientes de correlación de pares. El análisis se realiza mediante la herramienta Análisis de datos, en la que se selecciona Correlación. La evaluación estadística de los coeficientes de correlación de pares se lleva a cabo comparando su valor absoluto con el valor tabulado (crítico). Cuando el coeficiente de correlación por pares calculado excede el crítico, podemos decir, teniendo en cuenta el grado de probabilidad dado, que la hipótesis nula sobre la importancia de la relación lineal no se rechaza.

Finalmente

El uso del método de análisis de correlación en la investigación científica nos permite determinar la relación entre varios factores e indicadores de desempeño. Es necesario tener en cuenta que se puede obtener un coeficiente de correlación alto a partir de un par o conjunto de datos absurdos y, por lo tanto, este tipo de análisis debe realizarse sobre una matriz de datos suficientemente grande.

Después de obtener el valor calculado de r, es aconsejable compararlo con el r crítico para confirmar la confiabilidad estadística de un determinado valor. El análisis de correlación se puede realizar manualmente mediante fórmulas o mediante software, en particular MS Excel. Aquí también puede construir un diagrama de dispersión con el fin de representar visualmente la relación entre los factores estudiados del análisis de correlación y la característica resultante.

Definición de análisis de correlación

Al resolver problemas de naturaleza económica, a saber, la previsión, se suele utilizar el análisis de correlación. Se basa en unos valores de una variable aleatoria, representada por una variable que depende del caso y puede tomar unos valores con una cierta probabilidad. En este caso, la ley de distribución correspondiente puede mostrar la frecuencia de valores específicos en su totalidad. El análisis de correlación en estadística se basa en la dependencia estocástica cuando se investiga la relación entre ciertos indicadores económicos.

Tipos de análisis de correlación

El análisis de correlación opera con dependencias funcionales (completas) y distorsionadas por otros factores (incompletas) de esta relación. Un ejemplo del primer tipo (dependencia funcional) es la producción y consumo de productos terminados en condiciones de escasez. Se puede observar una relación incompleta, por ejemplo, entre la productividad laboral y la duración del servicio de los trabajadores. Al mismo tiempo, una mayor experiencia influye en su calidad, sin embargo, bajo la influencia de determinados factores (salud o educación), esta dependencia se distorsiona.

Uso del análisis de correlación en estadística

El análisis de correlación se utiliza ampliamente en estadística matemática.

Al mismo tiempo, su tarea principal es determinar la cercanía de la conexión y el carácter entre las características independientes (factoriales) y dependientes (resultantes) de un proceso o fenómeno. Sólo se revela una correlación con una comparación factorial a gran escala. Por tanto, su estanqueidad se puede determinar mediante un determinado coeficiente de correlación, especialmente calculado y situado en el intervalo [-1;+1]. La naturaleza de la relación entre estos indicadores puede ser determinada por el campo de correlación. En el caso de que Y sea una característica dependiente, X sea una característica independiente, entonces, al tomar cada caso en la forma X (j), el campo de correlación tendrá coordenadas (x j; y j).

Análisis de correlación en economía.

La actividad económica de las entidades comerciales depende de una gran cantidad de factores diferentes. En este caso, es necesario considerar su complejo, ya que cada uno de ellos por separado no puede determinar el fenómeno en estudio en su totalidad. Por tanto, sólo un conjunto de factores en su estrecha interrelación da una idea clara del objeto en estudio. El análisis de correlación multivariante puede constar de varias etapas. En primer lugar, se determinan aquellos factores con cuya ayuda se determina el impacto máximo sobre el indicador en estudio y se seleccionan para el análisis los más significativos. La segunda etapa implica la recopilación y evaluación de la información inicial necesaria para el análisis de correlación. En el tercero se estudia el carácter y se modela la relación entre los indicadores finales y otros factores. En otras palabras, se fundamenta la ecuación matemática generada que expresa con mayor precisión la esencia de la dependencia analizada. Y la última etapa consiste en evaluar los resultados del análisis de correlación con su aplicación práctica.

Compartir