Puntuación de correlación. Correlaciones en tesis de psicología

En presencia de dos series de valores sujetos a clasificación, es racional calcular la correlación de clasificación de Spearman.

Tales filas se pueden representar:

  • un par de características determinadas en el mismo grupo de objetos en estudio;
  • un par de signos subordinados individuales determinados en 2 objetos estudiados por el mismo conjunto de signos;
  • un par de signos subordinados de grupo;
  • subordinación individual y grupal de los signos.

El método consiste en clasificar los indicadores por separado para cada una de las características.

El valor más pequeño tiene el rango más pequeño.

Este método se refiere a un método estadístico no paramétrico diseñado para establecer la existencia de una relación entre los fenómenos estudiados:

  • determinar el grado real de paralelismo entre las dos series de datos cuantitativos;
  • evaluación de la estrechez de la relación identificada, expresada cuantitativamente.

Análisis de correlación

Método estadístico diseñado para detectar la existencia de una relación entre 2 o más variables aleatorias(variables), así como su fuerza, fue llamado Análisis de correlación.

Obtuvo su nombre de correlatio (lat.) - ratio.

Al usarlo, los siguientes escenarios son posibles:

  • la presencia de una correlación (positiva o negativa);
  • sin correlación (cero).

En el caso de establecer una relación entre variables estamos hablando sobre su correlación. En otras palabras, podemos decir que cuando cambia el valor de X, necesariamente se observará un cambio proporcional en el valor de Y.

Varias medidas de conexión (coeficientes) se utilizan como herramientas.

Su elección está influenciada por:

  • una forma de medir números aleatorios;
  • la naturaleza de la relación entre números aleatorios.

La existencia de una correlación puede visualizarse gráficamente (gráficos) y con un coeficiente (visualización numérica).

La correlación se caracteriza por las siguientes características:

  • intensidad de conexión (con un coeficiente de correlación de ±0,7 a ±1 - fuerte; de ​​±0,3 a ±0,699 - media; de 0 a ±0,299 - débil);
  • dirección de la comunicación (hacia delante o hacia atrás).

Objetivos del análisis de correlación

El análisis de correlación no permite establecer una relación causal entre las variables estudiadas.

Se lleva a cabo con el objetivo de:

  • establecimiento de dependencia entre variables;
  • obtener cierta información sobre una variable a partir de otra variable;
  • determinar la cercanía (conexión) de esta dependencia;
  • determinando la dirección de la conexión establecida.

Métodos de análisis de correlación


Este análisis se puede hacer usando:

  • método de cuadrados o Pearson;
  • método de clasificación o Spearman.

El método de Pearson es aplicable para cálculos que requieren definición exacta la fuerza que existe entre las variables. Los signos estudiados con su ayuda deben expresarse solo cuantitativamente.

Para aplicar el método de Spearman o la correlación de rangos, no existen requisitos estrictos en la expresión de características; puede ser tanto cuantitativa como atributiva. Gracias a este método, no se obtiene información sobre el establecimiento exacto de la fuerza de la conexión, sino de carácter indicativo.

Las filas de variables pueden contener opciones abiertas. Por ejemplo, cuando la experiencia laboral se expresa con valores como hasta 1 año, más de 5 años, etc.

Coeficiente de correlación

Un valor estadístico que caracteriza la naturaleza del cambio en dos variables se denomina coeficiente de correlación o coeficiente de correlación apareada. En términos cuantitativos, oscila entre -1 y +1.

Las proporciones más comunes son:

  • Pearson– aplicable para variables pertenecientes a la escala de intervalo;
  • Lancero– para variables de escala ordinal.

Limitaciones en el uso del coeficiente de correlación

Es posible obtener datos no confiables al calcular el coeficiente de correlación en los casos en que:

  • hay un número suficiente de valores para la variable (25-100 pares de observaciones);
  • entre las variables estudiadas, por ejemplo, se establece una relación cuadrática, y no lineal;
  • en cada caso, los datos contienen más de una observación;
  • la presencia de valores anormales (outliers) de variables;
  • los datos en estudio consisten en subgrupos bien definidos de observaciones;
  • la presencia de una correlación no permite establecer cuál de las variables puede considerarse como causa y cuál, como consecuencia.

Prueba de significancia de correlación

Para evaluar valores estadísticos se utiliza el concepto de su significancia o confiabilidad, que caracteriza la probabilidad de ocurrencia aleatoria de un valor o sus valores extremos.

El método más común para determinar la importancia de una correlación es determinar la prueba t de Student.

Su valor se compara con el valor tabular, el número de grados de libertad se toma como 2. Cuando el valor calculado del criterio es mayor que el valor tabular, indica la significancia del coeficiente de correlación.

Al realizar cálculos económicos, se considera suficiente un nivel de confianza de 0,05 (95%) o 0,01 (99%).

rangos de lanceros

El coeficiente de correlación de rangos de Spearman permite establecer estadísticamente la presencia de una conexión entre fenómenos. Su cálculo implica el establecimiento de un número de serie para cada atributo: un rango. El rango puede ser ascendente o descendente.

El número de características a clasificar puede ser cualquiera. Este es un proceso bastante laborioso, lo que limita su número. Las dificultades comienzan cuando llegas a 20 signos.

Para calcular el coeficiente de Spearman, utilice la fórmula:

donde:

n: muestra el número de características clasificadas;

d no es más que la diferencia entre los rangos en dos variables;

y ∑(d2) es la suma de las diferencias de rango al cuadrado.

Aplicación del análisis de correlación en psicología.

Soporte estadístico investigacion psicologica los hace más objetivos y altamente representativos. El procesamiento estadístico de los datos obtenidos en el curso de experimentos psicológicos ayuda a extraer el máximo de información útil.

El análisis de correlación ha recibido la aplicación más amplia en el procesamiento de sus resultados.

Es conveniente realizar un análisis de correlación de los resultados obtenidos durante la investigación:

  • ansiedad (según las pruebas de R. Temml, M. Dorca, V. Amen);
  • relaciones familiares (cuestionario “Análisis de las relaciones familiares” (DIA) de E.G. Eidemiller, V.V. Yustitskis);
  • el nivel de internalidad-externalidad (cuestionario de E.F. Bazhin, E.A. Golynkina y A.M. Etkind);
  • el nivel de desgaste emocional de los docentes (cuestionario de V.V. Boyko);
  • conexiones entre los elementos de la inteligencia verbal de los estudiantes en diferentes perfiles de educación (método de K.M. Gurevich y otros);
  • relación entre el nivel de empatía (método de V.V. Boyko) y satisfacción con el matrimonio (cuestionario de V.V. Stolin, T.L. Romanova, G.P. Butenko);
  • vínculos entre el estatus sociométrico de los adolescentes (test de Jacob L. Moreno) y las características del estilo de educación familiar (cuestionario de E.G. Eidemiller, V.V. Yustitskis);
  • estructuras de metas de vida de adolescentes criados en familias completas y monoparentales (cuestionario Edward L. Deci, Richard M. Ryan Ryan).

Instrucciones breves para realizar análisis de correlación según el criterio de Spearman

Se realiza un análisis de correlación utilizando el método de Spearman. de acuerdo con el siguiente algoritmo:

  • las características comparables emparejadas están dispuestas en 2 filas, una de las cuales se indica con X y la otra con Y;
  • los valores de la serie X están dispuestos en orden ascendente o descendente;
  • la secuencia de disposición de los valores de la serie Y está determinada por su correspondencia con los valores de la serie X;
  • para cada valor en la serie X, determine el rango: asigne un número de serie desde el valor mínimo hasta el máximo;
  • para cada uno de los valores de la serie Y, determine también el rango (de mínimo a máximo);
  • calcular la diferencia (D) entre los rangos de X e Y, utilizando la fórmula D=X-Y;
  • los valores de diferencia resultantes se elevan al cuadrado;
  • sumar los cuadrados de las diferencias de rango;
  • realizar cálculos usando la fórmula:

Ejemplo de correlación de Spearman

Es necesario establecer la presencia de una correlación entre la antigüedad y la tasa de lesiones en presencia de los siguientes datos:

Más método adecuado El análisis es un método de rango, porque uno de los signos se presenta en forma de opciones abiertas: experiencia laboral de hasta 1 año y experiencia laboral de 7 años o más.

La solución del problema comienza con la clasificación de los datos, que se resume en una hoja de trabajo y se puede hacer manualmente, porque. su volumen no es grande:

Experiencia laboral Número de lesiones Números ordinales (rango) Diferencia de rango diferencia de rango al cuadrado
d(x-y)
hasta 1 año 24 1 5 -4 16
1-2 16 2 4 -2 4
3-4 12 3 2,5 +0,5 0,25
5-6 12 4 2,5 +1,5 2,5
7 o más 6 5 1 +4 16
d2 = 38,5

La aparición de rangos fraccionarios en la columna se debe a que en el caso de aparición de variantes del mismo tamaño se encuentra el valor medio aritmético del rango. En este ejemplo, la tasa de lesiones 12 ocurre dos veces y se le asignan los rangos 2 y 3, encontramos la media aritmética de estos rangos (2 + 3) / 2 = 2.5 y ponemos este valor en la hoja de trabajo para 2 indicadores.
Sustituyendo los valores obtenidos en la fórmula de trabajo y haciendo cálculos sencillos, obtenemos el coeficiente de Spearman igual a -0,92

El valor negativo del coeficiente indica la presencia reacción entre signos y permite afirmar que una breve experiencia laboral va acompañada de un número grande lesiones Además, la fuerza de la relación de estos indicadores es bastante grande.
La siguiente etapa de los cálculos es determinar la confiabilidad del coeficiente obtenido:
se calcula su error y el criterio de Student

Análisis de regresión y correlación - métodos de investigación estadística. Estas son las formas más comunes de mostrar la dependencia de un parámetro de una o más variables independientes.

A continuación en específico ejemplos prácticos Consideremos estos dos análisis muy populares entre los economistas. También daremos un ejemplo de cómo obtener resultados cuando se combinan.

Análisis de regresión en Excel

Muestra la influencia de algunos valores (independientes, independientes) sobre la variable dependiente. Por ejemplo, cómo el número de población económicamente activa depende del número de empresas, salarios y otros parámetros. O: ¿cómo afectan las inversiones extranjeras, los precios de la energía, etc. al nivel del PIB?

El resultado del análisis le permite priorizar. Y en base a los principales factores, predecir, planificar el desarrollo de las áreas prioritarias, tomar decisiones de gestión.

La regresión ocurre:

  • lineal (y = a + bx);
  • parabólico (y = a + bx + cx 2);
  • exponencial (y = a * exp(bx));
  • potencia (y = a*x^b);
  • hiperbólica (y = b/x + a);
  • logarítmica (y = b * 1n(x) + a);
  • exponencial (y = a * b^x).

Considere el ejemplo de construir un modelo de regresión en Excel e interpretar los resultados. Echemos tipo lineal regresión.

Tarea. En 6 empresas, el promedio mensual sueldo y el número de empleados jubilados. Es necesario determinar la dependencia del número de empleados jubilados del salario promedio.

Modelo regresión lineal tiene la siguiente forma:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Donde a son los coeficientes de regresión, x son las variables influyentes y k es el número de factores.

En nuestro ejemplo, Y es el indicador de trabajadores que renuncian. El factor que influye es el salario (x).

Excel tiene funciones integradas que se pueden usar para calcular los parámetros de un modelo de regresión lineal. Pero el complemento Analysis ToolPak lo hará más rápido.

Activa una poderosa herramienta analítica:

Una vez activado, el complemento estará disponible en la pestaña Datos.

Ahora nos ocuparemos directamente del análisis de regresión.



En primer lugar, prestamos atención al R-cuadrado y los coeficientes.

R-cuadrado es el coeficiente de determinación. En nuestro ejemplo, es 0,755 o 75,5%. Esto significa que los parámetros calculados del modelo explican la relación entre los parámetros estudiados en un 75,5%. Cuanto mayor sea el coeficiente de determinación, mejor será el modelo. Bueno - por encima de 0,8. Pobre: ​​menos de 0,5 (tal análisis difícilmente puede considerarse razonable). En nuestro ejemplo - "no está mal".

El coeficiente 64.1428 muestra cuál será Y si todas las variables del modelo considerado son iguales a 0. Es decir, otros factores que no están descritos en el modelo también afectan el valor del parámetro analizado.

El coeficiente -0,16285 muestra el peso de la variable X sobre Y. Es decir, el salario medio mensual dentro de este modelo afecta al número de desertores con un peso de -0,16285 (este es un grado de influencia pequeño). El signo "-" indica influencia negativa: cuanto mayor sea el salario, menos dejar de fumar. Lo cual es justo.



Análisis de correlación en Excel

El análisis de correlación ayuda a establecer si existe una relación entre los indicadores en una o dos muestras. Por ejemplo, entre el tiempo de funcionamiento de la máquina y el costo de las reparaciones, el precio del equipo y la duración de la operación, la altura y el peso de los niños, etc.

Si existe una relación, entonces si un aumento en un parámetro conduce a un aumento (correlación positiva) o una disminución (negativa) en el otro. El análisis de correlación ayuda al analista a determinar si el valor de un indicador se puede utilizar para predecir el posible valor de otro.

El coeficiente de correlación se denota r. Varía de +1 a -1. Clasificación de correlaciones para Diferentes areas Será diferente. Cuando el valor del coeficiente es 0, no existe una relación lineal entre las muestras.

Considere cómo usar Excel para encontrar el coeficiente de correlación.

La función CORREL se utiliza para encontrar los coeficientes apareados.

Tarea: Determinar si existe una relación entre el tiempo de trabajo torno y el costo de su mantenimiento.

Coloque el cursor en cualquier celda y presione el botón fx.

  1. En la categoría "Estadística", seleccione la función CORREL.
  2. Argumento "Array 1" - el primer rango de valores - el tiempo de la máquina: A2: A14.
  3. Argumento "Array 2" - el segundo rango de valores - el costo de las reparaciones: B2:B14. Haga clic en Aceptar.

Para determinar el tipo de conexión, debe observar el número absoluto del coeficiente (cada campo de actividad tiene su propia escala).

Para el análisis de correlación de varios parámetros (más de 2), es más conveniente utilizar "Análisis de datos" (complemento "Paquete de análisis"). En la lista, debe seleccionar una correlación y designar una matriz. Todo.

Los coeficientes resultantes se mostrarán en la matriz de correlación. Como éste:

Análisis de correlación-regresión

En la práctica, estas dos técnicas a menudo se usan juntas.

Ejemplo:


Ahora los datos del análisis de regresión son visibles.

TRABAJO DEL CURSO

Tema: Análisis de correlación

Introducción

1. Análisis de correlación

1.1 El concepto de correlación

1.2 Clasificación general de las correlaciones

1.3 Campos de correlación y el propósito de su construcción

1.4 Etapas del análisis de correlación

1.5 Coeficientes de correlación

1.6 Coeficiente de correlación de Bravais-Pearson normalizado

1.7 Coeficiente de correlación de rangos de Spearman

1.8 Propiedades básicas de los coeficientes de correlación

1.9 Comprobación de la importancia de los coeficientes de correlación

1.10 Valores críticos del coeficiente de correlación de pares

2. Planificación de un experimento multivariado

2.1 Condición del problema

2.2 Determinación del centro del plan (nivel principal) y el nivel de variación de los factores

2.3 Construcción de una matriz de planificación

2.4 Comprobación de la homogeneidad de la dispersión y la precisión de la medición en diferentes series

2.5 Coeficientes de la ecuación de regresión

2.6 Dispersión de reproducibilidad

2.7 Comprobación del significado de los coeficientes de la ecuación de regresión

2.8 Comprobación de la adecuación de la ecuación de regresión

Conclusión

Bibliografía

INTRODUCCIÓN

La planificación de experimentos es una disciplina matemática y estadística que estudia los métodos de organización racional de la investigación experimental, desde elección óptima los factores en estudio y la definición del plan real del experimento de acuerdo con su propósito a los métodos para analizar los resultados. El comienzo de la planificación de experimentos fue establecido por los trabajos del estadístico inglés R. Fisher (1935), quien enfatizó que la planificación racional de experimentos brinda una ganancia no menos significativa en la precisión de las estimaciones que el procesamiento óptimo de los resultados de la medición. En los años 60 del siglo XX, había teoría moderna planificación de experimentos. Sus métodos están íntimamente relacionados con la teoría de aproximación de funciones y la programación matemática. construido planes óptimos y sus propiedades se investigan para una amplia clase de modelos.

Planificación de experimentos: la elección de un plan de experimentos que cumpla con los requisitos especificados, un conjunto de acciones destinadas a desarrollar una estrategia de experimentación (desde obtener información a priori hasta obtener un modelo matemático viable o una definición condiciones óptimas). Este es un control intencional del experimento, implementado en condiciones de conocimiento incompleto del mecanismo del fenómeno en estudio.

En el proceso de medidas, el posterior procesamiento de los datos, así como la formalización de los resultados en forma de modelo matemático, se producen errores y se pierde parte de la información contenida en los datos originales. El uso de métodos de planificación de experimentos permite determinar el error del modelo matemático y juzgar su adecuación. Si la precisión del modelo es insuficiente, entonces el uso de métodos de planificación de experimentos permite modernizar el modelo matemático con experimentos adicionales sin perder información previa y con un costo mínimo.

El propósito de la planificación de experimentos es encontrar tales condiciones y reglas para realizar experimentos bajo las cuales es posible obtener información confiable y confiable sobre un objeto con menor costo mano de obra, así como presentar esta información de forma compacta y conveniente con una evaluación cuantitativa de la precisión.

Entre los principales métodos de planificación utilizados en etapas diferentes usos de la investigación:

Planear un experimento de selección, cuyo significado principal es la selección de un grupo de factores significativos de la totalidad de factores que están sujetos a un estudio más detallado;

Diseñar un experimento para análisis de varianza, i.e. elaboración de planos para objetos con factores cualitativos;

Planificación de un experimento de regresión que le permita obtener modelos de regresión (polinomial y otros);

Planificación de un experimento extremo, en el que la tarea principal es la optimización experimental del objeto de estudio;

Planificación en el estudio de procesos dinámicos, etc.

El propósito de estudiar la disciplina es preparar a los estudiantes para la producción y las actividades técnicas en la especialidad utilizando los métodos de la teoría de la planificación y las modernas tecnologías de la información.

Objetivos de la disciplina: estudio métodos modernos planificar, organizar y optimizar experimentos científicos e industriales, realizar experimentos y procesar los resultados.

1. ANÁLISIS DE CORRELACIÓN

1.1 El concepto de correlación

El investigador a menudo está interesado en cómo dos o más gran cantidad variables en una o más muestras estudiadas. Por ejemplo, ¿la altura puede afectar el peso de una persona o la presión puede afectar la calidad del producto?

Este tipo de relación entre variables se denomina correlación o correlación. Una correlación es un cambio consistente en dos características, lo que refleja el hecho de que la variabilidad de una característica está en línea con la variabilidad de la otra.

Se sabe, por ejemplo, que en promedio existe una relación positiva entre la altura de las personas y su peso, y que a mayor altura, mayor peso de una persona. Sin embargo, hay excepciones a esta regla cuando las personas relativamente bajas tienen sobrepeso y, por el contrario, los asténicos, con un alto crecimiento, son livianos. La razón de tales exclusiones es que cada rasgo biológico, fisiológico o psicológico está determinado por la influencia de muchos factores: ambientales, genéticos, sociales, ecológicos, etc.

Las correlaciones son cambios probabilísticos que solo pueden estudiarse en muestras representativas mediante métodos de estadística matemática. Ambos términos, correlación y dependencia de la correlación, a menudo se usan indistintamente. Dependencia significa influencia, conexión, cualquier cambio coordinado que pueda explicarse por cientos de razones. Las correlaciones no pueden considerarse como evidencia de una relación causal, solo indican que los cambios en una característica, por regla general, van acompañados de ciertos cambios en otra.

Dependencia de correlación - son los cambios que los valores de una característica hacen a la probabilidad de ocurrencia valores diferentes otro signo

La tarea del análisis de correlación se reduce a establecer la dirección (positiva o negativa) y la forma (lineal, no lineal) de la relación entre características variables, medir su estanqueidad y, finalmente, verificar el nivel de significancia de la correlación obtenida. coeficientes

Las correlaciones difieren en forma, dirección y grado (fuerza) .

La forma de la correlación puede ser rectilínea o curvilínea. Por ejemplo, la relación entre el número de sesiones de entrenamiento en el simulador y el número de problemas resueltos correctamente en la sesión de control puede ser sencilla. Curvilínea puede ser, por ejemplo, la relación entre el nivel de motivación y la eficacia de la tarea (Figura 1). Con un aumento en la motivación, la eficiencia de la tarea aumenta al principio, luego se alcanza Nivel óptimo motivación a la que Máxima eficiencia la terminación de la tarea; un mayor aumento de la motivación va acompañado de una disminución de la eficiencia.

Figura 1 - La relación entre la eficacia de la resolución de problemas y la fuerza de la tendencia motivacional

En dirección, la correlación puede ser positiva ("directa") y negativa ("inversa"). Con una correlación lineal positiva, los valores más altos de un atributo corresponden a valores más altos de otro, y los valores más bajos de un atributo corresponden a valores más bajos de otro (Figura 2). Con una correlación negativa, las proporciones se invierten (Figura 3). Con una correlación positiva, el coeficiente de correlación tiene signo positivo, con una correlación negativa - un signo negativo.

Figura 2 - Correlación directa

Figura 3 - Correlación inversa


Figura 4 - Sin correlación

El grado, fuerza o rigidez de la correlación está determinado por el valor del coeficiente de correlación. La fuerza de la conexión no depende de su dirección y está determinada por el valor absoluto del coeficiente de correlación.

1.2 Clasificación general de correlaciones

Dependiendo del coeficiente de correlación, se distinguen las siguientes correlaciones:

Fuerte o cercana con coeficiente de correlación r>0.70;

Medio (a 0,50

Moderado (a 0,30

Débil (a 0.20

Muy débil (en r<0,19).

1.3 Campos de correlación y el propósito de su construcción

La correlación se estudia sobre la base de datos experimentales, que son los valores medidos (x i , y i) de dos características. Si hay pocos datos experimentales, entonces la distribución empírica bidimensional se representa como una serie doble de valores x i e y i. En este caso, la correlación entre características se puede describir de diferentes maneras. La correspondencia entre un argumento y una función puede estar dada por una tabla, fórmula, gráfico, etc.

El análisis de correlación, al igual que otros métodos estadísticos, se basa en el uso de modelos probabilísticos que describen el comportamiento de las características estudiadas en una determinada población general, a partir de los cuales se obtienen los valores experimentales x i e y i. Cuando se investiga la correlación entre características cuantitativas, cuyos valores se pueden medir con precisión en unidades de escalas métricas (metros, segundos, kilogramos, etc.), el modelo de una población general bidimensional distribuida normalmente es muy frecuente. adoptado. Tal modelo muestra la relación entre las variables x i e y i gráficamente como un lugar geométrico de puntos en un sistema de coordenadas rectangulares. Esta dependencia gráfica también se denomina diagrama de dispersión o campo de correlación.
Este modelo de una distribución normal bidimensional (campo de correlación) le permite dar una interpretación gráfica visual del coeficiente de correlación, porque la distribución en conjunto depende de cinco parámetros: μ x , μ y – valores medios (expectativas matemáticas); σ x ,σ y son las desviaciones estándar de las variables aleatorias X e Y y p es el coeficiente de correlación, que es una medida de la relación entre las variables aleatorias X e Y.
Si p \u003d 0, entonces los valores, x i , y i , obtenidos de un conjunto normal bidimensional, se ubican en el gráfico en las coordenadas x, y dentro del área delimitada por un círculo (Figura 5, a). En este caso, no existe correlación entre las variables aleatorias X e Y y se las denomina no correlacionadas. Para una distribución normal bidimensional, la falta de correlación significa al mismo tiempo la independencia de las variables aleatorias X e Y.

El estudio de las relaciones objetivamente existentes entre los fenómenos es la tarea más importante de la estadística. En el proceso de estudio estadístico de las dependencias, se revelan las relaciones de causa y efecto entre los fenómenos. Una relación causal es tal conexión entre fenómenos y procesos, cuando un cambio en uno de ellos, la causa, conduce a un cambio en el otro, el efecto.

Los signos de fenómenos y procesos se dividen en dos clases según su importancia para el estudio de la relación. Los signos que provocan cambios en otros signos relacionados se denominan factorial , o simplemente factores. Los rasgos que cambian bajo la influencia de los rasgos de los factores se denominan productivo .

En estadística, se distinguen conexiones funcionales y estocásticas (probabilísticas) de fenómenos y procesos:

  • funcional llaman a una relación en la que un cierto valor de un atributo del factor corresponde a un valor del resultante.
  • Si una dependencia causal no aparece en cada caso individual, sino en general, en promedio, con una gran cantidad de observaciones, entonces tal dependencia se llama estocástico (probabilístico) . La correlación es un caso especial de conexión estocástica.

Es más, Las conexiones entre los fenómenos y sus características se clasifican según el grado de estrechez, dirección y expresión analítica.

Hacia Distinguir relación directa e inversa:

  • conexión directa - esta es una relación en la que con un aumento (disminución) en los valores de un atributo de factor, se produce un aumento (disminución) en los valores del efectivo. Entonces, por ejemplo, el crecimiento de la productividad laboral contribuye a un aumento en el nivel de rentabilidad de la producción.
  • En caso de comentarios los valores del atributo resultante cambian bajo la influencia del atributo del factor, pero en la dirección opuesta en comparación con el cambio en el atributo del factor. Así, con un aumento en el nivel de productividad del capital, el costo por unidad de producción disminuye.

Por expresión analítica distinguir conexiones rectilíneas (o simplemente lineales) y no lineales:

  • Si una relación estadística entre fenómenos puede expresarse aproximadamente mediante una ecuación de línea recta, entonces se llama conexión lineal de la forma: y=a+bx.
  • Si la conexión se puede expresar mediante la ecuación de cualquier línea curva (parábola, hipérbola, etc.), entonces dicha conexión se llama conexión no lineal (curvilínea) .

Cercanía de la comunicación muestra el grado de influencia del factor rasgo sobre la variación global del rasgo resultante. Clasificación de la comunicación según el grado de estanqueidad presentado en la tabla 1.

Para identificar la presencia de una conexión, su naturaleza y dirección en las estadísticas, se utilizan los siguientes métodos: traer datos paralelos, agrupaciones analíticas, gráficas, correlaciones. El método principal para estudiar la relación estadística es el método estadístico. modelado de comunicación basado en análisis de correlación y regresión .

Correlación - se trata de una relación estadística entre variables aleatorias que no tiene un carácter estrictamente funcional, en la que un cambio en una de las variables aleatorias provoca un cambio en la expectativa matemática de la otra. En estadística, se acostumbra distinguir entre los siguientes tipos de correlación :

  • correlación de pares: la relación entre dos signos (efectivo y factorial, o dos factoriales);
  • correlación privada - la relación entre las características efectivas y de un factor con un valor fijo de las características de otro factor;
  • correlación múltiple - la dependencia de la resultante y dos o más características de los factores incluidos en el estudio.

La tarea del análisis de correlación es una determinación cuantitativa de la cercanía de la conexión entre dos signos (con una conexión pareada) y entre el efectivo y el conjunto de signos factoriales (con una conexión multifactorial).

La estrechez de la conexión se expresa cuantitativamente por el valor de los coeficientes de correlación, los cuales, dando una característica cuantitativa de la estrechez de la conexión entre los signos, nos permiten determinar la "utilidad" de los signos de los factores al construir la ecuación de regresión múltiple .

La correlación está interconectada con la regresión, ya que la primera evalúa la fuerza (estrechez) de una relación estadística, la segunda examina su forma.

Análisis de regresión consiste en determinar la expresión analítica de la relación en forma de ecuación de regresión.

Regresión se denomina dependencia del valor medio del valor aleatorio del atributo efectivo del valor del factor, y ecuación de regresión - una ecuación que describe la correlación entre el signo resultante y uno o más signos de factores.

Fórmulas para el análisis de correlación-regresión para una relación lineal con correlación de pares se presentan en la tabla 2.

Tabla 2 - Fórmulas para análisis de correlación y regresión para una relación de línea recta con correlación de pares
IndicadorDesignación y fórmula
Ecuación de una recta en correlación de pares y x = a +bx, donde b es el coeficiente de regresión
Sistema de ecuaciones normales mínimos cuadrados para determinar los coeficientes a y B
Coeficiente de correlación lineal para determinar la estanqueidad de la conexión,
su interpretación:
r = 0 – sin conexión;
0 -1 r = 1 - conexión funcional
Elasticidad absoluta
Elasticidad relativa

Ejemplos de resolución de problemas sobre el tema "Fundamentos del análisis de correlación"

Tarea 1 (análisis de la relación lineal con correlación de pares) . Hay datos sobre las calificaciones y la producción mensual de cinco trabajadores de tiendas:

Para estudiar la relación entre las calificaciones de los trabajadores y su producción, determine la ecuación de relación lineal y el coeficiente de correlación. Dar una interpretación de los coeficientes de regresión y correlación.

Solución . Ampliemos la tabla propuesta.

Definamos los parámetros de la ecuación de la línea recta yx = a+bx. Para ello, resolvemos el sistema de ecuaciones:

Entonces el coeficiente de regresión es 18.

Como b es un número positivo, existe una relación directa entre x e y.
a=92-4×18
un = 20
La ecuación de relación lineal tiene la forma y x =20+18x.

Para determinar la rigidez (fuerza) de la relación entre las características estudiadas, determinamos el valor del coeficiente de correlación de acuerdo con la fórmula:

= (2020-20×460/5)/(√10×√3280) ≈ 180/181,11=0,99. Dado que el coeficiente de correlación es superior a 0,7, la relación en esta serie es fuerte.

Tarea 2 . En la empresa, los precios de los productos se han reducido de 80 rublos. por unidad hasta 60 rublos. Después de bajar los precios, las ventas aumentaron de 400 a 500 unidades por día. Determinar la elasticidad absoluta y relativa. Hacer una evaluación de la elasticidad con miras a la posibilidad (o imposibilidad) de nuevas reducciones de precios.

Solución . Calculemos los indicadores que nos permiten realizar un análisis preliminar de elasticidad:

Como puede ver, la tasa de reducción del precio es igual en valor absoluto a la tasa de aumento de la demanda.

La elasticidad absoluta y relativa se puede encontrar mediante las fórmulas:

= (500-400)/(60-80) =100/(-20) -5 - elasticidad absoluta

= (100:400)/(-20:80) = -1 - elasticidad relativa

El módulo de elasticidad relativa es igual a 1. Esto confirma el hecho de que la tasa de crecimiento de la demanda es igual a la tasa de reducción de precios. En tal situación, calculamos los ingresos recibidos por la empresa antes y después de la reducción de precios: 80*400 = 32 000 rublos. por día, 60 * 500 = 30,000 rublos. por día - como podemos ver, los ingresos han disminuido y una mayor reducción de precios no es apropiada.

El uso de métodos estadísticos en el procesamiento de materiales de investigación psicológica brinda una gran oportunidad para extraer información útil de los datos experimentales. Uno de los métodos estadísticos más comunes es el análisis de correlación.

El término "correlación" fue utilizado por primera vez por el paleontólogo francés J. Cuvier, quien dedujo la "ley de correlación de partes y órganos de los animales" (esta ley le permite restaurar la apariencia de todo el animal a partir de las partes encontradas del cuerpo ). Este término fue introducido en las estadísticas por el biólogo y estadístico inglés F. Galton (no solo "conexión" - relación, y "como si una conexión" - correlación).

El análisis de correlación es una prueba de hipótesis sobre las relaciones entre variables utilizando coeficientes de correlación, estadísticas descriptivas bidimensionales, una medida cuantitativa de la relación (variabilidad conjunta) de dos variables. Por lo tanto, este es un conjunto de métodos para detectar correlaciones entre variables aleatorias o características.

El análisis de correlación para dos variables aleatorias incluye:

  • construir un campo de correlación y compilar una tabla de correlación;
  • cálculo de coeficientes de correlación de muestras y relaciones de correlación;
  • probar la hipótesis estadística de la significación de la relación.

El objetivo principal del análisis de correlación es identificar la relación entre dos o más variables en estudio, que se considera como un cambio coordinado conjunto en las dos características en estudio. Esta variabilidad tiene tres características principales: forma, dirección y fuerza.

La forma de la correlación puede ser lineal o no lineal. Una forma lineal es más conveniente para identificar e interpretar una correlación. Para una correlación lineal, se pueden distinguir dos direcciones principales: positiva ("conexión directa") y negativa ("retroalimentación").

La fuerza de la relación indica directamente qué tan pronunciada es la variabilidad conjunta de las variables estudiadas. En psicología, la interconexión funcional de los fenómenos sólo puede revelarse empíricamente como una conexión probabilística de las características correspondientes. El diagrama de dispersión proporciona una representación visual de la naturaleza de la relación probabilística, un gráfico cuyos ejes corresponden a los valores de dos variables, y cada sujeto es un punto.

Los coeficientes de correlación se utilizan como una característica numérica de una relación probabilística, cuyos valores varían en el rango de -1 a +1. Después de los cálculos, el investigador, por regla general, selecciona solo las correlaciones más fuertes, que luego se interpretan (Tabla 1).

El criterio para seleccionar correlaciones “suficientemente fuertes” puede ser el valor absoluto del propio coeficiente de correlación (de 0,7 a 1) o el valor relativo de este coeficiente, determinado por el nivel de significancia estadística (de 0,01 a 0,1), dependiendo de tamaño de la muestra. En muestras pequeñas, para una mayor interpretación, es más correcto seleccionar correlaciones fuertes basadas en el nivel de significancia estadística. Para estudios que se realizan en muestras grandes, es mejor utilizar los valores absolutos de los coeficientes de correlación.

Así, la tarea del análisis de correlación se reduce a establecer la dirección (positiva o negativa) y la forma (lineal, no lineal) de la relación entre características variables, medir su rigidez y, finalmente, comprobar el nivel de significación de los resultados obtenidos. Coeficientes de correlación.

Actualmente, se han desarrollado muchos coeficientes de correlación diferentes. Los más usados ​​son r-Pearson, r-Lancero y τ - Kendall. Los modernos programas estadísticos de computadora en el menú "Correlaciones" ofrecen exactamente estos tres coeficientes, y para resolver otros problemas de investigación, se ofrecen métodos para comparar grupos.

La elección del método para calcular el coeficiente de correlación depende del tipo de escala a la que pertenecen las variables (Cuadro 2).

Para variables con intervalo y con escala nominal se utiliza el coeficiente de correlación de Pearson (correlación de momentos producto). Si al menos una de las dos variables tiene una escala ordinal o no se distribuye normalmente, se usa la correlación de rango de Spearman, o

t-Kendall. Si una de las dos variables es dicotómica, se puede utilizar la correlación puntual de dos series (en el programa informático estadístico SPSS, esta posibilidad no está disponible; en su lugar, se puede utilizar el cálculo de la correlación de rango). En el caso de que ambas variables sean dicotómicas, se utiliza una correlación de cuatro campos (este tipo de correlación es calculada por SPSS en base a la definición de medidas de distancia y medidas de similitud). El cálculo del coeficiente de correlación entre dos variables no dicotómicas solo es posible si la relación entre ellas es lineal (unidireccional). Si la conexión, por ejemplo, tu En forma de (ambiguo), el coeficiente de correlación no es adecuado para su uso como una medida de la fuerza de la conexión: su valor tiende a cero.

Así, las condiciones de aplicación de los coeficientes de correlación serán las siguientes:

  • variables medidas en una escala cuantitativa (rango, métrica) en la misma muestra de objetos;
  • la relación entre variables es monótona.

La principal hipótesis estadística, que se prueba mediante análisis de correlación, no es direccional y contiene la afirmación de que la correlación es igual a cero en la población general. H 0: r xy= 0. Si se rechaza, se acepta la hipótesis alternativa H 1: r xy≠ 0 sobre la presencia de una correlación positiva o negativa, según el signo del coeficiente de correlación calculado.

Con base en la aceptación o rechazo de las hipótesis, se extraen conclusiones significativas. Si, de acuerdo con los resultados de las pruebas estadísticas H 0: r xy= 0 no se desvía en el nivel a, entonces la conclusión significativa será la siguiente: la relación entre X y Y extraviado. Estoy gordo H 0 r xy= 0 se desvía en el nivel a, lo que significa que se ha encontrado una relación positiva (negativa) entre X y Y. Sin embargo, la interpretación de las correlaciones reveladas debe abordarse con precaución. Desde un punto de vista científico, el simple hecho de establecer una relación entre dos variables no implica la existencia de una relación causal. Además, la presencia de una correlación no establece una relación de secuencia entre causa y efecto. Simplemente indica que dos variables están más relacionadas entre sí de lo que se esperaría de una coincidencia. No obstante, con cautela, el uso de métodos de correlación en el estudio de las relaciones causales está plenamente justificado. Deben evitarse frases categóricas como "la variable X es la razón del aumento del indicador". Y". Tales afirmaciones deben formularse como supuestos, que deben fundamentarse teóricamente estrictamente.

En los libros de texto sobre estadística matemática se proporciona una descripción detallada del procedimiento matemático para cada coeficiente de correlación; ; ; y otros, nos limitaremos a describir la posibilidad de utilizar estos coeficientes en función del tipo de escala de medida.

Correlación de variables métricas

Para estudiar la relación de dos variables métricas medidas en la misma muestra, usamos coeficiente de correlación r-Pearson. El coeficiente en sí caracteriza la presencia de solo una relación lineal entre las características, generalmente denotada por los símbolos X y Y. El coeficiente de correlación lineal es un método paramétrico y su aplicación correcta solo es posible si los resultados de la medición se presentan en una escala de intervalos, y la distribución misma de los valores en las variables analizadas difiere de la normal en una pequeña medida. Hay muchas situaciones en las que su uso es adecuado. Por ejemplo: establecer una conexión entre el intelecto de un alumno y su rendimiento académico; entre el estado de ánimo y el éxito para salir de una situación problemática; entre el nivel de ingresos y el temperamento, etc.

El coeficiente de Pearson es ampliamente utilizado en psicología y pedagogía. Por ejemplo, en los trabajos de I. Ya. Kaplunovich y P. D. Rabinovich, M. P. Nuzhdina, se utilizó el cálculo del coeficiente de correlación lineal de Pearson para confirmar las hipótesis presentadas.

Al procesar datos "manualmente", es necesario calcular el coeficiente de correlación y luego determinar pags- nivel de significación (para simplificar la verificación de datos, se utilizan tablas de valores críticos rxy, que se elaboran con este criterio). El valor del coeficiente de correlación lineal de Pearson no puede exceder de +1 ni ser inferior a -1. Estos dos números +1 y -1 son los límites del coeficiente de correlación. Cuando el cálculo da como resultado un valor superior a +1 o inferior a -1, esto indica que se ha producido un error de cálculo.

Al calcular en una computadora, el programa estadístico (SPSS, Statistica) acompaña el coeficiente de correlación calculado con un valor más preciso pags-nivel.

Para una decisión estadística sobre aceptación o rechazo H0 generalmente establecido α = 0,05, y para un gran volumen de observaciones (100 o más) α = 0,01. Si p ≤ α, H 0 se rechaza y se llega a una conclusión significativa de que se ha encontrado una relación estadísticamente significativa (significativa) entre las variables estudiadas (positiva o negativa, según el signo de la correlación). Cuándo p > α, H0 no se rechaza, la conclusión significativa se limita a la afirmación de que no se encontró la relación (estadísticamente significativa).

Si no se encuentra ninguna conexión, pero hay motivos para creer que la conexión realmente existe, debe comprobar las posibles razones de la falta de fiabilidad de la conexión.

Comunicación no lineal– Para ello, analice el diagrama de dispersión bidimensional. Si la relación no es lineal, sino monótona, vaya a las correlaciones de rango. Si la relación no es monótona, entonces divida la muestra en partes en las que la relación sea monótona, y calcule las correlaciones por separado para cada parte de la muestra, o divida la muestra en grupos contrastantes y luego compárelos según el nivel de expresión de el rasgo

La presencia de valores atípicos y una asimetría pronunciada en la distribución de una o ambas características. Para hacer esto, debe observar los histogramas de la distribución de frecuencias de ambas características. Si hay valores atípicos o asimetrías, excluya los valores atípicos o cambie a las correlaciones de rango.

Heterogeneidad de la muestra(analice el diagrama de dispersión 2D). Trate de dividir la muestra en partes en las que la relación pueda tener diferentes direcciones.

Si la relación es estadísticamente significativa, entonces, antes de llegar a una conclusión significativa, es necesario excluir la posibilidad de una correlación falsa:

  • conexión debido a valores atípicos. Si hay valores atípicos, vaya a clasificar las correlaciones o excluya los valores atípicos;
  • la relación se debe a la influencia de la tercera variable. Si hay un fenómeno similar, es necesario calcular la correlación no solo para toda la muestra, sino también para cada grupo por separado. Si la "tercera" variable es métrica, calcule la correlación parcial.

Coeficiente de correlación parcial rxy-z se calcula si es necesario probar el supuesto de que la relación entre dos variables X y Y no depende de la influencia de la tercera variable Z. Muy a menudo, dos variables se correlacionan entre sí solo debido al hecho de que ambas cambian en conjunto bajo la influencia de una tercera variable. En otras palabras, de hecho, no hay conexión entre las propiedades correspondientes, sino que aparece en una relación estadística bajo la influencia de una causa común. Por ejemplo, una causa común de variabilidad en dos variables puede ser la edad al estudiar la relación de varias características psicológicas en un grupo de diferentes edades. Al interpretar la correlación parcial en términos de causalidad, se debe tener cuidado, porque si Z se correlaciona con X y con Y, y la correlación parcial rxy-z cercano a cero, no necesariamente se sigue que Z es una razón común para X y Y.

Correlación de variables de rango

Si el coeficiente de correlación es inaceptable para los datos cuantitativos r-Pearson, luego, para probar la hipótesis sobre la relación de dos variables después de la clasificación preliminar, se pueden aplicar correlaciones r-lancero o τ -Kendalla. Por ejemplo, en un estudio de I. A. Lavochkin sobre las características psicofísicas de adolescentes musicalmente dotados, se utilizó el criterio de Spearman.

Para el cálculo correcto de ambos coeficientes (Spearman y Kendall), los resultados de las mediciones deben presentarse en una escala de rangos o intervalos. No existen diferencias fundamentales entre estos criterios, pero generalmente se acepta que el coeficiente de Kendall es más “significativo”, ya que analiza las relaciones entre variables de manera más completa y detallada, clasificando todas las correspondencias posibles entre pares de valores. El coeficiente de Spearman tiene en cuenta con mayor precisión el grado cuantitativo de asociación entre variables.

Coeficiente de correlación de rango de Spearman es un análogo no paramétrico del coeficiente de correlación de Pearson clásico, pero su cálculo no tiene en cuenta los indicadores relacionados con la distribución de las variables comparadas (media aritmética y varianza), sino los rangos. Por ejemplo, es necesario determinar la relación entre las evaluaciones de clasificación de los rasgos de personalidad que se incluyen en la idea de una persona de su "soy real" y "soy ideal".

El coeficiente de Spearman es ampliamente utilizado en la investigación psicológica. Por ejemplo, en el trabajo de Yu. V. Bushov y N. N. Nesmelova: fue él quien se utilizó para estudiar la dependencia de la precisión de estimar y reproducir la duración de las señales de sonido en las características individuales de una persona.

Como este coeficiente es análogo r-Pearson, entonces usarlo para probar hipótesis es similar a usar el coeficiente r-Pearson. Es decir, la hipótesis estadística probada, el procedimiento para tomar una decisión estadística y la formulación de una conclusión significativa son los mismos. En programas informáticos (SPSS, Statistica) niveles de significación para los mismos coeficientes r-Pearson y r-Spearman siempre coincide.

Ventaja de relación r-Spearman versus relación r-Pearson - en mayor sensibilidad a la comunicación. Lo usamos en los siguientes casos:

  • la presencia de una desviación significativa en la distribución de al menos una variable de la forma normal (sesgo, valores atípicos);
  • la apariencia de una conexión curvilínea (monótona).

Restricción para aplicar el coeficiente r- Los de Spearman son:

  • para cada variable al menos 5 observaciones;
  • el coeficiente con un gran número de rangos idénticos en una o ambas variables da un valor aproximado.

Coeficiente de correlación de rango τ -Kendalla es un método original independiente basado en el cálculo de la relación de pares de valores de dos muestras que tienen tendencias iguales o diferentes (aumento o disminución de valores). Esta relación también se llama factor de concordancia. Por lo tanto, la idea principal de este método es que la dirección de la conexión se puede juzgar comparando los sujetos en pares: si un par de sujetos tiene un cambio en X coincide en dirección con el cambio de Y, esto indica una relación positiva, si no la misma, una relación negativa, por ejemplo, en el estudio de las cualidades personales que son de importancia decisiva para el bienestar familiar. En este método, una variable se representa como una secuencia monótona (por ejemplo, los datos del esposo) en orden ascendente de magnitud; a otra variable (por ejemplo, los datos de la esposa) se le asignan los lugares de clasificación correspondientes. El número de inversiones (violaciones de monotonicidad en comparación con la primera fila) se usa en la fórmula para los coeficientes de correlación.

al contar τ- Los datos de Kendall "manualmente" se ordenan primero por variable X. Luego, para cada sujeto, se calcula cuántas veces su rango en Y resulta ser menor que el rango de los sujetos a continuación. El resultado se registra en la columna Coincidencias. La suma de todos los valores en la columna "Coincidencia" es PAGS- el número total de coincidencias, se sustituye en la fórmula para calcular el coeficiente de Kendall, que es más simple computacionalmente, pero con un aumento de la muestra, en contraste con r- Spearman, el volumen de cálculos no aumenta proporcionalmente, sino exponencialmente. Así, por ejemplo, cuando norte= 12 es necesario clasificar 66 pares de sujetos, y cuando norte= 489 - ya 1128 pares, es decir, la cantidad de cálculos aumenta más de 17 veces. Al calcular en una computadora en un programa estadístico (SPSS, Statistica), el coeficiente de Kendall se calcula de manera similar a los coeficientes r-Lancero y r-Pearson. Coeficiente de correlación calculado τ -Kendall se caracteriza por un valor más preciso pags-nivel.

Se prefiere aplicar el coeficiente de Kendall si hay valores atípicos en los datos originales.

Una característica de los coeficientes de correlación de rango es que las correlaciones de rango máximas (+1, -1) no corresponden necesariamente a relaciones estrictamente directas o inversamente proporcionales entre las variables originales X y Y: sólo es suficiente una conexión funcional monótona entre ellos. Las correlaciones de rango alcanzan su valor de módulo máximo si un valor mayor de una variable siempre corresponde a un valor mayor de otra variable (+1), o un valor mayor de una variable siempre corresponde a un valor menor de otra variable y viceversa (-1 ).

La hipótesis estadística a probar, el procedimiento para tomar una decisión estadística y la formulación de una conclusión significativa son los mismos que para el caso r-Lancero o r-Pearson.

Si no se encuentra una relación estadísticamente significativa, pero hay razones para creer que realmente existe una relación, primero debe pasar del coeficiente

r-Lanzador a razón τ -Kendall (o viceversa), y luego verifique las posibles razones de la falta de confiabilidad de la conexión:

  • no linealidad de la comunicación: Para hacer esto, mire el gráfico de dispersión 2D. Si la relación no es monótona, entonces divida la muestra en partes en las que la relación sea monótona, o divida la muestra en grupos contrastantes y luego compárelos según el nivel de expresión del rasgo;
  • heterogeneidad de la muestra: mire un diagrama de dispersión bidimensional, intente dividir la muestra en partes en las que la relación puede tener diferentes direcciones.

Si la relación es estadísticamente significativa, entonces, antes de llegar a una conclusión significativa, es necesario excluir la posibilidad de una correlación falsa (por analogía con los coeficientes de correlación métrica).

Correlación de variables dicotómicas

Cuando se comparan dos variables medidas en una escala dicotómica, la medida de correlación es el denominado coeficiente j, que es el coeficiente de correlación para datos dicotómicos.

Valor coeficiente φ se encuentra entre +1 y -1. Puede ser tanto positivo como negativo, caracterizando la dirección de la relación de dos características medidas dicotómicamente. Sin embargo, la interpretación de φ puede plantear problemas específicos. Los datos dicotómicos incluidos en el esquema de cálculo del coeficiente φ no parecen una superficie normal bidimensional, por lo que es incorrecto suponer que los valores interpretados rxy\u003d 0.60 y φ \u003d 0.60 son iguales. El coeficiente φ se puede calcular por el método de codificación, así como utilizando la llamada tabla de cuatro campos o tabla de contingencia.

Para aplicar el coeficiente de correlación φ se deben cumplir las siguientes condiciones:

  • los rasgos que se comparan deben medirse en una escala dicotómica;
  • X y Y debería ser el mismo.

Este tipo de correlación se calcula en el programa informático SPSS a partir de la definición de medidas de distancia y medidas de similitud. Algunos procedimientos estadísticos, como el análisis factorial, el análisis de conglomerados, el escalamiento multivariante, se basan en la aplicación de estas medidas y, en ocasiones, ellos mismos brindan posibilidades adicionales para calcular medidas de similitud.

Cuando una variable se mide en una escala dicotómica (variable X), y la otra en una escala de intervalos o razones (variable Y), se utiliza coeficiente de correlación biserial, por ejemplo, al probar hipótesis sobre el efecto del género de un niño en la altura y el peso. Este coeficiente varía en el rango de -1 a +1, pero su signo no importa para la interpretación de los resultados. Para su uso se deben cumplir las siguientes condiciones:

  • los signos comparados deben medirse en diferentes escalas: una X- en una escala dicotómica; otro Y– en una escala de intervalos o proporciones;
  • variable Y tiene una ley de distribución normal;
  • el número de características variables en las variables comparadas X y Y debería ser el mismo.

Si la variable X medida en una escala dicotómica, y la variable Y en la escala de rango (variable Y), puede ser usado coeficiente de correlación rango-biserial, que está estrechamente relacionado con el τ de Kendall y utiliza los conceptos de coincidencia e inversión en su definición. La interpretación de los resultados es la misma.

La realización de análisis de correlación con los programas informáticos SPSS y Statistica es una operación sencilla y cómoda. Para hacer esto, después de llamar al cuadro de diálogo Correlaciones bivariadas (Analyze>Correlate> Bivariate…), debe mover las variables en estudio al campo Variables y seleccionar el método por el cual se detectará la correlación entre las variables. El archivo de salida de resultados contiene una tabla cuadrada (correlaciones) para cada criterio calculado. Cada celda de la tabla contiene: el valor mismo del coeficiente de correlación (Coeficiente de correlación), la significación estadística del coeficiente calculado Sig, el número de sujetos.

El encabezado y las columnas laterales de la tabla de correlación resultante contienen los nombres de las variables. La diagonal (esquina superior izquierda - esquina inferior derecha) de la tabla consta de unidades, ya que la correlación de cualquier variable consigo misma es máxima. La mesa es simétrica con respecto a esta diagonal. Si la casilla de verificación "Marcar correlaciones significativas" está marcada en el programa, los coeficientes estadísticamente significativos se marcarán en la tabla de correlación final: al nivel de 0.05 y menos - con un asterisco (*), y al nivel de 0.01 - con dos asteriscos (**).

Entonces, para resumir: el propósito principal del análisis de correlación es identificar la relación entre las variables. La medida de conexión son los coeficientes de correlación, cuya elección depende directamente del tipo de escala en la que se miden las variables, el número de características variables en las variables comparadas y la distribución de las variables. La presencia de una correlación entre dos variables no significa que exista una relación causal entre ellas. Aunque la correlación no indica directamente la causalidad, puede ser una pista de las causas. Sobre su base, se pueden formar hipótesis. En algunos casos, la falta de correlación tiene un efecto más profundo sobre la hipótesis de causalidad. La correlación cero de dos variables puede indicar que no hay influencia de una variable sobre la otra.

Cuota