Analiza coeficientului de corelație. Analiza corelației și regresiei în Excel: instrucțiuni de execuție

Articolul discută definițiile corelației, analizei corelației și coeficientului de corelație. Este dată o definiție a corelației și principalele sale caracteristici.

  • Analiza corelației și regresiei în studiul factorilor de fertilitate
  • Evaluarea factorilor de fertilitate în Republica Bashkortostan

Cercetătorii sunt adesea interesați de modul în care două sau cantitate mare variabile într-unul sau mai multe eșantioane de studiu. De exemplu, o astfel de relație poate fi observată între eroarea în procesarea hardware a datelor experimentale și magnitudinea supratensiunii rețelei. Un alt exemplu este relația dintre capacitatea legăturii de date și raportul semnal-zgomot.

În 1886, naturalistul englez Francis Galton a inventat termenul „corelație” pentru a descrie natura acestui tip de interacțiune. Mai târziu s-a dezvoltat elevul său Karl Pearson formula matematica, ceea ce face posibilă o evaluare cantitativă a corelațiilor de caracteristici.

Dependențe între mărimi (factori, caracteristici) se împart în două tipuri: funcționale și statistice.

Cu dependențe funcționale, fiecare valoare a unei variabile corespunde unei anumite valori a altei variabile. În plus, legătura funcțională a doi factori este posibilă numai cu condiția ca a doua cantitate să depindă doar de prima și să nu depindă de alte mărimi. Dacă o cantitate depinde de mulți factori, o conexiune funcțională este posibilă dacă prima cantitate nu depinde de alți factori decât cei incluși în setul specificat.

Cu o dependență statistică, o modificare a uneia dintre mărimi atrage după sine o modificare a distribuției altor mărimi, care cu anumite probabilități iau anumite valori.

De un interes mult mai mare este altul caz special dependență statistică, când există o relație între valorile unora variabile aleatoare cu valoarea medie a altora, cu particularitatea că, în fiecare caz individual, oricare dintre mărimile interdependente poate lua valori diferite.

Acest tip de dependență între variabile se numește corelație sau corelație.

Analiza corelației- o metodă care vă permite să detectați o relație între mai multe variabile aleatoare.

Analiza corelației rezolvă două probleme principale:

  • Prima sarcină este de a determina forma de comunicare, adică. în stabilirea forma matematica, în care se exprimă această relație. Acest lucru este foarte important, deoarece de la alegerea corecta Forma de comunicare depinde de rezultatul final al studierii relației dintre caracteristici.
  • A doua sarcină este de a măsura aglomerația, de exemplu. măsuri de legătură între caracteristici pentru a stabili gradul de influenţă a unui factor dat asupra rezultatului. Se rezolvă matematic prin determinarea parametrilor ecuației de corelație.

Apoi rezultatele obținute sunt evaluate și analizate folosind indicatori speciali ai metodei de corelare (coeficienți de determinare, corelație liniară și multiplă etc.), precum și verificarea semnificației relației dintre caracteristicile studiate.

Următoarele sarcini sunt rezolvate folosind metode de analiză a corelației:

  1. Relaţie. Există vreo relație între parametri?
  2. Prognoza. Dacă comportamentul unui parametru este cunoscut, atunci poate fi prezis comportamentul altui parametru care se corelează cu primul.
  3. Clasificarea și identificarea obiectelor. Analiza corelației ajută la selectarea unui set de caracteristici independente pentru clasificare.

Corelația este o relație statistică între două sau mai multe variabile aleatoare (sau valori care pot fi considerate ca atare cu un grad acceptabil de acuratețe). Esența sa constă în faptul că atunci când valoarea unei variabile se modifică, are loc o schimbare naturală (scădere sau creștere) a unei alte variabile.

Coeficientul de corelație este utilizat pentru a determina dacă există o relație între două proprietăți.

Coeficientul de corelație p pentru populatia, de regulă, este necunoscut, de aceea este estimat din date experimentale, care este un eșantion de n perechi de valori (x i, y i), obținute prin măsurarea în comun a două caracteristici X și Y. Coeficientul de corelație determinat din datele eșantionului se numește coeficient de corelație al eșantionului (sau doar coeficient de corelație). Este de obicei notat cu simbolul r.

Principalele proprietăți ale coeficientului de corelație includ:

  1. Coeficienții de corelație pot caracteriza doar relațiile liniare, adică. cele care sunt exprimate prin ecuația unei funcții liniare. Dacă există o relație neliniară între diferitele caracteristici, ar trebui utilizați alți indicatori de conexiune.
  2. Valorile coeficienților de corelație sunt numere abstracte cuprinse între -1 și +1, adică -1< r < 1.
  3. Cu variația independentă a caracteristicilor, când nu există nicio legătură între ele, r = 0.
  4. Cu o relație pozitivă sau directă, atunci când cu o creștere a valorilor unei caracteristici crește valorile altei, coeficientul de corelație capătă un semn pozitiv (+) și variază de la 0 la +1, adică. 0< r < 1.
  5. Cu o relație negativă sau inversă, atunci când cu o creștere a valorilor unei caracteristici valorile altei scad în mod corespunzător, coeficientul de corelație este însoțit de un semn negativ (–) și variază de la 0 la –1, adică. -1< r <0.
  6. Cu cât conexiunea dintre caracteristici este mai puternică, cu atât coeficientul de corelație este mai apropiat de ô1ô. Dacă r = ± 1, atunci relația de corelație devine funcțională, adică. Fiecare valoare a atributului X va corespunde uneia sau mai multor valori strict definite ale atributului Y.
  7. Fiabilitatea corelației dintre caracteristici nu poate fi judecată numai după mărimea coeficienților de corelație. Acest parametru depinde de numărul de grade de libertate k = n –2, unde: n este numărul de perechi corelate de indicatori X și Y. Cu cât n este mai mare, cu atât este mai mare fiabilitatea relației la aceeași valoare a coeficientului de corelație. .

Coeficientul de corelație se calculează folosind următoarea formulă:

unde x este valoarea caracteristicii factorului; y - valoarea atributului rezultat; n - numărul de perechi de date.

Corelația este studiată pe baza datelor experimentale, care sunt valorile măsurate x i ,y i a două caracteristici x,y. Dacă există relativ puține date experimentale, atunci distribuția empirică bidimensională este reprezentată ca o serie dublă de valori x i , y i . În același timp, dependența de corelație între caracteristici poate fi descrisă în moduri diferite. Corespondența dintre un argument și o funcție poate fi dată de un tabel, formulă, grafic etc.

Când se studiază corelația dintre trăsăturile cantitative ale căror valori pot fi măsurate cu precizie în unități de scale metrice, se adoptă foarte des un model de populație bivariat distribuit normal. Un astfel de model afișează grafic relația dintre variabilele x și y sub forma unei locații geometrice a punctelor într-un sistem de coordonate dreptunghiular. Această relație grafică se numește diagramă de dispersie sau câmp de corelație.

Acest model al unei distribuții normale bidimensionale (câmp de corelație) ne permite să oferim o interpretare grafică clară a coeficientului de corelație, deoarece Distribuția colectivă depinde de cinci parametri:

  • așteptările matematice E[x], E[y] ale valorilor x,y;
  • abaterile standard px, py ale variabilelor aleatoare x,y ;
  • coeficientul de corelație p, care este o măsură a relației dintre variabilele aleatoare, x și y. Să dăm exemple de câmpuri de corelație.

Dacă p = 0, atunci valorile x i ,y i obținute din populația normală bidimensională sunt situate pe grafic în zona limitată de cerc. În acest caz, nu există nicio corelație între variabilele aleatoare x și y și se numesc necorelate. Pentru o distribuție normală bivariată, necorelația înseamnă simultan independența variabilelor aleatoare x și y.

Dacă p = 1 sau p = -1, atunci vorbim de corelație completă, adică există o dependență funcțională liniară între variabilele aleatoare x și y.

Când p = 1, valorile lui x i,y i determină punctele situate pe o dreaptă cu o pantă pozitivă (cu o creștere a x i, crește și valorile lui y i).

În cazurile intermediare, când -1< p <1, определяемые значениями x i ,y i точки попадают в область, ограниченную некоторым эллипсом, причём при p>0 există o corelație pozitivă (cu o creștere a x, valorile y tind în general să crească), cu p<0 корреляция отрицательная. Чем ближе p к ±1, тем уже эллипс и тем теснее точки, определяемые экспериментальными значениями, группируются около прямой линии.

Aici ar trebui să acordați atenție faptului că linia de-a lungul căreia sunt grupate punctele poate fi nu numai o linie dreaptă, ci poate avea orice altă formă: parabolă, hiperbolă etc. În aceste cazuri, se ia în considerare corelația neliniară.

Dependența de corelație dintre caracteristici poate fi descrisă în moduri diferite, în special, orice formă de conexiune poate fi exprimată printr-o ecuație generală y=f(x), unde caracteristica y este o variabilă dependentă sau o funcție a unei variabile independente x, numit argument.

Astfel, analiza vizuală a câmpului de corelație ajută la determinarea nu numai a prezenței unei relații statistice (liniare sau neliniare) între caracteristicile studiate, ci și a apropierii și formei acesteia.

Când se studiază o conexiune de corelare, un domeniu important de analiză este evaluarea gradului de apropiere a conexiunii. Conceptul gradului de apropiere a legăturii dintre două caracteristici apare datorită faptului că, în realitate, mulți factori influențează modificarea caracteristicii rezultate. În acest caz, influența unuia dintre factori poate fi exprimată mai vizibil și mai clar decât influența altor factori. Pe măsură ce condițiile se schimbă, rolul factorului decisiv se poate schimba către o altă caracteristică.

Când se studiază statistic relațiile, de regulă, sunt luați în considerare doar factorii principali. De asemenea, ținând cont de gradul de apropiere al conexiunii, se evaluează necesitatea unui studiu mai detaliat al acestei conexiuni particulare și semnificația utilizării sale practice.

În general, cunoașterea unei evaluări cantitative a proximității corelației ne permite să rezolvăm următorul grup de întrebări:

  • necesitatea unui studiu aprofundat al acestei relații dintre semne și fezabilitatea aplicării sale practice;
  • gradul de diferențe în manifestarea conexiunii în condiții specifice (comparând evaluarea proximității conexiunii pentru diferite condiții);
  • identificarea factorilor majori și minori în condiții specifice date prin analiza secvențială și compararea unei trăsături cu diverși factori.

Indicatorii de apropiere a conexiunii trebuie să îndeplinească o serie de cerințe de bază:

  • valoarea indicatorului de apropiere a conexiunii trebuie să fie egală sau apropiată de zero dacă nu există nicio legătură între caracteristicile (procese, fenomene) studiate;
  • dacă există o legătură funcțională între caracteristicile studiate, valoarea indicatorului de apropiere a conexiunii trebuie să fie egală cu unu;
  • dacă există o corelație între caracteristici, valoarea absolută a indicatorului de apropiere a conexiunii trebuie exprimată ca o fracție proprie, cu cât valoarea este mai mare, cu atât legătura dintre caracteristicile studiate este mai strânsă (tinde spre unitate).

Dependența de corelație este determinată de diverși parametri, dintre care cei mai folosiți sunt indicatorii perechi care caracterizează relația dintre două variabile aleatoare: coeficientul de covarianță (momentul de corelație) și coeficientul de corelație liniară (coeficientul de corelație al lui Pearson).

Rezistența conexiunii este determinată de valoarea absolută a indicatorului de etanșeitate a conexiunii și nu depinde de direcția conexiunii.

În funcție de valoarea absolută a coeficientului de corelație p, corelațiile dintre caracteristici sunt împărțite la putere, după cum urmează:

  • puternic sau strâns (la p >0,70);
  • medie (la 0,50< p <0,69);
  • moderat (la 0.30< p <0,49);
  • slab (la 0,20< p <0,29);
  • foarte slab (la p<0,19).

Forma relației de corelare poate fi liniară sau neliniară.

De exemplu, relația dintre nivelul de pregătire al unui student și notele finale de certificare poate fi liniară. Un exemplu de relație neliniară este nivelul de motivație și eficacitatea îndeplinirii unei sarcini date. (Pe măsură ce motivația crește, mai întâi crește eficiența îndeplinirii unei sarcini, apoi, la un anumit nivel de motivație, se atinge eficiența maximă; dar o creștere suplimentară a motivației este însoțită de o scădere a eficienței.)

În direcție, relația de corelație poate fi pozitivă (directă) și negativă (inversă).

Cu o corelație liniară pozitivă, valorile mai mari ale unei caracteristici corespund unor valori mai mari ale alteia, iar valorile mai mici ale unei caracteristici corespund unor valori mai mici ale alteia. Cu o corelație negativă, relațiile sunt inversate.

Semnul coeficientului de corelație depinde de direcția corelației: cu o corelație pozitivă, coeficientul de corelație are semn pozitiv, cu o corelație negativă, are semn negativ.

Bibliografie

  1. Ableeva, A. M. Formarea unui fond de instrumente de evaluare în condițiile Standardului Educațional de Stat Federal [Text] / A. M. Ableeva, G. A. Salimova // Probleme actuale ale predării disciplinelor sociale, umanitare, științelor naturale și tehnice în contextul modernizării disciplinelor superioare educație: materiale conferință internațională științifică și metodologică, 4-5 aprilie 2014 / Universitatea Agrară de Stat Bashkir, Facultatea de Tehnologii Informaționale și Management. - Ufa, 2014. - p. 11-14.
  2. Ganieva, A.M. Analiza statistică a ocupării forței de muncă și a șomajului [Text] / A.M. Ganieva, T.N. Lubova // Probleme actuale de cercetare economico-statistică și tehnologii informaționale: culegere de articole. științific Art.: dedicat aniversării a 40 de ani de la crearea departamentului de „Statistică și sisteme informaționale în economie” / Universitatea Agrară de Stat Bashkir. - Ufa, 2011. - p. 315-316.
  3. Ismagilov, R. R. Grupul creativ - o formă eficientă de organizare a cercetării științifice în învățământul superior [Text] / R. R. Ismagilov, M. Kh. Urazlin, D. R. Islamgulov // Complexele științifice, tehnice și științifice-educaționale ale regiunii: probleme și perspective de dezvoltare: materiale ale unei conferințe științifice-practice / Academia de Științe a Republicii Belarus, UGATU. - Ufa, 1999. - p. 105-106.
  4. Islamgulov, D.R. Abordare bazată pe competențe a predării: evaluarea calității educației [Text] / D.R. Islamgulov, T.N. Lubova, I.R. Islamgulova // Buletin științific modern. – 2015. – T. 7. – Nr. 1. – P. 62-69.
  5. Islamgulov, D. R. Activitatea de cercetare a studenților este cel mai important element al formării specialiștilor într-o universitate agricolă [Text] / D. R. Islamgulov // Probleme de pregătire practică a studenților la o universitate în stadiul actual și modalități de rezolvare a acestora: colectarea. materiale științifice-metodă. Conf., 24 aprilie 2007 / Universitatea Agrară de Stat Bashkir. - Ufa, 2007. - p. 20-22.
  6. Lubova, T.N. Baza pentru implementarea standardului educațional de stat federal este abordarea bazată pe competențe [Text] / T.N. Lubova, D.R. Islamgulov, I.R. Islamgulova // BODEST RESEARCH - 2016: Materiale pentru a XII-a Conferință științifică și practică internațională, 15-22 februarie 2016. - Sofia: Byal GRAD-BG OOD, 2016. - Volumul 4 Științe pedagogice. – pp. 80-85.
  7. Lubova, T.N. Noi standarde educaționale: caracteristici de implementare [Text] / T.N. Lubova, D.R. Islamgulov // Buletin științific modern. – 2015. – T. 7. – Nr. 1. – P. 79-84.
  8. Lubova, T.N. Organizarea muncii independente a elevilor [Text] / T.N. Lubova, D.R. Islamgulov // Implementarea programelor educaționale de învățământ superior în cadrul standardului educațional de stat federal pentru învățământul superior: materiale ale conferinței științifice și metodologice din întreaga Rusie în cadrul reuniunii de vizită a Consiliului Național Medical privind managementul mediului și apă utilizarea Instituției Federale de Învățământ în sistemul de învățământ superior. / Universitatea Agrară de Stat Bashkir. - Ufa, 2016. - p. 214-219.
  9. Lubova, T.N. Baza pentru implementarea standardului educațional de stat federal este abordarea bazată pe competențe [Text] / T.N. Lubova, D.R. Islamgulov, I.R. Islamgulova // Buletin științific modern. – 2015. – T. 7. – Nr. 1. – P. 85-93.
  10. Saubanova, L.M. Nivel de încărcare demografică [Text] / L.M. Saubanova, T.N. Lubova // Probleme actuale de cercetare economico-statistică și tehnologii informaționale: culegere de articole. științific Art.: dedicat aniversării a 40 de ani de la crearea departamentului de „Statistică și sisteme informaționale în economie” / Universitatea Agrară de Stat Bashkir. - Ufa, 2011. - P. 321-322.
  11. Fakhrullina, A.R. Analiza statistică a inflației în Rusia [Text] / A.R. Fakhrullina, T.N. Lubova // Probleme actuale de cercetare economico-statistică și tehnologii informaționale: culegere de articole. științific Art.: dedicat aniversării a 40 de ani de la crearea departamentului de „Statistică și sisteme informaționale în economie” / Universitatea Agrară de Stat Bashkir. - Ufa, 2011. - p. 323-324.
  12. Farkhutdinova, A.T. Piața muncii din Republica Bashkortostan în 2012 [Resursă electronică] / A.T. Farkhutdinova, T.N. Lubova // Forum științific studențesc. Materiale ale celei de-a V-a conferințe științifice internaționale pentru studenți: conferință științifică electronică (colecție electronică). Academia Rusă de Științe ale Naturii. 2013.

Analiza corelației

Corelație- relația statistică între două sau mai multe variabile aleatoare (sau variabile care pot fi considerate ca atare cu un grad acceptabil de acuratețe). Mai mult, modificările uneia sau mai multor dintre aceste cantități conduc la o modificare sistematică a unei alte cantități sau a altor cantități. O măsură matematică a corelației dintre două variabile aleatoare este coeficientul de corelație.

Corelația poate fi pozitivă și negativă (de asemenea, este posibil să nu existe o relație statistică - de exemplu, pentru variabile aleatoare independente). Corelație negativă - corelație, în care o creștere a unei variabile este asociată cu o scădere a unei alte variabile, iar coeficientul de corelație este negativ. Corelație pozitivă - corelație, în care o creștere a unei variabile este asociată cu o creștere a unei alte variabile, iar coeficientul de corelație este pozitiv.

Autocorelare - relație statistică între variabile aleatoare din aceeași serie, dar luate cu o schimbare, de exemplu, pentru un proces aleator - cu o schimbare în timp.

Lăsa X,Y- două variabile aleatoare definite pe un spațiu de probabilitate. Atunci coeficientul lor de corelare este dat de formula:

,

unde cov denotă covarianță și D este varianță sau echivalent,

,

unde simbolul denotă așteptarea matematică.

Pentru a reprezenta grafic o astfel de relație, puteți utiliza un sistem de coordonate dreptunghiular cu axe care corespund ambelor variabile. Fiecare pereche de valori este marcată cu un simbol specific. Acest grafic se numește „scatterplot”.

Metoda de calcul al coeficientului de corelație depinde de tipul de scară căreia îi aparțin variabilele. Astfel, pentru măsurarea variabilelor cu scale de interval și cantitative, este necesar să se utilizeze coeficientul de corelație Pearson (corelația momentului produsului). Dacă cel puțin una dintre cele două variabile este pe o scară ordinală sau nu este distribuită normal, trebuie utilizată corelația de rang a lui Spearman sau τ (tau) a lui Kendal. În cazul în care una dintre cele două variabile este dihotomică, se utilizează o corelație punct-biserială, iar dacă ambele variabile sunt dihotomice: o corelație cu patru câmpuri. Calcularea coeficientului de corelație dintre două variabile nedihotomice are sens numai atunci când relația dintre ele este liniară (unidirecțională).

Coeficientul de corelație Kendell

Folosit pentru a măsura dezordinea reciprocă.

Coeficientul de corelație Spearman

Proprietățile coeficientului de corelație

dacă luăm covarianța ca produs scalar a două variabile aleatoare, atunci norma variabilei aleatoare va fi egală cu , iar consecinţa inegalităţii Cauci-Bunyakovsky va fi: . , Unde . Mai mult, în acest caz semnele și k potrivire: .

Analiza corelației

Analiza corelației- metoda de prelucrare a datelor statistice, care consta in studierea coeficientilor ( corelații) între variabile. În acest caz, se compară coeficienții de corelație între o pereche sau mai multe perechi de caracteristici pentru a stabili relații statistice între ele.

Ţintă analiza corelației- furnizați câteva informații despre o variabilă folosind o altă variabilă. În cazurile în care este posibilă atingerea unui scop, se spune că variabilele sunt corela. În forma sa cea mai generală, acceptarea ipotezei unei corelații înseamnă că o modificare a valorii variabilei A va avea loc concomitent cu o modificare proporțională a valorii lui B: dacă ambele variabile cresc, atunci corelația este pozitivă, dacă o variabilă crește și cealaltă scade, corelația este negativă.

Corelația reflectă doar dependența liniară a valorilor, dar nu reflectă conectivitatea lor funcțională. De exemplu, dacă calculați coeficientul de corelație dintre cantități A = sin(X) Și B = cos(X) , atunci va fi aproape de zero, adică nu există nicio dependență între cantități. Între timp, mărimile A și B sunt în mod evident legate funcțional conform legii sin 2 (X) + cos 2 (X) = 1 .

Limitările analizei corelației

Grafice ale distribuțiilor de perechi (x,y) cu coeficienții de corelație x și y corespunzători pentru fiecare dintre ele. Rețineți că coeficientul de corelație reflectă o relație liniară (linia de sus), dar nu descrie o curbă de relație (linia de mijloc) și nu este deloc potrivit pentru a descrie relații complexe, neliniare (linia de jos).

  1. Aplicarea este posibilă dacă există un număr suficient de cazuri pentru studiu: pentru un anumit tip, coeficientul de corelație variază de la 25 la 100 de perechi de observații.
  2. A doua limitare rezultă din ipoteza analizei corelației, care include dependența liniară a variabilelor. În multe cazuri, când se știe în mod sigur că există o relație, analiza corelației poate să nu dea rezultate pur și simplu pentru că relația este neliniară (exprimată, de exemplu, ca o parabolă).
  3. Simplul fapt de corelare nu oferă motive pentru a afirma care dintre variabile precede sau provoacă modificări sau că variabilele sunt în general legate între ele cauzal, de exemplu, datorită acțiunii unui al treilea factor.

Zona de aplicare

Această metodă de prelucrare a datelor statistice este foarte populară în științe economice și sociale (în special în psihologie și sociologie), deși sfera de aplicare a coeficienților de corelare este extins: controlul calității produselor industriale, metalurgie, agrochimie, hidrobiologie, biometrie și altele.

Popularitatea metodei se datorează a doi factori: coeficienții de corelație sunt relativ ușor de calculat, iar utilizarea lor nu necesită pregătire matematică specială. Combinată cu ușurința sa de interpretare, ușurința în aplicare a coeficientului a condus la utilizarea pe scară largă în domeniul analizei datelor statistice.

Falsă corelație

Adesea, simplitatea tentantă a cercetării de corelație încurajează cercetătorul să tragă concluzii intuitive false despre prezența unei relații cauză-efect între perechile de caracteristici, în timp ce coeficienții de corelație stabilesc doar relații statistice.

În metodologia cantitativă modernă a științelor sociale, a existat, de fapt, o abandonare a încercărilor de a stabili relații cauză-efect între variabilele observate folosind metode empirice. Prin urmare, atunci când cercetătorii din științe sociale vorbesc despre stabilirea unor relații între variabilele studiate, este implicată fie o presupunere teoretică generală, fie o dependență statistică.

Vezi si

Fundația Wikimedia. 2010.

Vedeți ce este „Analiza corelației” în alte dicționare:

    Vezi ANALIZA CORELATIEI. antinazi. Enciclopedia de Sociologie, 2009... Enciclopedia Sociologiei

    O ramură a statisticii matematice care combină metode practice de studiere a corelației dintre două (sau mai multe) caracteristici sau factori aleatori. Vezi Corelație (în statistica matematică)... Dicţionar enciclopedic mare

    ANALIZA CORELATIEI, o sectiune de statistici matematice care combina metode practice de studiere a corelatiei dintre doua (sau mai multe) caracteristici sau factori aleatori. Vezi Corelație (vezi CORELARE (relație reciprocă... Dicţionar enciclopedic

    Analiza corelației- (în economie) o ramură a statisticii matematice care studiază relațiile dintre mărimile în schimbare (corelația este un raport, de la cuvântul latin correlatio). Relația poate fi completă (adică funcțională) și incompletă,... ... Dicționar economic și matematic

    analiza corelației- (în psihologie) (din latinescul corelatio ratio) o metodă statistică de apreciere a formei, semnului și strângerii legăturii dintre caracteristicile sau factorii studiati. Atunci când se determină forma unei conexiuni, se ia în considerare liniaritatea sau neliniaritatea acesteia (adică, ca în medie... ... Mare enciclopedie psihologică

    analiza corelației- - [L.G. Sumenko. Dicționar englez-rus de tehnologia informației. M.: Întreprinderea de stat TsNIIS, 2003.] Subiecte tehnologia informației în general analiza corelației EN ... Ghidul tehnic al traducătorului

    analiza corelației- koreliacinė analizė statusas T sritis Kūno kultūra ir sportas apibrėžtis Statistikos metodas, kuriuo įvertinami tiriamųjų asmenų, reiškinių požymiai arba veiksnių santykiai. atitikmenys: engl. studii de corelare vok. Analyse der Correlation, f;… … Sporto terminų žodynas

    Un set de metode bazate pe teoria matematică a corelației (vezi corelația) pentru detectarea unei corelații între două caracteristici sau factori aleatori. K. a. datele experimentale includ următoarele... ... Marea Enciclopedie Sovietică

    Secțiunea de matematică statistici, combinând practicile Metode de cercetare corelativă. dependențe între două (sau mai multe) caracteristici sau factori aleatori. Vezi corelația... Marele Dicţionar Politehnic Enciclopedic

LUCRARE DE CURS

Tema: Analiza corelației

Introducere

1. Analiza corelației

1.1 Conceptul de corelare

1.2 Clasificarea generală a corelațiilor

1.3 Câmpuri de corelație și scopul construcției lor

1.4 Etapele analizei corelației

1.5 Coeficienți de corelație

1.6 Coeficientul de corelație Bravais-Pearson normalizat

1.7 Coeficientul de corelare a rangului lui Spearman

1.8 Proprietăți de bază ale coeficienților de corelație

1.9 Verificarea semnificației coeficienților de corelație

1.10 Valori critice ale coeficientului de corelație de pereche

2. Planificarea unui experiment multifactorial

2.1 Starea problemei

2.2 Determinarea centrului planului (nivel de bază) și a nivelului de variație a factorilor

2.3 Construirea matricei de planificare

2.4 Verificarea omogenității dispersiei și echivalenței măsurătorilor în diferite serii

2.5 Coeficienții ecuației de regresie

2.6 Varianta de reproductibilitate

2.7 Verificarea semnificației coeficienților ecuației de regresie

2.8 Verificarea adecvării ecuaţiei de regresie

Concluzie

Bibliografie

INTRODUCERE

Planificarea experimentală este o disciplină matematică și statistică care studiază metode de organizare rațională a cercetării experimentale - de la alegerea optimă a factorilor supuși studiului și determinarea planului experimental propriu-zis în conformitate cu scopul său până la metodele de analiză a rezultatelor. Planificarea experimentală a început cu lucrările statisticianului englez R. Fisher (1935), care a subliniat că planificarea experimentală rațională oferă câștiguri nu mai puțin semnificative în acuratețea estimărilor decât prelucrarea optimă a rezultatelor măsurătorilor. În anii 60 ai secolului XX, a apărut teoria modernă a planificării experimentale. Metodele ei sunt strâns legate de teoria aproximării funcțiilor și de programarea matematică. Au fost construite planuri optime și au fost studiate proprietățile lor pentru o clasă largă de modele.

Planificarea experimentală este alegerea unui plan experimental care îndeplinește cerințele specificate, un set de acțiuni care vizează dezvoltarea unei strategii de experimentare (de la obținerea de informații a priori până la obținerea unui model matematic funcțional sau determinarea condițiilor optime). Acesta este controlul intenționat al unui experiment, implementat în condiții de cunoaștere incompletă a mecanismului fenomenului studiat.

În procesul de măsurători, prelucrarea ulterioară a datelor, precum și formalizarea rezultatelor sub forma unui model matematic, apar erori și o parte din informațiile conținute în datele originale se pierd. Utilizarea metodelor de planificare experimentală face posibilă determinarea erorii modelului matematic și evaluarea adecvării acestuia. Dacă acuratețea modelului se dovedește a fi insuficientă, atunci utilizarea metodelor de planificare experimentală face posibilă modernizarea modelului matematic cu experimente suplimentare fără a pierde informațiile anterioare și cu costuri minime.

Scopul planificării unui experiment este de a găsi astfel de condiții și reguli pentru efectuarea experimentelor în care este posibil să se obțină informații fiabile și de încredere despre un obiect cu cea mai mică cantitate de muncă, precum și să prezinte aceste informații într-o formă compactă și convenabilă. cu o evaluare cantitativă a preciziei.

Printre principalele metode de planificare utilizate în diferitele etape ale studiului se numără:

Planificarea unui experiment de screening, a cărui semnificație principală este selecția din întregul set de factori a unui grup de factori semnificativi care fac obiectul unui studiu mai detaliat;

Proiectare experimentală pentru ANOVA, de ex. întocmirea de planuri pentru obiecte cu factori calitativi;

Planificarea unui experiment de regresie care vă permite să obțineți modele de regresie (polinom și altele);

Planificarea unui experiment extrem în care sarcina principală este optimizarea experimentală a obiectului de cercetare;

Planificarea la studierea proceselor dinamice etc.

Scopul studierii disciplinei este de a pregăti studenții pentru activități de producție și tehnice din specialitatea lor folosind metode de teorie a planificării și tehnologii informaționale moderne.

Obiectivele disciplinei: studiul metodelor moderne de planificare, organizare și optimizare a experimentelor științifice și industriale, efectuarea experimentelor și prelucrarea rezultatelor obținute.

1. ANALIZA CORELATIEI

1.1 Conceptul de corelare

Un cercetător este adesea interesat de modul în care două sau mai multe variabile sunt legate între ele în unul sau mai multe eșantioane studiate. De exemplu, poate înălțimea să afecteze greutatea unei persoane sau poate afecta tensiunea arterială calitatea produsului?

Acest tip de dependență între variabile se numește corelație sau corelație. O corelație este o schimbare consistentă a două caracteristici, reflectând faptul că variabilitatea unei caracteristici este în concordanță cu variabilitatea celeilalte.

Se știe, de exemplu, că, în medie, există o relație pozitivă între înălțimea oamenilor și greutatea lor și astfel încât cu cât este mai mare înălțimea, cu atât este mai mare greutatea persoanei. Cu toate acestea, există excepții de la această regulă, când persoanele relativ scunde sunt supraponderale și, dimpotrivă, persoanele astenice cu statură mare au o greutate mică. Motivul pentru astfel de excepții este că fiecare semn biologic, fiziologic sau psihologic este determinat de influența mai multor factori: de mediu, genetici, sociali, de mediu etc.

Legăturile de corelație sunt modificări probabilistice care pot fi studiate numai pe eșantioane reprezentative folosind metodele statisticii matematice. Ambii termeni - legătura de corelare și dependența de corelație - sunt adesea folosiți în mod interschimbabil. Dependența implică influență, conexiune - orice schimbări coordonate care pot fi explicate prin sute de motive. Legăturile de corelație nu pot fi considerate ca dovezi ale unei relații cauză-efect; ele indică doar faptul că schimbările într-o caracteristică sunt de obicei însoțite de anumite schimbări în alta.

Dependența de corelație - Acestea sunt modificări care introduc valorile unei caracteristici în probabilitatea apariției diferitelor valori ale altei caracteristici.

Sarcina analizei corelației se rezumă la stabilirea direcției (pozitive sau negative) și a formei (liniare, neliniare) a relației dintre diferitele caracteristici, măsurarea apropierii acesteia și, în final, verificarea nivelului de semnificație a coeficienților de corelație obținuți.

Conexiunile de corelație variază în formă, direcție și grad (putere) .

Forma relației de corelație poate fi liniară sau curbilinie. De exemplu, relația dintre numărul de sesiuni de antrenament pe simulator și numărul de probleme rezolvate corect în sesiunea de control poate fi simplă. De exemplu, relația dintre nivelul de motivație și eficacitatea unei sarcini poate fi curbilinie (Figura 1). Pe măsură ce motivația crește, mai întâi crește eficacitatea îndeplinirii unei sarcini, apoi se atinge nivelul optim de motivare, care corespunde eficienței maxime a îndeplinirii sarcinii; O creștere suplimentară a motivației este însoțită de o scădere a eficienței.

Figura 1 - Relația dintre eficiența rezolvării problemelor și puterea tendințelor motivaționale

În direcție, relația de corelație poate fi pozitivă („directă”) și negativă („inversă”). Cu o corelație liniară pozitivă, valorile mai mari ale unei caracteristici corespund unor valori mai mari ale alteia, iar valorile mai mici ale unei caracteristici corespund unor valori scăzute ale alteia (Figura 2). Cu o corelație negativă, relațiile sunt inverse (Figura 3). Cu o corelație pozitivă, coeficientul de corelație are semn pozitiv, cu o corelație negativă, are semn negativ.

Figura 2 – Corelație directă

Figura 3 – Corelație inversă


Figura 4 – Fără corelație

Gradul, puterea sau apropierea corelației este determinată de valoarea coeficientului de corelație. Rezistența conexiunii nu depinde de direcția acesteia și este determinată de valoarea absolută a coeficientului de corelație.

1.2 Clasificarea generală a corelațiilor

În funcție de coeficientul de corelație, se disting următoarele corelații:

Puternic, sau apropiat cu un coeficient de corelație r>0,70;

Medie (la 0,50

Moderat (la 0.30

Slab (la 0,20

Foarte slab (la r<0,19).

1.3 Câmpuri de corelație și scopul construcției lor

Corelația este studiată pe baza datelor experimentale, care sunt valorile măsurate (x i, y i) a două caracteristici. Dacă există puține date experimentale, atunci distribuția empirică bidimensională este reprezentată ca o serie dublă de valori x i și y i. În același timp, dependența de corelație între caracteristici poate fi descrisă în moduri diferite. Corespondența dintre un argument și o funcție poate fi dată de un tabel, formulă, grafic etc.

Analiza corelației, ca și alte metode statistice, se bazează pe utilizarea modelelor probabilistice care descriu comportamentul caracteristicilor studiate într-o anumită populație generală din care se obțin valorile experimentale xi și y i. Când se studiază corelația dintre caracteristicile cantitative, ale căror valori pot fi măsurate cu precizie în unități de scări metrice (metri, secunde, kilograme etc.), se adoptă foarte des un model de populație bidimensional distribuit normal. Un astfel de model afișează grafic relația dintre variabilele x i și y i sub forma unei locații geometrice a punctelor într-un sistem de coordonate dreptunghiulare. Această relație grafică se mai numește și diagramă de dispersie sau câmp de corelație.
Acest model al unei distribuții normale bidimensionale (câmp de corelație) ne permite să oferim o interpretare grafică clară a coeficientului de corelație, deoarece distribuția în total depinde de cinci parametri: μ x, μ y – valori medii (așteptări matematice); σ x ,σ y – abaterile standard ale variabilelor aleatoare X și Y și p – coeficientul de corelație, care este o măsură a relației dintre variabilele aleatoare X și Y.
Dacă p = 0, atunci valorile x i , y i obținute dintr-o populație normală bidimensională sunt situate pe grafic în coordonatele x, y în aria limitată de cerc (Figura 5, a). În acest caz, nu există nicio corelație între variabilele aleatoare X și Y și se numesc necorelate. Pentru o distribuție normală bidimensională, necorelare înseamnă simultan independența variabilelor aleatoare X și Y.

În cercetarea științifică, este adesea nevoie să se găsească o legătură între rezultat și variabilele factori (randamentul unei culturi și cantitatea de precipitații, înălțimea și greutatea unei persoane în grupuri omogene în funcție de sex și vârstă, ritmul cardiac și temperatura corpului). , etc.).

Al doilea sunt semne care contribuie la modificări ale celor asociate acestora (primul).

Conceptul de analiză a corelației

Sunt multe Pe baza celor de mai sus, putem spune că analiza corelației este o metodă folosită pentru a testa ipoteza despre semnificația statistică a două sau mai multe variabile dacă cercetătorul le poate măsura, dar nu le poate modifica.

Există și alte definiții ale conceptului în cauză. Analiza corelației este o metodă de procesare care presupune studierea coeficienților de corelație între variabile. În acest caz, se compară coeficienții de corelație între o pereche sau mai multe perechi de caracteristici pentru a stabili relații statistice între ele. Analiza corelației este o metodă de studiere a dependenței statistice dintre variabile aleatoare cu prezența opțională de natură funcțională strictă, în care dinamica unei variabile aleatoare conduce la dinamica așteptării matematice a alteia.

Conceptul de corelație falsă

La efectuarea analizei de corelație, este necesar să se țină cont de faptul că aceasta poate fi efectuată în raport cu orice set de caracteristici, adesea absurde unele în raport cu altele. Uneori nu au nicio legătură cauzală unul cu celălalt.

În acest caz, se vorbește despre o corelație falsă.

Probleme de analiză a corelației

Pe baza definițiilor de mai sus se pot formula următoarele sarcini ale metodei descrise: obținerea de informații despre una dintre variabilele căutate folosind alta; determina proximitatea relatiei dintre variabilele studiate.

Analiza corelației presupune determinarea relației dintre caracteristicile studiate și, prin urmare, sarcinile de analiză a corelației pot fi completate cu următoarele:

  • identificarea factorilor care au cel mai mare impact asupra caracteristicii rezultate;
  • identificarea cauzelor neexplorate anterior ale conexiunilor;
  • construirea unui model de corelare cu analiza parametrică a acestuia;
  • studiul semnificației parametrilor de comunicare și evaluarea intervalului acestora.

Relația dintre analiza corelației și regresie

Metoda de analiză a corelației nu se limitează adesea la găsirea strângerii relației dintre cantitățile studiate. Uneori este completată de compilarea ecuațiilor de regresie, care sunt obținute cu ajutorul analizei cu același nume și care reprezintă o descriere a dependenței de corelație dintre caracteristica (trăsăturile) rezultată și factorul (factor). Această metodă, împreună cu analiza luată în considerare, constituie metoda

Condiții de utilizare a metodei

Factorii eficienți depind de unul sau mai mulți factori. Metoda analizei corelației poate fi utilizată dacă există un număr mare de observații despre valoarea indicatorilor efectivi și factorilor (factori), în timp ce factorii aflați în studiu trebuie să fie cantitativi și reflectați în surse specifice. Prima poate fi determinată de legea normală - în acest caz, rezultatul analizei de corelație este coeficienții de corelație Pearson, sau, dacă caracteristicile nu respectă această lege, se folosește coeficientul de corelație a rangului Spearman.

Reguli de selectare a factorilor de analiză a corelației

La aplicarea acestei metode, este necesar să se determine factorii care influențează indicatorii de performanță. Ele sunt selectate ținând cont de faptul că trebuie să existe relații cauză-efect între indicatori. În cazul creării unui model de corelație multifactorială, sunt selectați cei care au un impact semnificativ asupra indicatorului rezultat, în timp ce este de preferat să nu se includă în modelul de corelație factori interdependenți cu un coeficient de corelație de pereche mai mare de 0,85, precum și cei pentru care relaţia cu parametrul rezultat nu este liniară sau de caracter funcţional.

Afișarea rezultatelor

Rezultatele analizei corelațiilor pot fi prezentate sub formă de text și grafic. În primul caz ele sunt prezentate ca un coeficient de corelație, în al doilea - sub forma unei diagrame de împrăștiere.

În absența corelării între parametri, punctele de pe diagramă sunt situate haotic, gradul mediu de conectare se caracterizează printr-un grad mai mare de ordine și se caracterizează printr-o distanță mai mult sau mai puțin uniformă a marcajelor marcate față de mediană. O conexiune puternică tinde să fie dreaptă și la r=1 graficul de puncte este o linie plată. Corelația inversă diferă în direcția graficului din stânga sus la dreapta jos, corelația directă - din stânga jos în colțul din dreapta sus.

Reprezentarea 3D a unui grafic de dispersie

În plus față de afișarea tradițională a graficului de dispersie 2D, acum este utilizată o reprezentare grafică 3D a analizei corelației.

Este, de asemenea, utilizată o matrice de dispersie, care afișează toate diagramele pereche într-o singură cifră într-un format de matrice. Pentru n variabile, matricea conține n rânduri și n coloane. Graficul situat la intersecția rândului i și coloanei j este un grafic al variabilelor Xi față de Xj. Astfel, fiecare rând și coloană este o dimensiune, o singură celulă afișează un grafic de dispersie de două dimensiuni.

Evaluarea etanșeității conexiunii

Apropierea conexiunii de corelare este determinată de coeficientul de corelație (r): puternic - r = ±0,7 la ±1, mediu - r = ±0,3 la ±0,699, slab - r = 0 la ±0,299. Această clasificare nu este strictă. Figura prezintă o diagramă ușor diferită.

Un exemplu de utilizare a metodei de analiză a corelației

Un studiu interesant a fost întreprins în Marea Britanie. Este dedicat legăturii dintre fumat și cancerul pulmonar și a fost realizat prin analiză de corelație. Această observație este prezentată mai jos.

Date inițiale pentru analiza corelației

Grup profesional

mortalitate

Fermierii, pădurari și pescari

Mineri și muncitori la carieră

Producători de gaze, cocs și produse chimice

Producatori de sticla si ceramica

Muncitori ai cuptoarelor, forjelor, turnatorii si laminoarelor

Lucrători în electricitate și electronică

Inginerie și profesii conexe

Industrii de prelucrare a lemnului

Lucrătorii din piele

Muncitori din textile

Producători de haine de lucru

Lucrători din industria alimentară, a băuturilor și a tutunului

Producători de hârtie și imprimare

Producatori de alte produse

Constructorii

Pictori și decoratori

Șoferi de motoare staționare, macarale etc.

Lucrători necuprinși în altă parte

Lucrători în transport și comunicații

Muncitori din depozit, depozitari, ambalatori și muncitori la mașini de umplere

Muncitori la birou

Vânzători

Lucrători în sport și recreere

Administratori și manageri

Profesioniști, tehnicieni și artiști

Începem analiza corelației. Pentru claritate, este mai bine să începeți soluția cu o metodă grafică, pentru care vom construi o diagramă de împrăștiere.

Demonstrează o legătură directă. Cu toate acestea, este dificil să trageți o concluzie fără ambiguitate bazată numai pe metoda grafică. Prin urmare, vom continua să efectuăm analize de corelație. Un exemplu de calcul al coeficientului de corelație este prezentat mai jos.

Folosind software (MS Excel va fi descris mai jos ca exemplu), determinăm coeficientul de corelație, care este 0,716, ceea ce înseamnă o legătură puternică între parametrii studiați. Să determinăm fiabilitatea statistică a valorii obținute folosind tabelul corespunzător, pentru care trebuie să scădem 2 din 25 de perechi de valori, ca rezultat obținem 23 și folosind această linie din tabel găsim r critic pentru p = 0,01 (deoarece acestea sunt date medicale, o dependență mai strictă, în alte cazuri p=0,05 este suficient), care este 0,51 pentru această analiză de corelație. Exemplul a demonstrat că r calculat este mai mare decât r critic, iar valoarea coeficientului de corelație este considerată fiabilă din punct de vedere statistic.

Utilizarea software-ului la efectuarea analizei de corelație

Tipul descris de prelucrare a datelor statistice poate fi realizat folosind software, în special MS Excel. Corelația implică calcularea următorilor parametri folosind funcții:

1. Coeficientul de corelație se determină folosind funcția CORREL (array1; array2). Array1,2 - celula intervalului de valori ale variabilelor rezultante și factor.

Coeficientul de corelație liniară se mai numește și coeficientul de corelație Pearson și, prin urmare, începând cu Excel 2007, puteți utiliza funcția cu aceleași matrice.

Afișarea grafică a analizei de corelație în Excel se face folosind panoul „Diagrame” cu selecția „Grafic de dispersie”.

După specificarea datelor inițiale, obținem un grafic.

2. Evaluarea semnificației coeficientului de corelație perechi folosind testul t Student. Valoarea calculată a criteriului t este comparată cu valoarea tabelată (critică) a acestui indicator din tabelul corespunzător de valori ale parametrului luat în considerare, ținând cont de nivelul de semnificație specificat și de numărul de grade de libertate. Această estimare se realizează folosind funcția STUDISCOVER(probabilitate; grade_de_libertate).

3. Matricea coeficienților de corelație perechi. Analiza se realizează folosind instrumentul de analiză a datelor, în care este selectată corelația. Evaluarea statistică a coeficienților de corelație a perechilor se realizează prin compararea valorii absolute a acesteia cu valoarea tabelată (critică). Când coeficientul de corelație perechi calculat îl depășește pe cel critic, putem spune, ținând cont de gradul de probabilitate dat, că ipoteza nulă despre semnificația relației liniare nu este respinsă.

In cele din urma

Utilizarea metodei de analiză a corelației în cercetarea științifică ne permite să stabilim relația dintre diverși factori și indicatori de performanță. Este necesar să se țină seama de faptul că se poate obține un coeficient de corelație ridicat dintr-o pereche sau un set absurd de date și, prin urmare, acest tip de analiză trebuie efectuat pe o gamă suficient de mare de date.

După obținerea valorii calculate a lui r, este indicat să o comparați cu r critic pentru a confirma fiabilitatea statistică a unei anumite valori. Analiza corelației poate fi efectuată manual folosind formule sau folosind software, în special MS Excel. Aici puteți construi și o diagramă de împrăștiere în scopul reprezentării vizuale a relației dintre factorii studiați de analiză a corelației și caracteristica rezultată.

Definiţia Corelation Analysis

La rezolvarea problemelor de natură economică, și anume de prognoză, este adesea folosită analiza corelației. Se bazează pe niște valori ale unei variabile aleatorii, reprezentate de o variabilă care depinde de caz și poate lua unele valori cu o anumită probabilitate. În acest caz, legea de distribuție corespunzătoare poate arăta frecvența unor valori specifice în totalitatea lor. Analiza corelației în statistică se bazează pe dependența stocastică atunci când se efectuează cercetări privind relația dintre anumiți indicatori economici.

Tipuri de analiză a corelațiilor

Analiza corelației operează atât cu dependențe funcționale (complete) cât și distorsionate de alți factori (incomplete) ale acestei relații. Un exemplu de primul tip (dependența funcțională) este producția și consumul de produse finite în condiții de penurie. O relație incompletă poate fi observată, de exemplu, între productivitatea muncii și vechimea în muncă a lucrătorilor. În același timp, o experiență mai mare îi influențează calitatea, însă, sub influența anumitor factori (sănătate sau educație), această dependență este distorsionată.

Utilizarea analizei de corelație în statistică

Analiza corelației este utilizată pe scară largă în statistica matematică.

În același timp, sarcina sa principală este de a determina proximitatea conexiunii și caracterului dintre caracteristicile independente (factoriale) și dependente (rezultate) într-un proces sau fenomen. O corelație este relevată doar cu o comparație factorială la scară largă. Astfel, etanșeitatea sa poate fi determinată folosind un anumit coeficient de corelație, special calculat și situat în intervalul [-1;+1]. Natura relației dintre acești indicatori poate fi determinată de câmpul de corelație. În cazul în care Y este o caracteristică dependentă, X este o caracteristică independentă, atunci când luăm fiecare caz în forma X(j), câmpul de corelație va avea coordonate (x j;y j).

Analiza corelației în economie

Activitatea economică a entităților comerciale depinde de un număr mare de factori diferiți. În acest caz, este necesar să se ia în considerare complexul lor, deoarece fiecare dintre ele separat nu poate determina fenomenul studiat în întregime. Prin urmare, doar un set de factori în strânsa lor interrelație oferă o idee clară a obiectului studiat. Analiza corelației multivariate poate consta în mai multe etape. În primul rând, acei factori cu ajutorul cărora se determină impactul maxim asupra indicatorului studiat, iar cei mai semnificativi sunt selectați pentru analiză. A doua etapă implică colectarea și evaluarea informațiilor inițiale care sunt necesare pentru analiza corelației. În al treilea, se studiază caracterul, iar relația dintre indicatorii finali și alți factori este modelată. Cu alte cuvinte, este fundamentată ecuația matematică generată, care exprimă cel mai exact esența dependenței analizate. Iar ultima etapă presupune evaluarea rezultatelor analizei de corelare cu aplicarea sa practică.

Acțiune