Coeficientul ecuației de regresie arată. Ecuația de regresie. Ecuația de regresie multiplă

Ce este regresia?

Luați în considerare două variabile continue x = (x 1, x 2, .., x n), y = (y 1, y 2, ..., y n).

Să plasăm punctele pe un grafic de dispersie 2D și să spunem că avem relație liniară dacă datele sunt prevăzute cu o linie dreaptă.

Dacă credem asta y depinde de X, și modificări în y sunt cauzate tocmai de modificări în X, putem determina linia de regresie (regresia y pe X), care descrie cel mai bine relația simplă dintre aceste două variabile.

Utilizarea statistică a cuvântului „regresie” provine dintr-un fenomen cunoscut sub numele de regresie la medie, atribuit lui Sir Francis Galton (1889).

El a arătat că, deși tații înalți tind să aibă fii înalți, înălțimea medie a fiilor este mai mică decât cea a taților lor înalți. Înălțimea medie a fiilor „a regresat” și „a revenit” la înălțimea medie a tuturor taților din populație. Astfel, în medie, tații înalți au fii mai mici (dar încă înalți), iar tații mai mici au fii mai mari (dar încă destul de scunzi).

Linia de regresie

O ecuație matematică care estimează o dreaptă de regresie liniară simplă (pereche):

X numită variabilă independentă sau predictor.

Y- variabilă dependentă sau variabilă de răspuns. Aceasta este valoarea la care ne așteptăm y(în medie) dacă știm valoarea X, adică această „valoare prezisă y»

  • A- membru liber (intersectie) al liniei de evaluare; această valoare Y, cand x = 0(Fig. 1).
  • b- panta sau panta liniei evaluate; reprezintă suma cu care Y crește în medie dacă creștem X de o unitate.
  • Ași b se numesc coeficienții de regresie ai dreptei estimate, deși acest termen este adesea folosit doar pentru b.

Regresia liniară pereche poate fi extinsă pentru a include mai mult de o variabilă independentă; în acest caz este cunoscut ca regresie multiplă.

Fig. 1. Linie de regresie liniară care arată intersecția lui a și panta lui b (cantitatea de creștere a lui Y pe măsură ce x crește cu o unitate)

Metoda celor mai mici pătrate

Realizam analiza regresiei folosind un eșantion de observații, unde Ași b- estimări eșantionare ale parametrilor adevărați (generali), α și β, care determină linia de regresie liniară în populație ( populatia generala).

Cel mai metoda simpla determinarea coeficienților Ași b este o metodă cele mai mici pătrate (OLS).

Potrivirea este estimată luând în considerare reziduurile (distanța verticală a fiecărui punct de la linie, de exemplu, rezidual = observat y- prezis y, Orez. 2).

Linia cea mai potrivită este aleasă astfel încât suma pătratelor reziduurilor să fie minimă.

Orez. 2. Linie de regresie liniară cu reziduuri reprezentate (linii întrerupte verticale) pentru fiecare punct.

Ipoteze de regresie liniară

Deci, pentru fiecare valoare observată, reziduul este egal cu diferența și valoarea prezisă corespunzătoare.Fiecare reziduu poate fi pozitiv sau negativ.

Puteți utiliza reziduurile pentru a testa următoarele ipoteze care stau la baza regresiei liniare:

  • Soldurile sunt în mod normal distribuite cu o medie zero;

Dacă ipotezele de liniaritate, normalitate și/sau varianță constantă sunt discutabile, putem transforma sau și calcula o nouă linie de regresie pentru care aceste ipoteze sunt îndeplinite (de exemplu, folosiți o transformare logaritmică etc.).

Valori anormale (outliers) și puncte de influență

O observație „influentă”, dacă este omisă, modifică una sau mai multe estimări ale parametrilor modelului (adică, panta sau interceptarea).

Un outlier (o observație care contrazice majoritatea valorilor dintr-un set de date) poate fi o observație „influentă” și poate fi bine detectată vizual atunci când este vizualizată dintr-un grafic de dispersie 2D sau dintr-un grafic rezidual.

Atât pentru valori aberante, cât și pentru observațiile (punctele) „influențiale”, se folosesc modele, atât cu cât și fără ele, acordând atenție modificării estimării (coeficienți de regresie).

Când efectuați o analiză, nu eliminați automat valorile aberante sau punctele de influență, deoarece simpla ignorare poate afecta rezultatele obținute. Investigați și analizați întotdeauna cauzele acestor valori aberante.

Ipoteza regresiei liniare

La construirea unei regresii liniare, se testează ipoteza nulă că panta generală a dreptei de regresie β este egală cu zero.

Dacă panta dreptei este zero, nu există o relație liniară între și: modificarea nu afectează

Pentru a testa ipoteza nulă că panta adevărată este zero, puteți utiliza următorul algoritm:

Calculați o statistică de test egală cu raportul care respectă o distribuție cu grade de libertate, unde eroarea standard a coeficientului este


,

- estimarea varianţei reziduurilor.

De obicei, dacă nivelul de semnificație atins este ipoteza nulă este respinsă.


unde este punctul procentual al distribuției cu grade de libertate care dă probabilitatea unui test cu două fețe

Acesta este intervalul care conține panta generală cu o probabilitate de 95%.

Pentru eșantioane mari, să presupunem că putem aproxima cu o valoare de 1,96 (adică statisticile criteriului vor tinde către o distribuție normală)

Evaluarea calității regresiei liniare: coeficientul de determinare R 2

Din cauza relației liniare, și ne așteptăm să se schimbe pe măsură ce se schimbă , și numim această variație care este cauzată sau explicată de regresie. Variația reziduală ar trebui să fie cât mai mică posibil.

Dacă acesta este cazul, atunci cea mai mare parte a variației se va datora regresiei, iar punctele se vor afla aproape de dreapta de regresie, adică. linia se potrivește bine cu datele.

Proporția varianței totale care este explicată prin regresie se numește coeficient de determinare, de obicei exprimat în procente și denotă R 2(în regresia liniară pereche, aceasta este valoarea r 2, pătratul coeficientului de corelație), vă permite să evaluați subiectiv calitatea ecuației de regresie.

Diferența este procentul de varianță care nu poate fi explicat prin regresie.

Nu există un test formal de evaluat, trebuie să ne bazăm pe judecata subiectivă pentru a determina calitatea potrivirii liniei de regresie.

Aplicarea unei linii de regresie la prognoză

Puteți utiliza o linie de regresie pentru a prezice o valoare dintr-o valoare din intervalul observat (nu extrapolați niciodată în afara acestor limite).

Prezim media pentru observabilele care au o anumită valoare prin introducerea acelei valori în ecuația dreptei de regresie.

Deci, dacă prezicem cum folosim această valoare prezisă și eroarea ei standard pentru a estima interval de încredere pentru adevărat mărime medie in populatie.

Repetarea acestei proceduri pentru diferite valori vă permite să construiți limite de încredere pentru această linie. Aceasta este banda sau zona care conține linia adevărată, de exemplu, cu un nivel de încredere de 95%.

Modele de regresie simple

Modelele de regresie simple conțin un predictor continuu. Dacă există 3 cazuri cu valori de predictor P, de exemplu, 7, 4 și 9, iar proiectul include un efect de ordinul întâi P, atunci matricea de proiectare X va avea forma

iar ecuația de regresie folosind P pentru X1 arată ca

Y = b0 + b1 P

Dacă un design de regresie simplă conține efectul de ordin superior pentru P, de exemplu un efect pătratic, atunci valorile din coloana X1 din matricea de proiectare vor fi ridicate la a doua putere:

iar ecuația ia forma

Y = b0 + b1 P2

Metodele de codare restricționate la Sigma și supraparametrizate nu se aplică modelelor de regresie simple și altor modele care conțin doar predictori continui (din moment ce predictorii categoriali pur și simplu nu există). Indiferent de metoda de codificare aleasă, valorile variabilelor continue sunt mărite la gradul corespunzător și utilizate ca valori pentru variabilele X. În acest caz, nu se efectuează nicio recodificare. În plus, atunci când descrieți modele de regresie, puteți omite luarea în considerare a matricei de proiectare X și puteți lucra numai cu ecuația de regresie.

Exemplu: analiză de regresie simplă

Acest exemplu utilizează datele prezentate în tabel:

Orez. 3. Tabelul datelor inițiale.

Date compilate dintr-o comparație a recensământului din 1960 și 1970 într-un număr de 30 de districte selectate aleatoriu. Numele districtelor sunt reprezentate ca nume de observație. Informațiile referitoare la fiecare variabilă sunt prezentate mai jos:

Orez. 4. Tabel cu specificații variabile.

Sarcina de cercetare

Pentru acest exemplu, se va analiza corelația dintre rata sărăciei și gradul, care prezice procentul de familii care se află sub pragul sărăciei. Prin urmare, vom trata variabila 3 (Pt_Poor) ca o variabilă dependentă.

Se poate presupune că schimbarea populației și procentul familiilor sub pragul sărăciei sunt legate. Pare rezonabil să ne așteptăm ca sărăcia să conducă la ieșirea populației, prin urmare va exista o corelație negativă între procentul de oameni sub pragul sărăciei și schimbarea populației. Prin urmare, vom trata variabila 1 (Pop_Chng) ca o variabilă predictivă.

Vizualizarea rezultatelor

Coeficienți de regresie

Orez. 5. Coeficienți de regresie Pt_Poor pe Pop_Chng.

La intersecția rândului Pop_Chng și Param. coeficientul nestandardizat pentru regresia Pt_Poor pe Pop_Chng este -0,40374. Aceasta înseamnă că pentru fiecare unitate de scădere a populației, există o creștere cu 40374 a ratei sărăciei. Limitele de încredere superioară și inferioară (implicit) de 95% pentru acest coeficient nestandardizat nu includ zero, deci coeficientul de regresie este semnificativ la nivelul p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Distribuția variabilelor

Coeficienții de corelație pot deveni semnificativ supraestimați sau subestimați dacă există valori aberante mari în date. Să examinăm distribuția variabilei dependente Pt_Poor pe district. Pentru a face acest lucru, să construim o histogramă a variabilei Pt_Poor.

Orez. 6. Histograma variabilei Pt_Poor.

După cum puteți vedea, distribuția acestei variabile diferă semnificativ de distribuția normală. Cu toate acestea, deși chiar și cele două județe (cele două coloane din dreapta) au un procent mai mare de gospodării sub pragul sărăciei decât se aștepta din distribuția normală, ele par a fi „în intervalul”.

Orez. 7. Histograma variabilei Pt_Poor.

Această judecată este oarecum subiectivă. Ca regulă generală, valorile aberante ar trebui să fie luate în considerare dacă observația (sau observațiile) nu se încadrează în interval (media ± 3 ori abaterea standard). În acest caz, merită repetat analiza cu și fără valori aberante pentru a ne asigura că acestea nu au un efect semnificativ asupra corelației dintre membrii populației.

Graficul de dispersie

Dacă una dintre ipoteze este a priori despre relația dintre variabilele date, atunci este util să o verificăm pe graficul graficului de dispersie corespunzător.

Orez. 8. Diagrama de dispersie.

Graficul de dispersie arată o corelație negativă clară (-.65) între cele două variabile. De asemenea, arată intervalul de încredere de 95% pentru linia de regresie, adică cu o probabilitate de 95% linia de regresie se încadrează între cele două curbe punctate.

Criterii de semnificație

Orez. 9. Tabel care conține criteriile de semnificație.

Criteriul pentru coeficientul de regresie Pop_Chng confirmă faptul că Pop_Chng este strâns legat de Pt_Poor, p<.001 .

Rezultat

Acest exemplu a arătat cum se analizează un design de regresie simplu. De asemenea, a fost prezentată o interpretare a coeficienților de regresie nestandardizați și standardizați. Se discută importanța studierii distribuției răspunsurilor variabilei dependente și se demonstrează o tehnică de determinare a direcției și tăriei relației dintre predictor și variabila dependentă.

Calculul coeficienților ecuației de regresie

Este imposibil să se rezolve fără ambiguitate sistemul de ecuații (7.8) pe baza ED disponibilă, deoarece numărul de necunoscute este întotdeauna mai mare decât numărul de ecuații. Sunt necesare ipoteze suplimentare pentru a depăși această problemă. Bunul simț sugerează: este indicat să alegeți coeficienții polinomului astfel încât să se asigure eroarea minimă în aproximarea DE. Se pot aplica diverse măsuri pentru estimarea erorilor de aproximare. Ca o astfel de măsură, eroarea pătratică medie și-a găsit o aplicare largă. Pe baza acesteia, a fost dezvoltată o metodă specială de estimare a coeficienților ecuațiilor de regresie - metoda celor mai mici pătrate (OLS). Această metodă permite obținerea unor estimări ale probabilității maxime a coeficienților necunoscuți ai ecuației de regresie pentru distribuția normală a variantei, dar poate fi aplicată pentru orice altă distribuție a factorilor.

OLS se bazează pe următoarele prevederi:

· Valorile mărimilor erorilor și factorilor sunt independente și, prin urmare, necorelate, adică se presupune că mecanismele de generare a interferenței nu sunt legate de mecanismul de generare a valorilor factorilor;

Așteptarea matematică a erorii ε trebuie să fie egală cu zero (componenta constantă este inclusă în coeficient un 0), cu alte cuvinte, eroarea este o mărime centrată;

· Estimarea eșantionului a varianței erorii ar trebui să fie minimă.

Luați în considerare aplicarea MCO în raport cu regresia liniară a valorilor standardizate. Pentru cantități centrate u j coeficient un 0 este zero, atunci ecuațiile de regresie liniară

. (7.9)

Aici a fost introdus un semn special „^”, care indică valorile indicatorului calculate prin ecuația de regresie, în contrast cu valorile obținute din rezultatele observațiilor.

Conform OLS, se determină astfel de valori ale coeficienților ecuației de regresie care oferă un minim necondiționat expresiei

Minimul se găsește prin egalarea cu zero a tuturor derivatelor parțiale ale expresiei (7.10), luate prin coeficienți necunoscuți și prin rezolvarea sistemului de ecuații

(7.11)

Prin efectuarea secvențială a transformărilor și utilizarea estimărilor introduse anterior ale coeficienților de corelație

. (7.12)

Deci, primit T–1 ecuații liniare, care vă permite să calculați fără ambiguitate valorile a 2, a 3, ..., a т.

Dacă modelul liniar este inexact sau parametrii sunt măsurați incorect, atunci în acest caz LSM permite găsirea unor astfel de valori ale coeficienților pentru care modelul liniar cel mai bun mod descrie un obiect real în sensul criteriului selectat al abaterii standard.

Când există un singur parametru, ecuația de regresie liniară devine

Coeficient a 2 se găsește din ecuație

Atunci, având în vedere că r 2,2= 1, coeficientul necesar

A 2 = r y ,2 . (7.13)

Relația (7.13) confirmă afirmația menționată anterior că coeficientul de corelație este o măsură a relației liniare dintre doi parametri standardizați.

Înlocuind valoarea găsită a coeficientului a 2în expresie pentru w, ținând cont de proprietățile mărimilor centrate și normalizate, obținem valoarea minimă a acestei funcții, egală cu 1– r 2 y, 2. Valoarea 1– r 2 y, 2 se numește varianța reziduală a variabilei aleatoare y raportat la o variabilă aleatoare tu 2... Caracterizează eroarea care se obține atunci când exponentul este înlocuit cu o funcție a parametrului υ = a 2 u 2... Doar când | r y, 2| = 1, varianța reziduală este zero și, prin urmare, nu apare nicio eroare atunci când exponentul este aproximat printr-o funcție liniară.

Trecerea de la valorile centrate și normalizate ale indicatorului și parametrului

pot fi obținute pentru valorile inițiale

Această ecuație este, de asemenea, liniară în raport cu coeficientul de corelație. Este ușor de observat că centrarea și normalizarea pentru regresia liniară permite o scădere a dimensiunii sistemului de ecuații cu una, adică. pentru a simplifica rezolvarea problemei determinării coeficienților și pentru a da coeficienților înșiși un sens clar.

Aplicarea LSM pentru funcții neliniare practic nu diferă de schema considerată (doar coeficientul a0 din ecuația originală nu este egal cu zero).

De exemplu, să presupunem că este necesar să se determine coeficienții regresiei parabolice

Varianta de eroare de probă

Pe baza acestuia se poate obține următorul sistem de ecuații

După transformări, sistemul de ecuații ia forma

Ținând cont de proprietățile momentelor mărimilor standardizate, scriem

Determinarea coeficienților de regresie neliniară se bazează pe rezolvarea unui sistem de ecuații liniare. Pentru aceasta se pot folosi pachete universale de metode numerice sau pachete specializate pentru prelucrarea datelor statistice.

Odată cu creșterea gradului ecuației de regresie crește și gradul momentelor de distribuție a parametrilor utilizați pentru determinarea coeficienților. Deci, pentru determinarea coeficienților ecuației de regresie de gradul doi se folosesc momentele de distribuție a parametrilor până la gradul al patrulea inclusiv. Se știe că acuratețea și fiabilitatea estimării momentelor pentru un eșantion limitat de DE scade brusc odată cu creșterea ordinii acestora. Utilizarea polinoamelor de grad mai mare decât al doilea în ecuațiile de regresie este impracticabilă.

Calitatea ecuației de regresie obținută este evaluată prin gradul de apropiere dintre rezultatele observațiilor indicatorului și valorile prezise de ecuația de regresie în punctele date ale spațiului parametrilor. Dacă rezultatele sunt apropiate, atunci problema analizei de regresie poate fi considerată rezolvată. În caz contrar, ar trebui să modificați ecuația de regresie (alegeți un alt grad al polinomului sau chiar un alt tip de ecuație) și să repetați calculele prin estimarea parametrilor.

Dacă există mai mulți indicatori, problema analizei regresiei este rezolvată independent pentru fiecare dintre ei.

Analizând esența ecuației de regresie, trebuie reținute următoarele prevederi. Abordarea luată în considerare nu oferă o evaluare separată (independentă) a coeficienților - o modificare a valorii unui coeficient implică o modificare a valorilor altora. Coeficienții obținuți nu trebuie considerați ca contribuția parametrului corespunzător la valoarea indicatorului. Ecuația de regresie este doar o bună descriere analitică a DE disponibil, și nu o lege care descrie relația dintre parametri și indicator. Această ecuație este utilizată pentru a calcula valorile indicatorului într-un interval dat de parametri. Este adecvat limitat pentru calcule în afara acestui interval, de ex. poate fi folosit pentru a rezolva probleme de interpolare și într-o măsură limitată pentru extrapolare.



Principalul motiv al inexactității prognozei este nu atât incertitudinea în extrapolarea dreptei de regresie, cât mai degrabă o variație semnificativă a indicatorului din cauza unor factori neluați în considerare în model. Limitarea capacităţii de prognoză este condiţia de stabilitate a parametrilor necontabilizaţi în model şi natura influenţei factorilor luaţi în considerare în model. Dacă mediul extern se schimbă brusc, atunci ecuația de regresie compilată își va pierde sensul. Este imposibil să înlocuiți în ecuația de regresie astfel de valori ale factorilor care diferă semnificativ de cele prezentate în ED. Se recomandă să nu depășiți o treime din intervalul de variație al parametrului, atât pentru valorile maxime, cât și pentru cele minime ale factorului.

Prognoza obținută prin înlocuirea valorii parametrului așteptat în ecuația de regresie este punctual. Probabilitatea ca o astfel de prognoză să fie realizată este neglijabilă. Este recomandabil să se determine intervalul de încredere al prognozei. Pentru valorile individuale ale indicatorului, intervalul ar trebui să ia în considerare erorile în poziția liniei de regresie și abaterile valorilor individuale de la această linie. Eroarea medie de prognoză a indicatorului y pentru factorul x va fi

Unde Este eroarea medie a poziției dreptei de regresie în populația generală la X = x k;

- o estimare a varianței abaterii indicatorului de la linia de regresie în populația generală;

x k Este valoarea așteptată a factorului.

Limitele de încredere ale prognozei, de exemplu, pentru ecuația de regresie (7.14), sunt determinate de expresia

Interceptare negativă un 0în ecuația de regresie pentru variabilele originale înseamnă că zona de existență a indicatorului nu include valorile zero ale parametrilor. Dacă a 0> 0, atunci zona de existență a indicatorului include valori zero ale parametrilor, iar coeficientul însuși caracterizează valoarea medie a indicatorului în absența efectelor parametrilor.

Sarcina 7.2. Construiți o ecuație de regresie pentru debitul canalului pentru eșantionul dat în tabel. 7.1.

Soluţie. În ceea ce privește eșantionul specificat, construcția dependenței analitice în partea sa principală se realizează în cadrul analizei corelației: debitul depinde numai de parametrul „raport semnal-zgomot”. Rămâne să înlocuiți valorile calculate anterior ale parametrilor în expresia (7.14). Ecuația lățimii de bandă devine

ŷ = 26,47 - 0,93 × 41,68 × 5,39 / 6,04 + 0,93 × 5,39 / 6,03 × NS = – 8,121+0,830NS.

Rezultatele calculului sunt prezentate în tabel. 7.5.

Tabelul 7.5

N pp Lățime de bandă de canal Raportul semnal-zgomot Valoarea funcției Eroare
Y X ŷ ε
26.37 41.98 26.72 -0.35
28.00 43.83 28.25 -0.25
27/83 42.83 27.42 0.41
31.67 47.28 31.12 0.55
23.50 38.75 24.04 -0.54
21.04 35.12 21.03 0.01
16.94 32.07 18.49 -1.55
37.56 54.25 36.90 0.66
18.84 32.70 19.02 -0.18
25.77 40.51 25.50 0.27
33.52 49.78 33.19 0.33
28.21 43.84 28.26 -0.05
28.76 44.03

Bazele analizei datelor.

O provocare tipică în practică este definirea dependenţelor sau a relaţiilor dintre variabile. În viața reală, variabilele sunt legate între ele.... De exemplu, în marketing, suma de bani investită în publicitate afectează vânzările; în cercetarea medicală, doza de medicament afectează efectul; în producția de textile, calitatea vopsirii țesăturilor depinde de temperatură, umiditate și alți parametri; in metalurgie calitatea otelului depinde de aditivi speciali etc. Găsirea dependențelor de date și utilizarea acestora în propriile scopuri este sarcina analizei datelor.

Să presupunem că observați valorile unei perechi de variabile X și Y și doriți să găsiți relația dintre ele. De exemplu:

X este numărul de vizitatori ai magazinului online, Y este volumul vânzărilor;

X - diagonala panoului plasma, Y - pret;

X este prețul de cumpărare al acțiunilor, Y este prețul de vânzare;

X - costul aluminiului la Bursa de Valori din Londra, Y - volumele vânzărilor;

X este numărul de străpungeri pe conductele de petrol, Y este valoarea pierderilor;

X este „vârsta” aeronavei, Y este costul reparației acesteia;

X - suprafata de vanzari, Y - cifra de afaceri magazin;

X este venitul, Y este consumul etc.

Variabila X este de obicei numită variabilă independentă, variabila Y este numită variabilă dependentă. Uneori, variabila X este numită predictor, iar variabila Y este numită răspuns.



Vrem să determinăm exact dependența de X sau să prezicăm care vor fi valorile lui Y pentru valorile date ale lui X.În acest caz, observăm valorile X și valorile lor corespunzătoare Y. Sarcina este să construiți un model care vă permite să determinați Y din valorile lui X, care sunt diferite de cele observate.În statistică, astfel de sarcini sunt rezolvate în cadru analiza regresiei.

Există diverse modele de regresie determinat de alegerea funcţiei f (x 1, x 2, ..., x m):

1) Regresia liniară simplă

2) Regresie multiplă

3) Regresia polinomială

Cote se numesc parametri de regresie.

Caracteristica principală a analizei de regresie: cu ajutorul acesteia, puteți obține informații specifice despre forma și natura relației dintre variabilele studiate.

Secvența pașilor analizei de regresie

1. Enunțarea problemei. În această etapă se formează ipoteze preliminare despre dependența fenomenelor investigate.

2. Determinarea variabilelor dependente și independente (explicative).

3. Colectarea datelor statistice. Datele trebuie colectate pentru fiecare dintre variabilele incluse în modelul de regresie.

4. Formularea ipotezei despre forma de comunicare (simpla sau multipla, liniara sau neliniara).

5. Determinarea funcției de regresie (constă în calcularea valorilor numerice ale parametrilor ecuației de regresie)

6. Evaluarea acurateței analizei de regresie.

7. Interpretarea rezultatelor obtinute. Rezultatele obţinute în urma analizei de regresie sunt comparate cu ipotezele preliminare. Se evaluează corectitudinea și probabilitatea rezultatelor obținute.

8. Predicția valorilor necunoscute ale variabilei dependente.

Cu ajutorul analizei de regresie, este posibil să se rezolve problema prognozării și clasificării. Valorile prezise sunt calculate prin înlocuirea valorilor variabilelor explicative în ecuația de regresie a parametrilor. Problema de clasificare este rezolvată în felul următor: linia de regresie împarte întregul set de obiecte în două clase, iar acea parte a mulțimii în care valoarea funcției este mai mare decât zero aparține unei clase, iar partea în care se află aceasta. mai putin de zero apartine unei alte clase.

Principalele sarcini ale analizei de regresie: stabilirea formei de dependență, determinarea funcției de regresie, evaluarea valorilor necunoscute ale variabilei dependente.

Regresie liniara

Regresie liniara se reduce la găsirea unei ecuații de formă

Sau . (1.1)

X- numită variabilă independentă sau predictor.

Y- variabilă dependentă sau variabilă de răspuns. Aceasta este valoarea la care ne așteptăm y(în medie) dacă știm valoarea X, adică această „valoare prezisă y»

· A- membru liber (intersectie) al liniei de evaluare; această valoare Y, cand x = 0(Fig. 1).

· b- panta sau panta liniei evaluate; reprezintă suma cu care Y crește în medie dacă creștem X de o unitate.

· Ași b se numesc coeficienții de regresie ai dreptei estimate, deși acest termen este adesea folosit doar pentru b.

· e- variabile aleatoare neobservabile cu medie 0, sau se mai numesc si erori de observare, se presupune ca erorile nu sunt corelate intre ele.

Fig. 1. Linie de regresie liniară care arată intersecția lui a și panta lui b (cantitatea de creștere a lui Y pe măsură ce x crește cu o unitate)

Ecuația formei permite valorile date ale factorului NS au valorile teoretice ale indicatorului efectiv, substituind valorile reale ale factorului în acesta NS... În grafic, valorile teoretice reprezintă linia de regresie.

În cele mai multe cazuri (dacă nu întotdeauna), există o anumită dispersie de observații în raport cu linia de regresie.

Linia de regresie teoretică se numește linia în jurul căreia sunt grupate punctele câmpului de corelație și care indică direcția principală, tendința principală a conexiunii.

Un pas important în analiza regresiei este determinarea tipului de funcție care caracterizează relația dintre caracteristici. Principala bază pentru alegerea tipului de ecuație ar trebui să fie o analiză semnificativă a naturii dependenței studiate, a mecanismului acesteia.

Pentru a găsi parametrii Ași b folosim ecuații de regresie metoda celor mai mici pătrate (OLS). Când utilizați OLS pentru a găsi funcția care se potrivește cel mai bine cu datele empirice, se crede că suma abaterilor pătrate (restul) punctelor empirice de la linia de regresie teoretică ar trebui să fie valoarea minimă.

Potrivirea este estimată luând în considerare reziduurile (distanța verticală a fiecărui punct de la linie, de exemplu, rezidual = observat y- prezis y, Orez. 2).

Linia cea mai potrivită este aleasă astfel încât suma pătratelor reziduurilor să fie minimă.

Orez. 2. Linie de regresie liniară cu reziduuri reprezentate (linii întrerupte verticale) pentru fiecare punct.

După transformări simple, obținem un sistem de ecuații normale ale metodei celor mai mici pătrate pentru determinarea valorilor parametrilor Ași b ecuații de corelație în linie dreaptă bazate pe date empirice:

. (1.2)

Rezolvarea acestui sistem de ecuații pentru b, obținem următoarea formulă pentru determinarea acestui parametru:

(1.3)

Unde și sunt valorile medii ale lui y, x.

Valoarea parametrului A obținem împărțind ambele părți ale primei ecuații din acest sistem la n:

Parametru bîn ecuație se numește coeficient de regresie. În prezența unei corelații directe, coeficientul de regresie are o valoare pozitivă, iar în cazul unei relații inverse, coeficientul de regresie este negativ.

Dacă semnul coeficientului de regresie este pozitiv, relația dintre variabila dependentă și variabila independentă va fi pozitivă.

Dacă semnul coeficientului de regresie este negativ, relația dintre variabila dependentă și variabila independentă este negativă (inversă).

Coeficientul de regresie arată cât de mult se modifică, în medie, valoarea indicatorului efectiv y când atributul factorului se modifică NS pe unitate, coeficientul de regresie geometrică este panta dreptei reprezentând ecuația de corelație în raport cu axa NS(pentru ecuație).

Din cauza relației liniare, ne așteptăm ca aceasta să se schimbe pe măsură ce se schimbă și o numim variația care este cauzată sau explicată de regresie. Variația reziduală ar trebui să fie cât mai mică posibil.

Dacă acesta este cazul, atunci cea mai mare parte a variației se va datora regresiei, iar punctele se vor afla aproape de dreapta de regresie, adică. linia se potrivește bine cu datele.

O caracteristică cantitativă a gradului de dependență liniară dintre variabilele aleatoare X și Y este coeficientul de corelație r ( Un indicator al strângerii relației dintre două semne ) .

Coeficient de corelație:

unde x este valoarea atributului factorului;

y este valoarea caracteristicii efective;

n este numărul de perechi de date.


Fig. 3 - Variante ale locației „norului” de puncte

Dacă coeficientul de corelaţie r = 1 apoi între Xși Y există o dependență liniară funcțională, toate punctele (x i, y i) se va întinde pe o linie dreaptă.

Dacă coeficientul de corelaţie r = 0 (r ~ 0) atunci ei spun că Xși Y necorelate, adică nu există o relație liniară între ele.

Relația dintre trăsături (pe scara Chaddock) poate fi puternică, medie și slabă . Etanșeitatea comunicării este determinată de valoarea coeficientului de corelație, care poate lua valori de la -1 la +1 inclusiv. Criteriile de evaluare a etanșeității comunicării sunt prezentate în Fig. 1.

Orez. 4. Criterii cantitative de evaluare a etanșeității comunicării

Orice relație între variabile are două proprietăți importante: mărimea și fiabilitatea. Cu cât relația dintre două variabile este mai puternică, cu atât valoarea relației este mai mare și cu atât este mai ușor să prezici valoarea unei variabile din valoarea celeilalte variabile. Amploarea relației este mai ușor de măsurat decât fiabilitatea.

Fiabilitatea dependenței nu este mai puțin importantă decât amploarea acesteia. Această proprietate este asociată cu reprezentativitatea eșantionului studiat. Fiabilitatea unei dependențe caracterizează cât de probabil este ca această dependență să se regăsească pe alte date.

Pe măsură ce valoarea dependenței variabilelor crește, fiabilitatea acesteia crește de obicei.

Proporția varianței totale care este explicată prin regresie se numește coeficient de determinare, de obicei exprimat în procente și denotă R 2(în regresia liniară pereche, aceasta este valoarea r 2, pătratul coeficientului de corelație), vă permite să evaluați subiectiv calitatea ecuației de regresie.

Coeficientul de determinare măsoară proporția răspândirii față de medie, care este „explicată” prin regresia construită. Coeficientul de determinare se află în intervalul de la 0 la 1. Cu cât coeficientul de determinare este mai aproape de 1, cu atât regresia „explica” mai bine dependența în date, o valoare apropiată de zero înseamnă calitatea proastă a modelului construit. Coeficientul de determinare se poate apropia de 1 cât mai mult posibil dacă toți predictorii sunt diferiți.

Diferența este procentul de varianță care nu poate fi explicat prin regresie.

Regresie multiplă

Regresia multiplă este utilizată în situațiile în care un factor dominant nu poate fi distins de multitudinea de factori care influențează trăsătura efectivă și este necesar să se țină cont de influența mai multor factori. De exemplu, volumul producției este determinat de cantitatea de active fixe și circulante, de numărul de personal, de nivelul de conducere etc., nivelul cererii depinde nu numai de preț, ci și de fondurile disponibile pentru populatie.

Scopul principal al regresiei multiple este de a construi un model cu mai mulți factori și de a determina influența fiecărui factor separat, precum și efectul lor combinat asupra indicatorului studiat.

Regresia multiplă este o ecuație de relație cu mai multe variabile independente:

Coeficientul de regresie este o valoare absolută prin care valoarea unei caracteristici se modifică în medie atunci când o altă caracteristică asociată se modifică cu o unitate de măsură specificată. Definiţia regresion. Relația dintre y și x determină semnul coeficientului de regresie b (dacă > 0 - relație directă, în caz contrar - invers). Modelul de regresie liniară este cel mai des folosit și mai studiat în econometrie.

1.4. Eroare de aproximare Să estimăm calitatea ecuației de regresie folosind eroarea de aproximare absolută. Valorile prezise ale factorilor sunt substituite în model și se obțin estimări predictive punctuale ale indicatorului studiat. Astfel, coeficienții de regresie caracterizează gradul de semnificație al factorilor individuali pentru creșterea nivelului indicatorului efectiv.

Coeficientul de regresie

Luați în considerare acum sarcina 1 din sarcinile de analiză de regresie de la p. 300-301. Unul dintre rezultatele matematice ale teoriei regresiei liniare spune că estimarea N este o estimare nepărtinitoare cu variația minimă în clasa tuturor estimărilor liniare nepărtinitoare. De exemplu, puteți calcula numărul de răceli în medie la anumite valori ale temperaturii medii lunare a aerului în perioada toamnă-iarnă.

Linia de regresie și ecuația de regresie

Regresia sigma este utilizată pentru a construi o scală de regresie, care reflectă abaterea valorilor trăsăturii efective de la valoarea sa medie, reprezentată pe linia de regresie. 1, x2, x3 și valorile medii corespunzătoare y1, y2 y3, precum și cele mai mici (y - σy / x) și cele mai mari (y + σy / x) valori (y) construiesc o scară de regresie. Ieșire. Astfel, scala de regresie în cadrul valorilor calculate ale greutății corporale face posibilă determinarea acesteia la orice altă valoare a înălțimii sau evaluarea dezvoltării individuale a unui copil.

Sub formă de matrice, ecuația de regresie (RE) este scrisă ca: Y = BX + U (\ displaystyle Y = BX + U), unde U (\ displaystyle U) este matricea de eroare. Utilizarea statistică a cuvântului „regresie” provine dintr-un fenomen cunoscut sub numele de regresie la medie, atribuit lui Sir Francis Galton (1889).

Regresia liniară pereche poate fi extinsă pentru a include mai mult de o variabilă independentă; în acest caz, este cunoscută ca regresie multiplă. Atât pentru valori aberante, cât și pentru observațiile (punctele) „influențiale” folosiți modele, atât cu includerea lor, cât și fără ele, acordați atenție modificării estimării (coeficienți de regresie).

Din cauza relației liniare, ne așteptăm ca aceasta să se schimbe pe măsură ce se schimbă și numim această variație, care este cauzată sau explicată de regresie. Dacă acesta este cazul, atunci cea mai mare parte a variației se va datora regresiei, iar punctele se vor afla aproape de dreapta de regresie, adică. linia se potrivește bine cu datele. Diferența este procentul de varianță care nu poate fi explicat prin regresie.

Această metodă este folosită pentru Imagine vizuală forme de legătură între indicatorii economici studiaţi. Pe baza câmpului de corelație, se poate presupune (pentru populația generală) că relația dintre toate valorile posibile ale lui X și Y este liniară.

Motivele existenței unei erori aleatoare: 1. Neincluderea variabilelor explicative semnificative în modelul de regresie; 2. Agregarea variabilelor. Sistem de ecuații normale. În exemplul nostru, conexiunea este directă. Pentru a prezice variabila dependentă a indicatorului efectiv, este necesar să se cunoască valorile prezise ale tuturor factorilor incluși în model.

Compararea coeficienților de corelație și regresie

Cu o probabilitate de 95%, se poate garanta că valorile lui Y sunt nelimitate un numar mare observațiile nu vor depăși intervalele găsite. Dacă valoarea calculată cu lang = EN-US> n-m-1) grade de libertate este mai mare decât valoarea tabelară pentru un anumit nivel de semnificație, atunci modelul este considerat semnificativ. Acest lucru asigură că nu există nicio corelație între orice abateri și, în special, între abaterile adiacente.

Coeficienții de regresie și interpretarea lor

În majoritatea cazurilor, autocorelația pozitivă este cauzată de influența constantă direcțională a unor factori care nu au fost luați în considerare în model. Autocorelarea negativă înseamnă efectiv că o abatere pozitivă este urmată de una negativă și invers.

Ce este regresia?

2. Inerție. Mulți indicatori economici (inflație, șomaj, PNB etc.) au o anumită natură ciclică asociată cu forma de undă a activității afacerilor. În multe domenii industriale și de altă natură, indicatorii economici răspund la schimbările condițiilor economice cu un decalaj (decalaj de timp).

Dacă se realizează standardizarea preliminară a indicatorilor factorilor, atunci b0 este egal cu valoarea medie a indicatorului efectiv în agregat. Valorile specifice ale coeficienților de regresie sunt determinate din datele empirice conform metodei celor mai mici pătrate (ca rezultat al rezolvării sistemelor de ecuații normale).

Ecuația de regresie liniară are forma y = bx + a + ε Aici ε este o eroare aleatorie (abatere, perturbare). Deoarece eroarea este mai mare de 15%, nu este de dorit să se utilizeze această ecuație ca regresie. Înlocuind valorile x corespunzătoare în ecuația de regresie, puteți determina valorile aliniate (prevăzute) ale indicatorului efectiv y (x) pentru fiecare observație.

Coeficienți de regresie arata intensitatea influentei factorilor asupra indicatorului efectiv. Dacă se realizează standardizarea preliminară a indicatorilor factorilor, atunci b 0 este egal cu valoarea medie a indicatorului efectiv în agregat. Coeficienții b 1, b 2, ..., b n arată câte unități se abate nivelul indicatorului efectiv de la medie dacă valorile indicatorului factor se abat de la medie egală cu zero cu o abatere standard. Astfel, coeficienții de regresie caracterizează gradul de semnificație al factorilor individuali pentru creșterea nivelului indicatorului efectiv. Valorile specifice ale coeficienților de regresie sunt determinate din datele empirice conform metodei celor mai mici pătrate (ca rezultat al rezolvării sistemelor de ecuații normale).

Linia de regresie- linia care reflectă cel mai exact distribuția punctelor experimentale pe diagrama de împrăștiere și abruptitatea pantei căreia caracterizează relația dintre două variabile de interval.

Linia de regresie este cel mai adesea căutată ca o funcție liniară (regresie liniară) care aproximează cel mai bine curba dorită. Acest lucru se face folosind metoda celor mai mici pătrate, când suma pătratelor abaterilor observate efectiv de la estimările lor este minimizată (ne referim la estimări folosind o linie dreaptă care pretinde că reprezintă dependența de regresie dorită):

(M este dimensiunea eșantionului). Această abordare se bazează pe fapte fapt cunoscut că suma care apare în expresia de mai sus ia valoarea minimă tocmai pentru cazul când.
57. Sarcinile principale ale teoriei corelaţiei.

Teoria corelației este un aparat care evaluează strânsoarea conexiunilor dintre fenomene care nu sunt doar în relații cauzale. Cu ajutorul teoriei corelației se estimează relații stocastice, dar nu cauzale. Autorul, împreună cu M. Lukatskaya, a încercat să obțină estimări pentru relațiile cauzale. Cu toate acestea, chestiunea relației cauzale a fenomenelor, a modului de identificare a cauzei și efectului, rămâne deschisă și se pare că la nivel formal este fundamental imposibil de rezolvat.

Teoria corelației și aplicarea ei la analiza producției.

Teoria corelației, care este una dintre ramurile statisticii matematice, face posibilă formularea de ipoteze rezonabile cu privire la posibilele limite în care parametrul investigat va fi situat cu un anumit grad de fiabilitate, dacă alți parametri legați statistic primesc anumite valori.

În teoria corelației, se obișnuiește să se facă distincție două sarcini principale.

Prima sarcină teoria corelației - pentru a stabili forma corelației, i.e. fel de funcție de regresie (liniară, pătratică etc.).

A doua sarcină teoria corelației - pentru a evalua etanșeitatea (rezistența) corelației.

Strângerea corelației (dependenței) Y față de X este estimată prin mărimea dispersiei valorilor Y în jurul mediei condiționate. Imprăștirea mare indică o dependență slabă a lui Y față de X, împrăștierea mică indică o dependență puternică.
58. Tabel de corelație și caracteristicile sale numerice.

În practică, ca urmare a observațiilor independente ale mărimilor X și Y, de regulă, nu se tratează întregul set de toate perechile posibile de valori ale acestor mărimi, ci doar un eșantion limitat din populația generală, iar volumul n populația eșantionului este definit ca numărul de perechi din eșantion.

Fie ca valoarea X din eșantion să ia valori x 1, x 2, .... xm, unde numărul de valori diferite ale acestei valori și, în cazul general, fiecare dintre ele din eșantion poate fi repetată . Fie valoarea Y din eșantion să ia valorile y 1, y 2, .... yk, unde k este numărul de valori diferite ale acestei valori și, în cazul general, fiecare dintre ele din eșantion poate fi de asemenea repetat. În acest caz, datele sunt introduse în tabel, ținând cont de frecvențele de apariție. Un astfel de tabel cu date grupate se numește tabel de corelare.

Prima etapă a procesării statistice a rezultatelor este elaborarea unui tabel de corelare.

Y \ X x 1 x 2 ... x m n y
y 1 n 12 n 21 n m1 n y1
y 2 n 22 n m2 n y2
...
y k n 1k n 2k n mk n yk
n x n x1 n x2 n xm n

Primul rând al părții principale a tabelului listează în ordine crescătoare toate valorile lui X din eșantion. Prima coloană listează, de asemenea, în ordine crescătoare, toate valorile lui Y din eșantion. La intersecția corespunzătoare rânduri și coloane, frecvențele n ij (i = 1,2 , ..., m; j = 1,2, ..., k) egale cu numărul de apariții ale perechii (xi; yi) din eșantion . De exemplu, frecvența n 12 este numărul de apariții din eșantionul perechii (x 1; y 1).

De asemenea, n xi n ij, 1≤i≤m, suma elementelor coloanei i, n yj n ij, 1≤j≤k, este suma elementelor rândului j și n xi = n yj = n

Analogii formulelor obținute din datele tabelului de corelare sunt după cum urmează:


59. Liniile de regresie empirice și teoretice.

Linia de regresie teoretică poate fi calculată în acest caz din rezultatele observațiilor individuale. Pentru a rezolva sistemul de ecuații normale, avem nevoie de aceleași date: x, y, xy și xr. Avem date despre volumul producției de ciment și volumul principalului active de producțieîn 1958 Se stabileşte sarcina: să investigheze relaţia dintre volumul producţiei de ciment (în termeni fizici) şi volumul mijloacelor fixe. [ 1 ]

Cu cât linia de regresie teoretică (calculată prin ecuație) se abate de la valoarea reală (empiric), cu atât eroarea medie de aproximare este mai mică.

Procesul de găsire a dreptei de regresie teoretică este aplatizarea dreptei de regresie empirică pe baza metodei celor mai mici pătrate.

Procesul de găsire a unei linii de regresie teoretică se numește aliniere empirică a liniilor de regresie și constă în alegerea și justificarea unui tip; curba si calculul parametrilor ecuatiei acesteia.

Regresia empirică se bazează pe datele grupărilor analitice sau combinate și reprezintă dependența valorilor medii de grup ale atributului rezultat de valorile medii ale grupului factorului-atribut. Reprezentarea grafică a regresiei empirice este o linie întreruptă formată din puncte, ale căror abscise sunt valorile medii de grup ale factorului-atribut, iar ordonatele sunt valorile medii de grup ale atributului-rezultat. Numărul de puncte este egal cu numărul de grupuri din grupare.

Linia de regresie empirică reflectă tendința principală a dependenței considerate. Dacă linia de regresie empirică în aspectul ei se apropie de o linie dreaptă, atunci putem presupune prezența unei corelații de linie dreaptă între caracteristici. Și dacă linia de comunicare se apropie de o curbă, atunci acest lucru se poate datora prezenței unei corelații curbilinie.
60. Coeficienți de corelație și regresie selectați.

Dacă relația dintre caracteristicile de pe grafic indică o corelație liniară, calculați coeficient de corelație r, care vă permite să evaluați proximitatea relației dintre variabile, precum și să aflați ce proporție de modificări ale trăsăturii se datorează influenței trăsăturii principale, care este influența altor factori. Coeficientul variază de la –1 la +1. Dacă r= 0, atunci nu există nicio legătură între caracteristici. Egalitate r= 0 indică doar absența unei dependențe de corelație liniară, dar nu în general despre absența unei corelații și cu atât mai mult o dependență statistică. Dacă r= ± 1, atunci aceasta înseamnă prezența unei conexiuni complete (funcționale). În acest caz, toate valorile observate sunt situate pe linia de regresie, care este o linie dreaptă.
Semnificația practică a coeficientului de corelație este determinată de valoarea lui la pătrat, care se numește coeficient de determinare.
Regresia aproximată (descrisă aproximativ) printr-o funcție liniară y = kX + b. Pentru regresia Y pe X, ecuația de regresie este: `y x = ryx X + b; (1). Ryxul pantei dreptei de regresie Y-pe-X se numește coeficient de regresie Y-pe-X.

Dacă ecuația (1) este găsită din datele eșantionului, atunci este numită ecuația de regresie a probei... În consecință, ryx este coeficientul de regresie de la Y la X al eșantionului, iar b este interceptarea eșantionului. Coeficientul de regresie măsoară variația Y pe unitatea de variație X. Parametrii ecuației de regresie (coeficienții ryx și b) se găsesc folosind metoda celor mai mici pătrate.
61. Evaluarea semnificației coeficientului de corelație și a strângerii corelației în populația generală

Semnificația coeficienților de corelație verificat după criteriul Studentului:

Unde - Eroarea pătratică medie a coeficientului de corelație, care este determinată de formula:

Dacă valoarea calculată (mai mare decât valoarea tabelului, atunci se poate concluziona că valoarea coeficientului de corelație este semnificativă. t se regăsesc conform tabelului de valori al criteriilor Studentului. Aceasta ia în considerare numărul de grade de libertate (V = n - 1) și nivelul de încredere (în calcule economice, de obicei 0,05 sau 0,01). În exemplul nostru, numărul de grade de libertate este: NS - 1 = 40 - 1 = 39. La nivel de încredere R = 0,05; t= 2,02. Deoarece (realul în toate cazurile este mai mare decât t-tabularul, relația dintre indicatorii efectivi și factorii este de încredere, iar valoarea coeficienților de corelație este semnificativă.

Estimarea coeficientului de corelare calculat dintr-un eșantion limitat este aproape întotdeauna diferit de zero. Dar nu rezultă încă de aici că coeficientul de corelație populatia generala de asemenea non-zero. Se impune evaluarea semnificației valorii eșantionului a coeficientului sau, în conformitate cu formularea problemelor de testare a ipotezelor statistice, testarea ipotezei că coeficientul de corelație este egal cu zero. Dacă ipoteza H 0 privind egalitatea coeficientului de corelație cu zero va fi respins, atunci coeficientul eșantionului este semnificativ, iar valorile corespunzătoare sunt legate printr-o relație liniară. Dacă ipoteza H 0 este acceptat, atunci estimarea coeficientului nu este semnificativă, iar valorile nu sunt legate liniar între ele (dacă, din motive fizice, factorii pot fi legați, atunci este mai bine să spunem că această relație nu a avut fost stabilit pe baza ED disponibil). Testarea ipotezei despre semnificația estimării coeficientului de corelație necesită cunoașterea distribuției acestei variabile aleatoare. Distribuția cantității  ik studiat doar pentru un anumit caz când variabilele aleatoare U jși Regatul Unit distribuite conform legii normale.

Ca criteriu de testare a ipotezei nule H 0 se aplică variabilă aleatorie ... Dacă modulul coeficientului de corelație este relativ departe de unitate, atunci valoarea t dacă ipoteza nulă este adevărată, se distribuie conform legii Student cu n- 2 grade de libertate. Ipoteze concurente H 1 corespunde afirmației că valoarea  ik nu este zero (mai mare sau mai mică decât zero). Prin urmare, zona critică este cu două fețe.
62. Calculul coeficientului de corelație al eșantionului și construcția ecuației eșantionului a dreptei de regresie.

Coeficient de corelație selectivă se gaseste prin formula

unde sunt abaterile standard ale eșantionului ale valorilor și.

Coeficientul de corelație al eșantionului arată apropierea relației liniare dintre și: cu cât este mai aproape de unul, cu atât este mai puternică relația liniară dintre și.

Regresia liniară simplă găsește relația liniară dintre o variabilă de intrare și o variabilă de ieșire. Pentru aceasta, se determină ecuația de regresie - acesta este un model care reflectă dependența valorilor lui Y, valoarea dependentă a lui Y de valorile lui x, variabila independentă x și populația generală, este descrisă de către ecuaţie:

Unde A0- termenul liber al ecuaţiei de regresie;

A1- coeficientul ecuaţiei de regresie

Apoi se construiește linia dreaptă corespunzătoare, numită linie de regresie. Coeficienții А0 și А1, numiți și parametrii modelului, sunt aleși astfel încât suma pătratelor abaterilor punctelor corespunzătoare observațiilor reale ale datelor din dreapta de regresie să fie minimă. Selectarea coeficienților se realizează folosind metoda celor mai mici pătrate. Cu alte cuvinte, regresia liniară simplă descrie un model liniar care aproximează cel mai bine relația dintre o variabilă de intrare și o variabilă de ieșire.

Imparte asta