Lineaarse regressiooni määramistegur iseloomustab. Mida mõõdab määramistegur - valem

Tunnuse variatsioon kindlaks määratud erinevaid tegureid, saab mõnda neist teguritest tuvastada, kui statistiline üldkogum jaotatakse teatud kriteeriumi alusel rühmadesse. Seejärel on koos tunnuse varieerumise uurimisega populatsioonis tervikuna võimalik uurida variatsioone iga selle moodustava rühma ja nende rühmade vahel. Lihtsamal juhul, kui populatsioon jagatakse rühmadesse ühe teguri alusel, saavutatakse variatsiooniuuring kolme tüüpi dispersioonide arvutamise ja analüüsiga: summaarne, rühmadevaheline ja rühmade sees.

Empiiriline määramistegur

Empiiriline määramistegur aastal laialdaselt kasutatud Statistiline analüüs ja on indikaator, mis esindab rühmadevahelise dispersiooni osakaalu saadud karakteristikus ja iseloomustab rühmitustunnuse mõju tugevust üldise variatsiooni kujunemisele. Seda saab arvutada järgmise valemi abil:

Näitab resultantkarakteristiku y varieerumise osakaalu teguri karakteristiku x mõjul; see on seotud korrelatsioonikordajaga ruutsõltuvusega. Seose puudumisel on empiiriline determinatsioonikordaja null ja funktsionaalse ühenduse korral üks.

Näiteks kui uuritakse töötajate tööviljakuse sõltuvust nende kvalifikatsioonist, on determinatsioonikoefitsient 0,7, siis 70% töötajate tööviljakuse kõikumisest tuleneb nende kvalifikatsiooni erinevustest ja 30% tööviljakuse erinevusest. muud tegurid.

Empiiriline korrelatsioonisuhe on determinatsioonikordaja ruutjuur. Suhe näitab tihedat seost rühmitamise ja jõudlusnäitajate vahel. Empiiriline korrelatsioonisuhe võtab väärtused vahemikus -1 kuni 1. Kui seost pole, siis on korrelatsioonisuhe võrdne nulliga, s.o. Kõik rühmade keskmised on üksteisega võrdsed ja rühmadevahelist variatsiooni pole. See tähendab, et rühmitamise tunnus ei mõjuta üldise variatsiooni teket.

Kui ühendus on funktsionaalne, on korrelatsioonisuhe võrdne ühega. Sel juhul on grupi keskmiste dispersioon võrdne summaarse dispersiooniga, s.o. grupisisene varieeruvus puudub. See tähendab, et rühmitustunnus määrab täielikult saadud tunnuse variatsiooni.

Mida lähemal on korrelatsioonisuhte väärtus ühtsusele, seda tugevam ja funktsionaalsele sõltuvusele lähemal on seos tunnuste vahel. Ühenduse tugevuse kvalitatiivseks hindamiseks empiirilise korrelatsioonikordaja põhjal saate kasutada Chaddocki suhet.

Chaddocki suhe

  • Seos on väga tihe — korrelatsioonikordaja on vahemikus 0,9–0,99
  • Sulge ühendus - Rxy = 0,7 - 0,9
  • Ühendus on märgatav - Rxy = 0,5 - 0,7
  • Side on mõõdukas - Rxy = 0,3 - 0,5
  • Ühendus on nõrk - Rxy = 0,1 - 0,3
Tänapäeval on lihtsast lineaarsest regressioonist ilmselt kuulnud kõik, kes vähegi andmekaeve vastu huvi tunnevad. Sellest on Habres juba kirjutatud ja Andrew Ng rääkis sellest üksikasjalikult ka oma kuulsas masinõppekursuses. Lineaarne regressioon on üks põhilisi ja kõige enam lihtsad meetodid masinõpe on aga väga harva mainitud konstrueeritud mudeli kvaliteedi hindamise meetodeid. Selles artiklis püüan seda tüütut väljajätmist veidi parandada, kasutades R-keele funktsiooni summary.lm() tulemuste sõelumise näidet Samal ajal püüan esitada vajalikud valemid, nii et kõik arvutused saab hõlpsasti programmeerida mis tahes muus keeles. See artikkel on mõeldud neile, kes on kuulnud, et lineaarset regressiooni saab ehitada, kuid pole kohanud statistilisi protseduure selle kvaliteedi hindamiseks.

Lineaarse regressiooni mudel

Niisiis, olgu mitu sõltumatut juhuslikud muutujad X1, X2, ..., Xn (ennustajad) ja nendest sõltuv väärtus Y (eeldatakse, et kõik vajalikud ennustajate teisendused on juba tehtud). Lisaks eeldame, et seos on lineaarne ja vead on normaalselt jaotunud, st

Kus I on n x n ruutmaatriks.

Seega on meil andmed, mis koosnevad suuruste Y ja Xi k vaatlusest ja me tahame hinnata koefitsiente. Standardmeetod koefitsientide hinnangute leidmiseks on vähimruutude meetod. Ja selle meetodi rakendamisel saadav analüütiline lahendus näeb välja järgmine:

Kus b kaanega - koefitsientide vektori hindamine, y on sõltuva muutuja väärtuste vektor ja X on maatriks suurusega k x n+1 (n on ennustajate arv, k on vaatluste arv), milles esimene veerg koosneb ühtedest, teine - esimese ennustaja, kolmanda - teise ja nii edasi väärtused ning olemasolevate vaatlustega kooskõlas olevad read.

Funktsioon summary.lm() ja saadud tulemuste hindamine

Vaatame nüüd mudeli ehitamise näidet lineaarne regressioon R keeles:
> raamatukogu(kaugel) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >summary(lm1) Call: lm(valem = Liigid ~ Pindala + Kõrgus + Lähim + Scruz + Kõrval, andmed = gala) Jäägid: Min 1Q Mediaan 3Q Max -111,679 -34,898 -7,862 33,460 182,584 St. Vea t väärtus Pr(>|t|) (lõikamine) 7,068221 19,154198 0,369 0,715351 Pindala -0,023938 0,022422 -1,068 0,296318 Kõrgus 0,3196318 Kõrgus 0,319-6565e *** Lähim 0,009144 1,054136 0,009 0,993151 Scruz -0,240524 0,215402 -1,117 0,275208 Kõrvuti -0,074805 0,017700 -4,226 0,000297 *** --- Signif. koodid: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Standardne jääkviga: 60,98 24 vabadusastmel Mitu R-ruutu: 0,7658, kohandatud R-ruut: 0,7171 statistika: 15,7 5 ja 24 DF kohta, p-väärtus: 6,838e-07
Tabel gala sisaldab mõningaid andmeid 30 Galapagose saare kohta. Vaatleme mudelit, kus liik on kogus erinevad tüübid taimede kasv saarel sõltub lineaarselt mitmest teisest muutujast.

Vaatame funktsiooni summary.lm() väljundit.
Kõigepealt tuleb rida, mis tuletab meelde, kuidas mudel ehitati.
Seejärel tuleb info jääkide jaotuse kohta: miinimum, esimene kvartiil, mediaan, kolmas kvartiil, maksimum. Siinkohal oleks kasulik mitte ainult vaadelda mõningaid jääkide kvantiile, vaid ka testida nende normaalsust, näiteks Shapiro-Wilki testiga.
Järgmine - kõige huvitavam - teave koefitsientide kohta. Siin on vaja natuke teooriat.
Kõigepealt paneme kirja järgmise tulemuse:

piiriga sigma ruudus on tegeliku sigma ruudu erapooletu hinnang. Siin b on koefitsientide reaalvektor ja kaanega epsilon on jääkide vektor, kui võtta koefitsientidena meetodil saadud hinnangud vähimruudud. See tähendab, et eeldusel, et vead on normaalselt jaotatud, jaotub koefitsientide vektor ka reaalväärtuse ümber normaalselt ja selle dispersiooni saab hinnata erapooletult. See tähendab, et saate testida hüpoteesi koefitsientide nulliga võrdsuse kohta ja seetõttu kontrollida ennustajate olulisust, st seda, kas Xi väärtus mõjutab tõesti suuresti konstrueeritud mudeli kvaliteeti.
Selle hüpoteesi kontrollimiseks vajame järgmist statistikat, millel on Studenti jaotus, kui koefitsiendi bi tegelik väärtus on 0:

Kus
on koefitsiendi hinnangu standardviga ja t(k-n-1) on Studenti jaotus k-n-1 vabadusastmega.

Nüüd olete valmis jätkama faili summary.lm() väljundi sõelumist.
Järgnevalt on toodud vähimruutude meetodil saadud koefitsientide hinnangud, nende standardvead, t-statistika väärtused ja selle p-väärtused. Tavaliselt võrreldakse p-väärtust mõne üsna väikese eelvalitud lävega, näiteks 0,05 või 0,01. Ja kui p-statistiline väärtus osutub künnisest väiksemaks, siis hüpotees lükatakse tagasi, aga kui on rohkem, siis kahjuks midagi konkreetset öelda ei saa. Lubage mul teile seda meelde tuletada sel juhul, kuna Studenti jaotus on sümmeetriline 0 ümber, võrdub p-väärtus 1-F(|t|)+F(-|t|), kus F on Studenti jaotuse funktsioon k-n-1 vabadusastmega. Samuti tähistab R kasulikult olulisi koefitsiente, mille p-väärtus on tärnidega piisavalt väike. See tähendab, et need koefitsiendid, mis väga väikese tõenäosusega on võrdsed 0-ga. Signifi real. koodid sisaldab tärnide dekodeerimist: kui neid on kolm, siis on p-väärtus 0 kuni 0,001, kui neid on kaks, siis on see 0,001 kuni 0,01 jne. Kui ikoone pole, on p-väärtus suurem kui 0,1.

Meie näites võime suure kindlusega väita, et ennustajad Elevation ja Adjacent mõjutavad liikide väärtust kõige tõenäolisemalt, kuid teiste ennustajate kohta ei saa midagi kindlat öelda. Tavaliselt eemaldatakse sellistel juhtudel ennustajad ükshaaval ja vaadatakse, kuidas muutuvad mudeli muud näitajad, näiteks BIC või Adjusted R-squared, millest räägitakse edasi.

Jääkstandardvea väärtus vastab lihtsalt sigma hinnangule koos ülemmääraga ja vabadusastmed arvutatakse kui k-n-1.

Ja nüüd kõige olulisem statistika, mida peaksite kõigepealt vaatama: R-ruut ja kohandatud R-ruut:

kus Yi on Y tegelikud väärtused igas vaatluses, Yi koos korgiga on mudeli ennustatud väärtused, Y koos ribaga on kõigi Yi tegelike väärtuste keskmine.

Alustame R-ruudu statistikast või, nagu seda mõnikord nimetatakse, määramiskoefitsiendist. See näitab, kui palju erineb mudeli tingimuslik dispersioon tegelike Y väärtuste dispersioonist Kui see koefitsient on 1 lähedal, siis on mudeli tingimuslik dispersioon üsna väike ja on väga tõenäoline, et mudel kirjeldab andmeid hästi . Kui R-ruutkoefitsient on palju väiksem, näiteks väiksem kui 0,5, siis suure usaldusväärsusega ei kajasta mudel asjade tegelikku seisu.

R-ruudu statistikal on aga üks tõsine puudus: ennustajate arvu suurenedes saab see statistika ainult kasvada. Seetõttu võib tunduda, et mudel koos suur summa ennustajad on parem kui mudel, millel on vähem, isegi kui kõik uued ennustajad ei mõjuta sõltuvat muutujat. Siin saate meenutada Occami pardli põhimõtet. Seda järgides tasub võimalusel mudelis vabaneda tarbetutest ennustajatest, kuna see muutub lihtsamaks ja arusaadavamaks. Nendel eesmärkidel leiutati korrigeeritud R-ruudu statistika. See esindab tavalist R-ruutu, kuid paljude ennustajate eest on määratud karistus. Põhiidee: kui uued sõltumatud muutujad annavad suure panuse mudeli kvaliteeti, siis selle statistika väärtus suureneb, kui mitte, siis vastupidi, väheneb.

Näiteks kaaluge sama mudelit, mis varem, kuid nüüd jätame viie ennustaja asemel kaks:
> lm2<-lm(Species~Elevation+Adjacent, data=gala) >summary(lm2) Call: lm(valem = Liigid ~ Kõrgus + külgnev, andmed = gala) Jäägid: Min 1Q Mediaan 3Q Max -103,41 -34,33 -11,43 22,57 203,65 Koefitsiendid: Hinnang Std. Vea T väärtus PR (> | T |) (lõhkumine) 1,43287 15,02469 0,095 0,924727 Kõrgus 0,27657 0,03176 8,707 2,53E -09 *** AdJACent -0,068,49 *** -3 -068,49 -0,068,49 --- ALLKIRJA, kui. koodid: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Standardne jääkviga: 60,86 27 vabadusastmel Mitu R-ruutu: 0,7376, kohandatud R-ruut: 0,7181 statistika: 37,94 2 ja 27 DF kohta, p-väärtus: 1,434e-08
Nagu näete, on R-ruudu statistika väärtus vähenenud, kuid korrigeeritud R-ruudu väärtus on isegi veidi suurenenud.

Nüüd kontrollime hüpoteesi, et kõik ennustajate koefitsiendid on võrdsed nulliga. See tähendab, et hüpotees selle kohta, kas Y väärtus sõltub üldiselt Xi väärtustest lineaarselt. Selleks saate kasutada järgmist statistikat, mis juhul, kui hüpotees, et kõik koefitsiendid on võrdsed nulliga, on tõene, on

Määramiskoefitsient

Lineaarfunktsiooni valiku kvaliteedi (tegelike andmete asukoha lähedus arvutatud regressioonijoonele) hindamiseks arvutatakse lineaarse korrelatsioonikordaja ruut, mida nimetatakse määramisteguriks.

Kontrollimine toimub uuringute põhjal determinatsioonikordaja ja dispersioonanalüüs.

Regressioonimudel näitab, et Y varieerumine on seletatav sõltumatu muutuja X varieerumisega ja häire väärtusega e. Me tahame teada, kui suur osa Y variatsioonist on tingitud X muutusest ja kui suur osa sellest juhuslikest põhjustest. Teisisõnu peame teadma, kui hästi hinnanguline regressioonivõrrand tegelike andmetega kokku sobib, s.t. kui vähe varieeruvad andmed regressioonisirge ümber.

Regressioonijoonele vastavuse astme hindamiseks peate arvutama determinatsioonikoefitsiendi, mille olemust saab selgelt mõista, võttes arvesse muutuja Y keskmisest väärtusest kõrvalekallete ruutude kogusumma lagunemist kaheks osaks. - "selgitatud" ja "seletamatu" (joonis 4).

Jooniselt fig. 4 on selge, et .

Teeme selle võrdsuse mõlemad pooled ruudu ruudus ja summeerime kõik i 1-st kuni n.

Kirjutame toodete summa ümber kujul:

Siin kasutatakse järgmisi omadusi:

2) vähimruutude meetod (LSM) põhineb tingimusel:

vajalik tingimus miinimumfunktsiooni olemasolu K on tema esimeste osatuletiste võrdsus nulliga b 0 ja b 1 suhtes.

.

Või .

Sellest järeldub, et.



Y i


Joonis 4. Sõltuva muutuja Y variatsioonistruktuur

Seega on tulemus:

(1)

Sõltuva muutuja Y üksikute väärtuste ruutude kõrvalekallete kogusumma keskmisest väärtusest on põhjustatud paljude põhjuste mõjust, mille jagasime tinglikult kahte rühma: tegur X ja muud tegurid (juhuslikud mõjud). Kui tegur X ei mõjuta tulemust (Y), siis on graafikul olev regressioonisirge paralleelne abstsissteljega ja. Siis on sõltuva muutuja Y kogu dispersioon tingitud muude tegurite mõjust ja hälvete ruudu summa langeb kokku ruutude jääksummaga. Kui muud tegurid tulemust ei mõjuta, on Y funktsionaalselt seotud X-ga ja ruutude jääksumma on null. Sel juhul on regressiooniga seletatav ruutude hälvete summa võrdne ruutude kogusummaga.

Jagame võrrandi (1) mõlemad pooled vasaku küljega (ruutude kogusummaga), saame:

(2)

Regressiooniga seletatava sõltuva muutuja dispersiooni osakaalu nimetatakse määramiskoefitsient ja on tähistatud R2. (2) põhjal määratakse determinatsioonikoefitsient:

. (3)

Määramiskoefitsiendi väärtus on vahemikus 0 kuni 1 ja see on üks lineaarse mudeli kvaliteedi kontrollimise kriteeriumidest. Mida suurem on seletatud variatsiooni osakaal, seda väiksem on teiste tegurite roll, mistõttu lineaarne mudel lähendab hästi algandmeid ja selle abil saab ennustada saadud karakteristiku väärtusi.

määramiskoefitsient võtab väärtused nullist millal X ei mõjuta Y-d kuni ühtsuseni, kui Y muutus on muutusega täielikult seletatav X. Seega iseloomustab determinatsioonikoefitsient mudeli “täielikkust”.

Määramiskoefitsiendi eelised: seda on lihtne arvutada, intuitiivne ja selge tõlgendus. Kuid vaatamata sellele on selle kasutamine mõnikord seotud probleemidega:

· erinevate sõltuvate muutujatega mudelite R2 väärtusi pole võimalik võrrelda;

· R 2 suureneb alati uute muutujate kaasamisel mudelisse. See R 2 omadus võib tekitada teadlases stiimuli lisada mudelisse põhjendamatult täiendavaid muutujaid ja igal juhul muutub problemaatiliseks kindlaks teha, kas täiendav muutuja parandab mudeli kvaliteeti;

· R 2-st on aegridade mudelite kvaliteedi hindamisel vähe kasu, sest sellistes mudelites ulatub selle väärtus sageli 0,9 ja kõrgemale; mudelite eristamine selle koefitsiendi alusel on keeruline ülesanne.

Üks loetletud probleemidest - R 2 suurenemine, kui mudelisse lisatakse täiendavaid muutujaid - lahendatakse koefitsiendi korrigeerimisega, et vähendada mudelisse lisamuutujate ilmumise tagajärjel vabadusastmete arvu.

Korrigeeritud määramiskoefitsient arvutatakse nii:

, (4)

Nagu valemist näha, suureneb see muutujate lisamisel ainult siis, kui R 2 suurenemine “ületab” muutujate arvu suurenemise. Tõesti,

need. jääkvariatsiooni osakaal uute muutujate kaasamisel peaks vähenema, kuid sellega korrutatuna samal ajal suureneb koos mudelisse kaasatud muutujate arvu suurenemisega (p); selle tulemusena suureneb see, kui uute tegurite kaasamisest tulenev positiivne mõju vabadusastmete arvu muutuse “üle kaalub”; vastasel juhul võib see väheneda.

Võrrandi kvaliteeti (valitud mudeli adekvaatsust empiirilistele andmetele) hinnatakse F-testi abil. Hindamise olemus taandub nullhüpoteesi H 0 testimisele regressioonivõrrandi ja määramiskordaja statistilise ebaolulisuse kohta. Selleks võrreldakse tegelikku F-fakti ja Fisheri F-kriteeriumi kriitilisi (tabelikujulisi) F-tabeli väärtusi:

. (5)

Kui hüpotees vastab tõele

H 0: b 0 = b 1 = ... = b p = 0 (või R 2 tõsi = 0)

statistika F fakt peab järgima F - jaotust, mille lugeja ja nimetaja vabadusastmete arv on vastavalt võrdne

n 1 = p ja n 2 = n – p – 1.

F-testi tabelilist väärtust tõenäosuse 0,95 (või 0,99) ja vabadusastmete arvu n 1 = p, n 2 = n – p – 1 korral võrreldakse arvutuslikuga; kui ebavõrdsuse tabel F > F on täidetud, lükatakse tagasi nullhüpotees, et määramiskordaja tegelik väärtus on võrdne nulliga; see annab alust arvata, et mudel on uuritava protsessi jaoks adekvaatne.

Paarismudeli puhul vastab R2 katsekriteeriumis lugeja ühele vabadusastmele ja (n – 2) vabadusastmed vastavale nimetajale. F-testi arvutamine R2 olulisuse testimiseks tehakse järgmiselt:



.

Pöördudes F-tabeli poole, näeme, et tabeli väärtus 5% olulisuse tasemel n 1 = 1 ja n 2 = 50 korral on ligikaudu 4. Kuna F-kriteeriumi arvutatud väärtus on suurem kui tabeli väärtus, siis usaldustõenäosusega 0,95 lükkame ümber nullhüpoteesi, et määramiskordaja tegelik väärtus on null.

Seega võime järeldada, et determinatsioonikoefitsient (ja seega ka mudel tervikuna) on statistiliselt usaldusväärne näitaja vaadeldavate aktsiaindeksite vahelise seose kohta.

Ruutjuur paarismudeli determinatsioonikoefitsiendi väärtusest on korrelatsioonikordaja– ühenduse läheduse näitaja.

Kolmas etapp - klassikalise regressiooni põhitingimuste teostatavuse kontrollimine - on edasise uurimise teema.

Punktides 3.3, 4.1 vaadeldakse lineaarse regressiooni võrrandi hindamise ülesande sõnastust ja näidatakse selle lahendamise meetodit. Konkreetse võrrandi parameetrite hindamine on aga vaid omaette etapp pikast ja keerulisest ökonomeetrilise mudeli koostamise protsessist. Esimene hinnatud võrrand on väga harva kõigis aspektides rahuldav. Tavaliselt on vaja järk-järgult valida seose valem ja selgitavate muutujate koostis, analüüsides igas etapis hinnangulise seose kvaliteeti. See kvaliteedianalüüs sisaldab statistilist ja sisukomponenti. Hinnangulise võrrandi statistilise kvaliteedi testimine koosneb järgmistest elementidest:

iga regressioonivõrrandi koefitsiendi statistilise olulisuse kontrollimine;

regressioonivõrrandi üldise kvaliteedi kontrollimine;

andmete atribuutide kontrollimine, mis pidid käivitama

võrrandi hindamisel.

Kvaliteedianalüüsi sisulise komponendi all mõistetakse hinnangulise regressioonivõrrandi majandusliku tähenduse arvestamist: kas teooria seisukohalt olulised selgitavad tegurid osutusid oluliseks; positiivsed või negatiivsed koefitsiendid, mis näitavad nende tegurite mõju suunda; kas regressioonikordajate hinnangud jäid teoreetilistest kaalutlustest eeldatud intervallidesse.

Iga üksiku koefitsiendi statistilise olulisuse kontrollimise tehnikat lineaarses regressioonivõrrandis käsitleti eelmises peatükis. Liigume nüüd võrrandi kvaliteedi kontrollimise teistele etappidele.

4.2.1. Regressioonivõrrandi üldise kvaliteedi kontrollimine. Määramiskoefitsient r2

Hinnangulise lineaarse regressiooni üldise kvaliteedi analüüsimiseks kasutatakse tavaliselt determinatsioonikordajat R 2 . Paaripõhise regressiooni korral on see muutujate korrelatsioonikordaja ruut X Ja y. Määramiskoefitsient arvutatakse valemi abil

Määramiskoefitsient iseloomustab selle võrrandi abil selgitatud sõltuva muutuja variatsiooni (hajumise) osakaalu. Sõltuva muutuja leviku mõõdupuuks on tavaliselt selle dispersioon ja jääkvariatsiooni saab mõõta regressioonisirge ümber olevate hälvete dispersioonina. Kui ühest lahutatud murru lugeja ja nimetaja jagada vaatluste arvuga P, siis saame vastavalt jääkvariatsiooni ja sõltuva muutuja dispersiooni valimihinnangud u. Jääk- ja kogudispersiooni suhe esindab seletamatu dispersiooni osakaalu. Kui lahutada see osa ühtsusest, saame regressiooniga seletatava sõltuva muutuja dispersiooni osa. Mõnikord korrigeeritakse määramiskordaja arvutamisel vabadusastmete arvu ühtsusest lahutatud murdosa lugejas ja nimetajas, et saada dispersiooni erapooletuid hinnanguid; Siis

.

või paaripõhise regressiooni korral, kus sõltumatute muutujate arv T võrdub 1,

Ühtsusest lahutatud murdosa lugeja on vaatluste hälvete ruudu summa juures i regressioonijoonelt, nimetajas - muutuja keskmisest väärtusest u. Seega see murdosa on väike (ja koefitsientR 2 , ilmselgelt ühtsuse lähedal), kui punktide hajumine regressioonijoone ümber on oluliselt väiksem kui keskmise väärtuse ümber. Vähimruutude meetod võimaldab leida sirge, mille jaoks summa e i 2 on minimaalne ja
tähistab ühte võimalikest ridadest, mille puhul tingimus on täidetud . Seetõttu on ühikust lahutatud murdosa väärtus lugejas väiksem kui selle nimetaja väärtus, vastasel juhul oleks vähimruutude meetodil valitud regressioonijoon sirgjoon
. Seega determinatsioonikoefitsient R 2 on mõõt, mis määrab, mil määral annab leitud regressioonisirge parima tulemuse sõltuva muutuja käitumise selgitamiseks y, kui lihtsalt horisontaaljoon
.

Determinatsioonikoefitsiendi tähendust saab seletada veidi teisiti. Seda saab näidata
, Kus k i =
- hälve i th punktid regressioonijoonel alates . Selles valemis saab vasakpoolset väärtust tõlgendada muutuja üldise leviku (variatsiooni) mõõduna. y, esimene termin paremal pool
- regressiooniga seletatava leviku mõõt ja teine ​​liige
- jääk-selgitamatu levi (punktide levik ümber regressioonisirge) mõõduna. Kui jagame selle valemi vasaku poolega ja korraldame terminid ümber, siis

, see tähendab determinatsioonikoefitsienti R 2 on seletatava osa osakaal sõltuva muutuja dispersioonist (või seletatava dispersiooni osakaal, kui jagame lugeja ja nimetaja n või P- 1). Sageli determinatsioonikoefitsient R 2 illustreeritud joonisel fig. 4.2

Riis. 4.2.

Siin TSS(Selleletal Summa kohta Ruudud) - muutuja koguvariatsioon y, ESS (Selgitatud Summa kohta Ruudud) - dispersioon, mis on seletatav regressiooniga, USS (Seletamatu Summa kohta Ruudud) -hajumist ei seleta regressiooniga. Jooniselt on näha, et hinnavahe seletatava osa suurenemisega koefitsient R 2 - läheneb ühtsusele. Lisaks on jooniselt näha, et ühe muutuja lisamisega R 2 tavaliselt suureneb, kuid kui selgitavad muutujad X 1 Ja X 2 omavahel tugevalt korreleeruvad, siis seletavad nad sama osa muutuja dispersioonist y, ja sel juhul on raske kindlaks teha iga muutuja panust käitumise selgitamisse u.

Kui suuruste vahel on statistiliselt oluline lineaarne seos X Ja juures, siis koefitsient R 2 on ühele lähedal. Kuid see võib olla ühtsusele lähedane lihtsalt seetõttu, et mõlemal suurusel on väljendunud ajaline trend, mis ei ole seotud nende põhjuse ja tagajärje vastastikuse sõltuvusega. Majandusteaduses on mahunäitajatel (sissetulek, tarbimine, investeeringud) tavaliselt selline trend, kuid tempo ja suhtelised näitajad (tootlikkus, kasvumäärad, osakaalud, suhtarvud) mitte alati. Seetõttu tuleb mahunäitajate aegridade (näiteks toodangu sõltuvus ressursikuludest või tarbimise maht sissetulekutest) põhjal lineaarsete regressioonide hindamisel väärtus R 2 on tavaliselt ühele väga lähedal. See viitab sellele, et sõltuvat muutujat ei saa kirjeldada lihtsalt selle keskmisega võrdsena, kuid see on juba ilmne, kuna sellel on ajaline trend.

Kui ei ole aegridu, vaid ristvalim, st andmeid sama tüüpi objektide kohta samal ajahetkel, siis nende põhjal hinnatud lineaarse regressiooni võrrandi puhul on väärtus R 2 ei ületa tavaliselt taset 0,6-0,7. Sama kehtib tavaliselt aegridade regressiooni kohta, kui neil pole selget trendi. Makromajanduses on selliste sõltuvuste näideteks seosed suhteliste, spetsiifiliste ja määranäitajate vahel: inflatsioonimäära sõltuvus töötuse määrast, akumulatsioonimäär intressimäärast, toodangu kasvutempo ressursi sisendite kasvumäärast. . Seega tuleb makromajanduslike mudelite koostamisel eelkõige aegridade andmetele tuginedes arvestada, kas neis sisalduvad muutujad on mahulised või suhtelised ning kas neil on ajaline trend 1 .

Indikaatori täpne vastuvõetavuse piir R Kõigi juhtumite jaoks on võimatu korraga märkida 2. Arvesse tuleb võtta võrrandi vabadusastmete arvu, muutujate trendide olemasolu ja võrrandi mõtestatud tõlgendamist. Indeks R 2 See võib isegi negatiivseks osutuda. Reeglina juhtub see võrrandis ilma vaba liikmeta y =
. Sellist võrrandit hinnatakse, nagu tavaliselt, vähimruutude meetodil. Siiski on valikute hulk oluliselt kitsendatud: arvesse ei võeta kõiki võimalikke sirgeid või hüpertasapindu, vaid ainult neid, mis läbivad koordinaatide alguspunkti. Suurusjärk R 2 osutub negatiivseks, kui sõltuva muutuja väärtuste levik ümber sirgjoone (hüpertasapind)
vähem kui isegi parima lähtepunkti läbiva sirge (hüpertasapinna) ümber. Negatiivne väärtus R 2 võrrandis
räägib vabaliikme sissetoomise otstarbekusest. Seda olukorda illustreerib joonis fig. 4.3.

Sellel olev rida 1 on regressioonivõrrandi graafik ilma vaba liikmeta (läbib alguspunkti), rida 2 - vaba liikmega (see võrdub A 0 ), rida 3 -
. Horisontaalne joon 3 annab palju väiksema ruuduhälbete summa e i kui rida 1, ja seetõttu ka viimase puhul determinatsioonikoefitsient R 2 on negatiivne.

Riis. 4.3. Lineaarse regressiooni võrrandite y=f(x) sirged ilma vaba liikmeta(1)ja vabaliikmega(2)

Vabadusastmete arvu korrigeerimine vähendab väärtust alati R 2 sest (P- 1)> (p-t- 1). Selle tulemusena väärtus R 2 võib muutuda ka negatiivseks. Kuid see tähendab, et see oli enne seda korrigeerimist nullilähedane ja regressioonivõrrandiga seletatava sõltuva muutuja dispersiooni osakaal on väga väike.

Niisiis Seega saab eristada järgmisi määramiskoefitsiendi omadusi:

1. ; definitsiooni järgi

2. =0, sel juhul RSS = 0, st meie regressioon ei seleta, ei anna midagi võrreldes triviaalse prognoosiga. Andmed võimaldavad järeldada, et y ja x on sõltumatud, muutuja x muutus ei mõjuta kuidagi muutuja y keskmise väärtuse muutust. See tähendab, et korrelatsioonivälja punktide hajumine konstrueeritud regressioonijoone suhtes suureneb (kas statistiline sõltuvus on väga nõrk või on regressioonivõrrand valesti valitud).

3. =1; sel juhul asuvad kõik punktid () samal sirgel (ESS = 0). Seejärel saame olemasolevate andmete põhjal järeldada, et muutujate y ja x vahel on funktsionaalne, nimelt lineaarne seos. Muutuja y muutus on täielikult seletatav muutuja x muutumisega Paaritud regressioonisirgete korral on determinatsioonikordaja täpselt võrdne korrelatsioonikordaja ruuduga:

Üldiselt ei näita determinatsioonikoefitsiendi väärtus, kas tegurite vahel on seos ja kui lähedal see on. See räägib ainult meie loodud võrrandi kvaliteedist.

Mugav on võrrelda samade vaatlusandmete põhjal koostatud mitme erineva regressioonivõrrandi determinatsioonikordajaid. Mitmest võrrandist on parem see, mille määramistegur on suurem.

3. Kohandatud determinatsioonikoefitsient

Üks Determinatsioonikoefitsiendi üks omadusi on see, et see on mudelis sisalduvate tegurite arvu mittekahanev funktsioon. See tuleneb määratluse definitsioonist. Tõesti võrdsuses

Lugeja ei sõltu, kuid nimetaja sõltub tegurite arvust mudelis. Seetõttu, kui mudelis olevate sõltumatute muutujate arv suureneb, ei vähene determinatsioonikordaja kunagi. Siis, kui võrrelda kahte sama sõltuva muutujaga, kuid erineva tegurite arvuga regressioonimudelit, siis saadakse suurem determinatsioonikoefitsient mudelis suur hulk tegurid. Seetõttu on vaja korrigeerida determinatsioonikoefitsienti, võttes arvesse mudelis sisalduvate tegurite arvu.

Korrigeeritud (parandatud või hinnanguline) määramiskoefitsient määratakse järgmiselt:

Korrigeeritud määramiskoefitsiendi omadused:

1. On lihtne märgata, et kui >1, on korrigeeritud määramistegur väiksem kui määramistegur ().

2. , kuid võib võtta negatiivseid väärtusi. Veelgi enam, kui korrigeeritud väärtus on negatiivne, võtab see nulli lähedase väärtuse ().

Seega on korrigeeritud determinatsioonikoefitsient katse kõrvaldada R 2 suurenemisega seotud mõju koos regressorite arvu suurenemisega. - "trahv" sõltumatute muutujate arvu suurendamise eest.

Jaga