Regressioonivõrrandi koefitsient näitab. Regressioonivõrrand. Mitmekordne regressioonivõrrand

Mis on regressioon?

Vaatleme kahte pidevat muutujat x=(x 1, x 2, .., x n), y=(y 1, y 2, ..., y n).

Asetame punktid kahemõõtmelisele hajuvusgraafikule ja ütleme, et on lineaarne seos, kui andmed on ligikaudsed sirgjoonega.

Kui me seda usume y sõltub x ja muutub y on põhjustatud just muutustest x, saame määrata regressioonijoone (regressioon y peal x), mis kirjeldab kõige paremini nende kahe muutuja vahelist lineaarset seost.

Sõna regressioon statistiline kasutamine tuleneb nähtusest, mida tuntakse kui regressiooni keskmiseni ja mille omistab Sir Francis Galton (1889).

Ta näitas, et kuigi pikkadel isadel on tavaliselt pikad pojad, on poegade keskmine pikkus lühem kui nende pikkadel isadel. Poegade keskmine pikkus "taandus" ja "nihkus tahapoole" elanikkonna kõigi isade keskmise pikkuse suunas. Seega on pikkadel isadel keskmiselt lühemad (kuid siiski üsna pikad) pojad, lühikestel isadel aga pikemad (aga siiski üsna lühikesed) pojad.

Regressioonijoon

Matemaatiline võrrand, mis hindab lihtsat (paaripõhist) lineaarset regressioonijoont:

x nimetatakse sõltumatuks muutujaks või ennustajaks.

Y- sõltuv muutuja või vastuse muutuja. See on väärtus, mida me ootame y(keskmiselt), kui väärtust teame x, st. on "ennustatud väärtus" y»

  • a- hindamisliini vabaliige (ristmik); see on tähendus Y, Millal x=0(joonis 1).
  • b- hinnangulise joone kalle või gradient; see tähistab summat, mille võrra Y suureneb keskmiselt, kui me suurendame xühe ühiku kohta.
  • a Ja b nimetatakse hinnangulise rea regressioonikordajateks, kuigi seda terminit kasutatakse sageli ainult b.

Paaripõhist lineaarset regressiooni saab laiendada nii, et see hõlmaks rohkem kui ühte sõltumatut muutujat; sel juhul tuntakse seda kui mitmekordne regressioon.

Joonis 1. Lineaarne regressioonijoon, mis näitab lõikepunkti a ja kallet b (summa Y suureneb, kui x suureneb ühe ühiku võrra)

Vähima ruudu meetod

Täidame regressioonianalüüs, kasutades vaatluste valimit, kus a Ja b- tõeliste (üldiste) parameetrite α ja β valimihinnangud, mis määravad populatsiooni lineaarse regressiooni joone ( elanikkonnast).

Enamik lihtne meetod koefitsientide määramine a Ja b on meetod vähimruudud (MNC).

Sobivust hinnatakse jääkide järgi (iga punkti vertikaalne kaugus joonest, nt jääk = vaadeldud y- ennustas y, Riis. 2).

Parima sobivuse rida valitakse nii, et jääkide ruutude summa oleks minimaalne.

Riis. 2. Lineaarne regressioonijoon iga punkti jääkidega (vertikaalsed punktiirjooned).

Lineaarse regressiooni eeldused

Seega on iga vaadeldava väärtuse jääk võrdne erinevuse ja vastava prognoositud väärtusega.Iga jääk võib olla positiivne või negatiivne.

Jääkide abil saate testida järgmisi lineaarse regressiooni eeldusi.

  • Jäägid jaotatakse tavaliselt nulliga;

Kui lineaarsuse, normaalsuse ja/või konstantse dispersiooni eeldused on küsitavad, saame teisendada või arvutada uue regressioonisirge, mille puhul need eeldused on täidetud (näiteks kasutada logaritmilist teisendust vms).

Anomaalsed väärtused (kõrvalväärtused) ja mõjupunktid

"Mõjuline" vaatlus, kui see välja jäetakse, muudab üht või mitut mudeli parameetri hinnangut (st kallet või lõikepunkti).

Kõrvalväärtus (vaatlus, mis ei ole kooskõlas enamiku andmekogumi väärtustega) võib olla "mõjukas" vaatlus ja seda saab hõlpsasti visuaalselt tuvastada, kontrollides kahe muutujaga hajuvusdiagrammi või jääkgraafikut.

Nii kõrvalekallete kui ka “mõjukate” vaatluste (punktide) puhul kasutatakse mudeleid nii nende kaasamisega kui ka ilma ning pööratakse tähelepanu muutustele hinnangutes (regressioonikordajad).

Analüüsi tegemisel ei tohiks kõrvalekaldeid ega mõjupunkte automaatselt kõrvale jätta, kuna nende lihtsalt eiramine võib saadud tulemusi mõjutada. Uurige alati nende kõrvalekallete põhjuseid ja analüüsige neid.

Lineaarse regressiooni hüpotees

Lineaarse regressiooni konstrueerimisel testitakse nullhüpoteesi, et regressioonijoone β üldine kalle on võrdne nulliga.

Kui sirge kalle on null, ei ole lineaarset seost ja vahel: muutus ei mõjuta

Nullhüpoteesi testimiseks, et tegelik kalle on null, võite kasutada järgmist algoritmi:

Arvutage katsestatistika, mis on võrdne suhtega , mis allub vabadusastmetega jaotusele, kus koefitsiendi standardviga


,

- jääkide hajuvuse hindamine.

Tavaliselt lükatakse nullhüpotees tagasi, kui saavutatakse olulisuse tase.


kus on vabadusastmetega jaotuse protsendipunkt, mis annab kahepoolse testi tõenäosuse

See on intervall, mis sisaldab üldist kallet tõenäosusega 95%.

Näiteks suurte valimite puhul saame ligikaudse väärtusega 1,96 (st testistatistika kipub olema normaalselt jaotunud)

Lineaarse regressiooni kvaliteedi hindamine: määramistegur R 2

Lineaarse seose tõttu ja eeldame, et see muutub ja nimetage seda variatsiooniks, mis on regressioonist tingitud või sellega seletatav. Jääkvariatsioon peaks olema võimalikult väike.

Kui see on tõsi, siis on suurem osa variatsioonist seletatav regressiooniga ja punktid asuvad regressioonijoone lähedal, st. rida sobib andmetega hästi.

Regressiooniga seletatavat kogudispersiooni osakaalu nimetatakse määramiskoefitsient, väljendatakse tavaliselt protsentides ja tähistatakse R 2(paaris lineaarses regressioonis on see suurus r 2, korrelatsioonikordaja ruut), võimaldab subjektiivselt hinnata regressioonivõrrandi kvaliteeti.

Erinevus näitab dispersiooni protsenti, mida ei saa regressiooniga seletada.

Hindamiseks pole formaalset testi; regressioonijoone sobivuse kindlaksmääramiseks peame tuginema subjektiivsele hinnangule.

Regressioonijoone rakendamine prognoosile

Saate kasutada regressioonijoont, et ennustada väärtust vaadeldava vahemiku äärmises lõpus olevast väärtusest (ärge kunagi ekstrapoleerige neid piire kaugemale).

Me ennustame konkreetse väärtusega vaadeldavate näitajate keskmist, ühendades selle väärtuse regressioonijoone võrrandiga.

Seega, kui me ennustame, siis kasutame seda ennustatud väärtust ja selle standardviga hindamiseks usaldusvahemik tõsi keskmine suurus elanikkonnas.

Selle protseduuri kordamine erinevate väärtuste jaoks võimaldab teil luua selle rea usalduspiirid. See on riba või ala, mis sisaldab tõelist joont, näiteks 95% usaldusnivooga.

Lihtsad regressiooniplaanid

Lihtsad regressioonikujundused sisaldavad ühte pidevat ennustajat. Kui ennustavate väärtustega P on 3 vaatlust, näiteks 7, 4 ja 9, ja disain sisaldab esimest järku efekti P, siis on kujundusmaatriks X

ja regressioonivõrrand, kasutades P jaoks X1 on

Y = b0 + b1 P

Kui lihtne regressioonikava sisaldab efekti kõrgem järjekord näiteks P puhul ruutefekt, siis tõstetakse kujundusmaatriksi veerus X1 olevad väärtused teise astmeni:

ja võrrand saab kuju

Y = b0 + b1 P2

Sigma-piiratud ja üleparameetrilised kodeerimismeetodid ei kehti lihtsate regressioonikavandite ja muude ainult pidevaid ennustajaid sisaldavate kujunduste puhul (kuna kategoorilisi ennustajaid lihtsalt pole). Olenemata valitud kodeerimismeetodist suurendatakse pidevate muutujate väärtusi vastavalt ja kasutatakse X muutujate väärtustena. Sel juhul ümberkodeerimist ei teostata. Lisaks võite regressiooniplaanide kirjeldamisel jätta arvestamata kujundusmaatriksi X ja töötada ainult regressioonivõrrandiga.

Näide: Lihtne regressioonianalüüs

See näide kasutab tabelis esitatud andmeid:

Riis. 3. Algandmete tabel.

Andmed on koostatud 1960. ja 1970. aasta rahvaloenduse võrdlusest juhuslikult valitud 30 maakonnas. Maakonnanimed esitatakse vaatlusnimedena. Teave iga muutuja kohta on esitatud allpool:

Riis. 4. Muutuvate spetsifikatsioonide tabel.

Uurimisprobleem

Selle näite puhul analüüsitakse korrelatsiooni vaesuse määra ja allapoole vaesuspiiri jäävate perede protsenti ennustava määra vahel. Seetõttu käsitleme muutujat 3 (Pt_Poor) sõltuva muutujana.

Võime püstitada hüpoteesi: rahvaarvu muutused ja allapoole vaesuspiiri jäävate perede protsent on omavahel seotud. Tundub mõistlik eeldada, et vaesus toob kaasa väljarände, mistõttu oleks alla vaesuspiiri jäävate inimeste osakaalu ja rahvastiku muutuse vahel negatiivne korrelatsioon. Seetõttu käsitleme muutujat 1 (Pop_Chng) ennustava muutujana.

Vaata tulemusi

Regressioonikoefitsiendid

Riis. 5. Pt_Poor regressioonikoefitsiendid Pop_Chng.

Pop_Chng rea ja veeru Param ristumiskohas. standardeerimata koefitsient Pt_Poor regressiooni jaoks Pop_Chng'il on -0,40374. See tähendab, et iga rahvaarvu vähenemise ühiku kohta suureneb vaesuse määr 0,40374 võrra. Selle standardimata koefitsiendi ülemine ja alumine (vaikimisi) 95% usalduspiir ei sisalda nulli, seega on regressioonikoefitsient p-tasemel oluline<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Muutuv jaotus

Korrelatsioonikordajad võivad muutuda oluliselt üle- või alahinnatuks, kui andmetes on suured kõrvalekalded. Uurime sõltuva muutuja Pt_Poor jaotust linnaosade kaupa. Selleks koostame muutuja Pt_Poor histogrammi.

Riis. 6. Muutuja Pt_Poor histogramm.

Nagu näete, erineb selle muutuja jaotus normaaljaotusest märgatavalt. Kuigi isegi kahes maakonnas (kaks parempoolset veergu) on suurem protsent perekondi, kes jäävad allapoole vaesuspiiri, kui normaaljaotuse korral eeldati, näivad nad olevat "vahemikus".

Riis. 7. Muutuja Pt_Poor histogramm.

See otsus on mõnevõrra subjektiivne. Rusikareegel on, et kõrvalekaldeid tuleks arvesse võtta, kui vaatlus (või vaatlused) ei jää intervalli (keskmine ± 3 korda standardhälbe) sisse. Sel juhul tasub analüüsi korrata nii kõrvalekalletega kui ka ilma, et need ei avaldaks populatsiooniliikmete vahelisele korrelatsioonile suurt mõju.

Hajuvusdiagramm

Kui üks hüpoteesidest on a priori antud muutujate vahelise seose kohta, siis on kasulik seda testida vastava hajuvusdiagrammi graafikul.

Riis. 8. Hajumisdiagramm.

Hajuvusdiagramm näitab selget negatiivset korrelatsiooni (-.65) kahe muutuja vahel. See näitab ka regressioonijoone 95% usaldusvahemikku, st on 95% tõenäosus, et regressioonijoon asub kahe punktiirkõvera vahel.

Olulisuse kriteeriumid

Riis. 9. Olulisuse kriteeriume sisaldav tabel.

Pop_Chng regressioonikordaja test kinnitab, et Pop_Chng on tugevalt seotud Pt_Poor , p<.001 .

Alumine joon

See näide näitas, kuidas analüüsida lihtsat regressioonidisaini. Esitati ka standardiseerimata ja standardiseeritud regressioonikordajate tõlgendused. Arutletakse sõltuva muutuja vastusejaotuse uurimise tähtsusest ning demonstreeritakse ennustaja ja sõltuva muutuja vahelise seose suuna ja tugevuse määramise tehnikat.

Regressioonivõrrandi koefitsientide arvutamine

Olemasoleval ED-l põhinevat võrrandisüsteemi (7.8) ei saa üheselt lahendada, kuna tundmatute arv on alati suurem kui võrrandite arv. Selle probleemi lahendamiseks on vaja täiendavaid eeldusi. Terve mõistus ütleb: polünoomi koefitsiendid on soovitatav valida nii, et oleks tagatud minimaalne viga ED lähendamisel. Lähendusvigade hindamiseks saab kasutada erinevaid meetmeid. Sellise mõõdikuna kasutatakse laialdaselt ruutkeskmist viga. Selle põhjal on välja töötatud spetsiaalne meetod regressioonivõrrandite kordajate hindamiseks - vähimruutude meetod (LSM). See meetod võimaldab saada normaaljaotuse valiku korral regressioonivõrrandi tundmatute koefitsientide maksimaalse tõenäosuse hinnanguid, kuid seda saab kasutada mis tahes muu tegurite jaotuse jaoks.

MNC põhineb järgmistel sätetel:

· veaväärtuste ja tegurite väärtused on sõltumatud ja seega korrelatsioonita, st. eeldatakse, et häirete tekitamise mehhanismid ei ole seotud tegurite väärtuste genereerimise mehhanismiga;

· vea ε matemaatiline ootus peab olema võrdne nulliga (konstantne komponent sisaldub koefitsiendis a 0), teisisõnu, viga on tsentreeritud suurus;

· vea dispersiooni valimihinnang peaks olema minimaalne.

Vaatleme OLS-i kasutamist seoses standardsete väärtuste lineaarse regressiooniga. Tsentreeritud koguste jaoks u j koefitsient a 0 on võrdne nulliga, siis lineaarse regressiooni võrrandid

. (7.9)

Siin on kasutusele võetud spetsiaalne märk “^”, mis tähistab regressioonivõrrandi abil arvutatud indikaatori väärtusi, erinevalt vaatlustulemustest saadud väärtustest.

Vähimruutude meetodi abil määratakse sellised regressioonivõrrandi kordajate väärtused, mis annavad avaldisele tingimusteta miinimumi

Miinimum leitakse avaldise (7.10) kõik osatuletised, tundmatute koefitsientide ülevõtmine ja võrrandisüsteemi lahendamine.

(7.11)

Teisenduste järjepidev läbiviimine ja eelnevalt kasutusele võetud korrelatsioonikordajate hinnangute kasutamine

. (7.12)

Niisiis, kätte saanud T–1 lineaarne võrrand, mis võimaldab väärtusi üheselt arvutada a 2 , a 3 , …, a t.

Kui lineaarmudel on ebatäpne või parameetreid mõõdetakse ebatäpselt, siis sel juhul võimaldab vähimruutude meetod leida sellised koefitsientide väärtused, mille juures lineaarmudel parim viis kirjeldab reaalset objekti valitud standardhälbe kriteeriumi tähenduses.

Kui parameeter on ainult üks, muutub lineaarse regressiooni võrrand

Koefitsient a 2 leitakse võrrandist

Siis, arvestades seda r 2.2= 1, nõutav koefitsient

a 2 = r y ,2 . (7.13)

Seos (7.13) kinnitab eelnevalt öeldud väidet, et korrelatsioonikordaja on kahe standardiseeritud parameetri vahelise lineaarse seose mõõt.

Koefitsiendi leitud väärtuse asendamine a 2 väljendiks w, võttes arvesse tsentreeritud ja normaliseeritud suuruste omadusi, saame selle funktsiooni minimaalse väärtuse, mis on võrdne 1– r 2 a,2. Väärtus 1– r 2 a,2 nimetatakse juhusliku suuruse jääkvariatsiooniks y juhusliku suuruse suhtes u 2. See iseloomustab viga, mis saadakse indikaatori asendamisel parameetri υ= funktsiooniga a 2 ja 2. Ainult koos | r y,2| = 1 on jääkdispersioon null ja seetõttu pole indikaatori lineaarfunktsiooniga lähendamisel viga.

Tsentreeritud ja normaliseeritud indikaatorite ja parameetrite väärtustest edasi liikudes

saab algväärtuste eest saada

See võrrand on ka lineaarne korrelatsioonikordaja suhtes. On hästi näha, et tsentreerimine ja normaliseerimine lineaarse regressiooni jaoks võimaldab võrrandisüsteemi dimensiooni vähendada ühe võrra, s.o. lihtsustada koefitsientide määramise probleemi lahendust ja anda koefitsientidele endile selge tähendus.

Vähimruutude kasutamine mittelineaarsete funktsioonide jaoks ei erine praktiliselt vaadeldavast skeemist (ainult koefitsient a0 algses võrrandis ei ole võrdne nulliga).

Oletame näiteks, et on vaja määrata paraboolse regressiooni koefitsiendid

Näidisvea dispersioon

Selle põhjal saame järgmise võrrandisüsteemi

Pärast teisendusi saab võrrandisüsteem kuju

Võttes arvesse standardiseeritud suuruste momentide omadusi, kirjutame

Mittelineaarsete regressioonikordajate määramine põhineb lineaarvõrrandisüsteemi lahendamisel. Selleks saate kasutada universaalseid arvmeetodite pakette või statistiliste andmete töötlemiseks spetsiaalseid pakette.

Regressioonivõrrandi astme kasvades suureneb ka koefitsientide määramiseks kasutatavate parameetrite jaotusmomentide määr. Seega kasutatakse teise astme regressioonivõrrandi kordajate määramiseks parameetrite jaotuse momente kuni neljanda astmeni (kaasa arvatud). On teada, et piiratud ED-de valimi hetkede hindamise täpsus ja usaldusväärsus väheneb järsult, kui nende järjestus suureneb. Teisest astmest kõrgemate polünoomide kasutamine regressioonivõrrandis on sobimatu.

Saadud regressioonivõrrandi kvaliteeti hinnatakse indikaatori vaatlustulemuste ja regressioonivõrrandiga ennustatud väärtuste vahelise läheduse järgi parameetriruumi antud punktides. Kui tulemused on lähedased, võib regressioonanalüüsi probleemi lugeda lahendatuks. Vastasel juhul peaksite regressioonivõrrandit muutma (valige polünoomi erinev aste või üldse erinevat tüüpi võrrand) ja kordama arvutusi parameetrite hindamiseks.

Kui näitajaid on mitu, lahendatakse regressioonanalüüsi probleem neist igaühe puhul iseseisvalt.

Regressioonivõrrandi olemust analüüsides tuleb märkida järgmised punktid. Vaadeldav lähenemine ei paku koefitsientide eraldi (sõltumatut) hindamist - ühe koefitsiendi väärtuse muutus toob kaasa teiste väärtuste muutumise. Saadud koefitsiente ei tohiks käsitleda vastava parameetri panusena näitaja väärtusse. Regressioonivõrrand on lihtsalt olemasoleva ED hea analüütiline kirjeldus, mitte seadus, mis kirjeldab parameetrite ja indikaatori vahelist seost. Seda võrrandit kasutatakse indikaatori väärtuste arvutamiseks antud parameetrite muutuste vahemikus. See on piiratud sobivusega arvutusteks väljaspool seda vahemikku, st. seda saab kasutada interpolatsiooniprobleemide lahendamiseks ja piiratud määral ekstrapoleerimiseks.



Prognoosi ebatäpsuse peamiseks põhjuseks ei ole mitte niivõrd regressioonisirge ekstrapoleerimise määramatus, vaid pigem indikaatori oluline varieerumine, mis tuleneb mudelis arvestamata teguritest. Prognoosimisvõime piiranguks on mudelis arvestamata parameetrite stabiilsuse tingimus ja arvesse võetud mudelitegurite mõju olemus. Kui väliskeskkond järsult muutub, kaotab koostatud regressioonivõrrand oma tähenduse. Te ei saa regressioonivõrrandisse asendada tegureid, mis erinevad oluliselt ED-s esitatud väärtustest. Nii teguri maksimaalse kui ka minimaalse väärtuse puhul on soovitatav mitte ületada kolmandikku parameetri variatsioonivahemikust.

Prognoos, mis saadakse parameetri oodatava väärtuse asendamisel regressioonivõrrandiga, on punkt üks. Sellise prognoosi realiseerumise tõenäosus on tühine. Soovitav on määrata prognoosi usaldusvahemik. Indikaatori üksikute väärtuste puhul peaks intervall võtma arvesse regressioonijoone asukoha vigu ja üksikute väärtuste kõrvalekaldeid sellest reast. Teguri x indikaatori y ennustamise keskmine viga on

Kus on keskmine viga regressioonijoone asukohas populatsioonis at x = x k;

– näitaja regressioonisirgest kõrvalekaldumise dispersiooni hindamine üldkogumis;

x k– teguri eeldatav väärtus.

Prognoosi usalduspiirid, näiteks regressioonivõrrandi (7.14) jaoks, määratakse avaldisega

Negatiivne vaba tähtaeg a 0 algsete muutujate regressioonivõrrandis tähendab, et indikaatori olemasolu valdkond ei sisalda parameetri nullväärtusi. Kui a 0 > 0, siis sisaldab indikaatori olemasolu valdkond parameetrite nullväärtusi ja koefitsient ise iseloomustab indikaatori keskmist väärtust parameetrite mõju puudumisel.

Probleem 7.2. Koostage kanali läbilaskevõime regressioonivõrrand tabelis toodud näidise põhjal. 7.1.

Lahendus. Antud valimiga seoses viidi analüütilise sõltuvuse konstrueerimine läbi peamiselt korrelatsioonianalüüsi raames: läbilaskevõime sõltub ainult signaali-müra suhte parameetrist. Jääb üle varem arvutatud parameetrite väärtused avaldisesse (7.14) asendada. Võimsuse võrrand saab sellise kuju

ŷ = 26,47–0,93 × 41,68 × 5,39 / 6,04 + 0,93 × 5,39 / 6,03 × X = – 8,121+0,830X.

Arvutustulemused on toodud tabelis. 7.5.

Tabel 7.5

N lk Kanali läbilaskevõime Signaali ja müra suhe Funktsiooni väärtus Viga
Y X ŷ ε
26.37 41.98 26.72 -0.35
28.00 43.83 28.25 -0.25
27/83 42.83 27.42 0.41
31.67 47.28 31.12 0.55
23.50 38.75 24.04 -0.54
21.04 35.12 21.03 0.01
16.94 32.07 18.49 -1.55
37.56 54.25 36.90 0.66
18.84 32.70 19.02 -0.18
25.77 40.51 25.50 0.27
33.52 49.78 33.19 0.33
28.21 43.84 28.26 -0.05
28.76 44.03

Andmeanalüüsi alused.

Tüüpiline praktikas ilmnev probleem on muutujate vaheliste sõltuvuste või seoste tuvastamine. Reaalses elus on muutujad omavahel seotud. Näiteks turunduses mõjutab müüki reklaamile kulutatud raha hulk; meditsiinilistes uuringutes mõjutab ravimi annus toimet; tekstiilitootmises sõltub kanga värvimise kvaliteet temperatuurist, niiskusest ja muudest parameetritest; metallurgias sõltub terase kvaliteet spetsiaalsetest lisanditest jne. Andmetes sõltuvuste leidmine ja oma eesmärkidel kasutamine on andmeanalüüsi ülesanne.

Oletame, et jälgite muutujapaari X ja Y väärtusi ja soovite leida nendevahelise seose. Näiteks:

X - veebipoe külastajate arv, Y - müügimaht;

X - plasmapaneeli diagonaal, Y - hind;

X on aktsia ostuhind, Y on müügihind;

X on alumiiniumi hind Londoni börsil, Y on müügimahud;

X - naftajuhtmete purunemiste arv, Y - kadude suurus;

X on lennuki "vanus", Y on selle remondi maksumus;

X - müügipind, Y - kaupluse käive;

X on sissetulek, Y on tarbimine jne.

Muutujat X nimetatakse tavaliselt sõltumatuks muutujaks, muutujat Y sõltuvaks muutujaks. Mõnikord nimetatakse muutujat X ennustajaks, muutujat Y vastuseks.



Tahame täpselt määrata sõltuvuse X-st või ennustada, millised on Y väärtused antud X väärtuste korral. Sel juhul jälgime X väärtusi ja vastavaid Y väärtusi. Ülesandeks on koostada mudel, mis võimaldab määrata Y X väärtustest, mis erinevad vaadeldavatest. Statistikas lahendatakse sellised probleemid raamistikus regressioonianalüüs.

Regressioonimudeleid on erinevaid, mille määrab funktsiooni valik f(x1,x2,…,xm):

1) Lihtne lineaarne regressioon

2) Mitmekordne regressioon

3) Polünoomi regressioon

Koefitsiendid nimetatakse regressiooniparameetriteks.

Regressioonanalüüsi põhiomadus: selle abil saate konkreetset teavet selle kohta, mis vormis ja olemuses on uuritavate muutujate omavaheline seos.

Regressioonanalüüsi etappide järjestus

1. Probleemi sõnastamine. Selles etapis kujundatakse esialgsed hüpoteesid uuritavate nähtuste sõltuvuse kohta.

2. Sõltuvate ja sõltumatute (selgitavate) muutujate defineerimine.

3. Statistiliste andmete kogumine. Andmeid tuleb koguda iga regressioonimudelis sisalduva muutuja kohta.

4. Hüpoteesi püstitamine seose vormi kohta (lihtne või mitmekordne, lineaarne või mittelineaarne).

5. Regressioonifunktsiooni määramine (koosneb regressioonivõrrandi parameetrite arvväärtuste arvutamisest)

6. Regressioonanalüüsi täpsuse hindamine.

7. Saadud tulemuste tõlgendamine. Saadud regressioonanalüüsi tulemusi võrreldakse esialgsete hüpoteesidega. Hinnatakse saadud tulemuste õigsust ja usaldusväärsust.

8. Sõltuva muutuja tundmatute väärtuste ennustamine.

Regressioonanalüüsi kasutades on võimalik lahendada prognoosimise ja klassifitseerimise probleem. Prognoositud väärtused arvutatakse seletavate muutujate väärtuste asendamisega regressioonivõrrandisse. Klassifitseerimisülesanne lahendatakse nii: regressioonisirge jagab kogu objektide komplekti kahte klassi ja see osa hulgast, kus funktsiooni väärtus on suurem kui null, kuulub ühte klassi ja see osa, kus see on nullist väiksem. kuulub teise klassi.

Regressioonanalüüsi peamised ülesanded: sõltuvuse vormi kindlaksmääramine, regressioonifunktsiooni määramine, sõltuva muutuja tundmatute väärtuste hindamine.

Lineaarne regressioon

Lineaarne regressioon taandub vormi võrrandi leidmiseks

Või . (1.1)

x- nimetatakse sõltumatuks muutujaks või ennustajaks.

Y– sõltuv või vastuse muutuja. See on väärtus, mida me ootame y(keskmiselt), kui väärtust teame x, st. on "ennustatud väärtus" y»

· a– hindamisliini vaba tähtaeg (ristmik); see on tähendus Y, Millal x=0(joonis 1).

· b– hinnangulise joone kalle või gradient; see tähistab summat, mille võrra Y suureneb keskmiselt, kui me suurendame xühe ühiku kohta.

· a Ja b nimetatakse hinnangulise rea regressioonikordajateks, kuigi seda terminit kasutatakse sageli ainult b.

· e- mittejälgitavad juhuslikud suurused keskmisega 0 või neid nimetatakse ka vaatlusvigadeks, eeldatakse, et vead ei ole omavahel korrelatsioonis.

Joonis 1. Lineaarne regressioonijoon, mis näitab lõikepunkti a ja kallet b (summa Y suureneb, kui x suureneb ühe ühiku võrra)

Vormirõrrand võimaldab teguri antud väärtusi X neil on saadud karakteristiku teoreetilised väärtused, asendades sellega teguri tegelikud väärtused X. Graafikul kujutavad teoreetilised väärtused regressioonijoont.

Enamikul juhtudel (kui mitte alati) esineb regressioonijoone suhtes teatud vaatluste hajumine.

Teoreetiline regressioonisirge on joon, mille ümber on rühmitatud korrelatsioonivälja punktid ja mis näitab ühenduse põhisuunda, põhitendentsi.

Regressioonanalüüsi oluliseks etapiks on funktsiooni tüübi määramine, millega karakteristikute vahelist sõltuvust iseloomustatakse. Võrranditüübi valiku põhialuseks peaks olema uuritava sõltuvuse olemuse ja selle mehhanismi sisukas analüüs.

Parameetrite leidmiseks A Ja b kasutame regressioonivõrrandeid vähimruutude meetod (LSM). Kui rakendate OLS-i, et leida empiirilistele andmetele kõige paremini sobiv funktsioon, arvatakse, et teoreetilisest regressioonijoonest empiiriliste punktide hälvete (ülejääk) ruudu summa peaks olema minimaalne väärtus.

Sobivust hinnatakse jääkide järgi (iga punkti vertikaalne kaugus joonest, nt jääk = vaadeldud y– ennustas y, Riis. 2).

Parima sobivuse rida valitakse nii, et jääkide ruutude summa oleks minimaalne.

Riis. 2. Lineaarne regressioonijoon iga punkti jääkidega (vertikaalsed punktiirjooned).

Pärast lihtsaid teisendusi saame parameetrite väärtuste määramiseks vähimruutude meetodil normaalvõrrandite süsteemi a Ja b empiirilistel andmetel põhinevad lineaarsed korrelatsioonivõrrandid:

. (1.2)

Selle võrrandisüsteemi lahendamine jaoks b, saame selle parameetri määramiseks järgmise valemi:

(1.3)

Kus ja on y, x keskmised väärtused.

Parameetri väärtus A saame, kui jagame selle süsteemi esimese võrrandi mõlemad pooled arvuga n:

Parameeter b võrrandis nimetatakse regressioonikordajaks. Otsese korrelatsiooni olemasolul on regressioonikordaja positiivne, pöördkorrelatsiooni korral aga negatiivne.

Kui regressioonikordaja märk on positiivne, on seos sõltuva muutuja ja sõltumatu muutuja vahel positiivne.

Kui regressioonikordaja märk on negatiivne, on sõltuva muutuja ja sõltumatu muutuja vaheline seos negatiivne (pöördvõrdeline).

Regressioonikordaja näitab, kui palju muutub saadud tunnuse väärtus keskmiselt y kui teguri tunnus muutub Xühiku kohta on geomeetriline regressioonikordaja korrelatsioonivõrrandit kujutava sirge kalle telje suhtes X(võrrandi jaoks).

Lineaarse seose tõttu ja me eeldame, et see muutub kujul , ja me nimetame seda variatsiooniks, mis on tingitud või seletatav regressiooniga. Jääkvariatsioon peaks olema võimalikult väike.

Kui see on tõsi, siis on suurem osa variatsioonist seletatav regressiooniga ja punktid asuvad regressioonijoone lähedal, st. rida sobib andmetega hästi.

Juhuslike suuruste X ja Y vahelise lineaarse sõltuvuse astme kvantitatiivne tunnus on korrelatsioonikordaja r( Kahe tunnuse vahelise seose läheduse näitaja ) .

Korrelatsioonikoefitsient:

kus x on faktori tunnuse väärtus;

y - saadud atribuudi väärtus;

n - andmepaaride arv.


Joonis 3 – punktide “pilve” asukoha valikud

Kui korrelatsioonikordaja r = 1, siis vahel X Ja Y on funktsionaalne lineaarne seos, kõik punktid (x i, y i) asub sirgjoonel.

Kui korrelatsioonikordaja r = 0 (r ~ 0), siis nad ütlevad seda X Ja Y korrelatsioonita, st. nende vahel pole lineaarset seost.

Märkide vaheline seos (Chaddocki skaalal) võib olla tugev, keskmine ja nõrk . Ühenduse tiheduse määrab korrelatsioonikordaja väärtus, mis võib võtta väärtusi vahemikus -1 kuni +1 (kaasa arvatud). Ühenduse tiheduse hindamise kriteeriumid on näidatud joonisel fig. 1.

Riis. 4. Kvantitatiivsed kriteeriumid suhtluse läheduse hindamiseks

Igasugusel muutujatevahelisel seosel on kaks olulist omadust: suurusjärk ja usaldusväärsus. Mida tugevam on seos kahe muutuja vahel, seda suurem on seose suurus ja seda lihtsam on ennustada ühe muutuja väärtust teise muutuja väärtusest. Sõltuvuse suurust on lihtsam mõõta kui usaldusväärsust.

Sõltuvuse usaldusväärsus pole vähem oluline kui selle suurus. See omadus on seotud uuritava valimi esinduslikkusega. Seose usaldusväärsus iseloomustab seda, kui tõenäoline on, et see seos muude andmete põhjal uuesti leitakse.

Muutujate sõltuvuse suuruse kasvades suureneb tavaliselt ka selle usaldusväärsus.

Regressiooniga seletatavat kogudispersiooni osakaalu nimetatakse määramiskoefitsient, väljendatakse tavaliselt protsentides ja tähistatakse R 2(paaris lineaarses regressioonis on see suurus r 2, korrelatsioonikordaja ruut), võimaldab subjektiivselt hinnata regressioonivõrrandi kvaliteeti.

Determinatsioonikordaja mõõdab dispersiooni osakaalu keskmise ümber, mis on konstrueeritud regressiooniga "seletatud". Determinatsioonikoefitsient jääb vahemikku 0 kuni 1. Mida lähemal on determinantkoefitsient 1-le, seda paremini “selgitab” regressioon andmete sõltuvust, nullilähedane väärtus tähendab konstrueeritud mudeli halba kvaliteeti. Determinatsioonikoefitsient võib olla võimalikult lähedane 1-le, kui kõik ennustajad on erinevad.

Erinevus näitab dispersiooni protsenti, mida ei saa regressiooniga seletada.

Mitmekordne regressioon

Mitmekordset regressiooni kasutatakse olukordades, kus paljudest efektiivset atribuuti mõjutavatest teguritest ei ole võimalik välja tuua ühte domineerivat tegurit ning on vaja arvestada mitme teguri mõjuga. Näiteks toodangu mahu määrab põhi- ja käibekapitali suurus, töötajate arv, juhtkonna tase jne, nõudluse tase ei sõltu mitte ainult hinnast, vaid ka ettevõtte käsutuses olevatest vahenditest. elanikkonnast.

Mitmekordse regressiooni põhieesmärk on koostada mitme teguriga mudel ja määrata iga teguri mõju eraldi, samuti nende ühine mõju uuritavale näitajale.

Mitmikregressioon on mitme sõltumatu muutujaga seosvõrrand:

Regressioonikoefitsient on absoluutväärtus, mille võrra keskmiselt ühe tunnuse väärtus muutub, kui teine ​​seotud tunnus muutub määratud mõõtühiku võrra. Regressiooni definitsioon. Seos y ja x vahel määrab regressioonikordaja b märgi (kui > 0 - otsesuhe, vastasel juhul - pöördvõrdeline). Lineaarse regressiooni mudel on ökonomeetrias kõige sagedamini kasutatav ja enim uuritud.

1.4. Lähendamisviga Hindame regressioonivõrrandi kvaliteeti absoluutse lähendusvea abil. Mudelisse asendatakse tegurite prognoositud väärtused ja saadakse uuritava näitaja ennustavad punkthinnangud. Seega iseloomustavad regressioonikoefitsiendid üksikute tegurite olulisuse astet tulemusnäitaja taseme tõstmisel.

Regressioonikoefitsient

Vaatleme nüüd lk-l antud regressioonanalüüsi ülesannete ülesannet 1. 300-301. Üks lineaarse regressiooniteooria matemaatilisi tulemusi ütleb, et hindaja N on erapooletu hindaja, millel on minimaalne dispersioon kõigi lineaarsete kallutamata hinnangute klassis. Näiteks saate arvutada külmetushaiguste arvu keskmiselt igakuise keskmise õhutemperatuuri teatud väärtustel sügis-talvisel perioodil.

Regressioonijoon ja regressioonivõrrand

Regressioonisigmat kasutatakse regressiooniskaala koostamiseks, mis kajastab saadud karakteristiku väärtuste kõrvalekaldeid selle regressioonijoonele kantud keskmisest väärtusest. 1, x2, x3 ja vastavad keskmised väärtused y1, y2 y3, samuti väikseimad (y - σrу/х) ja suurimad (y + σrу/х) väärtused (y) regressiooniskaala koostamiseks. Järeldus. Seega võimaldab regressiooniskaala kehakaalu arvutatud väärtuste piires seda määrata mis tahes muul pikkuse väärtusel või hinnata lapse individuaalset arengut.

Maatriksi kujul kirjutatakse regressioonivõrrand (RE) järgmiselt: Y=BX+U(\displaystyle Y=BX+U), kus U(\displaystyle U) on veamaatriks. Sõna regressioon statistiline kasutamine tuleneb nähtusest, mida tuntakse kui regressiooni keskmiseni ja mille omistab Sir Francis Galton (1889).

Paaripõhist lineaarset regressiooni saab laiendada nii, et see hõlmaks rohkem kui ühte sõltumatut muutujat; sel juhul nimetatakse seda mitmekordseks regressiooniks. Nii kõrvalekallete kui ka “mõjukate” vaatluste (punktide) puhul kasutatakse mudeleid nii nende kaasamisega kui ka ilma ning pööratakse tähelepanu muutustele hinnangutes (regressioonikordajad).

Lineaarse seose tõttu ja me ootame, mis muutub, kui see muutub, ja me nimetame seda variatsiooniks, mis on tingitud või seletatav regressiooniga. Kui see on tõsi, siis on suurem osa variatsioonist seletatav regressiooniga ja punktid asuvad regressioonijoone lähedal, st. rida sobib andmetega hästi. Erinevus näitab dispersiooni protsenti, mida ei saa regressiooniga seletada.

Seda meetodit kasutatakse visuaalne pilt uuritavate majandusnäitajate vahelise seose vormid. Korrelatsioonivälja põhjal võime (populatsiooni jaoks) oletada, et seos X ja Y kõigi võimalike väärtuste vahel on lineaarne.

Juhusliku vea olemasolu põhjused: 1. Regressioonimudelisse oluliste selgitavate muutujate kaasamata jätmine; 2. Muutujate liitmine. Normaalvõrrandite süsteem. Meie näites on ühendus otsene. Tulemusliku atribuudi sõltuva muutuja ennustamiseks on vaja teada kõigi mudelis sisalduvate tegurite prognoositud väärtusi.

Korrelatsiooni- ja regressioonikordajate võrdlus

Tõenäosusega 95% saame garanteerida, et Y väärtused on piiramatud suur number vaatlused ei ületa leitud intervalle. Kui arvutuslik väärtus lang=EN-US>n-m-1) vabadusastmetega on antud olulisuse tasemel suurem kui tabelina esitatud väärtus, siis loetakse mudelit oluliseks. See tagab, et igasuguste kõrvalekallete ja eriti külgnevate kõrvalekallete vahel puudub korrelatsioon.

Regressioonikordajad ja nende tõlgendamine

Enamasti on positiivse autokorrelatsiooni põhjuseks mõne mudelis arvestamata teguri suunakonstantne mõju. Negatiivne autokorrelatsioon tähendab sisuliselt seda, et positiivsele hälbele järgneb negatiivne ja vastupidi.

Mis on regressioon?

2. Inerts. Paljudel majandusnäitajatel (inflatsioon, tööpuudus, RKT jne) on teatav tsüklilisus, mis on seotud äritegevuse lainetamisega. Paljudes tootmis- ja muudes valdkondades reageerivad majandusnäitajad majandustingimuste muutustele viivitusega (ajavahega).

Kui tehakse faktornäitajate esialgne standardimine, siis b0 on võrdne efektiivse näitaja keskmise väärtusega agregaadis. Regressioonikoefitsientide spetsiifilised väärtused määratakse empiiriliste andmete põhjal vähimruutude meetodil (normaalvõrrandisüsteemide lahendamise tulemusena).

Lineaarse regressiooni võrrand on kujul y = bx + a + ε Siin ε on juhuslik viga (hälve, häire). Kuna viga on üle 15%, ei ole soovitatav seda võrrandit regressioonina kasutada. Asendades regressioonivõrrandisse sobivad x väärtused, saame määrata iga vaatluse jaoks tulemusnäitaja y(x) joondatud (ennustatud) väärtused.

Regressioonikoefitsiendid näidata tegurite mõju intensiivsust tulemusnäitajale. Kui teostatakse tegurinäitajate esialgne standardimine, siis b 0 on võrdne efektiivse näitaja keskmise väärtusega agregaadis. Koefitsiendid b 1, b 2, ..., b n näitavad, mitme ühiku võrra erineb efektiivse indikaatori tase selle keskmisest väärtusest, kui tegurinäitaja väärtused erinevad nulli keskmisest ühe standardhälbe võrra. Seega iseloomustavad regressioonikoefitsiendid üksikute tegurite olulisuse astet tulemusnäitaja taseme tõstmisel. Regressioonikoefitsientide spetsiifilised väärtused määratakse empiiriliste andmete põhjal vähimruutude meetodil (normaalvõrrandisüsteemide lahendamise tulemusena).

Regressioonijoon- joon, mis kõige täpsemalt kajastab katsepunktide jaotust hajuvusdiagrammil ja mille kalde järsus iseloomustab kahe intervallmuutuja vahelist seost.

Regressioonijoont otsitakse kõige sagedamini lineaarse funktsioonina (lineaarne regressioon), mis kõige paremini lähendab soovitud kõverat. Seda tehakse vähimruutude meetodil, kui tegelikult vaadeldud hinnangute ruutude kõrvalekallete summa on minimeeritud (see tähendab hinnanguid, mis kasutavad sirgjoont, mis väidetavalt esindab soovitud regressioonisuhet):

(M - valimi suurus). See lähenemisviis põhineb teadaolev fakt, et ülaltoodud avaldises olev summa omandab minimaalse väärtuse täpselt juhul, kui .
57. Korrelatsiooniteooria põhiülesanded.

Korrelatsiooniteooria on aparaat, mis hindab seoste lähedust nähtuste vahel, mis ei ole ainult põhjus-tagajärg seostes. Korrelatsiooniteooriat kasutades hinnatakse stohhastilisi, kuid mitte põhjuslikke seoseid. Autor püüdis koos M. L. Lukatskajaga saada hinnanguid põhjuslike seoste kohta. Küll aga jääb lahtiseks küsimus nähtuste põhjus-tagajärg seostest, põhjuse ja tagajärje tuvastamisest ning tundub, et formaalsel tasandil on see põhimõtteliselt lahendamatu.

Korrelatsiooniteooria ja selle rakendamine tootmisanalüüsis.

Korrelatsiooniteooria, mis on matemaatilise statistika üks harudest, võimaldab teha mõistlikke oletusi võimalike piiride kohta, mille sees teatud usaldusväärsusega uuritav parameeter paikneb, kui teised statistiliselt seotud parameetrid saavad teatud väärtused.

Korrelatsiooniteoorias on tavaks eristada kaks peamist ülesannet.

Esimene ülesanne korrelatsiooniteooria - korrelatsiooni vormi kehtestamiseks, s.o. regressioonifunktsiooni tüüp (lineaarne, ruutkeskmine jne).

Teine ülesanne korrelatsiooniteooria - hinnata korrelatsiooniseose lähedust (tugevust).

Y korrelatsiooniseose (sõltuvuse) lähedust X-st hinnatakse Y väärtuste dispersiooni suuruse järgi tingimusliku keskmise ümber. Suur dispersioon näitab Y nõrka sõltuvust X-st, väike dispersioon näitab tugevat sõltuvust.
58. Korrelatsioonitabel ja selle numbrilised karakteristikud.

Praktikas ei käsitleta suuruste X ja Y sõltumatute vaatluste tulemusena reeglina nende suuruste kõigi võimalike väärtuspaaride kogumit, vaid ainult piiratud valimit üldkogumikust, ja helitugevus on n näidispopulatsioon on määratletud kui proovis saadaolevate paaride arv.

Olgu valimi väärtusel X väärtused x 1, x 2,....x m, kus selle väärtuse väärtuste arv, mis erinevad üksteisest, ja üldiselt võib igaüks neist olla korratakse proovis. Olgu valimi väärtuseks Y väärtused y 1, y 2,....y k, kus k on selle väärtuse erinevate väärtuste arv ja üldiselt võib igaüks neist olla ka korrati proovis. Sel juhul sisestatakse andmed esinemissagedust arvestades tabelisse. Sellist rühmitatud andmetega tabelit nimetatakse korrelatsioonitabeliks.

Tulemuste statistilise töötlemise esimene etapp on korrelatsioonitabeli koostamine.

Y\X x 1 x 2 ... x m n a
y 1 n 12 n 21 n m1 n y1
y 2 n 22 n m2 n y2
...
y k n 1k n 2k n mk n yk
n x n x1 n x2 n xm n

Tabeli põhiosa esimesel real on kasvavas järjekorras kõik proovist leitud suuruse X väärtused. Esimeses veerus on ka kõik proovist leitud suuruse Y väärtused kasvavas järjekorras. Vastavate ridade ja veergude ristumiskohas on sagedused n ij (i = 1,2 ,...,m; j=1,2,...,k) võrdsed paari esinemiste arvuga (x i ; y i) valimis. Näiteks sagedus n 12 tähistab paari (x 1 ;y 1) esinemiste arvu valimis.

Samuti n xi n ij , 1≤i≤m, on i-nda veeru elementide summa, n yj n ij , 1≤j≤k on j-nda rea ​​elementide summa ja n xi = n yj =n

Korrelatsioonitabeli andmetest saadud valemite analoogid on kujul:


59. Empiirilised ja teoreetilised regressioonisirged.

Teoreetiline regressioonisirge saab sel juhul arvutada üksikute vaatluste tulemuste põhjal. Normaalvõrrandisüsteemi lahendamiseks vajame samu andmeid: x, y, xy ja xr. Meil on andmed tsemendi tootmise mahu ja baasi mahu kohta tootmisvarad aastal 1958. Ülesanne püstitatakse: uurida tsemenditoodangu mahu (füüsilises mõttes) seost põhivara mahuga. [ 1 ]

Mida vähem teoreetiline (võrrandist arvutatud) regressioonisirge tegelikust (empiirilisest) kõrvale kaldub, seda väiksem on keskmine lähendusviga.

Teoreetilise regressioonijoone leidmise protsess hõlmab empiirilise regressioonisirge sobitamist vähimruutude meetodi abil.

Teoreetilise regressioonisirge leidmise protsessi nimetatakse empiirilise regressioonijoone joondamiseks ja see seisneb tüübi valimises ja põhjendamises; kõver ja selle võrrandi parameetrite arvutamine.

Empiiriline regressioon on koostatud analüütiliste või kombineeritud rühmitamisandmete põhjal ja see kujutab tulemuse tunnuse rühma keskmiste väärtuste sõltuvust faktori tunnuse rühma keskmistest väärtustest. Empiirilise regressiooni graafiline esitus on katkendlik joon, mis koosneb punktidest, mille abstsissid on faktori tunnuse rühma keskmised väärtused ja ordinaadid on tulemuse tunnuse rühma keskmised väärtused. Punktide arv võrdub rühmade arvuga rühmas.

Empiiriline regressioonisirge peegeldab vaadeldava seose peamist trendi. Kui empiiriline regressioonijoon läheneb välimuselt sirgele, siis võime eeldada, et tunnuste vahel on lineaarne korrelatsioon. Ja kui ühendusjoon läheneb kõverale, võib see olla tingitud kõverjoonelise korrelatsiooni olemasolust.
60. Valimi korrelatsiooni- ja regressioonikordajad.

Kui graafiku karakteristikute vaheline sõltuvus näitab lineaarset korrelatsiooni, arvutage korrelatsioonikordaja r, mis võimaldab hinnata muutujate omavahelise seose lähedust ning ühtlasi välja selgitada, milline osa muutustest tuleneb põhitunnuse mõjust, milline osa aga muude tegurite mõjust. Koefitsient varieerub vahemikus –1 kuni +1. Kui r=0, siis tunnuste vahel seos puudub. Võrdsus r=0 näitab ainult lineaarse korrelatsioonisõltuvuse puudumist, kuid mitte korrelatsiooni puudumist, veel vähem statistilist sõltuvust. Kui r= ±1, siis tähendab see täieliku (funktsionaalse) ühenduse olemasolu. Sel juhul asuvad kõik vaadeldud väärtused regressioonijoonel, mis on sirgjoon.
Korrelatsioonikordaja praktilise tähtsuse määrab selle ruudu väärtus, mida nimetatakse determinatsioonikoefitsiendiks.
Regressioon, mis on ligikaudne (ligikaudne kirjeldatud) lineaarfunktsiooniga y = kX + b. Y regressiooniks X-l on regressioonivõrrand: `y x = ryx X + b; (1). Kaldetegur Y otsese regressiooni ryx-i X-l nimetatakse Y regressioonikordajaks X-l.

Kui võrrand (1) leitakse näidisandmete abil, nimetatakse seda regressioonivõrrandi näidis. Vastavalt sellele on ryx Y valimi regressioonikordaja X-l ja b on võrrandi näidisliige. Regressioonikordaja mõõdab Y varieerumist X variatsiooniühiku kohta. Regressioonivõrrandi parameetrid (koefitsiendid ryx ja b) leitakse vähimruutude meetodil.
61. Korrelatsioonikordaja olulisuse ja korrelatsiooni läheduse hindamine üldkogumis

Korrelatsioonikordajate olulisus kontrollitud õpilase testiga:

Kus - korrelatsioonikordaja ruutkeskmine viga, mis määratakse järgmise valemiga:

Kui arvutatud väärtus on suurem kui tabeli väärtus, siis võime järeldada, et korrelatsioonikordaja väärtus on oluline Tabeliväärtused t leitud Studenti t-testi väärtuste tabelist. Sel juhul võetakse arvesse vabadusastmete arvu (V = n - 1) ja usaldusnivoo (majanduslikes arvutustes tavaliselt 0,05 või 0,01). Meie näites on vabadusastmete arv: P - 1 = 40 - 1 = 39. Usaldustasemel R = 0,05; t= 2,02. Kuna (tegelik väärtus on kõikidel juhtudel kõrgem kui t-tabel) on resultant- ja faktorinäitajate vaheline seos usaldusväärne ning korrelatsioonikoefitsientide suurus on oluline.

Korrelatsioonikordaja hindamine, mis on arvutatud piiratud valimi põhjal, erineb peaaegu alati nullist. Kuid see ei tähenda, et korrelatsioonikordaja elanikkonnast erineb ka nullist. On vaja hinnata koefitsiendi valimi väärtuse olulisust või vastavalt statistiliste hüpoteeside kontrollimise ülesannete sõnastusele testida hüpoteesi, et korrelatsioonikordaja on võrdne nulliga. Kui hüpotees N 0, et korrelatsioonikoefitsient on võrdne nulliga, lükatakse tagasi, siis on valimi koefitsient oluline ja vastavad väärtused on seotud lineaarse seosega. Kui hüpotees N 0 aktsepteeritakse, siis ei ole koefitsiendi hinnang oluline ja väärtused ei ole üksteisega lineaarselt seotud (kui füüsilistel põhjustel saab tegureid seostada, siis on parem öelda, et seda seost pole loodud olemasoleva ED põhjal). Korrelatsioonikordaja hinnangu olulisuse hüpoteesi testimiseks on vaja teadmisi selle juhusliku suuruse jaotusest.  väärtuse jaotus ik uuritud ainult juhuslike muutujate erijuhul Uj Ja U k jaotatakse tavaseaduse järgi.

Nullhüpoteesi testimise kriteeriumina N 0 kohaldada juhuslik muutuja . Kui korrelatsioonikordaja moodul on suhteliselt kaugel ühtsusest, siis väärtus t kui nullhüpotees on tõene, jaotatakse see Studenti seaduse järgi koos n– 2 vabadusastet. Konkureeriv hüpotees N 1 vastab väitele, et väärtus  ik ei ole võrdne nulliga (nullist suurem või väiksem). Seetõttu on kriitiline piirkond kahepoolne.
62. Valimi korrelatsioonikordaja arvutamine ja valimi sirgjoonelise regressioonivõrrandi koostamine.

Valimi korrelatsioonikordaja leitakse valemiga

kus on väärtuste standardhälbed ja .

Valimi korrelatsioonikordaja näitab lineaarse seose lähedust ja vahel: mida lähemal ühtsusele, seda tugevam on lineaarne seos ja vahel.

Lihtne lineaarne regressioon leiab lineaarse seose ühe sisendmuutuja ja ühe väljundmuutuja vahel. Selleks määratakse regressioonivõrrand - see on mudel, mis peegeldab Y väärtuste sõltuvust, Y sõltuvat väärtust x väärtustest, sõltumatust muutujast x ja populatsioonist, mida kirjeldatakse nivelleerimisega. :

Kus A0- regressioonivõrrandi vaba liige;

A1- regressioonivõrrandi koefitsient

Seejärel konstrueeritakse vastav sirge, mida nimetatakse regressioonijooneks. Koefitsiendid A0 ja A1, mida nimetatakse ka mudeli parameetriteks, on valitud nii, et reaalandmete vaatlustele vastavate punktide ruudus hälvete summa regressioonijoonest on minimaalne. Koefitsiendid valitakse vähimruutude meetodil. Teisisõnu, lihtne lineaarne regressioon kirjeldab lineaarset mudelit, mis annab kõige paremini ligikaudse seose ühe sisendmuutuja ja ühe väljundmuutuja vahel.

Jaga