Regressioonikoefitsientide määramiseks vajalikud tingimused. Regressioon Excelis: võrrand, näited. Lineaarne regressioon

Regressioonanalüüs on statistiline meetod uuringud, mis võimaldavad näidata konkreetse parameetri sõltuvust ühest või mitmest sõltumatust muutujast. Arvutieelsel ajal oli selle kasutamine üsna keeruline, eriti kui tegemist oli suurte andmemahtudega. Täna, olles õppinud Excelis regressiooni koostama, saate keerukaid statistilisi probleeme lahendada vaid paari minutiga. Allpool on konkreetsed näited majandusvaldkonnast.

Regressiooni tüübid

See mõiste ise võeti matemaatikas kasutusele 1886. aastal. Regressioon toimub:

  • lineaarne;
  • paraboolne;
  • rahusti;
  • eksponentsiaalne;
  • hüperboolne;
  • demonstratiivne;
  • logaritmiline.

Näide 1

Vaatleme probleemi lõpetavate meeskonnaliikmete arvu sõltuvuse määramisel keskmine palk 6 tööstusettevõttes.

Ülesanne. Kuue ettevõtte puhul analüüsisime kuu keskmist palgad ja tõttu lahkunud töötajate arv tahte järgi. Tabeli kujul on meil:

Lõpetanud inimeste arv

Palk

30 000 rubla

35 000 rubla

40 000 rubla

45 000 rubla

50 000 rubla

55 000 rubla

60 000 rubla

Et määrata töölt lahkuvate töötajate arvu sõltuvust 6 ettevõtte keskmisest palgast, on regressioonimudelil võrrand Y = a 0 + a 1 x 1 +...+a k x k, kus x i on mõjutavad muutujad, a i on regressioonikoefitsiendid ja k tegurite arv.

Selle probleemi puhul on Y töötajatest lahkumise näitaja ja mõjuteguriks palk, mida tähistame X-ga.

Exceli tabeliprotsessori võimaluste kasutamine

Exceli regressioonianalüüsile peab eelnema sisseehitatud funktsioonide rakendamine olemasolevatele tabeliandmetele. Nendel eesmärkidel on siiski parem kasutada väga kasulikku lisandmoodulit "Analysis Pack". Selle aktiveerimiseks vajate:

  • minge vahekaardilt "Fail" jaotisesse "Valikud";
  • avanevas aknas valige rida "Lisandmoodulid";
  • klõpsake alloleval real "Haldamine" paremal asuval nupul "Mine";
  • märkige ruut nimetuse "Analüüsipakett" kõrval ja kinnitage oma tegevus, klõpsates "Ok".

Kui kõik on õigesti tehtud, näete Exceli töölehe kohal asuva vahekaardi "Andmed" paremas servas soovitud nupp.

Excelis

Nüüd, kui meil on ökonomeetriliste arvutuste tegemiseks kõik vajalikud virtuaalsed tööriistad käepärast, saame hakata oma probleemi lahendama. Selle jaoks:

  • Klõpsake nuppu "Andmete analüüs";
  • avanevas aknas klõpsake nuppu "Regressioon";
  • Sisestage ilmuvale vahekaardile Y (töölt lahkuvate töötajate arv) ja X (nende palgad) väärtuste vahemik;
  • Kinnitame oma toimingud, vajutades nuppu "Ok".

Selle tulemusena täidab programm uue tabeli automaatselt regressioonanalüüsi andmetega. Märge! Excel võimaldab teil selleks eelistatud asukoha käsitsi määrata. Näiteks võib see olla sama leht, kus asuvad Y ja X väärtused, või isegi Uus raamat, mis on spetsiaalselt loodud selliste andmete salvestamiseks.

R-ruudu regressioonitulemuste analüüs

Excelis on vaadeldava näite andmete töötlemisel saadud andmed kujul:

Kõigepealt peaksite pöörama tähelepanu R-ruudu väärtusele. See tähistab määramiskoefitsienti. Selles näites on R-ruut = 0,755 (75,5%), s.o. disaini parameetrid mudelid selgitavad vaadeldavate parameetrite vahelist sõltuvust 75,5% võrra. Mida suurem on determinatsioonikoefitsiendi väärtus, seda sobivam on valitud mudel konkreetse ülesande jaoks. Seda peetakse tegelikku olukorda õigesti kirjeldavaks, kui R-ruudu väärtus on üle 0,8. Kui R-ruut<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Koefitsientide analüüs

Arv 64.1428 näitab, milline on Y väärtus, kui kõik meie vaadeldava mudeli muutujad xi nullitakse. Teisisõnu võib väita, et analüüsitava parameetri väärtust mõjutavad ka muud tegurid, mida konkreetses mudelis ei kirjeldata.

Järgmine koefitsient -0,16285, mis asub lahtris B18, näitab muutuja X mõju osakaalu Y-le. See tähendab, et töötajate keskmine kuupalk vaadeldava mudeli raames mõjutab loobujate arvu kaaluga -0,16285, s.o. selle mõju aste on täiesti väike. Märk "-" näitab, et koefitsient on negatiivne. See on ilmne, sest kõik teavad, et mida kõrgem on palk ettevõttes, seda vähem inimesi avaldab soovi tööleping lõpetada või töölt lahkuda.

Mitmekordne regressioon

See termin viitab suhtevõrrandile mitme sõltumatu muutujaga kujul:

y=f(x 1 +x 2 +…x m) + ε, kus y on resultanttunnus (sõltuv muutuja) ja x 1, x 2,…x m on faktorikarakteristikud (sõltumatud muutujad).

Parameetri hinnang

Mitmekordse regressiooni (MR) korral tehakse see meetodil vähimruudud(MNC). Lineaarvõrrandite kujul Y = a + b 1 x 1 +…+b m x m + ε konstrueerime normaalvõrrandite süsteemi (vt allpool)

Meetodi põhimõtte mõistmiseks kaaluge kahefaktorilist juhtumit. Siis on meil valemiga kirjeldatud olukord

Siit saame:

kus σ on indeksis kajastatud vastava tunnuse dispersioon.

OLS on rakendatav MR võrrandile standardskaalal. Sel juhul saame võrrandi:

milles t y, t x 1, … t xm on standardiseeritud muutujad, mille keskmised väärtused on 0; β i on standardsed regressioonikoefitsiendid ja standardhälve on 1.

Pange tähele, et kõik β i on sisse sel juhul on määratletud kui standardiseeritud ja tsentraliseeritud, seetõttu peetakse nende omavahelist võrdlemist õigeks ja vastuvõetavaks. Lisaks on tavaks tegurid välja sõeluda, jättes kõrvale need, mille βi väärtus on madalaim.

Probleem lineaarse regressiooni võrrandi kasutamisel

Oletame, et meil on konkreetse toote N hinnadünaamika tabel viimase 8 kuu jooksul. On vaja teha otsus selle partii ostmise otstarbekuse kohta hinnaga 1850 rubla / t.

kuu number

kuu nimi

toote hind N

1750 rubla tonni kohta

1755 rubla tonni kohta

1767 rubla tonni kohta

1760 rubla tonni kohta

1770 rubla tonni kohta

1790 rubla tonni kohta

1810 rubla tonni kohta

1840 rubla tonni kohta

Selle probleemi lahendamiseks Exceli tabeliprotsessoris peate kasutama tööriista "Andmeanalüüs", mis on juba tuntud ülaltoodud näitest. Järgmisena valige jaotis "Regressioon" ja määrake parameetrid. Tuleb meeles pidada, et väljale "Sisestusintervall Y" tuleb sisestada sõltuva muutuja väärtuste vahemik (antud juhul kaupade hinnad aasta konkreetsetel kuudel) ja väljale "Sisestusvahemik X" - sõltumatu muutuja (kuu number). Kinnitage toiming, klõpsates "OK". Uuel lehel (kui nii on märgitud) saame andmed regressiooniks.

Ehitame nende järgi lineaarvõrrand kujul y=ax+b, kus parameetrid a ja b on kuu numbri nimetusega rea ​​koefitsiendid ning tulemustega lehelt koefitsiendid ja read “Y-ristik”. regressioonianalüüs. Seega on ülesande 3 lineaarse regressiooni võrrand (LR) kirjutatud järgmiselt:

Toote hind N = 11.714* kuu number + 1727.54.

või algebralises tähistuses

y = 11,714 x + 1727,54

Tulemuste analüüs

Otsustamaks, kas saadud lineaarse regressiooni võrrand on adekvaatne, kasutatakse mitmekordse korrelatsiooni (MCC) ja määramise kordajaid, samuti Fisheri testi ja Studenti t-testi. Regressioonitulemustega Exceli tabelis nimetatakse neid vastavalt mitmekordseks R-iks, R-ruuduks, F-statistiks ja t-statistiks.

KMC R võimaldab hinnata sõltumatute ja sõltuvate muutujate vahelise tõenäosusliku seose lähedust. Selle kõrge väärtus näitab üsna tugevat seost muutujate “Kuu arv” ja “Toote N hind rublades 1 tonni kohta” vahel. Selle suhte olemus jääb aga teadmata.

Determinantkoefitsiendi R2 (RI) ruut on summaarse hajuvuse osakaalu arvnäitaja ja näitab hajumist, millise katseandmete osa, s.o. sõltuva muutuja väärtused vastavad lineaarse regressiooni võrrandile. Vaadeldava ülesande puhul on see väärtus 84,8%, st saadud SD kirjeldab statistilisi andmeid suure täpsusega.

F-statistikat, mida nimetatakse ka Fisheri testiks, kasutatakse lineaarse seose olulisuse hindamiseks, lükates ümber või kinnitades selle olemasolu hüpoteesi.

(Õpilase test) aitab hinnata koefitsiendi olulisust lineaarse seose tundmatu või vaba liikmega. Kui t-testi väärtus > tcr, siis hüpotees lineaarvõrrandi vaba liikme ebaolulisusest lükatakse ümber.

Vaadeldavas vabaliikme ülesandes saadi Exceli tööriistu kasutades, et t = 169,20903 ja p = 2,89E-12, st meil on null tõenäosus, et õige hüpotees vaba liikme ebaolulisusest lükatakse ümber. . Tundmatu koefitsiendi jaoks t=5,79405 ja p=0,001158. Teisisõnu, tõenäosus, et õige hüpotees tundmatu koefitsiendi ebaolulisuse kohta lükatakse ümber, on 0,12%.

Seega võib väita, et saadud lineaarse regressiooni võrrand on adekvaatne.

Aktsiapaketi ostmise otstarbekuse probleem

Excelis tehakse mitu regressiooni, kasutades sama andmeanalüüsi tööriista. Vaatleme konkreetset rakenduseprobleemi.

Ettevõtte NNN juhtkond peab otsustama MMM JSC 20% osaluse ostmise otstarbekuse üle. Paketi (SP) maksumus on 70 miljonit USA dollarit. NNN-i spetsialistid on kogunud andmeid sarnaste tehingute kohta. Aktsiapaketi väärtust otsustati hinnata selliste parameetrite järgi, väljendatuna miljonites USA dollarites:

  • võlgnevused (VK);
  • aasta käibe maht (VO);
  • saadaolevad arved (VD);
  • põhivara maksumus (COF).

Lisaks kasutatakse parameetrit ettevõtte palgavõlgnevus (V3 P) tuhandetes USA dollarites.

Lahendus Exceli tabeliprotsessori abil

Kõigepealt peate looma lähteandmete tabeli. See näeb välja selline:

  • avage aken "Andmete analüüs";
  • valige jaotis "Regressioon";
  • Sisestage väljale "Sisestusintervall Y" veerust G olevate sõltuvate muutujate väärtuste vahemik;
  • klõpsake aknast "Input Range X" paremal asuvat punast nooleikooni ja tõstke lehel esile kõigi väärtuste vahemik alates veerud B, C,D,F.

Märkige üksus "Uus tööleht" ja klõpsake "OK".

Hankige antud probleemi jaoks regressioonianalüüs.

Tulemuste uurimine ja järeldused

"Kogume" regressioonivõrrandi ülaltoodud Exceli tabelis esitatud ümardatud andmetest:

SP = 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Tuntumal matemaatilisel kujul võib selle kirjutada järgmiselt:

y = 0,103 * x 1 + 0,541 * x 2 - 0,031 * x 3 + 0,405 * x 4 + 0,691 * x 5 - 265,844

MMM JSC andmed on esitatud tabelis:

Asendades need regressioonivõrrandisse, saame arvuks 64,72 miljonit USA dollarit. See tähendab, et MMM JSC aktsiaid ei tasu osta, kuna nende väärtus 70 miljonit USA dollarit on üsna paisutatud.

Nagu näha, võimaldas Exceli tabeli ja regressioonivõrrandi kasutamine teha teadliku otsuse väga konkreetse tehingu teostatavuse osas.

Nüüd teate, mis on regressioon. Eespool käsitletud Exceli näited aitavad teil lahendada ökonomeetria valdkonna praktilisi probleeme.

Regressiooni mõiste. Muutujate vaheline sõltuvus x Ja y saab kirjeldada erineval viisil. Eelkõige saab mis tahes seose vormi väljendada üldvõrrandiga, kus y käsitletakse sõltuva muutujana või funktsioonid teisest - sõltumatu muutuja x, mida nimetatakse argument. Argumendi ja funktsiooni vastavust saab määrata tabeli, valemi, graafiku vms abil. Funktsiooni muutmine olenevalt ühe või mitme argumendi muutumisest kutsutakse välja regressioon. Kõik korrelatsioonide kirjeldamiseks kasutatavad vahendid moodustavad sisu regressioonianalüüs.

Regressiooni väljendamiseks kasutatakse korrelatsioonivõrrandeid ehk regressioonivõrrandeid, empiirilisi ja teoreetiliselt arvutatud regressiooniridu, nende graafikuid, mida nimetatakse regressioonijoonteks, samuti lineaarseid ja mittelineaarseid regressioonikordajaid.

Regressiooninäitajad väljendavad korrelatsioonisuhet kahepoolselt, võttes arvesse tunnuse keskmiste väärtuste muutusi Y väärtuste muutmisel x i märk X ja vastupidi, näitavad tunnuse keskmiste väärtuste muutust X vastavalt muutunud väärtustele y i märk Y. Erandiks on aegread ehk aegread, mis näitavad tunnuste muutusi aja jooksul. Selliste seeriate regressioon on ühepoolne.

Korrelatsioonidel on palju erinevaid vorme ja tüüpe. Ülesanne taandub igal konkreetsel juhul seose vormi tuvastamisele ja selle väljendamisele vastava korrelatsioonivõrrandiga, mis võimaldab ette näha võimalikke muutusi ühes tunnuses Y põhineb teadaolevatel muutustel teises X, mis on seotud esimesega korrelatsiooniliselt.

12.1 Lineaarne regressioon

Regressioonivõrrand. Konkreetse bioloogilise objektiga tehtud vaatluste tulemused korrelatsiooniomaduste põhjal x Ja y, saab esitada punktidega tasapinnal, konstrueerides ristkülikukujuliste koordinaatide süsteemi. Tulemuseks on omamoodi hajuvusdiagramm, mis võimaldab hinnata erinevate omaduste vahelise seose vormi ja lähedust. Üsna sageli näeb see suhe välja nagu sirgjoon või seda saab ligikaudselt võrrelda sirgjoonega.

Lineaarne seos muutujate vahel x Ja y kirjeldatakse üldvõrrandiga, kus a, b, c, d,... – võrrandi parameetrid, mis määravad argumentidevahelised seosed x 1 , x 2 , x 3 , …, x m ja funktsioonid.

Praktikas ei võeta arvesse kõiki võimalikke argumente, vaid ainult mõnda argumenti, kõige lihtsamal juhul ainult ühte:

Lineaarse regressiooni võrrandis (1) a on vaba termin ja parameeter b määrab regressioonijoone kalde ristkülikukujuliste koordinaattelgede suhtes. Analüütilises geomeetrias nimetatakse seda parameetrit kalle ja biomeetrias – regressioonikoefitsient. Selle parameetri visuaalne esitus ja regressioonijoonte asukoht Y Kõrval X Ja X Kõrval Y ristkülikukujulises koordinaatsüsteemis annab joonis 1.

Riis. 1 Y regressioonisirge X-ga ja X-i Y-ga süsteemis

ristkülikukujulised koordinaadid

Regressioonijooned, nagu on näidatud joonisel 1, lõikuvad punktis O (,), mis vastavad üksteisega korrelatsioonis olevate tunnuste aritmeetilistele keskmistele väärtustele Y Ja X. Regressioonigraafikute koostamisel kantakse sõltumatu muutuja X väärtused piki abstsisstellge ja sõltuva muutuja ehk funktsiooni Y väärtused piki ordinaattelge. Sirge AB läbib punkti O (, ) vastab muutujatevahelisele täielikule (funktsionaalsele) seosele Y Ja X, kui korrelatsioonikordaja . Mida tugevam on seos Y Ja X, mida lähemal on regressioonisirge AB-le ja vastupidi, mida nõrgem on seos nende suuruste vahel, seda kaugemal on regressioonisirge AB-st. Kui tunnuste vahel seos puudub, on regressioonijooned üksteise suhtes täisnurga all ja .

Kuna regressiooninäitajad väljendavad korrelatsiooni kahepoolselt, tuleks regressioonivõrrand (1) kirjutada järgmiselt:

Esimene valem määrab karakteristiku muutumisel keskmised väärtused X mõõtühiku kohta, teise jaoks - keskmised väärtused atribuudi ühe mõõtühiku võrra muutmisel Y.

Regressioonikoefitsient. Regressioonikordaja näitab, kui palju on keskmiselt ühe tunnuse väärtus y muutub, kui teise mõõt, mis on korrelatsioonis, muutub ühe võrra Y märk X. See näitaja määratakse valemiga

Siin on väärtused s korrutatuna klassivahede suurusega λ , kui need leiti variatsioonisarjadest või korrelatsioonitabelitest.

Regressioonikordaja saab arvutada ilma keskmisi arvutamata ruudu kõrvalekalded s y Ja s x valemi järgi

Kui korrelatsioonikordaja on teadmata, määratakse regressioonikordaja järgmiselt:

Regressiooni- ja korrelatsioonikordajate seos. Võrreldes valemeid (11.1) (teema 11) ja (12.5), näeme: nende lugejal on sama väärtus, mis näitab seost nende näitajate vahel. Seda suhet väljendab võrdsus

Seega on korrelatsioonikordaja võrdne koefitsientide geomeetrilise keskmisega b yx Ja b xy. Valem (6) võimaldab esiteks regressioonikoefitsientide teadaolevate väärtuste põhjal b yx Ja b xy määrata regressioonikordaja R xy ja teiseks kontrollige selle korrelatsiooninäitaja arvutuse õigsust R xy erinevate omaduste vahel X Ja Y.

Sarnaselt korrelatsioonikoefitsiendiga iseloomustab regressioonikordaja ainult lineaarset seost ja sellega kaasneb positiivse seose pluss ja negatiivse seose miinusmärk.

Lineaarse regressiooni parameetrite määramine. On teada, et hälvete ruudu summa on variant x i keskmisest on väikseim väärtus, st see teoreem on vähimruutude meetodi aluseks. Lineaarse regressiooni kohta [vt valem (1)] selle teoreemi nõude rahuldab teatud võrrandisüsteem, mida nimetatakse normaalne:

Nende võrrandite ühislahendus parameetrite suhtes a Ja b viib järgmiste tulemusteni:

;

;

, kust ja.

Arvestades muutujatevahelise seose kahepoolset iseloomu Y Ja X, parameetri määramise valem A tuleks väljendada järgmiselt:

Ja . (7)

Parameeter b, või regressioonikordaja, määratakse järgmiste valemitega:

Empiirilise regressioonirea konstrueerimine. juuresolekul suur number vaatlustest algab regressioonianalüüs empiiriliste regressiooniridade konstrueerimisega. Empiiriline regressioonirea moodustatakse ühe muutuva tunnuse väärtuste arvutamisel X teise keskmised väärtused, mis on korrelatsioonis X märk Y. Teisisõnu taandub empiiriliste regressiooniridade konstrueerimine tunnuste Y ja X vastavate väärtuste põhjal rühma keskmiste leidmisele.

Empiiriline regressioonirida on topeltarvude jada, mida saab esitada tasapinna punktidega ja seejärel, ühendades need punktid sirge lõikudega, saab empiirilise regressioonisirge. Empiirilised regressiooniread, eriti nende graafikud, nn regressioonijooned, annavad selge ettekujutuse erinevate tunnuste vahelise korrelatsiooni vormist ja tihedusest.

Empiirilise regressiooniridade joondamine. Empiiriliste regressiooniridade graafikud ei osutu reeglina siledateks, vaid katkendlikeks joonteks. Seda seletatakse asjaoluga, et lisaks peamistele põhjustele, mis määravad korrelatsiooninäitajate varieeruvuse üldise mustri, mõjutavad nende suurust arvukad sekundaarsed põhjused, mis põhjustavad regressiooni sõlmpunktides juhuslikke kõikumisi. Korreleeruvate tunnuste konjugeeritud variatsiooni peamise tendentsi (trendi) tuvastamiseks on vaja katkendjooned asendada sujuvate, sujuvalt jooksvate regressioonijoontega. Katkendunud joonte siledatega asendamise protsessi nimetatakse empiiriliste seeriate joondamine Ja regressioonijooned.

Graafiline joondusmeetod. See on kõige lihtsam meetod, mis ei nõua arvutustööd. Selle olemus taandub järgmisele. Empiiriline regressiooniseeria on kujutatud graafikuna ristkülikukujulises koordinaatsüsteemis. Seejärel visatakse visuaalselt välja regressiooni keskpunktid, mida mööda tõmmatakse joonlaua või mustriga pidev joon. Selle meetodi puudus on ilmne: see ei välista uurija individuaalsete omaduste mõju empiiriliste regressioonijoonte joondamise tulemustele. Seetõttu juhtudel, kui on vaja rohkem kõrge täpsus Katkeste regressioonijoonte asendamisel siledatega kasutatakse empiiriliste seeriate joondamiseks muid meetodeid.

Liikuva keskmise meetod. Selle meetodi olemus taandub empiirilise seeria kahe või kolme kõrvuti asetseva liikme aritmeetiliste keskmiste järjestikusele arvutamisele. See meetod on eriti mugav juhtudel, kui empiiriline seeria on esindatud suure hulga terminitega, nii et nende kahe - äärmuslike - kaotamine, mis on selle joondusmeetodi puhul vältimatu, ei mõjuta selle struktuuri märgatavalt.

Vähima ruudu meetod. Selle meetodi pakkus 19. sajandi alguses välja A.M. Legendre ja temast sõltumatult K. Gauss. See võimaldab teil empiirilisi seeriaid kõige täpsemalt joondada. See meetod, nagu ülal näidatud, põhineb eeldusel, et kõrvalekallete ruudu summa on valik x i nende keskmisest on minimaalne väärtus, s.t siit ka meetodi nimetus, mida kasutatakse mitte ainult ökoloogias, vaid ka tehnoloogias. Vähimruutude meetod on objektiivne ja universaalne, seda kasutatakse väga erinevatel juhtudel regressiooniridade empiiriliste võrrandite leidmisel ja nende parameetrite määramisel.

Vähimruutude meetodi nõue on, et regressioonisirge teoreetilised punktid tuleb saada nii, et empiiriliste vaatluste jaoks oleks nendest punktidest kõrvalekallete ruudu summa. y i oli minimaalne, st.

Arvutades selle avaldise miinimumi vastavalt matemaatilise analüüsi põhimõtetele ja teisendades seda teatud viisil, võib saada süsteemi nn. normaalvõrrandid, milles tundmatud väärtused on regressioonivõrrandi nõutavad parameetrid ja teadaolevad koefitsiendid määratakse tunnuste empiiriliste väärtustega, tavaliselt nende väärtuste ja nende ristkorrutistega.

Mitmekordne lineaarne regressioon. Mitme muutuja vahelist seost väljendatakse tavaliselt mitmekordse regressioonivõrrandiga, mis võib olla lineaarne Ja mittelineaarne. Lihtsamal kujul väljendatakse mitmekordset regressiooni võrrandina kahe sõltumatu muutujaga ( x, z):

Kus a– võrrandi vaba liige; b Ja c– võrrandi parameetrid. Võrrandi (10) parameetrite leidmiseks (kasutades vähimruutude meetodit) kasutatakse järgmist normaalvõrrandi süsteemi:

Dünaamiline seeria. Ridade joondamine. Tunnuste muutused ajas moodustavad nn aegrida või dünaamika seeria. Sellistele seeriatele on iseloomulik, et sõltumatu muutuja X on siin alati ajategur ja sõltuv muutuja Y on muutuv tunnus. Sõltuvalt regressioonireast on muutujate X ja Y seos ühepoolne, kuna ajategur ei sõltu tunnuste muutlikkusest. Vaatamata nendele omadustele saab dünaamika seeriaid võrrelda regressiooniridadega ja töödelda samade meetoditega.

Nagu regressiooniread, nii ka dünaamika empiirilistel jadatel on mitte ainult peamiste, vaid ka arvukate sekundaarsete (juhuslike) tegurite mõju, mis varjavad tunnuste varieeruvuse peamist trendi, mida statistika keeles nimetatakse nn. trend.

Aegridade analüüs algab trendi kuju tuvastamisest. Selleks on aegrida kujutatud joongraafikuna ristkülikukujulises koordinaatsüsteemis. Sel juhul kantakse ajapunktid (aastad, kuud ja muud ajaühikud) piki abstsisstellge ning sõltuva muutuja Y väärtused piki ordinaattelge. Kui muutujate X vahel on lineaarne seos ja Y (lineaarne trend), aegridade joondamiseks on kõige sobivam vähimruutude meetod on regressioonivõrrand sõltuva muutuja Y jada liikmete kõrvalekallete kujul sõltumatu jada aritmeetilisest keskmisest. muutuja X:

Siin on lineaarse regressiooni parameeter.

Dünaamika ridade arvkarakteristikud. Dünaamikaseeriate peamised üldistavad numbrilised omadused hõlmavad järgmist geomeetriline keskmine ja sellele lähedane aritmeetiline keskmine. Need iseloomustavad keskmist kiirust, millega sõltuva muutuja väärtus teatud ajavahemike jooksul muutub:

Dünaamika seeria liikmete muutlikkuse hindamine on standardhälve. Aegridade kirjeldamiseks regressioonivõrrandite valimisel võetakse arvesse trendi kuju, mis võib olla lineaarne (või taandatud lineaarseks) ja mittelineaarne. Regressioonivõrrandi valiku õigsust hinnatakse tavaliselt empiiriliselt vaadeldava ja teie arvväärtusi sõltuv muutuja. Selle probleemi täpsem lahendus on dispersioonanalüüsi regressioonmeetod (teema 12, lõige 4).

Aegridade korrelatsioon. Sageli on vaja võrrelda paralleelsete aegridade dünaamikat, mis on omavahel seotud teatud üldtingimustega, näiteks selleks, et selgitada välja seos põllumajandusliku tootmise ja kariloomade arvu kasvu vahel teatud aja jooksul. Sellistel juhtudel on muutujate X ja Y vahelise seose tunnuseks korrelatsioonikordaja R xy (lineaarse trendi olemasolul).

On teada, et aegridade trendi varjavad reeglina sõltuva muutuja Y jadade kõikumised. Sellest tuleneb kahekordne probleem: võrreldavate seeriate vahelise sõltuvuse mõõtmine, trendi välja jätmata, ja sõltuvuse mõõtmine sõltuvus sama seeria naaberliikmete vahel, välja arvatud trend. Esimesel juhul on võrreldavate aegridade vahelise seose tiheduse näitaja korrelatsioonikordaja(kui seos on lineaarne), teises – autokorrelatsiooni koefitsient. Nendel näitajatel on erinev tähendus, kuigi nende arvutamisel kasutatakse samu valemeid (vt teemat 11).

On hästi näha, et autokorrelatsioonikordaja väärtust mõjutab sõltuva muutuja seerialiikmete varieeruvus: mida vähem seeria liikmed trendist kõrvale kalduvad, seda suurem on autokorrelatsioonikordaja ja vastupidi.

Andmeanalüüsi alused.

Tüüpiline praktikas ilmnev probleem on muutujate vaheliste sõltuvuste või seoste tuvastamine. IN päris elu muutujad on omavahel seotud. Näiteks turunduses mõjutab müüki reklaamile kulutatud raha hulk; meditsiiniliste uuringute annuses ravimtoode mõjutab mõju; tekstiilitootmises sõltub kanga värvimise kvaliteet temperatuurist, niiskusest ja muudest parameetritest; metallurgias sõltub terase kvaliteet spetsiaalsetest lisanditest jne. Andmetes sõltuvuste leidmine ja oma eesmärkidel kasutamine on andmeanalüüsi ülesanne.

Oletame, et jälgite muutujapaari X ja Y väärtusi ja soovite leida nendevahelise seose. Näiteks:

X - veebipoe külastajate arv, Y - müügimaht;

X - plasmapaneeli diagonaal, Y - hind;

X on aktsia ostuhind, Y on müügihind;

X on alumiiniumi hind Londoni börsil, Y on müügimahud;

X - naftajuhtmete purunemiste arv, Y - kadude suurus;

X on lennuki "vanus", Y on selle remondi maksumus;

X - müügipind, Y - kaupluse käive;

X on sissetulek, Y on tarbimine jne.

Muutujat X nimetatakse tavaliselt sõltumatuks muutujaks, muutujat Y sõltuvaks muutujaks. Mõnikord nimetatakse muutujat X ennustajaks, muutujat Y vastuseks.



Tahame täpselt määrata sõltuvuse X-st või ennustada, millised on Y väärtused antud X väärtuste korral. Sel juhul jälgime X väärtusi ja vastavaid Y väärtusi. Ülesandeks on koostada mudel, mis võimaldab määrata Y X väärtustest, mis erinevad vaadeldavatest. Statistikas lahendatakse sellised probleemid raamistikus regressioonianalüüs.

Regressioonimudeleid on erinevaid, mille määrab funktsiooni valik f(x1,x2,…,xm):

1) Lihtne lineaarne regressioon

2) Mitmekordne regressioon

3) Polünoomi regressioon

Koefitsiendid nimetatakse regressiooniparameetriteks.

Regressioonanalüüsi põhiomadus: selle abil saate konkreetset teavet selle kohta, mis vormis ja olemuses on uuritavate muutujate omavaheline seos.

Regressioonanalüüsi etappide järjestus

1. Probleemi sõnastamine. Selles etapis kujundatakse esialgsed hüpoteesid uuritavate nähtuste sõltuvuse kohta.

2. Sõltuvate ja sõltumatute (selgitavate) muutujate defineerimine.

3. Statistiliste andmete kogumine. Andmeid tuleb koguda iga regressioonimudelis sisalduva muutuja kohta.

4. Hüpoteesi püstitamine seose vormi kohta (lihtne või mitmekordne, lineaarne või mittelineaarne).

5. Regressioonifunktsiooni määramine (koosneb regressioonivõrrandi parameetrite arvväärtuste arvutamisest)

6. Regressioonanalüüsi täpsuse hindamine.

7. Saadud tulemuste tõlgendamine. Saadud regressioonanalüüsi tulemusi võrreldakse esialgsete hüpoteesidega. Hinnatakse saadud tulemuste õigsust ja usaldusväärsust.

8. Sõltuva muutuja tundmatute väärtuste ennustamine.

Regressioonanalüüsi kasutades on võimalik lahendada prognoosimise ja klassifitseerimise probleem. Prognoositud väärtused arvutatakse seletavate muutujate väärtuste asendamisega regressioonivõrrandisse. Klassifitseerimisülesanne lahendatakse nii: regressioonisirge jagab kogu objektide komplekti kahte klassi ja see osa hulgast, kus funktsiooni väärtus on suurem kui null, kuulub ühte klassi ja see osa, kus see on nullist väiksem. kuulub teise klassi.

Regressioonanalüüsi peamised ülesanded: sõltuvuse vormi kindlaksmääramine, regressioonifunktsiooni määramine, sõltuva muutuja tundmatute väärtuste hindamine.

Lineaarne regressioon

Lineaarne regressioon taandub vormi võrrandi leidmiseks

Või . (1.1)

x- nimetatakse sõltumatuks muutujaks või ennustajaks.

Y– sõltuv või vastuse muutuja. See on väärtus, mida me ootame y(keskmiselt), kui väärtust teame x, st. on "ennustatud väärtus" y»

· a– hindamisliini vaba tähtaeg (ristmik); see on tähendus Y, Millal x=0(joonis 1).

· b– hinnangulise joone kalle või gradient; see tähistab summat, mille võrra Y suureneb keskmiselt, kui me suurendame xühe ühiku kohta.

· a Ja b nimetatakse hinnangulise rea regressioonikordajateks, kuigi seda terminit kasutatakse sageli ainult b.

· e- mittejälgitavad juhuslikud suurused keskmisega 0 või neid nimetatakse ka vaatlusvigadeks, eeldatakse, et vead ei ole omavahel korrelatsioonis.

Joonis 1. Lineaarne regressioonijoon, mis näitab lõikepunkti a ja kallet b (summa Y suureneb, kui x suureneb ühe ühiku võrra)

Vormirõrrand võimaldab teguri antud väärtusi X neil on saadud karakteristiku teoreetilised väärtused, asendades sellega teguri tegelikud väärtused X. Graafikul kujutavad teoreetilised väärtused regressioonijoont.

Enamikul juhtudel (kui mitte alati) esineb regressioonijoone suhtes teatud vaatluste hajumine.

Teoreetiline regressioonisirge on joon, mille ümber on rühmitatud korrelatsioonivälja punktid ja mis näitab ühenduse põhisuunda, põhitendentsi.

Regressioonanalüüsi oluliseks etapiks on funktsiooni tüübi määramine, millega karakteristikute vahelist sõltuvust iseloomustatakse. Võrranditüübi valiku põhialuseks peaks olema uuritava sõltuvuse olemuse ja selle mehhanismi sisukas analüüs.

Parameetrite leidmiseks A Ja b kasutame regressioonivõrrandeid vähimruutude meetod (LSM). Vähimruutude meetodi rakendamisel funktsiooni leidmiseks, mis parim viis vastab empiirilistele andmetele, arvatakse, et teoreetilisest regressioonijoonest empiiriliste punktide hälvete (ülejääk) ruudu summa peaks olema minimaalne väärtus.

Sobivust hinnatakse jääkide järgi (iga punkti vertikaalne kaugus joonest, nt jääk = vaadeldud y– ennustas y, Riis. 2).

Parima sobivuse rida valitakse nii, et jääkide ruutude summa oleks minimaalne.

Riis. 2. Lineaarne regressioonijoon iga punkti jääkidega (vertikaalsed punktiirjooned).

Pärast lihtsaid teisendusi saame parameetrite väärtuste määramiseks vähimruutude meetodil normaalvõrrandite süsteemi a Ja b empiirilistel andmetel põhinevad lineaarsed korrelatsioonivõrrandid:

. (1.2)

Otsustades see süsteem võrrandid b, saame selle parameetri määramiseks järgmise valemi:

(1.3)

Kus ja on y, x keskmised väärtused.

Parameetri väärtus A saame, kui jagame selle süsteemi esimese võrrandi mõlemad pooled arvuga n:

Parameeter b võrrandis nimetatakse regressioonikordajaks. Kui on olemas otsene korrelatsioon, on regressioonikoefitsiendil positiivne väärtus, ja pöördvõrdelise seose korral on regressioonikordaja negatiivne.

Kui regressioonikordaja märk on positiivne, on seos sõltuva muutuja ja sõltumatu muutuja vahel positiivne.

Kui regressioonikordaja märk on negatiivne, on sõltuva muutuja ja sõltumatu muutuja vaheline seos negatiivne (pöördvõrdeline).

Regressioonikordaja näitab, kui palju muutub saadud tunnuse väärtus keskmiselt y kui teguri tunnus muutub Xühiku kohta on geomeetriline regressioonikordaja korrelatsioonivõrrandit kujutava sirge kalle telje suhtes X(võrrandi jaoks).

Lineaarse seose tõttu ja me eeldame, et see muutub kujul , ja me nimetame seda variatsiooniks, mis on tingitud või seletatav regressiooniga. Jääkvariatsioon peaks olema võimalikult väike.

Kui see on tõsi, siis on suurem osa variatsioonist seletatav regressiooniga ja punktid asuvad regressioonijoone lähedal, st. rida sobib andmetega hästi.

Juhuslike suuruste X ja Y vahelise lineaarse sõltuvuse astme kvantitatiivne tunnus on korrelatsioonikordaja r ( Kahe tunnuse vahelise seose läheduse näitaja ) .

Korrelatsioonikoefitsient:

kus x on faktori tunnuse väärtus;

y - saadud atribuudi väärtus;

n - andmepaaride arv.


Joonis 3 – punktide “pilve” asukoha valikud

Kui korrelatsioonikordaja r = 1, siis vahel X Ja Y on funktsionaalne lineaarne seos, kõik punktid (x i, y i) asub sirgjoonel.

Kui korrelatsioonikordaja r = 0 (r ~ 0), siis nad ütlevad seda X Ja Y korreleerimata, st. nende vahel pole lineaarset seost.

Märkide vaheline seos (Chaddocki skaalal) võib olla tugev, keskmine ja nõrk . Ühenduse tiheduse määrab korrelatsioonikordaja väärtus, mis võib võtta väärtusi vahemikus -1 kuni +1 (kaasa arvatud). Ühenduse tiheduse hindamise kriteeriumid on näidatud joonisel fig. 1.

Riis. 4. Kvantitatiivsed kriteeriumid suhtluse läheduse hindamiseks

Igasugusel muutujatevahelisel seosel on kaks olulist omadust: suurusjärk ja usaldusväärsus. Mida tugevam on seos kahe muutuja vahel, seda suurem on seose suurus ja seda lihtsam on ennustada ühe muutuja väärtust teise muutuja väärtusest. Sõltuvuse suurust on lihtsam mõõta kui usaldusväärsust.

Sõltuvuse usaldusväärsus pole vähem oluline kui selle suurus. See omadus on seotud uuritava valimi esinduslikkusega. Seose usaldusväärsus iseloomustab seda, kui tõenäoline on, et see seos muude andmete põhjal uuesti leitakse.

Muutujate sõltuvuse suuruse kasvades suureneb tavaliselt ka selle usaldusväärsus.

Regressiooniga seletatavat kogudispersiooni osakaalu nimetatakse määramiskoefitsient, väljendatakse tavaliselt protsentides ja tähistatakse R 2(paaris lineaarses regressioonis on see suurus r 2, korrelatsioonikordaja ruut), võimaldab subjektiivselt hinnata regressioonivõrrandi kvaliteeti.

Determinatsioonikordaja mõõdab dispersiooni osakaalu keskmise ümber, mis on konstrueeritud regressiooniga "seletatud". Determinatsioonikoefitsient jääb vahemikku 0 kuni 1. Mida lähemal on determinantkoefitsient 1-le, seda paremini “selgitab” regressioon andmete sõltuvust, nullilähedane väärtus tähendab konstrueeritud mudeli halba kvaliteeti. Determinatsioonikoefitsient võib olla võimalikult lähedane 1-le, kui kõik ennustajad on erinevad.

Erinevus näitab dispersiooni protsenti, mida ei saa regressiooniga seletada.

Mitmekordne regressioon

Mitmekordset regressiooni kasutatakse olukordades, kus paljudest efektiivset atribuuti mõjutavatest teguritest ei ole võimalik välja tuua ühte domineerivat tegurit ning on vaja arvestada mitme teguri mõjuga. Näiteks väljundi mahu määrab põhi- ja käibekapitali, personali arv, juhtkonna tase jne, nõudluse tase ei sõltu mitte ainult hinnast, vaid ka elanikkonna käsutuses olevatest vahenditest.

Mitmekordse regressiooni põhieesmärk on koostada mitme teguriga mudel ja määrata iga teguri mõju eraldi, samuti nende ühine mõju uuritavale näitajale.

Mitmikregressioon on mitme sõltumatu muutujaga seosvõrrand:

Õpingute ajal puutuvad õpilased väga sageli kokku mitmesuguste võrranditega. Ühte neist – regressioonivõrrandit – käsitletakse käesolevas artiklis. Seda tüüpi võrrandit kasutatakse spetsiaalselt matemaatiliste parameetrite vahelise seose omaduste kirjeldamiseks. Seda tüüpi võrdusi kasutatakse statistikas ja ökonomeetrias.

Regressiooni definitsioon

Matemaatikas tähendab regressioon teatud suurust, mis kirjeldab andmekogumi keskmise väärtuse sõltuvust teise suuruse väärtustest. Regressioonivõrrand näitab konkreetse tunnuse funktsioonina teise tunnuse keskmist väärtust. Regressioonifunktsioonil on vorm lihtne võrrand y = x, milles y toimib sõltuva muutujana ja x sõltumatu muutujana (tunnustegur). Tegelikult väljendatakse regressiooni kujul y = f (x).

Millised on muutujatevahelised seosed?

Üldiselt on kaks vastandlikku tüüpi suhteid: korrelatsioon ja regressioon.

Esimest iseloomustab tingimuslike muutujate võrdsus. Sel juhul pole usaldusväärselt teada, milline muutuja teisest sõltub.

Kui muutujate vahel puudub võrdsus ja tingimused ütlevad, milline muutuja on seletav ja milline sõltuv, siis saame rääkida teist tüüpi seose olemasolust. Lineaarse regressioonivõrrandi koostamiseks on vaja välja selgitada, millist tüüpi seost täheldatakse.

Regressioonide tüübid

Tänapäeval on 7 erinevat regressiooni tüüpi: hüperboolne, lineaarne, mitmekordne, mittelineaarne, paariline, pöördvõrdeline, logaritmiliselt lineaarne.

Hüperboolne, lineaarne ja logaritmiline

Lineaarse regressiooni võrrandit kasutatakse statistikas võrrandi parameetrite selgeks selgitamiseks. Näib, et y = c+t*x+E. Hüperboolsel võrrandil on regulaarne hüperbool y = c + m / x + E. Logaritmiliselt lineaarne võrrand väljendab seost logaritmilise funktsiooni abil: In y = In c + m * In x + In E.

Mitu ja mittelineaarne

Kaks veel keerulised tüübid Regressioon on mitmekordne ja mittelineaarne. Mitmekordse regressiooni võrrandit väljendab funktsioon y = f(x 1, x 2 ... x c) + E. Selles olukorras toimib y sõltuva muutujana ja x selgitava muutujana. Muutuja E on stohhastiline, see hõlmab võrrandi teiste tegurite mõju. Mittelineaarse regressiooni võrrand on pisut vastuoluline. Ühest küljest ei ole see arvesse võetud näitajate suhtes lineaarne, kuid teisest küljest on see näitajate hindamise rollis lineaarne.

Regressioonide pöörd- ja paaristüübid

Pöördfunktsioon on teatud tüüpi funktsioon, mis tuleb teisendada lineaarseks vormiks. Kõige traditsioonilisemates rakendusprogrammides on see funktsiooni kujul y = 1/c + m*x+E. Paaripõhine regressioonivõrrand näitab andmete vahelist seost funktsioonina y = f (x) + E. Nii nagu teistes võrrandites, sõltub y x-st ja E on stohhastiline parameeter.

Korrelatsiooni mõiste

See on näitaja, mis näitab seose olemasolu kahe nähtuse või protsessi vahel. Seose tugevust väljendatakse korrelatsioonikordajana. Selle väärtus kõigub vahemikus [-1;+1]. Negatiivne indikaator näitab olemasolu tagasisidet, positiivne - umbes sirge. Kui koefitsiendi väärtus on 0, siis seost ei ole. Mida lähemal on väärtus 1-le, seda tugevam on seos parameetrite vahel; mida lähemal 0-le, seda nõrgem see on.

meetodid

Parameetriliste korrelatsioonimeetoditega saab hinnata seose tugevust. Neid kasutatakse jaotuse hinnangu alusel normaaljaotuse seadusele alluvate parameetrite uurimiseks.

Lineaarse regressioonivõrrandi parameetrid on vajalikud sõltuvuse tüübi, regressioonivõrrandi funktsiooni tuvastamiseks ja valitud seose valemi näitajate hindamiseks. Ühenduse tuvastamise meetodina kasutatakse korrelatsioonivälja. Selleks tuleb kõik olemasolevad andmed graafiliselt kujutada. Kõik teadaolevad andmed tuleb joonistada ristkülikukujulises kahemõõtmelises koordinaatsüsteemis. Nii moodustub korrelatsiooniväli. Kirjeldava teguri väärtused on märgitud piki abstsisstellge, sõltuva teguri väärtused aga piki ordinaattelge. Kui parameetrite vahel on funktsionaalne seos, reastatakse need joonena.

Kui selliste andmete korrelatsioonikordaja on alla 30%, võime rääkida peaaegu täielikust ühenduse puudumisest. Kui see on vahemikus 30% kuni 70%, näitab see keskmise tihedusega ühenduste olemasolu. 100% indikaator näitab funktsionaalset ühendust.

Mittelineaarset regressioonivõrrandit, nagu ka lineaarset, tuleb täiendada korrelatsiooniindeksiga (R).

Korrelatsioon mitme regressiooni korral

Determinatsioonikordaja on mitmekordse korrelatsiooni ruudu näitaja. Ta räägib esitatud näitajate kogumi tihedast seosest uuritava tunnusega. See võib rääkida ka parameetrite mõju olemusest tulemusele. Mitmekordse regressiooni võrrandit hinnatakse selle indikaatori abil.

Mitmekordse korrelatsiooni indikaatori arvutamiseks on vaja arvutada selle indeks.

Vähima ruudu meetod

See meetod on regressioonitegurite hindamise viis. Selle olemus on minimeerida teguri funktsiooni sõltuvuse tulemusena saadud hälvete ruudu summat.

Sellist meetodit kasutades saab hinnata paarikaupa lineaarset regressioonivõrrandit. Seda tüüpi võrrandeid kasutatakse siis, kui indikaatorite vahel tuvastatakse paariline lineaarne seos.

Võrrandi parameetrid

Lineaarse regressioonifunktsiooni igal parameetril on konkreetne tähendus. Paariline lineaarse regressiooni võrrand sisaldab kahte parameetrit: c ja m. Parameeter m näitab funktsiooni y lõppnäitaja keskmist muutust eeldusel, et muutuja x väheneb (suureneb) ühe kokkuleppelise ühiku võrra. Kui muutuja x on null, on funktsioon võrdne parameetriga c. Kui muutuja x ei ole null, siis tegur c ei kanna majanduslik mõte. Ainus mõju funktsioonile on märk teguri c ees. Kui on miinus, siis võib öelda, et tulemuse muutus on teguriga võrreldes aeglane. Kui pluss on, näitab see tulemuse kiirendatud muutust.

Iga parameetrit, mis muudab regressioonivõrrandi väärtust, saab väljendada võrrandi kaudu. Näiteks tegur c on kujul c = y - mx.

Grupeeritud andmed

On ülesande tingimusi, milles kogu teave on rühmitatud atribuudi x järgi, kuid teatud rühma jaoks on näidatud sõltuva indikaatori vastavad keskmised väärtused. Sel juhul iseloomustavad keskmised väärtused seda, kuidas x-st sõltuv indikaator muutub. Seega aitab rühmitatud info leida regressioonivõrrandit. Seda kasutatakse suhete analüüsina. Sellel meetodil on aga omad puudused. Kahjuks on keskmised näitajad sageli allutatud välistele kõikumistele. Need kõikumised ei peegelda suhte mustrit; nad lihtsalt varjavad selle "müra". Keskmised näitavad seoste mustreid palju halvemini kui lineaarse regressiooni võrrand. Neid saab aga võtta aluseks võrrandi leidmisel. Korrutades üksikpopulatsiooni arvu vastava keskmisega, saab rühmasisese summa y. Järgmiseks tuleb kõik saadud summad kokku liita ja leida lõplik näitaja y. Natuke keerulisem on arvutusi teha summanäitaja xy abil. Kui intervallid on väikesed, võime tinglikult võtta kõigi ühikute (grupi sees) x indikaatori ühesuguseks. Korrutage see y summaga, et teada saada x ja y korrutised. Järgmisena liidetakse kõik summad kokku ja saadakse kogusumma xy.

Mitme paarikaupa regressioonivõrrand: suhte tähtsuse hindamine

Nagu varem mainitud, on mitmekordse regressiooni funktsioon kujul y = f (x 1,x 2,…,x m)+E. Kõige sagedamini kasutatakse sellist võrrandit toote nõudluse ja pakkumise, tagasiostetud aktsiate intressitulu probleemi lahendamiseks ning tootmiskulude funktsiooni põhjuste ja tüübi uurimiseks. Seda kasutatakse aktiivselt ka mitmesugustes makromajanduslikes uuringutes ja arvutustes, kuid mikroökonoomika tasandil kasutatakse seda võrrandit veidi harvemini.

Mitmekordse regressiooni põhiülesanne on koostada tohutul hulgal teavet sisaldav andmemudel, et täpsemalt määrata, milline on iga teguri mõju individuaalselt ja tervikuna modelleeritavale näitajale ja selle koefitsientidele. Regressioonivõrrand võib võtta väga erinevaid väärtusi. Sel juhul kasutatakse seose hindamiseks tavaliselt kahte tüüpi funktsioone: lineaarset ja mittelineaarset.

Lineaarfunktsiooni on kujutatud järgmise seose kujul: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. Sel juhul loetakse a2, a m "puhtaks" regressioonikoefitsiendiks. Need on vajalikud parameetri y keskmise muutuse iseloomustamiseks iga vastava parameetri x muutusega (vähenemine või suurenemine) ühe ühiku võrra, teiste näitajate stabiilsete väärtuste tingimusel.

Mittelineaarsetel võrranditel on näiteks vorm toitefunktsioon y=ax 1 b1 x 2 b2 ...x m bm . Sel juhul nimetatakse näitajaid b 1, b 2 ..... b m elastsuskordajateks, need näitavad, kuidas tulemus muutub (kui palju%) vastava näitaja x suurenemisel (vähenemisel) 1% võrra ja muude tegurite stabiilse näitajaga.

Milliseid tegureid tuleb mitmekordse regressiooni koostamisel arvesse võtta

Et õigesti ehitada mitmekordne regressioon, tuleb välja selgitada, millistele teguritele tuleks erilist tähelepanu pöörata.

Vaja on omada mõningast arusaamist vaheliste suhete olemusest majanduslikud tegurid ja modelleeritud. Kaasatavad tegurid peavad vastama järgmistele kriteeriumidele:

  • Peab alluma kvantitatiivsele mõõtmisele. Objekti kvaliteeti kirjeldava teguri kasutamiseks tuleks sellele igal juhul anda kvantitatiivne vorm.
  • Ei tohiks olla tegurite vastastikust korrelatsiooni ega funktsionaalset seost. Sellised toimingud põhjustavad enamasti pöördumatuid tagajärgi - tavaliste võrrandite süsteem muutub tingimusteta ja see toob kaasa selle ebausaldusväärsuse ja ebaselged hinnangud.
  • Hiiglasliku korrelatsiooninäitaja puhul ei ole võimalik välja selgitada tegurite isoleeritud mõju näitaja lõpptulemusele, mistõttu muutuvad koefitsiendid tõlgendamatuks.

Ehitusmeetodid

Seal on tohutult palju meetodeid ja meetodeid, mis selgitavad, kuidas võrrandi jaoks tegureid valida. Kõik need meetodid põhinevad aga koefitsientide valikul korrelatsiooniindikaatori abil. Nende hulgas on:

  • Eliminatsiooni meetod.
  • Vahetusmeetod.
  • Astmeline regressioonanalüüs.

Esimene meetod hõlmab kõigi koefitsientide filtreerimist koguhulgast. Teine meetod hõlmab paljude täiendavate tegurite kasutuselevõttu. Noh, kolmas on varem võrrandi jaoks kasutatud tegurite kõrvaldamine. Igal neist meetoditest on õigus eksisteerida. Neil on oma plussid ja miinused, kuid nad kõik saavad omal moel lahendada tarbetute näitajate kõrvaldamise. Reeglina on iga üksiku meetodi abil saadud tulemused üsna lähedased.

Mitme muutujaga analüüsimeetodid

Sellised tegurite määramise meetodid põhinevad omavahel seotud tunnuste individuaalsete kombinatsioonide arvestamisel. Nende hulka kuuluvad diskriminantanalüüs, kujutuvastus, põhikomponentide analüüs ja klastrianalüüs. Lisaks on olemas ka faktoranalüüs, kuid see ilmnes tänu komponentmeetodi arengule. Kõik need kehtivad teatud tingimustel, teatud tingimustel ja teguritel.

Regressioonikoefitsiendid näidata tegurite mõju intensiivsust tulemusnäitajale. Kui teostatakse tegurinäitajate esialgne standardimine, siis b 0 on võrdne efektiivse näitaja keskmise väärtusega agregaadis. Koefitsiendid b 1, b 2, ..., b n näitavad, mitme ühiku võrra erineb efektiivse indikaatori tase selle keskmisest väärtusest, kui tegurinäitaja väärtused erinevad nulli keskmisest ühe standardhälbe võrra. Seega iseloomustavad regressioonikoefitsiendid üksikute tegurite olulisuse astet tulemusnäitaja taseme tõstmisel. Regressioonikoefitsientide spetsiifilised väärtused määratakse empiiriliste andmete põhjal vähimruutude meetodil (normaalvõrrandisüsteemide lahendamise tulemusena).

Regressioonijoon- joon, mis kõige täpsemalt kajastab katsepunktide jaotust hajuvusdiagrammil ja mille kalde järsus iseloomustab kahe intervallmuutuja vahelist seost.

Regressioonijoont otsitakse kõige sagedamini lineaarse funktsioonina (lineaarne regressioon), mis kõige paremini lähendab soovitud kõverat. Seda tehakse vähimruutude meetodil, kui tegelikult vaadeldud hinnangute ruutude kõrvalekallete summa on minimeeritud (see tähendab hinnanguid, mis kasutavad sirgjoont, mis väidetavalt esindab soovitud regressioonisuhet):

(M - valimi suurus). See lähenemisviis põhineb teadaolev fakt, et ülaltoodud avaldises olev summa omandab minimaalse väärtuse täpselt juhul, kui .
57. Korrelatsiooniteooria põhiülesanded.

Korrelatsiooniteooria on aparaat, mis hindab seoste lähedust nähtuste vahel, mis ei ole ainult põhjus-tagajärg seostes. Korrelatsiooniteooriat kasutades hinnatakse stohhastilisi, kuid mitte põhjuslikke seoseid. Autor püüdis koos M. L. Lukatskajaga saada hinnanguid põhjuslike seoste kohta. Küll aga jääb lahtiseks küsimus nähtuste põhjus-tagajärg seostest, põhjuse ja tagajärje tuvastamisest ning tundub, et formaalsel tasandil on see põhimõtteliselt lahendamatu.

Korrelatsiooniteooria ja selle rakendamine tootmisanalüüsis.

Korrelatsiooniteooria, mis on matemaatilise statistika üks harudest, võimaldab teha mõistlikke oletusi võimalike piiride kohta, mille sees teatud usaldusväärsusega uuritav parameeter paikneb, kui teised statistiliselt seotud parameetrid saavad teatud väärtused.

Korrelatsiooniteoorias on tavaks eristada kaks peamist ülesannet.

Esimene ülesanne korrelatsiooniteooria - korrelatsiooni vormi kehtestamiseks, s.o. regressioonifunktsiooni tüüp (lineaarne, ruutkeskmine jne).

Teine ülesanne korrelatsiooniteooria - hinnata korrelatsiooniseose lähedust (tugevust).

Y korrelatsiooniseose (sõltuvuse) lähedust X-st hinnatakse Y väärtuste dispersiooni suuruse järgi tingimusliku keskmise ümber. Suur dispersioon näitab Y nõrka sõltuvust X-st, väike dispersioon näitab tugevat sõltuvust.
58. Korrelatsioonitabel ja selle numbrilised karakteristikud.

Praktikas ei käsitleta suuruste X ja Y sõltumatute vaatluste tulemusena reeglina mitte kogu nende suuruste kõigi võimalike väärtuspaaride kogumit, vaid ainult piiratud valimit elanikkonnast ja helitugevus n näidispopulatsioon on määratletud kui proovis saadaolevate paaride arv.

Olgu valimi väärtusel X väärtused x 1, x 2,....x m, kus selle väärtuse väärtuste arv, mis erinevad üksteisest, ja üldiselt võib igaüks neist olla korratakse proovis. Olgu valimi väärtuseks Y väärtused y 1, y 2,....y k, kus k on selle väärtuse erinevate väärtuste arv ja üldiselt võib igaüks neist olla ka korrati proovis. Sel juhul sisestatakse andmed esinemissagedust arvestades tabelisse. Sellist rühmitatud andmetega tabelit nimetatakse korrelatsioonitabeliks.

Tulemuste statistilise töötlemise esimene etapp on korrelatsioonitabeli koostamine.

Y\X x 1 x 2 ... x m n a
y 1 n 12 n 21 n m1 n y1
y 2 n 22 n m2 n y2
...
y k n 1k n 2k n mk n yk
n x n x1 n x2 n xm n

Tabeli põhiosa esimesel real on kasvavas järjekorras kõik proovist leitud suuruse X väärtused. Esimeses veerus on ka kõik proovist leitud suuruse Y väärtused kasvavas järjekorras. Vastavate ridade ja veergude ristumiskohas on sagedused n ij (i = 1,2 ,...,m; j=1,2,...,k) võrdsed paari esinemiste arvuga (x i ; y i) valimis. Näiteks sagedus n 12 tähistab paari (x 1 ;y 1) esinemiste arvu valimis.

Ka n xi n ij , 1≤i≤m, i-nda veeru elementide summa, n yj n ij , 1≤j≤k, on j-nda rea ​​ja n xi elementide summa = n yj =n

Korrelatsioonitabeli andmetest saadud valemite analoogid on kujul:


59. Empiirilised ja teoreetilised regressioonisirged.

Teoreetiline regressioonisirge saab sel juhul arvutada üksikute vaatluste tulemuste põhjal. Normaalvõrrandisüsteemi lahendamiseks vajame samu andmeid: x, y, xy ja xr. Meil on andmed tsemendi tootmise mahu ja tootmispõhivara mahu kohta aastal 1958. Ülesanne on püstitatud: uurida tsemendi tootmismahu (füüsilises mõttes) ja põhivara mahu vahelist seost. [ 1 ]

Mida vähem teoreetiline (võrrandist arvutatud) regressioonisirge tegelikust (empiirilisest) kõrvale kaldub, seda väiksem on keskmine lähendusviga.

Teoreetilise regressioonijoone leidmise protsess hõlmab empiirilise regressioonisirge sobitamist vähimruutude meetodi abil.

Teoreetilise regressioonisirge leidmise protsessi nimetatakse empiirilise regressioonijoone joondamiseks ja see seisneb tüübi valimises ja põhjendamises; kõver ja selle võrrandi parameetrite arvutamine.

Empiiriline regressioon on koostatud analüütiliste või kombineeritud rühmitamisandmete põhjal ja see kujutab tulemuse tunnuse rühma keskmiste väärtuste sõltuvust faktori tunnuse rühma keskmistest väärtustest. Empiirilise regressiooni graafiline esitus on katkendlik joon, mis koosneb punktidest, mille abstsissid on faktori tunnuse rühma keskmised väärtused ja ordinaadid on tulemuse tunnuse rühma keskmised väärtused. Punktide arv võrdub rühmade arvuga rühmas.

Empiiriline regressioonisirge peegeldab vaadeldava seose peamist trendi. Kui empiiriline regressioonijoon läheneb välimuselt sirgele, siis võime eeldada, et tunnuste vahel on lineaarne korrelatsioon. Ja kui ühendusjoon läheneb kõverale, võib see olla tingitud kõverjoonelise korrelatsiooni olemasolust.
60. Valimi korrelatsiooni- ja regressioonikordajad.

Kui graafiku karakteristikute vaheline sõltuvus näitab lineaarset korrelatsiooni, arvutage korrelatsioonikordaja r, mis võimaldab hinnata muutujate omavahelise seose lähedust ning ühtlasi välja selgitada, milline osa muutustest tuleneb põhitunnuse mõjust, milline osa aga muude tegurite mõjust. Koefitsient varieerub vahemikus –1 kuni +1. Kui r=0, siis tunnuste vahel seos puudub. Võrdsus r=0 näitab ainult lineaarse korrelatsioonisõltuvuse puudumist, kuid mitte korrelatsiooni puudumist, veel vähem statistilist sõltuvust. Kui r= ±1, siis tähendab see täieliku (funktsionaalse) ühenduse olemasolu. Sel juhul asuvad kõik vaadeldud väärtused regressioonijoonel, mis on sirgjoon.
Korrelatsioonikordaja praktilise tähtsuse määrab selle ruudu väärtus, mida nimetatakse determinatsioonikoefitsiendiks.
Regressioon, mis on ligikaudne (ligikaudne kirjeldatud) lineaarfunktsiooniga y = kX + b. Y regressiooniks X-l on regressioonivõrrand: `y x = ryx X + b; (1). Kaldetegur Y otsese regressiooni ryx-i X-l nimetatakse Y regressioonikordajaks X-l.

Kui võrrand (1) leitakse näidisandmete abil, nimetatakse seda regressioonivõrrandi näidis. Vastavalt sellele on ryx Y valimi regressioonikordaja X-l ja b on võrrandi näidisliige. Regressioonikordaja mõõdab Y varieerumist X variatsiooniühiku kohta. Regressioonivõrrandi parameetrid (koefitsiendid ryx ja b) leitakse vähimruutude meetodil.
61. Korrelatsioonikordaja olulisuse ja korrelatsiooni läheduse hindamine üldkogumis

Korrelatsioonikordajate olulisus kontrollitud õpilase testiga:

Kus - korrelatsioonikordaja ruutkeskmine viga, mis määratakse järgmise valemiga:

Kui arvutatud väärtus on suurem kui tabeli väärtus, siis võime järeldada, et korrelatsioonikordaja väärtus on oluline Tabeliväärtused t leitud Studenti t-testi väärtuste tabelist. Sel juhul võetakse arvesse vabadusastmete arvu (V = n - 1) ja usaldusnivoo (majanduslikes arvutustes tavaliselt 0,05 või 0,01). Meie näites on vabadusastmete arv: P - 1 = 40 - 1 = 39. Usaldustasemel R = 0,05; t= 2,02. Kuna (tegelik väärtus on kõikidel juhtudel kõrgem kui t-tabel) on resultant- ja faktorinäitajate vaheline seos usaldusväärne ning korrelatsioonikordajate suurus on märkimisväärne.

Korrelatsioonikordaja hindamine, mis on arvutatud piiratud valimi põhjal, erineb peaaegu alati nullist. Kuid see ei tähenda, et korrelatsioonikordaja elanikkonnast erineb ka nullist. On vaja hinnata koefitsiendi valimi väärtuse olulisust või vastavalt statistiliste hüpoteeside kontrollimise ülesannete sõnastusele testida hüpoteesi, et korrelatsioonikordaja on võrdne nulliga. Kui hüpotees N 0, et korrelatsioonikoefitsient on võrdne nulliga, lükatakse tagasi, siis on valimikoefitsient oluline ja vastavad väärtused on seotud lineaarse seosega. Kui hüpotees N 0 aktsepteeritakse, siis ei ole koefitsiendi hinnang oluline ja väärtused ei ole üksteisega lineaarselt seotud (kui füüsilistel põhjustel saab tegureid seostada, siis on parem öelda, et seda seost pole loodud olemasoleva ED põhjal). Korrelatsioonikordaja hinnangu olulisuse hüpoteesi testimiseks on vaja teadmisi selle juhusliku suuruse jaotusest.  väärtuse jaotus ik uuritud ainult juhuslike muutujate erijuhul Uj Ja Uk jaotatakse tavaseaduse järgi.

Nullhüpoteesi testimise kriteeriumina N 0 kohaldada juhuslik muutuja . Kui korrelatsioonikordaja moodul on suhteliselt kaugel ühtsusest, siis väärtus t kui nullhüpotees on tõene, jagatakse see Studenti seaduse järgi koos n– 2 vabadusastet. Konkureeriv hüpotees N 1 vastab väitele, et väärtus  ik ei ole võrdne nulliga (nullist suurem või väiksem). Seetõttu on kriitiline piirkond kahepoolne.
62. Valimi korrelatsioonikordaja arvutamine ja valimi sirgjoonelise regressioonivõrrandi koostamine.

Valimi korrelatsioonikordaja leitakse valemiga

kus on väärtuste standardhälbed ja .

Valimi korrelatsioonikordaja näitab lineaarse seose lähedust ja vahel: mida lähemal ühtsusele, seda tugevam on lineaarne seos ja vahel.

Lihtne lineaarne regressioon leiab lineaarse seose ühe sisendmuutuja ja ühe väljundmuutuja vahel. Selleks määratakse regressioonivõrrand - see on mudel, mis peegeldab Y väärtuste sõltuvust, Y sõltuvat väärtust x väärtustest, sõltumatust muutujast x ja populatsioonist, mida kirjeldatakse nivelleerimisega. :

Kus A0- regressioonivõrrandi vaba liige;

A1- regressioonivõrrandi koefitsient

Seejärel konstrueeritakse vastav sirge, mida nimetatakse regressioonijooneks. Koefitsiendid A0 ja A1, mida nimetatakse ka mudeli parameetriteks, on valitud nii, et reaalandmete vaatlustele vastavate punktide ruudus hälvete summa regressioonijoonest on minimaalne. Koefitsiendid valitakse vähimruutude meetodil. Teisisõnu, lihtne lineaarne regressioon kirjeldab lineaarset mudelit, mis annab kõige paremini ligikaudse seose ühe sisendmuutuja ja ühe väljundmuutuja vahel.

Jaga