Metode de cercetare multivariate statistice analiza factorială. Analiză statistică multivariată (RUB 128,00). Concepte de bază ale metodei analizei factoriale, esența problemelor pe care le rezolvă

Manualul a fost creat pe baza experienței autorului în predarea cursurilor de analiză statistică multivariată și econometrie. Conține materiale privind discriminanții, factorii, analiza regresiei, analiza corespondenței și teoria seriilor temporale. Sunt prezentate abordări ale problemelor de scalare multidimensională și alte probleme ale statisticii multidimensionale.

Gruparea și cenzura.
Sarcina de a forma grupuri de date din eșantion în așa fel încât datele grupate să poată oferi aproape aceeași cantitate de informații pentru luarea deciziilor ca eșantionul înainte de grupare este rezolvată mai întâi de către cercetător. Scopurile grupării, de regulă, sunt de a reduce cantitatea de informații, de a simplifica calculele și de a face datele mai clare. Unele teste statistice sunt inițial concepute pentru a funcționa cu un eșantion grupat. În anumite aspecte, problema grupării este foarte asemănătoare cu problema clasificării, care va fi discutată mai detaliat mai jos. Concomitent cu sarcina grupării, cercetătorul rezolvă și problema cenzurării eșantionului, adică. excluderea din ea a datelor extrem de anormale, care, de regulă, sunt rezultatul unor erori de observație grosolane. Desigur, este de dorit să se asigure absența unor astfel de erori în timpul procesului de observare în sine, dar acest lucru nu este întotdeauna posibil. Cele mai simple metode de rezolvare a celor două probleme de mai sus sunt discutate în acest capitol.

Cuprins
1 Informații preliminare
1.1 Analiză și algebră
1.2 Teoria probabilității
1.3 Statistici matematice
2 Distribuții multivariate
2.1 Vectori aleatori
2.2 Independenta
2.3 Caracteristici numerice
2.4 Distribuția normală în cazul multivariat
2.5 Teoria corelației
3 Gruparea și cenzura
3.1 Gruparea unidimensională
3.2 Cenzura unidimensională
3.3 Tabelele de situație
3.3.1 Ipoteza independenței
3.3.2 Ipoteza omogenității
3.3.3 Câmp de corelare
3.4 Gruparea multidimensională
3.5 Cenzura multivariată
4 Date nenumerice
4.1 Observații introductive
4.2 Scale de comparare
4.3 Evaluări ale experților
4.4 Grupuri de experți
5 seturi de încredere
5.1 Intervale de încredere
5.2 Seturi de încredere
5.2.1 Parametru multivariat
5.2.2 Eșantionarea multivariată
5.3 Seturi tolerante
5.4 Probă mică
6 Analiza de regresie
6.1 Enunțarea problemei
6.2 Căutați OMC
6.3 Limitări
6.4 Matricea planului
6.5 Prognoza statistică
7 Analiza varianței
7.1 Observații introductive
7.1.1 Normalitate
7.1.2 Uniformitatea variațiilor
7.2 Un factor
7.3 Doi factori
7.4 Caz general
8 Reducerea dimensionalității
8.1 De ce este necesară clasificarea
8.2 Model și exemple
8.2.1 Analiza componentelor principale
8.2.2 Gruparea extremă a caracteristicilor
8.2.3 Scalare multidimensională
8.2.4 Selectarea indicatorilor pentru analiza discriminantă
8.2.5 Selectarea indicatorilor în modelul de regresie
9 Analiză discriminantă
9.1 Aplicabilitatea modelului
9.2 Regula de predicție liniară
9.3 Recomandări practice
9.4 Un exemplu
9.5 Mai mult de două clase
9.6 Verificarea calității discriminării
10 metode euristice
10.1 Fracțiune extremă
10.1.1 Test pătrat
10.1.2 Criteriul modulelor
10 2 Metoda Pleiadelor
11 Metoda componentelor principale
11 1 Enunțarea problemei
112 Calculul componentelor principale
11.3 Exemplu
114 Proprietăţile componentelor principale
11.4.1 Auto-reproductibilitatea
11.4.2 Proprietăţi geometrice
12 Analiza factorială
12.1 Declarația problemei
12.1.1 Comunicarea cu componentele principale
12.1.2 Neambiguitatea soluției
12.2 Model matematic
12.2.1 Condiții pentru At A
12.2.2 Condiții pe matricea de sarcină. Metoda centroidă
12.3 Factori latenți
12.3.1 Metoda Bartlett
12.3.2 Metoda Thomson
12.4 Exemplu
13 Digitalizare
13.1 Analiza corespondenței
13.1.1 Distanța chi-pătrat
13.1.2 Digitalizare pentru sarcini de analiză discriminantă
13.2 Mai mult de două variabile
13.2.1 Utilizarea unei matrice de date binare ca matrice de corespondență
13.2.2 Corelații maxime
13.3 Dimensiunea
13.4 Exemplu
13.5 Caz de date mixte
14 Scalare multidimensională
14.1 Note introductive
14.2 Modelul Torgerson
14.2.1 Criteriul de stres
14.3 Algoritmul Torgerson
14.4 Diferențele individuale
15 Serii de timp
15.1 Prevederi generale
15.2 Criterii aleatorii
15.2.1 Vârfuri și găuri
15.2.2 Distribuția lungimii de fază
15.2.3 Criterii bazate pe corelarea rangului
15.2.4 Corelograma
15.3 Tendință și sezonalitate
15.3.1 Tendințe polinomiale
15.3.2 Selectarea gradului de tendință
15.3.3 Antialiasing
15.3.4 Evaluarea variațiilor sezoniere
O distribuție normală
B Distribuția X2
C Distribuţia elevilor
D Distribuția Fisher.


Descărcați cartea electronică gratuit într-un format convenabil, vizionați și citiți:
Descarcă cartea Analiză statistică multivariată, Dronov S.V., 2003 - fileskachat.com, descărcare rapidă și gratuită.

Descărcați pdf
Mai jos puteți cumpăra această carte la cel mai bun preț cu reducere cu livrare în toată Rusia.

Econometrie

Analiza statistică multivariată


În analiza statistică multivariată, eșantionul este format din elemente ale unui spațiu multidimensional. De aici și numele acestei secțiuni de metode econometrice. Dintre numeroasele probleme ale analizei statistice multivariate, vom lua în considerare două - recuperarea dependenței și clasificarea.

Estimarea funcției predictive liniare

Să începem cu problema estimării punctuale și de încredere a unei funcții predictive liniare a unei variabile.

Date inițiale – un set de n perechi de numere (t k, x k), k = 1,2,...,n, unde t k este o variabilă independentă (de exemplu, timpul) și x k este o variabilă dependentă (de exemplu , indicele de inflație, cursul de schimb al dolarului american, volumul de producție lunar sau valoarea veniturilor zilnice ale unui punct de vânzare cu amănuntul). Se presupune că variabilele sunt legate prin dependență

x k = a (t k - t avg)+ b + e k , k = 1,2,…,n,

unde a și b sunt parametri necunoscuți de statistică și supuși estimărilor, iar e k sunt erori care distorsionează dependența. Media aritmetică a punctelor de timp

t av = (t 1 + t 2 +…+t n) / n

introduse în model pentru a facilita calculele ulterioare.

De obicei, parametrii a și b ai unei relații liniare sunt estimați folosind metoda celor mai mici pătrate. Apoi, dependența restaurată este utilizată pentru prognoza punctului și intervalului.

După cum se știe, metoda celor mai mici pătrate a fost dezvoltată de marele matematician german K. Gauss în 1794. Conform acestei metode, pentru a calcula cea mai bună funcție care aproximează liniar dependența lui x de t, ar trebui să se ia în considerare o funcție a două variabile


Estimările celor mai mici pătrate sunt acele valori ale lui a* și b* la care funcția f(a,b) atinge un minim peste toate valorile argumentelor.

Pentru a găsi aceste estimări, trebuie să calculați derivatele parțiale ale funcției f(a,b) în raport cu argumentele a și b, să le echivalați cu 0, apoi să găsiți estimările din ecuațiile rezultate: Avem:

Să transformăm părțile din dreapta ale relațiilor rezultate. Să scoatem factorii comuni 2 și (-1) ca semn de sumă. Atunci să ne uităm la termeni. Să deschidem parantezele din prima expresie și să aflăm că fiecare termen este împărțit în trei. În a doua expresie, fiecare termen este și suma a trei. Aceasta înseamnă că fiecare sumă este împărțită în trei sume. Avem:


Să echivalăm derivatele parțiale cu 0. Apoi în ecuațiile rezultate putem reduce factorul (-2). Deoarece

(1)

ecuațiile iau forma

Prin urmare, estimările celor mai mici pătrate au forma

(2)

În virtutea relației (1), estimarea a* poate fi scrisă într-o formă mai simetrică:

Această estimare poate fi ușor transformată în formular

Prin urmare, funcția reconstruită, care poate fi folosită pentru a prezice și a interpola, are forma

x*(t) = a*(t - t av)+ b*.

Să fim atenți la faptul că utilizarea lui t cf în ultima formulă nu limitează în niciun fel generalitatea acesteia. Comparați cu un model de formular

x k = c t k + d + e k , k = 1,2,…,n.

Este clar că

Estimările parametrilor sunt legate într-un mod similar:

Nu este nevoie să ne referim la niciun model probabilistic pentru a obține estimări ale parametrilor și o formulă predictivă. Totuși, pentru a studia erorile în estimările parametrilor și a funcției reconstruite, i.e. construiți intervale de încredere pentru a*, b* și x*(t), un astfel de model este necesar.

Model probabilistic neparametric. Fie valorile variabilei independente t să fie deterministe, iar erorile e k , k = 1,2,...,n, să fie variabile aleatoare independente distribuite identic cu așteptare și varianță matematică zero

statistici necunoscute.

În viitor, vom folosi în mod repetat Teorema Centrală Limită (CLT) a teoriei probabilităților pentru mărimile e k , k = 1,2,...,n (cu ponderi), prin urmare, pentru a-și îndeplini condițiile este necesar să presupunem, pt. exemplu, că erorile e k , k = 1,2 ,…,n, sunt finite sau au un moment absolut al treilea finit. Cu toate acestea, nu este nevoie să ne concentrăm asupra acestor „condiții de regularitate” intra-matematice.

Distribuții asimptotice ale estimărilor parametrilor. Din formula (2) rezultă că

(5)

Conform CLT, estimarea b* are o distribuție normală asimptotic cu așteptarea matematică b și varianță

a cărui evaluare este dată mai jos.

Din formulele (2) și (5) rezultă că

Ultimul termen din a doua relație atunci când este însumat peste i se transformă în 0, prin urmare din formulele (2-4) rezultă că

(6)

Formula (6) arată că estimarea

este asimptotic normal cu așteptări și variații matematice

Rețineți că normalitatea multidimensională există atunci când fiecare termen din formula (6) este mic în comparație cu întreaga sumă, i.e.


Formulele (5) și (6) și ipotezele inițiale despre erori implică, de asemenea, că estimările parametrilor sunt nepărtinitoare.

Nepărtinirea și normalitatea asimptotică a estimărilor celor mai mici pătrate facilitează specificarea limitelor de încredere asimptotice pentru acestea (asemănătoare cu limitele din capitolul anterior) și testarea ipotezelor statistice, de exemplu, despre egalitatea la anumite valori, în primul rând 0. Oferim cititorului cu posibilitatea de a scrie formule de calcul a limitelor de încredere și de a formula reguli de testare a ipotezelor menționate.

Distribuția asimptotică a funcției predictive. Din formulele (5) și (6) rezultă că

acestea. estimarea considerată a funcției predictive este imparțială. De aceea

Mai mult, deoarece erorile sunt independente în agregat și

, Acea

Prin urmare,

Există situații în care variabilitatea aleatoare a fost reprezentată de una sau două variabile aleatoare, semne.

De exemplu, atunci când studiem o populație statistică de oameni, ne interesează înălțimea și greutatea. În această situație, indiferent cât de mulți oameni sunt în populația statistică, putem întotdeauna să desenăm un scatterplot și să vedem întreaga imagine. Cu toate acestea, dacă există trei atribute, de exemplu, se adaugă vârsta unei persoane, atunci graficul de dispersie trebuie construit în spațiu tridimensional. Este deja destul de dificil să ne imaginăm o colecție de puncte în spațiul tridimensional.

În realitate, în practică, fiecare observație este reprezentată nu de unul, două sau trei numere, ci de un set vizibil de numere care descriu zeci de caracteristici. În această situație, construirea unui grafic de dispersie ar necesita luarea în considerare a spațiilor multidimensionale.

Ramura statisticii care se ocupa cu studiul experimentelor cu observatii multivariate se numeste analiza statistica multivariata.

Măsurarea mai multor semne (proprietăți ale unui obiect) simultan într-un experiment este în general mai naturală decât măsurarea doar a unuia sau a două. Prin urmare, analiza statistică potențial multivariată are o gamă largă de aplicații.

Analiza statistică multivariată include următoarele secțiuni:

Analiza factorilor;

Analiză discriminantă;

Analiza grupului;

Scalare multidimensională;

Metode de control al calității.

Analiza factorilor

Când se studiază obiecte și sisteme complexe (de exemplu, în psihologie, biologie, sociologie etc.), cantitățile (factorii) care determină proprietățile acestor obiecte de foarte multe ori nu pot fi măsurate direct și uneori chiar și numărul și semnificația lor nu sunt cunoscute. . Dar alte cantități pot fi disponibile pentru măsurare, în funcție într-un fel sau altul de factorii de interes. Mai mult, atunci când influența unui factor necunoscut care ne interesează se manifestă în mai multe caracteristici măsurate, aceste caracteristici pot prezenta o relație strânsă între ele, iar numărul total de factori poate fi mult mai mic decât numărul de variabile măsurate.

Metodele de analiză factorială sunt utilizate pentru a descoperi factorii care influențează variabilele măsurate.

Un exemplu de aplicare a analizei factoriale este studiul trăsăturilor de personalitate pe baza unor teste psihologice. Proprietățile personalității nu pot fi măsurate direct; ele pot fi judecate doar după comportamentul unei persoane sau natura răspunsurilor sale la anumite întrebări. Pentru a explica rezultatele experimentelor, acestea sunt supuse unei analize factoriale, care ne permite să identificăm acele proprietăți personale care influențează comportamentul indivizilor testați.


Diverse modele de analiză factorială se bazează pe următoarea ipoteză: parametrii observați sau măsurați sunt doar caracteristici indirecte ale obiectului sau fenomenului studiat; în realitate, există interne (ascunse, latent, neobservabile direct) parametri și proprietăți, al căror număr este mic și care determină valorile parametrilor observați. Acești parametri interni sunt de obicei numiți factori.

Sarcina analizei factoriloreste reprezentarea parametrilor observați sub formă de combinații liniare de factori și, poate, unele perturbări suplimentare, neimportante.

Prima etapă a analizei factorilor, de regulă, este selectarea de noi caracteristici, care sunt combinații liniare ale celor anterioare și „absorb” cea mai mare parte a variabilității totale a datelor observate și, prin urmare, transmit cea mai mare parte a informațiilor conținute în observatii originale. Acest lucru se face de obicei folosind metoda componentei principale, deși uneori se folosesc alte tehnici (metoda maximă probabilitate).

Metoda componentei principale se reduce la alegerea unui nou sistem de coordonate ortogonale în spațiul de observație. Direcția de-a lungul căreia șirul de observații are cea mai mare împrăștiere este aleasă ca primă componentă principală; fiecare componentă principală ulterioară este selectată astfel încât împrăștierea observațiilor să fie maximă și această componentă principală să fie ortogonală cu celelalte componente principale selectate mai devreme. Cu toate acestea, factorii obținuți prin metoda componentei principale, de obicei, nu pot fi interpretați suficient de clar. Prin urmare, următorul pas în analiza factorială este transformarea, rotația factorilor pentru a facilita interpretarea.

Analiza discriminantă

Să existe o colecție de obiecte împărțită în mai multe grupuri și pentru fiecare obiect este posibil să se determine cărui grup îi aparține. Pentru fiecare obiect există măsurători cu mai multe caracteristici cantitative. Este necesar să găsim o modalitate de a afla, pe baza acestor caracteristici, grupul căruia îi aparține obiectul. Acest lucru vă va permite să indicați grupurile cărora le aparțin obiectele noi din aceeași colecție. Pentru a rezolva problema, ei folosesc metode de analiză discriminantă.

Analiza discriminantă- Aceasta este o ramură a statisticii, al cărei conținut este dezvoltarea unor metode de rezolvare a problemelor de discriminare (discriminare) a obiectelor de observație în funcție de anumite caracteristici.

Să ne uităm la câteva exemple.

Analiza discriminantă este utilă în procesarea rezultatelor testelor persoanelor fizice atunci când vine vorba de angajare pentru o anumită poziție. În acest caz, este necesar să se împartă toți candidații în două grupuri: „potriviți” și „nepotriviți”.

Utilizarea analizei discriminante este posibilă de către administrația bancară pentru a evalua situația financiară a afacerilor clienților atunci când le acordă un împrumut. Banca le clasifică în fiabile și nesigure pe baza unui număr de criterii.

Analiza discriminantă poate fi utilizată ca metodă de împărțire a unui set de întreprinderi în mai multe grupuri omogene în funcție de valorile oricăror indicatori de producție și activitate economică.

Metodele de analiză discriminantă fac posibilă construirea de funcții ale caracteristicilor măsurate, ale căror valori explică împărțirea obiectelor în grupuri. Este de dorit ca aceste funcții (caracteristici discriminante) a fost un pic. În acest caz, rezultatele analizei sunt mai ușor de interpretat în mod semnificativ.

Datorită simplității sale, analiza discriminantă liniară joacă un rol special, în care caracteristicile de clasificare sunt selectate ca funcții liniare ale caracteristicilor primare.

Analiza grupului

Metodele de analiză a clusterelor fac posibilă împărțirea setului studiat de obiecte în grupuri de obiecte „similare” numite clustere.

Cuvânt cluster Origine engleză - cluster se traduce ca perie, ciorchine, grupare, roi, ciorchine.

Analiza cluster rezolvă următoarele probleme:

Clasifică obiectele ținând cont de toate trăsăturile care caracterizează obiectul. Însăși posibilitatea clasificării ne mută către o înțelegere mai profundă a totalității luate în considerare și a obiectelor incluse în ea;

Stabilește sarcina de a verifica prezența unei structuri sau clasificări date a priori în populația existentă. Un astfel de test face posibilă utilizarea schemei ipotetico-deductive standard a cercetării științifice.

Cele mai multe metode de grupare (grup ierarhic) sunt aglomerativ(fuzionarea) - încep prin a crea clustere elementare, fiecare dintre ele constând dintr-o observație inițială (un punct), iar la fiecare pas ulterior cele două clustere cele mai apropiate sunt combinate într-una singură.

Momentul opririi acestui proces poate fi stabilit de către cercetător (de exemplu, prin specificarea numărului necesar de clustere sau a distanței maxime la care se realizează unirea).

O reprezentare grafică a procesului de fuziune a clusterului poate fi obținută folosind dendrograme- arbore de îmbinare a clusterelor.

Luați în considerare următorul exemplu. Să clasificăm cinci întreprinderi, fiecare dintre acestea fiind caracterizată de trei variabile:

x 1– costul mediu anual al activelor fixe de producție, miliarde de ruble;

x 2– costuri materiale pentru 1 rub. produse manufacturate, copeici;

x 3– volumul produselor produse, miliarde de ruble.

Analiza statistică multivariată este utilizată pentru a rezolva următoarele probleme:

  • * studiul dependenţei dintre semne;
  • * clasificarea obiectelor sau caracteristicilor specificate prin vectori;
  • * reducerea dimensiunii spațiului caracteristic.

În acest caz, rezultatul observațiilor este un vector de valori ale unui număr fix de caracteristici cantitative și uneori calitative măsurate într-un obiect. O caracteristică cantitativă este o caracteristică a unei unități observabile care poate fi direct exprimată printr-un număr și o unitate de măsură. O caracteristică cantitativă este pusă în contrast cu o caracteristică calitativă - o caracteristică a unei unități observate, determinată prin atribuirea uneia dintre două sau mai multe categorii condiționate (dacă există exact două categorii, atunci caracteristica se numește alternativă). Analiza statistică a caracteristicilor calitative face parte din statistica obiectelor de natură nenumerică. Caracteristicile cantitative sunt împărțite în caracteristici măsurate pe scale de intervale, rapoarte, diferențe și absolute.

Și cele calitative - pentru caracteristicile măsurate într-o scară de nume și o scară ordinală. Metodele de prelucrare a datelor trebuie să fie în concordanță cu scalele în care sunt măsurate caracteristicile în cauză.

Scopurile studierii dependenței dintre caracteristici sunt de a demonstra existența unei legături între caracteristici și de a studia această legătură. Pentru a demonstra existența unei legături între două variabile aleatoare X și Y se utilizează analiza corelației. Dacă distribuția comună a lui X și Y este normală, atunci concluziile statistice se bazează pe coeficientul de corelație liniară al eșantionului; în alte cazuri, se folosesc coeficienții de corelare a rangului Kendall și Spearman, iar pentru caracteristicile calitative se utilizează testul chi-pătrat.

Analiza de regresie este utilizată pentru a studia dependența funcțională a trăsăturii cantitative Y de trăsăturile cantitative x(1), x(2), ..., x(k). Această dependență se numește regresie sau, pe scurt, regresie. Cel mai simplu model probabilistic de analiză de regresie (în cazul lui k = 1) folosește ca informație inițială un set de perechi de rezultate ale observației (xi, yi), i = 1, 2, … , n și are forma

yi = axi + b + ei, i = 1, 2, … , n,

unde ei sunt erori de observare. Uneori se presupune că ei sunt variabile aleatoare independente cu aceeași distribuție normală N(0, y2). Deoarece distribuția erorilor de observare este de obicei diferită de cea normală, este recomandabil să se ia în considerare modelul de regresie într-o formulare neparametrică, i.e. cu o distribuție arbitrară a ei.

Sarcina principală a analizei de regresie este de a estima parametrii necunoscuți a și b, care definesc dependența liniară a lui y față de x. Pentru rezolvarea acestei probleme se folosește metoda celor mai mici pătrate, dezvoltată de K. Gauss în 1794, adică. găsiți estimări ale parametrilor necunoscuți ai modelului a și b din condiția minimizării sumei pătratelor

prin variabilele a și b.

Analiza varianței este utilizată pentru a studia influența caracteristicilor calitative asupra unei variabile cantitative. De exemplu, să fie k eșantioane de rezultate de măsurare ale unui indicator cantitativ al calității unităților de produs produse pe k mașini, i.e. un set de numere (x1(j), x2(j), … , xn(j)), unde j este numărul mașinii, j = 1, 2, …, k și n este dimensiunea eșantionului. Într-o formulare comună de analiză a varianței, se presupune că rezultatele măsurătorilor sunt independente și în fiecare probă au o distribuție normală N(m(j), y2) cu aceeași varianță.

Verificarea uniformității calității produsului, de ex. absența influenței numărului de mașină asupra calității produsului, se reduce la testarea ipotezei

H0: m(1) = m(2) = … = m(k).

Analiza varianței a dezvoltat metode de testare a unor astfel de ipoteze.

Ipoteza H0 este testată față de ipoteza alternativă H1, conform căreia cel puțin una dintre egalitățile specificate nu este satisfăcută. Testul acestei ipoteze se bazează pe următoarea „descompunere a varianței” specificată de R. A. Fisher:

unde s2 este varianța eșantionului din eșantionul cumulat, adică

Astfel, primul termen din partea dreaptă a formulei (7) reflectă dispersia intragrup. În cele din urmă, există varianță între grupuri,

Zona de statistici aplicate asociată cu extinderile de varianță, cum ar fi formula (7) se numește analiză de varianță. Ca exemplu de problemă de analiză a varianței, luați în considerare testarea ipotezei de mai sus H0 sub ipoteza că rezultatele măsurătorilor sunt independente și în fiecare probă au o distribuție normală N(m(j), y2) cu aceeași varianță. Dacă H0 este adevărat, primul termen din partea dreaptă a formulei (7), împărțit la y2, are o distribuție chi-pătrat cu k(n-1) grade de libertate, iar al doilea termen, împărțit la y2, are și el o distribuție chi-pătrat, dar cu ( k-1) grade de libertate, primul și al doilea termen fiind independenți ca variabile aleatoare. Prin urmare variabila aleatoare

are o distribuție Fisher cu (k-1) grade de libertate la numărător și k(n-1) grade de libertate la numitor. Ipoteza H0 este acceptată dacă F< F1-б, и отвергается в противном случае, где F1-б - квантиль порядка 1-б распределения Фишера с указанными числами степеней свободы. Такой выбор критической области определяется тем, что при Н1 величина F безгранично увеличивается при росте объема выборок n. Значения F1-б берут из соответствующих таблиц.

Au fost dezvoltate metode neparametrice pentru rezolvarea problemelor clasice de analiză a varianței, în special pentru testarea ipotezei H0.

Următorul tip de probleme de analiză statistică multivariată este problemele de clasificare. Ele sunt împărțite în trei tipuri fundamental diferite - analiza discriminantă, analiza clusterului, problemele de grupare.

Sarcina analizei discriminante este de a găsi o regulă pentru clasificarea unui obiect observat într-una din clasele descrise anterior. În acest caz, obiectele sunt descrise într-un model matematic folosind vectori, ale căror coordonate sunt rezultatele observării unui număr de caracteristici în fiecare obiect. Clasele sunt descrise fie direct în termeni matematici, fie folosind mostre de antrenament. Un set de antrenament este un eșantion pentru fiecare element din care se indică clasei căreia îi aparține.

Să luăm în considerare un exemplu de utilizare a analizei discriminante pentru luarea deciziilor în diagnosticul tehnic. Să presupunem că pe baza rezultatelor măsurării unui număr de parametri ai produsului, este necesar să se stabilească prezența sau absența defectelor. În acest caz, defectele descoperite în timpul cercetărilor suplimentare, de exemplu, efectuate după o anumită perioadă de funcționare, sunt indicate pentru elementele eșantionului de instruire. Analiza discriminantă vă permite să reduceți cantitatea de control și, de asemenea, să anticipați comportamentul viitor al produselor. Analiza discriminantă este similară cu analiza de regresie - prima vă permite să preziceți valoarea unei caracteristici calitative, iar a doua - una cantitativă. În statistica obiectelor de natură nenumerică s-a elaborat o schemă matematică, cazuri speciale ale cărora sunt regresiile și analizele discriminante.

Analiza cluster este utilizată atunci când, pe baza datelor statistice, este necesară împărțirea elementelor eșantionului în grupuri. Mai mult, două elemente ale unui grup din același grup trebuie să fie „apropiate” în ceea ce privește totalitatea valorilor caracteristicilor măsurate în ele, iar două elemente din grupuri diferite trebuie să fie „distante” în același sens. Spre deosebire de analiza discriminantă, în analiza clusterelor clasele nu sunt specificate, ci se formează în procesul de prelucrare a datelor statistice. De exemplu, analiza cluster poate fi utilizată pentru a împărți un set de clase de oțel (sau mărci de frigidere) în grupuri care sunt similare între ele.

Un alt tip de analiză de cluster este împărțirea caracteristicilor în grupuri care sunt apropiate unele de altele. Coeficientul de corelație al eșantionului poate servi ca un indicator al asemănării caracteristicilor. Scopul analizei cluster a caracteristicilor poate fi reducerea numărului de parametri controlați, ceea ce poate reduce semnificativ costurile de control. Pentru a face acest lucru, dintr-un grup de caracteristici strâns legate (pentru care coeficientul de corelație este aproape de 1 - valoarea sa maximă), se măsoară valoarea uneia, iar valorile celorlalte sunt calculate folosind analiza de regresie.

Problemele de grupare sunt rezolvate atunci când clasele nu sunt predeterminate și nu trebuie să fie „departe” unele de altele. Un exemplu este gruparea studenților în grupuri de studiu. În tehnologie, soluția problemei de grupare este adesea o serie parametrică - posibilele dimensiuni standard sunt grupate în funcție de elementele seriei parametrice. În literatura de specialitate, documentele de reglementare, tehnice și de instruire privind statisticile aplicate, se utilizează uneori și gruparea rezultatelor observațiilor (de exemplu, la construirea histogramelor).

Problemele de clasificare sunt rezolvate nu numai în analiza statistică multivariată, ci și atunci când rezultatele observațiilor sunt numere, funcții sau obiecte de natură nenumerică. Astfel, mulți algoritmi de analiză a clusterelor folosesc doar distanțe dintre obiecte. Prin urmare, ele pot fi folosite și pentru clasificarea obiectelor de natură nenumerică, atâta timp cât sunt specificate distanțele dintre ele. Cea mai simplă problemă de clasificare este aceasta: având în vedere două eșantioane independente, trebuie să determinați dacă acestea reprezintă două clase sau una. În statistica univariată, această sarcină se reduce la testarea ipotezei de omogenitate.

A treia secțiune a analizei statistice multivariate este problema reducerii dimensionalității (comprimarea informațiilor). Scopul soluției lor este de a determina un set de indicatori derivați obținuți prin transformarea caracteristicilor inițiale, astfel încât numărul de indicatori derivați să fie semnificativ mai mic decât numărul indicatorilor originali, dar ei conțin cea mai mare parte posibilă a informațiilor disponibile în date statistice originale. Problemele de reducere a dimensionalității sunt rezolvate folosind metode de scalare multidimensională, componente principale, analiză factorială etc. De exemplu, în cel mai simplu model de scalare multidimensională, datele inițiale sunt distanțe perechi între k obiecte, iar scopul calculelor este reprezentarea obiectelor ca puncte. într-un avion. Acest lucru face posibil să vedem literal modul în care obiectele se raportează între ele. Pentru atingerea acestui scop, este necesar să se atribuie fiecărui obiect un punct pe plan, astfel încât distanțele perechi sij dintre punctele corespunzătoare obiectelor cu numere i și j să reproducă cât mai exact distanțele ij dintre aceste obiecte. Conform ideii de bază a metodei celor mai mici pătrate, punctele din plan sunt găsite astfel încât valoarea

a ajuns la cea mai mică valoare. Există multe alte formulări ale problemelor de reducere a dimensionalității și de vizualizare a datelor.

calitatea statisticilor matematice de probabilitate

ANALIZA STATISTICĂ MULTIVARIATĂ

Secțiunea de matematică statistică, dedicată matematicii. metode de construire a planurilor optime de colectare, sistematizare și prelucrare a statisticilor multivariate. date care vizează identificarea naturii și structurii relațiilor dintre componentele trăsăturii multidimensionale studiate și destinate obținerii de informații științifice și practice. concluzii. O trăsătură multidimensională este înțeleasă ca indicatori p-dimensionali (semne, variabile), printre care se pot număra: cantitativi, adică măsurarea scalar la o anumită scară a manifestărilor proprietății studiate a unui obiect, ordinal (sau ordinal), adică permițând aranjarea. obiectele analizate după gradul de manifestare a proprietății studiate în ele; și clasificarea (sau nominală), adică făcând posibilă împărțirea setului studiat de obiecte în clase omogene (în funcție de proprietatea analizată) care nu pot fi ordonate. Rezultatele măsurării acestor indicatori

pe fiecare dintre obiectele populației studiate, ele formează observații multidimensionale sau matricea inițială de date multidimensionale pentru efectuarea MS. A. O parte semnificativă din M. s. A. servește situațiilor în care atributul multidimensional studiat este interpretat ca un multidimensional și, în consecință, o secvență de observații multidimensionale (1) - ca dintr-o populație generală. În acest caz, alegerea metodelor de prelucrare a datelor statistice inițiale. datele și analiza proprietăților acestora se realizează pe baza anumitor ipoteze privind natura legii distribuției probabilităților multidimensionale (comunite).

Analiza statistică multivariată a distribuțiilor multivariate și a principalelor caracteristici ale acestora acoperă numai situațiile în care observațiile prelucrate (1) sunt de natură probabilistică, adică interpretate ca un eșantion din populația generală corespunzătoare. Obiectivele principale ale acestei subsecțiuni includ: statistice. evaluarea distribuțiilor multidimensionale studiate, a principalelor caracteristici numerice și parametri ai acestora; studiul proprietăților datelor statistice utilizate. note; studiul distribuțiilor de probabilitate pentru un număr de statistici, cu ajutorul cărora se construiesc statisticile. criterii de testare a diverselor ipoteze despre natura probabilistică a datelor multidimensionale analizate. Principalele rezultate se referă la cazul special când caracteristica studiată este supusă unei legi de distribuție normală multidimensională, a cărei funcție de densitate este dată de relația

unde este vectorul matematic. așteptările componentelor variabilei aleatoare, adică este matricea de covarianță a unui vector aleator, adică covarianța componentelor vectorului (cazul nedegenerat este considerat când; în caz contrar, adică cu rang , toate rezultatele rămân valabile, dar în raport cu un subspațiu de dimensiune inferioară , în care se dovedește a fi un vector aleator concentrat în studiu).

Astfel, dacă (1) este o secvență de observații independente care formează un eșantion aleatoriu din atunci estimările de probabilitate maximă pentru parametri și care participă la (2) sunt, respectiv, statistici (vezi , )

iar vectorul aleatoriu se supune legii normale p-dimensionale și nu depinde de , iar distribuția comună a elementelor matricei este descrisă de așa-numitul. distribuția districtului Wisha (vezi), to-rogo

În cadrul aceleiași scheme, distribuțiile și momentele unor astfel de caracteristici ale eșantionului unei variabile aleatoare multivariate ca perechi, coeficienți de corelație parțială și multiplă, statistici generalizate (adică), generalizate -Hotelling (vezi). În special (vezi), dacă definim estimarea corectată „pentru nepărțire” ca matrice de covarianță a eșantionului, și anume:

apoi variabila aleatoare tinde spre când , și variabilele aleatoare

respectă distribuțiile F cu numere de grade de libertate, respectiv (p, p-p) și (p, n 1 + n 2-p-1). În raport (7) n 1și n 2 - volumele a două eșantioane independente de tip (1), extrase din aceeași populație generală - estimări de tip (3) și (4)-(5), construite din eșantionul i, și

Covarianța totală a eșantionului, construită din estimări și

Analiza statistică multidimensională a naturii și structurii relațiilor dintre componentele trăsăturii multidimensionale studiate combină conceptele și rezultatele care servesc astfel de metode și modele de SM. a., ca multiplu, multidimensional analiza variatieiȘi analiza covarianței, analiza factorilorși analiza componentelor principale, analiza canonică. corelații. Rezultatele care compun conținutul acestei subsecțiuni pot fi împărțite în două tipuri principale.

1) Construirea celor mai bune (într-un anumit sens) date statistice. estimări pentru parametrii modelelor menționate și analiza proprietăților acestora (acuratețea, iar într-o formulare probabilistică - legile distribuției lor, regiunile de încredere etc.). Deci, caracteristica multidimensională studiată să fie interpretată ca un vector aleatoriu, supus unei distribuții normale p-dimensionale și împărțit în doi subvectori - coloane și dimensiuni q și, respectiv, p-q. Aceasta determină matematic diviziunea corespunzătoare a vectorului. așteptări, matrice de covarianță teoretică și eșantion, și anume:

Apoi (vezi , ) subvectorul (cu condiția ca al doilea subvector să fi luat o valoare fixă) va fi și el normal). În acest caz, estimări de probabilitate maximă. pentru matricele de coeficienți de regresie și covariate ale acestui model multivariat clasic de regresie multiplă

vor exista statistici reciproc independente, respectiv

aici repartizarea evaluării este supusă legii normale , și estimează n - legea lui Wishart cu parametrii și (elementele matricei de covarianță sunt exprimate în termeni de elemente ale matricei).

Principalele rezultate privind construirea estimărilor parametrilor și studiul proprietăților acestora în modele de analiză factorială, componente principale și corelații canonice se referă la analiza proprietăților probabilistic-statistice ale valorilor proprii și ale vectorilor diferitelor matrice de covarianță eșantion.

În scheme care nu se încadrează în cadrul clasic. model normal, și mai ales în cadrul oricărui model probabilistic, principalele rezultate se referă la construirea de algoritmi (și studiul proprietăților acestora) pentru calcularea estimărilor parametrilor care sunt cele mai bune din punctul de vedere al unei anumite funcționalități date exogen. calitatea (sau adecvarea) modelului.

2) Construirea datelor statistice. criterii de testare a diverselor ipoteze despre structura relaţiilor studiate. În cadrul modelului normal multivariat (secvențele de observații de tip (1) sunt interpretate ca eșantioane aleatorii din populațiile normale multivariate corespunzătoare), de exemplu, statistici criterii de testare a următoarelor ipoteze.

I. Ipoteze despre egalitatea vectorului matematic. așteptările indicatorilor studiați față de un vector specific dat; verificat folosind statistici Hotelling cu înlocuire în formula (6)

II. Ipoteze despre egalitatea vectorilor matematici. așteptări în două populații (cu matrice de covarianță identice, dar necunoscute), reprezentate de două eșantioane; verificat folosind statistici (vezi).

III. Ipoteze despre egalitatea vectorilor matematici. așteptări în mai multe populații generale (cu matrice de covarianță identice, dar necunoscute), reprezentate de eșantioanele lor; verificate folosind statistici

în care există observația i-a p-dimensională într-un eșantion de volum, reprezentând j-a populație generală, și și sunt estimări de forma (3), respectiv, construite separat pentru fiecare dintre eșantioane și pentru combinatul mostra de volum

IV. Ipotezele despre echivalența mai multor populații normale reprezentate de eșantioanele lor sunt testate folosind statistici

în tăietură - o estimare de tip (4), construită separat de observații j- isexemple, j=1, 2, ... , k.

V. Ipotezele despre independența reciprocă a subvectorilor-respectiv coloanelor de dimensiuni în care se împarte vectorul p-dimensional inițial al indicatorilor studiați, sunt verificate cu ajutorul statisticilor.

în care și sunt matrice de covarianță eșantion de forma (4) pentru întregul vector și pentru subvectorul său X(i) în consecință.

Analiza statistică multidimensională a structurii geometrice a setului studiat de observații multidimensionale combină conceptele și rezultatele unor astfel de modele și scheme precum analiza discriminanta, amestecuri de distribuții de probabilitate, analiză cluster și taxonomie, scalare multidimensională. Conceptul cheie în toate aceste scheme este conceptul de distanță (măsuri de proximitate, măsuri de similitudine) între elementele analizate. În acest caz, ele pot fi analizate ca obiecte reale, pe fiecare dintre acestea fiind înregistrate valorile indicatorilor - apoi geometrice. imaginea celui de-al i-lea obiect examinat va fi un punct în spațiul p-dimensional corespunzător, iar indicatorii înșiși - apoi geometrici. imaginea indicatorului l-lea va fi un punct în spațiul n-dimensional corespunzător.

Metodele și rezultatele analizei discriminante (vezi , , ) au ca scop următoarea sarcină. Se știe că există un anumit număr de populații, iar cercetătorul are câte un eșantion din fiecare populație („training samples”). Se cere să se construiască, pe baza eșantioanelor de pregătire disponibile, cea mai bună regulă de clasificare, într-un anumit sens, care să permită atribuirea unui anumit element nou (observare) populației sale generale într-o situație în care cercetătorul nu știe dinainte. căreia populaţie îi aparţine acest element. De obicei, o regulă de clasificare este înțeleasă ca o succesiune de acțiuni: prin calcularea unei funcții scalare a indicatorilor studiați, pe baza valorilor tăieturii, se ia decizia de a atribui un element uneia dintre clase (construcție de o funcție discriminantă); prin ordonarea indicatorilor înșiși în funcție de gradul conținutului lor informațional din punctul de vedere al atribuirii corecte a elementelor pe clase; prin calcularea probabilităţilor corespunzătoare de clasificare greşită.

Sarcina de a analiza amestecurile de distribuții de probabilitate (vezi) cel mai adesea (dar nu întotdeauna) apare și în legătură cu studiul „structurii geometrice” a populației luate în considerare. În acest caz, conceptul de clasa a r-a omogenă este formalizat folosind o populație generală descrisă de o anumită lege de distribuție (de obicei unimodală), astfel încât distribuția populației generale, din care se extrage eșantionul (1), este descrisă de un amestec de distribuții de forma în care p r - probabilitatea a priori (elementele specifice) clasei a r-a în populația generală. Provocarea este statisticile „bune”. estimarea (din eşantion) parametri necunoscuţi şi uneori La. Acest lucru, în special, ne permite să reducem sarcina de clasificare a elementelor la o schemă de analiză discriminantă, deși în acest caz nu au existat mostre de antrenament.

Metodele și rezultatele analizei cluster (clasificare, taxonomie, recunoaștere a modelelor „nesupravegheate”, vezi , , ) au ca scop rezolvarea următoarei probleme. Geometric setul de elemente analizat este dat fie de coordonatele punctelor corespunzătoare (adică de matricea ..., n) , sau un set de geometrice caracteristicile poziției lor relative, de exemplu, o matrice de distanțe în perechi. Este necesar să se împartă setul de elemente studiat în clase relativ mici (cunoscute anterior sau nu), astfel încât elementele unei clase să fie situate la o distanță mică unele de altele, în timp ce diferitele clase ar fi, dacă este posibil, suficient de îndepărtate reciproc de unele de altele și nu ar fi împărțite în astfel de părți care sunt îndepărtate unele de altele.

Problema scalării multidimensionale (vezi) se referă la situația în care mulțimea elementelor studiate este specificată folosind o matrice de distanțe pe perechi și constă în atribuirea fiecăruia dintre elemente a unui număr dat de coordonate (p) în așa fel încât structura distanțelor reciproce în perechi între elemente măsurate folosind aceste coordonate auxiliare, în medie, ar diferi cel mai puțin de cea dată. Trebuie remarcat faptul că principalele rezultate și metode de analiză a clusterelor și scalare multidimensională sunt de obicei dezvoltate fără ipoteze cu privire la natura probabilistică a datelor sursă.

Scopul aplicat al analizei statistice multivariate este, în principal, de a servi următoarele trei probleme.

Problema studiului statistic al dependenţelor dintre indicatorii analizaţi. Presupunând că setul studiat de indicatori x înregistrați statistic este împărțit, pe baza semnificației semnificative a acestor indicatori și a obiectivelor finale ale studiului, într-un subvector q-dimensional de variabile prezise (dependente) și un subvector (p-q)-dimensional de variabile predictive (independente), putem spune că problema este de a determina, pe baza probei (1), o astfel de funcție vectorială q-dimensională din clasa soluțiilor admisibile F, marginea ar oferi cea mai bună aproximare, într-un anumit sens, a comportamentului subvectorului indicatorilor. În funcție de tipul specific de funcțional, calitatea aproximării și natura indicatorilor analizați ajung la una sau alta schemă de analiză de regresie multiplă, varianță, covarianță sau confluență.

Problema clasificării elementelor (obiectelor sau indicatorilor) într-o formulare generală (nestrict) constă în împărțirea întregului set de elemente analizate, prezentate statistic sub forma unei matrice sau matrice, într-un număr relativ mic de omogene, într-un anumit sens, grupuri. În funcție de natura informațiilor a priori și de tipul specific de funcțional care stabilește criteriul de calitate a clasificării, se ajunge la una sau la alta schemă de analiză discriminantă, analiză cluster (taxonomie, recunoaștere a modelelor „nesupravegheată”) și împărțirea amestecurilor de distribuții. .

Problema reducerii dimensiunii spațiului factorilor studiat și a selectării celor mai informativi indicatori constă în determinarea unui astfel de set dintr-un număr relativ mic de indicatori regăsiți în clasa transformărilor admisibile ale indicatorilor inițiali. pe care se realizează un anumit roi superior al unei măsurători date exogen a conținutului informațional al sistemului m-dimensional de caracteristici (vezi). Specificarea funcționalității care specifică măsura autoinformativității (adică, care vizează maximizarea conservării informațiilor conținute în tabloul statistic (1) în raport cu caracteristicile originale în sine), conduce, în special, la diverse scheme de analiză factorială și principală. componente, la metode de grupare extremă a caracteristicilor. Funcționalele care definesc măsura conținutului informațional extern, adică, care vizează extragerea din (1) la maximum de informații cu privire la anumite altele neconținute direct în indicatori sau fenomene, conduc la diverse metode de selectare a celor mai informativi indicatori în schemele statistice. cercetarea dependenței și analiza discriminantă.

Instrumente matematice de bază ale MS. A. constituie metode speciale ale teoriei sistemelor de ecuații liniare și teoria matricelor (metode de rezolvare a problemelor simple și generalizate de valori proprii și vectori; inversarea simplă și pseudoinversia matricelor; procedee de diagonalizare pentru matrice etc.) și anumiți algoritmi de optimizare (metode). de coborare în coordonate, gradienți conjugați, ramificație și legat, diferite versiuni de căutare aleatorie și aproximare stocastică etc.).

Lit.: Anderson T., Introducere în analiza statistică multivariată, trad. din engleză, M., 1963; Kendall M.J., Stewart A., Multivariate statistical analysis and time series, trad. din engleză, M., 1976; Bolşev L.N., „Bull. Int. Stat. Inst.”, 1969, nr. 43, p. 425-41; Wishart .J., „Biometrika”, 1928, v. 20A, p. 32-52: Hotelling H., „Ann. Math. Stat.”, 1931, v. 2, p. 360-78; [c] Kruskal J. V., „Psychometrika”, 1964, v. 29, p. 1-27; Ayvazyan S. A., Bezhaeva Z. I., . Staroverov O.V., Clasificarea observațiilor multidimensionale, M., 1974.

S.A. Ayvazyan.


Enciclopedie matematică. - M.: Enciclopedia Sovietică. I. M. Vinogradov. 1977-1985.

Ghidul tehnic al traducătorului

Secțiunea de statistică matematică (vezi), dedicată matematicii. metode care vizează identificarea naturii și structurii relațiilor dintre componentele trăsăturii multidimensionale studiate (vezi) și destinate obținerii științifice. si practic......

Într-un sens larg, o secțiune de statistici matematice (Vezi Statistica matematică), care combină metode de studiere a datelor statistice legate de obiecte care sunt caracterizate prin mai multe calitative sau cantitative... ... Marea Enciclopedie Sovietică

ANALIZA STATISTICĂ MULTIVARIATĂ- o secțiune de statistici matematice concepută pentru a analiza relațiile dintre trei sau mai multe variabile. Putem distinge în mod condiționat trei clase principale de probleme A.M.S. Acesta este un studiu al structurii relațiilor dintre variabile și al reducerii dimensiunii spațiului... Sociologie: Enciclopedie

ANALIZA COVARIANȚEI- – un set de metode matematice. statistici legate de analiza modelelor de dependenţă a valorii medii a unei anumite variabile aleatoare Y de un set de factori necantitativi F şi în acelaşi timp de un set de factori cantitativi X. În raport cu Y... . .. Enciclopedia Sociologică Rusă

Secțiunea de matematică statistici, al cărei conținut este dezvoltarea și cercetarea statisticii. metode de rezolvare a următoarei probleme de discriminare: pe baza rezultatelor observațiilor, determinați care dintre mai multe posibile... ... Enciclopedia matematică, Orlova Irina Vladlenovna, Kontsevaya Natalya Valerievna, Turundaevsky Viktor Borisovich. Cartea este dedicată analizei statistice multivariate (MSA) și organizării calculelor folosind MSA. Pentru a implementa metode de statistică multivariată, se utilizează un program de procesare statistică...


Acțiune