O parte din obiectele din populația generală se numește. Populații generale și eșantionare

Statistica matematică modernă dezvoltă metode pentru determinarea numărului de teste necesare înainte de a începe un studiu (analiza secvențială) și rezolvă multe alte probleme. Este definită ca știința luării deciziilor în condiții de incertitudine.

Asa de, sarcină comună statistica matematică constă în crearea unor metode de culegere și prelucrare a datelor statistice pentru a obține concluzii științifice și practice.

Să fie necesar să se studieze un set de obiecte omogene în raport cu o trăsătură calitativă sau cantitativă care caracterizează aceste obiecte. De exemplu, dacă există un lot de piese, atunci standardul piesei poate servi ca semn calitativ, iar dimensiunea controlată a piesei poate servi ca semn cantitativ.

Uneori se efectuează o examinare completă, de ex. examinează fiecare dintre obiectele din populaţie cu privire la caracteristica de care sunt interesaţi. În practică însă, examinarea continuă este folosită relativ rar. De exemplu, dacă o populație conține un număr foarte mare de obiecte, atunci este imposibil din punct de vedere fizic să se efectueze un sondaj cuprinzător. Dacă examinarea unui obiect este asociată cu distrugerea acestuia sau necesită costuri materiale mari, atunci efectuarea unui studiu complet nu are practic sens. În astfel de cazuri, un număr limitat de obiecte sunt selectate aleatoriu din întreaga populație și supuse studiului.

Eșantion de populație sau pur și simplu un eșantion este o colecție de obiecte selectate aleatoriu.

Populatie generala numită o colecție de obiecte din care se face o selecție aleatorie.

Volum populația (eșantion sau general) este numărul de obiecte din această populație. De exemplu, dacă din 1000 de părți sunt selectate 100 de părți pentru examinare, atunci volumul populatia N = 1000 și dimensiunea eșantionului P = 100.

La compilarea unui eșantion, există două moduri de a proceda: după ce un obiect este selectat și observat, acesta poate fi sau nu returnat populației. În conformitate cu cele de mai sus, probele sunt împărțite în repetate și nerepetate.

Repeta numit eşantion în care obiectul selectat (înainte de a-l selecta pe următorul) este returnat populaţiei.

Repetabil numit eșantion în care obiectul selectat nu este returnat populației.

În practică, eșantionarea aleatorie repetată este de obicei utilizată.

Pentru a putea judeca cu suficientă încredere despre caracteristica populației de interes pe baza datelor eșantionate, este necesar ca obiectele eșantionului să o reprezinte corect. Cu alte cuvinte, eșantionul trebuie să reprezinte corect proporțiile populației. Această cerință este formulată pe scurt după cum urmează: proba trebuie să fie reprezentant (reprezentant). Aceasta înseamnă că motivele personale și alți factori semnificativi din punct de vedere psihologic și inconștienți ar trebui excluși la selectarea obiectelor. Este necesar să se respecte cu strictețe caracterul aleatoriu al selecției obiectelor, pentru a se asigura că fiecare obiect are aceeași probabilitate de a fi inclus în eșantion ca și celelalte.

În practică sunt folosite diferite căi selecţie. În principiu, aceste metode pot fi împărțite în două tipuri:

1. Selecție care nu necesită împărțirea populației generale în părți. Acestea includ:

a) selecție aleatorie simplă nerepetitivă;

b) selecție repetată aleatorie simplă.

2. Selecția, în care populația este împărțită în părți. Acestea includ:

a) selecție tipică;

b) selecţia mecanică;

c) selecția în serie.

Aleatoriu simplu se numește selecție în care obiectele sunt selectate pe rând din întreaga populație. Selecția simplă poate fi efectuată în diferite moduri. De exemplu, pentru a extrage P obiecte din populaţia generală de volum N procedați astfel: scrieți numerele de la 1 la N pe cărți care sunt bine amestecate și o carte este scoasă la întâmplare; se examinează un obiect care are același număr cu cardul scos, apoi cardul este returnat la pachet și procesul se repetă, adică. cărțile sunt amestecate, una dintre ele este scoasă la întâmplare etc. Asta fac ei P ori, ajungem cu un simplu aleatoriu repeta volumul de prelevare P.

Dacă cărțile eliminate nu sunt returnate în pachet, atunci selecția este simplă aleatorie repetabil.

Dacă populația generală este împărțită în părți tipice, de exemplu, cartușele sunt împărțite în funcție de calibru, atunci selecția se face nu din toate cartușele, ci separat în funcție de calibru. Această selecție se numește tipic.

Se numește selecția tipului „se ia fiecare al cincilea articol din populație”. mecanic.

Serial numită selecție în care obiectele sunt selectate din populația generală nu pe rând, ci în „serie” care sunt supuse unui sondaj continuu. De exemplu, dacă produsele sunt fabricate de un grup mare de mașini automate, atunci produsele doar a câtorva mașini sunt supuse unei examinări cuprinzătoare. Selecția în serie este utilizată atunci când trăsătura examinată variază ușor în diferite serii.

Subliniem că în practică este adesea folosit combinate selecție care combină metodele de mai sus. De exemplu, uneori populația este împărțită în serii de aceeași dimensiune, apoi mai multe serii sunt selectate prin eșantionare aleatorie simplă și, în final, obiecte individuale sunt extrase din fiecare serie prin eșantionare aleatorie simplă.

Curs 6. Elemente de statistică matematică

Întrebări pentru a controla cunoștințele și a rezuma prelegerea susținută

1. Definiți variabilă aleatorie.

2.Scrieți formule pentru așteptarea și varianța matematică a variabilelor aleatoare discrete și continue.

3. Definiți teorema limitei integrale locale a lui Laplace

4. Scrieți formule care definesc distribuția binomială, distribuția hipergeometrică, distribuția Poisson, distribuția uniformă și distribuția normală.

Scop: Studierea conceptelor de bază ale statisticii matematice

1. Populație și eșantion

2. Distribuția statistică a eșantionului. Poligon. diagramă cu bare .

3. Estimări ale parametrilor populației generale pe baza eșantionului acesteia

4. Medii generale și eșantionare. Metode de calcul a acestora.

5. Variante generale și eșantionare.

6. Întrebări pentru a controla cunoștințele și a rezuma prelegerea susținută

Începem să studiem elementele statisticii matematice, care dezvoltă metode bazate științific pentru colectarea datelor statistice și prelucrarea acestora.

1. Populația generală și eșantionul. Să fie necesar să se studieze un set de obiecte omogene (această mulțime se numește agregat statistic) cu privire la vreo trăsătură calitativă sau cantitativă care caracterizează aceste obiecte. De exemplu, dacă există un lot de piese, atunci standardul piesei poate servi ca semn calitativ, iar dimensiunea controlată a piesei poate servi ca semn cantitativ.

Cel mai bine este să efectuați o examinare completă, de ex. examinează fiecare obiect. Cu toate acestea, în majoritatea cazurilor, din diverse motive, acest lucru nu se poate face. Un număr mare de obiecte și inaccesibilitatea acestora pot împiedica un sondaj cuprinzător. Dacă, de exemplu, trebuie să știți adâncimea medie cratere de la explozia unui obuz dintr-un lot experimental, apoi prin efectuarea unei examinări complete vom distruge întregul lot.

Dacă un sondaj complet nu este posibil, atunci o parte a obiectelor este selectată din întreaga populație pentru studiu.

Se numește populația statistică din care este selectată o parte a obiectelor populatia generala. Se numește un set de obiecte selectate aleatoriu dintr-o populație prelevarea de probe.

Numărul de obiecte din populație și, respectiv, eșantion este numit volum populaţia generală şi volum mostre.

Exemplul 10.1. Fructele unui pom (200 bucăți) sunt examinate pentru prezența unui gust specific acestui soi. În acest scop, sunt selectate 10 piese. Aici 200 este dimensiunea populației, iar 10 este dimensiunea eșantionului.

Dacă un eșantion este selectat dintr-un obiect, care este examinat și returnat populației, atunci eșantionul este numit repetate. Dacă obiectele eșantionului nu mai sunt returnate populației, atunci eșantionul este apelat repetabil.



În practică, eșantionarea nerepetitivă este mai des utilizată. Dacă dimensiunea eșantionului este o fracțiune mică din dimensiunea populației, atunci diferența dintre eșantioanele repetate și cele nereplicate este neglijabilă.

Proprietățile obiectelor din eșantion trebuie să reflecte corect proprietățile obiectelor din populație sau, după cum se spune, eșantionul trebuie să fie reprezentant(reprezentant). Un eșantion este considerat a fi reprezentativ dacă toate obiectele din populație au aceeași probabilitate de a fi incluse în eșantion, adică selecția se face aleatoriu. De exemplu, pentru a estima recolta viitoare, puteți face un eșantion din populația generală de fructe care nu s-au copt încă și le puteți examina caracteristicile (greutate, calitate etc.). Dacă întreaga probă este luată dintr-un singur arbore, aceasta nu va fi reprezentativă. Un eșantion reprezentativ ar trebui să fie format din fructe alese aleatoriu din arbori selectați aleatoriu.

2. Distribuția statistică a eșantionului. Poligon. Diagramă cu bare. Să fie extras un eșantion din populația generală și X 1 observat n 1 timp, X 2 - n 2 o singura data, ..., x k - n k ori și n 1 +n 2 +…+ n k= P - marime de mostra. Valori observate X 1 , X 2 , …, x k numit Opțiuni, iar secvența de variante, scrisă în ordine crescătoare, este serie de variații. Numărul de observații n 1 , n 2 , …, n k numit frecvente,și relația lor cu dimensiunea eșantionului , , …, - frecvențe relative. Rețineți că suma frecvențelor relative este egală cu unitatea: .

Distribuția statistică a eșantionului apelați o listă de opțiuni și frecvențele corespunzătoare sau frecvențele relative. Distribuția statistică poate fi specificată și ca o succesiune de intervale și frecvențele corespunzătoare acestora (distribuție continuă). Suma frecvențelor variantelor care se încadrează în acest interval este luată ca frecvență corespunzătoare intervalului. Pentru a afișa grafic distribuția statistică, utilizați poligoaneȘi histogramelor.

Pentru a construi un poligon pe o axă Oh opțiunea de amânare a valorilor X i, pe axă OU - valorile frecventei P i (frecvențe relative).

Exemplul 10.2.În fig. 10.1 arată poligonul următoarei distribuții

Depozitul este de obicei folosit în cazurile în care un numar mare opțiune. În cazul unui număr mare de variante și în cazul unei distribuții continue a atributului, se construiesc adesea histograme. Pentru a face acest lucru, intervalul în care sunt conținute toate valorile observate ale atributului este împărțit în mai multe intervale parțiale de lungime hși găsiți pentru fiecare interval parțial n i, - suma frecvențelor variantei incluse în i-interval. Apoi, pe aceste intervale, ca și pe baze, se construiesc dreptunghiuri cu înălțimi (sau, unde P - marime de mostra).

Pătrat i dreptunghi parțial este egal cu , (sau ).

În consecință, aria histogramei este egală cu suma tuturor frecvențelor (sau frecvențelor relative), adică. dimensiunea eșantionului (sau unitate).

Exemplul 10.3.În fig. Figura 10.2 prezintă o histogramă a unei distribuții continue a volumului n= 100 dat în tabelul următor.

Populația statistică- un set de unitati care au caracter de masa, tipicitate, omogenitate calitativa si prezenta variatiei.

Populația statistică este formată din obiecte existente material (Angajați, întreprinderi, țări, regiuni), este un obiect.

Unitatea de populație— fiecare unitate specifică a unei populații statistice.

Aceeași populație statistică poate fi omogenă într-o caracteristică și eterogenă în alta.

Uniformitate calitativă- asemănarea tuturor unităților populației pe o anumită bază și diferență pe toate celelalte.

Într-o populație statistică, diferențele dintre o unitate de populație și alta sunt adesea de natură cantitativă. Modificările cantitative ale valorilor unei caracteristici a diferitelor unități ale unei populații se numesc variație.

Variația unei trăsături- o modificare cantitativă a unei caracteristici (pentru o caracteristică cantitativă) în timpul trecerii de la o unitate a populației la alta.

Semn- aceasta este o proprietate caracteristică sau altă caracteristică a unităților, obiectelor și fenomenelor care pot fi observate sau măsurate. Semnele sunt împărțite în cantitative și calitative. Se numește diversitatea și variabilitatea valorii unei caracteristici în unitățile individuale ale unei populații variație.

Caracteristicile atributive (calitative) nu pot fi exprimate numeric (compoziția populației pe gen). Caracteristicile cantitative au o expresie numerică (compoziția populației pe vârstă).

Index- aceasta este o caracteristică cantitativă și calitativă generalizantă a oricărei proprietăți a unităților sau agregatelor în ansamblu în condiții specifice de timp și loc.

Tabloul de punctaj este un set de indicatori care reflectă cuprinzător fenomenul studiat.

De exemplu, salariul este studiat:
  • Semn - salarii
  • Populația statistică - toți angajații
  • Unitatea populației este fiecare angajat
  • Omogenitate calitativă - salariile acumulate
  • Variația unui semn - o serie de numere

Populația și eșantionul din ea

Baza este un set de date obținute ca urmare a măsurării uneia sau mai multor caracteristici. Un set cu adevărat observat de obiecte, reprezentat statistic printr-un număr de observații ale unei variabile aleatorii, este prelevarea de probe, și existentul ipotetic (conjectural) - populatie generala. Populația poate fi finită (număr de observații N = const) sau infinit ( N = ∞), iar un eșantion dintr-o populație este întotdeauna rezultatul unui număr limitat de observații. Numărul de observații care formează un eșantion se numește marime de mostra. Dacă dimensiunea eșantionului este suficient de mare ( n → ∞) se ia în considerare eșantionul mare, altfel se numește eșantionare volum limitat. Se ia în considerare eșantionul mic, dacă atunci când se măsoară o variabilă aleatoare unidimensională, dimensiunea eșantionului nu depășește 30 ( n<= 30 ), și când se măsoară mai multe simultan ( k) caracteristici în spațiul relațional multidimensional n La k nu depășește 10 (n/k< 10) . Formele eșantionului serie de variații, dacă membrii săi sunt statistici ordinale, adică valorile eșantionului ale variabilei aleatoare X sunt ordonate crescător (clasate), se numesc valorile caracteristicii Opțiuni.

Exemplu. Aproape același set de obiecte selectat aleatoriu - băncile comerciale ale unui district administrativ al Moscovei, poate fi considerat ca un eșantion din populația generală a tuturor băncilor comerciale din acest district și ca un eșantion din populația generală a tuturor băncilor comerciale din Moscova , precum și ca eșantion de la băncile comerciale ale țării și etc.

Metode de bază de organizare a eșantionării

De fiabilitatea concluziilor statistice și interpretarea semnificativă a rezultatelor depinde reprezentativitate mostre, adică completitudinea și adecvarea reprezentării proprietăților populației generale, în raport cu care acest eșantion poate fi considerat reprezentativ. Studiul proprietăților statistice ale unei populații poate fi organizat în două moduri: folosind continuuȘi nu continuu. Observație continuă prevede examinarea tuturor unitati studiat totalitate, A observație parțială (selectivă).- doar părți din ea.

Există cinci moduri principale de a organiza observarea eșantionului:

1. selecție aleatorie simplă, în care obiectele sunt selectate aleatoriu dintr-o populație de obiecte (de exemplu, folosind un tabel sau un generator de numere aleatoare), fiecare dintre eșantioanele posibile având probabilitate egală. Se numesc astfel de mostre de fapt aleatoriu;

2. selecție simplă folosind o procedură obișnuită se realizeaza folosind o componenta mecanica (de exemplu, data, ziua saptamanii, numarul apartamentului, literele alfabetului etc.) iar mostrele obtinute in acest mod se numesc mecanic;

3. stratificat selecţia constă în faptul că populaţia generală a volumului este împărţită în subpopulaţii sau straturi (straturi) ale volumului astfel încât . Straturile sunt obiecte omogene din punct de vedere al caracteristicilor statistice (de exemplu, populația este împărțită în straturi pe grupe de vârstă sau clasă socială; întreprinderi pe industrie). În acest caz, eșantioanele sunt numite stratificat(in caz contrar, stratificat, tipic, regionalizat);

4. metode serial selecția sunt folosite pentru a forma serial sau mostre de cuib. Ele sunt convenabile dacă este necesară supravegherea simultană a unui „bloc” sau a unei serii de obiecte (de exemplu, un lot de mărfuri, produse dintr-o anumită serie sau populația unei diviziuni administrativ-teritoriale a țării). Selectarea seriei se poate face pur aleatoriu sau mecanic. În acest caz, se efectuează o inspecție completă a unui anumit lot de mărfuri sau a unei întregi unități teritoriale (o clădire sau bloc rezidențial);

5. combinate selecția (în trepte) poate combina mai multe metode de selecție simultan (de exemplu, stratificată și aleatorie sau aleatorie și mecanică); se numeste un astfel de esantion combinate.

Tipuri de selecție

De minte se disting selecția individuală, de grup și combinată. La selecție individuală unități individuale ale populației generale sunt selectate în populația eșantion, cu selecția grupului- grupuri (serii) de unități calitativ omogene și selecție combinată implică o combinație între primul și al doilea tip.

De metodă selecția se distinge repetate și nerepetitive probă.

Repetabil numită selecție în care o unitate inclusă în eșantion nu revine la populația inițială și nu participă la selecția ulterioară; în timp ce numărul de unităţi din populaţia generală N este redusă în timpul procesului de selecție. La repetate selecţie prinsîn eșantion, o unitate după înregistrare este returnată populației generale și, astfel, își păstrează șanse egale, alături de alte unități, de a fi utilizată într-o procedură de selecție ulterioară; în timp ce numărul de unităţi din populaţia generală N rămâne neschimbată (metoda este rar folosită în cercetarea socio-economică). Cu toate acestea, cu mare N (N → ∞) formule pentru repetabil selectia se apropie de cele pentru repetate selecția și acestea din urmă sunt practic mai des folosite ( N = const).

Caracteristicile de bază ale parametrilor populației generale și eșantionului

Concluziile statistice ale studiului se bazează pe distribuția variabilei aleatoare și pe valorile observate (x 1, x 2, ..., x n) se numesc realizări ale variabilei aleatoare X(n este dimensiunea eșantionului). Distribuția unei variabile aleatoare în populația generală este de natură teoretică, ideală, iar analogul eșantionului este empiric distributie. Unele distribuții teoretice sunt specificate analitic, i.e. al lor Opțiuni determinați valoarea funcției de distribuție în fiecare punct din spațiul valorilor posibile ale variabilei aleatoare. Pentru un eșantion, funcția de distribuție este dificil și uneori imposibil de determinat, prin urmare Opțiuni sunt estimate din date empirice și apoi sunt substituite într-o expresie analitică care descrie distribuția teoretică. În acest caz, ipoteza (sau ipoteză) despre tipul de distribuție poate fi fie corectă statistic, fie eronată. Dar, în orice caz, distribuția empirică reconstruită din eșantion o caracterizează doar aproximativ pe cea adevărată. Cei mai importanți parametri de distribuție sunt valorea estimata si varianta.

Prin natura lor, distribuțiile sunt continuuȘi discret. Cea mai cunoscută distribuție continuă este normal. Eșantion analogi ai parametrilor și pentru ei sunt: ​​valoarea medie și varianța empirică. Dintre cele discrete în cercetarea socio-economică, cele mai frecvent utilizate alternativă (dihotomică) distributie. Parametrul de așteptare matematică al acestei distribuții exprimă valoarea relativă (sau acțiune) unităţi ale populaţiei care au caracteristica studiată (se indică prin literă); proporţia populaţiei care nu are această caracteristică se notează cu literă q (q = 1 - p). Varianta distribuției alternative are și un analog empiric.

În funcție de tipul de distribuție și de metoda de selectare a unităților de populație, caracteristicile parametrilor de distribuție se calculează diferit. Cele principale pentru distribuțiile teoretice și empirice sunt date în tabel. 9.1.

Fracția de probă k n Raportul dintre numărul de unități din populația eșantion și numărul de unități din populația generală se numește:

kn = n/N.

Fracția de probă w este raportul dintre unitățile care posedă caracteristica studiată X la dimensiunea eșantionului n:

w = n n /n.

Exemplu.Într-un lot de mărfuri ce conține 1000 de unități, cu o probă de 5%. cota de probă k nîn valoare absolută este de 50 de unități. (n = N*0,05); dacă în această probă se găsesc 2 produse defecte, atunci rata defectelor eșantionului w va fi 0,04 (w = 2/50 = 0,04 sau 4%).

Deoarece populația eșantion este diferită de populația generală, există erori de eșantionare.

Tabelul 9.1 Principalii parametri ai populației generale și eșantionului

Erori de eșantionare

În orice caz (continuu și selectiv), pot apărea erori de două tipuri: înregistrare și reprezentativitate. Erori înregistrare poate avea AleatoriuȘi sistematic caracter. Aleatoriu erorile constau în multe cauze diferite de necontrolat, sunt neintenționate și, de obicei, se echilibrează reciproc (de exemplu, modificări ale performanței dispozitivului din cauza fluctuațiilor de temperatură din cameră).

Sistematic erorile sunt părtinitoare deoarece încalcă regulile de selectare a obiectelor pentru eșantion (de exemplu, abateri ale măsurătorilor la modificarea setărilor dispozitivului de măsurare).

Exemplu. Pentru a evalua situația socială a populației din oraș, se preconizează sondarea a 25% dintre familii. Dacă selecția fiecărui al patrulea apartament se bazează pe numărul său, atunci există pericolul de a selecta toate apartamentele de un singur tip (de exemplu, apartamente cu o cameră), ceea ce va produce o eroare sistematică și va distorsiona rezultatele; alegerea unui număr de apartament prin lot este mai de preferat, deoarece eroarea va fi aleatorie.

Erori de reprezentativitate sunt inerente doar observării eșantionului, nu pot fi evitate și apar ca urmare a faptului că populația eșantionului nu reproduce complet populația generală. Valorile indicatorilor obținuți din eșantion diferă de indicatorii acelorași valori în populația generală (sau obținute prin observare continuă).

Prejudecata de eșantionare este diferența dintre valoarea parametrului din populație și valoarea eșantionului acesteia. Pentru valoarea medie a unei caracteristici cantitative este egală cu: , iar pentru cota (caracteristică alternativă) - .

Erorile de eșantionare sunt inerente numai observațiilor din eșantion. Cu cât aceste erori sunt mai mari, cu atât distribuția empirică diferă de cea teoretică. Parametrii distribuției empirice sunt variabile aleatoare, prin urmare, erorile de eșantionare sunt și variabile aleatoare, pot lua valori diferite pentru diferite eșantioane și, prin urmare, este obișnuit să se calculeze eroare medie.

Eroare medie de eșantionare este o mărime care exprimă abaterea standard a mediei eșantionului de la așteptările matematice. Această valoare, supusă principiului selecției aleatorii, depinde în primul rând de mărimea eșantionului și de gradul de variație a caracteristicii: cu cât variația caracteristicii (și, prin urmare, valoarea) este mai mare și mai mică, cu atât eroarea medie de eșantionare este mai mică. . Relația dintre variațiile populației generale și eșantionului este exprimată prin formula:

acestea. când este suficient de mare, putem presupune că . Eroarea medie de eșantionare arată posibile abateri ale parametrului populației eșantionului față de parametrul populației generale. În tabel Tabelul 9.2 prezintă expresii pentru calcularea erorii medii de eșantionare pentru diferite metode de organizare a observației.

Tabelul 9.2 Eroarea medie (m) a mediei și proporției eșantionului pentru diferite tipuri de eșantioane

Unde este media variațiilor eșantionului în cadrul grupului pentru un atribut continuu;

Media variațiilor în interiorul grupului ale proporției;

— numărul de serii selectate; — numărul total de serii;

,

unde este media seriei a-lea;

— media generală pentru întreaga populație eșantion pentru o caracteristică continuă;

,

unde este ponderea caracteristicii din seria a-lea;

— ponderea totală a caracteristicii în întreaga populație eșantion.

Cu toate acestea, mărimea erorii medii poate fi apreciată doar cu o anumită probabilitate P (P ≤ 1). Lyapunov A.M. a demonstrat că distribuția mediilor eșantionului și, prin urmare, abaterile lor de la media generală, pentru un număr suficient de mare, respectă aproximativ legea distribuției normale, cu condiția ca populația generală să aibă o medie finită și o varianță limitată.

Matematic, această afirmație pentru medie este exprimată astfel:

iar pentru cota, expresia (1) va lua forma:

Unde - Există eroare marginală de eșantionare, care este un multiplu al erorii medii de eșantionare , iar coeficientul de multiplicitate este testul Student („coeficient de încredere”), propus de W.S. Gosset (pseudonim „Student”); valorile pentru diferite dimensiuni ale eșantionului sunt stocate într-un tabel special.

Valorile funcției Ф(t) pentru unele valori ale lui t sunt egale cu:

Prin urmare, expresia (3) poate fi citită astfel: cu probabilitate P = 0,683 (68,3%) se poate susține că diferența dintre eșantion și media generală nu va depăși o valoare a erorii medii m(t=1), cu probabilitate P = 0,954 (95,4%)- că nu va depăşi valoarea a două erori medii m (t = 2), cu probabilitate P = 0,997 (99,7%)- nu va depăși trei valori m (t = 3) . Astfel, probabilitatea ca această diferență să depășească de trei ori eroarea medie este determinată de nivelul de eroareși nu înseamnă mai mult 0,3% .

În tabel 9.3 prezintă formule pentru calcularea erorii maxime de eșantionare.

Tabelul 9.3 Eroarea marginală (D) a eșantionului pentru media și proporția (p) pentru diferite tipuri de observare a eșantionului

Generalizarea rezultatelor eșantionului la populație

Scopul final al observării eșantionului este de a caracteriza populația generală. Cu eșantioane de dimensiuni mici, estimările empirice ale parametrilor ( și ) se pot abate semnificativ de la valorile lor reale ( și ). Prin urmare, este necesar să se stabilească limite în care se află adevăratele valori ( și ) pentru valorile eșantionului parametrilor ( și ).

Interval de încredere al oricărui parametru θ al populației generale este intervalul aleatoriu de valori ale acestui parametru, care cu o probabilitate apropiată de 1 ( fiabilitate) conține valoarea adevărată a acestui parametru.

Eroare marginală mostre Δ vă permite să determinați valorile limită ale caracteristicilor populației generale și ale acestora intervale de încredere, care sunt egale:

Concluzie interval de încredere obţinut prin scădere eroare maxima din media eșantionului (cota), iar cea superioară prin adăugarea acesteia.

Interval de încredere pentru medie se utilizează eroarea maximă de eșantionare și pentru un anumit nivel de încredere este determinat de formula:

Aceasta înseamnă că cu o probabilitate dată R, care se numește nivelul de încredere și este determinat în mod unic de valoare t, se poate argumenta că adevărata valoare a mediei se află în intervalul de la , iar valoarea reală a acțiunii este în intervalul de la

Când se calculează intervalul de încredere pentru trei niveluri de încredere standard P = 95%, P = 99% și P = 99,9% valoarea este selectată prin . Aplicații în funcție de numărul de grade de libertate. Dacă dimensiunea eșantionului este suficient de mare, atunci valorile corespunzătoare acestor probabilități t sunt egale: 1,96, 2,58 Și 3,29 . Astfel, eroarea marginală de eșantionare ne permite să determinăm valorile limită ale caracteristicilor populației și intervalele de încredere ale acestora:

Distribuția rezultatelor observării eșantionului către populația generală în cercetarea socio-economică are propriile sale caracteristici, deoarece necesită reprezentarea completă a tuturor tipurilor și grupurilor sale. Baza pentru posibilitatea unei astfel de distribuții este calculul eroare relativă:

Unde Δ % - eroare relativă maximă de eșantionare; , .

Există două metode principale pentru extinderea unei observații prin eșantion la o populație: recalcularea directă și metoda coeficienților.

Esență conversie directă constă în înmulțirea mediei eșantionului!!\overline(x) cu mărimea populației.

Exemplu. Să fie estimat numărul mediu de copii mici din oraș prin metoda de eșantionare și să se ridice la o persoană. Dacă în oraș sunt 1000 de familii tinere, atunci numărul de locuri necesare în creșele municipale se obține prin înmulțirea acestei medii cu mărimea populației generale N = 1000, adică. va avea 1200 de locuri.

Metoda cotelor Se recomandă utilizarea în cazul în care se efectuează observarea selectivă pentru a clarifica datele de observare continuă.

Se folosește următoarea formulă:

unde toate variabilele sunt mărimea populației:

Mărimea eșantionului necesară

Tabelul 9.4 Mărimea eșantionului necesară (n) pentru diferite tipuri de organizare de observare a eșantionului

Atunci când se planifica o observare a eșantionului cu o valoare predeterminată a erorii de eșantionare admisibile, este necesar să se estimeze corect valoarea necesară marime de mostra. Acest volum poate fi determinat pe baza erorii admisibile în timpul observării eșantionului pe baza unei probabilități date care garantează valoarea admisibilă a nivelului de eroare (ținând cont de metoda de organizare a observației). Formulele pentru determinarea mărimii eșantionului necesar n pot fi obținute cu ușurință direct din formulele pentru eroarea maximă de eșantionare. Deci, din expresia pentru eroarea marginală:

dimensiunea eșantionului este direct determinată n:

Această formulă arată că pe măsură ce eroarea maximă de eșantionare scade Δ dimensiunea eșantionului necesară crește semnificativ, ceea ce este proporțional cu varianța și pătratul testului t Student.

Pentru o metodă specifică de organizare a observației, dimensiunea necesară a eșantionului este calculată conform formulelor date în tabel. 9.4.

Exemple practice de calcul

Exemplul 1. Calculul valorii medii și al intervalului de încredere pentru o caracteristică cantitativă continuă.

Pentru a evalua viteza de decontare cu creditorii, la bancă a fost efectuat un eșantion aleatoriu de 10 documente de plată. Valorile lor s-au dovedit a fi egale (în zile): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Necesar cu probabilitate P = 0,954 determina eroarea marginală Δ media eșantionului și limitele de încredere ale timpului mediu de calcul.

Soluţie. Valoarea medie este calculată folosind formula din tabel. 9.1 pentru populația eșantion

Varianta este calculată folosind formula din tabel. 9.1.

Eroare pătrată medie a zilei.

Eroarea medie se calculează folosind formula:

acestea. media este x ± m = 12,0 ± 2,3 zile.

Fiabilitatea mediei a fost

Calculăm eroarea maximă folosind formula din tabel. 9.3 pentru eșantionarea repetată, deoarece dimensiunea populației este necunoscută, și pentru P = 0,954 nivelul de încredere.

Astfel, valoarea medie este `x ± D = `x ± 2m = 12,0 ± 4,6, i.e. valoarea sa reală se află în intervalul de la 7,4 la 16,6 zile.

Folosind tabelul t al Studentului. Aplicația ne permite să concluzionăm că pentru n = 10 - 1 = 9 grade de libertate, valoarea obținută este fiabilă cu un nivel de semnificație de 0,001 £, i.e. valoarea medie rezultată este semnificativ diferită de 0.

Exemplul 2. Estimarea probabilității (cota generală) p.

O metodă de eșantionare mecanică de anchetă a statutului social a 1000 de familii a arătat că proporția familiilor cu venituri mici a fost w = 0,3 (30%)(eșantionul a fost 2% , adică n/N = 0,02). Necesar cu nivel de încredere p = 0,997 determina indicatorul R familii cu venituri mici din întreaga regiune.

Soluţie. Pe baza valorilor funcției prezentate Ф(t) găsiți pentru un anumit nivel de încredere P = 0,997 sens t = 3(vezi formula 3). Eroarea marginală a fracțiunii w determinați prin formula din tabel. 9.3 pentru eșantionarea nerepetitivă (prelevarea mecanică este întotdeauna nerepetitivă):

Eroare relativă maximă de eșantionare în % va fi:

Probabilitatea (ponderea generală) a familiilor cu venituri mici din regiune va fi р=w±Δw, iar limitele de încredere p sunt calculate pe baza inegalității duble:

w — Δ w ≤ p ≤ w — Δ w, adică adevărata valoare a lui p se află în:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Astfel, cu o probabilitate de 0,997 se poate afirma că ponderea familiilor cu venituri mici în rândul tuturor familiilor din regiune variază de la 28,6% la 31,4%.

Exemplul 3. Calculul valorii medii și al intervalului de încredere pentru o caracteristică discretă specificată de o serie de intervale.

În tabel 9.5. se precizează repartizarea aplicaţiilor pentru producerea comenzilor în funcţie de momentul implementării lor de către întreprindere.

Tabelul 9.5 Distribuția observațiilor în funcție de momentul apariției

Soluţie. Timpul mediu de finalizare a comenzilor se calculează folosind formula:

Perioada medie va fi:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 luni.

Primim același răspuns dacă folosim datele de pe p i din penultima coloană a tabelului. 9.5, folosind formula:

Rețineți că mijlocul intervalului pentru ultima gradație se găsește prin completarea artificială a acestuia cu lățimea intervalului gradației anterioare egală cu 60 - 36 = 24 luni.

Varianta este calculată folosind formula

Unde x i- mijlocul seriei de intervale.

Prin urmare!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4), iar eroarea pătratică medie este .

Eroarea medie este calculată folosind formula lunară, adică valoarea medie este!!\overline(x) ± m = 23,1 ± 13,4.

Calculăm eroarea maximă folosind formula din tabel. 9,3 pentru selecția repetată, deoarece dimensiunea populației este necunoscută, pentru un nivel de încredere de 0,954:

Deci media este:

acestea. adevărata sa valoare se află în intervalul de la 0 la 50 de luni.

Exemplul 4. Pentru a determina viteza decontărilor cu creditorii ai N = 500 de întreprinderi corporative într-o bancă comercială, este necesar să se efectueze un studiu eșantion folosind o metodă de selecție aleatorie nerepetitivă. Determinați dimensiunea necesară a eșantionului n astfel încât, cu probabilitatea P = 0,954, eroarea mediei eșantionului să nu depășească 3 zile dacă estimările testului au arătat că abaterea standard s a fost de 10 zile.

Soluţie. Pentru a determina numărul de studii necesare n, vom folosi formula de selecție nerepetitivă din tabel. 9.4:

În ea, valoarea t este determinată de la un nivel de încredere de P = 0,954. Este egal cu 2. Valoarea pătrată medie este s = 10, dimensiunea populației este N = 500, iar eroarea maximă a mediei este Δ x = 3. Înlocuind aceste valori în formulă, obținem:

acestea. Este suficient să compilați un eșantion de 41 de întreprinderi pentru a estima parametrul necesar - viteza decontărilor cu creditorii.

Statistici matematice este o ramură a matematicii care studiază metode aproximative de găsire a legilor de distribuție și a caracteristicilor numerice pe baza rezultatelor experimentale.

Populația – acesta este ansamblul tuturor valorilor imaginabile ale observațiilor (obiectelor), omogene în raport cu un anumit atribut, care ar putea fi realizate.

Probă este o colecție de observații (obiecte) selectate aleatoriu pentru studiu direct din populația generală.

Distribuția statistică este o mulţime de variante x i şi frecvenţele lor corespunzătoare n i .

Histograma de frecventa este o figură în trepte formată din dreptunghiuri adiacente construite pe aceeași linie dreaptă, ale căror baze sunt identice și egale cu lățimea clasei, iar înălțimea este egală fie cu frecvența de cădere în intervalul n i, fie cu frecvența relativă n i / n. Lățimea intervalului i poate fi determinată conform formulei Sturges:

I=(x max -x min)/(1+3,32lgn),

Unde x max – maxim; x min este valoarea minimă a opțiunii, iar diferența lor este numită interval de variație; n – dimensiunea eșantionului.

Poligon de frecvență – o linie întreruptă, ale cărei segmente leagă puncte cu coordonatele x i, n i.

5. Caracteristicile poziției (mod, mediană, medie a eșantionului) și dispersie (varianța eșantionului și abaterea standard a eșantionului).

Moda (M O ) acestea sunt variante ale unei astfel de semnificații încât semnificațiile precedente și următoare au frecvențe mai mici de apariție.

Pentru distribuțiile unimodale, un mod este varianta care apare cel mai frecvent într-o anumită populație.

Pentru a determina modul de serie de intervale, utilizați formula:

M 0 =x fund +i*((n 2 -n 1 )/(2n 2 -n 1 +n 3 )),

unde x inferior este limita inferioară a clasei modale, i.e. clasa cu cea mai mare frecvență de apariție n 2; n 2 – frecvența clasei modale; n 1 – frecvenţa clasei premergătoare celei modale; n 3 – frecvenţa clasei de lângă modal; i este lățimea intervalului de clasă.

Median (M e )- aceasta este valoarea atributului. Față de care seria de distribuție este împărțită în 2 părți egale ca volum.

Eșantion mediu – aceasta este valoarea medie aritmetică a unei variante a seriei statistice

Varianta eșantionului– media aritmetică a abaterilor pătrate de la valoarea lor medie:

Deviație standard este rădăcina pătrată a varianței eșantionului:

S V =√(S V 2 )

6. Estimarea parametrilor populației generale pe baza eșantionului acesteia (punct și interval). Intervalul de încredere și probabilitatea de încredere.

Se numesc valorile numerice care caracterizează populația parametrii.

Estimarea statistică poate fi efectuată în două moduri:

1)estimare punctuală– o estimare care este dată pentru un anumit punct;

2)estimarea intervalului– pe baza datelor eșantionului, se estimează intervalul în care se află valoarea adevărată cu o probabilitate dată.

Estimarea punctuala este un scor care este determinat de un singur număr. Și acest număr este determinat prin eșantionare.

Estimarea punctuala se numeste bogat, dacă, pe măsură ce dimensiunea eșantionului crește, caracteristica eșantionului tinde spre caracteristica corespunzătoare a populației generale.

Estimarea punctuala se numeste efectiv, dacă are cea mai mică varianță a distribuției de eșantionare în comparație cu alte estimări similare.

Estimarea punctuala se numeste imparțial, dacă așteptarea sa matematică este egală cu parametrul de estimare pentru orice dimensiune a eșantionului.

Estimare imparțială a mediei generale(așteptările matematice) este media eșantionului în:

V = i n i ,

unde x i – opțiuni de eșantionare; n i – frecvența de apariție a opțiunii x i; n – dimensiunea eșantionului.

Estimarea intervalului este un interval numeric care este determinat de două numere - limitele intervalului, care conține un parametru necunoscut al populației generale.

Interval de încredere– acesta este un interval în care, cu una sau alta probabilitate predeterminată, se află un parametru necunoscut al populației.

Probabilitatea de încrederep aceasta este o astfel de probabilitate încât evenimentul de probabilitate (1-p) poate fi considerat imposibil. α=1-р este nivelul de semnificație. În mod obișnuit, probabilitățile apropiate de 1 sunt utilizate ca probabilități de încredere. Atunci evenimentul în care intervalul acoperă caracteristica va fi practic de încredere. Acestea sunt p≥0,95, p≥0,99, p≥0,999.

Pentru o dimensiune mică a eșantionului (n<30) нормально распределенного количественного признака х доверительный интервал может иметь вид:

V - mt≤≤ V + mt (р≥0,95),

unde este media generală; c – media eșantionului; t este indicatorul normalizat al distribuției Student cu (n-1) grade de libertate, care este determinat de probabilitatea ca parametrul general să se încadreze într-un interval dat; m este eroarea mediei eșantionului.

Aceasta este o știință care, pe baza metodelor teoriei probabilităților, se ocupă cu sistematizarea și prelucrarea datelor statistice pentru a obține concluzii științifice și practice.

Date statistice se referă la informații despre numărul de obiecte care au anumite caracteristici .

Se numește un grup de obiecte unite după o caracteristică calitativă sau cantitativă totalitate statistică . Obiectele incluse într-o colecție se numesc elemente ale acesteia, iar numărul lor total este al acestuia volum.

Populatie generala este ansamblul tuturor observațiilor posibile care ar putea fi făcute într-un anumit set real de condiții sau mai strict: populația generală este variabila aleatoare x și spațiul de probabilitate asociat (W, Á, P).

Distribuția unei variabile aleatoare x se numește distributia populatiei(vorbesc, de exemplu, despre o populație normal distribuită sau pur și simplu normală).

De exemplu, dacă se fac un număr de măsurători independente ale unei variabile aleatorii X, atunci populația generală este teoretic infinită (adică populația generală este un concept abstract, convențional matematic); dacă se verifică numărul de produse defecte dintr-un lot de N produse, atunci acest lot este considerat o populație generală finită de volum N.

În cazul cercetării socio-economice, populația generală de volum N poate fi populația unui oraș, regiune sau țară, iar caracteristicile măsurate pot fi veniturile, cheltuielile sau suma economiilor unei persoane individuale. Dacă un anumit atribut este de natură calitativă (de exemplu, gen, naționalitate, statut social, ocupație etc.), dar aparține unui set finit de opțiuni, atunci poate fi codificat și ca număr (cum se face adesea în chestionare). ).

Dacă numărul de obiecte N este suficient de mare, atunci este dificil și uneori imposibil din punct de vedere fizic să efectuați un studiu cuprinzător (de exemplu, verificați calitatea tuturor cartușelor). Apoi un număr limitat de obiecte sunt selectate aleatoriu din întreaga populație și supuse studiului.

Eșantion de populație sau pur și simplu prelevarea de probe al volumului n este o succesiune x 1 , x 2 , ..., x n de variabile aleatoare independente distribuite identic, a căror distribuție coincide cu distribuția variabilei aleatoare x.

De exemplu, rezultatele primelor n măsurători ale unei variabile aleatorii X Se obișnuiește să se considere un eșantion de mărime n dintr-o populație infinită. Datele obținute se numesc observații ale unei variabile aleatorii x și mai spun că variabila aleatoare x „preia valorile” x 1, x 2, …, x n.


Sarcina principală a statisticii matematice este de a face concluzii bazate științific despre distribuția uneia sau mai multor variabile aleatoare necunoscute sau relația lor între ele. Metoda constând în faptul că, pe baza proprietăților și caracteristicilor eșantionului, se fac concluzii despre caracteristicile numerice și legea de distribuție a unei variabile aleatoare (populația generală) se numește prin metoda selectiva.

Pentru ca caracteristicile unei variabile aleatoare obţinute prin metoda de eşantionare să fie obiective, este necesar ca eşantionul să fie reprezentant acestea. a reprezentat destul de bine cantitatea studiată. În virtutea legii numerelor mari, se poate susține că eșantionul va fi reprezentativ dacă se realizează aleatoriu, i.e. Toate obiectele din populație au aceeași probabilitate de a fi incluse în eșantion. Există diferite tipuri de selecție de mostre în acest scop.

1. Simplu eșantionarea aleatorie este o selecție în care obiectele sunt selectate pe rând din întreaga populație.

2. Stratificat (stratificat) selecția este aceea că populația originală a volumului N este împărțită în submulțimi (straturi) N 1, N 2,...,N k, astfel încât N 1 + N 2 +...+ N k = N. Când straturile sunt determinată, din fiecare din ele se extrage o probă simplă aleatorie de volum n 1, n 2, ..., n k. Un caz special de selecție stratificată este selecția tipică, în care obiectele sunt selectate nu din întreaga populație, ci din fiecare parte tipică a acesteia.

Selecție combinată combină mai multe tipuri de selecție simultan, formând diferite faze ale unui sondaj prin sondaj. Există și alte metode de eșantionare.

Eșantionul este numit repetate , dacă obiectul selectat este returnat populației înainte de a-l selecta pe următorul. Eșantionul este numit repetabil , dacă obiectul selectat nu este returnat populației. Pentru o populație finită, selecția aleatorie fără întoarcere duce la fiecare pas la dependența observațiilor individuale, iar selecția aleatorie la fel de posibilă cu întoarcere duce la independența observațiilor. În practică, de obicei avem de-a face cu mostre nerepetitive. Cu toate acestea, atunci când dimensiunea populației N este de multe ori mai mare decât dimensiunea eșantionului n (de exemplu, de sute sau de mii de ori), dependența observațiilor poate fi neglijată.

Astfel, un eșantion aleatoriu x 1, x 2, ..., x n este rezultatul observațiilor succesive și independente ale unei variabile aleatoare ξ, reprezentând populația generală, iar toate elementele eșantionului au aceeași distribuție ca și variabila aleatoare inițială. X.

Vom numi funcția de distribuție F x (x) și alte caracteristici numerice ale variabilei aleatoare x teoretic, Spre deosebire de caracteristicile probei , care sunt determinate din rezultatele observațiilor.

Fie eșantionul x 1, x 2, ..., x k să fie rezultatul observațiilor independente ale unei variabile aleatoare x și x 1 a fost observat de n 1 ori, x 2 - n de 2 ori, ..., x k - n k ori , astfel încât n i = n - dimensiunea eșantionului. Se numește numărul n i care arată de câte ori a apărut valoarea x i în n observații frecvență valoare dată și raportul n i /n = w eu- frecventa relativa. Evident cifrele w sunt rațional și .

Se numește o populație statistică aranjată în ordine crescătoare a unei caracteristici serie de variații . Membrii săi sunt notați x (1), x (2), ... x (n) și sunt numiți Opțiuni . Seria de variații se numește discret, dacă membrii săi iau valori izolate specifice. Distribuția statistică eșantionarea unei variabile aleatoare discrete X numită o listă de opțiuni și frecvențele relative corespunzătoare w i. Tabelul rezultat este numit apropiate statistic.

X (1) x(2) ... x k(k)
ω 1 ω 2 ... ωk

Cele mai mari și mai mici valori ale seriei de variații sunt notate cu x min și x max și sunt numite membrii extremi ai seriei de variații.

Dacă se studiază o variabilă aleatoare continuă, atunci gruparea constă în împărțirea intervalului de valori observate în k intervale parțiale de lungime egală h și numărarea numărului de observații care se încadrează în aceste intervale. Numerele rezultate sunt luate ca frecvențe n i (pentru o variabilă aleatoare nouă, deja discretă). Valorile mijlocii ale intervalelor sunt de obicei luate ca valori noi pentru opțiunea x i (sau intervalele în sine sunt indicate în tabel). Conform formulei Sturges, numărul recomandat de intervale de partiție este k » 1 + log 2 n, iar lungimile intervalelor parțiale sunt egale cu h = (x max - x min)/k. Se presupune că întregul interval are forma .

Grafic, seriile statistice pot fi prezentate sub forma unui poligon, o histogramă sau un grafic al frecvențelor acumulate.

Poligon de frecvență numită linie întreruptă, ale cărei segmente leagă punctele (x 1, n 1), (x 2, n 2), ..., (x k, n k). Poligon frecvențe relative numită linie întreruptă, ale cărei segmente leagă punctele (x 1, w 1), (x 2, w 2), …, (x k , w k). Poligoanele servesc de obicei la reprezentarea unui eșantion în cazul variabilelor aleatoare discrete (Fig. 7.1.1).

Orez. 7.1

.1.

Histograma frecvenței relative numită figură în trepte constând din dreptunghiuri, a căror bază sunt intervale parțiale de lungime h și înălțimea

egal w eu/h.

O histogramă este de obicei folosită pentru a reprezenta un eșantion în cazul variabilelor aleatoare continue. Aria histogramei este egală cu unu (Fig. 7.1.2). Dacă conectați punctele medii ale părților superioare ale dreptunghiurilor pe o histogramă de frecvențe relative, atunci linia întreruptă rezultată formează un poligon de frecvențe relative. Prin urmare, o histogramă poate fi privită ca un grafic densitatea de distribuție empirică (probă). fn(x). Dacă distribuția teoretică are o densitate finită, atunci densitatea empirică este o aproximare a celei teoretice.

Graficul frecvențelor acumulate este o figură construită similar unei histograme cu diferența că pentru a calcula înălțimile dreptunghiurilor nu se iau cele simple, ci frecvențe relative acumulate, acestea. cantități Aceste valori nu scad, iar graficul frecvențelor acumulate are forma unei „scări” în trepte (de la 0 la 1).

Graficul frecvențelor acumulate este utilizat în practică pentru a aproxima funcția de distribuție teoretică.

Sarcină. Este analizat un eșantion de 100 de întreprinderi mici din regiune. Scopul sondajului este de a măsura raportul dintre fondurile împrumutate și fondurile de capital propriu (x i) la fiecare i-a întreprindere. Rezultatele sunt prezentate în Tabelul 7.1.1.

Masa Raportul dintre datoria și capitalul propriu al întreprinderilor.

5,56 5,45 5,48 5,45 5,39 5,37 5,46 5,59 5,61 5,31
5,46 5,61 5,11 5,41 5.31 5,57 5,33 5,11 5,54 5,43
5,34 5,53 5,46 5,41 5,48 5,39 5,11 5,42 5,48 5,49
5,36 5,40 5,45 5,49 5,68 5,51 5,50 5,68 5,21 5,38
5,58 5,47 5,46 5,19 5,60 5,63 5,48 5,27 5,22 5,37
5,33 5,49 5,50 5,54 5,40 5.58 5,42 5,29 5,05 5,79
5,79 5,65 5,70 5,71 5,85 5,44 5,47 5,48 5,47 5,55
5,67 5,71 5,73 5,05 5,35 5,72 5,49 5,61 5,57 5,69
5,54 5,39 5,32 5,21 5,73 5,59 5,38 5,25 5,26 5,81
5,27 5,64 5,20 5,23 5,33 5,37 5,24 5,55 5,60 5,51

Construiți o histogramă și un grafic al frecvențelor acumulate.

Soluţie. Să construim o serie grupată de observații:

1. Să determinăm în eșantion x min = 5,05 și x max = 5,85;

2. Să împărțim întregul interval în k intervale egale: k » 1 + log 2 100 = 7,62; k = 8, deci lungimea intervalului

Tabelul 7.1.2. Serii grupate de observații

Numărul intervalului Intervale Punctele medii ale intervalelor x i w i fn(x)
5,05-5,15 5,1 0,05 0,05 0,5
5,15-5,25 5,2 0,08 0,13 0,8
5,25-5,35 5,3 0,12 0,25 1,2
5,35-5,45 5,4 0,20 0,45 2,0
5,45-5,55 5,5 0,26 0,71 2,6
5,55-5,65 5,6 0,15 0,86 1,5
5,65-5,75 5,7 0,10 0,96 1,0
5,75-5,85 5,8 0,04 1,00 0,4

În fig. 7.1.3 și 7.1.4, construite conform datelor din Tabelul 7.1.2, prezintă o histogramă și un grafic al frecvențelor acumulate. Curbele corespund funcției de densitate și distribuție normală „adaptată” datelor.

Astfel, distribuția eșantionului este o aproximare a distribuției populației.

Acțiune