İstatistiksel çok değişkenli araştırma yöntemleri faktör analizi. Çok değişkenli istatistiksel analiz (128,00 RUB). Faktör analizi yönteminin temel kavramları, çözdüğü problemlerin özü

Ders kitabı, yazarın çok değişkenli istatistiksel analiz ve ekonometri derslerini öğretme deneyimine dayanarak oluşturulmuştur. Diskriminant, faktör, regresyon analizi, yazışma analizi ve zaman serisi teorisine ilişkin materyaller içerir. Çok boyutlu ölçeklendirme problemlerine ve çok boyutlu istatistiğin diğer bazı problemlerine yaklaşımlar sunulmaktadır.

Gruplama ve sansürleme.
Örnek veri gruplarını, gruplandırılmış verilerin karar verme için gruplama öncesinde örnekle hemen hemen aynı miktarda bilgi sağlayabilecek şekilde oluşturma görevi ilk olarak araştırmacı tarafından çözülür. Gruplandırmanın amacı genellikle bilgi miktarını azaltmak, hesaplamaları basitleştirmek ve verileri daha net hale getirmektir. Bazı istatistiksel testler başlangıçta gruplandırılmış bir örnekle çalışmak üzere tasarlanmıştır. Bazı yönlerden gruplama problemi, aşağıda daha detaylı olarak tartışılacak olan sınıflandırma problemine çok benzemektedir. Araştırmacı, gruplandırma göreviyle eş zamanlı olarak numuneyi sansürleme sorununu da çözer; kural olarak büyük gözlem hatalarının sonucu olan keskin aykırı verilerin hariç tutulması. Doğal olarak gözlem sürecinde bu tür hataların olmamasının sağlanması arzu edilir, ancak bu her zaman mümkün değildir. Bu iki problemi çözmenin en basit yöntemleri bu bölümde tartışılmaktadır.

İçindekiler
1 Ön bilgi
1.1 Analiz ve cebir
1.2 Olasılık teorisi
1.3 Matematiksel istatistikler
2 Çok değişkenli dağılımlar
2.1 Rastgele vektörler
2.2 Bağımsızlık
2.3 Sayısal özellikler
2.4 Çok değişkenli durumda normal dağılım
2.5 Korelasyon teorisi
3 Gruplandırma ve sansürleme
3.1 Tek boyutlu gruplama
3.2 Tek boyutlu sansürleme
3.3 Beklenmedik Durum Tabloları
3.3.1 Bağımsızlık hipotezi
3.3.2 Homojenlik hipotezi
3.3.3 Korelasyon alanı
3.4 Çok boyutlu gruplama
3.5 Çok değişkenli sansürleme
4 Sayısal olmayan veriler
4.1 Giriş açıklamaları
4.2 Karşılaştırma ölçekleri
4.3 Uzman değerlendirmeleri
4.4 Uzman grupları
5 Güven seti
5.1 Güven aralıkları
5.2 Güven kümeleri
5.2.1 Çok değişkenli parametre
5.2.2 Çok değişkenli örnekleme
5.3 Tolerans kümeleri
5.4 Küçük örnek
6 Regresyon analizi
6.1 Sorunun açıklaması
6.2 OMC'yi arayın
6.3 Sınırlamalar
6.4 Plan Matrisi
6.5 İstatistiksel tahmin
7 Varyans analizi
7.1 Giriş notları
7.1.1 Normallik
7.1.2 Varyansların tekdüzeliği
7.2 Tek faktör
7.3 İki faktör
7.4 Genel durum
8 Boyut azaltımı
8.1 Sınıflandırmaya neden ihtiyaç duyulur?
8.2 Model ve örnekler
8.2.1 Temel bileşen analizi
8.2.2 Özelliklerin aşırı gruplandırılması
8.2.3 Çok boyutlu ölçeklendirme
8.2.4 Diskriminant analizi için göstergelerin seçimi
8.2.5 Regresyon modelinde göstergelerin seçimi
9 Diskriminant analizi
9.1 Modelin uygulanabilirliği
9.2 Doğrusal tahmin kuralı
9.3 Pratik öneriler
9.4 Bir örnek
9.5 İkiden fazla sınıf
9.6 Ayrımcılığın kalitesinin kontrol edilmesi
10 Sezgisel yöntemler
10.1 Aşırı grup
10.1.1 Kare kriteri
10.1.2 Modüllerin kriteri
10 2 Ülker yöntemi
11 Temel bileşen yöntemi
11 1 Sorunun açıklaması
112 Temel bileşenlerin hesaplanması
11.3 Örnek
114 Ana bileşenlerin özellikleri
11.4.1 Kendiliğinden kopyalanabilirlik
11.4.2 Geometrik özellikler
12 Faktör analizi
12.1 Sorun bildirimi
12.1.1 Ana bileşenlerle iletişim
12.1.2 Çözümün belirsizliği
12.2 Matematiksel model
12.2.1 A'da Koşullar
12.2.2 Yük matrisindeki koşullar. Merkez yöntemi
12.3 Gizli faktörler
12.3.1 Bartlett yöntemi
12.3.2 Thomson yöntemi
12.4 Örnek
13 Dijitalleştirme
13.1 Yazışma analizi
13.1.1 Ki-kare mesafesi
13.1.2 Diskriminant analizi görevleri için dijitalleştirme
13.2 İkiden fazla değişken
13.2.1 İkili veri matrisinin yazışma matrisi olarak kullanılması
13.2.2 Maksimum korelasyonlar
13.3 Boyut
13.4 Örnek
13.5 Karma veri durumu
14 Çok boyutlu ölçeklendirme
14.1 Giriş notları
14.2 Torgerson modeli
14.2.1 Stres kriteri
14.3 Torgerson algoritması
14.4 Bireysel farklılıklar
15 Zaman serisi
15.1 Genel hükümler
15.2 Rastgelelik kriterleri
15.2.1 Tepeler ve delikler
15.2.2 Faz uzunluğu dağılımı
15.2.3 Sıra korelasyonuna dayalı kriterler
15.2.4 Korelogram
15.3 Trend ve mevsimsellik
15.3.1 Polinom eğilimleri
15.3.2 Trend derecesinin seçilmesi
15.3.3 Kenar Yumuşatma
15.3.4 Mevsimsel değişimlerin değerlendirilmesi
Normal dağılım
B Dağıtımı X2
C Öğrenci dağılımı
D Fisher dağılımı.


E-kitabı uygun bir formatta ücretsiz indirin, izleyin ve okuyun:
Çok değişkenli istatistiksel analiz kitabını indirin, Dronov S.V., 2003 - fileskachat.com, hızlı ve ücretsiz indirin.

PDF İndir
Aşağıda bu kitabı Rusya genelinde teslimatla indirimli olarak en iyi fiyata satın alabilirsiniz.

Ekonometri

Çok değişkenli istatistiksel analiz


Çok değişkenli istatistiksel analizde örnek, çok boyutlu bir uzayın unsurlarından oluşur. Ekonometrik yöntemlerin bu bölümünün adı buradan gelmektedir. Çok değişkenli istatistiksel analizin birçok probleminden iki bağımlılığın kurtarılması ve sınıflandırılmasını ele alacağız.

Doğrusal tahmin fonksiyonunun tahmini

Tek değişkenli doğrusal tahmin fonksiyonunun nokta ve güven tahmini problemi ile başlayalım.

Başlangıç ​​verileri – n sayıda sayı çiftinden oluşan bir dizi (t k, x k), k = 1,2,...,n; burada t k bağımsız bir değişkendir (örneğin zaman) ve x k bağımlı bir değişkendir (örneğin , enflasyon endeksi, ABD doları döviz kuru, aylık üretim hacmi veya bir perakende satış mağazasının günlük gelir miktarı). Değişkenlerin bağımlılıkla ilişkili olduğu varsayılır

x k = a (t k - t ort)+ b + e k , k = 1,2,…,n,

burada a ve b, istatistikler tarafından bilinmeyen ve tahmine tabi parametrelerdir ve e, bağımlılığı bozan hatalardır. Zaman noktalarının aritmetik ortalaması

t av = (t 1 + t 2 +…+t n) / n

Daha sonraki hesaplamaları kolaylaştırmak için modele girildi.

Tipik olarak, doğrusal bir ilişkinin a ve b parametreleri en küçük kareler yöntemi kullanılarak tahmin edilir. Daha sonra geri yüklenen bağımlılık, nokta ve aralık tahmini için kullanılır.

Bilindiği üzere en küçük kareler yöntemi, büyük Alman matematikçi K. Gauss tarafından 1794 yılında geliştirilmiştir. Bu yönteme göre, x'in t'ye bağımlılığına doğrusal olarak yaklaşan en iyi fonksiyonu hesaplamak için iki değişkenli bir fonksiyonun dikkate alınması gerekir.


En küçük kareler tahminleri, f(a,b) fonksiyonunun argümanların tüm değerleri üzerinde minimuma ulaştığı a* ve b* değerleridir.

Bu tahminleri bulmak için f(a,b) fonksiyonunun kısmi türevlerini a ve b argümanlarına göre hesaplamanız, bunları 0'a eşitlemeniz ve ardından elde edilen denklemlerden tahminleri bulmanız gerekir: Elimizde:

Ortaya çıkan ilişkilerin sağ taraflarını dönüştürelim. Toplam işareti olarak 2 ve (-1) ortak çarpanlarını çıkaralım. O zaman şartlara bakalım. İlk ifadedeki parantezleri açalım ve her terimin üçe bölündüğünü bulalım. İkinci ifadede de her terim üçün toplamıdır. Bu, her miktarın üç miktara bölündüğü anlamına gelir. Sahibiz:


Kısmi türevleri 0'a eşitleyelim. Sonra ortaya çıkan denklemlerde (-2) faktörünü azaltabiliriz. Çünkü

(1)

denklemler şu formu alır

Bu nedenle en küçük kareler tahminleri şu şekildedir:

(2)

İlişki (1) sayesinde, a* tahmini daha simetrik bir biçimde yazılabilir:

Bu tahmin kolaylıkla forma dönüştürülebilir.

Bu nedenle, tahmin etmek ve enterpolasyon yapmak için kullanılabilecek yeniden yapılandırılmış fonksiyon şu şekildedir:

x*(t) = a*(t - t av)+ b*.

Son formülde t cf kullanımının genelliğini hiçbir şekilde sınırlamadığına dikkat edelim. Formun bir modeliyle karşılaştırın

x k = c t k + d + e k , k = 1,2,…,n.

Açık ki

Parametre tahminleri benzer şekilde ilişkilidir:

Parametre tahminleri ve tahmine dayalı bir formül elde etmek için herhangi bir olasılıksal modele başvurmaya gerek yoktur. Ancak parametre tahminlerindeki ve yeniden oluşturulan fonksiyondaki hataları incelemek için; a*, b* ve x*(t) için güven aralıkları oluşturduğunuzda böyle bir model gereklidir.

Parametrik olmayan olasılıksal model. Bağımsız değişken t'nin değerleri deterministik olsun ve e k , k = 1,2,...,n hataları sıfır matematiksel beklenti ve varyansa sahip bağımsız, aynı şekilde dağıtılmış rastgele değişkenler olsun

bilinmeyen istatistikler

Gelecekte, e k , k = 1.2,...,n (ağırlıklarla birlikte) miktarları için olasılık teorisinin Merkezi Limit Teoremini (CLT) tekrar tekrar kullanacağız, bu nedenle koşullarını yerine getirmek için aşağıdakileri varsaymak gerekir: örneğin, e k , k = 1.2 ,…,n hataları sonludur veya sonlu bir üçüncü mutlak momente sahiptir. Ancak bu matematik içi “düzenlilik koşulları” üzerinde durmaya gerek yok.

Parametre tahminlerinin asimptotik dağılımları. Formül (2)'den şu sonuç çıkıyor:

(5)

CLT'ye göre b* tahmini, matematiksel beklenti b ve varyans ile asimptotik olarak normal bir dağılıma sahiptir.

ile ilgili değerlendirme aşağıda yer almaktadır.

Formül (2) ve (5)'ten şu sonuç çıkar:

İkinci bağıntıdaki son terim i üzerinden toplandığında 0'a döner, dolayısıyla formül (2-4)'ten şu sonuç çıkar:

(6)

Formül (6) tahminin şunu göstermektedir:

matematiksel beklenti ve varyansla asimptotik olarak normaldir

Formül (6)'daki her bir terimin toplamın tamamıyla karşılaştırıldığında küçük olması durumunda çok boyutlu normalliğin mevcut olduğuna dikkat edin;


Formüller (5) ve (6) ve hatalara ilişkin başlangıç ​​varsayımları da parametre tahminlerinin tarafsız olduğunu ima etmektedir.

En küçük kareler tahminlerinin tarafsızlığı ve asimptotik normalliği, onlar için asimptotik güven sınırlarını belirlemeyi (önceki bölümdeki sınırlara benzer şekilde) ve örneğin, başta 0 olmak üzere belirli değerlere eşitlikle ilgili istatistiksel hipotezleri test etmeyi kolaylaştırır. güven sınırlarını hesaplamak için formüller yazma ve söz konusu hipotezleri test etmek için kurallar oluşturma fırsatı.

Tahmin fonksiyonunun asimptotik dağılımı. Formül (5) ve (6)'dan şu sonuç çıkar:

onlar. tahmin fonksiyonunun dikkate alınan tahmini tarafsızdır. Bu yüzden

Ayrıca hatalar toplamda bağımsız olduğundan ve

, O

Böylece,

Rastgele değişkenliğin bir veya iki rastgele değişkenle (işaretlerle) temsil edildiği durumlar vardır.

Örneğin, istatistiksel bir insan popülasyonunu incelerken boy ve kiloyla ilgileniriz. Bu durumda istatistiksel popülasyonda kaç kişi olursa olsun her zaman bir dağılım grafiği çizebilir ve resmin tamamını görebiliriz. Ancak üç özellik varsa, örneğin bir kişinin yaşı eklenirse, dağılım grafiğinin üç boyutlu uzayda oluşturulması gerekir. Üç boyutlu uzayda bir nokta koleksiyonunu hayal etmek zaten oldukça zor.

Gerçekte, pratikte her gözlem bir, iki veya üç sayıyla değil, düzinelerce özelliği tanımlayan dikkat çekici bir dizi sayıyla temsil edilir. Bu durumda bir dağılım grafiği oluşturmak, çok boyutlu uzayların dikkate alınmasını gerektirecektir.

Çok değişkenli gözlemlerle yapılan deneylerin incelenmesiyle ilgilenen istatistik dalına çok değişkenli istatistiksel analiz denir.

Bir deneyde birden fazla işareti (bir nesnenin özelliklerini) aynı anda ölçmek genellikle yalnızca bir veya iki işareti ölçmekten daha doğaldır. Bu nedenle potansiyel olarak çok değişkenli istatistiksel analizin geniş bir uygulama alanı vardır.

Çok değişkenli istatistiksel analiz aşağıdaki bölümleri içerir:

Faktor analizi;

Diskriminant analizi;

Küme analizi;

Çok boyutlu ölçekleme;

Kalite kontrol yöntemleri.

Faktor analizi

Karmaşık nesneler ve sistemler incelenirken (örneğin psikoloji, biyoloji, sosyoloji vb.), bu nesnelerin özelliklerini belirleyen nicelikler (faktörler) çoğu zaman doğrudan ölçülemez, hatta bazen sayıları ve anlamlı anlamları bile bilinmemektedir. . Ancak ilgilenilen faktörlere şu ya da bu şekilde bağlı olarak ölçüm için başka nicelikler de mevcut olabilir. Üstelik bizi ilgilendiren bilinmeyen bir faktörün etkisi, ölçülen birkaç özellikte ortaya çıktığında, bu özellikler birbiriyle yakın bir ilişki gösterebilir ve toplam faktör sayısı, ölçülen değişken sayısından çok daha az olabilir.

Faktör analizi yöntemleri, ölçülen değişkenleri etkileyen faktörleri keşfetmek için kullanılır.

Faktör analizinin uygulanmasına bir örnek, kişilik özelliklerinin psikolojik testlere dayalı olarak incelenmesidir. Kişilik özellikleri doğrudan ölçülemez; yalnızca kişinin davranışına veya belirli sorulara verdiği yanıtların niteliğine göre değerlendirilebilir. Deneylerin sonuçlarını açıklamak için, test edilen bireylerin davranışlarını etkileyen kişisel özellikleri belirlememize olanak tanıyan faktör analizine tabi tutulurlar.


Çeşitli faktör analizi modelleri şu hipoteze dayanmaktadır: gözlemlenen veya ölçülen parametreler, incelenen nesnenin veya olgunun yalnızca dolaylı özellikleridir; gerçekte, içsel (gizli, gizli) parametreler vardır. gizli, sayısı küçük olan ve gözlemlenen parametrelerin değerlerini belirleyen doğrudan gözlemlenemeyen parametreler ve özellikler. Bu iç parametrelere genellikle faktörler adı verilir.

Faktör analizinin görevigözlenen parametrelerin, faktörlerin ve belki de bazı ek, önemsiz bozuklukların doğrusal kombinasyonları biçiminde temsilidir.

Faktör analizinin ilk aşaması, kural olarak, öncekilerin doğrusal kombinasyonları olan ve gözlemlenen verilerdeki toplam değişkenliğin çoğunu "emen" ve dolayısıyla verinin içerdiği bilgilerin çoğunu aktaran yeni özelliklerin seçilmesidir. orijinal gözlemler. Bu genellikle kullanılarak yapılır temel bileşenler yöntemi, bazen başka teknikler kullanılsa da (maksimum olasılık yöntemi).

Temel bileşenler yöntemi, gözlem uzayında yeni bir ortogonal koordinat sisteminin seçilmesine dayanır. Gözlem dizisinin en büyük dağılıma sahip olduğu yön, ilk temel bileşen olarak seçilir; sonraki her temel bileşen, gözlemlerin dağılımı maksimum olacak ve bu temel bileşen, daha önce seçilen diğer temel bileşenlere dik olacak şekilde seçilir. Ancak temel bileşenler yöntemiyle elde edilen faktörler genellikle yeterince açık bir şekilde yorumlanamamaktadır. Bu nedenle faktör analizinde bir sonraki adım, yorumlamayı kolaylaştırmak için faktörlerin dönüştürülmesi, döndürülmesidir.

Diskriminant analizi

Birkaç gruba bölünmüş bir nesne koleksiyonu olsun ve her nesne için hangi gruba ait olduğunu belirlemek mümkündür. Her nesne için çeşitli niceliksel özelliklerin ölçümleri vardır. Bu özelliklere dayanarak nesnenin ait olduğu grubu bulmanın bir yolunu bulmak gerekir. Bu, aynı koleksiyondaki yeni nesnelerin ait olduğu grupları belirtmenize olanak tanır. Sorunu çözmek için kullanıyorlar Diskriminant analizi yöntemleri.

Diskriminant analizi- Bu, içeriği gözlem nesnelerinin belirli özelliklere göre ayrımcılığı (ayrımcılık) sorunlarını çözmek için yöntemlerin geliştirilmesi olan bir istatistik dalıdır.

Bazı örneklere bakalım.

Diskriminant analizi, belirli bir pozisyon için işe alım söz konusu olduğunda bireylerin test sonuçlarının işlenmesinde faydalıdır. Bu durumda tüm adayları “uygun” ve “uygun değil” olarak iki gruba ayırmak gerekir.

Diskriminant analizinin kullanılması, bankacılık yönetimi tarafından, onlara kredi verirken müşterilerin işlerinin mali durumunu değerlendirmek için mümkündür. Banka bunları bir dizi kritere göre güvenilir ve güvenilmez olarak sınıflandırıyor.

Diskriminant analizi, herhangi bir üretim ve ekonomik faaliyet göstergesinin değerlerine göre bir dizi işletmeyi birkaç homojen gruba bölmek için bir yöntem olarak kullanılabilir.

Diskriminant analizi yöntemleri, değerleri nesnelerin gruplara bölünmesini açıklayan, ölçülen özelliklerin fonksiyonlarını oluşturmayı mümkün kılar. Bu fonksiyonların olması arzu edilir. (ayırt edici özellikler) birazdı. Bu durumda analiz sonuçlarının anlamlı bir şekilde yorumlanması daha kolay olur.

Sadeliği nedeniyle, sınıflandırma özelliklerinin birincil özelliklerin doğrusal fonksiyonları olarak seçildiği doğrusal diskriminant analizi özel bir rol oynar.

Küme analizi

Küme analizi yöntemleri, incelenen nesne kümesini küme adı verilen "benzer" nesne gruplarına ayırmayı mümkün kılar.

Kelime kümeİngilizce kökenli - küme şu şekilde tercüme edilir: fırça, demet, grup, sürü, küme.

Küme analizi aşağıdaki sorunları çözer:

Nesneyi karakterize eden tüm özellikleri dikkate alarak nesneleri sınıflandırır. Sınıflandırma olanağı, bizi söz konusu bütünlüğün ve onun içinde yer alan nesnelerin daha derinlemesine anlaşılmasına doğru yönlendirir;

Mevcut popülasyonda önceden verilen bir yapının veya sınıflandırmanın varlığını kontrol etme görevini belirler. Böyle bir test, bilimsel araştırmanın standart varsayımsal-tümdengelimli şemasının kullanılmasını mümkün kılar.

Çoğu kümeleme (hiyerarşik grup) yöntemi aglomeratif(birleşme) - her biri tam olarak bir başlangıç ​​gözleminden (bir nokta) oluşan temel kümeler oluşturarak başlarlar ve sonraki her adımda en yakın iki küme bir araya getirilir.

Bu süreci durdurma anı araştırmacı tarafından belirlenebilir (örneğin, gerekli küme sayısı veya birleşmenin sağlandığı maksimum mesafe belirtilerek).

Küme birleştirme işleminin grafiksel bir temsili aşağıdakiler kullanılarak elde edilebilir: dendrogramlar- küme birleştirme ağacı.

Aşağıdaki örneği düşünün. Her biri üç değişkenle karakterize edilen beş işletmeyi sınıflandıralım:

x 1- sabit üretim varlıklarının ortalama yıllık maliyeti, milyar ruble;

x 2– 1 rub başına malzeme maliyeti. üretilen ürünler, kopekler;

x 3– üretilen ürünlerin hacmi, milyar ruble.

Çok değişkenli istatistiksel analiz aşağıdaki sorunları çözmek için kullanılır:

  • * işaretler arasındaki bağımlılığın incelenmesi;
  • * vektörler tarafından belirtilen nesnelerin veya özelliklerin sınıflandırılması;
  • * Özellik alanının boyutunun azaltılması.

Bu durumda, gözlemlerin sonucu, bir nesnede ölçülen sabit sayıda niceliksel ve bazen niteliksel özelliklerin değerlerinin bir vektörüdür. Niceliksel bir özellik, gözlemlenebilir bir birimin doğrudan bir sayı ve ölçü birimi ile ifade edilebilen bir özelliğidir. Niceliksel bir karakteristik, niteliksel bir karakteristikle - iki veya daha fazla koşullu kategoriden birine atanarak belirlenen, gözlemlenen bir birimin bir özelliği (tam olarak iki kategori varsa, o zaman karakteristik alternatif olarak adlandırılır) ile karşılaştırılır. Niteliksel özelliklerin istatistiksel analizi, sayısal olmayan nesnelerin istatistiklerinin bir parçasıdır. Nicel özellikler; aralık, oran, fark ve mutlak ölçeklerinde ölçülen özelliklere bölünmüştür.

Ve niteliksel olanlar - bir isim ölçeğinde ve bir sıra ölçeğinde ölçülen özellikler için. Veri işleme yöntemlerinin, söz konusu özelliklerin ölçüldüğü ölçeklerle tutarlı olması gerekir.

Özellikler arasındaki bağımlılığı çalışmanın amacı, özellikler arasında bir bağlantının varlığını kanıtlamak ve bu bağlantıyı araştırmaktır. İki rastgele değişken X ve Y arasında bir bağlantının varlığını kanıtlamak için korelasyon analizi kullanılır. X ve Y'nin ortak dağılımı normalse, istatistiksel sonuçlar numunenin doğrusal korelasyon katsayısına dayanır; diğer durumlarda Kendall ve Spearman sıra korelasyon katsayıları kullanılır ve niteliksel özellikler için ki-kare testi kullanılır.

Regresyon analizi, Y niceliksel özelliğinin x(1), x(2), ..., x(k) niceliksel özelliklerine işlevsel bağımlılığını incelemek için kullanılır. Bu bağımlılığa regresyon veya kısaca regresyon denir. Regresyon analizinin en basit olasılıksal modeli (k = 1 durumunda), ilk bilgi olarak bir dizi gözlem sonucu (xi, yi), i = 1, 2, …, n'yi kullanır ve şu forma sahiptir:

yi = eksen + b + ei, i = 1, 2, … , n,

burada ei gözlem hatalarıdır. Bazen ei'nin aynı N(0, y2) normal dağılımına sahip bağımsız rastgele değişkenler olduğu varsayılır. Gözlem hatalarının dağılımı genellikle normalden farklı olduğundan, regresyon modelinin parametrik olmayan bir formülasyonda dikkate alınması tavsiye edilir. ei'nin keyfi bir dağılımı ile.

Regresyon analizinin asıl görevi, y'nin x'e doğrusal bağımlılığını tanımlayan bilinmeyen a ve b parametrelerini tahmin etmektir. Bu sorunu çözmek için K. Gauss'un 1794 yılında geliştirdiği en küçük kareler yöntemi kullanılır; kareler toplamının en aza indirilmesi koşulundan bilinmeyen model parametreleri a ve b'nin tahminlerini bulun

a ve b değişkenlerine göre.

Varyans analizi, niteliksel özelliklerin niceliksel bir değişken üzerindeki etkisini incelemek için kullanılır. Örneğin, k makinede üretilen ürün birimlerinin kalitesinin niceliksel bir göstergesinin ölçüm sonuçlarının k örneği olsun, yani. bir sayı kümesi (x1(j), x2(j), … , xn(j)) burada j makine numarası, j = 1, 2, …, k ve n örneklem boyutudur. Varyans analizinin yaygın bir formülasyonunda, ölçüm sonuçlarının bağımsız olduğu ve her örnekte aynı varyansa sahip normal bir N(m(j), y2) dağılımına sahip olduğu varsayılır.

Ürün kalitesinin tekdüzeliğinin kontrol edilmesi, yani. Makine numarasının ürün kalitesi üzerinde etkisinin olmaması hipotezin test edilmesine bağlıdır

H0: m(1) = m(2) = … = m(k).

Varyans analizi bu tür hipotezleri test etmek için yöntemler geliştirmiştir.

H0 hipotezi, belirtilen eşitliklerden en az birinin sağlanmadığını belirten alternatif hipotez H1'e karşı test edilir. Bu hipotezin testi, R. A. Fisher tarafından belirtilen aşağıdaki "varyans ayrıştırmasına" dayanmaktadır:

burada s2, havuzlanmış numunedeki numune varyansıdır, yani.

Dolayısıyla formül (7)'nin sağ tarafındaki ilk terim grup içi dağılımı yansıtmaktadır. Son olarak, gruplar arası varyans vardır,

Formül (7) gibi varyans açılımlarıyla ilişkili uygulamalı istatistik alanına varyans analizi denir. Varyans analizi problemine bir örnek olarak, ölçüm sonuçlarının bağımsız olduğu ve her örnekte aynı varyansa sahip normal bir N(m(j), y2) dağılımına sahip olduğu varsayımı altında yukarıdaki H0 hipotezini test etmeyi düşünün. H0 doğruysa, formül (7)'nin sağ tarafındaki y2'ye bölünen ilk terim k(n-1) serbestlik derecesine sahip ki-kare dağılımına sahiptir ve y2'ye bölünen ikinci terim de şunu verir: ki-kare dağılımı, ancak ( k-1) serbestlik derecesine sahip, birinci ve ikinci terimler rastgele değişkenler olarak bağımsızdır. Bu nedenle rastgele değişken

(k-1) pay serbestlik derecesine ve k(n-1) payda serbestlik derecesine sahip bir Fisher dağılımına sahiptir. F ise H0 hipotezi kabul edilir< F1-б, и отвергается в противном случае, где F1-б - квантиль порядка 1-б распределения Фишера с указанными числами степеней свободы. Такой выбор критической области определяется тем, что при Н1 величина F безгранично увеличивается при росте объема выборок n. Значения F1-б берут из соответствующих таблиц.

Klasik varyans analizi problemlerini çözmek, özellikle H0 hipotezini test etmek için parametrik olmayan yöntemler geliştirilmiştir.

Çok değişkenli istatistiksel analiz problemlerinin bir sonraki türü sınıflandırma problemleridir. Temel olarak üç farklı türe ayrılırlar: diskriminant analizi, küme analizi, gruplandırma sorunları.

Diskriminant analizinin görevi, gözlemlenen bir nesneyi daha önce tanımlanan sınıflardan birine sınıflandırmak için bir kural bulmaktır. Bu durumda nesneler, koordinatları her nesnedeki bir takım özelliklerin gözlemlenmesinin sonuçları olan vektörler kullanılarak matematiksel bir modelde tanımlanır. Sınıflar ya doğrudan matematiksel terimlerle ya da eğitim örnekleri kullanılarak tanımlanır. Eğitim seti, her elemanın hangi sınıfa ait olduğu gösterilen bir örnektir.

Teknik teşhiste karar vermede diskriminant analizinin kullanılmasına ilişkin bir örneği ele alalım. Bir dizi ürün parametresini ölçmenin sonuçlarına dayanarak, kusurların varlığını veya yokluğunu tespit etmenin gerekli olduğunu varsayalım. Bu durumda, örneğin belirli bir çalışma süresinden sonra yapılan ek araştırmalar sırasında keşfedilen kusurlar, eğitim örneğinin unsurları için belirtilir. Diskriminant analizi, kontrol miktarını azaltmanıza ve ayrıca ürünlerin gelecekteki davranışını tahmin etmenize olanak tanır. Diskriminant analizi, regresyon analizine benzer; ilki, niteliksel bir özelliğin değerini, ikincisi ise niceliksel bir özelliği tahmin etmenizi sağlar. Sayısal olmayan nesnelerin istatistiklerinde, özel durumları regresyon ve diskriminant analizleri olan bir matematiksel şema geliştirilmiştir.

Küme analizi, istatistiksel verilere dayanarak örnek öğelerin gruplara ayrılmasının gerekli olduğu durumlarda kullanılır. Üstelik bir grubun aynı gruptan iki unsurunun kendilerinde ölçülen özelliklerin değerlerinin toplamı açısından “yakın” olması, farklı gruplardan iki unsurun da aynı anlamda “uzak” olması gerekir. Diskriminant analizinden farklı olarak kümeleme analizinde sınıflar belirtilmez, istatistiksel verilerin işlenmesi sürecinde oluşturulur. Örneğin, kümeleme analizi bir takım çelik kalitelerini (veya buzdolabı markalarını) birbirine benzer gruplara ayırmak için kullanılabilir.

Kümeleme analizinin bir diğer türü ise özellikleri birbirine yakın olan gruplara ayırmaktır. Örnek korelasyon katsayısı, özelliklerin benzerliğinin bir göstergesi olarak hizmet edebilir. Özelliklerin kümelenmesi analizinin amacı, kontrol maliyetlerini önemli ölçüde azaltabilen kontrollü parametrelerin sayısını azaltmak olabilir. Bunu yapmak için, yakından ilişkili bir grup özellikten (korelasyon katsayısının 1'e yakın olduğu - maksimum değeri) birinin değeri ölçülür ve geri kalanın değerleri regresyon analizi kullanılarak hesaplanır.

Gruplama problemleri, sınıfların önceden belirlenmemesi ve birbirinden “uzak” olmasının gerekmemesi durumunda çözülür. Bir örnek, öğrencileri çalışma gruplarına ayırmaktır. Teknolojide gruplama sorununun çözümü genellikle parametrik serilerdir; olası standart boyutlar parametrik serinin öğelerine göre gruplandırılır. Literatürde, uygulamalı istatistiklere ilişkin düzenleyici, teknik ve öğretici belgeler, gözlem sonuçlarının gruplandırılması da bazen kullanılır (örneğin, histogramlar oluştururken).

Sınıflandırma sorunları yalnızca çok değişkenli istatistiksel analizle çözülmez, aynı zamanda gözlem sonuçlarının sayılar, işlevler veya sayısal olmayan nitelikte nesneler olması durumunda da çözülür. Bu nedenle birçok küme analizi algoritması yalnızca nesneler arasındaki mesafeleri kullanır. Bu nedenle aralarındaki mesafeler belirtildiği sürece sayısal olmayan nesneleri sınıflandırmak için de kullanılabilirler. En basit sınıflandırma problemi şudur: İki bağımsız örnek verildiğinde, bunların iki sınıfı mı yoksa bir sınıfı mı temsil ettiğini belirlemeniz gerekir. Tek değişkenli istatistiklerde bu görev homojenlik hipotezinin test edilmesine indirgenir.

Çok değişkenli istatistiksel analizin üçüncü bölümü, boyutluluğun azaltılması (bilgi sıkıştırma) sorunudur. Çözümlerinin amacı, türetilmiş göstergelerin sayısı orijinal göstergelerin sayısından önemli ölçüde daha az olacak şekilde, orijinal özelliklerin dönüştürülmesiyle elde edilen bir dizi türetilmiş gösterge belirlemektir, ancak bunlar, mevcut bilgilerin mümkün olan en büyük bölümünü içerecektir. orijinal istatistiksel veriler. Boyut azaltma problemleri, çok boyutlu ölçeklendirme yöntemleri, temel bileşenler, faktör analizi vb. kullanılarak çözülür. Örneğin, en basit çok boyutlu ölçeklendirme modelinde, başlangıç ​​verileri, k nesne arasındaki ikili mesafelerdir ve hesaplamaların amacı, nesneleri noktalar olarak temsil etmektir. uçakta. Bu, nesnelerin birbirleriyle nasıl ilişki kurduğunu tam anlamıyla görmeyi mümkün kılar. Bu amaca ulaşmak için, her nesneye düzlem üzerinde bir nokta atamak gerekir, böylece i ve j sayılarına sahip nesnelere karşılık gelen noktalar arasındaki ikili mesafeler sij, bu nesneler arasındaki ij mesafelerini mümkün olduğunca doğru bir şekilde yeniden üretir. En küçük kareler yönteminin temel fikrine göre düzlemdeki noktalar öyle bulunur ki değeri

en düşük değerine ulaştı. Boyut azaltma ve veri görselleştirme sorunlarının başka birçok formülasyonu vardır.

olasılık matematiksel istatistik kalitesi

ÇOK DEĞİŞKENLİ İSTATİSTİKSEL ANALİZ

Matematik bölümü istatistikler, matematiğe adanmış. Çok değişkenli istatistiklerin toplanması, sistemleştirilmesi ve işlenmesi için en uygun planların oluşturulmasına yönelik yöntemler. incelenen çok boyutlu özelliğin bileşenleri arasındaki ilişkilerin doğasını ve yapısını belirlemeyi amaçlayan ve bilimsel ve pratik bilgi elde etmeyi amaçlayan veriler. sonuçlar. Çok boyutlu bir özellik, aralarında şunlar olabilecek p boyutlu göstergeler (işaretler, değişkenler) olarak anlaşılır: niceliksel, yani. bir nesnenin incelenen özelliğinin tezahürlerini belirli bir ölçekte skaler olarak ölçmek, sıralı (veya sıralı), yani düzenlemeye izin vermek incelenen özelliğin içlerindeki tezahür derecesine göre analiz edilen nesneler; ve sınıflandırma (veya nominal), yani incelenen nesne kümesinin sıralanamayan homojen (analiz edilen özelliğe göre) sınıflara bölünmesini mümkün kılmak. Bu göstergelerin ölçülmesinin sonuçları

incelenen popülasyonun nesnelerinin her biri üzerinde, çok boyutlu gözlemler veya MS'nin yürütülmesi için çok boyutlu verilerin ilk dizisini oluştururlar. A. M. s.'nin önemli bir kısmı. A. incelenmekte olan çok boyutlu özelliğin, genel bir popülasyondan olduğu gibi, çok boyutlu ve buna bağlı olarak bir dizi çok boyutlu gözlem (1) olarak yorumlandığı durumlara hizmet eder. Bu durumda, ilk istatistiksel verilerin işlenmesi için yöntemlerin seçimi. veriler ve özelliklerinin analizi, çok boyutlu (ortak) olasılık dağılım yasasının doğasına ilişkin belirli varsayımlara dayanarak gerçekleştirilir.

Çok değişkenli dağılımların ve bunların temel özelliklerinin çok değişkenli istatistiksel analizi, yalnızca işlenmiş gözlemlerin (1) olasılıksal nitelikte olduğu, yani karşılık gelen genel popülasyondan bir örnek olarak yorumlandığı durumları kapsar. Bu alt bölümün temel amaçları şunlardır: istatistiksel. incelenen çok boyutlu dağılımların değerlendirilmesi, bunların temel sayısal özellikleri ve parametreleri; Kullanılan istatistiksel verilerin özelliklerinin incelenmesi. notlar; istatistiklerin yardımıyla bir dizi istatistik için olasılık dağılımlarının incelenmesi. analiz edilen çok boyutlu verilerin olasılıksal doğası hakkında çeşitli hipotezleri test etmek için kriterler. Ana sonuçlar, incelenen özelliğin, yoğunluk fonksiyonu aşağıdaki ilişki ile verilen çok boyutlu bir normal dağılım yasasına tabi olduğu özel durumla ilgilidir.

vektör matematiği nerede. Rastgele değişkenin bileşenlerinin beklentileri, yani. rastgele bir vektörün kovaryans matrisidir, yani vektörün bileşenlerinin kovaryansı (dejenere olmayan durum şu durumlarda dikkate alınır; aksi takdirde, yani Rank ile tüm sonuçlar geçerli kalır, ancak daha düşük boyutlu bir altuzayla ilişkili olarak) , burada incelenmekte olan konsantre rastgele vektör olduğu ortaya çıkıyor).

Dolayısıyla, eğer (1) rastgele bir örnek oluşturan bağımsız gözlemlerin bir dizisi ise, o zaman parametreler için maksimum olasılık tahminleri ve (2)'ye katılım sırasıyla istatistiktir (bkz. , )

ve rastgele vektör p boyutlu normal yasaya uyar ve bağlı değildir ve matris elemanlarının ortak dağılımı sözde olarak tanımlanır. Wisha bölgesinin dağılımı (bkz.), to-rogo

Aynı şema çerçevesinde, çok değişkenli bir rastgele değişkenin bu tür örnek özelliklerinin çift, kısmi ve çoklu korelasyon katsayıları, genelleştirilmiş (yani), genelleştirilmiş -Hotelling istatistikleri (bkz.) gibi dağılımları ve momentleri. Özellikle (bakınız), "tarafsızlık için" düzeltilmiş tahmini örnek kovaryans matrisi olarak tanımlarsak, yani:

daha sonra rastgele değişken ne zaman olma eğilimindedir ve rastgele değişkenler

Sırasıyla (p, p-p) ve (p,) serbestlik derecesi sayılarına sahip F dağılımlarına uyun n 1 + n 2-p-1). Oran olarak (7) n 1 ve n 2 - aynı genel popülasyondan çıkarılan (1) tipindeki iki bağımsız numunenin hacimleri - i'inci numuneden oluşturulan (3) ve (4)-(5) tipi tahminler ve

Tahminlerden oluşturulan toplam örnek kovaryansı ve

İncelenen çok boyutlu özelliğin bileşenleri arasındaki ilişkilerin doğası ve yapısının çok boyutlu istatistiksel analizi, MS'in bu tür yöntem ve modellerine hizmet eden kavramları ve sonuçları birleştirir. a., çoklu, çok boyutlu olarak varyans analizi Ve kovaryans analizi, faktör analizi ve temel bileşenler analizi, kanonik analiz. korelasyonlar. Bu alt bölümün içeriğini oluşturan sonuçlar iki ana türe ayrılabilir.

1) En iyi (belirli bir anlamda) istatistiksel verinin oluşturulması. bahsedilen modellerin parametrelerine ilişkin tahminler ve özelliklerinin analizi (doğruluk ve olasılıksal bir formülasyonda - dağılım yasaları, güven bölgeleri vb.). Dolayısıyla, incelenen çok boyutlu özelliğin, p boyutlu normal dağılıma tabi olan ve iki alt vektöre (sırasıyla sütunlar ve q ve p-q boyutları) bölünmüş rastgele bir vektör olarak yorumlanmasına izin verin. Bu, vektörün ilgili bölümünü matematiksel olarak belirler. beklentiler, teorik ve örnek kovaryans matrisleri, yani:

O zaman (bkz. , ) alt vektör (ikinci alt vektörün sabit bir değer alması şartıyla) da normal olacaktır. Bu durumda maksimum olabilirlik tahminleri yapılır. bu klasik çok değişkenli çoklu regresyon modelinin regresyon katsayıları ve ortak değişkenleri matrisleri için

sırasıyla karşılıklı bağımsız istatistikler olacak

burada değerlendirmenin dağıtımı normal yasaya tabidir ve n - Wishart yasasını parametrelerle tahmin eder ve (kovaryans matrisinin elemanları matris elemanları cinsinden ifade edilir).

Parametre tahminlerinin oluşturulması ve bunların özelliklerinin faktör analizi, temel bileşenler ve kanonik korelasyon modellerinde incelenmesi ile ilgili ana sonuçlar, çeşitli örnek kovaryans matrislerinin özdeğerlerinin ve vektörlerinin olasılıksal-istatistiksel özelliklerinin analizi ile ilgilidir.

Klasik çerçeveye uymayan şemalarda. normal modelde ve özellikle herhangi bir olasılıksal model çerçevesinde, ana sonuçlar, dışsal olarak verilen belirli bir fonksiyonelin bakış açısından en iyi parametre tahminlerini hesaplamak için algoritmaların oluşturulmasıyla (ve bunların özelliklerinin incelenmesiyle) ilgilidir. modelin kalitesi (veya yeterliliği).

2) İstatistiksel verilerin oluşturulması. incelenen ilişkilerin yapısına ilişkin çeşitli hipotezleri test etmek için kriterler. Çok değişkenli normal model çerçevesinde ((1) tipindeki gözlem dizileri, karşılık gelen çok değişkenli normal popülasyonlardan rastgele örnekler olarak yorumlanır), örneğin istatistiksel Aşağıdaki hipotezleri test etmek için kriterler.

I. Vektör matematiksel eşitliği ile ilgili hipotezler. incelenen göstergelerin belirli bir vektöre yönelik beklentileri; Formül (6)'ya ikame ile Hotelling istatistikleri kullanılarak kontrol edildi

II. Vektörlerin matematiksel eşitliği ile ilgili hipotezler. iki örnekle temsil edilen iki popülasyondaki beklentiler (aynı ancak bilinmeyen kovaryans matrislerine sahip); istatistikler kullanılarak doğrulandı (bkz.).

III. Vektörlerin matematiksel eşitliği ile ilgili hipotezler. örnekleriyle temsil edilen çeşitli genel popülasyonlardaki (aynı ancak bilinmeyen kovaryans matrislerine sahip) beklentiler; istatistikler kullanılarak doğrulandı

burada j'inci genel popülasyonu temsil eden hacimli bir numunede i'inci p boyutlu gözlem vardır ve bunlar sırasıyla her bir numune için ve birleştirilenler için ayrı ayrı oluşturulmuş (3) formunun tahminleridir. hacim örneği

IV. Örnekleri tarafından temsil edilen birkaç normal popülasyonun eşdeğerliğine ilişkin hipotezler, istatistikler kullanılarak test edilir

kesimde - gözlemlerden ayrı olarak oluşturulan (4) tipi bir tahmin J-örnekler, j=1, 2, ... , k.

V. İncelenen göstergelerin orijinal p boyutlu vektörünün bölündüğü sırasıyla alt vektörlerin boyut sütunlarının karşılıklı bağımsızlığına ilişkin hipotezler istatistik kullanılarak doğrulanır

burada ve vektörün tamamı ve onun alt vektörü için (4) formunun örnek kovaryans matrisleridir X(i) buna göre.

Çalışılan çok boyutlu gözlem kümesinin geometrik yapısının çok boyutlu istatistiksel analizi, bu tür model ve şemaların kavramlarını ve sonuçlarını birleştirir: diskriminant analizi, olasılık dağılımlarının karışımları, küme analizi ve taksonomi, çok boyutlu ölçeklendirme. Tüm bu şemalardaki anahtar kavram, analiz edilen unsurlar arasındaki mesafe (yakınlık ölçüleri, benzerlik ölçüleri) kavramıdır. Bu durumda, her biri üzerine göstergelerin değerlerinin kaydedildiği gerçek nesneler olarak analiz edilebilirler - daha sonra geometrik. i-inci incelenen nesnenin görüntüsü, karşılık gelen p boyutlu uzayda bir nokta olacak ve göstergelerin kendileri - o zaman geometrik olacaktır. l'inci göstergenin görüntüsü karşılık gelen n boyutlu uzayda bir nokta olacaktır.

Diskriminant analizinin yöntemleri ve sonuçları (bkz. , , ) aşağıdaki görevi amaçlamaktadır. Belirli sayıda popülasyonun var olduğu bilinmektedir ve araştırmacının her popülasyondan bir örneği vardır ("eğitim örnekleri"). Mevcut eğitim örneklerine dayanarak, araştırmacının önceden bilmediği bir durumda, genel popülasyona belirli bir yeni öğeyi (gözlem) atamaya izin veren, bir anlamda en iyi sınıflandırma kuralını oluşturmak gerekir. Bu elementin hangi popülasyona ait olduğu. Genellikle, bir sınıflandırma kuralı bir dizi eylem olarak anlaşılır: incelenen göstergelerin kesim değerlerine göre skaler bir fonksiyonunu hesaplayarak, sınıflardan birine bir öğe atama kararı verilir (inşaat) bir diskriminant fonksiyonu); elemanların sınıflara doğru atanması açısından göstergeleri bilgi içeriklerinin derecesine göre sıralayarak; karşılık gelen yanlış sınıflandırma olasılıklarını hesaplayarak.

Olasılık dağılımlarının karışımlarını analiz etme görevi (bkz.) Çoğu zaman (ancak her zaman değil), aynı zamanda söz konusu popülasyonun "geometrik yapısının" incelenmesiyle bağlantılı olarak da ortaya çıkar. Bu durumda, r'inci homojen sınıf kavramı, belirli (genellikle tek modlu) bir dağılım yasasıyla tanımlanan genel bir popülasyon kullanılarak resmileştirilir, böylece numunenin (1) çıkarıldığı genel popülasyonun dağılımı şu şekilde tanımlanır: genel popülasyondaki r-th sınıfının p r - a priori olasılığı (belirli unsurlar) olduğu formun dağılımlarının bir karışımı. Buradaki zorluk “iyi” istatistiklerdir. bilinmeyen parametreleri tahmin etmek (bir örnekten) ve bazen İle. Bu, özellikle, öğeleri sınıflandırma görevini bir diskriminant analiz şemasına indirgememize olanak tanır, ancak bu durumda eğitim örnekleri yoktur.

Kümeleme analizinin yöntemleri ve sonuçları (sınıflandırma, taksonomi, “denetimsiz” örüntü tanıma, bkz., , ) aşağıdaki sorunu çözmeyi amaçlamaktadır. Geometrik analiz edilen öğeler kümesi ya karşılık gelen noktaların koordinatları (yani matris ..., n) tarafından verilir. , veya bir dizi geometrik göreceli konumlarının özellikleri, örneğin ikili mesafelerin bir matrisi. İncelenen öğe kümesini nispeten küçük (önceden bilinen veya bilinmeyen) sınıflara bölmek gerekir, böylece bir sınıfın öğeleri birbirinden kısa bir mesafede bulunurken, farklı sınıflar mümkünse karşılıklı olarak yeterince uzakta olacaktır. birbirinden uzak parçalara bölünmez.

Çok boyutlu ölçeklendirme sorunu (bkz.), incelenmekte olan öğe kümesinin ikili uzaklıklardan oluşan bir matris kullanılarak belirlendiği ve her bir öğeye belirli sayıda (p) koordinatın atanmasını içeren durumu ifade eder. Bu yardımcı koordinatlar kullanılarak ölçülen elemanlar arasındaki ikili karşılıklı mesafelerin yapısı, ortalama olarak verilenden en az farklı olacaktır. Kümeleme analizi ve çok boyutlu ölçeklendirmenin ana sonuçları ve yöntemlerinin genellikle kaynak verilerin olasılıksal doğası hakkında herhangi bir varsayım olmaksızın geliştirildiğine dikkat edilmelidir.

Çok değişkenli istatistiksel analizin uygulanma amacı temel olarak aşağıdaki üç soruna hizmet etmektir.

Analiz edilen göstergeler arasındaki bağımlılıkların istatistiksel olarak incelenmesi sorunu. Üzerinde çalışılan istatistiksel olarak kaydedilen x göstergeleri kümesinin, bu göstergelerin anlamlı anlamlarına ve çalışmanın nihai hedeflerine göre, tahmin edilen (bağımlı) değişkenlerin q boyutlu bir alt vektörüne ve (p-q) boyutlu bir alt vektöre bölündüğü varsayılırsa tahmin edici (bağımsız) değişkenler için, problemin, örnek (1)'e dayanarak, kabul edilebilir çözümler sınıfından böyle bir q boyutlu vektör fonksiyonunu belirlemek olduğunu söyleyebiliriz. F, Kenar, bir anlamda göstergelerin alt vektörünün davranışına en iyi yaklaşımı verecektir. Spesifik fonksiyonel türüne bağlı olarak, yaklaşımın kalitesi ve analiz edilen göstergelerin doğası, çoklu regresyon, varyans, kovaryans veya birleşme analizinin bir veya daha fazla şemasına gelir.

Genel (katı olmayan) bir formülasyonda öğeleri (nesneler veya göstergeler) sınıflandırma sorunu, istatistiksel olarak bir matris veya matris biçiminde sunulan analiz edilen tüm öğeler kümesini nispeten az sayıda homojen parçaya bölmektir. belirli bir anlam, gruplar. Önsel bilginin doğasına ve sınıflandırma kalite kriterini belirleyen spesifik işlevsel türüne bağlı olarak, diskriminant analizi, küme analizi (taksonomi, "denetimsiz" model tanıma) ve dağılım karışımlarını bölmenin şu veya bu şemasına gelinir. .

İncelenmekte olan faktör alanının boyutunun azaltılması ve en bilgilendirici göstergelerin seçilmesi sorunu, başlangıç ​​​​göstergelerinin kabul edilebilir dönüşümleri sınıfında bulunan nispeten az sayıda göstergeden oluşan bir dizi belirlemektir. m-boyutlu özellikler sisteminin bilgi içeriğinin dışsal olarak verilen bir ölçüsünün üst belirli sürüsünün elde edildiği (bkz.). Otomatik bilgilendiriciliğin ölçüsünü belirleyen işlevin belirtilmesi (yani istatistiksel dizide (1) yer alan bilgilerin orijinal özelliklere göre korunmasını en üst düzeye çıkarmayı amaçlayan) özellikle çeşitli faktör analizi ve temel prensip şemalarına yol açar. bileşenler, özelliklerin aşırı gruplandırılması yöntemlerine. Dış bilgi içeriğinin ölçüsünü tanımlayan, yani (1) göstergelerde veya olgularda doğrudan yer almayan belirli diğerlerine ilişkin maksimum bilgiyi çıkarmayı amaçlayan işlevler, istatistiksel şemalarda en bilgilendirici göstergelerin seçilmesi için çeşitli yöntemlere yol açar. bağımlılık araştırması ve diskriminant analizi.

MS'in temel matematiksel araçları. A. doğrusal denklem sistemleri teorisi ve matris teorisinin özel yöntemlerini (özdeğerlerin ve vektörlerin basit ve genelleştirilmiş problemlerini çözme yöntemleri; matrislerin basit ters çevrilmesi ve sözde ters çevrilmesi; matrisler için köşegenleştirme prosedürleri vb.) ve belirli optimizasyon algoritmalarını (yöntemler) oluşturur koordinat alçalması, eşlenik gradyanlar, dallanma ve sınır, rastgele arama ve stokastik yaklaşımın çeşitli versiyonları vb.).

Aydınlatılmış.: Anderson T., Çok değişkenli istatistiksel analize giriş, çev. İngilizce'den, M., 1963; Kendall M.J., Stewart A., Çok değişkenli istatistiksel analiz ve zaman serileri, çev. İngilizce'den, M., 1976; Bolshev L.N., "Bull. Int. Stat. Inst.", 1969, No. 43, s. 425-41; Wishart .J., "Biometrika", 1928, v. 20A, s. 32-52: Hotelling H., "Ann. Math. Stat.", 1931, v. 2, s. 360-78; [c] Kruskal J. V., "Psychometrika", 1964, v. 29, s. 1-27; Ayvazyan S.A., Bezhaeva Z.I., . Staroverov O.V., Çok boyutlu gözlemlerin sınıflandırılması, M., 1974.

S.A. Ayvazyan.


Matematik ansiklopedisi. - M .: Sovyet Ansiklopedisi. I. M. Vinogradov. 1977-1985.

Teknik Çevirmen Kılavuzu

Matematiğe ayrılmış matematiksel istatistik bölümü (bkz.). incelenen çok boyutlu özelliğin bileşenleri arasındaki ilişkilerin doğasını ve yapısını belirlemeyi amaçlayan (bkz.) ve bilimsel elde etmeyi amaçlayan yöntemler. ve pratik... ...

Geniş anlamda, çeşitli niteliksel veya niceliksel özelliklerle karakterize edilen nesnelerle ilgili istatistiksel verileri incelemeye yönelik yöntemleri birleştiren matematiksel istatistiğin bir bölümü (Matematiksel istatistiklere bakınız). Büyük Sovyet Ansiklopedisi

ÇOK DEĞİŞKENLİ İSTATİSTİKSEL ANALİZ- üç veya daha fazla değişken arasındaki ilişkileri analiz etmek için tasarlanmış bir matematiksel istatistik bölümü. A.M.S. problemlerinin üç ana sınıfını koşullu olarak ayırt edebiliriz. Değişkenler arasındaki ilişkilerin yapısı ve mekanın boyutunun azaltılması üzerine yapılan bir çalışmadır... Sosyoloji: Ansiklopedi

KOVARYANS ANALİZİ- – bir dizi matematiksel yöntem. belirli bir rastgele değişken Y'nin ortalama değerinin bir dizi niceliksel olmayan faktör F'ye ve aynı zamanda bir dizi niceliksel faktör X'e bağımlılığına ilişkin modellerin analizi ile ilgili istatistikler. Y ile ilgili olarak... . .. Rus Sosyoloji Ansiklopedisi

Matematik bölümü İçeriği istatistiğin geliştirilmesi ve araştırılması olan istatistikler. Aşağıdaki ayrımcılık problemini çözme yöntemleri: gözlemlerin sonuçlarına dayanarak, birkaç olası seçenekten hangisinin belirleneceğini belirleyin... ... Matematik Ansiklopedisi, Orlova Irina Vladlenovna, Kontsevaya Natalya Valerievna, Turundaevsky Viktor Borisovich. Kitap çok değişkenli istatistiksel analize (MSA) ve MSA kullanılarak hesaplamaların organizasyonuna ayrılmıştır. Çok değişkenli istatistik yöntemlerini uygulamak için bir istatistiksel işleme programı kullanılır...


Paylaşmak