통계 다변량 연구 방법 요인 분석. 다변수 통계 분석(128.00 루블). 요인 분석 방법의 기본 개념, 해결하는 작업의 본질

이 교재는 저자의 다변량 통계 분석 및 계량 경제학 강의 경험을 바탕으로 제작되었습니다. 판별, 요인, 회귀, 대응 분석 및 시계열 이론에 대한 자료가 포함되어 있습니다. 다차원 척도의 문제와 다변량 통계의 다른 문제에 대한 접근 방식이 설명됩니다.

그룹화 및 검열.
그룹화된 데이터가 그룹화하기 전에 샘플과 거의 동일한 양의 의사 결정 정보를 제공할 수 있도록 샘플 데이터 그룹을 구성하는 작업은 연구자가 먼저 해결합니다. 일반적으로 그룹화의 목표는 정보의 양을 줄이고 계산을 단순화하며 데이터를 더 잘 보이게 하는 것입니다. 일부 통계 테스트는 처음에 그룹화된 샘플 작업에 중점을 둡니다. 특정 측면에서 그룹화 문제는 분류 문제에 매우 가깝고, 이에 대해서는 아래에서 더 자세히 설명합니다. 그룹화 작업과 동시에 연구원은 샘플을 중도절단하는 문제도 해결합니다. 일반적으로 심각한 관찰 오류의 결과인 외부 데이터의 제외. 물론 관찰 자체 과정에서도 이러한 오류가 없는지 확인하는 것이 바람직하지만 항상 가능한 것은 아닙니다. 이 두 가지 문제를 해결하는 가장 간단한 방법이 이 장에서 논의됩니다.

목차
1 예비 정보
1.1 분석과 대수학
1.2 확률 이론
1.3 수학적 통계
2 다변량 분포
2.1 랜덤 벡터
2.2 독립
2.3 수치적 특성
2.4 다변수의 경우 정규분포
2.5 상관 이론
3 그룹화 및 중도절단
3.1 1차원 그룹화
3.2 1차원 중도절단
3.3 교차 테이블
3.3.1 독립 가설
3.3.2 동질성 가설
3.3.3 상관 필드
3.4 다차원 그룹화
3.5 다차원 중도절단
4 숫자가 아닌 데이터
4.1 서론
4.2 비교 척도
4.3 전문가의 판단
4.4 전문가 그룹
5 자신감 세트
5.1 신뢰구간
5.2 신뢰 세트
5.2.1 다차원 매개변수
5.2.2 다변수 샘플링
5.3 공차 세트
5.4 작은 샘플
6 회귀분석
6.1 문제 설명
6.2 GMS 검색
6.3 제한
6.4 계획 매트릭스
6.5 통계적 예측
7 분산 분석
7.1 서론
7.1.1 정규성
7.1.2 분산의 균질성
7.2 한 가지 요인
7.3 두 가지 요소
7.4 일반적인 경우
8 차원 축소
8.1 분류가 필요한 이유
8.2 모델 및 예시
8.2.1 주성분 분석
8.2.2 극단적인 기능 그룹화
8.2.3 다차원 스케일링
8.2.4 판별 분석을 위한 지표 선택
8.2.5 회귀 모델의 기능 선택
9 판별 분석
9.1 모델의 적용 가능성
9.2 선형 예측 규칙
9.3 실용적인 권장 사항
9.4 한 가지 예
9.5 2개 이상의 클래스
9.6 차별 품질 확인
10 휴리스틱 방법
10.1 극단적인 그룹화
10.1.1 제곱의 기준
10.1.2 모듈 기준
10 2 플레이아데스 방식
11 주성분 분석
11 1 문제에 대한 설명
112 주성분의 계산
11.3 예
114 주성분 속성
11.4.1 자기 재현성
11.4.2 기하학적 속성
12 요인분석
12.1 문제에 대한 설명
12.1.1 주성분과의 통신
12.1.2 명확한 결정
12.2 수학적 모델
12.2.1 At A의 조건
12.2.2 하중 매트릭스의 조건. 중심법
12.3 잠재 요인
12.3.1 Bartlett 방법
12.3.2 톰슨 방법
12.4 예
13 디지털화
13.1 대응 분석
13.1.1 카이제곱 거리
13.1.2 판별 분석 문제의 디지털화
13.2 두 개 이상의 변수
13.2.1 이진 데이터 행렬을 매핑 행렬로 사용하기
13.2.2 최대 상관관계
13.3 치수
13.4 예
13.5 혼합 데이터의 경우
14 다차원적 스케일링
14.1 서론
14.2 Thorgerson 모델
14.2.1 응력 기준
14.3 Thorgerson의 알고리즘
14.4 개인차
15 시계열
15.1 일반
15.2 무작위성 기준
15.2.1 봉우리와 구덩이
15.2.2 위상 길이 분포
15.2.3 순위 상관에 기반한 기준
15.2.4 상관도
15.3 추세와 계절성
15.3.1 다항식 경향
15.3.2 추세의 정도 선택
15.3.3 평활화
15.3.4 계절적 ​​변동 추정
정규 분포
배포판 X2에서
스튜던트 t-분포로
D 피셔 분포.


편리한 형식으로 전자 책을 무료로 다운로드하고 다음을 보고 읽으십시오.
다변수 통계 분석, Dronov SV, 2003 - fileskachat.com 책을 빠르고 무료로 다운로드하십시오.

PDF 다운로드
아래에서 이 책을 가장 할인된 가격에 러시아 전역으로 배송할 수 있습니다.

계량경제학

다변수 통계 분석


다변량 통계 분석에서 표본은 다변량 공간의 요소로 구성됩니다. 따라서 계량 경제학 방법의이 섹션의 이름. 다변량 통계 분석의 많은 문제 중에서 의존성 회복과 분류의 두 가지를 생각해 봅시다.

선형 예측 함수 추정

하나의 변수에 대한 선형 예측 함수의 점 및 신뢰도 추정 문제부터 시작하겠습니다.

초기 데이터는 n 쌍의 숫자(t k , x k), k = 1,2,…,n의 집합입니다. 여기서 t k는 독립 변수(예: 시간)이고 x k는 종속 변수(예: 인플레이션 지수, 미국 달러 환율, 월간 생산량 또는 콘센트의 일일 수익 규모). 변수는 관련이 있다고 가정합니다.

x k = a (t k - t cf)+ b + e k , k = 1,2,…,n,

여기서 및 b는 통계에 알려지지 않고 추정할 수 있는 매개변수이고 e k는 종속성을 왜곡하는 오류입니다. 시점의 산술 평균

t cf \u003d (t 1 + t 2 + ... + t n) / n

추가 계산을 용이하게 하기 위해 모델에 도입되었습니다.

일반적으로 선형 종속성의 매개변수 a와 b는 최소 자승법을 사용하여 추정됩니다. 재구성된 관계는 포인트 및 구간 예측에 사용됩니다.

알다시피 최소제곱법은 1794년 독일의 위대한 수학자 K. 가우스에 의해 개발되었습니다. 이 방법에 따르면 t에 대한 x의 종속성을 선형적으로 근사하는 최상의 함수를 계산하려면 두 변수의 함수를 고려해야 합니다.


최소 제곱 추정은 함수 f(a,b)가 인수의 모든 값에 대해 최소값에 도달하는 a* 및 b* 값입니다.

이러한 추정치를 찾으려면 인수 a와 b에 대해 함수 f(a,b)의 편도함수를 계산하고 0과 동일하게 한 다음 결과 방정식에서 추정치를 찾아야 합니다.

얻은 관계의 오른쪽 부분을 변환합시다. 합의 부호에서 공약수 2와 (-1)을 빼자. 그럼 약관을 보겠습니다. 첫 번째 식에서 괄호를 열면 각 용어가 세 개로 나누어져 있음을 알 수 있습니다. 두 번째 식에서 각 항은 3의 합이기도 합니다. 따라서 각 합계는 세 개의 합계로 나뉩니다. 우리는 다음을 가지고 있습니다:


편도함수를 0과 동일시합시다. 그러면 인수(-2)가 결과 방정식에서 감소될 수 있습니다. 왜냐하면

(1)

방정식은 다음과 같은 형식을 취합니다.

따라서 최소제곱법의 추정치는 다음과 같은 형식을 갖습니다.

(2)

관계식 (1)로 인해 추정치 a*는 더 대칭적인 형태로 쓸 수 있습니다.

이 추정치를 다음 형식으로 변환하는 것은 어렵지 않습니다.

따라서 예측하고 보간하는 데 사용할 수 있는 재구성된 함수는 다음과 같은 형식을 갖습니다.

x*(t) = a*(t - t cf) + b*.

마지막 공식에서 t cf를 사용하는 것이 일반성을 제한하지 않는다는 사실에 주목합시다. 뷰 모델과 비교

x k = c t k + d + e k , k = 1,2,…,n.

그것은 분명하다

매개변수 추정값은 유사하게 관련되어 있습니다.

매개변수 추정값과 예측 공식을 얻기 위해 확률 모델을 참조할 필요가 없습니다. 그러나 모수 추정치의 오류와 복원된 기능을 연구하기 위해, 즉 *, b* 및 x*(t)에 대한 신뢰 구간을 구축하려면 이러한 모델이 필요합니다.

비모수 확률 모델. 독립 변수 t의 값이 결정되고 오류 e k , k = 1,2,…

알 수 없는 통계.

앞으로 우리는 값 k , k = 1,2,… 예를 들어 오류 e k , k = 1,2 ,…,n이 유한하거나 유한한 세 번째 절대 모멘트가 있다고 가정합니다. 그러나 이러한 수학 내 "규칙성 조건"에 초점을 맞출 필요는 없습니다.

모수 추정값의 점근적 분포. 식 (2)로부터 다음과 같다.

(5)

CLT에 따르면 추정값 b*는 기대값 b와 분산이 있는 점근적으로 정규 분포를 따릅니다.

아래에서 평가되는 것입니다.

식 (2)와 (5)로부터 다음과 같이 된다.

두 번째 관계의 마지막 항은 i에 대해 합산될 때 사라지므로 다음 식 (2-4)를 따릅니다.

(6)

공식 (6)은 추정치를 보여줍니다

평균과 분산이 있는 점근적으로 정규

식 (6)의 각 항이 전체 합에 비해 작을 때 다차원 정규성이 존재한다는 점에 유의하십시오.


공식 (5)와 (6)과 오류에 대한 초기 가정에서 모수 추정치의 편향성이 없습니다.

최소 제곱 추정치의 편향성과 점근적 정규성은 이에 대한 점근적 신뢰 한계(이전 장의 한계와 유사)를 쉽게 지정하고 특정 값(주로 0)과 동등성에 대한 통계적 가설을 테스트하기 쉽습니다. 독자는 신뢰 한계를 계산하기 위한 공식을 작성하고 언급된 가설을 테스트하기 위한 규칙을 공식화할 수 있습니다.

예후 기능의 점근적 분포. 식 (5) 및 (6)으로부터 다음과 같이 된다.

저것들. 고려 중인 예후 기능의 추정치는 편향되지 않습니다. 그렇기 때문에

동시에 오류는 집계에서 독립적이기 때문에

, 그 다음에

이런 식으로,

랜덤 변동성이 하나 또는 두 개의 랜덤 변수인 부호로 표현되는 상황이 있습니다.

예를 들어 인구 통계를 연구할 때 키와 몸무게에 관심이 있습니다. 이 상황에서 통계 모집단에 얼마나 많은 사람들이 있든 우리는 항상 산점도를 만들고 전체 그림을 볼 수 있습니다. 그러나 예를 들어 3개의 특징이 있는 경우 특징이 추가됩니다. 즉, 사람의 나이, 산점도는 3차원 공간에서 작성되어야 합니다. 3차원 공간에서 점 집합을 표현하는 것은 이미 상당히 어렵습니다.

실제로, 실제로 각 관찰은 하나, 둘 또는 세 개의 숫자가 아니라 수십 가지 기능을 설명하는 눈에 띄는 숫자 집합으로 표시됩니다. 이러한 상황에서 산점도를 구성하려면 다차원 공간을 고려해야 합니다.

다변량 관찰을 통한 실험 연구에 전념하는 통계 분야를 다변량 통계 분석이라고 합니다.

한 실험에서 여러 가지 특징(물체의 속성)을 한 번에 측정하는 것은 일반적으로 한두 가지 측정보다 더 자연스럽습니다. 따라서 잠재적으로 다변량 통계 분석은 광범위한 응용 분야를 가지고 있습니다.

다변수 통계 분석에는 다음 섹션이 포함됩니다.

요인 분석;

판별 분석;

클러스터 분석;

다차원 스케일링;

품질 관리 방법.

요인 분석

복잡한 대상 및 시스템(예: 심리학, 생물학, 사회학 등)에 대한 연구에서 이러한 대상의 속성을 결정하는 양(인자)은 매우 자주 직접 측정할 수 없으며 때로는 그 수와 의미 있는 의미까지도 측정할 수 없습니다. 알려져 있지 않다. 그러나 관심 요인에 따라 어떤 식으로든 다른 수량을 측정에 사용할 수 있습니다. 더욱이 우리에게 알려지지 않은 관심 요인의 영향이 여러 측정된 특성에서 나타날 때 이러한 특성은 서로 밀접한 관계를 나타낼 수 있으며 전체 요인의 수는 측정된 변수의 수보다 훨씬 적을 수 있습니다.

요인 분석 방법은 측정 변수에 영향을 미치는 요인을 식별하는 데 사용됩니다.

요인 분석 사용의 예는 심리 테스트를 기반으로 한 성격 특성 연구입니다. 성격 속성은 직접 측정할 수 없으며 사람의 행동이나 특정 질문에 대한 답변의 성격으로만 판단할 수 있습니다. 실험 결과를 설명하기 위해 요인 분석을 거쳐 테스트 대상 개인의 행동에 영향을 미치는 개인 속성을 식별할 수 있습니다.


요인 분석의 다양한 모델은 다음 가설을 기반으로 합니다: 관찰되거나 측정된 매개변수는 연구 대상 또는 현상의 간접적인 특성일 뿐입니다. 숨어있는,직접 관찰되지 않음) 매개변수 및 속성, 그 수가 적고 관찰된 매개변수의 값을 결정합니다. 이러한 내부 매개변수를 요인이라고 합니다.

요인 분석의 임무는 요인의 선형 조합 형태로 관찰된 매개변수의 표현이며, 아마도 일부 추가적이며 중요하지 않은 섭동입니다.

요인 분석의 첫 번째 단계는 원칙적으로 새로운 기능을 선택하는 것입니다. 이 기능은 이전 기능의 선형 조합이며 관찰된 데이터의 전체 변동성의 대부분을 "흡수"하므로 결과에 포함된 대부분의 정보를 전달합니다. 원래 관찰. 이것은 일반적으로 다음을 사용하여 수행됩니다. 주성분법,때때로 다른 기술이 사용되지만(최대 가능성 방법).

주성분 방법은 관찰 공간에서 새로운 직교 좌표계의 선택으로 축소됩니다. 관측치의 배열이 가장 큰 산포를 갖는 방향이 첫 번째 주성분으로 선택되고, 각 후속 주성분은 관측치의 산점이 최대가 되고 이 주성분이 이전에 선택한 다른 주성분과 직교하도록 선택됩니다. 그러나 주성분 방법으로 얻은 요소는 일반적으로 시각적으로 충분히 해석되지 않습니다. 따라서 요인 분석의 다음 단계는 해석을 용이하게 하기 위한 요인의 변환, 회전입니다.

판별 분석

여러 그룹으로 분할된 개체 집합이 있다고 가정하고 각 개체에 대해 속한 그룹을 결정할 수 있습니다. 각 개체에 대해 몇 가지 정량적 특성의 측정값이 있습니다. 이러한 특성을 바탕으로 개체가 속한 그룹을 찾을 수 있는 방법을 찾는 것이 필요합니다. 이렇게 하면 동일한 컬렉션의 새 개체가 속한 그룹을 지정할 수 있습니다. 문제를 해결하려면 적용 판별 분석 방법.

판별 분석- 이것은 통계의 한 섹션이며, 그 내용은 특정 특성에 따라 관찰 대상을 구별 (차별)하는 문제를 해결하는 방법의 개발입니다.

몇 가지 예를 살펴보겠습니다.

판별 분석은 특정 직책에 대한 고용과 관련하여 개인의 시험 점수를 처리할 때 유용합니다. 이 경우 모든 후보자를 "적합함"과 "적합하지 않음"의 두 그룹으로 나눌 필요가 있습니다.

판별 분석의 사용은 대출을 발행할 때 고객의 재정 상태를 평가하기 위해 은행 행정부에서 가능합니다. 은행은 여러 기능에 따라 신뢰할 수 있는 기능과 신뢰할 수 없는 기능으로 분류합니다.

판별 분석은 생산 및 경제 활동 지표의 값에 따라 기업 세트를 여러 동질 그룹으로 나누는 방법으로 사용할 수 있습니다.

판별 분석 방법을 사용하면 측정된 특성의 기능을 구성할 수 있으며, 그 값은 개체를 그룹으로 나누는 것을 설명합니다. 이러한 기능은 바람직하다. (차별적 특징)조금이었다. 이 경우 분석 결과를 의미 있게 해석하기가 더 쉽습니다.

단순성으로 인해 선형 판별 분석은 분류 기능이 기본 기능의 선형 함수로 선택되는 특별한 역할을 합니다.

클러스터 분석

클러스터 분석 방법을 사용하면 연구된 개체 집합을 클러스터라고 하는 "유사한" 개체 그룹으로 나눌 수 있습니다.

단어 무리영어 기원 - 클러스터는 다음과 같이 번역됩니다. 브러시, 무리, 그룹, 떼, 클러스터.

클러스터 분석은 다음 작업을 해결합니다.

개체를 특징 짓는 모든 기능을 고려하여 개체 분류를 수행합니다. 분류의 가능성은 고려 중인 전체성과 그 안에 포함된 대상에 대한 더 깊은 이해로 우리를 발전시킵니다.

기존 모집단에서 선험적으로 주어진 구조 또는 분류의 존재를 확인하는 작업을 설정합니다. 이러한 검증을 통해 과학적 연구의 표준 가상 연역 체계를 사용할 수 있습니다.

대부분의 클러스터링(계층적 그룹) 방법은 응집체(통합) - 그들은 각각 정확히 하나의 초기 관찰(1점)로 구성된 기본 클러스터의 생성으로 시작하고 각 후속 단계에서 가장 가까운 두 클러스터가 하나로 결합됩니다.

이 프로세스를 중지하는 순간은 연구자가 설정할 수 있습니다(예: 필요한 클러스터 수 또는 결합이 달성되는 최대 거리 지정).

클러스터 결합 프로세스의 그래픽 표현은 다음을 사용하여 얻을 수 있습니다. 덴드로그램- 클러스터 유니온 트리.

다음 예를 고려하십시오. 각각 3가지 변수로 특징지어지는 5개의 기업을 분류해 보겠습니다.

x 1– 고정 생산 자산의 연간 평균 비용, 10억 루블

x 2- 1 문지름 당 재료 비용. 제조 제품, kop.;

x 3- 제조 제품의 양, 10억 루블.

다변수 통계 분석은 다음 문제를 해결하는 데 사용됩니다.

  • * 기능 간의 관계에 대한 연구;
  • * 벡터에 의해 주어진 객체 또는 특징의 분류;
  • * 특징 공간의 차원 감소.

이 경우 관찰 결과는 개체에서 측정된 고정된 수의 정량적 및 때로는 정성적 특징 값의 벡터입니다. 양적 기호는 관찰된 단위의 기호로 숫자와 측정 단위로 직접 표현할 수 있습니다. 양적 속성은 정성적 속성과 반대입니다. 관찰된 단위의 속성은 둘 이상의 조건부 범주 중 하나에 할당하여 결정됩니다(정확히 두 개의 범주가 있는 경우 속성을 대안이라고 함). 질적 특징에 대한 통계 분석은 수치가 아닌 대상에 대한 통계의 일부입니다. 양적 기호는 간격, 비율, 차이, 절대의 척도로 측정된 기호로 나뉩니다.

그리고 질적 - 이름의 척도와 서수 척도로 측정 된 기호. 데이터 처리 방법은 고려된 특성이 측정되는 척도와 일치해야 합니다.

특징들 사이의 관계를 연구하는 목적은 특징들 사이의 관계의 존재를 증명하고 이 관계를 연구하는 것이다. 상관 분석은 두 확률 변수 X와 Y 사이의 연결이 있음을 증명하는 데 사용됩니다. X와 Y의 공동분포가 정규분포이면 통계적 추론은 표본선형상관계수를 기준으로 하고, 그 외의 경우에는 Kendall과 Spearman의 순위상관계수를 사용하고, 질적 특징에 대해서는 카이제곱 검정을 사용한다.

회귀 분석은 양적 특성 x(1), x(2), ..., x(k)에 대한 양적 특성 Y의 기능적 종속성을 연구하는 데 사용됩니다. 이 종속성을 회귀 또는 간단히 회귀라고 합니다. 회귀 분석의 가장 간단한 확률 모델(k = 1의 경우)은 관측 결과 쌍(xi, yi), i = 1, 2, … , n의 집합을 입력 정보로 사용하며 다음 형식을 갖습니다.

yi = 축 + b + ei, i = 1, 2, … , n,

여기서 ei는 관측 오차입니다. 때로는 ei가 동일한 정규 분포 N(0, y2)를 갖는 독립 확률 변수라고 가정합니다. 관측 오차의 분포는 일반적으로 정상과 다르기 때문에 비모수 설정, 즉, 회귀 모델을 고려하는 것이 좋습니다. ei의 임의 분포에 대해.

회귀 분석의 주요 임무는 x에 대한 y의 선형 종속성을 결정하는 미지의 매개변수 a와 b를 추정하는 것입니다. 이 문제를 해결하기 위해 1794년 K. Gauss가 개발한 최소제곱법이 사용됩니다. 제곱합 최소화 조건에서 알려지지 않은 모델 매개변수 및 b의 추정값 찾기

변수 및 b.

분산 분석은 양적 변수에 대한 질적 특성의 영향을 연구하는 데 사용됩니다. 예를 들어, k 기계에서 생산되는 생산 단위 품질의 정량적 지표 측정 결과의 k 샘플이 있다고 가정합니다. 숫자 집합(x1(j), x2(j), … , xn(j)), 여기서 j는 기계 번호, j = 1, 2, …, k, n은 표본 크기입니다. 분산 분석의 일반적인 공식에서는 측정 결과가 독립적이고 각 샘플에서 동일한 분산을 갖는 정규 분포 N(m(j), y2)이 있다고 가정합니다.

제품 품질의 균일성 확인, 즉 제품 품질에 대한 기계 번호의 영향 부족은 가설 테스트로 귀결됩니다.

H0: m(1) = m(2) = … = m(k).

분산 분석에서 이러한 가설을 테스트하는 방법이 개발되었습니다.

가설 H0은 표시된 동등성 중 적어도 하나가 충족되지 않는 대립 가설 H1에 대해 테스트됩니다. 이 가설의 검증은 R.A. Fisher가 표시한 다음 "분산의 분해"를 기반으로 합니다.

여기서 s2는 풀링된 샘플의 샘플 분산입니다.

따라서 식 (7)의 오른쪽 첫 번째 항은 그룹 내 분산을 반영합니다. 마지막으로, 그룹 간 분산,

공식 (7) 유형의 분산 확장과 관련된 응용 통계 영역을 분산 분석이라고합니다. 분산 분석 문제의 예로 측정 결과가 독립적이고 각 표본에서 동일한 분산을 갖는 정규 분포 N(m(j), y2)이 있다는 가정 하에 위의 가설 H0를 테스트하는 것을 고려하십시오. H0가 참이면 y2로 나눈 식 (7)의 오른쪽 첫 번째 항은 k(n-1) 자유도를 갖는 카이-제곱 분포를 가지며 y2로 나눈 두 번째 항도 다음을 갖습니다. 카이제곱 분포이지만 ( k-1) 자유도를 가지며 첫 번째 및 두 번째 항은 확률 변수로 독립적입니다. 그래서 확률변수

분자 자유도가 (k-1)이고 분모 자유도가 k(n-1)인 Fisher 분포가 있습니다. F< F1-б, и отвергается в противном случае, где F1-б - квантиль порядка 1-б распределения Фишера с указанными числами степеней свободы. Такой выбор критической области определяется тем, что при Н1 величина F безгранично увеличивается при росте объема выборок n. Значения F1-б берут из соответствующих таблиц.

분산 분석의 고전적인 문제, 특히 가설 H0를 테스트하기 위한 비모수적 방법이 개발되었습니다.

다변수 통계 분석 문제의 다음 유형은 분류 문제입니다. 판별 분석, 클러스터 분석, 그룹화 문제의 세 가지 근본적으로 다른 유형으로 나뉩니다.

판별 분석의 작업은 이전에 설명한 클래스 중 하나에 관찰된 객체를 할당하는 규칙을 찾는 것입니다. 이 경우 객체는 벡터를 사용하여 수학적 모델로 설명되며 좌표는 각 객체에 대한 여러 특징을 관찰한 결과입니다. 클래스는 수학 용어로 직접 설명하거나 훈련 샘플을 사용하여 설명합니다. 훈련 샘플은 그것이 속한 클래스에 표시되는 각 요소에 대한 샘플입니다.

기술 진단에서 의사 결정을 위해 판별 분석을 적용하는 예를 고려하십시오. 여러 제품 매개변수를 측정한 결과를 기반으로 결함의 유무를 설정해야 합니다. 이 경우 훈련 샘플의 요소에 대해 추가 연구 중에 발견된 결함, 예를 들어 특정 작동 기간 후에 수행된 결함이 표시됩니다. 판별 분석을 통해 제어의 양을 줄이고 제품의 미래 동작을 예측할 수 있습니다. 판별 분석은 회귀와 유사합니다. 첫 번째는 정성적 특성의 값을 예측할 수 있고 두 번째는 양적 특성을 예측할 수 있습니다. 숫자가 아닌 대상의 통계에서 수학적 체계가 개발되었으며 그 특별한 경우는 회귀 및 판별 분석입니다.

클러스터 분석은 통계 데이터에 따라 샘플 요소를 그룹으로 나눌 필요가 있을 때 사용됩니다. 더욱이, 같은 그룹의 두 요소는 그 안에서 측정된 특성 값의 총체적 관점에서 "가까이" 있어야 하고, 다른 그룹의 두 요소는 같은 의미에서 "멀어" 있어야 합니다. 군집분석은 판별분석과 달리 분류를 지정하지 않고 통계자료를 처리하는 과정에서 형성된다. 예를 들어, 클러스터 분석을 사용하여 일련의 강철 등급(또는 냉장고 등급)을 유사한 그룹으로 분류할 수 있습니다.

또 다른 유형의 클러스터 분석은 기능을 유사한 그룹으로 나누는 것입니다. 표본 상관 계수는 특징의 유사성을 나타내는 지표로 사용할 수 있습니다. 기능 클러스터 분석의 목적은 제어되는 매개변수의 수를 줄이는 것이므로 모니터링 비용을 크게 줄일 수 있습니다. 이를 위해 밀접하게 관련된 기호 그룹 (상관 계수가 1에 가까운 최대 값)에서 하나의 값이 측정되고 나머지 값은 회귀 분석을 사용하여 계산됩니다.

그룹화 문제는 클래스가 미리 결정되지 않고 서로 "멀리" 떨어져 있지 않아도 되는 경우 해결됩니다. 예를 들면 학생들을 스터디 그룹으로 그룹화하는 것입니다. 엔지니어링에서 그룹화 문제에 대한 솔루션은 종종 매개변수 계열입니다. 가능한 크기는 매개변수 계열의 요소에 따라 그룹화됩니다. 응용 통계에 대한 문헌, 규범 기술 및 교육 방법론 문서에서 관찰 결과의 그룹화도 때때로 사용됩니다(예: 히스토그램을 구성할 때).

분류 문제는 다변량 통계 분석에서뿐만 아니라 관찰 결과가 숫자, 함수 또는 비숫자 개체인 경우에도 해결됩니다. 따라서 많은 클러스터 분석 알고리즘은 객체 간의 거리만 사용합니다. 따라서, 그것들 사이의 거리가 주어지는 한, 그것들은 또한 비수치적 성격의 객체들을 분류하는데 사용될 수 있습니다. 가장 간단한 분류 문제는 다음과 같습니다. 두 개의 독립적인 샘플이 주어지면 두 개의 클래스를 나타내는지 아니면 하나를 나타내는지 결정해야 합니다. 1차원 통계에서 이 문제는 동질성 가설을 테스트하는 것으로 축소됩니다.

다변수 통계 분석의 세 번째 섹션은 차원 축소(정보 압축) 문제입니다. 문제 해결의 목표는 원래 기능을 변환하여 얻은 파생 지표 세트를 결정하여 파생 지표의 수가 원래 기능의 수보다 훨씬 적지만 가능한 한 많은 정보를 포함하도록 결정하는 것입니다. 원래 통계 데이터에서. 차원 축소 문제는 다차원 스케일링, 주성분, 요인 분석 등을 사용하여 해결됩니다. 예를 들어, 가장 간단한 다차원 스케일링 모델에서 초기 데이터는 k 개체 간의 쌍별 거리이며 계산의 목적은 개체를 점으로 나타내는 것입니다. 비행기. 이를 통해 개체가 서로 어떻게 관련되어 있는지 문자 그대로 볼 수 있습니다. 이 목표를 달성하려면 숫자 i와 j가 있는 객체에 해당하는 점 사이의 쌍별 거리 sij가 이러한 객체 사이의 거리 cij를 가능한 한 정확하게 재현하도록 평면 위의 한 점을 각 객체에 할당해야 합니다. 최소 자승법의 기본 개념에 따르면 평면 위의 점을 찾아 값을

가장 낮은 값에 도달했습니다. 차원 축소 및 데이터 시각화에 대한 다른 많은 문제 정의가 있습니다.

확률 수학 통계 품질

다변량 통계 분석

수학 섹션. 통계, 수학에 전념. 다차원 통계의 수집, 체계화 및 처리를 위한 최적의 계획을 구축하는 방법. 연구된 다차원 형질의 구성 요소 간의 관계의 본질과 구조를 식별하는 것을 목표로 하고 과학적이고 실용적인 것을 얻기 위한 데이터. 결론. 다차원 속성은 p-차원 지표(특징, 변수)로 이해되며 그 중 다음이 있을 수 있습니다. 및 분류(또는 명목상), 즉, 연구된 객체 세트를 동질적으로 정렬할 수 없는 클래스(분석된 속성에 따라)로 나누는 것을 허용합니다. 이러한 지표를 측정한 결과

연구 인구의 각 개체에 대해 다차원 관찰 또는 M. s를 수행하기 위한 다차원 데이터의 초기 배열을 형성합니다. ㅏ. M. s의 중요한 부분. ㅏ. 연구된 다차원 기능이 다차원으로 해석되고 따라서 다차원 관찰 시퀀스(1)가 일반 모집단에서와 같이 해석되는 상황을 제공합니다. 이 경우 원래 통계를 처리하는 방법을 선택합니다. 데이터 및 속성 분석은 다차원(공동) 확률 분포 법칙의 특성에 관한 특정 가정을 기반으로 합니다.

다변량 분포 및 그 주요 특성에 대한 다변량 통계 분석은 처리된 관측치(1)가 확률적 성격을 갖는 상황, 즉 해당 일반 모집단의 표본으로 해석되는 상황만 다룹니다. 이 하위 섹션의 주요 작업은 다음과 같습니다. 통계. 연구된 다변량 분포의 추정, 주요 수치적 특성 및 매개변수; 사용된 통계의 속성 연구. 등급; 통계 데이터를 구성하는 데 도움이 되는 여러 통계에 대한 확률 분포 연구. 분석된 다변수 데이터의 확률적 특성에 대한 다양한 가설을 테스트하기 위한 기준. 주요 결과는 연구 중인 피쳐가 다차원 정규 분포 법칙의 적용을 받는 특수한 경우와 관련되며, 그 밀도 함수는 다음 관계식으로 지정됩니다.

수학적 벡터는 어디에 있습니까? 확률 변수의 구성 요소에 대한 기대치, 즉 랜덤 벡터의 공분산 행렬, 즉 벡터 구성요소의 공분산입니다(비축퇴 경우가 다음 경우에 고려됩니다. 그렇지 않으면, 즉 순위에 대해 모든 결과가 유효한 상태로 유지되지만 더 낮은 차원 , 연구 중인 집중된 임의 벡터로 판명됨).

따라서 (1)이 무작위 표본을 형성하는 일련의 독립적인 관측치인 경우 매개변수 및 (2)에 참여하는 최대 우도 추정치는 각각 통계입니다( , 참조).

여기서 랜덤 벡터는 p차원 법선 법칙을 따릅니다. 에 의존하지 않으며 행렬 요소의 공동 분포는 소위 소원 분배 r-t a (참조), to-rogo

동일한 체계의 프레임워크 내에서 쌍의 계수, 부분 및 다중 상관, 일반화(즉), 일반화된 호텔링 통계(참조)와 같은 다차원 랜덤 변수의 샘플 특성의 분포 및 모멘트. 특히( 참조), "편향되지 않은" 보정된 추정치를 표본 공분산 행렬로 정의하면 다음과 같습니다.

그런 다음 랜덤 변수 로 경향이 있고, 확률 변수

각각 자유도(p, n-p) 및 (p, n 1 + n 2-p-1). 관련하여 (7) 1쪽및 n 2 - 동일한 일반 모집단에서 추출한 (1) 형식의 두 개의 독립적인 샘플의 부피 - i 번째 샘플을 기반으로 구축된 (3) 및 (4)-(5) 형식의 추정치, 및

추정치 및

연구된 다차원 속성의 구성 요소의 상호 관계의 특성과 구조에 대한 다변수 통계 분석은 M. s의 이러한 방법과 모델을 제공하는 개념과 결과를 결합합니다. a., 복수로, 다차원적으로 분산 분석그리고 공분산 분석, 요인 분석및 주성분 분석, 표준 분석. 상관 관계. 이 소절의 내용을 구성하는 결과는 크게 두 가지 유형으로 나눌 수 있다.

1) 최고의 (어떤 의미에서) 통계의 구성. 언급된 모델의 매개변수 추정 및 속성 분석(정확도 및 확률 공식 - 분포 법칙, 신뢰도: 면적 등). 따라서 연구 중인 다변량 특성을 p-차원 정규 분포에 따라 임의 벡터로 해석하고 두 개의 하위 벡터(각각 열 및 차원 q 및 p-q)로 나눕니다. 이것은 또한 수학 벡터의 해당 분할을 결정합니다. 기대치, 이론 및 표본 공분산 행렬, 즉:

그런 다음( , 참조) 하위 벡터(두 번째 하위 벡터가 고정 값을 취했다고 가정)도 정상이 됩니다. 이 경우 최대 우도 추정치입니다. 이 고전적인 다변량 다중 회귀 모델의 회귀 계수 및 공분산 행렬의 경우

각각 상호 독립적인 통계가 있을 것입니다.

여기에서 추정치의 분포는 정상법의 적용을 받습니다. , 및 추정 n - 매개변수 및 (공분산 행렬의 요소는 행렬의 요소로 표현됨) Wishart 법칙.

요인 분석, 주성분 및 표준 상관 관계 모델의 매개 변수 추정치 구성 및 속성 연구에 대한 주요 결과는 다양한 샘플 공분산 행렬의 고유 값 및 벡터의 확률 통계적 속성 분석과 관련이 있습니다.

고전의 틀에 맞지 않는 계획에서. 일반 모델, 그리고 더 나아가 확률 모델의 틀 내에서 주요 결과는 외생적으로 주어진 품질의 관점에서 가장 좋은 매개변수 추정치를 계산하기 위한 알고리즘의 구성(및 속성 연구)과 관련됩니다. 또는 적절성) 모델의 기능.

2) 통계의 구축. 연구된 관계의 구조에 대한 다양한 가설을 테스트하기 위한 기준. 다변량 정규 모델의 프레임워크(형식 (1)의 관찰 시퀀스는 해당 다변량 정규 일반 모집단의 무작위 표본으로 해석됨) 내에서 예를 들어 통계 데이터가 구성됩니다. 다음 가설을 테스트하기 위한 기준.

I. 수학적 벡터의 평등에 대한 가설. 주어진 특정 벡터에 대한 연구 지표의 기대치; 식 (6)에서 대체된 Hotelling 통계를 사용하여 확인됩니다.

Ⅱ. 수학적 벡터의 평등에 대한 가설. 두 표본으로 표현되는 두 모집단(동일하지만 알려지지 않은 공분산 행렬 포함)의 기대치; 통계를 사용하여 확인했습니다(참조).

III. 수학적 벡터의 평등에 대한 가설. 표본으로 대표되는 여러 일반 모집단(동일하지만 알려지지 않은 공분산 행렬 포함)의 기대치; 통계로 확인

여기에서 크기의 표본에 i번째 p차원 관측값이 있고 j번째 일반 모집단을 나타내고 는 각 표본 및 결합된 표본에 대해 별도로 구성된 (3) 형식의 추정치입니다. 크기의

IV. 표본이 나타내는 여러 정규 모집단의 동등성에 대한 가설은 통계를 사용하여 검증됩니다.

그 중 - 관찰과 별도로 구축 된 형식 (4)의 추정치 제이-샘플, j=1, 2, ... , 케이.

V. 연구 지표의 원래 p-차원 벡터가 분할된 하위 벡터-차원 열의 상호 독립성에 대한 가설은 통계를 사용하여 확인됩니다.

여기서 및 는 전체 벡터 및 해당 하위 벡터에 대한 형식 (4)의 표본 공분산 행렬입니다. 엑스(i) 각각.

연구된 다변량 관측 세트의 기하학적 구조에 대한 다변량 통계 분석은 다음과 같은 모델 및 계획의 개념과 결과를 결합합니다. 판별 분석,확률 분포의 혼합, 클러스터 분석 및 분류, 다변수 스케일링. 이 모든 체계에서 노드는 분석된 요소 간의 거리(근접성 측정, 유사성 측정)의 개념입니다. 동시에 지표 값이 고정 된 다음 기하학적 인 실제 객체로 분석 될 수 있습니다. i 번째 조사 대상의 이미지는 해당 p 차원 공간의 한 점이 될 것이며 지표 자체는 기하학적입니다. l번째 인덱스의 이미지는 해당 n차원 공간의 한 점이 됩니다.

판별분석의 방법과 결과(, , , 참조)는 다음과 같은 과제를 목표로 한다. 일정한 수의 모집단이 존재하는 것으로 알려져 있으며, 연구자는 각 모집단에서 하나의 표본("훈련 표본")을 가지고 있습니다. 어떤 의미에서 사용 가능한 훈련 샘플을 기반으로 최상의 분류 규칙을 구축해야 하며, 이를 통해 연구원이 다음 중 어느 것을 미리 알지 못하는 상황에서 일반 모집단에 특정 새로운 요소(관찰)를 할당할 수 있습니다. 이 요소가 속한 인구. 일반적으로 분류 규칙은 일련의 작업으로 이해됩니다. 연구 중인 지표에서 스칼라 함수를 계산하여 값에 따라 클래스 중 하나에 요소를 할당하기로 결정합니다(구성 판별 함수); 클래스에 요소를 올바르게 할당한다는 관점에서 정보성의 정도에 따라 지표 자체를 정렬합니다. 해당 오분류 확률을 계산하여.

확률 분포의 혼합물을 분석하는 문제(항상 그런 것은 아니지만)는 고려 중인 인구의 "기하학적 구조" 연구와 관련하여 발생합니다. 이 경우 r번째 동질 클래스의 개념은 일부(일반적으로 단봉) 분포 법칙에 의해 설명되는 일반 모집단의 도움으로 공식화되어 표본(1)이 추출되는 일반 모집단의 분포가 설명됩니다. p r - 일반 모집단에서 r 번째 클래스의 선험적 확률(특정 요소) 형식의 분포 혼합에 의해. 작업은 "좋은"통계를 갖는 것입니다. 알려지지 않은 매개변수의 추정(샘플에 의한) 및 때때로 에게.특히, 이 경우에는 훈련 샘플이 없었지만 요소를 판별 분석 방식으로 분류하는 문제를 줄일 수 있습니다.

클러스터 분석의 방법 및 결과(분류, 분류, "선생님 없이" 패턴 인식, , , 참조)는 다음과 같은 문제를 해결하는 것을 목표로 합니다. 기하학적 분석된 요소 집합의 는 해당 점의 좌표(즉, 행렬 ... , n)로 제공됩니다. , 또는 기하학적 집합 예를 들어 쌍별 거리의 행렬에 의한 상대 위치의 특성 . 연구 중인 요소 집합을 상대적으로 작은(미리 알려진) 클래스로 나누어 한 클래스의 요소가 서로 작은 거리에 있는 반면 다른 클래스는 가능하면 충분히 상호가 되도록 해야 합니다. 서로 멀리 떨어져 있고 서로 멀리 떨어져 있는 그런 부분으로 나누어지지 않을 것입니다.

다차원 스케일링의 문제(참조)는 연구 중인 요소 집합이 쌍별 거리의 행렬을 사용하여 지정되고 주어진 수의 (p) 좌표를 각 요소에 할당하는 것으로 구성되는 상황을 말합니다. 이러한 보조 좌표를 사용하여 측정된 요소 간의 쌍별 상호 거리 구조는 평균적으로 주어진 것과 가장 다를 것입니다. 클러스터 분석 및 다차원 스케일링의 주요 결과 및 방법은 일반적으로 초기 데이터의 확률적 특성에 대한 가정 없이 개발된다는 점에 유의해야 합니다.

다변량 통계 분석의 적용 목적은 주로 다음 세 가지 문제를 해결하는 것입니다.

분석된 지표 간의 종속성에 대한 통계적 연구의 문제. 통계적으로 기록된 지표 x의 연구 세트는 이러한 지표의 의미 있는 의미와 연구의 최종 목표에 따라 예측(종속) 변수의 q차원 하위 ​​벡터와 예측(독립) 변수의 경우 문제는 샘플(1)을 기반으로 허용 가능한 솔루션 클래스에서 q-차원 벡터 함수를 결정하는 것이라고 말할 수 있습니다. 에프,어떤 의미에서는 표시기의 하위 벡터 동작에 대한 근사치를 제공합니다. 근사 품질 기능의 특정 유형과 분석된 지표의 특성에 따라 다중 회귀, 분산, 공분산 또는 합류 분석의 하나 또는 다른 계획이 나옵니다.

일반(비엄격) 공식에서 요소(객체 또는 지표)를 분류하는 문제는 통계적으로 행렬 또는 행렬의 형태로 제시된 전체 분석된 요소 집합을 상대적으로 적은 수의 동종 요소로 나누는 것입니다. 어떤 의미, 그룹. 선험적 정보의 성격과 분류 품질 기준을 설정하는 기능의 특정 유형에 따라 판별 분석, 군집 분석(분류학, "비지도" 패턴 인식) 및 분포 혼합 분할의 하나 또는 다른 계획이 나옵니다. 이다.

연구중인 요인 공간의 차원을 줄이고 가장 유익한 지표를 선택하는 문제는 원래 지표의 허용 가능한 변환 클래스에서 발견되는 비교적 적은 수의 지표 세트를 결정하는 것입니다 Krom에서는 m차원 기능 시스템의 정보 내용에 대해 외생적으로 주어진 측정값의 상한에 도달했습니다(참조). autoinformativeness의 측정을 지정하는 기능의 사양(즉, 원래 기능 자체에 대해 통계적 배열(1)에 포함된 정보의 최대 보존을 목표로 함)은 특히 요인 분석 및 주요 구성 요소의 다양한 계획으로 이어집니다. , 기능을 극단적으로 그룹화하는 방법. 외부 정보 내용의 척도를 지정하는 기능, 즉 (1) w, 지표 또는 현상에 직접 포함되지 않은 일부 다른 정보에 대한 최대 정보를 추출하는 것을 목표로 하는 기능은 통계 체계에서 가장 유익한 지표를 선택하는 다양한 방법으로 이어집니다. 의존성 연구 및 판별 분석.

M. s의 주요 수학 도구. ㅏ. 선형 방정식 시스템 이론 및 행렬 이론의 특수 방법 구성(고유값 및 벡터의 단순하고 일반화된 문제 해결 방법, 행렬의 단순 역전 및 의사 역전, 행렬 대각화 절차 등) 및 특정 최적화 알고리즘 (좌표별 하강법, 인접 기울기, 분기 및 경계, 다양한 버전의 임의 검색 및 확률적 근사 등).

문학.: Anderson T., 다변량 통계 분석 입문, trans. 영어에서 M., 1963; Kendall M.J., Stewart A., 다변수 통계 분석 및 시계열, trans. 영어에서 M., 1976; Bolshev L. N., "Bull. Int. Stat. Inst.", 1969, No. 43, p. 425-41; Wishart.J., "Biometrika", 1928, v. 20A, p. 32-52: Hotelling H., "Ann. Math. Stat.", 1931, v. 2, p. 360-78; [c] Kruskal J. V., "Psychometrika", 1964, v. 29, p. 1-27; Ayvazyan S.A., Bezhaeva Z.I., . Staroverov O.V., 다차원 관찰 분류, M., 1974.

S.A.아이바잔.


수학 백과 사전. - M.: 소련 백과사전. I.M. 비노그라도프. 1977-1985.

기술 번역가 핸드북

수학적 통계 섹션(참조), 수학에 전념합니다. 연구 된 다차원 기능의 구성 요소 (참조)의 구성 요소 간의 관계의 본질과 구조를 식별하는 것을 목표로하고 과학적을 얻기위한 방법. 그리고 실용적인.....

넓은 의미에서, 여러 질적 또는 양적 특징이 있는 개체와 관련된 통계 데이터를 연구하는 방법을 결합하는 수학적 통계의 한 가지(수학적 통계 참조) ... ... 위대한 소비에트 백과사전

다변량 통계 분석- 세 개 이상의 변수 사이의 관계를 분석하도록 설계된 수학적 통계 섹션. A.M.S의 세 가지 주요 클래스를 조건부로 구분할 수 있습니다. 변수들 사이의 관계 구조와 공간 차원의 축소를 연구하는 학문이다. 사회학: 백과사전

분석 공분산- - 일련의 수학적 방법. 특정 확률 변수 Y의 평균값이 비정량적 요인 F 세트와 동시에 양적 요인 X 세트에 의존하는 모델 분석과 관련된 통계. Y와 관련하여 ... ... 러시아 사회 백과 사전

수학 섹션. 통계의 발전과 연구를 내용으로 하는 통계. 차별(차별)의 다음 문제를 해결하기 위한 방법: 관찰 결과를 기반으로 몇 가지 가능한 결정 ... ... 수학 백과사전, Orlova Irina Vladlenovna, Kontsevaya Natalya Valerievna, Turundaevsky Viktor Borisovich. 이 책은 다변수 통계 분석(MSA)과 MSA에 따른 계산 구성에 대해 설명합니다. 다변량 통계 방법을 구현하기 위해 통계 처리 프로그램이 사용됩니다 ...


공유하다