일반 인구의 개체 중 일부가 호출됩니다. 일반 모집단과 표본 모집단

현대 수학 통계는 연구를 시작하기 전에 필요한 테스트 수를 결정하는 방법(순차 분석)을 개발하고 기타 여러 문제를 해결합니다. 이는 불확실성이 있는 상황에서 의사결정을 내리는 과학으로 정의됩니다.

그래서, 일반적인 작업 수학적 통계는 과학적이고 실용적인 결론을 얻기 위해 통계 데이터를 수집하고 처리하는 방법을 만드는 것으로 구성됩니다.

이러한 개체를 특징짓는 일부 질적 또는 양적 특징과 관련하여 동질적인 개체 집합을 연구하는 것이 필요하다고 가정합니다. 예를 들어, 부품 배치가 있는 경우 부품의 표준은 정성적 기호로 사용될 수 있고, 부품의 제어된 크기는 정량적 기호로 사용될 수 있습니다.

때로는 완전한 검사가 수행됩니다. 관심 있는 특성과 관련하여 모집단의 각 개체를 조사합니다. 그러나 실제로 연속검사는 비교적 드물게 사용됩니다. 예를 들어 인구에 매우 많은 수의 개체가 포함되어 있는 경우 포괄적인 조사를 수행하는 것은 물리적으로 불가능합니다. 물체에 대한 조사가 파괴와 관련되어 있거나 많은 재료비가 필요한 경우 전체 조사를 수행하는 것은 사실상 의미가 없습니다. 이러한 경우 전체 모집단에서 제한된 수의 개체를 무작위로 선택하여 연구 대상이 됩니다.

표본 모집단 또는 단순히 샘플은 무작위로 선택된 개체의 모음입니다.

일반 인구 무작위로 선택되는 개체 모음이라고 합니다.

용량 모집단(샘플 또는 일반)은 이 모집단에 있는 객체의 수입니다. 예를 들어, 1000개 부품 중 100개 부품을 검사 대상으로 선택하면 볼륨은 다음과 같습니다. 인구 N = 1000 및 표본 크기 = 100.

표본을 수집할 때 진행하는 방법에는 두 가지가 있습니다. 개체를 선택하고 관찰한 후 개체를 모집단에 반환할 수도 있고 반환하지 않을 수도 있습니다. 위의 내용에 따라 샘플은 반복과 비반복으로 구분됩니다.

반복하다 선택한 개체(다음 개체를 선택하기 전)가 모집단에 반환되는 샘플이라고 합니다.

반복 없음 선택한 개체가 모집단에 반환되지 않는 샘플을 호출합니다.

실제로는 반복적 무작위 샘플링이 일반적으로 사용됩니다.

표본 데이터를 바탕으로 관심 모집단의 특성에 대해 충분한 신뢰도를 갖고 판단할 수 있으려면 표본 개체가 이를 정확하게 표현해야 합니다. 즉, 표본은 모집단의 비율을 정확하게 나타내야 합니다. 이 요구 사항은 다음과 같이 간략하게 공식화됩니다. 샘플은 다음과 같아야 합니다. 대표 (대표). 이는 사물을 선택할 때 개인적인 동기와 기타 심리적으로 의미 있고 무의식적인 요소를 배제해야 함을 의미합니다. 각 개체가 다른 개체와 마찬가지로 표본에 포함될 확률이 동일한지 확인하려면 개체 선택의 무작위성을 엄격하게 관찰해야 합니다.

실제로 그들은 사용됩니다 다양한 방법선택. 기본적으로 이러한 방법은 두 가지 유형으로 나눌 수 있습니다.

1. 일반 인구를 여러 부분으로 나눌 필요가 없는 선택. 여기에는 다음이 포함됩니다.

a) 단순 무작위 비반복 선택;

b) 단순 무작위 반복 선택.

2. 인구가 여러 부분으로 나뉘는 선택. 여기에는 다음이 포함됩니다.

a) 전형적인 선택;

b) 기계적 선택;

c) 직렬 선택.

단순 무작위 전체 모집단 중에서 개체를 한 번에 하나씩 선택하는 것을 선택이라고 합니다. 간단한 선택은 다양한 방법으로 수행될 수 있습니다. 예를 들어, 추출하려면 일반 인구 집단의 개체 N 이렇게 하세요: 1부터 숫자까지 적어보세요 N완전히 혼합된 카드에 대해 무작위로 한 장의 카드를 꺼냅니다. 제거된 카드와 동일한 번호를 가진 개체를 조사한 다음 카드를 팩으로 되돌리고 프로세스가 반복됩니다. 카드를 섞거나 그 중 하나를 무작위로 꺼냅니다. 그게 그들이 하는 일이야 때때로 우리는 단순한 무작위로 끝납니다 반복하다 샘플링 볼륨 피.

제거된 카드가 팩으로 반환되지 않으면 단순 무작위로 선택됩니다. 반복 가능.

예를 들어 카트리지를 구경으로 나누는 것과 같이 일반 인구를 일반적인 부품으로 나누면 모든 카트리지에서 선택하는 것이 아니라 구경별로 별도로 선택합니다. 이 선택을 호출합니다. 전형적인.

"모집단의 매 5번째 항목을 선택합니다" 유형의 선택을 호출합니다. 기계적.

연속물 일반 모집단에서 개체를 한 번에 하나씩 선택하는 것이 아니라 지속적인 조사를 받는 "시리즈"로 개체를 선택하는 것을 선택이라고 합니다. 예를 들어, 대규모 자동 기계 그룹에서 제품을 제조하는 경우 소수 기계의 제품만 종합적으로 검사됩니다. 연속 선택은 조사되는 특성이 여러 계열에서 약간 다를 때 사용됩니다.

실제로 자주 사용된다는 점을 강조합니다. 결합된 위의 방법을 결합한 선택입니다. 예를 들어 모집단을 동일한 크기의 계열로 나눈 후 단순 무작위 샘플링을 통해 여러 계열을 선택하고 마지막으로 단순 무작위 샘플링을 통해 각 계열에서 개별 객체를 추출하는 경우가 있습니다.

강의 6. 수리통계의 요소

지식을 통제하고 주어진 강의를 요약하는 질문

1. 정의 무작위 변수.

2. 이산형 및 연속형 확률변수의 수학적 기대값과 분산에 대한 공식을 작성합니다.

3. 라플라스의 국소 적분 극한 정리 정의

4. 이항 분포, 초기하 분포, 포아송 분포, 균일 분포 및 정규 분포를 정의하는 공식을 작성합니다.

목표: 수리통계의 기본 개념을 공부한다.

1. 모집단 및 표본

2. 표본의 통계적 분포. 다각형. 막대 차트 .

3. 표본을 기반으로 한 일반 모집단의 매개변수 추정

4. 일반 및 표본 평균. 계산 방법.

5. 일반 및 표본 분산.

6. 지식을 통제하고 강의 내용을 요약하기 위한 질문

우리는 통계 데이터를 수집하고 처리하기 위한 과학적 기반 방법을 개발하는 수학적 통계 요소를 연구하기 시작합니다.

1. 일반 모집단 및 표본.동질적인 객체 세트를 연구해야 합니다(이 세트를 통계 집계)이러한 개체를 특징짓는 일부 질적 또는 양적 특징에 관한 것입니다. 예를 들어, 부품 배치가 있는 경우 부품의 표준은 정성적 기호로 사용될 수 있고, 부품의 제어된 크기는 정량적 기호로 사용될 수 있습니다.

완전한 검사를 수행하는 것이 가장 좋습니다. 각 개체를 검사합니다. 그러나 대부분의 경우 여러 가지 이유로 이를 수행할 수 없습니다. 개체 수가 많고 접근이 불가능하면 포괄적인 조사가 방해될 수 있습니다. 예를 들어, 알아야 할 사항이 있는 경우 평균 깊이실험 배치에서 포탄 폭발로 인한 분화구를 제거한 다음 완전한 검사를 수행하여 전체 배치를 파괴합니다.

전체 조사가 불가능할 경우 전체 모집단에서 개체의 일부를 선택하여 연구합니다.

객체의 일부가 선택된 통계적 모집단을 호출합니다. 일반 인구.모집단에서 무작위로 선택된 개체 집합을 호출합니다. 견본 추출.

모집단과 표본의 개체 수를 각각 호출합니다. 용량일반 인구와 용량견본.

예제 10.1.한 나무의 열매(200개)를 검사하여 이 품종 특유의 맛이 있는지 확인합니다. 이를 위해 10개의 작품이 선택되었습니다. 여기서 200은 모집단의 크기이고 10은 표본의 크기입니다.

하나의 개체에서 표본을 선택하여 검사하고 모집단에 반환하는 경우 표본을 호출합니다. 반복.표본 개체가 더 이상 모집단에 반환되지 않으면 표본이 호출됩니다. 반복 가능.



실제로는 비반복 샘플링이 더 자주 사용됩니다. 표본 크기가 모집단 크기의 작은 부분인 경우 반복 표본과 비복제 표본 간의 차이는 무시할 수 있습니다.

표본에 있는 개체의 속성은 모집단에 있는 개체의 속성을 정확하게 반영해야 합니다. 또는 그들이 말하는 대로 표본은 다음과 같아야 합니다. 대표(대표). 모집단의 모든 개체가 표본에 포함될 확률이 동일하면 표본이 대표성 있는 것으로 간주됩니다. 즉, 무작위로 선택됩니다. 예를 들어, 향후 수확량을 추정하기 위해 아직 익지 않은 일반 과일 모집단에서 표본을 만들고 그 특성(무게, 품질 등)을 조사할 수 있습니다. 전체 표본을 하나의 나무에서 채취하면 대표성이 없습니다. 대표 표본은 무작위로 선택된 나무에서 무작위로 선택된 과일로 구성되어야 합니다.

2. 표본의 통계적 분포. 다각형. 막대 차트.일반 모집단에서 표본을 추출하고, 엑스 1명이 관찰됨 N 1회, 엑스 2 - n 2한 번, ..., xk-n k번 그리고 N 1 +N 2 +…+ 엔케이= 피 -표본의 크기. 관찰된 값 엑스 1 , 엑스 2 , …, xk~라고 불리는 옵션,오름차순으로 작성된 변형 시퀀스는 다음과 같습니다. 변형 시리즈.관측치 수 N 1 , N 2 , …, 엔케이~라고 불리는 주파수,그리고 표본 크기와의 관계, , ..., - 상대 주파수.상대 빈도의 합은 1과 같습니다. .

통계적 표본 분포옵션 목록과 해당 빈도 또는 상대 빈도를 호출합니다. 통계 분포는 일련의 간격과 해당 빈도(연속 분포)로 지정할 수도 있습니다. 이 간격 내에 속하는 변이의 빈도의 합은 간격에 해당하는 빈도로 간주됩니다. 통계 분포를 그래픽으로 표시하려면 다음을 사용하십시오. 다각형그리고 히스토그램.

축에 다각형을 구성하려면 값 연기 옵션 엑스나, 축에 OU -빈도 값 나는 (상대 주파수).

예제 10.2.그림에서. 10.1은 다음 분포의 다각형을 보여줍니다.

매립지는 일반적으로 다음과 같은 경우에 사용됩니다. 큰 숫자옵션. 변형 수가 많고 속성이 연속적으로 분포하는 경우 히스토그램이 구성되는 경우가 많습니다. 이를 위해 속성의 관찰된 모든 값이 포함된 간격을 길이의 여러 부분 간격으로 나눕니다. 시간각 부분 간격에 대해 찾습니다. 아니 나는, - 다음에 포함된 변형의 빈도의 합 -간격. 그런 다음 베이스와 마찬가지로 이러한 간격에 높이가 있는 직사각형이 만들어집니다(또는 피 -표본의 크기).

정사각형 부분 직사각형은 다음과 같습니다. , (또는 ).

결과적으로 히스토그램의 면적은 모든 빈도(또는 상대 빈도)의 합과 같습니다. 표본 크기(또는 단위).

예제 10.3.그림에서. 그림 10.2는 연속적인 부피 분포의 히스토그램을 보여줍니다. N= 다음 표에 100이 나와 있습니다.

통계적 인구- 대중적 특성, 전형성, 질적 동질성 및 변이의 존재를 지닌 단위 집합입니다.

통계적 인구는 물질적으로 존재하는 개체(직원, 기업, 국가, 지역)로 구성되며 개체입니다.

인구의 단위— 통계적 모집단의 각 특정 단위.

동일한 통계적 모집단은 한 특성에서는 동질적일 수 있고 다른 특성에서는 이질적일 수 있습니다.

질적 균일성- 어떤 기준에서는 인구의 모든 단위가 유사하고 다른 모든 단위에서는 유사하지 않습니다.

통계적 모집단에서 한 모집단 단위와 다른 모집단 단위 사이의 차이는 종종 정량적 특성을 갖습니다. 모집단의 여러 단위 특성 값의 양적 변화를 변이라고 합니다.

특성의 변형- 인구의 한 단위에서 다른 단위로 전환하는 동안 특성(양적 특성에 대한)의 양적 변화.

징후- 이것은 재산이다 특성또는 관찰되거나 측정될 수 있는 단위, 물체 및 현상의 다른 특징. 징후는 양적 징후와 질적 징후로 구분됩니다. 인구의 개별 단위에서 특성 값의 다양성과 가변성을 호출합니다. 변화.

속성적(질적) 특성은 숫자로 표현될 수 없습니다(성별 인구 구성). 정량적 특성은 숫자로 표현됩니다(연령별 인구 구성).

색인- 이는 특정 시간과 장소의 조건 하에서 전체 단위 또는 집합체의 모든 속성의 일반화되는 양적 및 질적 특성입니다.

스코어카드연구 중인 현상을 종합적으로 반영하는 일련의 지표입니다.

예를 들어 급여를 연구합니다.
  • 로그인 - 임금
  • 통계적 인구 - 모든 직원
  • 인구의 단위는 직원 1인입니다.
  • 질적 동질성 - 발생임금
  • 기호의 변형 - 일련의 숫자

인구 및 표본

기초는 하나 이상의 특성을 측정한 결과 얻은 데이터 집합입니다. 무작위 변수에 대한 수많은 관찰로 통계적으로 표현되는 실제로 관찰된 개체 집합은 다음과 같습니다. 견본 추출, 그리고 가설적으로 존재하는 (추측) - 일반 인구. 모집단은 유한할 수 있습니다(관찰 횟수 N = 불변) 또는 무한( 엔 =), 모집단의 표본은 항상 제한된 수의 관측 결과입니다. 표본을 구성하는 관측치의 수를 표본의 크기. 표본 크기가 충분히 큰 경우( n → 무한) 샘플이 고려됩니다 그렇지 않으면 샘플링이라고 합니다. 제한된 양. 샘플이 고려됩니다. 작은, 1차원 확률변수를 측정할 때 표본 크기가 30( N<= 30 ), 여러 개를 동시에 측정하는 경우( 케이) 다차원 관계 공간의 특징 N에게 케이초과하지 않습니다 10(n/k< 10) . 샘플 양식 변형 시리즈, 그 구성원이 다음과 같은 경우 순서통계, 즉 무작위 변수의 샘플 값 엑스오름차순 (순위)으로 정렬되며 특성 값을 호출합니다. 옵션.

. 거의 동일한 무작위로 선택된 개체 세트(모스크바의 한 행정 구역에 있는 상업 은행)는 이 구역에 있는 모든 상업 은행의 일반 인구의 샘플로 간주될 수 있으며 모스크바의 모든 상업 은행의 일반 인구의 샘플로 간주될 수 있습니다. , 국가 상업 은행의 샘플 등

샘플링을 구성하는 기본 방법

통계적 결론의 신뢰성과 결과의 의미 있는 해석은 다음에 달려 있습니다. 대표성샘플, 즉 이 표본이 대표적인 것으로 간주될 수 있는 일반 인구의 속성 표현의 완전성과 적절성. 모집단의 통계적 특성에 대한 연구는 두 가지 방법으로 구성될 수 있습니다. 마디 없는그리고 연속적이지 않음. 지속적인 관찰모든 검사를 제공합니다. 단위공부했다 전체, ㅏ 부분적(선택적) 관찰- 일부만요.

표본 관찰을 구성하는 다섯 가지 주요 방법은 다음과 같습니다.

1. 단순 무작위 선택, 객체는 객체 모집단에서 무작위로 선택됩니다(예: 테이블 또는 난수 생성기를 사용하여). 가능한 각 샘플은 동일한 확률을 갖습니다. 이러한 샘플을 호출합니다. 실제로 무작위;

2. 일반적인 절차를 통한 간단한 선택기계적 구성 요소(예: 날짜, 요일, 아파트 번호, 알파벳 문자 등)를 사용하여 수행되며 이러한 방식으로 얻은 샘플을 호출합니다. 기계적인;

3. 층화된선택은 볼륨의 일반 모집단이 볼륨의 하위 모집단 또는 레이어(지층)로 분할되어 . 계층은 통계적 특성 측면에서 동질적인 개체입니다(예: 인구는 연령 그룹이나 사회 계층에 따라 계층으로 구분되고, 기업은 산업별로 구분됩니다). 이 경우 샘플이 호출됩니다. 층화된(그렇지 않으면, 계층화된, 전형적인, 지역화된);

4. 방법 연속물선택은 형성에 사용됩니다 연속물또는 둥지 샘플. 한 번에 "블록"이나 일련의 개체(예: 상품 배치, 특정 시리즈의 제품 또는 국가의 영토 행정 구역 인구)를 조사해야 하는 경우 편리합니다. 시리즈 선택은 순전히 무작위로 또는 기계적으로 수행될 수 있습니다. 이 경우 특정 상품 배치 또는 전체 지역 단위(주거용 건물 또는 블록)에 대한 완전한 검사가 수행됩니다.

5. 결합된(단계적) 선택은 여러 선택 방법을 동시에 결합할 수 있습니다(예: 계층화 및 무작위 또는 무작위 및 기계적). 그러한 샘플이 호출됩니다. 결합된.

선택 유형

에 의해 정신개인, 그룹, 복합선택이 구분됩니다. ~에 개별 선택일반 모집단의 개별 단위가 표본 모집단으로 선택됩니다. 그룹 선택- 질적으로 동질적인 단위 그룹(시리즈) 결합 선택첫 번째 유형과 두 번째 유형의 조합이 포함됩니다.

에 의해 방법선택이 차별화된다 반복적이고 비반복적인견본.

반복 없음표본에 포함된 단위가 원래 모집단으로 돌아가지 않고 추가 선택에 참여하지 않는 것을 선택이라고 합니다. 반면 일반 인구의 단위 수는 N선택 과정에서 감소됩니다. ~에 반복선택 잡았다표본에서 등록 후 단위는 일반 대중에게 반환되므로 다른 단위와 함께 추가 선택 절차에 사용될 동등한 기회가 유지됩니다. 반면 일반 인구의 단위 수는 N변경되지 않았습니다(이 방법은 사회경제적 연구에서는 거의 사용되지 않음). 그러나, 큰 N (N → )에 대한 공식 반복 가능선택은 다음을 위한 방법에 접근합니다. 반복선택하고 후자가 실제로 더 자주 사용됩니다( N = 불변).

일반 모집단과 표본 모집단 매개변수의 기본 특성

연구의 통계적 결론은 무작위 변수의 분포와 관찰된 값을 기반으로 합니다. (x1,x2,...,xn)확률변수의 실현이라 불린다. 엑스(n은 표본 크기입니다). 일반 모집단에서 무작위 변수의 분포는 이론적이고 이상적인 성격을 띠고 있으며 그 샘플 유사체는 다음과 같습니다. 경험적분포. 일부 이론적 분포는 분석적으로 지정됩니다. 그들의 옵션확률 변수의 가능한 값 공간의 각 지점에서 분포 함수의 값을 결정합니다. 표본의 경우 분포함수를 결정하는 것이 어렵고 때로는 불가능합니다. 옵션경험적 데이터로부터 추정한 후 이론적 분포를 설명하는 분석적 표현으로 대체합니다. 이 경우 가정(또는 가설) 분포 유형에 대한 정보는 통계적으로 정확할 수도 있고 오류가 있을 수도 있습니다. 그러나 어떤 경우에도 표본에서 재구성된 경험적 분포는 실제 분포의 특징을 대략적으로만 나타냅니다. 가장 중요한 분포 매개변수는 다음과 같습니다. 기대값그리고 변화.

특성상 배포는 다음과 같습니다. 마디 없는그리고 이산적인. 가장 잘 알려진 연속 분포는 다음과 같습니다. 정상. 매개변수의 샘플 유사체는 평균값과 경험적 분산입니다. 사회경제적 연구에서 개별적인 것 중에서 가장 자주 사용되는 것은 대안(이분법)분포. 이 분포의 수학적 기대 매개변수는 상대 값(또는 공유하다) 연구되는 특성을 가진 인구 단위 (문자로 표시됨) 이 특성을 갖지 않는 인구의 비율은 문자로 표시됩니다. q(q = 1 - p). 대체 분포의 분산도 경험적 유사성을 갖습니다.

분포 유형과 모집단 단위 선택 방법에 따라 분포 모수의 특성이 다르게 계산됩니다. 이론적 및 경험적 분포에 대한 주요 분포가 표에 나와 있습니다. 9.1.

표본분율 kn일반 모집단의 단위 수에 대한 표본 모집단의 단위 수의 비율을 다음과 같이 부릅니다.

kn = n/N.

표본분율 w연구되는 특성을 지닌 단위의 비율입니다. 엑스샘플 크기에 맞춰 N:

w = n n /n.

예. 1000개 단위를 포함하는 제품 배치에서 5% 샘플 포함 샘플 공유 k n절대값은 50단위입니다. (n = N*0.05); 이 샘플에서 결함이 있는 제품이 2개 발견되면 샘플 결함률 w 0.04(w = 2/50 = 0.04 또는 4%)가 됩니다.

표본 모집단은 일반 모집단과 다르기 때문에 샘플링 오류.

표 9.1 일반 모집단과 표본 모집단의 주요 매개변수

샘플링 오류

어떤 경우든(지속적 및 선택적) 등록 및 대표성이라는 두 가지 유형의 오류가 발생할 수 있습니다. 오류 등록가질 수 있다 무작위의그리고 체계적인성격. 무작위의오류는 통제할 수 없는 다양한 원인으로 구성되며, 의도하지 않은 것이며 일반적으로 서로 균형을 이룹니다(예: 실내 온도 변화로 인한 장치 성능의 변화).

체계적인오류는 샘플 개체 선택 규칙을 위반하기 때문에 편향됩니다(예: 측정 장치의 설정을 변경할 때 측정 편차).

예.도시 인구의 사회적 상황을 평가하기 위해 가족의 25%를 조사할 계획이다. 네 번째 아파트마다 아파트 수를 기준으로 선택하는 경우 한 가지 유형(예: 원룸 아파트)의 아파트만 모두 선택하면 체계적인 오류가 발생하고 결과가 왜곡될 위험이 있습니다. 오류는 무작위로 발생하므로 아파트 번호를 추첨으로 선택하는 것이 더 바람직합니다.

대표성 오류이는 표본 관찰에만 내재되어 있으며 피할 수 없으며 표본 모집단이 일반 모집단을 완전히 재현하지 못한다는 사실의 결과로 발생합니다. 표본에서 얻은 지표의 값은 일반 모집단의 동일한 값(또는 지속적인 관찰을 통해 얻은) 지표와 다릅니다.

샘플링 편향모집단의 모수 값과 표본 값의 차이입니다. 정량적 특성의 평균값은 다음과 같습니다. , 점유율(대체 특성) - .

샘플링 오류는 샘플 관찰에만 내재되어 있습니다. 이러한 오류가 클수록 경험적 분포는 이론적 분포와 더 많이 다릅니다. 경험적 분포의 매개 변수는 확률 변수이므로 샘플링 오류도 확률 변수이며 표본마다 다른 값을 취할 수 있으므로 계산하는 것이 일반적입니다. 평균 오류.

평균 샘플링 오류수학적 기대치로부터 표본 평균의 표준 편차를 나타내는 양입니다. 무작위 선택의 원칙에 따라 이 값은 주로 표본 크기와 특성의 변동 정도에 따라 달라집니다. 특성의 변동(따라서 값)이 크고 작을수록 평균 샘플링 오류는 작아집니다. . 일반 모집단과 표본 모집단의 분산 간의 관계는 다음 공식으로 표현됩니다.

저것들. 충분히 크면 이라고 가정할 수 있습니다. 평균 표본 추출 오류는 일반 모집단 모수와 표본 모집단 모수의 가능한 편차를 보여줍니다. 테이블에 표 9.2는 관찰을 구성하는 다양한 방법에 대한 평균 샘플링 오류를 계산하는 수식을 보여줍니다.

표 9.2 표본 평균의 평균 오차(m)와 다양한 표본 유형에 대한 비율

연속 속성에 대한 그룹 내 표본 분산의 평균은 어디에 있습니까?

비율의 그룹 내 분산 평균.

— 선택된 시리즈의 수 — 시리즈의 총 수

,

번째 계열의 평균은 어디에 있습니까?

- 연속 특성에 대한 전체 표본 모집단의 전체 평균;

,

번째 시리즈의 특성 점유율은 어디에 있습니까?

— 전체 표본 모집단에 대한 특성의 총 점유율.

그러나 평균 오류의 크기는 특정 확률 P(P ≤ 1)로만 판단할 수 있습니다. 리아푸노프 A.M. 일반 모집단이 유한한 평균과 제한된 분산을 갖는다면 표본 평균의 분포와 그에 따른 일반 평균으로부터의 편차는 충분히 큰 수에 대해 대략 정규 분포 법칙을 따른다는 것을 증명했습니다.

수학적으로 평균에 대한 이 설명은 다음과 같이 표현됩니다.

공유의 경우 식 (1)은 다음과 같은 형식을 취합니다.

어디 - 있다 한계 샘플링 오류, 이는 평균 샘플링 오류의 배수입니다. , 다중성 계수는 ​​W.S.가 제안한 스튜던트 테스트("신뢰 계수")입니다. Gosset(가명 "학생"); 다양한 표본 크기에 대한 값은 특수 테이블에 저장됩니다.

t의 일부 값에 대한 함수 Ф(t)의 값은 다음과 같습니다.

따라서 식 (3)은 다음과 같이 읽을 수 있습니다. P = 0.683(68.3%)표본평균과 일반평균의 차이는 평균오차의 한 값을 초과하지 않을 것이라고 주장할 수 있다. m(티=1), 확률적으로 P = 0.954(95.4%)- 두 개의 평균 오류 값을 초과하지 않을 것 m (t = 2) ,확률적으로 P = 0.997(99.7%)- 3개 값을 초과하지 않습니다. m (t = 3) .따라서 이 차이가 평균 오류의 3배를 초과할 확률은 다음과 같이 결정됩니다. 오류 수준그리고 그 이상은 아니다 0,3% .

테이블에 9.3은 최대 샘플링 오류를 계산하는 공식을 보여줍니다.

표 9.3 다양한 유형의 표본 관찰에 대한 평균 및 비율(p)에 대한 표본의 한계 오차(D)

모집단에 대한 표본 결과의 일반화

표본 관찰의 궁극적인 목표는 일반 모집단의 특성을 파악하는 것입니다. 표본 크기가 작을 경우 매개변수( 및 )의 경험적 추정치는 실제 값( 및 )에서 크게 벗어날 수 있습니다. 따라서 매개변수( 및 )의 표본값에 대해 참값( 및 )이 놓이는 경계를 설정할 필요가 있습니다.

신뢰 구간일반 모집단의 매개변수 θ 중 이 매개변수 값의 무작위 범위는 1에 가까운 확률로( 신뢰할 수 있음)에는 이 매개변수의 실제 값이 포함되어 있습니다.

한계 오류견본 Δ 일반 인구의 특성과 그 특성의 제한 값을 결정할 수 있습니다. 신뢰 구간, 이는 동일합니다:

결론 신뢰 구간뺄셈으로 얻은 최대 오류표본 평균(점유율)에서 상위 값을 추가합니다.

신뢰 구간평균의 경우 최대 샘플링 오류를 사용하고 주어진 신뢰도 수준은 다음 공식에 의해 결정됩니다.

즉, 주어진 확률로 아르 자형, 이는 신뢰 수준이라고 하며 값에 의해 고유하게 결정됩니다. , 평균의 실제 값은 다음 범위에 있다고 주장할 수 있습니다. , 그리고 주식의 실제 가치는 다음 범위에 있습니다.

세 가지 표준 신뢰 수준에 대한 신뢰 구간을 계산할 때 P = 95%, P = 99% 및 P = 99.9%값은 에 의해 선택됩니다. 자유도 수에 따라 적용됩니다. 표본 크기가 충분히 크면 이러한 확률에 해당하는 값 같다: 1,96, 2,58 그리고 3,29 . 따라서 한계 샘플링 오류를 통해 모집단 특성의 제한 값과 신뢰 구간을 결정할 수 있습니다.

사회 경제적 연구에서 일반 인구에 대한 표본 관찰 결과의 분포는 모든 유형과 그룹의 완전한 대표가 필요하기 때문에 고유한 특성을 가지고 있습니다. 그러한 배포 가능성의 기초는 계산입니다. 상대오차:

어디 Δ % - 상대 최대 샘플링 오류; , .

표본 관찰을 모집단으로 확장하는 두 가지 주요 방법이 있습니다. 직접 재계산 및 계수 방법.

본질 직접 변환표본 평균!!\overline(x)에 모집단의 크기를 곱하는 것으로 구성됩니다.

. 그 도시의 평균 유아 수를 표본 추출 방법으로 추정하여 1명으로 계산합니다. 도시에 1000명의 젊은 가족이 있는 경우, 시립 보육원에 필요한 장소 수는 이 평균에 일반 인구 N = 1000의 규모를 곱하여 구합니다. 즉, 1200석을 차지하게 됩니다.

확률 방식연속 관찰의 데이터를 명확히 하기 위해 선택적 관찰을 하는 경우에 사용하는 것이 좋습니다.

다음 공식이 사용됩니다.

여기서 모든 변수는 인구 규모입니다.

필요한 샘플 크기

표 9.4 다양한 유형의 표본 관찰 조직에 필요한 표본 크기(n)

미리 결정된 허용 샘플링 오차 값으로 샘플 관찰을 계획할 때 필요한 오차를 정확하게 추정하는 것이 필요합니다. 표본의 크기. 이 볼륨은 오류 수준의 허용 가능한 값을 보장하는 주어진 확률을 기반으로 샘플 관찰 중 허용되는 오류를 기반으로 결정될 수 있습니다(관찰 구성 방법 고려). 필요한 샘플 크기 n을 결정하는 공식은 최대 샘플링 오류에 대한 공식에서 직접 쉽게 얻을 수 있습니다. 따라서 한계 오류에 대한 표현식에서 다음과 같습니다.

표본 크기는 직접 결정됩니다. N:

이 공식은 최대 샘플링 오류가 감소함에 따라 Δ 필요한 표본 크기는 크게 증가하며 이는 스튜던트 t 검정의 분산과 제곱에 비례합니다.

관찰을 구성하는 특정 방법의 경우 필요한 표본 크기는 표에 제공된 공식에 따라 계산됩니다. 9.4.

실제 계산 예

예 1. 연속 정량적 특성에 대한 평균값 및 신뢰 구간 계산.

채권자와의 결제 속도를 평가하기 위해 은행에서 10개의 결제 문서에 대한 무작위 샘플을 실시했습니다. 그들의 값은 (일수) : 10과 같습니다. 삼; 15; 15; 22; 7; 8; 1; 19; 20.

확률적으로 필요함 P = 0.954한계 오차를 결정하다 Δ 평균 계산 시간의 샘플 평균 및 신뢰 한계.

해결책.평균값은 표의 공식을 사용하여 계산됩니다. 9.1 표본 집단의 경우

분산은 표의 공식을 사용하여 계산됩니다. 9.1.

오늘의 평균 제곱 오차입니다.

평균 오류는 다음 공식을 사용하여 계산됩니다.

저것들. 평균은 x ± m = 12.0 ± 2.3일.

평균의 신뢰도는 이랬다.

표의 공식을 사용하여 최대 오류를 계산합니다. 9.3 반복 샘플링의 경우 모집단 규모를 알 수 없으므로 P = 0.954자신감 수준.

따라서 평균값은 `x ± D = `x ± 2m = 12.0 ± 4.6입니다. 즉 실제 값은 7.4~16.6일 범위에 있습니다.

학생의 t-테이블을 사용합니다. 응용 프로그램을 통해 n = 10 - 1 = 9 자유도에 대해 얻은 값은 £ 0.001의 유의 수준으로 신뢰할 수 있다는 결론을 내릴 수 있습니다. 결과 평균값은 0과 크게 다릅니다.

예시 2. 확률 추정(일반 점유율) p.

1000가구의 사회적 지위를 기계적으로 조사한 결과, 저소득 가구의 비율은 w = 0.3(30%)(샘플은 2% , 즉. n/N = 0.02). 신뢰도 수준에 필수 p = 0.997지표를 결정하다 아르 자형지역 전체의 저소득층 가족.

해결책.제시된 기능 값을 기반으로 Ф(t)주어진 신뢰도 수준 찾기 P = 0.997의미 티 = 3(공식 3 참조) 분수의 한계오차 표의 공식으로 결정하십시오. 9.3 비반복 샘플링의 경우(기계적 샘플링은 항상 비반복적임):

최대 상대 샘플링 오류 % 될거야:

지역 내 저소득층 가구의 확률(일반 점유율)은 다음과 같습니다. р=w±Δw, 신뢰한계 p는 이중 부등식을 기반으로 계산됩니다.

w — Δ w ≤ p ≤ w — Δ w, 즉. p의 실제 값은 다음에 있습니다.

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

따라서 0.997의 확률로 지역 내 전체 가구 중 저소득층 가구의 비율이 28.6%에서 31.4% 범위에 있다고 말할 수 있다.

예시 3.구간 계열로 지정된 이산 특성에 대한 평균값 및 신뢰 구간을 계산합니다.

테이블에 9.5. 기업의 구현시기에 따라 주문 생산을위한 응용 프로그램 배포가 지정됩니다.

표 9.5 출현 시점별 관찰 분포

해결책. 주문 완료에 소요되는 평균 시간은 다음 공식을 사용하여 계산됩니다.

평균 기간은 다음과 같습니다.

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23.1개월.

테이블의 두 번째 열에서 p i에 대한 데이터를 사용하면 동일한 답을 얻습니다. 9.5, 다음 공식을 사용합니다.

마지막 그라데이션 간격의 중간은 이전 그라데이션 간격의 너비인 60 - 36 = 24개월을 인위적으로 보완하여 구합니다.

분산은 다음 공식을 사용하여 계산됩니다.

어디 x 나는- 간격 시리즈의 중간.

그러므로!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4)이고 평균 제곱 오차는 입니다.

평균 오류는 월별 공식을 사용하여 계산됩니다. 평균값은 !!\overline(x) ± m = 23.1 ± 13.4입니다.

표의 공식을 사용하여 최대 오류를 계산합니다. 반복 선택의 경우 9.3(인구 규모를 알 수 없으므로 신뢰 수준 0.954):

따라서 평균은 다음과 같습니다.

저것들. 실제 값은 0~50개월 범위에 있습니다.

예시 4.상업은행에서 N=500개 법인기업의 채권자와의 결제속도를 알아보기 위해서는 무작위 비반복선택방법을 이용한 표본연구를 실시할 필요가 있다. 시험 추정 결과 표준 편차 s가 10일인 경우 확률 P = 0.954에서 표본 평균의 오차가 3일을 초과하지 않도록 필요한 표본 크기 n을 결정합니다.

해결책. 필요한 연구 수 n을 결정하기 위해 표에서 비반복 선택 공식을 사용합니다. 9.4:

여기서 t 값은 P = 0.954의 신뢰 수준에서 결정됩니다. 2와 같습니다. 평균 제곱값은 s = 10이고 모집단 크기는 N = 500이며 평균의 최대 오차는 다음과 같습니다. Δ x = 3. 이 값을 공식에 ​​대입하면 다음과 같은 결과를 얻습니다.

저것들. 필요한 매개변수, 즉 채권자와의 합의 속도를 추정하려면 41개 기업의 샘플을 수집하는 것으로 충분합니다.

수학통계 실험 결과를 바탕으로 분포 법칙과 수치적 특성을 찾는 대략적인 방법을 연구하는 수학의 한 분야입니다.

인구 – 이것은 어떤 속성과 관련하여 동질적인 관측(객체)에 대해 생각할 수 있는 모든 값의 집합입니다.

견본이는 일반 모집단의 직접 연구를 위해 무작위로 선택된 관찰(객체) 모음입니다.

통계적 분포 는 변형 x i 와 해당 주파수 n i 의 집합입니다.

빈도 히스토그램는 동일한 직선 위에 구성된 인접한 직사각형으로 구성된 계단형 도형으로, 그 밑변은 동일하고 클래스의 너비와 동일하며 높이는 간격 ni에 속하는 빈도 또는 상대 빈도 ni와 같습니다. / N. 간격 i의 너비를 결정할 수 있습니다. 스터지스 공식에 따르면:

I=(x 최대 -x 최소)/(1+3.32lgn),

여기서 x 최대 – 최대; x min은 옵션의 최소값이며 그 차이는 다음과 같습니다. 변동 범위; n – 표본 크기.

주파수 다각형 – 점선이 좌표 x i, n i로 점을 연결하는 점선입니다.

5. 위치(모드, 중앙값, 표본 평균) 및 분산(표본 분산 및 표본 표준 편차)의 특성.

패션(M 영형 ) 이는 이전 의미와 다음 의미의 발생 빈도가 더 낮은 의미의 변형입니다.

단봉 분포의 경우 모드는 주어진 모집단에서 가장 자주 발생하는 변형입니다.

간격 계열의 모드를 결정하려면 다음 공식을 사용하십시오.

0 =x 맨 아래 +나는*((n 2 -N 1 )/(2n 2 -N 1 +n 3 )),

여기서 x lower는 모달 클래스의 하한 경계입니다. 즉, 발생 빈도가 가장 높은 클래스 n 2; n 2 – 모달 클래스 주파수; n 1 – 모달 클래스 이전 클래스의 빈도; n 3 – 모달 옆 클래스의 빈도; i는 클래스 간격의 너비입니다.

중앙값(M 이자형 )- 이것이 속성의 값입니다. 이와 관련하여 배포 시리즈는 볼륨이 동일한 두 부분으로 나뉩니다.

표본 평균 – 이는 통계 시리즈 변형의 산술 평균 값입니다.

표본 분산– 평균값으로부터의 제곱편차의 산술평균:

표준 편차표본 분산의 제곱근입니다.

에스 V =√(에스 V 2 )

6. 표본(점 및 간격)을 기반으로 일반 모집단의 매개변수 추정. 신뢰구간과 신뢰확률.

인구를 특징 짓는 수치를 다음과 같이 부릅니다. 매개변수.

통계적 추정은 두 가지 방법으로 수행할 수 있습니다.

1)점 추정– 특정 지점에 대해 제공되는 추정치

2)간격 추정– 샘플 데이터를 기반으로 주어진 확률에서 참값이 속하는 간격을 추정합니다.

포인트 추정하나의 숫자로 결정되는 점수입니다. 그리고 이 숫자는 샘플링을 통해 결정됩니다.

점추정이라고 합니다. 풍부한, 만약 표본 크기가 증가함에 따라 표본 특성이 일반 모집단의 특성과 일치하는 경향이 있습니다.

점추정이라고 합니다. 효과적인, 다른 유사한 추정치에 비해 샘플링 분포 분산이 가장 작은 경우.

점추정이라고 합니다. 편견 없는, 수학적 기대치가 임의의 표본 크기에 대한 추정 매개변수와 동일한 경우.

일반 평균의 편견 추정치(수학적 기대값)은 다음의 표본 평균입니다.

V = N ,

여기서 x i – 샘플링 옵션; n i – 옵션 x i의 발생 빈도; n – 표본 크기.

간격 추정일반 모집단의 알려지지 않은 매개 변수를 포함하는 간격의 경계인 두 숫자로 결정되는 수치 간격입니다.

신뢰 구간– 이는 미리 결정된 하나 또는 다른 확률로 모집단의 알려지지 않은 매개 변수가 위치하는 간격입니다.

신뢰 확률이는 확률(1-p)의 사건이 불가능하다고 간주될 수 있는 확률입니다. α=1-р는 유의 수준입니다. 일반적으로 1에 가까운 확률을 신뢰확률로 사용하면 구간이 특성을 포괄하는 사건은 실질적으로 신뢰할 수 있습니다. 이는 p≥0.95, p≥0.99, p≥0.999입니다.

작은 표본 크기의 경우(n<30) нормально распределенного количественного признака х доверительный интервал может иметь вид:

V - t ≤ V + t (р≥0.95),

일반 평균은 어디에 있습니까? c - 표본 평균; t는 (n-1) 자유도를 갖는 스튜던트 분포의 정규화된 지표이며, 이는 일반 매개변수가 주어진 구간에 포함될 확률에 의해 결정됩니다. m은 표본 평균의 오차입니다.

이는 확률 이론의 방법을 기반으로 통계 데이터를 체계화하고 처리하여 과학적이고 실용적인 결론을 얻는 과학입니다.

통계자료 특정 특성을 가진 개체의 수에 대한 정보를 나타냅니다. .

어떤 질적 또는 양적 특성에 따라 결합된 개체 그룹을 호출합니다. 통계적 총체성 . 컬렉션에 포함된 객체를 요소라고 하며, 컬렉션의 총 개수는 컬렉션입니다. 용량.

일반 인구주어진 실제 조건 또는 더 엄밀하게 말하면 다음과 같이 가능한 모든 관찰의 집합입니다. 일반 모집단은 확률 변수 x와 관련 확률 공간(W, Á, P)입니다.

확률 변수 x의 분포는 다음과 같습니다. 인구 분포(예를 들어 정규 분포 또는 단순히 정규 모집단에 대해 이야기합니다.)

예를 들어, 무작위 변수에 대해 여러 번의 독립적인 측정이 수행된 경우 엑스,그러면 일반 인구는 이론적으로 무한합니다(즉, 일반 인구는 추상적이고 관습적으로 수학적 개념입니다). N개 제품 배치에서 결함이 있는 제품의 수를 확인하면 이 배치는 볼륨 N의 유한 일반 모집단으로 간주됩니다.

사회경제적 연구의 경우 볼륨 N의 일반 인구는 도시, 지역, 국가의 인구가 될 수 있으며, 측정된 특성은 개인의 소득, 지출 또는 저축액이 될 수 있습니다. 일부 속성이 질적 성격(예: 성별, 국적, 사회적 지위, 직업 등)이지만 유한한 옵션 집합에 속하는 경우 설문지에서 흔히 수행되는 것처럼 숫자로 인코딩할 수도 있습니다. ).

개체 수 N이 충분히 크면 포괄적인 조사를 수행하는 것이 어렵고 때로는 물리적으로 불가능할 수도 있습니다(예: 모든 카트리지의 품질 확인). 그런 다음 전체 모집단에서 제한된 수의 개체를 무작위로 선택하여 연구 대상으로 삼습니다.

표본 모집단 또는 단순히 견본 추출볼륨 n은 독립적으로 동일하게 분포된 확률 변수의 수열 x 1 , x 2 , ..., x n이며, 각각의 분포는 확률 변수 x의 분포와 일치합니다.

예를 들어, 랜덤 변수의 처음 n개 측정 결과는 다음과 같습니다. 엑스무한한 모집단에서 크기 n의 표본으로 간주하는 것이 일반적입니다. 얻은 데이터를 이라고 합니다. 확률변수의 관측 x, 그들은 또한 확률 변수 x가 x 1, x 2, …, x n의 "값을 취한다"고 말합니다.


수학적 통계의 주요 임무는 하나 이상의 알려지지 않은 확률 변수의 분포 또는 이들 간의 관계에 대해 과학적 기반의 결론을 내리는 것입니다. 표본의 성질과 특성을 바탕으로 확률변수(일반 모집단)의 수치적 특성과 분포법칙에 대해 결론을 내리는 방법을 말한다. 선택적 방법으로.

표본추출방법으로 얻은 확률변수의 특성이 객관적이 되기 위해서는 표본이 대표 저것들. 연구된 양을 아주 잘 표현했습니다. 대수의 법칙에 따라 표본이 무작위로 수행되면 대표성이 있다고 주장할 수 있습니다. 모집단의 모든 개체는 표본에 포함될 확률이 동일합니다. 이 목적을 위해 다양한 유형의 샘플 선택이 있습니다.

1. 단순한무작위 샘플링은 전체 모집단에서 개체를 한 번에 하나씩 선택하는 선택입니다.

2. 층화 (층화) 선택은 볼륨 N의 원래 모집단이 하위 집합(지층) N 1, N 2,...,N k로 나누어져 N 1 + N 2 +...+ N k = N이 되는 것입니다. 결정된 각각으로부터 볼륨 n 1, n 2, ..., n k의 단순 무작위 샘플이 추출됩니다. 층화 선택의 특별한 경우는 일반 선택으로, 개체가 전체 모집단에서 선택되는 것이 아니라 모집단의 각 전형적인 부분에서 선택됩니다.

결합 선택여러 유형의 선택을 한 번에 결합하여 샘플 설문조사의 여러 단계를 구성합니다. 다른 샘플링 방법이 있습니다.

샘플이 호출됩니다. 반복 , 다음 개체를 선택하기 전에 선택한 개체가 모집단에 반환되는 경우. 샘플이 호출됩니다. 반복 가능 , 선택한 개체가 모집단에 반환되지 않는 경우. 유한한 모집단의 경우, 복귀가 없는 무작위 선택은 각 단계에서 개별 관측치의 의존성을 초래하고, 복귀가 있는 무작위 동등 가능 선택은 관측치의 독립으로 이어집니다. 실제로 우리는 일반적으로 비반복적인 샘플을 다룹니다. 그러나 모집단 크기 N이 표본 크기 n보다 몇 배 더 큰 경우(예: 수백 또는 수천 배) 관측값의 종속성을 무시할 수 있습니다.

따라서 무작위 표본 x 1, x 2, ..., x n은 일반 모집단을 나타내는 확률 변수 ξ에 대한 순차적이고 독립적인 관측의 결과이며 표본의 모든 요소는 원래 확률 변수와 동일한 분포를 갖습니다. 엑스.

우리는 분포 함수 F x (x)와 확률 변수 x의 기타 수치적 특성을 호출합니다. 이론적 인, 같지 않은 샘플 특성 , 이는 관찰 결과에 따라 결정됩니다.

표본 x 1, x 2, ..., x k를 확률 변수 x에 대한 독립적인 관찰의 결과라고 하고, x 1은 n 1번, x 2 - n 2번, ..., x k - n k번 관찰되었습니다. , 따라서 n i = n - 표본 크기입니다. n개의 관측값에 x i 값이 몇 번 나타나는지 나타내는 숫자 n i를 호출합니다. 빈도 주어진 값과 비율 n i /n = 나- 상대 빈도. 분명 숫자는 나는 합리적이고…

특성의 오름차순으로 배열된 통계적 모집단을 이라고 합니다. 변형 시리즈 . 그 구성원은 x (1), x (2), ... x (n)으로 표시되며 다음과 같이 불립니다. 옵션 . 변형 시리즈라고 합니다. 이산적인, 해당 구성원이 특정 격리된 값을 취하는 경우. 통계적 분포 이산 확률 변수 샘플링 엑스옵션 목록과 해당 상대 빈도라고 함 나. 결과 테이블이 호출됩니다. 통계적으로 가깝습니다.

엑스(1) x(2) ... xk(k)
와 1 와 2 ... Ωk

변이 계열의 최대값과 최소값을 xmin, xmax로 표시하고 이라고 합니다. 변주 시리즈의 익스트림 멤버.

연속 확률 변수를 연구하는 경우 그룹화는 관찰된 값의 간격을 동일한 길이 h의 k 부분 간격으로 나누고 이러한 간격에 속하는 관찰 수를 계산하는 것으로 구성됩니다. 결과 숫자는 빈도 n i(새로운, 이미 이산적인 임의 변수의 경우)로 간주됩니다. 간격의 중간 값은 일반적으로 옵션 x i의 새 값으로 사용됩니다(또는 간격 자체가 표에 표시됨). Sturges 공식에 따르면 권장되는 분할 간격 수는 k » 1 + log 2입니다. N이고, 부분 구간의 길이는 h = (x max - x min)/k와 같습니다. 전체 구간의 형태는 다음과 같다고 가정합니다.

그래픽적으로 통계 계열은 다각형, 히스토그램 또는 누적 빈도 그래프의 형태로 표시될 수 있습니다.

주파수 다각형점 (x 1, n 1), (x 2, n 2), ..., (x k, n k)을 연결하는 세그먼트인 파선이라고 합니다. 다각형 상대도수 점(x 1, 1), (×2, 2), …, (xk, 케이). 다각형은 일반적으로 이산확률변수의 경우 표본을 나타내는 역할을 합니다(그림 7.1.1).

쌀. 7.1

.1.

상대도수 히스토그램밑면이 길이 h의 부분 간격과 높이를 갖는 직사각형으로 구성된 계단형 도형이라고 합니다.

동일한 나/h.

히스토그램은 일반적으로 연속 확률 변수의 경우 샘플을 묘사하는 데 사용됩니다. 히스토그램의 면적은 1과 같습니다(그림 7.1.2). 상대도수 히스토그램에서 직사각형 위쪽의 중간점을 연결하면 결과로 나타나는 점선이 상대도수의 다각형을 형성합니다. 따라서 히스토그램은 그래프로 볼 수 있습니다. 경험적(표본) 분포 밀도 fn(x). 이론적 분포에 유한 밀도가 있는 경우 경험적 밀도는 이론적 밀도의 근사치입니다.

누적 주파수 그래프는 직사각형의 높이를 계산할 때 단순한 직사각형을 취하지 않고 직사각형의 높이를 계산한다는 점을 제외하고 히스토그램과 유사하게 구성된 도형이다. 누적된 상대도수, 저것들. 수량 이 값은 감소하지 않으며 누적 주파수 그래프는 계단형 "계단"(0에서 1까지) 형태를 갖습니다.

축적된 빈도의 그래프는 이론적 분포 함수를 근사화하기 위해 실제로 사용됩니다.

일.이 지역의 100개 중소기업 샘플을 분석했습니다. 이번 조사의 목적은 i번째 기업별 차입금과 자기자금 비율(xi)을 측정하는 것이다. 결과는 표 7.1.1에 제시되어 있다.

테이블기업의 부채 및 자기 자본 비율.

5,56 5,45 5,48 5,45 5,39 5,37 5,46 5,59 5,61 5,31
5,46 5,61 5,11 5,41 5.31 5,57 5,33 5,11 5,54 5,43
5,34 5,53 5,46 5,41 5,48 5,39 5,11 5,42 5,48 5,49
5,36 5,40 5,45 5,49 5,68 5,51 5,50 5,68 5,21 5,38
5,58 5,47 5,46 5,19 5,60 5,63 5,48 5,27 5,22 5,37
5,33 5,49 5,50 5,54 5,40 5.58 5,42 5,29 5,05 5,79
5,79 5,65 5,70 5,71 5,85 5,44 5,47 5,48 5,47 5,55
5,67 5,71 5,73 5,05 5,35 5,72 5,49 5,61 5,57 5,69
5,54 5,39 5,32 5,21 5,73 5,59 5,38 5,25 5,26 5,81
5,27 5,64 5,20 5,23 5,33 5,37 5,24 5,55 5,60 5,51

누적된 빈도의 히스토그램과 그래프를 구성합니다.

해결책. 일련의 관찰을 그룹화해 보겠습니다.

1. 샘플에서 x min = 5.05 및 x max = 5.85를 결정해 보겠습니다.

2. 전체 범위를 k개의 동일한 간격으로 나눕니다. k » 1 + log 2 100 = 7.62; k = 8이므로 간격의 길이

표 7.1.2.그룹화된 일련의 관찰

간격 번호 간격 구간 x i의 중간점 fn(x)
5,05-5,15 5,1 0,05 0,05 0,5
5,15-5,25 5,2 0,08 0,13 0,8
5,25-5,35 5,3 0,12 0,25 1,2
5,35-5,45 5,4 0,20 0,45 2,0
5,45-5,55 5,5 0,26 0,71 2,6
5,55-5,65 5,6 0,15 0,86 1,5
5,65-5,75 5,7 0,10 0,96 1,0
5,75-5,85 5,8 0,04 1,00 0,4

그림에서. 표 7.1.2의 데이터에 따라 구축된 7.1.3과 7.1.4는 누적 주파수의 히스토그램과 그래프를 나타낸다. 곡선은 데이터에 "적합된" 밀도 및 정규 분포 함수에 해당합니다.

따라서 표본 분포는 모집단 분포의 일부 근사치입니다.

공유하다