회귀계수를 결정하는 데 필요한 조건. Excel의 회귀: 방정식, 예. 선형 회귀

회귀분석은 통계적 방법하나 이상의 독립 변수에 대한 특정 매개변수의 의존성을 보여줄 수 있는 연구입니다. 컴퓨터 이전 시대에는 특히 대용량 데이터의 경우 사용이 매우 어려웠습니다. 오늘은 Excel에서 회귀 분석을 작성하는 방법을 배웠으므로 단 몇 분 만에 복잡한 통계 문제를 해결할 수 있습니다. 아래는 구체적인 예경제학 분야 출신.

회귀 유형

이 개념 자체는 1886년에 수학에 도입되었습니다. 회귀가 발생합니다.

  • 선의;
  • 비유담 같은;
  • 차분한;
  • 지수;
  • 쌍곡선;
  • 분명히 나타내는;
  • 로그.

실시예 1

에 그만두는 팀원 수의 의존성을 결정하는 문제를 고려해 봅시다. 평균 연봉 6개의 산업 기업에서.

일. 6개 기업에서 월 평균을 분석했습니다. 임금그리고 이로 인해 퇴사한 직원의 수 마음대로. 표 형식에는 다음이 있습니다.

그만 둔 사람 수

샐러리

30,000 루블

35,000 루블

40,000 루블

45,000 루블

50,000 루블

55,000 루블

60,000 루블

6개 기업의 평균 급여에 대한 퇴직 근로자 수의 의존성을 결정하는 작업에 대해 회귀 모델은 방정식 Y = a 0 + a 1 x 1 +...+ak x k 형식을 갖습니다. 여기서 x i는 영향을 미치는 변수, ai는 회귀 계수이고 k는 요인의 수입니다.

이 문제에서 Y는 직원을 그만둔 지표이고, 영향을 미치는 요인은 급여이며, 이를 X로 표시합니다.

Excel 스프레드시트 프로세서의 기능 사용

Excel의 회귀 분석은 기존 표 형식 데이터에 기본 제공 기능을 적용한 후에 수행되어야 합니다. 그러나 이러한 목적을 위해서는 매우 유용한 "Analytic Pack" 추가 기능을 사용하는 것이 더 좋습니다. 활성화하려면 다음이 필요합니다.

  • "파일" 탭에서 "옵션" 섹션으로 이동합니다.
  • 열리는 창에서 "추가 기능"행을 선택하십시오.
  • 아래 "관리" 라인 오른쪽에 있는 "이동" 버튼을 클릭하세요.
  • "분석 패키지" 이름 옆의 확인란을 선택하고 "확인"을 클릭하여 작업을 확인합니다.

모든 작업이 올바르게 완료되면 "Excel" 워크시트 위에 있는 "데이터" 탭 오른쪽에 다음과 같은 내용이 표시됩니다. 원하는 버튼.

엑셀에서

이제 계량경제학 계산을 수행하는 데 필요한 모든 가상 도구가 준비되었으므로 문제 해결을 시작할 수 있습니다. 이를 위해:

  • "데이터 분석" 버튼을 클릭하세요.
  • 열리는 창에서 "회귀"버튼을 클릭하십시오.
  • 나타나는 탭에서 Y(퇴사 직원 수) 및 X(급여)에 대한 값 범위를 입력합니다.
  • "확인"버튼을 눌러 작업을 확인합니다.

결과적으로 프로그램은 회귀 분석 데이터로 새 스프레드시트를 자동으로 채웁니다. 메모! Excel에서는 이러한 목적으로 선호하는 위치를 수동으로 설정할 수 있습니다. 예를 들어 Y 및 X 값이 있는 동일한 시트일 수도 있고 심지어 새 책, 이러한 데이터를 저장하기 위해 특별히 설계되었습니다.

R-제곱에 대한 회귀 결과 분석

Excel에서 고려 중인 예의 데이터를 처리하는 동안 얻은 데이터는 다음과 같은 형식을 갖습니다.

우선, R-제곱 값에 주목해야 합니다. 결정계수를 나타냅니다. 이 예에서 R-제곱 = 0.755(75.5%), 즉 디자인 매개변수모델은 고려된 매개변수 간의 의존성을 75.5% 설명합니다. 결정 계수의 값이 높을수록 선택한 모델이 특정 작업에 더 적합합니다. R-square 값이 0.8 이상이면 실제 상황을 정확하게 기술한 것으로 간주된다. R 제곱인 경우<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

확률 분석

숫자 64.1428은 우리가 고려하고 있는 모델의 모든 변수 xi가 0으로 재설정될 경우 Y 값이 어떻게 되는지 보여줍니다. 즉, 분석된 매개변수의 값은 특정 모델에서 기술되지 않은 다른 요인들에 의해서도 영향을 받는다고 주장할 수 있다.

셀 B18에 있는 다음 계수 -0.16285는 변수 X가 Y에 미치는 영향의 가중치를 나타냅니다. 이는 고려 중인 모델 내 직원의 평균 월급이 -0.16285의 가중치로 그만둔 사람 수에 영향을 미친다는 것을 의미합니다. 그 영향력의 정도는 완전히 작습니다. "-" 기호는 계수가 음수임을 나타냅니다. 기업의 급여가 높을수록 고용 계약을 해지하거나 그만두고 싶은 의사를 표현하는 사람이 적다는 것을 모두가 알고 있기 때문에 이는 분명합니다.

다중 회귀

이 용어는 다음 형식의 여러 독립 변수가 있는 관계 방정식을 나타냅니다.

y=f(x 1 +x 2 +…x m) + ε, 여기서 y는 결과 특성(종속 변수)이고 x 1, x 2,…x m은 요인 특성(독립 변수)입니다.

매개변수 추정

다중 회귀(MR)의 경우 다음 방법을 사용하여 수행됩니다. 최소제곱(MNC). Y = a + b 1 x 1 +…+b m x m + ε 형식의 선형 방정식에 대해 정규 방정식 시스템을 구성합니다(아래 참조).

방법의 원리를 이해하려면 2요인 사례를 고려하십시오. 그런 다음 공식으로 설명되는 상황이 있습니다.

여기에서 우리는 다음을 얻습니다:

여기서 σ는 인덱스에 반영된 해당 특성의 분산입니다.

OLS는 표준화된 규모의 MR 방정식에 적용 가능합니다. 이 경우 방정식을 얻습니다.

t y, t x 1, ... t xm은 표준화된 변수이며 평균값은 0입니다. β i 는 표준화된 회귀계수이고, 표준편차는 1입니다.

모든 β i는 이 경우표준화되고 중앙 집중화되어 있으므로 서로 비교하는 것이 정확하고 수용 가능한 것으로 간주됩니다. 또한, 가장 낮은 βi 값을 갖는 요소를 삭제하여 요소를 선별하는 것이 관례입니다.

선형 회귀 방정식을 사용한 문제

지난 8개월 동안 특정 제품 N에 대한 가격 역학 테이블이 있다고 가정합니다. 1850 루블/t의 가격으로 배치를 구매하는 것이 타당성에 대한 결정을 내려야 합니다.

월 번호

월 이름

제품 가격 N

톤당 1750루블

톤당 1755루블

톤당 1767 루블

톤당 1760 루블

톤당 1770루블

톤당 1790 루블

톤당 1810 루블

톤당 1840루블

Excel 스프레드시트 프로세서에서 이 문제를 해결하려면 위에 제시된 예에서 이미 알려진 "데이터 분석" 도구를 사용해야 합니다. 다음으로 "회귀" 섹션을 선택하고 매개변수를 설정합니다. "입력 간격 Y" 필드에는 종속 변수(이 경우 해당 연도의 특정 달의 상품 가격)에 대한 값 범위를 입력해야 하며 "입력 간격 X"에는 값 범위를 입력해야 한다는 점을 기억해야 합니다. - 독립변수(월)의 경우. "확인"을 클릭하여 작업을 확인하세요. 새 시트(표시된 경우)에서 회귀용 데이터를 얻습니다.

우리는 그들에 따라 구축 일차 방정식 y=ax+b 형식입니다. 여기서 매개변수 a와 b는 월 이름이 있는 선의 계수이고 결과가 있는 시트의 계수와 선 "Y-교차점"입니다. 회귀 분석. 따라서 작업 3에 대한 선형 회귀 방정식(LR)은 다음과 같이 작성됩니다.

제품 가격 N = 11.714* 월 수 + 1727.54.

또는 대수적 표기법으로

y = 11.714 x + 1727.54

결과 분석

결과 선형 회귀 방정식이 적절한지 여부를 결정하기 위해 다중 상관 계수(MCC) 및 결정이 사용되며 Fisher 테스트 및 스튜던트 t 테스트도 사용됩니다. 회귀 결과가 포함된 Excel 스프레드시트에서는 이를 각각 다중 R, R-제곱, F-통계 및 t-통계라고 합니다.

KMC R을 사용하면 독립변수와 종속변수 간의 확률적 관계의 근접성을 평가할 수 있습니다. 높은 값은 변수 "월 수"와 "1톤당 루블 단위의 제품 N 가격" 사이에 상당히 강한 연관성이 있음을 나타냅니다. 그러나 이 관계의 성격은 아직 알려지지 않았습니다.

결정계수 R2(RI)의 제곱은 전체 산포 비율의 수치적 특성이며 실험 데이터 중 어느 부분이 산포되는지를 나타냅니다. 종속 변수의 값은 선형 회귀 방정식에 해당합니다. 고려 중인 문제에서 이 값은 84.8%와 같습니다. 즉, 통계 데이터는 결과 SD에 의해 높은 정확도로 설명됩니다.

Fisher의 검정이라고도 하는 F-통계량은 선형 관계의 중요성을 평가하고 선형 관계의 존재 가설을 반박하거나 확인하는 데 사용됩니다.

(학생 테스트)은 선형 관계의 알 수 없거나 자유 항을 사용하여 계수의 유의성을 평가하는 데 도움이 됩니다. t-검정의 값 > tcr이면 선형 방정식의 자유 항이 중요하지 않다는 가설이 기각됩니다.

자유 항에 대해 고려 중인 문제에서 Excel 도구를 사용하여 t = 169.20903, p = 2.89E-12로 얻어졌습니다. 즉, 자유 항의 중요하지 않음에 대한 올바른 가설이 기각될 확률이 0입니다. . 미지수에 대한 계수의 경우 t=5.79405, p=0.001158입니다. 즉, 미지수의 계수가 중요하지 않다는 올바른 가설이 기각될 확률은 0.12%입니다.

따라서 결과적인 선형 회귀 방정식이 적절하다고 주장할 수 있습니다.

주식 블록 구매 타당성 문제

Excel의 다중 회귀는 동일한 데이터 분석 도구를 사용하여 수행됩니다. 특정 응용 프로그램 문제를 고려해 보겠습니다.

NNN 회사의 경영진은 MMM JSC의 20% 지분을 구매하는 것이 타당한지 결정해야 합니다. 패키지(SP) 비용은 7000만달러(약 700억원)이다. NNN 전문가들은 유사한 거래에 대한 데이터를 수집했습니다. 다음과 같이 수백만 달러로 표현되는 매개변수에 따라 주식 블록의 가치를 평가하기로 결정되었습니다.

  • 지급 계정(VK);
  • 연간 매출액(VO);
  • 매출채권(VD);
  • 고정자산비용(COF).

또한 기업의 임금 체불(V3 P) 매개변수(미국 달러 기준)가 사용됩니다.

Excel 스프레드시트 프로세서를 사용하는 솔루션

먼저 소스 데이터 테이블을 생성해야 합니다. 다음과 같습니다.

  • "데이터 분석" 창을 호출합니다.
  • "회귀" 섹션을 선택합니다.
  • "입력 간격 Y"상자에 G 열의 종속 변수 값 범위를 입력하십시오.
  • "입력 범위 X" 창 오른쪽에 있는 빨간색 화살표 아이콘을 클릭하고 시트에서 모든 값의 범위를 강조 표시합니다. 열 B, C,디,에프.

"새 워크시트" 항목을 선택하고 "확인"을 클릭합니다.

주어진 문제에 대한 회귀 분석을 얻습니다.

결과 및 결론 연구

우리는 Excel 스프레드시트에 위에 제시된 반올림된 데이터로부터 회귀 방정식을 "수집"합니다.

SP = 0.103*SOF + 0.541*VO - 0.031*VK +0.405*VD +0.691*VZP - 265.844.

보다 친숙한 수학적 형태로 다음과 같이 작성할 수 있습니다.

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

MMM JSC에 대한 데이터는 표에 나와 있습니다.

이를 회귀식에 대입하면 6,472만 달러라는 수치를 얻게 됩니다. 이는 MMM JSC의 주식이 7천만 달러에 달하는 가치가 상당히 부풀려져 구매할 가치가 없다는 것을 의미합니다.

보시다시피 Excel 스프레드시트와 회귀 방정식을 사용하면 매우 구체적인 거래의 타당성에 관해 정보에 입각한 결정을 내릴 수 있었습니다.

이제 회귀가 무엇인지 알았습니다. 위에서 설명한 Excel 예제는 계량경제학 분야의 실제 문제를 해결하는 데 도움이 됩니다.

회귀의 개념. 변수 간의 의존성 엑스그리고 와이다양한 방식으로 설명될 수 있습니다. 특히, 모든 형태의 연결은 일반 방정식으로 표현될 수 있습니다. 와이종속변수로 처리되거나 기능다른 것 - 독립 변수 x라고 함 논쟁. 인수와 함수 사이의 대응 관계는 표, 공식, 그래프 등으로 지정할 수 있습니다. 하나 이상의 인수 변경에 따라 함수를 변경하는 것을 호출합니다. 회귀. 상관 관계를 설명하는 데 사용되는 모든 수단은 내용을 구성합니다. 회귀 분석.

회귀, 상관 방정식 또는 회귀 방정식을 표현하기 위해 경험적 및 이론적으로 계산된 회귀 계열, 회귀선이라고 하는 그래프, 선형 및 비선형 회귀 계수가 사용됩니다.

회귀 지표는 특성의 평균값 변화를 고려하여 양측 상관 관계를 표현합니다. 와이값을 변경할 때 엑스 징후 엑스, 그리고 반대로 특성의 평균값의 변화를 보여줍니다. 엑스변경된 값에 따라 와이 징후 와이. 예외는 시간에 따른 특성의 변화를 보여주는 시계열 또는 시계열입니다. 그러한 계열의 회귀는 일방적입니다.

상관 관계에는 다양한 형태와 유형이 있습니다. 과제는 각각의 특정 사례에서 연결 형태를 식별하고 이를 적절한 상관 방정식으로 표현하는 것으로 귀결됩니다. 이를 통해 하나의 특성에서 가능한 변화를 예측할 수 있습니다. 와이다른 알려진 변경 사항을 기반으로 엑스, 첫 번째 상관 관계와 관련이 있습니다.

12.1 선형 회귀

회귀 방정식.상관된 특성을 기반으로 특정 생물학적 개체에 대해 수행된 관찰 결과 엑스그리고 와이, 직교 좌표계를 구성하여 평면 위의 점으로 표현할 수 있습니다. 그 결과는 다양한 특성 간의 관계의 형태와 근접성을 판단할 수 있는 일종의 분산형 다이어그램입니다. 종종 이 관계는 직선처럼 보이거나 직선으로 근사화될 수 있습니다.

변수 간의 선형 관계 엑스그리고 와이일반 방정식으로 설명됩니다. a, b, c, d,... – 인수 간의 관계를 결정하는 방정식의 매개변수 엑스 1 , x 2 , x 3 , …, 엑스 그리고 기능.

실제로 가능한 모든 인수가 고려되는 것은 아니지만 일부 인수만 고려됩니다. 가장 간단한 경우에는 하나만 고려됩니다.

선형 회귀 방정식 (1)에서 는 자유 용어이고 매개변수는 직사각형 좌표축을 기준으로 회귀선의 기울기를 결정합니다. 분석 기하학에서는 이 매개변수를 다음과 같이 부릅니다. 경사, 그리고 생체 인식 – 회귀계수. 이 매개변수의 시각적 표현과 회귀선의 위치 와이에 의해 엑스그리고 엑스에 의해 와이직각 좌표계에서는 그림 1을 제공합니다.

쌀. 1 시스템에서 X에 의한 Y 및 Y에 의한 X의 회귀선

직사각형 좌표

회귀선은 그림 1과 같이 서로 상관된 특성의 산술평균값에 해당하는 O점(,)에서 교차한다. 와이그리고 엑스. 회귀 그래프를 구성할 때 가로축은 독립변수 X의 값을 나타내고, 세로축은 종속변수 또는 함수 Y의 값을 나타낸다. 점 O(, )는 변수 간의 완전한(기능적) 관계에 해당합니다. 와이그리고 엑스, 상관계수 . 사이의 연결이 강할수록 와이그리고 엑스, 회귀선이 AB에 가까울수록, 반대로 이러한 양 사이의 연결이 약할수록 회귀선은 AB에서 멀어집니다. 특성 사이에 연결이 없는 경우 회귀선은 서로 직각을 이루며 .

회귀지표는 양방향 상관관계를 표현하므로 회귀식 (1)은 다음과 같이 작성되어야 한다.

첫 번째 공식은 특성이 변할 때 평균값을 결정합니다. 엑스측정 단위당, 두 번째 - 속성의 측정 단위 하나를 변경할 때의 평균 값 와이.

회귀계수.회귀계수는 한 특성의 값이 평균적으로 얼마나 되는지 보여줍니다. 와이상관관계가 있는 다른 측정값이 하나만큼 변경되면 변경됩니다. 와이징후 엑스. 이 표시기는 공식에 의해 결정됩니다

값은 다음과 같습니다. 에스수업 간격의 크기를 곱함 λ , 변형 계열이나 상관표에서 찾은 경우.

평균을 계산하지 않고도 회귀계수를 계산할 수 있습니다. 제곱 편차 에스 와이그리고 에스 엑스공식에 따르면

상관 계수를 알 수 없는 경우 회귀 계수는 다음과 같이 결정됩니다.

회귀와 상관계수의 관계.공식 (11.1) (주제 11)과 (12.5)을 비교하면 분자의 값이 동일하며 이는 이러한 지표 간의 연결을 나타냅니다. 이 관계는 평등으로 표현됩니다.

따라서 상관 계수는 계수의 기하 평균과 같습니다. yx그리고 xy. 공식 (6)은 먼저 알려진 회귀 계수 값을 기반으로 허용합니다. yx그리고 xy회귀 계수 결정 아르 자형 xy, 둘째, 이 상관관계 지표 계산의 정확성을 확인합니다. 아르 자형 xy다양한 특성 사이 엑스그리고 와이.

상관 계수와 마찬가지로 회귀 계수는 선형 관계만을 특징으로 하며 양의 관계에는 플러스 기호가, 음의 관계에는 마이너스 기호가 함께 표시됩니다.

선형 회귀 매개변수 결정.편차 제곱의 합은 변형인 것으로 알려져 있습니다. 엑스 평균에서 가장 작은 값이 나옵니다. 즉, 이 정리는 최소 제곱법의 기초를 형성합니다. 선형 회귀에 관하여 [참조 공식 (1)] 이 정리의 요구 사항은 다음과 같은 특정 방정식 시스템에 의해 충족됩니다. 정상:

매개변수에 대한 이러한 방정식의 결합 솔루션 그리고 다음과 같은 결과가 발생합니다.

;

;

, 어디서 그리고.

변수 간 ​​관계의 양방향 특성을 고려 와이그리고 엑스, 매개변수를 결정하는 공식 다음과 같이 표현되어야 합니다.

그리고 . (7)

매개변수 , 또는 회귀 계수는 다음 공식으로 결정됩니다.

경험적 회귀 계열의 구축.존재하는 경우 큰 숫자관찰, 회귀 분석은 경험적 회귀 계열의 구성으로 시작됩니다. 경험적 회귀 계열하나의 다양한 특성 값을 계산하여 형성됩니다. 엑스다른 것의 평균값, 상관 관계 엑스징후 와이. 즉, 경험적 회귀 계열의 구성은 특성 Y와 X의 해당 값에서 그룹 평균을 찾는 것으로 귀결됩니다.

경험적 회귀 계열은 평면 위의 점으로 표현할 수 있는 숫자의 이중 계열을 말하며, 이 점들을 직선 부분으로 연결하면 경험적 회귀선을 얻을 수 있습니다. 경험적 회귀 계열, 특히 해당 그래프를 회귀선, 다양한 특성 간의 상관 관계의 형태와 근접성에 대한 명확한 아이디어를 제공합니다.

경험적 회귀 계열의 정렬.경험적 회귀 계열의 그래프는 일반적으로 매끄럽지 않고 파선으로 나타납니다. 이는 상관 특성의 가변성의 일반적인 패턴을 결정하는 주요 이유와 함께 그 크기가 회귀 노드 지점의 무작위 변동을 유발하는 수많은 2차 이유의 영향에 의해 영향을 받는다는 사실로 설명됩니다. 상관 특성의 공액 변동의 주요 경향(경향)을 확인하려면 파선을 매끄럽고 원활하게 흐르는 회귀선으로 대체해야 합니다. 끊어진 선을 부드러운 선으로 바꾸는 과정을 호출합니다. 경험적 계열의 정렬그리고 회귀선.

그래픽 정렬 방법.이는 계산 작업이 필요하지 않은 가장 간단한 방법입니다. 그 본질은 다음과 같이 요약됩니다. 경험적 회귀 계열은 직각 좌표계의 그래프로 표시됩니다. 그런 다음 회귀의 중간점을 시각적으로 설명하고 눈금자 또는 패턴을 사용하여 실선을 그립니다. 이 방법의 단점은 명백합니다. 이는 경험적 회귀선 정렬 결과에 대한 연구자의 개별 속성의 영향을 배제하지 않는다는 것입니다. 그러므로 더 많은 것이 필요한 경우에는 높은 명중률끊어진 회귀선을 매끄러운 회귀선으로 바꿀 때 경험적 계열을 정렬하기 위해 다른 방법이 사용됩니다.

이동 평균 방법.이 방법의 본질은 경험적 계열의 두 개 또는 세 개의 인접한 항으로부터 산술 평균을 순차적으로 계산하는 것입니다. 이 방법은 경험적 계열이 많은 수의 항으로 표현되는 경우에 특히 편리하므로 이 정렬 방법에서 불가피한 극단적인 항 중 두 개의 손실이 구조에 눈에 띄게 영향을 미치지 않습니다.

최소제곱법.이 방법은 19세기 초 A.M. Legendre와 그와는 별도로 K. Gauss. 이를 통해 경험적 계열을 가장 정확하게 정렬할 수 있습니다. 이 방법은 위에서 본 것처럼 편차의 제곱합이 옵션이라는 가정에 기초하고 있습니다. 엑스 평균에는 최소값이 있습니다. 따라서 생태학뿐만 아니라 기술에도 사용되는 방법의 이름입니다. 최소제곱법은 객관적이고 보편적이며, 회귀 계열에 대한 경험적 방정식을 찾고 해당 매개변수를 결정할 때 다양한 경우에 사용됩니다.

최소 제곱법의 요구 사항은 회귀선의 이론적인 점을 경험적 관찰에 대한 이러한 점으로부터의 편차 제곱의 합이 되는 방식으로 얻어야 ​​한다는 것입니다. 와이 최소한이었습니다.

수학적 분석의 원리에 따라 이 표현의 최소값을 계산하고 이를 특정 방식으로 변환함으로써 소위 시스템을 얻을 수 있습니다. 정규방정식여기서 알 수 없는 값은 회귀 방정식의 필수 매개변수이고 알려진 계수는 특성의 경험적 값, 일반적으로 값의 합과 교차곱에 의해 결정됩니다.

다중 선형 회귀.여러 변수 사이의 관계는 일반적으로 다중 회귀 방정식으로 표현됩니다. 선의그리고 비선형. 가장 간단한 형태의 다중 회귀는 두 개의 독립 변수가 있는 방정식으로 표현됩니다( 엑스, ):

어디 – 방정식의 자유항; 그리고 – 방정식의 매개변수. 최소 제곱법을 사용하여 방정식 (10)의 매개변수를 찾으려면 다음 정규 방정식 시스템이 사용됩니다.

다이나믹 시리즈. 행 정렬.시간에 따른 특성의 변화는 소위 시계열또는 다이나믹스 시리즈. 이러한 계열의 특징은 여기서 독립 변수 X가 항상 시간 요소이고 종속 변수 Y가 변화하는 특징이라는 것입니다. 회귀 계열에 따라 변수 X와 Y 사이의 관계는 시간 요소가 특성의 가변성에 의존하지 않기 때문에 일방적입니다. 이러한 기능에도 불구하고 역학 계열은 회귀 계열에 비유될 수 있으며 동일한 방법을 사용하여 처리될 수 있습니다.

회귀 시리즈와 마찬가지로 경험적 역학 시리즈는 주요 요인뿐만 아니라 통계 언어로 특성 변동성의 주요 추세를 모호하게 하는 수많은 2차(무작위) 요인의 영향을 받습니다. 경향.

시계열 분석은 추세의 형태를 파악하는 것부터 시작됩니다. 이를 위해 시계열은 직각 좌표계의 선 그래프로 표시됩니다. 이 경우 가로축은 시점(년, 월, 기타 시간 단위)을 나타내고, 세로축은 종속변수 Y의 값을 나타내어 변수 X 사이에 선형 관계가 있는 경우 및 Y(선형 추세), 시계열 정렬에 가장 적합한 최소 자승 방법은 독립 변수 계열의 산술 평균에서 종속 변수 Y 계열 항의 편차 형태의 회귀 방정식입니다. 변수 X:

다음은 선형 회귀 매개변수입니다.

역학 계열의 수치적 특성.역학 계열의 주요 일반화 수치 특성은 다음과 같습니다. 기하평균그리고 그것에 가까운 산술 평균. 이는 특정 기간 동안 종속 변수 값이 변경되는 평균 비율을 나타냅니다.

역학 시리즈 구성원의 변동성에 대한 평가는 다음과 같습니다. 표준 편차. 시계열을 설명하기 위해 회귀 방정식을 선택할 때 선형(또는 선형으로 축소) 및 비선형일 수 있는 추세의 모양이 고려됩니다. 회귀 방정식 선택의 정확성은 일반적으로 경험적으로 관찰된 것과 당신의 유사성에 의해 판단됩니다. 수치종속변수. 이 문제에 대한 보다 정확한 해결책은 분산 방법의 회귀 분석입니다(주제 12, 단락 4).

시계열의 상관관계.예를 들어 특정 기간 동안 농업 생산과 가축 수의 증가 사이의 관계를 알아내기 위해 특정 일반 조건에 따라 서로 관련된 병렬 시계열의 역학을 비교하는 것이 종종 필요합니다. 이러한 경우 변수 X와 Y 사이의 관계의 특성은 다음과 같습니다. 상관 계수 R xy(선형 추세가 있는 경우).

일반적으로 시계열의 추세는 종속 변수 Y 계열의 변동으로 인해 모호해지는 것으로 알려져 있습니다. 이는 두 가지 문제를 야기합니다. 추세를 제외하지 않고 비교 계열 간의 종속성을 측정하고, 추세를 제외하고 동일한 계열의 이웃 구성원 간의 종속성입니다. 첫 번째 경우, 비교된 시계열 간의 연결이 긴밀하다는 지표는 다음과 같습니다. 상관 계수(관계가 선형인 경우) 두 번째 – 자기상관계수. 이러한 지표는 동일한 공식을 사용하여 계산되지만 의미는 다릅니다(주제 11 참조).

자기상관 계수의 값이 종속변수 계열 구성원의 변동성에 영향을 받는다는 것을 쉽게 알 수 있습니다. 계열 구성원이 추세에서 덜 벗어나면 자기상관 계수가 높아지고 그 반대의 경우도 마찬가지입니다.

데이터 분석의 기초.

실무에서 발생하는 대표적인 문제는 변수 간의 종속성 또는 관계를 식별합니다. 안에 실생활변수는 서로 연관되어 있다. 예를 들어, 마케팅에서는 광고에 지출된 금액이 매출에 영향을 미칩니다. 의학 연구 복용량 의약품효과에 영향을 미칩니다. 직물 생산에서 직물 염색의 품질은 온도, 습도 및 기타 매개변수에 따라 달라집니다. 야금에서는 강철의 품질이 특수 첨가제 등에 따라 달라집니다. 데이터의 종속성을 찾아 자신의 목적에 맞게 사용하는 것이 데이터 분석 작업입니다.

변수 X와 Y 쌍의 값을 관찰하고 이들 사이의 관계를 찾고 싶다고 가정해 보겠습니다. 예를 들어:

X - 온라인 상점 방문자 수, Y - 판매량

X - 플라즈마 패널 대각선, Y - 가격;

X는 주식 구매 가격, Y는 판매 가격입니다.

X는 런던 증권 거래소의 알루미늄 가격이고 Y는 판매량입니다.

X - 송유관 파손 횟수, Y - 손실 금액

X는 항공기의 "연령"이고, Y는 수리 비용입니다.

X - 판매 면적, Y - 매장 회전율;

X는 소득, Y는 소비 등입니다.

일반적으로 변수 X를 독립변수, 변수 Y를 종속변수라고 합니다. 때로는 변수 X를 예측변수라고 하고, 변수 Y를 반응변수라고 합니다.



우리는 X에 대한 의존성을 정확히 결정하거나 주어진 X 값에 대해 Y 값이 어떻게 될지 예측하고 싶습니다.이 경우 X 값과 해당 Y 값을 관찰합니다. 임무는 관찰된 것과 다른 X 값으로부터 Y를 결정할 수 있는 모델을 구축하는 것입니다.통계에서는 이러한 문제가 프레임워크 내에서 해결됩니다. 회귀 분석.

다양한 회귀 모델이 있습니다, 기능 선택에 따라 결정됨 f(x 1 ,x 2 ,…,xm):

1) 단순 선형 회귀

2) 다중 회귀

3) 다항식 회귀

승산 회귀 매개변수라고 합니다.

회귀 분석의 주요 특징: 이를 통해 연구 중인 변수 간의 관계가 어떤 형태와 성격을 가지고 있는지에 대한 구체적인 정보를 얻을 수 있습니다.

회귀 분석 단계의 순서

1. 문제 공식화. 이 단계에서 연구 중인 현상의 의존성에 대한 예비 가설이 형성됩니다.

2. 종속 및 독립(설명) 변수의 정의.

3. 통계자료의 수집. 회귀 모델에 포함된 각 변수에 대해 데이터를 수집해야 합니다.

4. 연결 형태(단순 또는 다중, 선형 또는 비선형)에 대한 가설 수립.

5. 회귀 함수 결정(회귀 방정식 매개변수의 수치 계산으로 구성됨)

6. 회귀 분석의 정확성을 평가합니다.

7. 얻은 결과의 해석. 회귀분석을 통해 얻은 결과를 예비가설과 비교한다. 얻은 결과의 정확성과 신뢰성을 평가합니다.

8. 종속변수의 알려지지 않은 값 예측.

회귀분석을 이용하면 예측과 분류 문제를 해결할 수 있다. 예측값은 회귀식에 설명변수의 값을 대입하여 계산됩니다. 분류 문제는 다음과 같은 방식으로 해결됩니다. 회귀선은 전체 개체 집합을 두 개의 클래스로 나누고 함수 값이 0보다 큰 집합 부분은 하나의 클래스에 속하고 0보다 작은 부분은 다른 클래스에 속합니다.

회귀 분석의 주요 작업:의존성의 형태 확립, 회귀 함수 결정, 종속 변수의 알려지지 않은 값 추정.

선형 회귀

선형 회귀다음 형식의 방정식을 찾는 것으로 줄어듭니다.

또는 . (1.1)

엑스- 독립변수 또는 예측변수라고 합니다.

와이– 종속변수 또는 반응변수. 이것이 우리가 기대하는 가치이다 와이(평균적으로) 값을 안다면 엑스, 즉. "예측값" 입니다 와이»

· – 평가 라인의 자유 기간(교차점); 이것이 의미이다 와이, 언제 x=0(그림 1).

· – 추정선의 기울기 또는 기울기; 이는 그 금액을 나타냅니다. 와이늘리면 평균적으로 증가합니다. 엑스하나의 단위에 대해.

· 그리고 이 용어는 종종 다음 용도로만 사용되지만 추정선의 회귀 계수라고 합니다. .

· 이자형- 평균이 0인 관측 불가능한 확률변수 또는 관측 오류라고도 하며 오류가 서로 상관되지 않는 것으로 가정합니다.

그림 1. 절편 a와 기울기 b를 보여주는 선형 회귀선(x가 1단위 증가함에 따라 Y의 양도 증가함)

형식의 방정식은 주어진 계수 값을 허용합니다. 엑스결과 특성의 이론적 값을 가지며, 그 요소의 실제 값을 여기에 대체합니다. 엑스. 그래프에서 이론값은 회귀선을 나타냅니다.

대부분의 경우(항상 그런 것은 아니지만) 회귀선을 기준으로 특정 관측치가 분산되어 있습니다.

이론적 회귀선상관 필드의 포인트가 그룹화되어 주요 방향, 연결의 주요 경향을 나타내는 선입니다.

회귀 분석의 중요한 단계는 특성 간의 종속성을 특징으로 하는 함수 유형을 결정하는 것입니다. 방정식 유형을 선택하는 주요 기준은 연구 중인 종속성의 특성과 해당 메커니즘에 대한 의미 있는 분석이어야 합니다.

매개변수를 찾으려면 그리고 우리는 회귀 방정식을 사용합니다 최소제곱법(LSM). 최소제곱법을 적용하여 다음과 같은 함수를 찾을 때 가장 좋은 방법경험적 데이터에 해당하며, 이론적 회귀선으로부터 경험적 점의 제곱 편차(나머지)의 합은 최소값이어야 한다고 믿어집니다.

적합성은 잔차(선에서 각 점의 수직 거리, 예: 잔차 = 관찰됨)를 보고 평가됩니다. 와이– 예측 와이, 쌀. 2).

가장 잘 맞는 선은 잔차의 제곱의 합이 최소가 되도록 선택됩니다.

쌀. 2. 각 점에 대해 잔차가 표시된 선형 회귀선(세로 점선).

간단한 변환 후에 매개변수 값을 결정하기 위해 최소 제곱법을 사용하여 정규 방정식 시스템을 얻습니다. 그리고 경험적 데이터를 기반으로 한 선형 상관 방정식:

. (1.2)

결정 이 시스템에 관한 방정식 , 이 매개변수를 결정하기 위해 다음 공식을 얻습니다.

(1.3)

와 y, x의 평균값은 어디에 있습니까?

매개변수 값 우리는 이 시스템에서 첫 번째 방정식의 양변을 다음과 같이 나눔으로써 얻습니다. N:

매개변수 방정식에서 회귀 계수라고 합니다. 직접적인 상관관계가 있는 경우 회귀계수는 다음과 같습니다. 양수 값, 역관계의 경우 회귀계수는 음수이다.

회귀계수의 부호가 양수이면 종속변수와 독립변수의 관계는 양수입니다.

회귀계수의 부호가 음수이면 종속변수와 독립변수의 관계는 음수(역)입니다.

회귀 계수는 결과 특성 값이 평균적으로 얼마나 변하는지 보여줍니다. 와이요인의 특성이 변할 때 엑스단위당 기하 회귀 계수는 축을 기준으로 상관 방정식을 나타내는 직선의 기울기입니다. 엑스(방정식의 경우).

선형 관계 때문에 우리는 그 변화를 다음과 같이 예상합니다. 그리고 이것을 회귀로 인해 발생하거나 설명되는 변동이라고 부릅니다. 잔여 변동은 가능한 한 작아야 합니다.

이것이 사실이라면 대부분의 변동은 회귀로 설명될 것이며 점은 회귀선에 가깝게 놓일 것입니다. 선이 데이터에 잘 맞습니다.

확률변수 X와 Y 사이의 선형 의존도의 정량적 특성은 상관계수입니다. r ( 두 특성 사이의 관계가 밀접하다는 것을 나타내는 지표 ) .

상관 계수:

여기서 x는 요인 특성의 값입니다.

y - 결과 속성의 값.

n - 데이터 쌍의 수.


그림 3 - 점의 "구름" 위치에 대한 옵션

상관계수 r=1, 그런 다음 사이 엑스그리고 와이기능적 선형 관계가 있으며 모든 점은 (x 나는 , y 나는)직선으로 누워있을 것입니다.

상관계수 r=0 (r~0), 그러면 그들은 이렇게 말해요 엑스그리고 와이상관되지 않음, 즉 그들 사이에는 선형 관계가 없습니다.

(Chaddock 척도로) 징후 사이의 관계는 강함, 중간, 약함일 수 있습니다. . 연결의 친밀도는 -1에서 +1까지의 값을 취할 수 있는 상관 계수의 값에 의해 결정됩니다.. 연결의 견고성을 평가하는 기준은 그림 1에 나와 있습니다. 1.

쌀. 4. 의사소통 친밀도를 평가하는 정량적 기준

변수 간의 관계에는 규모와 신뢰성이라는 두 가지 중요한 속성이 있습니다. 두 변수 사이의 관계가 강할수록 관계의 크기도 커지고 다른 변수의 값에서 한 변수의 값을 예측하기가 더 쉬워집니다.의존성의 정도는 신뢰도보다 측정하기가 더 쉽습니다.

의존성의 신뢰성은 그 크기만큼 중요합니다. 이 속성은 연구 중인 샘플의 대표성과 관련이 있습니다. 관계의 신뢰성은 이 관계가 다른 데이터에서 다시 발견될 가능성을 나타냅니다.

변수의 의존성의 크기가 증가함에 따라 일반적으로 신뢰도가 증가합니다.

회귀분석으로 설명되는 전체 분산의 비율을 다음과 같이 부릅니다. 결정 계수, 일반적으로 백분율로 표시되며 R 2(쌍선형회귀에서 이것은 수량입니다. r 2, 상관 계수의 제곱)을 사용하면 회귀 방정식의 품질을 주관적으로 평가할 수 있습니다.

결정 계수는 구성된 회귀 분석에 의해 "설명되는" 평균 주위의 분산 비율을 측정합니다. 결정 계수의 범위는 0에서 1까지입니다. 결정 계수가 1에 가까울수록 회귀 분석은 데이터의 종속성을 더 잘 "설명"합니다. 값이 0에 가까우면 구성된 모델의 품질이 좋지 않음을 의미합니다. 모든 예측 변수가 다른 경우 결정 계수는 가능한 한 1에 가까울 수 있습니다.

차이는 회귀 분석으로 설명할 수 없는 분산의 비율을 나타냅니다.

다중 회귀

다중 회귀는 유효 속성에 영향을 미치는 많은 요인 중에서 하나의 주요 요인을 골라내는 것이 불가능하고 여러 요인의 영향을 고려해야 하는 상황에서 사용됩니다. 예를 들어, 출력량은 메인 및 유동 자산, 인력 수, 관리 수준 등 수요 수준은 가격뿐만 아니라 인구가 사용할 수 있는 자금에 따라 달라집니다.

다중 회귀의 주요 목표는 여러 요인으로 모델을 구축하고 각 요인의 영향을 개별적으로 결정하는 것뿐만 아니라 연구 중인 지표에 대한 공동 영향도 결정하는 것입니다.

다중 회귀는 여러 독립 변수가 있는 관계 방정식입니다.

공부하는 동안 학생들은 다양한 방정식을 자주 접하게 됩니다. 그 중 하나인 회귀 방정식이 이 기사에서 논의됩니다. 이러한 유형의 방정식은 특히 수학적 매개변수 간의 관계 특성을 설명하는 데 사용됩니다. 이 유형평등은 통계 및 계량 경제학에서 사용됩니다.

회귀의 정의

수학에서 회귀는 데이터 세트의 평균값이 다른 수량의 값에 미치는 영향을 설명하는 특정 수량을 의미합니다. 회귀 방정식은 특정 특성의 함수로 다른 특성의 평균값을 보여줍니다. 회귀 함수의 형식은 다음과 같습니다. 간단한 방정식 y = x, 여기서 y는 종속 변수로 작용하고 x는 독립 변수(특성 인자)로 작용합니다. 실제로 회귀는 y = f(x)로 표현됩니다.

변수 간의 관계 유형은 무엇입니까?

일반적으로 상관 관계와 회귀 관계라는 두 가지 상반된 유형의 관계가 있습니다.

첫 번째는 조건변수의 동일성을 특징으로 합니다. 이 경우 어떤 변수가 다른 변수에 의존하는지 확실하게 알 수 없습니다.

변수 사이에 동일성이 없고 조건이 어떤 변수가 설명적이고 종속적인지 알려주면 두 번째 유형의 연결이 있는지에 대해 이야기할 수 있습니다. 선형회귀 방정식을 구성하기 위해서는 어떤 관계가 관찰되는지를 알아내는 것이 필요할 것이다.

회귀 유형

오늘날 회귀에는 쌍곡선, 선형, 다중, 비선형, 쌍별, 역, 대수 선형 등 7가지 유형이 있습니다.

쌍곡선, 선형 및 로그

선형 회귀 방정식은 방정식의 매개 변수를 명확하게 설명하기 위해 통계에 사용됩니다. y = c+t*x+E처럼 보입니다. 쌍곡선 방정식은 일반 쌍곡선 y = c + m / x + E의 형태를 갖습니다. 로그 선형 방정식은 로그 함수를 사용하여 관계를 표현합니다: In y = In c + m * In x + In E.

다중 및 비선형

두개 더 복합 유형회귀는 다중적이고 비선형적입니다. 다중 회귀 방정식은 함수 y = f(x 1, x 2 ... x c) + E로 표현됩니다. 이 경우 y는 종속변수로 작용하고, x는 설명변수로 작용합니다. E 변수는 확률론적이며 방정식에 다른 요인의 영향을 포함합니다. 비선형 회귀 방정식은 약간 논란의 여지가 있습니다. 한편으로는 고려된 지표에 비해 선형적이지 않지만, 다른 한편으로는 지표를 평가하는 역할에서는 선형적입니다.

역 및 쌍을 이루는 회귀 유형

역함수는 선형 형식으로 변환해야 하는 함수 유형입니다. 가장 전통적인 응용 프로그램에서는 y = 1/c + m*x+E 함수의 형태를 갖습니다. 쌍별 회귀 방정식은 y = f (x) + E의 함수로 데이터 간의 관계를 보여줍니다. 다른 방정식과 마찬가지로 y는 x에 따라 달라지며 E는 확률적 매개변수입니다.

상관관계의 개념

이는 두 가지 현상이나 과정 사이에 관계가 있음을 보여주는 지표입니다. 관계의 강도는 상관계수로 표현됩니다. 해당 값은 [-1;+1] 간격 내에서 변동합니다. 부정적인 표시는 존재를 나타냅니다 피드백, 긍정적 - 직선에 관한 것입니다. 계수가 0과 같은 값을 취하면 관계가 없습니다. 값이 1에 가까울수록 매개변수 간의 관계가 강해지고, 0에 가까울수록 약해집니다.

행동 양식

상관 관계 매개변수 방법은 관계의 강도를 평가할 수 있습니다. 이는 정규 분포의 법칙을 따르는 매개변수를 연구하기 위해 분포 추정을 기반으로 사용됩니다.

선형 회귀 방정식의 매개 변수는 의존성 유형, 회귀 방정식의 기능을 식별하고 선택한 관계 공식의 지표를 평가하는 데 필요합니다. 상관 필드는 연결 식별 방법으로 사용됩니다. 이를 위해서는 기존의 모든 데이터를 그래픽으로 표현해야 합니다. 알려진 모든 데이터는 직사각형 2차원 좌표계에 표시되어야 합니다. 이것이 상관 필드가 형성되는 방식입니다. 설명 요소의 값은 가로축을 따라 표시되고 종속 요소의 값은 세로축을 따라 표시됩니다. 매개변수 간에 기능적 관계가 있는 경우 선 형태로 나열됩니다.

이러한 데이터의 상관계수가 30% 미만이면 연결이 거의 없다고 말할 수 있습니다. 30%에서 70% 사이이면 중간 정도의 연결이 있음을 나타냅니다. 100% 표시는 기능적 연결의 증거입니다.

비선형 회귀 방정식은 선형 회귀 방정식과 마찬가지로 상관 지수(R)로 보완되어야 합니다.

다중 회귀에 대한 상관 관계

결정계수는 다중 상관관계의 제곱을 나타내는 지표입니다. 그는 제시된 지표 세트와 연구 중인 특성의 긴밀한 관계에 대해 이야기합니다. 또한 매개변수가 결과에 미치는 영향의 성격에 대해서도 이야기할 수 있습니다. 이 지표를 사용하여 다중 회귀 방정식을 추정합니다.

다중 상관관계 지표를 계산하기 위해서는 해당 지수를 계산해야 합니다.

최소제곱법

이 방법은 회귀 요인을 추정하는 방법입니다. 그 본질은 함수에 대한 요인의 의존성 결과로 얻은 제곱 편차의 합을 최소화하는 것입니다.

이러한 방법을 사용하여 쌍별 선형 회귀 방정식을 추정할 수 있습니다. 이러한 유형의 방정식은 지표 간에 쌍을 이루는 선형 관계가 감지될 때 사용됩니다.

방정식 매개변수

선형 회귀 함수의 각 매개변수는 특정한 의미를 갖습니다. 쌍을 이루는 선형 회귀 방정식에는 c와 m이라는 두 개의 매개변수가 포함되어 있습니다. 매개변수 m은 변수 x가 하나의 기존 단위만큼 감소(증가)하는 경우 함수 y의 최종 지표의 평균 변화를 나타냅니다. 변수 x가 0이면 함수는 매개변수 c와 같습니다. 변수 x가 0이 아닌 경우 요소 c는 다음을 포함하지 않습니다. 경제적 감각. 함수에 대한 유일한 영향은 요소 c 앞에 있는 부호입니다. 마이너스가 있으면 요인에 비해 결과의 변화가 느리다고 말할 수 있습니다. 플러스가 있으면 결과의 변화가 가속화되었음을 나타냅니다.

회귀식의 값을 변화시키는 각 매개변수는 방정식을 통해 표현될 수 있다. 예를 들어 요인 c의 형식은 c = y - mx입니다.

그룹화된 데이터

모든 정보가 속성 x로 그룹화되는 작업 조건이 있지만 특정 그룹의 경우 종속 지표의 해당 평균값이 표시됩니다. 이 경우 평균값은 x에 따른 표시기가 어떻게 변하는지를 나타냅니다. 따라서 그룹화된 정보는 회귀 방정식을 찾는 데 도움이 됩니다. 관계분석에 활용됩니다. 그러나 이 방법에는 단점이 있습니다. 불행하게도 평균 지표는 외부 변동의 영향을 받는 경우가 많습니다. 이러한 변동은 관계의 패턴을 반영하는 것이 아니라 관계의 "노이즈"를 가릴 뿐입니다. 평균은 선형 회귀 방정식보다 훨씬 나쁜 관계 패턴을 보여줍니다. 그러나 방정식을 찾는 기초로 사용할 수 있습니다. 개별 모집단의 수에 해당 평균을 곱하면 그룹 내 합계 y를 얻을 수 있습니다. 다음으로, 받은 모든 금액을 더하고 최종 지표 y를 찾아야 합니다. 합계 표시기 xy를 사용하여 계산하는 것이 조금 더 어렵습니다. 간격이 작으면 조건에 따라 그룹 내 모든 단위에 대한 x 표시기를 동일하게 설정할 수 있습니다. x와 y의 곱의 합을 알아내려면 여기에 y의 합을 곱해야 합니다. 다음으로, 모든 양을 합산하여 총량 xy를 구합니다.

다중 쌍별 회귀 방정식: 관계의 중요성 평가

앞에서 설명한 것처럼 다중 회귀는 y = f (x 1,x 2,…,x m)+E 형식의 함수를 갖습니다. 대부분의 경우 이러한 방정식은 제품의 수요와 공급 문제, 환매주에 대한 이자 소득 문제를 해결하고 생산 비용 함수의 원인과 유형을 연구하는 데 사용됩니다. 이 방정식은 다양한 거시경제학 연구 및 계산에도 적극적으로 사용되지만 미시경제학 수준에서는 이 방정식이 조금 덜 자주 사용됩니다.

다중 회귀 분석의 주요 작업은 각 요소가 개별적으로나 전체적으로 모델링해야 하는 지표와 해당 계수에 어떤 영향을 미치는지 추가로 확인하기 위해 엄청난 양의 정보가 포함된 데이터 모델을 구축하는 것입니다. 회귀 방정식은 다양한 값을 가질 수 있습니다. 이 경우 관계를 평가하기 위해 일반적으로 선형 및 비선형의 두 가지 유형의 함수가 사용됩니다.

선형 함수는 다음 관계의 형태로 표시됩니다: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. 이 경우 a2, a m은 "순수한" 회귀 계수로 간주됩니다. 다른 지표의 안정적인 값을 조건으로 각 해당 매개변수 x의 변화(감소 또는 증가)에 따른 매개변수 y의 평균 변화를 특성화하는 데 필요합니다.

비선형 방정식은 예를 들어 다음과 같은 형식을 갖습니다. 전력 함수 y=ax 1 b1 x 2 b2 ...x m bm . 이 경우 지표 b 1, b 2 ..... b m을 탄력성 계수라고 하며 해당 지표 x가 1% 증가(감소)함에 따라 결과가 어떻게 변경되는지(%만큼) 보여줍니다. 다른 요인에 대한 안정적인 지표가 있습니다.

다중 회귀 분석을 구성할 때 고려해야 할 요소는 무엇입니까?

올바르게 구축하려면 다중 회귀, 어떤 요소에 특별한 주의를 기울여야 하는지 알아내는 것이 필요합니다.

남북관계의 성격을 어느 정도 이해할 필요가 있다. 경제적 요인그리고 모델링되었습니다. 포함해야 할 요소는 다음 기준을 충족해야 합니다.

  • 정량적 측정을 거쳐야 합니다. 물체의 품질을 설명하는 요소를 사용하려면 어떤 경우에도 정량적 형식이 제공되어야 합니다.
  • 요인의 상호 상관관계나 기능적 관계가 없어야 합니다. 이러한 행동은 대부분 돌이킬 수 없는 결과로 이어집니다. 일반 방정식 시스템은 무조건적이 되며 이로 인해 신뢰성이 떨어지고 추정치가 불분명해집니다.
  • 상관관계가 큰 지표의 경우, 지표의 최종 결과에 요인들이 개별적으로 미치는 영향을 알아낼 방법이 없으므로 계수를 해석할 수 없게 됩니다.

공법

방정식의 요소를 선택하는 방법을 설명하는 수많은 방법과 방법이 있습니다. 그러나 이러한 모든 방법은 상관 지표를 사용한 계수 선택을 기반으로 합니다. 그중에는 다음이 포함됩니다:

  • 제거 방법.
  • 전환 방법.
  • 단계별 회귀 분석.

첫 번째 방법은 전체 세트에서 모든 계수를 필터링하는 것입니다. 두 번째 방법은 많은 추가 요소를 도입하는 것입니다. 세 번째는 이전에 방정식에 사용되었던 요소를 제거하는 것입니다. 이러한 각 방법에는 존재할 권리가 있습니다. 장단점이 있지만 모두 자신의 방식으로 불필요한 지표를 제거하는 문제를 해결할 수 있습니다. 일반적으로 각 개별 방법으로 얻은 결과는 매우 유사합니다.

다변량 분석 방법

요인을 결정하는 이러한 방법은 상호 관련된 특성의 개별 조합을 고려하는 것에 기초합니다. 여기에는 판별 분석, 모양 인식, 주성분 분석 및 클러스터 분석이 포함됩니다. 그 밖에 요인분석도 있는데, 이는 구성요소법의 발달로 인해 나타났다. 이들 모두는 특정 조건 및 요인에 따라 특정 상황에 적용됩니다.

회귀계수성과 지표에 대한 요인의 영향 강도를 보여줍니다. 요인 지표의 예비 표준화가 수행되면 b 0은 총계에서 유효 지표의 평균값과 같습니다. 계수 b 1, b 2, ..., b n은 요소 지표의 값이 평균 0에서 1 표준 편차만큼 벗어난 경우 유효 지표의 수준이 평균 값에서 벗어나는 단위 수를 나타냅니다. 따라서 회귀 계수는 성과 지표 수준을 높이는 데 대한 개별 요인의 중요성 정도를 나타냅니다. 회귀 계수의 특정 값은 최소 제곱법(정규 방정식 시스템을 해결한 결과)에 따라 경험적 데이터로부터 결정됩니다.

회귀선- 산점도의 실험점 분포와 두 간격 변수 간의 관계를 나타내는 기울기의 가파른 정도를 가장 정확하게 반영하는 선입니다.

회귀선은 원하는 곡선에 가장 가까운 선형 함수(선형 회귀) 형태로 가장 자주 검색됩니다. 이는 추정치에서 실제로 관찰된 편차의 제곱의 합이 최소화되는 최소 제곱법을 사용하여 수행됩니다(원하는 회귀 관계를 나타내기 위해 직선을 사용한 추정치를 의미함).

(M - 표본 크기). 이 접근 방식은 다음을 기반으로 합니다. 알려진 사실, 위 식에 나타나는 양은 다음과 같은 경우에 정확하게 최소값을 취합니다.
57. 상관 이론의 주요 임무.

상관 이론은 단지 인과 관계에만 있는 것이 아닌 현상들 사이의 연결의 긴밀성을 평가하는 장치입니다. 상관 이론을 사용하여 확률론적이지만 인과관계는 아닌 관계를 평가합니다. 저자는 M. L. Lukatskaya와 함께 인과관계에 대한 추정치를 얻으려고 시도했습니다. 그러나 현상의 원인과 결과 관계, 원인과 결과를 식별하는 방법에 대한 문제는 여전히 열려 있으며 형식적인 수준에서는 근본적으로 해결 불가능한 것 같습니다.

상관이론과 이를 생산분석에 적용한다.

수리 통계의 한 분야 중 하나인 상관 이론을 사용하면 통계적으로 관련된 다른 매개 변수가 특정 값을 받을 경우 연구 대상 매개 변수가 어느 정도의 신뢰도로 위치하게 될 수 있는 한계에 대해 합리적인 가정을 할 수 있습니다.

상관 이론에서는 다음을 구별하는 것이 일반적입니다. 두 가지 주요 작업.

첫 번째 작업상관 이론 - 상관 관계의 형태를 확립합니다. 즉 회귀 함수 유형(선형, 2차 등).

두 번째 과제상관 이론 - 상관 연결의 친밀도(강도)를 평가합니다.

X에 대한 Y의 상관 관계(의존성)의 근접성은 조건부 평균을 중심으로 Y 값이 분산된 정도에 따라 평가됩니다. 큰 분산은 X에 대한 Y의 약한 의존성을 나타내고, 작은 분산은 강한 의존성이 있음을 나타냅니다.
58. 상관표와 그 수치적 특성.

실제로 X와 Y 수량을 독립적으로 관찰한 결과, 일반적으로 이러한 수량의 가능한 모든 값 쌍의 전체 세트를 다루는 것이 아니라 제한된 샘플만 처리합니다. 인구, 그리고 볼륨 n 표본 모집단표본에서 사용 가능한 쌍의 수로 정의됩니다.

샘플의 값 X가 x 1, x 2,...x m 값을 취하도록 하고, 여기서 이 값의 값의 개수는 서로 다르며, 일반적인 경우 각각은 다음을 수행할 수 있습니다. 샘플에서 반복됩니다. 샘플의 값 Y가 y 1, y 2,...y k 값을 취한다고 가정합니다. 여기서 k는 이 값의 서로 다른 값의 수이며 일반적인 경우 각각은 다음과 같습니다. 샘플에서 반복됩니다. 이 경우 발생 빈도를 고려하여 데이터가 테이블에 입력됩니다. 그룹화된 데이터가 포함된 테이블을 상관 테이블이라고 합니다.

결과 통계 처리의 첫 번째 단계는 상관관계표를 작성하는 것입니다.

Y\X x 1 x 2 ... xm 아니
y 1 n 12 n 21 n m1 n y1
y 2 n 22 nm2 n y2
...
n 1,000 엔 2,000 n mk n yk
n x nx1 nx2 nxm N

표 주요 부분의 첫 번째 행에는 샘플에서 발견된 수량 X의 모든 값이 오름차순으로 나열됩니다. 첫 번째 열에는 샘플에서 발견된 수량 Y의 모든 값도 오름차순으로 나열됩니다. 해당 행과 열의 교차점에서 빈도 n ij (i = 1,2 ,...,m; j=1,2,...,k)는 쌍의 발생 횟수 (xi ; y i) 샘플에서. 예를 들어, 빈도 n 12는 표본에서 (x 1 ;y 1) 쌍의 발생 횟수를 나타냅니다.

또한 n xi n ij , 1≤i≤m은 i번째 열의 요소의 합 n yj n ij , 1≤j≤k는 j번째 행의 요소와 n xi의 합입니다. =n yj =n

상관표 데이터에서 얻은 공식의 유사체는 다음과 같은 형식을 갖습니다.


59. 경험적 및 이론적 회귀선.

이론적 회귀선이 경우 개별 관찰 결과로부터 계산할 수 있습니다. 정규 방정식 시스템을 풀려면 동일한 데이터(x, y, xy 및 xr)가 필요합니다. 우리는 1958년 시멘트 생산량과 고정 생산 자산 규모에 대한 데이터를 보유하고 있습니다. 과제는 시멘트 생산량(물리적 측면)과 고정 자산 규모 간의 관계를 연구하는 것입니다. [ 1 ]

이론적인 회귀선(방정식에서 계산됨)이 실제(경험적) 회귀선에서 덜 벗어날수록 평균 근사 오류는 작아집니다.

이론적 회귀선을 찾는 과정에는 최소제곱법을 사용하여 경험적 회귀선을 맞추는 과정이 포함됩니다.

이론적 회귀선을 찾는 과정을 경험적 회귀선 정렬이라고 하며 유형을 선택하고 정당화하는 과정으로 구성됩니다. 방정식의 매개변수 곡선 및 계산.

경험적 회귀는 분석적 또는 조합적 그룹화 데이터에 따라 구축되며 요인 특성의 그룹 평균값에 대한 결과 특성의 그룹 평균값의 의존성을 나타냅니다. 경험적 회귀의 그래픽 표현은 점들로 구성된 점선으로, 가로축은 요인 특성의 그룹 평균값이고 세로축은 결과 특성의 그룹 평균값입니다. 포인트 수는 그룹화에 포함된 그룹 수와 같습니다.

경험적 회귀선은 고려 중인 관계의 주요 추세를 반영합니다. 경험적 회귀선이 외관상 직선에 가까워지면 특성 간에 선형 상관관계가 있다고 가정할 수 있습니다. 그리고 연결선이 곡선에 가까워지면 이는 곡선 상관 관계가 존재하기 때문일 수 있습니다.
60. 샘플 상관관계 및 회귀계수.

그래프의 특성 간의 의존성이 선형 상관 관계를 나타내는 경우 다음을 계산하십시오. 상관 계수 아르 자형이를 통해 변수 간 관계의 근접성을 평가할 수 있으며, 특성의 변화 중 어느 부분이 주요 특성의 영향으로 인한 것인지, 어떤 부분이 다른 요인의 영향으로 인한 것인지도 확인할 수 있습니다. 계수는 –1에서 +1까지 다양합니다. 만약에 아르 자형=0이면 특성 사이에 연관성이 없습니다. 평등 아르 자형=0은 선형 상관 관계 의존성이 없음을 나타낼 뿐 상관 관계가 전혀 없음을 의미하지 않으며 통계적 의존성은 훨씬 적습니다. 만약에 아르 자형= ±1이면 이는 완전한(기능적) 연결이 있음을 의미합니다. 이 경우 관측된 모든 값은 직선인 회귀선 상에 위치하게 됩니다.
상관계수의 실질적인 중요성은 결정계수라고 불리는 제곱값에 의해 결정됩니다.
선형 함수 y = kX + b로 근사된(대략 설명된) 회귀입니다. X에 대한 Y의 회귀에 대한 회귀 방정식은 다음과 같습니다. `y x = ryx X + b; (1). 경사 계수 X에 대한 Y의 직접 회귀의 ryx를 X에 대한 Y의 회귀 계수라고 합니다.

표본 데이터를 사용하여 방정식 (1)을 찾으면 다음과 같이 호출됩니다. 샘플 회귀 방정식. 따라서 ryx는 X에 대한 Y의 샘플 회귀 계수이고, b는 방정식의 샘플 더미항입니다. 회귀 계수는 X의 단위 변화당 Y의 변화를 측정합니다. 회귀 방정식의 매개변수(계수 ryx 및 b)는 최소 제곱법을 사용하여 구합니다.
61. 일반 모집단에서 상관계수의 유의성과 상관관계의 근접성 평가

상관계수의 중요성학생의 테스트를 사용하여 확인:

어디 - 상관계수의 제곱평균제곱근 오차는 다음 공식에 의해 결정됩니다.

계산된 값이 테이블 값보다 높으면 상관계수 값이 유의하다는 결론을 내릴 수 있습니다. 스튜던트 t-테스트 값 표에서 찾았습니다. 이 경우 자유도가 고려됩니다. (V = n - 1) 및 신뢰 수준(경제적 계산에서는 일반적으로 0.05 또는 0.01). 이 예에서 자유도는 다음과 같습니다. 피 - 1 = 40 - 1 = 39. 신뢰 수준에서 아르 자형 = 0,05; = 2.02. (모든 경우의 실제 값이 t-표보다 높기 때문에) 결과 지표와 요인 지표 간의 관계는 신뢰할 수 있고 상관 계수의 크기가 중요합니다.

상관계수 추정제한된 샘플에서 계산된 는 거의 항상 0과 다릅니다. 그러나 이것이 상관계수를 의미하는 것은 아니다. 인구 0과도 다릅니다. 계수의 샘플 값의 유의성을 평가하거나 통계 가설 테스트 작업의 공식화에 따라 상관 계수가 0이라는 가설을 테스트해야합니다. 가설이라면 N상관 계수가 0과 같다는 0은 기각되고, 그러면 표본 계수가 유의미하며 해당 값은 선형 관계에 의해 관련됩니다. 가설이라면 N 0이 허용되면 계수 추정치가 중요하지 않으며 값이 서로 선형적으로 관련되지 않습니다(물리적 이유로 요인이 관련될 수 있는 경우 이 관계가 발생하지 않았다고 말하는 것이 좋습니다). 사용 가능한 ED를 기반으로 설정됨). 상관 계수 추정의 유의성에 대한 가설을 테스트하려면 이 확률 변수의 분포에 대한 지식이 필요합니다.  값의 분포 나는확률 변수가 있는 특별한 경우에 대해서만 연구되었습니다. Uj그리고 영국일반법에 ​​따라 분배됩니다.

귀무가설 검정의 기준 N 0 적용 무작위 변수 . 상관 계수의 계수가 상대적으로 1에서 멀리 떨어져 있으면 값은 귀무가설이 참이면 스튜던트 법칙에 따라 분포됩니다. N– 자유도 2. 경쟁 가설 N 1은 값 이라는 진술에 해당합니다. 나는 0과 같지 않습니다(0보다 크거나 작음). 따라서 임계 영역은 양면입니다.
62. 표본 상관계수 계산 및 표본 직선 회귀 방정식의 구성.

샘플 상관계수공식으로 구해진다

값의 샘플 표준 편차는 어디에 있습니까?

샘플 상관 계수는 와 사이의 선형 관계가 얼마나 가까웠는지를 보여줍니다. 즉, 1에 가까울수록 과 사이의 선형 관계가 더 강해집니다.

단순 선형 회귀는 하나의 입력 변수와 하나의 출력 변수 사이의 선형 관계를 찾습니다. 이를 위해 회귀 방정식이 결정됩니다. 이는 Y 값, x 값에 대한 Y 종속 값, 독립 변수 x 및 모집단의 의존성을 반영하는 모델입니다. :

어디 A0- 회귀 방정식의 자유항;

A1- 회귀 방정식 계수

그런 다음 회귀선이라고 하는 해당 직선이 구성됩니다. 모델 매개변수라고도 하는 계수 A0 및 A1은 회귀선의 실제 데이터 관찰에 해당하는 점의 제곱 편차의 합이 최소가 되는 방식으로 선택됩니다. 계수는 최소 제곱법을 사용하여 선택됩니다. 즉, 단순 선형 회귀는 하나의 입력 변수와 하나의 출력 변수 간의 관계를 가장 잘 근사화하는 선형 모델을 설명합니다.

공유하다