선형 회귀의 결정 계수가 특징입니다. 결정계수는 무엇을 측정합니까 - 공식

특성의 변형단호한 다양한 요인, 통계적 모집단을 특정 기준에 따라 그룹으로 나누면 이러한 요인 중 일부를 확인할 수 있습니다. 그런 다음 인구 전체의 특성 변이를 연구하는 동시에 각 구성 그룹 및 이러한 그룹 간의 변이를 연구하는 것이 가능합니다. 모집단을 하나의 요인을 기준으로 그룹으로 나누는 간단한 경우 전체, 그룹 간, 그룹 내 세 가지 유형의 분산을 계산하고 분석하여 변동에 대한 연구를 수행합니다.

경험적 결정계수

경험적 결정계수에서 널리 사용됨 통계 분석결과 특성에서 그룹 간 변동의 비율을 나타내고 전체 변동 형성에 대한 그룹화 특성의 영향 강도를 특성화하는 지표입니다. 다음 공식을 사용하여 계산할 수 있습니다.

요인 특성 x의 영향으로 결과 특성 y의 변동 비율을 표시하며, 이는 2차 종속성에 의해 상관 계수와 관련됩니다. 연결이 없는 경우 경험적 결정계수는 0이고 기능적 연결이 있는 경우 1입니다.

예를 들어, 근로자의 노동 생산성이 자격에 미치는 영향을 연구할 때 결정 계수는 0.7이고, 근로자의 노동 생산성 변동의 70%는 자격의 차이에 기인하고 30%는 자격의 영향에 기인합니다. 다른 요인.

경험적 상관 비율은 결정 계수의 제곱근입니다. 비율은 그룹화와 성능 특성 간의 밀접한 연관성을 보여줍니다. 경험적 상관 비율은 -1에서 1까지의 값을 취합니다. 연결이 없으면 상관 비율은 0과 같습니다. 모든 그룹 평균은 서로 동일하며 그룹 간 변동이 없습니다. 이는 그룹화 특성이 일반적인 변이의 형성에 영향을 미치지 않음을 의미합니다.

연결이 기능적이면 상관 비율은 1과 같습니다. 이 경우 그룹 평균의 분산은 전체 분산과 같습니다. 즉, 그룹 내 변형은 없습니다. 이는 그룹화 특성이 결과 특성의 변화를 완전히 결정한다는 것을 의미합니다.

상관 비율의 값이 1에 가까울수록 특성 간의 연결이 기능적 의존성에 더 강하고 가까워집니다. 경험적 상관 계수를 기반으로 연결 강도를 정성적으로 평가하려면 Chaddock 비율을 사용할 수 있습니다.

채독의 비율

  • 연결이 매우 가깝습니다. — 상관 계수의 범위는 0.9 - 0.99입니다.
  • 연결 닫기 - Rxy = 0.7 - 0.9
  • 연결이 눈에 띕니다 - Rxy = 0.5 - 0.7
  • 통신은 보통 - Rxy = 0.3 - 0.5
  • 연결이 약합니다 - Rxy = 0.1 - 0.3
오늘날 데이터 마이닝에 조금이라도 관심이 있는 사람이라면 누구나 단순 선형 회귀에 대해 들어봤을 것입니다. 이는 이미 Habré에 관한 글로 작성되었으며 Andrew Ng도 그의 유명한 기계 학습 과정에서 이에 대해 자세히 설명했습니다. 선형 회귀는 가장 기본적이고 가장 기본적인 것 중 하나입니다. 간단한 방법그러나 기계 학습은 구성된 모델의 품질을 평가하는 방법에 대해 거의 언급되지 않습니다. 이번 글에서는 R 언어로 summary.lm() 함수의 결과를 파싱하는 예제를 사용하여 이러한 귀찮은 누락을 살짝 수정해보겠습니다.동시에 필요한 공식을 제공하려고 노력할 것이므로 모든 계산은 다른 언어로 쉽게 프로그래밍할 수 있습니다. 이 기사는 선형 회귀 분석을 만들 수 있다는 말을 들었지만 품질을 평가하기 위한 통계적 절차를 접해 본 적이 없는 사람들을 대상으로 합니다.

선형 회귀 모델

따라서 여러 개의 독립된 무작위 변수 X1, X2, ..., Xn(예측 변수) 및 그에 따른 값 Y(예측 변수에 필요한 모든 변환이 이미 수행되었다고 가정합니다). 더욱이 우리는 관계가 선형이고 오류가 정규 분포를 따른다고 가정합니다.

여기서 I는 n x n 단위 정사각형 행렬입니다.

따라서 우리는 양 Y와 Xi에 대한 k개의 관측값으로 구성된 데이터를 가지고 있으며 계수를 추정하려고 합니다. 계수 추정값을 찾는 표준 방법은 최소 제곱법입니다. 그리고 이 방법을 적용하여 얻을 수 있는 분석해는 다음과 같다.

어디 뚜껑 포함 - 계수 벡터 추정, 와이은 종속 변수 값의 벡터이고 X는 k x n+1 크기의 행렬입니다(n은 예측 변수의 수, k는 관측치의 수). 여기서 첫 번째 열은 1로 구성되고 두 번째 열은 - 첫 번째 예측 변수의 값, 세 번째 - 두 번째 등의 값 및 기존 관찰과 일치하는 행.

summary.lm() 함수 및 결과 결과 평가

이제 모델 구축의 예를 살펴보겠습니다. 선형 회귀 R 언어로:
> 도서관(멀리) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >summary(lm1) 호출: lm(공식 = 종 ~ 면적 + 고도 + 가장 가까운 + Scruz + 인접, 데이터 = 갈라) 잔차: Min 1Q Median 3Q Max -111.679 -34.898 -7.862 33.460 182.584 계수: Estimate Std. 오류 t 값 Pr(>|t|) (절편) 7.068221 19.154198 0.369 0.715351 면적 -0.023938 0.022422 -1.068 0.296318 고도 0.319465 0.053663 5.953 3.82e-06 *** 가장 가까운 0 .009144 1.054136 0.009 0.993151 스크루즈 -0.240524 0.215402 -1.117 0.275208 인접 -0.074805 0.017700 -4.226 0.000297 *** --- 부호. 코드: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 잔여 표준 오류: 24 자유도에서 60.98 다중 R-제곱: 0.7658, 조정된 R-제곱: 0.7171 F- 통계: 5 및 24 DF에서 15.7, p-값: 6.838e-07
테이블 갈라에는 30개 갈라파고스 제도에 대한 일부 데이터가 포함되어 있습니다. 종(Species)이 수량인 모델을 고려해 보겠습니다. 다른 유형섬의 식물 성장은 여러 다른 변수에 선형적으로 의존합니다.

summary.lm() 함수의 출력을 살펴보겠습니다.
먼저 모델이 어떻게 만들어졌는지 상기시키는 선이 나옵니다.
그런 다음 최소값, 1분위수, 중앙값, 3분위수, 최대값 등 잔차 분포에 대한 정보가 제공됩니다. 이 시점에서는 잔차의 일부 분위수를 보는 것뿐만 아니라 Shapiro-Wilk 테스트와 같이 정규성을 테스트하는 것도 유용합니다.
다음 - 가장 흥미로운 - 계수에 대한 정보입니다. 여기에는 약간의 이론이 필요합니다.
먼저 다음 결과를 기록합니다.

상한 시그마 제곱은 실제 시그마 제곱에 대한 편견 없는 추정치입니다. 여기 는 계수의 실수 벡터이고 뚜껑이 있는 엡실론은 방법으로 얻은 추정값을 계수로 취하는 경우 잔차 벡터입니다. 최소제곱. 즉, 오류가 정규 분포를 따른다는 가정 하에서 계수의 벡터도 실수 값 주위에 정규 분포를 가지며 그 분산은 편견 없이 추정될 수 있습니다. 즉, 계수가 0과 동일하다는 가설을 테스트할 수 있으므로 예측 변수의 유의성, 즉 Xi 값이 구성된 모델의 품질에 실제로 큰 영향을 미치는지 여부를 확인할 수 있습니다.
이 가설을 테스트하려면 계수 bi의 실제 값이 0인 경우 학생 분포를 갖는 다음 통계가 필요합니다.

어디
는 계수 추정의 표준 오차이고 t(k-n-1)은 자유도가 k-n-1인 스튜던트 분포입니다.

이제 summary.lm()의 출력을 계속 구문 분석할 준비가 되었습니다.
따라서 다음은 최소 제곱법으로 얻은 계수의 추정치, 표준 오차, t-통계 값 및 이에 대한 p-값입니다. 일반적으로 p-값은 0.05 또는 0.01과 같이 상당히 작은 미리 선택된 임계값과 비교됩니다. 그리고 p-statistic 값이 임계값보다 작은 것으로 판명되면 가설은 기각되지만, 임계값보다 크면 안타깝게도 구체적인 말을 할 수 없습니다. 그 점을 상기시켜 드리겠습니다. 이 경우, 스튜던트 분포는 0을 기준으로 대칭이므로 p-값은 1-F(|t|)+F(-|t|)와 같습니다. 여기서 F는 자유도가 k-n-1인 스튜던트 분포 함수입니다. 또한 R은 별표를 사용하여 p-값이 충분히 작은 중요한 계수를 나타내는 데 도움이 됩니다. 즉, 확률이 매우 낮은 계수는 0과 같습니다. Signif 라인에서. 코드에는 별표의 디코딩이 포함되어 있습니다. 별표가 3개 있으면 p-값은 0에서 0.001이고, 2개이면 0.001에서 0.01입니다. 아이콘이 없으면 p-값이 0.1보다 큽니다.

이 예에서는 예측 변수 Elevation 및 Adjacent가 실제로 종의 값에 영향을 미칠 가능성이 가장 높다고 확신을 가지고 말할 수 있지만 다른 예측 변수에 대해서는 명확하게 말할 수 없습니다. 일반적으로 이러한 경우 예측 변수는 한 번에 하나씩 제거되고 모델의 다른 지표(예: BIC 또는 조정된 R-제곱)가 어떻게 변경되는지 살펴봅니다. 이에 대해서는 나중에 설명합니다.

잔차 표준 오차 값은 단순히 캡이 있는 시그마 추정치에 해당하며 자유도는 k-n-1로 계산됩니다.

이제 먼저 살펴봐야 할 가장 중요한 통계인 R-제곱 및 조정된 R-제곱:

여기서 Yi는 각 관찰에서 Y의 실제 값이고, 대문자가 있는 Yi는 모델에서 예측된 값이고, 막대가 있는 Y는 Yi의 모든 실제 값에 대한 평균입니다.

R-제곱 통계, 또는 결정 계수라고도 불리는 것부터 시작해 보겠습니다. 모델의 조건부 분산이 실제 Y 값의 분산과 얼마나 다른지 보여주는데, 이 계수가 1에 가까우면 모델의 조건부 분산이 상당히 작아서 모델이 데이터를 잘 설명할 가능성이 매우 높습니다. . R-제곱 계수가 훨씬 작은 경우(예: 0.5 미만), 높은 신뢰도로 모델은 실제 상황을 반영하지 않습니다.

그러나 R-제곱 통계에는 다음이 하나 있습니다. 심각한 결점: 예측 변수의 수가 증가하면 이 통계도 증가할 수 있습니다. 따라서 다음과 같은 모델이 있는 것처럼 보일 수 있습니다. 큰 금액모든 새로운 예측 변수가 종속 변수에 영향을 미치지 않더라도 예측 변수가 적은 모델보다 더 좋습니다. 여기서 오캄의 면도날의 원리를 기억할 수 있습니다. 이를 따르면 가능하다면 모델에서 불필요한 예측 변수를 제거하는 것이 더 간단하고 이해하기 쉬워지기 때문에 가치가 있습니다. 이러한 목적을 위해 수정된 R-제곱 통계가 고안되었습니다. 이는 일반적인 R-제곱을 나타내지만 예측변수 수가 많으면 페널티가 발생합니다. 주요 아이디어: 새로운 독립 변수가 모델 품질에 크게 기여하면 이 통계 값이 증가하고, 그렇지 않으면 반대로 감소합니다.

예를 들어, 이전과 동일한 모델을 고려하지만 이제는 5개의 예측 변수 대신 2개를 남겨둡니다.
>lm2<-lm(Species~Elevation+Adjacent, data=gala) >summary(lm2) 호출: lm(공식 = 종 ~ 고도 + 인접, 데이터 = 갈라) 잔차: Min 1Q Median 3Q Max -103.41 -34.33 -11.43 22.57 203.65 계수: Estimate Std. 오차 t 값 pr (> | t |) (인터셉트) 1.43287 15.02469 0.095 0.924727 고도 0.27657 0.03176 8.707 2.53E -09 *** 인접 -0.06889 0.01549 -4447 0.000134 *** ------ 사인 if. 코드: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 잔여 표준 오류: 27 자유도에서 60.86 다중 R-제곱: 0.7376, 조정된 R-제곱: 0.7181 F- 통계: 2 및 27 DF에서 37.94, p-값: 1.434e-08
보시다시피 R-제곱 통계값은 감소했지만 조정된 R-제곱 값은 약간 증가했습니다.

이제 예측 변수의 모든 계수가 0이라는 가설을 확인해 보겠습니다. 즉, Y의 값이 일반적으로 Xi의 값에 선형적으로 의존하는지 여부에 대한 가설입니다. 이를 위해 모든 계수가 0이라는 가설이 참인 경우 다음 통계를 사용할 수 있습니다.

결정계수

선형 함수 선택의 품질(실제 데이터 위치와 계산된 회귀선의 근접성)을 평가하기 위해 결정 계수라고 하는 선형 상관 계수의 제곱이 계산됩니다.

검증은 연구를 바탕으로 수행됩니다. 결정 계수 및 분산 분석.

회귀 모델은 Y의 변동이 독립 변수 X의 변동과 외란 e의 값으로 설명될 수 있음을 보여줍니다. 우리는 Y의 변동 중 X의 변화로 인한 변동이 얼마나 되는지, 임의 원인으로 인한 변동이 얼마나 되는지 알고 싶습니다. 즉, 추정된 회귀식이 실제 데이터와 얼마나 잘 맞는지 알아야 합니다. 회귀선 주변의 데이터에 변화가 얼마나 적은지.

회귀선의 순응도를 평가하려면 결정계수를 계산해야 하며, 그 본질은 변수 Y의 평균값에서 편차 제곱합의 총합을 2로 분해하여 명확하게 이해할 수 있습니다. 부분 - "설명됨" 및 "설명되지 않음"(그림 4).

그림에서. 4 그것은 분명하다 .

이 평등의 양쪽을 제곱하고 모두 합해 봅시다. 1부터 N.

제품의 합계를 다음 형식으로 다시 작성해 보겠습니다.

여기에는 다음 속성이 사용됩니다.

2) 최소 제곱법(LSM)은 다음 조건을 기반으로 합니다.

필요한 조건최소 함수의 존재 b 0 및 b 1 에 대한 1차 편도함수의 0과 동일합니다.

.

또는 .

그것은 다음과 같습니다.



응 내가


그림 4. 종속변수 Y의 변형 구조

따라서 결과는 다음과 같습니다.

(1)

평균값에서 종속 변수 Y의 개별 값의 제곱 편차의 총합은 여러 가지 이유의 영향으로 인해 발생하며 조건에 따라 요인 X와 기타 요인(무작위 영향)의 두 그룹으로 나뉩니다. 요인 X가 결과(Y)에 영향을 주지 않으면 그래프의 회귀선은 가로축과 평행합니다. 그러면 종속변수 Y의 전체 분산은 다른 요인의 영향으로 인한 것이며, 편차 제곱의 총합은 잔차 제곱합과 일치합니다. 다른 요인이 결과에 영향을 미치지 않으면 Y는 기능적으로 X와 관련되며 잔차 제곱합은 0입니다. 이 경우 회귀분석으로 설명되는 편차 제곱합은 전체 제곱합과 같습니다.

방정식 (1)의 양변을 좌변(총 제곱합)으로 나누면 다음과 같은 결과를 얻습니다.

(2)

회귀분석으로 설명되는 종속변수의 분산 비율을 다음과 같이 부릅니다. 결정 계수 R2로 표시된다. (2)로부터 결정 계수가 결정됩니다.

. (3)

결정계수의 값은 0부터 1까지이며 선형모델의 품질을 확인하는 기준 중 하나이다. 설명된 변동의 비율이 클수록 그에 따라 다른 요인의 역할이 줄어듭니다. 따라서 선형 모델은 원래 데이터에 잘 근접하며 결과 특성 값을 예측하는 데 사용할 수 있습니다.

결정 계수는 다음과 같은 경우 0부터 값을 취합니다. 엑스 Y의 변화가 변화에 의해 완전히 설명될 때 Y에 영향을 미치지 않습니다. 엑스. 따라서 결정 계수는 모델의 "완전성"을 나타냅니다.

결정계수의 장점: 계산이 쉽고 직관적이며 해석이 명확합니다. 그러나 그럼에도 불구하고 그 사용은 때때로 문제와 관련이 있습니다.

· 종속변수가 다른 모델의 R2 값을 비교하는 것은 불가능하다.

· R 2 는 모델에 새 변수가 포함됨에 따라 항상 증가합니다. R 2의 이러한 속성은 연구자가 모델에 추가 변수를 과도하게 포함하도록 하는 인센티브를 생성할 수 있으며, 어떤 경우에도 추가 변수가 모델의 품질을 향상시키는지 여부를 결정하는 것이 문제가 됩니다.

· R 2는 시계열 모델의 품질을 평가하는 데 거의 사용되지 않습니다. 이러한 모델에서는 그 값이 종종 0.9 이상에 도달합니다. 이 계수를 기반으로 모델을 차별화하는 것은 어려운 작업입니다.

나열된 문제 중 하나(모델에 추가 변수가 도입될 때 R 2의 증가)는 모델에 추가 변수가 나타나는 결과로 자유도 수를 줄이기 위해 계수를 수정하여 해결됩니다.

조정된 결정계수다음과 같이 계산됩니다.

, (4)

공식에서 볼 수 있듯이 변수를 추가할 때 R 2의 증가가 변수 수의 증가보다 "큰" 경우에만 증가합니다. 정말,

저것들. 새로운 변수를 포함할 때 잔차 분산의 비율은 감소해야 하지만, 이를 곱하면 동시에 모델에 포함된 변수의 수가 증가함에 따라 증가합니다(p). 결과적으로, 새로운 요소를 포함함으로써 얻는 긍정적인 효과가 자유도 수의 변화보다 "크면" 자유도는 증가할 것입니다. 그렇지 않으면 감소할 수 있습니다.

방정식의 품질(선택한 모델과 경험적 데이터의 적절성)은 F-검정을 사용하여 평가됩니다. 평가의 본질은 회귀 방정식과 결정 계수의 통계적 중요성에 대한 귀무 가설 H 0을 테스트하는 것입니다. 이를 위해 실제 F 사실과 Fisher F 기준의 중요한(표 형식) F 테이블 값을 비교합니다.

. (5)

가설이 사실이라면

H 0: b 0 = b 1 = ... = b p = 0(또는 R 2 true = 0)

통계 F 사실은 F - 분자와 분모의 자유도가 각각 동일한 분포를 따라야 합니다.

n 1 = p 및 n 2 = n – p – 1.

확률 0.95(또는 0.99) 및 자유도 n 1 = p, n 2 = n – p – 1에 대한 F-검정의 표 값을 계산된 값과 비교합니다. 부등식 F > F 테이블이 충족되면 결정 계수의 실제 값이 0과 같다는 귀무 가설이 기각됩니다. 이는 모델이 연구 중인 프로세스에 적합하다고 믿을 수 있는 이유를 제공합니다.

쌍체 모형의 경우 R2에 대한 검정 기준에서 분자는 1자유도에 해당하고 (n – 2) 자유도는 분모에 해당합니다. R2의 유의성을 테스트하기 위한 F-검정 계산은 다음과 같이 수행됩니다.



.

F-표를 보면 n 1 = 1 및 n 2 = 50에 대한 5% 유의 수준의 표 값이 대략 4라는 것을 알 수 있습니다. F-기준의 계산된 값이 표 값보다 크므로 다음과 같습니다. 0.95의 신뢰 확률로 결정 계수의 실제 값이 0이라는 귀무 가설을 기각합니다.

따라서 우리는 결정계수(따라서 모델 전체)가 고려 중인 주가 지수 간의 관계를 통계적으로 신뢰할 수 있는 지표라고 결론 내릴 수 있습니다.

제곱근쌍을 이룬 모델의 결정 계수 값은 다음과 같습니다. 상관 계수– 연결의 친밀도를 나타내는 표시입니다.

세 번째 단계(고전적 회귀의 기본 전제의 타당성을 확인하는 단계)는 추가 연구의 주제입니다.

단락 3.3, 4.1에서는 선형 회귀 방정식을 추정하는 문제의 공식화를 고려하고 이를 해결하는 방법을 보여줍니다. 그러나 특정 방정식의 매개변수를 추정하는 것은 계량경제 모델을 구성하는 길고 복잡한 과정의 별도 단계일 뿐입니다. 평가된 첫 번째 방정식은 모든 측면에서 거의 만족스럽지 않습니다. 일반적으로 관계 공식과 설명 변수의 구성을 점차적으로 선택하고 각 단계에서 추정된 관계의 품질을 분석하는 것이 필요합니다. 이 품질 분석에는 통계 및 콘텐츠 구성 요소가 포함됩니다. 추정 방정식의 통계적 품질 테스트는 다음 요소로 구성됩니다.

각 회귀식 계수의 통계적 유의성을 확인하는 단계;

회귀 방정식의 전반적인 품질을 확인합니다.

실행되어야 하는 데이터 속성 확인

방정식을 추정할 때.

품질 분석의 실질적인 구성 요소는 추정 회귀 방정식의 경제적 의미를 고려하는 것으로 이해됩니다. 이론의 관점에서 중요한 설명 요소가 중요한 것으로 판명되었는지 여부; 이러한 요소의 영향 방향을 나타내는 양수 또는 음수 계수; 회귀 계수의 추정치가 이론적 고려 사항에서 가정한 간격 내에 속하는지 여부.

선형 회귀 방정식에서 각 개별 계수의 통계적 유의성을 테스트하는 기술은 이전 장에서 논의되었습니다. 이제 방정식의 품질을 확인하는 다른 단계로 넘어가겠습니다.

4.2.1. 회귀 방정식의 전반적인 품질을 확인합니다. 결정계수 r2

추정된 선형회귀의 전반적인 품질을 분석하기 위해 일반적으로 결정계수를 사용합니다. 아르 자형 2 . 쌍별 회귀 분석의 경우 이는 변수 상관 계수의 제곱입니다. 엑스그리고 와이. 결정 계수는 다음 공식을 사용하여 계산됩니다.

결정계수 이 방정식을 사용하여 설명된 종속 변수의 변동(산포) 비율을 특성화합니다.종속변수의 확산 정도는 일반적으로 분산이며 잔차 변동은 회귀선 주변의 편차 분산으로 측정할 수 있습니다. 1에서 뺀 분수의 분자와 분모를 관측치 수로 나누면 피,그런 다음 잔차 분산과 종속 변수의 분산에 대한 표본 추정치를 각각 얻습니다. 유.전체 분산에 대한 잔차 비율은 설명되지 않는 분산의 비율을 나타냅니다. 이 몫을 단일성에서 빼면 회귀 분석으로 설명되는 종속 변수의 분산의 몫을 얻습니다. 때로는 결정 계수를 계산할 때 편향되지 않은 분산 추정치를 얻기 위해 1에서 뺀 분수의 분자와 분모의 자유도 수에 대한 조정이 이루어집니다. 그 다음에

.

또는 쌍별 회귀 분석의 경우 독립 변수의 수가 1과 같습니다.

1에서 빼는 분수의 분자는 관측치의 제곱 편차의 합입니다. ~에 회귀선에서, 분모에서 - 변수의 평균값에서 유.따라서, 이 분수는 작습니다 (계수는아르 자형 2 , 분명히 1에 가깝습니다), 회귀선 주변의 점 분산이 평균값 주변보다 현저히 작은 경우. 최소제곱법을 사용하면 합이 일치하는 직선을 찾을 수 있습니다. 이자형 2 최소한이고,
조건이 충족되는 가능한 라인 중 하나를 나타냅니다. . 따라서 단위에서 뺀 분수의 분자 값은 분모의 값보다 작습니다. 그렇지 않으면 최소 제곱법을 사용하여 선택한 회귀선은 직선이 됩니다.
. 따라서 결정계수는 아르 자형 2 발견된 회귀선이 종속변수의 행동을 설명하는 데 어느 정도 가장 좋은 결과를 제공하는지를 결정하는 척도입니다. 와이,그냥 수평선보다
.

결정계수의 의미는 조금 다르게 설명될 수 있습니다. 다음과 같이 표시될 수 있습니다.
, 어디 케이 =
- 편차 회귀선의 번째 점 . 이 공식에서 왼쪽 값은 변수의 전체 확산(변동)에 대한 측정값으로 해석될 수 있습니다. 와이,오른쪽의 첫 번째 항
- 회귀 분석으로 설명되는 확산의 척도 및 두 번째 항
- 설명할 수 없는 잔차 확산(회귀선 주변의 점 확산)을 측정하는 방법입니다. 이 공식을 좌변으로 나누고 항을 재배열하면

즉, 결정계수 아르 자형 2는 종속변수의 분산 중 설명된 부분의 비율(또는 분자와 분모를 다음과 같이 나눈 경우 설명된 분산의 비율)입니다. N 또는 피- 1). 종종 결정계수 아르 자형 2 그림에 설명되어 있습니다. 4.2

쌀. 4.2.

여기 TSS(에게 합집합 ~의 사각형) - 변수의 총 변동 와이, 이봄 여름 시즌 (설명됨 합집합 ~의 사각형) - 회귀로 설명되는 분산, USS (설명할 수 없음 합집합 ~의 사각형) - 회귀로 설명되지 않는 분산. 그림은 설명된 스프레드의 비율이 증가함에 따라 계수가 아르 자형 2 - 통일에 다가갑니다. 또한, 그림에서는 변수가 하나 더 추가됨을 보여줍니다. 아르 자형 2는 일반적으로 증가하지만, 설명변수의 경우 엑스 1 그리고 엑스 2 서로 강한 상관관계가 있는 경우 변수 분산의 동일한 부분을 설명합니다. 와이,이 경우 행동을 설명하는 데 있어 각 변수의 기여도를 식별하기가 어렵습니다. 유.

수량 사이에 통계적으로 유의미한 선형 관계가 있는 경우 엑스그리고 ~에, 계수 아르 자형 2는 1에 가깝습니다. 그러나 단순히 이 두 양 모두 원인-결과 상호의존성과 관련이 없는 뚜렷한 시간 추세를 갖는다는 사실 때문에 단일성에 가까울 수 있습니다. 경제학에서 물량지표(소득, 소비, 투자)는 대개 이런 경향을 보이지만, 템포나 상대지표(생산성, 성장률, 점유율, 비율)는 항상 그런 경향이 있는 것은 아니다. 따라서 볼륨 지표의 시계열(예: 자원 비용에 대한 출력 의존성 또는 소득에 대한 소비량)을 기반으로 선형 회귀를 추정할 때 값 아르 자형 2는 일반적으로 1에 매우 가깝습니다. 이는 종속변수가 단순히 평균과 같다고 설명할 수는 없지만 시간 추세가 있으므로 이는 이미 명백하다는 것을 의미합니다.

시계열은 없지만 교차 표본, 즉 동일한 시점에 동일한 유형의 개체에 대한 데이터가 있는 경우 이로부터 추정된 선형 회귀 방정식의 경우 값은 다음과 같습니다. 아르 자형 2는 일반적으로 0.6-0.7 수준을 초과하지 않습니다. 명확한 추세가 없는 경우 시계열에 대한 회귀 분석에서도 일반적으로 마찬가지입니다. 거시경제학에서 이러한 종속성의 예로는 상대 지표, 특정 지표, 비율 지표 간의 연결이 있습니다. 즉, 실업률에 대한 인플레이션율의 의존성, 이자율에 대한 누적율, 자원 투입 증가율에 대한 생산량 증가율입니다. . 따라서, 특히 시계열 데이터를 기반으로 거시경제 모델을 구축할 때, 여기에 포함된 변수가 부피적 변수인지 상대 변수인지, 그리고 시간 추세를 갖는지 여부를 고려할 필요가 있습니다 1 .

지표의 정확한 수용 한계 아르 자형 모든 경우에 대해 한 번에 2개를 표시하는 것은 불가능합니다. 방정식의 자유도, 변수의 추세, 방정식의 의미 있는 해석을 고려해야 합니다. 색인 아르 자형 2 부정적인 결과가 나올 수도 있습니다. 일반적으로 이는 자유 항이 없는 방정식에서 발생합니다. 와이 =
. 이러한 방정식은 일반적인 경우와 마찬가지로 최소제곱법을 사용하여 추정됩니다. 그러나 선택 범위가 상당히 좁아졌습니다. 가능한 모든 선이나 초평면이 고려되지 않고 좌표 원점을 통과하는 선이나 초평면만 고려됩니다. 크기 아르 자형 2 종속변수의 값이 직선(초평면)을 중심으로 퍼져 있으면 음수로 나타납니다.
원점을 통과하는 최상의 직선(초평면)조차도 주변보다 적습니다. 음수 값 아르 자형 2 방정식에서
무료 회원을 소개하는 것이 타당하다고 말합니다. 이 상황은 그림 1에 설명되어 있습니다. 4.3.

1행은 자유 항이 없는(원점을 통과함) 회귀 방정식의 그래프이고, 2행은 자유 항이 있는(다음과 같습니다) 0 ), 3행 -
. 수평선 3은 훨씬 더 작은 제곱 편차의 합을 제공합니다. 이자형 라인 1보다, 따라서 후자의 경우 결정 계수가 아르 자형 2는 마이너스가 됩니다.

쌀. 4.3. 자유 항이 없는 선형 회귀 방정식의 선 y=f(x)(1)그리고 무료 회원과 함께(2)

자유도 수를 수정하면 항상 값이 감소합니다. 아르 자형 2 왜냐하면 (피- 1)>(p-t- 1). 결과적으로, 그 가치는 아르 자형 2도 음수가 될 수 있습니다. 그러나 이는 이번 조정 이전에는 0에 가까웠음을 의미하며, 회귀식으로 설명되는 종속변수의 분산 비율은 매우 작다는 것을 의미한다.

그래서따라서 결정계수의 다음 속성을 구별할 수 있습니다.

1. ; 정의에 따르면

2. =0; 이 경우 RSS = 0, 즉 회귀 분석은 설명하지 않으며 사소한 예측과 비교하여 아무것도 제공하지 않습니다. 데이터를 통해 우리는 y와 x가 독립적이라는 결론을 내릴 수 있습니다. 즉, x 변수의 변화는 y 변수의 평균값 변화에 어떤 식으로든 영향을 미치지 않습니다. 즉, 구성된 회귀선을 기준으로 상관 필드의 점 확산이 증가합니다(통계적 의존성이 매우 약하거나 회귀 방정식이 잘못 선택됨).

3. =1; 이 경우 모든 점()은 동일한 직선(ESS = 0)에 있습니다. 그런 다음 사용 가능한 데이터를 기반으로 변수 y와 x 사이에 함수적, 즉 선형 관계가 있다는 결론을 내릴 수 있습니다. y 변수의 변화는 x 변수의 변화로 완전히 설명됩니다. 쌍을 이루는 회귀선의 경우 결정 계수는 상관 계수의 제곱과 정확히 같습니다.

일반적으로 결정계수의 값은 요인들 사이에 관계가 있는지, 얼마나 가까운지를 나타내지는 않습니다. 이는 우리가 구축한 방정식의 품질에 대해서만 이야기합니다.

동일한 관측 데이터로부터 구성된 여러 다른 회귀 방정식에 대한 결정 계수를 비교하는 것이 편리합니다. 여러 방정식 중에서 결정계수가 큰 것이 더 좋습니다.

3. 조정된 결정계수

하나결정계수의 속성 중 하나는 모델에 포함된 요인 수의 감소하지 않는 함수라는 것입니다. 이는 결정의 정의에 따른 것입니다. 정말 평등하다

분자는 종속되지 않지만 분모는 모형의 요인 수에 따라 달라집니다. 따라서 모형의 독립변수 수가 증가하더라도 결정계수는 결코 감소하지 않습니다. 그런 다음 종속 변수는 동일하지만 요인 수가 다른 두 회귀 모델을 비교하면 다음과 같은 모델에서 더 높은 결정 계수를 얻을 수 있습니다. 큰 수요인. 따라서 모형에 포함된 요인의 개수를 고려하여 결정계수를 조정할 필요가 있다.

조정된(수정된 또는 추정된) 결정 계수는 다음과 같이 결정됩니다.

조정된 결정계수의 속성:

1. >1일 때 수정된 결정계수가 결정계수()보다 작다는 것을 쉽게 알 수 있습니다.

2. , 그러나 음수 값을 사용할 수 있습니다. 또한 조정된 값이 음수 값을 취하면 0()에 가까운 값을 취합니다.

따라서 조정된 결정 계수는 회귀 분석기 수가 증가함에 따라 R 2 의 증가와 관련된 효과를 제거하려는 시도입니다. - 독립변수의 수를 늘리면 "페널티"가 발생합니다.

공유하다