원본질문 :

https://gall.dcinside.com/mgallery/board/view/?id=statistics&no=5809&page=1

회귀 기본 문제 질문좀 드리겠습니다. 선생님들 - 통계 마이너 갤러리

Y_i = ?_0 + ?_1*X_i +ϵ_i 라는 선형회귀식에서 ?e_i*y_i = 0을 증명하는 문제인데요 이것저것해봐도 ?ϵ_i ^2으로 돌아오기만 하더라고요 혹시 풀이법을 알려주실 수 있으실까요 선생님들 ?

gall.dcinside.com



a04424ad2c06782ab47e5a67ee91766dc28ff1ecdaacc4cfbf11d5c65cd1d321376296d41aba71bfdebcc4bf41

이 기호는 잔차값(e)과 예측값(Yhat)의 곱(내적)의 합은 0이 된다는 기호


a04424ad2c06782ab47e5a67ee91766dc28ff1ecdaacc4cfbf11d5c65fd2d621fa1a37b6a31f3c71042b0075e1

잔차값은 측정값(실제값)에서 예측값을 뺀 결과



a04424ad2c06782ab47e5a67ee91766dc28ff1ecdaacc4cfbf11d5c65fd5d0212b39dede04a73b70d480010094

e를 대치하고 두 부분으로 나누면 우변이 나옴

모델이 잘 짜여졌으면 우변의 실제값(Y)와 예측값(Yhat)은 거의 같게 됨

그럼, 실제값 * 예측값 이나 예측값*예측값 이나 같게 됨

위 식을 다시 정리하면 아래와 같음


a04424ad2c06782ab47e5a67ee91766dc28ff1ecdaacc4cfbf11d4c35ed5d221687655aebf49109531913612b4

위 식에서 b항과 c항은 같다고 했으므로 a항은 0이 될 수 밖에 없음

그래서,


a04424ad2c06782ab47e5a67ee91766dc28ff1ecdaacc4cfbf11d5c65cd1d321376296d41aba71bfdebcc4bf41

가 됨


내 생각에, a항이 "내적"식이고 그 결과가 0이라고 해서 "내적=0" 이면 "잔차와 예측값은 독립이고 선형적이다"라는 명제는 근거없이 너무 앞서나간 말로 보임

왜냐면, "잔차=실제값-예측값" 이라서 둘이 관련이 있을 수 밖에 없기 때문임, 다시 말해 독립적이라고 볼 수 없기 때문.


계산 과정 상 두 행렬의 곱의 합은 보통 "내적"이라고 부르는데 "내적"이라는 용어를 대체할 게 없어서 수학 용어를 그냥 가져다 쓴 것에 불과할 뿐 독립이니 선형관계니 하는 것 과는 사실 아무 상관 없는 것으로 보임.

그냥 곱의 제목을 따로 붙일 게 없어서 수학에서 사용하는 "내적" 용어를 가져다 쓴 것일 뿐임.

그냥 가져다 쓴 것인데 오해해서 "내적=0"이면 직교이고 직교는 독립이라고 너무 비약한 것으로 보임


대부분의 주장이, "모형이 잘 맞으면 예측값과 실제값의 차이가 적을 수 밖에 없고 이는 0에 가까운 값으로 나타날 수 밖에 없다"라고 하는데

잔차합이 0인 것과 모형의 적합도와는 무상관으로 보임

그냥 이론상 제시된 식이지

특별히 다른 어떤 것을 판단할 근거로 보이지는 않음


그 근거로, 아래 두 결과가 있음.

한 쪽은 이분산이 안 보이는데 다른 한쪽은 이분산이 보이고 있음 (이분산, 등분산 : 분산의 일정함)

내적값은 둘 다 0에 가까움

내적값으로 모형을 판단할 수 없다는 증거임


물론 세~네 번을 해 보니 모형이 잘 맞는 내적값은 지수가 e-08 이상으로 일견 보이기는 함

(외쪽 그림의 내적값이 e-30이 나온 경우도 있음, 이론상으로는 내적=0이어도 실제계산에서는 컴퓨터의 오차 등으로 e-08이 맞을지도 모름)



a04424ad2c06782ab47e5a67ee91766dc28ff1ecdaacc4cebf10dbc259d5de21bed35979ecb16f8861e19473441f