원본질문 :
https://gall.dcinside.com/mgallery/board/view/?id=statistics&no=5809&page=1
Y_i = ?_0 + ?_1*X_i +ϵ_i 라는 선형회귀식에서 ?e_i*y_i = 0을 증명하는 문제인데요 이것저것해봐도 ?ϵ_i ^2으로 돌아오기만 하더라고요 혹시 풀이법을 알려주실 수 있으실까요 선생님들 ?
gall.dcinside.com
이 기호는 잔차값(e)과 예측값(Yhat)의 곱(내적)의 합은 0이 된다는 기호
잔차값은 측정값(실제값)에서 예측값을 뺀 결과
e를 대치하고 두 부분으로 나누면 우변이 나옴
모델이 잘 짜여졌으면 우변의 실제값(Y)와 예측값(Yhat)은 거의 같게 됨
그럼, 실제값 * 예측값 이나 예측값*예측값 이나 같게 됨
위 식을 다시 정리하면 아래와 같음
위 식에서 b항과 c항은 같다고 했으므로 a항은 0이 될 수 밖에 없음
그래서,
가 됨
내 생각에, a항이 "내적"식이고 그 결과가 0이라고 해서 "내적=0" 이면 "잔차와 예측값은 독립이고 선형적이다"라는 명제는 근거없이 너무 앞서나간 말로 보임
왜냐면, "잔차=실제값-예측값" 이라서 둘이 관련이 있을 수 밖에 없기 때문임, 다시 말해 독립적이라고 볼 수 없기 때문.
계산 과정 상 두 행렬의 곱의 합은 보통 "내적"이라고 부르는데 "내적"이라는 용어를 대체할 게 없어서 수학 용어를 그냥 가져다 쓴 것에 불과할 뿐 독립이니 선형관계니 하는 것 과는 사실 아무 상관 없는 것으로 보임.
그냥 곱의 제목을 따로 붙일 게 없어서 수학에서 사용하는 "내적" 용어를 가져다 쓴 것일 뿐임.
그냥 가져다 쓴 것인데 오해해서 "내적=0"이면 직교이고 직교는 독립이라고 너무 비약한 것으로 보임
대부분의 주장이, "모형이 잘 맞으면 예측값과 실제값의 차이가 적을 수 밖에 없고 이는 0에 가까운 값으로 나타날 수 밖에 없다"라고 하는데
잔차합이 0인 것과 모형의 적합도와는 무상관으로 보임
그냥 이론상 제시된 식이지
특별히 다른 어떤 것을 판단할 근거로 보이지는 않음
그 근거로, 아래 두 결과가 있음.
한 쪽은 이분산이 안 보이는데 다른 한쪽은 이분산이 보이고 있음 (이분산, 등분산 : 분산의 일정함)
내적값은 둘 다 0에 가까움
내적값으로 모형을 판단할 수 없다는 증거임
물론 세~네 번을 해 보니 모형이 잘 맞는 내적값은 지수가 e-08 이상으로 일견 보이기는 함
(외쪽 그림의 내적값이 e-30이 나온 경우도 있음, 이론상으로는 내적=0이어도 실제계산에서는 컴퓨터의 오차 등으로 e-08이 맞을지도 모름)
아저씨 선형대수학도 안배움?
그럼 니가 증명해 보아, 니가 증명하면 여기 갤 니꺼 ㅋㅋ