용어
적합 : (맞을 적, 합할 합), 어떤 두 개를 서로 겹쳐서(합) 맞는지(적) 보는 과정이다.
두 개 중 하나는 데이터 x1,x2,... 이고 다른 하나는 히스토그램이나 정규분포 또는 가설이다. 주로 정규분포나 히스토그램이다.
예를 들면, "1 2 3 4 를 정규분포에 적합하라"라는 지시는 데이터가 정규분포에 맞는지(적) 히스토그램으로 겹쳐(합) 보라는 말이다.
"데이터를 적합하라"라는 지시는 데이터가 연구자 주장인 대립가설에 맞는지 이런저런(히스토그램이던 가설검정이던) 방법으로 알아 보라는 지시이다.
약자 표기
y^ = y의 추정치(y햇이라고 읽음)
x^ = x의 추정치(x햇이라고 읽음)
yy = y^2
xx = x^2
xy = x*y
Σ = 총합
Σxy = x*y의 총합
본론
컴퓨터의 발전으로 회귀분석 정도는 발꼬락으로 하는 시대이다
다른 말로 회귀분석의 내부 계산 과정에 대해서는 잘 모르게 되었다
응용만 한다면 엄청난 행복이나 학습하는 사람 입장에서는 불행이다
그래서 계산 연습을 한번 정도는 해봐야 좋다
데이터가 x=c(1,2,3,4), y=c(1,4,5,9)라고 하자
여기서 정규방정식의 연립방정식을 짜낼 줄 알아야 한다.
그러려면 Σx, Σy, Σxy, Σxx, Σyy을 먼저 계산해 놓아야 편하다
(Σyy까지 구하는 이유는 나중에 설명)
여기서 의문이 생기는데 왜 가만히 있는 x,y를 곱하고 제곱하는가?
그것은 숫자에 변화를 주면 차이가 발생하고 그 차이를 이용하면 방정식의 해를 구할 수 있기 때문으로 보인다(추정)
마치, 석유에 "가열"이라는 변화를 주면 온도에 의해 휘발유나 경유로 분리 될 수 있고, 원심분리기로 "변화"를 주면 가만히 있던 혈액이 분리되는 원리와 비슷하다.
그리고 아래 두 공식에 대입해서 연립방정식을 푼다
Σy = na + Σx b
Σxy = Σx a + Σxx b
위 두 공식은 y=a+bX에서 a, b를 구하려는 목적이다
위 x=c(1,2,3,4), y=c(1,4,5,9) 에서 Σx, Σy, Σxy, Σxx, Σyy는 각각 10, 19, 60, 30, 123 이다
공식에 대입하면
19=4a+10b
60=10a+30b
두 연립방정식을 풀면
a=-1.5, b=2.5가 나온다. 그래서 y^ = -1.5+2.5X 가 된다.
여기까지가 회귀직선을 연립방정식으로 미분없이 구하는 방법이고 끝이다.
끝
그런데, 이 글의 목적은 회귀기법에서 한번 더 나아가려 하는 것이다
그러니까 상관계수와 두 회귀직선의 각도가 서로 관계가 있다는 것을 보이려고 하는 것이다.
(위 두 자료의 상관계수는 0.97로 매우 상관이 큼)
일단, 회귀직선을 하나 더 만들어야 한다.
미리 결론을 말하면, 두 회귀직선이 직각으로 교차하면 상관계수는 0 이고,
비스듬하게 교차하면 상관계수도 두 선의 각도에 따라 변하게 된다.
두 각도가 점점 좁혀져서 완전히 일치하면 상관계수는 +1 또는 -1이 된다.
+1과 -1의 차이는 우상향으로 겹치느냐 우하향으로 겹치느냐 차이 이다.
하여튼,
첫 번째 회귀직선 y^ = -1.5+2.5X는 이미 작성했는데
두 번째 회귀직선 x^ = a + bY를 만드는 방법은 다음과 같다.
처음 공식의 x와 y위치를 바꾼다.
Σy = na + Σx b
Σxy = Σx a + Σxx b
을
Σx = na + Σy b
Σxy = Σy a + Σyy b
으로 바꾼다.
a,b가 혼동이 되므로 두 번째 회귀식은 A,B로 하기로 한다.
Σx = nA + Σy B
Σxy = Σy A + Σyy B
이렇게 바꾼다.
위 공식에 Σx, Σy, Σxy, Σxx, Σyy = 10, 19, 60, 30, 123 를 대입한다.
그러면,
10 = 4A + 19 B
60 = 19 A + 123 B
가 나온다.
Σyy를 구한 이유가 x^ = A+BY를 구하려는 것이었다.
위 연립을 풀면
A=0.687, B=0.381 이 되어서 x^ = 0.687 + 0.381Y가 된다.
마지막으로 x^ = 0.687 + 0.381Y를 Y에 관해 일관되게 해야 하므로 식을 변형한다.
그러면 y^=-1.803+2.624X 가 된다.
위 두 식,
y^ = -1.5+2.5X
y^=-1.803+2.624X
를 적당한 그래프 그리기 프로그램으로 나타내면
아래처럼 상관계수가 높으면 두 직선의 각도가 작다는 것을 볼 수 있다
그림에서 우상향이기 때문에 상관계수가 양수 0.97이 된 것 이다.
겹치는 모양이 우하향이면 음수가 된다.
참고로 위 두 직선의 각도를 정확히 계산하련
엑셀에서 DEGREES(ATAN(두 기울기의 차이)) 공식을 사용하면 된다.
두 기울기의 차이는 X에 붙은 계수이므로,
2.624-2.5=0.124가 되고
DEGREES(ATAN(0.124)) = 7도 정도 나온다.
즉, 두 상관계수 0.97은 약 7도의 가까운 거리라는 기하학적 해석이다.
경제수학입문, 틴트너, 일조각, 1979, 238쪽 문제 10 시차회귀는 같은 책 254쪽