용어


적합 : (맞을 적, 합할 합), 어떤 두 개를 서로 겹쳐서(합) 맞는지(적) 보는 과정이다.

두 개 중 하나는 데이터 x1,x2,... 이고 다른 하나는 히스토그램이나 정규분포 또는 가설이다. 주로 정규분포나 히스토그램이다.

예를 들면, "1 2 3 4 를 정규분포에 적합하라"라는 지시는 데이터가 정규분포에 맞는지(적) 히스토그램으로 겹쳐(합) 보라는 말이다.

"데이터를 적합하라"라는 지시는 데이터가 연구자 주장인 대립가설에 맞는지 이런저런(히스토그램이던 가설검정이던) 방법으로 알아 보라는 지시이다.



약자 표기


y^ = y의 추정치(y햇이라고 읽음)

x^ = x의 추정치(x햇이라고 읽음)

yy = y^2

xx = x^2

xy = x*y

Σ = 총합

Σxy = x*y의 총합



본론


컴퓨터의 발전으로 회귀분석 정도는 발꼬락으로 하는 시대이다

다른 말로 회귀분석의 내부 계산 과정에 대해서는 잘 모르게 되었다

응용만 한다면 엄청난 행복이나 학습하는 사람 입장에서는 불행이다

그래서 계산 연습을 한번 정도는 해봐야 좋다


데이터가 x=c(1,2,3,4), y=c(1,4,5,9)라고 하자

여기서 정규방정식의 연립방정식을 짜낼 줄 알아야 한다.

그러려면 Σx, Σy, Σxy, Σxx, Σyy을 먼저 계산해 놓아야 편하다

(Σyy까지 구하는 이유는 나중에 설명)


여기서 의문이 생기는데 왜 가만히 있는 x,y를 곱하고 제곱하는가?

그것은 숫자에 변화를 주면 차이가 발생하고 그 차이를 이용하면 방정식의 해를 구할 수 있기 때문으로 보인다(추정)

마치, 석유에 "가열"이라는 변화를 주면 온도에 의해 휘발유나 경유로 분리 될 수 있고, 원심분리기로 "변화"를 주면 가만히 있던 혈액이 분리되는 원리와 비슷하다.


그리고 아래 두 공식에 대입해서 연립방정식을 푼다

Σy = na + Σx b

Σxy = Σx a + Σxx b

위 두 공식은 y=a+bX에서 a, b를 구하려는 목적이다


위 x=c(1,2,3,4), y=c(1,4,5,9) 에서 Σx, Σy, Σxy, Σxx, Σyy는 각각 10, 19, 60, 30, 123 이다

공식에 대입하면

19=4a+10b

60=10a+30b

두 연립방정식을 풀면


a=-1.5, b=2.5가 나온다. 그래서 y^ = -1.5+2.5X 가 된다.


여기까지가 회귀직선을 연립방정식으로 미분없이 구하는 방법이고 끝이다.





그런데, 이 글의 목적은 회귀기법에서 한번 더 나아가려 하는 것이다

그러니까 상관계수와 두 회귀직선의 각도가 서로 관계가 있다는 것을 보이려고 하는 것이다.

(위 두 자료의 상관계수는 0.97로 매우 상관이 큼)


일단, 회귀직선을 하나 더 만들어야 한다.

미리 결론을 말하면, 두 회귀직선이 직각으로 교차하면 상관계수는 0 이고,

비스듬하게 교차하면 상관계수도 두 선의 각도에 따라 변하게 된다.

두 각도가 점점 좁혀져서 완전히 일치하면 상관계수는 +1 또는 -1이 된다.

+1과 -1의 차이는 우상향으로 겹치느냐 우하향으로 겹치느냐 차이 이다.


하여튼,

첫 번째 회귀직선 y^ = -1.5+2.5X는 이미 작성했는데

두 번째 회귀직선 x^ = a + bY를 만드는 방법은 다음과 같다.


처음 공식의 x와 y위치를 바꾼다.

Σy = na + Σx b

Σxy = Σx a + Σxx b

Σx = na + Σy b

Σxy = Σy a + Σyy b

으로 바꾼다.


a,b가 혼동이 되므로 두 번째 회귀식은 A,B로 하기로 한다.

Σx = nA + Σy B

Σxy = Σy A + Σyy B

이렇게 바꾼다.


위 공식에 Σx, Σy, Σxy, Σxx, Σyy = 10, 19, 60, 30, 123 를 대입한다.

그러면,

10 = 4A + 19 B

60 = 19 A + 123 B

가 나온다.

Σyy를 구한 이유가 x^ = A+BY를 구하려는 것이었다.


위 연립을 풀면

A=0.687, B=0.381 이 되어서 x^ = 0.687 + 0.381Y가 된다.

마지막으로 x^ = 0.687 + 0.381Y를 Y에 관해 일관되게 해야 하므로 식을 변형한다.

그러면 y^=-1.803+2.624X 가 된다.


위 두 식,

y^ = -1.5+2.5X

y^=-1.803+2.624X

를 적당한 그래프 그리기 프로그램으로 나타내면

아래처럼 상관계수가 높으면 두 직선의 각도가 작다는 것을 볼 수 있다


그림에서 우상향이기 때문에 상관계수가 양수 0.97이 된 것 이다.

겹치는 모양이 우하향이면 음수가 된다.



a04424ad2c06782ab47e5a67ee91766dc28ff1ecd7acc4c0bf10d4c35cd5d121d47699d895c2e9d11a7da5756687



참고로 위 두 직선의 각도를 정확히 계산하련

엑셀에서 DEGREES(ATAN(두 기울기의 차이)) 공식을 사용하면 된다.

두 기울기의 차이는 X에 붙은 계수이므로,

2.624-2.5=0.124가 되고

DEGREES(ATAN(0.124)) = 7도 정도 나온다.

즉, 두 상관계수 0.97은 약 7도의 가까운 거리라는 기하학적 해석이다.