조건부확률 기호 표기는 이렇다.
P(A:B)
뒷부분 B는 조건부라고 쓰고 결과라고 읽는다. 앞 부분 A는 결과라고 쓰고 원인이라고 읽는다. 왜 그런지 급하면 이 글의 결론을 본다.
과정은 이렇다.
어떤 결과가 일어났을 때 원인은 얼마인가를 알아보는 것이 "조건부확률"이다. 그런데 세상의 현상은 시간의 순서를 모르는 경우가 태반이다. 가령, 외국인의 경우 머리카락 색에 따라 눈의 색이 결정되는 것 같지는 않다. 또한, 성별에 따라 안경을 더 쓰는 것 같지도 않다. 아이스크림 판매량이 늘었다고 살인이 늘어나는 것도 아닌 것 같다. 이렇게 시간순서를 모르는 경우 한 쪽을 "관찰" 했을 때 다른 쪽의 "발생" 확률을 알고 싶은 기법이 조건부확률이다.
여담으로, 조건부확률이 발전한 것이 베이즈확률인데 베이즈확률의 탄생 역사는 이렇다.
어느날 철학자 흄이 인간은 원인을 알 수 "없다"고 출판하여 유명해지는 사건이 있었다. 원인을 알 수 없다는 주장은 신이 없다고 돌려서 말한 것이다. 옛날에는 모든 원인을 신이라고 보았던 시대이다. 번개가 일어나는 것도 비가 오는 것도 생로병사도 모두 신의 계획이라서 신이 곧 원인이라는 믿음이 있던 시대였다. 그런데 흄이 인간은 원인을 알수없다 즉, 신이 존재하던 안하던 인간의 능력으로 그것을 증명할 수 없다고 하니 이는 종교에 대한 불신이나 부정으로 비췄을 것이다. 이에 발끈한 베이즈는 수도사이자 수학자로서 흄이 과학적으로 부정했으므로 자신도 과학적으로 신의 존재를 증명하고자 고민하였다. 그 결과 베이즈식이 나온 것이다.
베이즈는 신을 원인으로 보고 이 세상은 결과로 보아, 결과에서 원인을 계산할 수 있으면 흄이 주장한 인간은 원인을 알 수 없다는 주장을 반박할 수 있다고 보았다. 마치, 길을 걸어 가는데 뒤에서 빵빵 소리가 났을 때 사람들은 뒤를 돌아 보지도 않고도 뒤에 차가 오는 구나 예측할 수 있듯이 이 세상을 누군가 만들었기에 만든 사람 즉, 신이 있다는 것이 기본 논리이다. "이 세상을 누군가가 만들었다"는 가정은 고대 원시신앙 때 부터 자연스럽게 나온 것이라 옮고 그름의 문제가 아니라 인간지능 또는 인간이 세상을 인지하는 하나의 인지과정으로 보는게 타당하다. 가정의 옳고 그름을 따지기에는 여백이 너무 좁아 본 글에서는 생략한다.
다시 돌아와서, 두 변수가 시간 순서가 없어도 한쪽을 원인변수나 결과변수로 보고 다른 쪽 변수가 일어날 확률을 보는 것이 조건부확률이다. 전체 표본공간을 재설정한다는 개념도 틀린 것은 아니지만 여기서 그치면 개념이 꼬이기 시작한다. 본래의 용도는 결과에서 원인을 계산하려는 것이 조건부확률이다.
결론
중요한 것은 결과와 원인은 분석자가 정하기 나름이라는 유연한 사고이다.
조건부확률P(A:B) = P(A교B)/P(B)
베이즈확률P(A:B) = P(A)P(B:A)/P(B)
댓글 0