결론적으로 포아송은 이항분포에 극한lim 을 취한 분포이다.
포아송분포가 나오게 된 계기는 케틀레이다.
케틀레는 살인.강도 같은 희귀한 사건의 분포의 대해 알고 싶어 했다.
그래야 예측을 해서 사회안정을 도모할 수 있기 때문이다(개인적으로 톰크루즈의 마이너리포트의 원조가 케틀레라고 본다)
케틀레는 포아송에게 이 문제를 문의했다. 그래서 포아송이 연구한 것이 포아송분포이다.
물론, 포아송도 마차 사고에 대해 연구하였다.
살인.강도가 왜 희귀한 사건이냐는 반문이 있겠으나 케틀레 시대 때는 통신이나 신문이 지금보다 덜 발달되었다는 점을 상기하자. 본인 주변에서 살인.강도를 본 적이 몇 번이나 있는가? 아마 거의 없을 것이다. 뉴스나 신문의 발달로 인해 지구 반대편 소식도 즉시 들려서 즉 뉴스 홍수 속에 살아서 강력범죄가 흔해 보이는 것일 뿐이다. 혹시나 본인 주변에 살인.강도가 자주 발생한다면 그건 통계로 해결될 문제가 아니어서 다른 방법을 찾아야 한다.
포아송분포의 대상은 확률은 낮지만 n이 많은 경우에 적용된다.
개인이 겪는 확률은 낮지만 사회전체인 n의 크기는 크므로 포아송 기법이 적용되게 된다.
사회전체의 n의 크기가 큰 것 하고 이항분포의 극한 하고는 같은 개념이다.
포아송분포가 이항분포의 극한이라고 하였는데
포아송분포의 아이디어는 이항분포의 어떤 한 구간에 하나의 사건만 오도록 구간n을 극한lim 으로 나누는 것이다.
그러면 n이 아주 많지만 어쨌든 이항분포가 된다.
n을 무한히 나누는 이유는 1/n 구간 하나에 성공과 실패 단 한 개의 결과만 모이게 하려는 의도이다.
그런데 n이 클 때의 계산은 nCr이 되고 이는 손으로 해결 불가능 하다.
지금에서야 엑셀이니 알이니 퐈이썬이니 하는 것이 있어서 쉽지만, 케틀레 시대에는 풀 수 없는 문제였다.
유도를 시작해 보자
이항분포는 이다.
이것의 극한 표시는 이다.
nCy를 풀면 이고
평균(또는 람다) = p*n 이므로 이다.
식을 정리하면,
A항 B항 C항
이 된다.
여기서 A항과 B항의 분모를 바꿀 수 있다.
그러면 A항은 가 되고
B항은 가 된다.
눈치 챗겠지만 포아송분포의 상수 부분이다.
C항은 두 부분으로 나눌 수 있다.
다시 정리하면
D항 E항 F항 G항
이 된다.
D항은 상수라서 LIM의 앞으로 빠질 수 있고
F항은 자연상수 가 되고
G항은 1이 되어 버린다.
남은 E항도 1이 되는데 그 과정은 다음과 같다.
을 분해하면 n^y개 만큼 분해가 될 수 있다.
하나하나 일일이 열거하면
이 된다.
n/n은 명백히 1 이다.
(n-1)/n도 언뜻 1로 보이나 무한 나누기 무한은 부정형이라 식을 다시 바꾼다.
(n-1)/n 은 n/n - 1/n 으로 나눌 수 있으므로
(n-1)/n 은 (1-1/n) 으로 바꿀 수 있다.
식을 다시 정리하면
은
이 된다.
이제 n을 극한으로 보내면
이 되어 E항은 몽땅 1이 된다.
그래서 최종적으로
D항 E항 F항 G항
은
D항 E항 F항 G항
이 된다.
위 식은가 되어서
이항분포의 극한은 포아송분포가 된다는 것이 유도 되었다.
포아송분포의 기원은 이항분포이다.
이항분포를 무한개의 n으로 나눈다는 아이디어가 핵심이다.
추신1)
그럼 이항분포와 포아송분포 문제를 어떻게 구분하는가?
답은 "구간의 개념이 들어 가면 포아송분포로 푼다" 이다.
구간이란 관측 크기의 제한을 말한다.
시간 당 얼마, 면적 당 얼마, n명 당 얼마 등에서 [시간, 면적, n명] 같은 것이 제한 또는 구간에 해당한다.
예를들면,
시간 당 터널 통과 차량 수
면적 당 묘목 수
30면 당 감염자 수
등이 있겠다.
추신2)
다음 주 로또 1등 당첨자 수를 포아송분포로 예측해 보자
요새는 로또 예상번호 무료로 받는곳도 있음
>>
https://myplan.blog/lotto
나도 여기서 예상번호 받아서 했는데
바로 3등 떠서ㄷㄷ 속는셈 치고 한번더 해볼라고함