분포,모수,평균,분산 각 차이점에 대해 알아보자
분포distribution는 사물이 흩어진 모양 그 자체를 말한다.
사물들의 흩어진 모양을 관찰해 보니 흩어진 모양에도 일정한 패턴(반복되는 양상)이 있다는 것을 알아 내서
정규분포니, 포아송이니, 이항분포니 하는 이름을 붙인 것이다.
distribution 영어 자체에도 뭔지는 모르지만 그게 dis(2개), tri(3개)가 흩어진 이라는 의미가 있다.
모수parameter는 같은 종류의 분포라도 분포의 모양(곡선 모양)을 결정하는 상수이다.
같은 정규분포라도 모수 평균과 분산에 따라 모양이 바뀐다.
같은 균등분포라도 모수 시작a와 끝b에 따라 모양이 바뀐다.
같은 베타분포라도 모수 알파와 베타에 따라 모양이 바뀐다.
parameter 영어에도 para(주위)+meter(측정)=주위를 측정하다 라는 뜻이 있어서
분포의 모양을 "주위에서 측정하다"라는 의미가 있다.
평균mean은 사실 모수가 아니다. 분포의 대표값이다.
평균=모수로 혼용해서 쓰는 이유는 정규분포 때문이다.
정규분포에서만 모수=(평균,분산) 이다.
나머지 분포들은 모수와 (평균,분산) 따로따로 이다.
심지어 (평균,분산)이 없는 분포도 있다.
그래서 (평균,분산)은 모수가 절대 아니다.
혼용해도 별 문제가 없는 이유는 모수를 구하는 목적이 결국은 평균과 분산이기 때문이다.
평균은 분포를 대표하는 중심값이다.
중심값이 분포를 가장 잘 나타내는 대표값이기 때문이다.
대표값이란 어떤 집단의 특성을 가장 잘 나타내는 값으로
중심값이라는 개념이 대표값을 잘 나타내기 때문에 사용하는 것이다.
중심값에는 평균 말고도 중앙값, 최빈값이 있다.
최빈값도 대표값이 될 수 있다.
어떤 항아리에 흑,백 구슬이 있을 때, 가장 많은 색의 구슬(최빈 구슬)이 대표값이 되는 식이다.
분산은 평균을 중심으로 한 평균의 흩어진 산포값이다.
모집단이던 표본집단이던 "평균을" 중심으로 "평균"의 흩어진 정도를 나타낸다.
분산을 "데이터의 흩어짐=분포" 이라고 잘못 이해하고 있는 이유는,
"평균을 중심으로"라는 말이 시간이 지나면서 빠졌기 때문이다.
데이터가 "그냥 흩어져" 있는 것은 분포라는 개념이고
데이터가 "평균을 중심으로 흩어져"있는 것이 분산 개념이다.
일상과 주성분분석에서는 데이터가 흩어진 모양을 분산이라 함