223.62가 자꾸 이해를 못 해서 날밤새면서 친절히 답변 작성함
223.131 주장 : 표본의 표준편차가 모집단 데이터의 산포냐? 라고 질문함
58.238 반박 : 랜덤하게 뽑았으면 모집단 산포의 추정치 역할을 충실히 할 것이고, 아니면 못하겠지.
이 질문 통과한 놈이 없다? 네가 가정 니 ㅈ대로 주무르면서 말 바꿨겠지.
그게 아니면 "표본" 표준편차라 모집단의 산포자체를 의미하는 건 아니라고 말장난하려나? .... A
------------
정답
58.238의 답변은 틀렸음
계속 떡밥으로 써 먹어야 하기 때문에 정답은 안 갈켜줄 거임, 꼬우면 도서관 가서 책 30권 뒤지던가
2020년 부터 4년 씩이나 시간을 줬는데도 아직도 못 푸냐? 게으른거임? 아니면 머가리가 유전탓임?
정확한 정답을 못 맞추니 95% 확률로 스리살짝 후보 답변(A)을 적는 사악함은 부모 탓?
-------------
223.131 주장 : 표본이 정규분포를 따른다 = 표본 평균이 정규분포를 따른다
58.238 반박 : 이거 기초 통계 수업만 들었어도 모집단이 정규분포를 따르지 않는 이상 표본이 정규분포를 따른다고 할 수 없다고 배울텐데...
아 못배웠지 참.
-----------
정답
모집단이 정규분포를 따르지 않아도 측정값은 정규분포가 됨
모집단이 포아송이던 이항이던 균일이던 상관없이 표본을 추출하면 측정값의 오차는 정규분포가 됨
못 배웠다고 우기면 안 됌
못 믿겠으면 주사위 던져서 2개씩 표본 뽑은 거 그래프 그려보셈
------------
223.131 주장 : (측정된) 많은 사회 현상이 정규 분포를 따른다
58.238 반박 : 아니 근데 (많은 사회가) 정규 분포따른다면서 밑에 포아송이나 지수는 왜 나오냐?
-----------
정답
(측정된)이라는 말을 빼먹어서 못 알아들은 듯
모집단에 상관없이 모든 측정된 값의 "오차"는 정규분포임
포아송은 오차를 측정한 게 아니라 "빈도"를 측정한 것
두 분포는 다름
각 분포가 어떤 데이터(빈도수인지 측정량인지)를 다루는지 정도는 알고 덤볐으면 함
-----------
223.131 주장 : 있느냐 없느냐일때(1회)의 확률변수의 분포 -> 베르누이 분포, 나올 수 있는 결과값이 성공이나 실패 두 가지 일 때 성공이 나오는 개수 -> 이항 분포.
58.238 비난 : 솔직히 여기서부터 글 쓰는 거에 슬슬 회의감을 느끼긴 했다. 어차피 말해도 못알아듣고 지 말 우길것 같아서.
--------------
정답
58.238이 반박을 못하고 있음
이것은 본인도 모르니 일단 상대는 틀렸다는 허수아비 때리기 전략 구사임
공들여 답변을 가치조차 없음
--------------
223.131 주장 : 참값 자체는 결코 없음, 그래서 모수 개념이 나왔음, 모수=참값의 화신
58.238 비난 : 이건 통계학 근간부터 ㅈ으로 보는 발언이라 말을 안할수가 없다.
--------------
정답
모집단을 대표하는 값이 모수라고 다들 알고 있고 그러니까 모수가 참값이는 논리 같은데
대표 역할만 하라고 인간이 만든 개념이지 모수가 모집단의 진짜 참값이 아님
"뭔지는 모르지만" 참값이 "있다면" 이럴 것이다 라고 가정하고 모수라는 개념을 내세운 거임
모수 중 하나라고 알고 있는 모평균만 해도 결코 참값 즉 진짜값이 아님
가상의 값이지 실제값이 아님
가령, 어떤 매장에 한 시간 평균 3.5명이 방문한 게 어떻게 가능함?
0.5명인 사람은 팔 다리가 하나씩만 있나?(장애인 비하 아님)
3명 아니면 4명이지 3.5명은 존재할 수가 없음
그래서 평균은 참값 즉 실제값이 아니고 그냥 가상값인 거임
[중심위치]를 나타내는 대표역할을 하기만 하는 가상값임
그리고, 참값이 있느냐 없느냐는 내가 생각한 게 아니고 100년 전에 피어슨이나 피셔, 그들의 제자들 때 이미 생각해 낸 개념임
나를 모욕하는 건 괜찮으나 피어슨이나 피셔를 모욕하는 건 통계를 배우는 학생입장에서 선을 넘는 행동이지?
그 분들이 "참값은 결코 알 수 없다. 참값이 있는지 조차 불분명하다"라고 일갈했음
영어 해독 가능하면 원서 보기 바람, 내 말이 고짓말인가
58.238 본인도 본인 글에 참값을 알 수 없다는 점을 스스로 인정하고 있음
본인도 "통계의 시작은 이 '모집단' 전체를 전수 조사하는게 현실적으로 불가능하니까"라고 함
조사가 불가능한데 어떻게 참값이 "있다없다"고 단정할 수 있음?
한편, 분포의 측도는 크게 세 가지인데 분포를 한 번에 파악하려는 용도로 세 가지 측도를 개발함
[중심] 위치를 파악하려고 산술평균,중앙,최빈을 만들었음, 기하평균과 조화평균도 중심 위치를 측정하는 측도
[퍼짐] 경향을 파악하려고 분산을 만들었음
[상대위치]를 파악하려고 10분위수를 만들었음
10분위수의 상위 10%와 하위 10%를 보면 한 분포 안이라도 서로 비교 가능
지니계수 같은 곳에 사용됨
단, 같은 분위수 인데도 [사분위수]는 [상대위치] 파악 용도 보다는 50%의 [퍼짐] 경향 파악 용도가 강함
--------------
223.131 주장 : 위 이어서 참값은 없다는 주장에 대해
58.238 비난 : 빈도주의 vs 베이지안은 모수가 상수냐 아니면 확률 변수냐로 싸우지 (참값이) 아예 없다고는 둘다 안해 이 빡대가리야.
-------
정답
원래 빡대가리 눈에는 빡대가리만 보이는 법
빡대가리를 위해서 찬찬히 설명하니 귓구멍 뚫고 잘 BOA
빈도주의에서 말하는 신뢰구간은 100명의 학생 중 95명이 "참값이라고 간주한 값(가령 지구중력상수 9.8)"을 포함한 구간을 교수님께 제출하는 거고
5명은 "참값이라고 간주한 값(가령 지구중력상수 9.8)"을 포함하지 못한 구간을 제출하는 건데
95명이 성실해서 중력상수 9.8이 포함된 것도 아니고
5명이 불성실해서 9.8이 못 포함된 것도 아님
우연에 의해서 9.8상수가 95명에게 포함된 것일 뿐임
95명이 제출한 신뢰구간 중 실험이 불성실하면 5~15 가 나올 수도 있음
(신뢰구간 범위가 넓어도 운좋게도 포함되어서 95%가 된 것일 뿐)
5명이 제출한 신뢰구간 중 실험이 착실해도 범위가 9.9~10이 나올 수도 있음
(신뢰구간 범위가 좁아서 훌룡한 실험이나 안타까운 상황)
즉, 95% 5%는 성실 불성실의 문제가 아니라 우연의 문제 임
한편,
"우연"이 발생하는 원리는 [플랑크상수 = 속도*위치]라는 물리법칙 때문에 결코 줄일 수 없음
미래에 아무리 초고해상도 측정장치가 나와도 위 물리법칙때문에 우연을 결코 없엘 수 없음
[플랑크상수 = 속도*위치] 식을 바꾸면 -> [플랑크상수/위치 = 속도]가 되는데
식을 잘 보면 [위치]가 정밀하면 할수록 [속도]의 값은 커짐
식에 따르면 측정장치가 정밀하면 할수록 오차는 더 커지는 역설이 발생되어서 "우연"은 영원한 숙제가 됨
물론, 모르지 미래 물리학에는 플랑크상수 따위는 없다고 할지도, 한 1천 년 걸릴 듯
1천 년 후 그 때 까지 통계학 개론이나 깨우치기 바람
이어서,
베이지안에서 말하는 신용구간은 상수의 범위가 95%인데, 참값을 모르니 95%라는 범위가 나온거겠지?
참값이 여러 개이면 그게 참값임?
주사위 여러 번 굴렸을 때, 여러 번 나온 1도 참값이고 여러 번 나온 6도 참값이 됨?
참값은 하나인데 그걸 모르니 95%가 나온 것
58.238은 논리적 자가당착에 빠짐
-------
223.131 주장 : 신뢰구간, 신용구간(베이즈), 카이제곱, F분포값, Z분포값 등등 하여튼 숫자로 모집단을 설명하면 다 모수임
58.238 반박: 신뢰구간 (등등)이 통계량 가지고 모수 추정하는 건데
---------
정답
모수라고 알고있는 평균값,중앙값,최빈수는 모두 인간이 인위적으로 만든 개념임
인류가 탄생했을 때 부터 생긴 개념이 아님
평균 개념만 해도 이 개념이 나온 지 400년도 안됨, 당시 평균이 공문서에 등장했을 때 평균이 모집단 참값이면 모든 삼각형은 같은가? 라고 반발한 적도 있었음
평균같은 대표값들은 인간이 모집단을 요약하려고 만든 요약된 값일 뿐임
신뢰구간도 인간이 만든 개념인데 왜 신뢰구간을 모수라고 인정 못 하는지 내가 다 답답
아직 통계학책 30권을 읽지 못했으니 내가 그러려니 이해 하갔음
공인된 중력상수 9.8이라도 실제 사는 곳 위치에 따라 다르다고 함
당연히 지구중력 가속는 9.8이 참값이 아님, 그래서 95% 범위로 모수가 9일 수도 11일 수도 있음
따라서 신뢰구간도 모수라는 결론이 나옴
이해도가 낮으면 겸손이라고 하기를 바람
---------
223.131 주장 : 엄밀히는 측정방식이 정규분포를 따름
58.238 우기기 : 오차를 내포하면 분포를 따르는게 아니라 분포를 따른다고 가정하고 모델이 설명하지 못하는 오차를 측정하는 거고
--------
정답
58.238는 정규분포와 회귀분석(근거:설명하지 못하는 오차)을 착각하여 섞어서 말하고 있음, 아마, 본인이 무슨 말을 하는지도 모를 듯
1년 후에 이 글을 보고 이불 박차고 있을 듯
위에서도 설명했지만 "분포를 따른다고 가정하는 게" 아니라, 오차분포 자체가 정규분포라고 씹새끼야
--------
https://m.dcinside.com/board/statistics/3580?headid=&recommend=&s_type=subject_m&serval=223.131
신뢰구간, 신용구간(베이즈), 카이제곱, F분포값, Z분포값 등등 하여튼 숫자로 모집단을 설명하면 다 모수임 -> 이부분이 이해가 잘 안되는데 추가 설명가능하신가요? 모집단의 평균, 중앙값, 분산 처럼, 모집단 전체로부터 계산된 신뢰구간, 신용구간, 카이제곱 값 등등을 얘기하는 건가요?
모수란 "모집단 수량화" 준말, 수량화란 질을 숫자로 바꾼 것을 말함, 평균값도 모집단의 "중심"이라는 질을 숫자(즉 수랑화)로 나타낸 것임, 표본에서 나온 평균값을 모수로 추정하듯이 표본에서 나온 신뢰구간도 모수의 범위가 될 수 있음
현재까지는 모수(모집단 수량화된 값)가 평균, 중앙값, 사분위수 등등 많지만 앞으로는 BMI 지수처럼 단 한 개의 개념으로 모집단을 수량화 할수도 있다고 봄
표본에서 나온 신뢰구간으로 모수를 추정한 다는 말씀인가요? 아니면 표본에서 나온 신뢰구간이 모평균 같은 모수로 취급될수 있다는 말씀인가요?
둘 다
추정이나 취급이나 같은 말 같음
중요한 것은 모수가 왜 모수냐는 것 모수(모집단 수량화) 개념이 나온 이유는 수많은 각각의 표본들을 일일이 말하기 번거로워서 나온 개념 그래서 대표값이 나옴 그런데 대표값은 참값이 아님 참값은 모름 참값을 알 수 있는 방법도 없음 만약, 참값을 알 수 있는 방법이 있다면 통계 뿐 아니라, 정치 경제 사회 문화 물리 천문 등 모든 학문이 무너짐
참값을 알 수 없기 때문에 통계학이 생긴거라고 들었습니다. 대표값과 참값의 관계에 대해서는 사람들마다 의견이 갈릴 수는 있겠네요. 모집단을 어떻게 정의하느냐에 따라, 실제로 대표값이 참값이 같을 수 있는가? 수학적인 가정된 시나리오에서만 되고 현실문제에서는 안되는 것 아니냐? 등등 문제를 어떻게 설정하고 어떤 관점으로 바라보느냐에 따라 갈릴 수 있는 문제 같습니다. 저는 통계학을 조금 아는 정도라 어떤게 정답이라고 판단내리긴 어렵네요.
못 믿겠으면 주사위 던져서 2개씩 표본 뽑은 거 그래프 그려보셈 -> 이것은 sample size=2인 표본의 표본 평균을 여러번 simulation해서 표본평균의 분포를 보라는 얘기인가요?
주사위 던져 보라는 취지는, 주사위 각 눈의 확률은 1/6이므로 명백히 균등분포임, 그런데 2 개씩 뽑아서 즉 (1,2), (1,3)...(5,6) 식으로 15개를 뽑아서 각각의 15개의 평균값을 그래프로 그리면 정규곡선으로 나타남, 이렇게 하라는 이유는 58새끼가 하두 정규분포는 정규분포에서만 나온다고 우겨대서 나온 말임
여러 번 시물레이션 하는 게 아님, 시물레이션이란 랜덤을 말 하는데 시뮬이 아니라 6C2를 말 함, 시물레이션의 랜덤으로 뽑으면 중복이 나타나서 의미가 없음, nCr 로 중복없이 빠짐없이
중심극한정리 말씀하시는것 같네요. 이산형 분포의 표본평균도 충분한 표본크기 하에서는 정규분포에 근사하다는 점에서 동의합니다.
그럼 정규분포는 "오차"분포라는 내 주장이 입증된거 맞지?
정규분포가 오차 분포라는 주장에 대해서는 토론의 전문을 본게 아니라서 어떤 맥락에서 나온 말인지 확실하지는 않네요. 많은 통계적 방법론에서 측정오차 (measurement error)를 정규분포로 설정하는 것이 흔한데, 이런 맥락에서 말씀하신거면 동의할 수 있겠네요. 아니면 오차가 sampling error를 얘기하는 것일 수도 있는데요. 이 경우에도 흔히 정규분포로 놓고 하긴하죠. 회귀분석이나 ANOVA, t검정 에서도 sampling error+measurement error + 기타 error 다합쳐서 e_i에 놓고 정규분포 가정을 하니까요. 마지막 경우로, 표본평균의 확률분포에 있는 변동을 오차라고 말씀하신거면 중심극한정리를 이용하면 정규분포에 근사되긴합니다.
시간내서 답변해주셔서 감사합니다. 흥미로운 주제네요.
내가 맞어? 58.238이 맞어? 누구 편이야?
제가 누가 맞다 판단할 수 있는 주제는 아닌 것 같네요. 다만 몇몇 주제에서 님의 생각에 동의되는 부분이 있습니다. 여러 사람들이 토의해볼만한 흥미로운 주제인 것 같습니다.
무슨 답변이 쳇GPT 같노
코파일럿도 223.131이 맞다고 인정함 이 대화에서는 223.131의 주장이 더 정확한 것으로 보입니다. 통계학에서는 표본의 표준편차가 모집단의 산포를 추정하는 역할을 합니다. 또한, 표본이 정규분포를 따르는지 여부는 모집단의 분포와는 별개로, 표본의 크기가 충분히 크면 중심극한정리에 따라 표본평균은 정규분포를 따르게 됩니다.