ESSAY

“100번의 시행으로 운과 실력을 구분할 수 있다는 착각.”

표본 크기 통계가 가르치는 가장 차가운 진실

Author: Dr. R

Thamizmanam Research Notes

표본 크기 통계는 학부 1학년 강의의 첫 챕터에 나옵니다. 그러나 이 단순한 개념을 진정으로 이해한 분석가는 많지 않습니다. 표본 크기 통계가 가르치는 가장 차가운 진실은 단순합니다. 한 사람의 100번의 결과로 그 사람의 진짜 실력을 안다고 믿는 것, 그것이 가장 흔한 오류입니다.

신뢰구간이라는 말의 무게

한 사람이 100번 시도해 60번 성공했다고 합시다. 직관적으로 그의 진짜 성공 확률은 60%로 보입니다. 그러나 통계학의 답은 다릅니다. 진짜 성공 확률은 약 50%~70% 사이의 어딘가이며, 95% 신뢰구간이 그 범위입니다.

이 범위가 의미하는 것은 단순합니다. 같은 사람이 다시 100번을 시도하면 결과가 50번에서 70번 사이의 어떤 숫자로 나올 가능성이 매우 높다는 것입니다. 표본 크기가 100이라는 것은 정확도의 한계가 명확히 정해져 있다는 의미입니다. 그 한계 안에서 60%를 60%라고 단정하는 것은 통계의 첫 원칙을 위반하는 일입니다.

큰 수의 법칙의 진짜 속도

큰 수의 법칙은 표본 평균이 진짜 평균에 수렴한다고 말합니다. 그러나 이 정리가 말하지 않는 것이 한 가지 있습니다. 수렴은 매우 느리다는 것.

중심극한정리는 평균의 표준오차가 σ/√N로 줄어든다고 말합니다. 표본이 4배 늘어나면 정확도는 2배만 높아집니다. 100배 늘어나야 10배 더 정확해집니다. 제곱근의 비율로 줄어드는 이 속도는 인간이 직관적으로 받아들이기 어려울 만큼 느립니다.

1% 우위를 가진 시스템에서 그 우위를 통계적으로 95% 신뢰도로 확인하려면 약 1만 회 이상의 시행이 필요합니다. 수백 번의 결과로는 어떤 결론도 잠정적이며, 수천 번의 결과로도 결론은 매우 약합니다. 이 사실이 표본 크기 통계의 가장 가혹한 가르침입니다.

“표본이 충분히 크지 않다면, 당신이 본 결과는 사실상 의견에 가깝습니다.”

두 가지 흔한 오해

첫 번째 오해는 단기 결과를 실력의 증거로 받아들이는 것입니다. 한 분석가가 첫 50번의 시도에서 70%의 적중률을 냈다고 합시다. 그를 천재라고 부르는 사람들이 등장합니다. 그러나 같은 사람이 다음 50번에서 40%의 적중률을 내는 일은 통계적으로 흔한 결과입니다. 진짜 실력이 50%인 사람도 95%의 확률로 첫 50번에서 36%~64%의 결과를 냅니다.

두 번째 오해는 단기 손실을 시스템 실패로 해석하는 것입니다. 진짜 우위를 가진 시스템도 표본이 작으면 음의 결과를 자주 냅니다. 우위가 5%인 시스템도 첫 100번에서 음의 결과로 끝날 확률이 약 30%입니다. 이 30%의 사례를 보고 시스템을 폐기하는 것은 표본 크기 통계의 함정에 빠진 것입니다.

💡 Field Note: 표본 크기 가이드라인

~100회. 사실상 어떤 결론도 내릴 수 없는 영역.
500회. 큰 효과 크기만 감지 가능. 미세한 우위는 보이지 않음.
1,000~5,000회. 중간 효과 크기 감지 가능. 신뢰구간이 의미 있게 좁아짐.
10,000회+. 작은 우위(1~2%)도 통계적으로 검증 가능한 영역.

왜 이 사실이 자주 무시되는가

표본 크기 통계가 자주 무시되는 이유는 인간의 인지 시스템 때문입니다. 진화는 우리에게 작은 표본에서 빠르게 결론을 내는 능력을 주었습니다. 사자가 한 번이라도 사람을 공격했다면 그 사실 하나로 사자를 위험으로 분류해야 했습니다. 표본 크기를 늘리며 신중하게 분석할 시간이 없었습니다.

그러나 현대의 의사결정 환경은 다릅니다. 빠른 직관이 아니라 느린 통계가 필요한 상황이 점점 더 많아졌습니다. 그리고 진화가 준 본능과 현대가 요구하는 통계 사이의 격차가 거의 모든 분석 오류의 출발점입니다.

실력을 가린 우연, 우연을 가린 실력

표본 크기 통계의 가장 잔혹한 함의는 단기적으로 실력과 운이 구분되지 않는다는 점입니다. 진짜 실력자가 운이 나빠 일시적으로 패배하는 일이 있고, 무능한 사람이 운이 좋아 일시적으로 승리하는 일이 있습니다. 외부에서 보면 두 사람이 같아 보입니다.

이 구분이 가능해지려면 표본이 충분히 커져야 합니다. 그 시점이 오기 전까지 어떤 평가도 잠정적입니다. 한 분야에서 진정한 실력자가 인정받는 데 보통 5~10년이 걸리는 이유가 여기에 있습니다. 충분한 표본을 모으는 데 그만큼의 시간이 필요하기 때문입니다.

분석가의 자세

표본 크기 통계를 진정으로 이해한 분석가는 두 가지를 항상 묻습니다. 이 결과의 신뢰구간은 얼마나 넓은가. 결론을 내리기에 표본이 충분한가. 두 질문에 답할 수 없다면 결론을 보류하는 것이 정직한 분석입니다.

이 자세가 단기 변동에 흔들리지 않는 평정의 출발점입니다. 데이터가 충분하지 않다면 결론도 잠정적이라는 사실, 그리고 충분한 데이터를 모으는 데에는 인내가 필요하다는 사실. 두 가지 모두 표본 크기 통계가 가르치는 가장 본질적인 교훈입니다.