“왜 인간은 무작위를 견디지 못하는가?”
패턴 인식의 진화적 기원과 그 함정
Author: Dr. R
Thamizmanam Research Notes
진화가 만든 패턴 인식 기계
인간의 뇌는 패턴을 발견하도록 진화했습니다. 사바나에서 풀잎이 흔들리는 것을 보고 그것이 바람인지 사자인지를 빠르게 판단해야 했던 조상들의 후손이기 때문입니다. 패턴을 놓치는 비용은 죽음이었고, 잘못된 패턴을 보는 비용은 약간의 에너지 낭비였습니다. 두 비용의 비대칭이 패턴을 과잉 인식하는 뇌를 만들었습니다.
이를 진화심리학에서는 1형 오류와 2형 오류의 비대칭이라 부릅니다. 1형 오류는 패턴이 없는데 있다고 보는 것, 2형 오류는 패턴이 있는데 없다고 보는 것입니다. 사바나에서 2형 오류는 치명적이었고 1형 오류는 무해했기에, 우리 뇌는 1형 오류 쪽으로 강하게 편향되어 있습니다.
클러스터 환상
패턴 인식의 가장 흔한 함정은 클러스터 환상(clustering illusion)입니다. 무작위로 생성된 데이터에서도 우연히 비슷한 결과가 연속으로 나오는 구간이 자주 있습니다. 100번의 동전 던지기에서 7번 연속 같은 면이 나올 확률은 약 32%입니다. 직관적으로 매우 드문 사건처럼 느껴지지만 통계적으로는 흔합니다.
이 클러스터를 보고 사람들은 “패턴이 있다”고 결론짓습니다. 그러나 진짜 무작위 데이터에서 클러스터의 부재가 오히려 비정상입니다. 우리 뇌가 무작위라고 받아들이는 데이터는 사실 너무 균질해서 통계적으로 무작위가 아닙니다.
“인간이 무작위라고 느끼는 데이터는 진짜 무작위가 아닙니다. 그것은 너무 정돈된 가짜입니다.”
핫 핸드 가설의 운명
1985년 토머스 길로비치, 로버트 발론, 아모스 트버스키가 발표한 한 논문이 스포츠 분석을 흔들었습니다. NBA 선수의 슛 성공률을 분석한 결과, 직전 슛이 성공이었는지 실패였는지가 다음 슛의 확률에 통계적으로 의미 있는 영향을 주지 않는다는 것이었습니다. 이른바 핫 핸드(hot hand)는 통계적 환상에 가깝다는 결론이었습니다.
이 발견이 충격이었던 이유는 거의 모든 농구 팬과 선수들이 핫 핸드의 존재를 직감으로 믿어왔기 때문입니다. 그러나 데이터는 다른 답을 내놓았고, 이 결과가 패턴 인식의 함정을 보여주는 대표 사례가 되었습니다.
다만 이야기는 여기서 끝나지 않습니다. 2018년 조슈아 밀러와 애덤 산두르요에가 같은 데이터를 재분석한 결과, 원논문의 통계 처리에 미세한 편향이 있었고 보정하면 핫 핸드가 작은 정도로 존재한다는 결과가 나왔습니다. 그러나 그 효과 크기는 직관이 느끼는 것보다 훨씬 작습니다. 패턴 인식이 효과를 과장한다는 본질은 변하지 않았습니다.
💡 Field Note: 패턴 인식 함정 점검표
- 표본이 100 미만인가? 거의 모든 패턴이 노이즈일 가능성이 높다.
- 패턴이 사후적으로 발견되었는가? 사전 가설이 아니면 통계적 의미가 약하다.
- 같은 데이터에서 여러 패턴이 가능한가? 그렇다면 그것은 패턴이 아니라 해석이다.
- 예측이 가능한가? 진짜 패턴은 미래를 예측한다. 사후 설명은 패턴이 아니다.
왜 우리는 무작위를 견디지 못하는가
심리학자들이 반복적으로 확인한 한 가지 사실이 있습니다. 인간은 무의미한 결과를 받아들이는 것을 매우 어려워합니다. 어떤 결과든 원인이 있어야 하고, 원인을 찾지 못하면 만들어내기라도 합니다.
이 경향이 종교의 기원, 음모론의 동력, 미신의 지속을 모두 설명합니다. 우리 뇌는 의미 없음(meaninglessness)을 견디는 능력이 매우 약합니다. 그래서 무작위의 결과에도 이야기를 부여하고, 그 이야기를 진실로 받아들입니다.
분석가가 가져야 할 가장 어려운 능력 중 하나가 의미 없음을 견디는 능력입니다. 어떤 결과는 단지 운입니다. 어떤 패턴은 단지 노이즈입니다. 이 사실을 받아들이는 것은 지능이 아니라 훈련입니다.
패턴 인식을 이기는 법
패턴 인식의 함정을 이기는 가장 강력한 도구는 사전 가설(prior hypothesis)입니다. 데이터를 보기 전에 무엇을 찾을지 명확히 정하는 것입니다. 사후에 패턴을 발견하는 것은 거의 항상 클러스터 환상이지만, 사전 가설이 데이터에서 확인되는 것은 통계적 의미가 있습니다.
두 번째 도구는 통계적 검정입니다. 발견한 패턴이 무작위 데이터에서도 그만큼 자주 나타날 확률을 계산합니다. 그 확률이 5% 이상이라면 패턴이 아니라 노이즈로 간주합니다. 5% 임계값은 관습이지만 합리적인 출발점입니다.
세 번째 도구는 시간이 검증하는 인내입니다. 진짜 패턴은 시간이 지나도 유지됩니다. 환상은 시간이 지나며 사라집니다. 충분한 시간을 두고 검증하는 자세가 1형 오류를 가장 효과적으로 줄입니다.
패턴 인식과 데이터 양의 관계
패턴 인식의 신뢰도는 데이터 양에 따라 결정됩니다. 데이터가 적을수록 환상이 자주 등장하고, 데이터가 많을수록 진짜 패턴이 분리됩니다. 이는 표본 크기 통계의 가르침과 같은 메시지입니다.
실용적으로 의미 있는 임계값은 다음과 같이 정리됩니다. 100회 미만의 관찰에서 발견한 패턴은 거의 항상 환상으로 간주합니다. 1,000회 정도의 관찰에서 보이는 패턴도 효과 크기가 작다면 신뢰가 약합니다. 10,000회 이상의 관찰에서 일관되게 보이는 패턴만이 통계적으로 의미 있는 패턴 후보입니다. 이 임계값을 자신의 분석 작업에 미리 정해두는 것이 패턴 인식의 함정을 줄이는 가장 단순한 방법입니다.
그리고 한 가지 더, 자신이 발견한 패턴이 다른 분석가에게도 보이는지를 확인하는 것이 좋습니다. 한 사람의 눈에만 보이는 패턴은 보통 그 사람의 인지 편향에서 나옵니다. 여러 사람이 독립적으로 같은 패턴을 본다면 그것이 진짜 패턴일 가능성이 높아집니다. 동료 검증의 가치가 여기에 있습니다.