“당신이 협력하는 진짜 이유는, 미래가 충분히 길기 때문입니다.”
Dr. R이 말하는 반복 게임 게임이론의 깊이
Interviewer: J. Walker (Senior Editor)
Thamizmanam Lounge
“한 번뿐인 게임과 반복되는 게임은 같은 게임이 아닙니다. 반복 게임 게임이론은 같은 보수표라도 시간 차원이 들어오면 다른 결과를 만든다는 사실을 수학적으로 보여줍니다.” 그가 말했다. “사람들은 이 차이를 잘 모릅니다. 한 번의 거래와 반복되는 거래에서 합리성의 의미가 어떻게 다른지를요.”
Q. 죄수의 딜레마부터 시작해주시죠. 왜 그게 반복 게임 게임이론의 출발점입니까?
Dr. R: 죄수의 딜레마는 모든 게임이론 책의 첫 페이지에 등장합니다. 두 명이 서로 협력하면 둘 다 득이지만, 한 명이 배신하면 배신한 쪽이 더 큰 이득을 봅니다. 합리적 개인의 균형은 양쪽 다 배신이지만, 그 균형은 두 사람 모두에게 손해입니다. 균형이 항상 최선이 아니라는 첫 충격을 주는 사례죠.
그런데 이 게임이 한 번이 아니라 반복된다고 가정해봅시다. 같은 두 사람이 같은 게임을 100번, 1000번 한다면. 이때 합리적 선택은 완전히 달라집니다. 배신한 상대를 다음 회차에 처벌할 수 있기 때문입니다. 그 가능성이 협력을 합리적 선택으로 만듭니다.
“미래의 그림자가 충분히 길게 드리울 때, 협력은 도덕이 아니라 수학이 됩니다.”
Q. 1980년대 액설로드 토너먼트가 결정적 사건이었다고 들었습니다.
Dr. R: 정치학자 로버트 액설로드가 한 일은 단순했습니다. 반복 죄수의 딜레마를 두고 전 세계 학자들에게 전략을 제출받았습니다. 그 전략들끼리 컴퓨터로 토너먼트를 돌렸고, 우승 전략을 발표했습니다.
모두가 복잡한 알고리즘을 기대했지만 우승자는 가장 단순했습니다. 첫 회차는 협력, 이후로는 직전 회차에 상대가 한 행동을 그대로 복제하는 팃포탯(Tit for Tat)이었습니다. 네 줄짜리 전략이 정교한 인공지능 전략들을 모두 이긴 겁니다.
Q. 팃포탯이 강한 이유가 무엇입니까?
Dr. R: 액설로드가 분석한 우승 전략의 네 가지 특징이 있습니다. 친절하다(첫 회차에 협력), 보복적이다(배신에 즉각 반응), 용서한다(상대가 협력으로 돌아오면 곧 협력 재개), 명료하다(전략이 단순해 상대가 읽기 쉽다).
이 네 가지가 모두 갖춰져야 합니다. 하나라도 빠지면 약점이 됩니다. 너무 친절하면 착취당하고, 너무 보복적이면 화해의 기회를 놓치고, 용서가 없으면 끝없는 보복 루프에 빠지고, 명료하지 않으면 상대가 협력 신호를 읽지 못합니다.
💡 Strategy Note: 팃포탯의 네 기둥
- 1. Nice. 먼저 배신하지 않는다. 시작은 협력이다.
- 2. Retaliatory. 배신에는 즉각 보복으로 응답한다.
- 3. Forgiving. 상대가 다시 협력하면 곧 협력으로 복귀한다.
- 4. Clear. 전략이 단순해 상대가 예측 가능하다.
Q. 미래의 그림자라는 표현이 인상적입니다.
Dr. R: 게임이론에서 가장 중요한 용어 중 하나입니다. 다음 회차가 일어날 확률이 높을수록, 그리고 미래의 보상을 현재만큼 중요하게 여길수록 미래의 그림자가 길다고 말합니다. 그림자가 충분히 길면 협력이 균형이 됩니다. 짧으면 배신이 균형이 됩니다.
이 통찰이 비즈니스 관계, 평판 시스템, 국제 외교의 작동 원리입니다. 다음 거래가 있을 거라는 기대가 협력을 만들고, 마지막 거래라는 인식이 배신을 합리화합니다. 마지막 회차의 함정(end-game problem)이 모든 반복 게임의 가장 어려운 지점인 이유입니다.
Q. 반복 게임 게임이론에서 평판은 어떻게 작동합니까?
Dr. R: 평판은 반복 게임 게임이론이 가장 잘 설명하는 현상입니다. 한 사람의 과거 행동이 다른 사람들에게 알려질 때, 그것은 미래 게임의 정보가 됩니다. 평판이 좋은 사람과는 다음 거래가 안전하고, 평판이 나쁜 사람과는 위험합니다. 이 정보 흐름이 시장의 보이지 않는 손보다 더 강력하게 협력을 강제합니다.
흥미로운 사실은 평판이 작동하는 시장에서는 한 번의 배신이 평생의 비용이 된다는 것입니다. 그 비용이 충분히 크다면 합리적 인간은 처음부터 배신하지 않습니다. 도덕이 없어도 시장 메커니즘만으로 협력이 유지됩니다.
Q. 그러면 평판 없는 환경에서는 협력이 불가능합니까?
Dr. R: 매우 어려워집니다. 익명성이 보장된 일회성 거래에서 합리적 행위자는 배신을 선택합니다. 인터넷 익명 환경에서 신뢰가 자주 무너지는 이유가 여기에 있습니다. 같은 두 사람이 실명으로 만났다면 다른 결과가 나왔을 게임이, 익명 환경에서는 다른 균형으로 수렴합니다.
해결책은 두 가지입니다. 평판 시스템을 인공적으로 만들거나(별점, 리뷰, 인증), 강제 메커니즘을 도입하거나(에스크로, 보증금, 법적 강제). 두 방법 모두 일회성 게임을 사실상 반복 게임으로 변환하는 시도입니다. 반복 게임 게임이론의 균형을 빌려와서 일회성 환경에서도 협력을 만드는 셈입니다.
Q. 이 통찰을 일상에서 어떻게 사용하십니까?
Dr. R: 사람을 만났을 때 저는 항상 묻습니다. 이 사람과의 게임은 1회인가, 반복인가. 1회 게임이라면 상대의 합리성에 의존할 수 없습니다. 반복 게임이라면 협력을 기대할 수 있습니다. 이 구분이 신뢰와 의심의 경계를 만듭니다.
그리고 자신이 1회 게임의 상대인지 반복 게임의 상대인지를 항상 의식하는 것이 중요합니다. 상대가 당신을 1회 게임으로 본다면, 그 상대는 배신할 합리적 이유가 있습니다. 게임이론은 도덕을 가르치지 않지만, 도덕이 어디서 자라는지를 알려줍니다.
Epilogue
인터뷰가 끝날 무렵 그는 한 가지를 덧붙였다. “팃포탯의 가장 깊은 교훈은 단순함이 정교함을 이긴다는 사실입니다. 사람들은 복잡한 전략에 끌리지만, 시간이 길게 작용할수록 단순한 원칙이 살아남습니다.” 차는 이미 식어 있었다.