EXCLUSIVE INTERVIEW

“당신이 협력하는 진짜 이유는, 미래가 충분히 길기 때문입니다.”

Dr. R이 말하는 반복 게임 게임이론의 깊이

Interviewer: J. Walker (Senior Editor)

Thamizmanam Lounge

두 번째 만남은 첫 만남보다 짧았다. Dr. R은 차를 두 잔 따랐고, 첫 잔이 식기 전에 이번 주제로 들어가자고 했다. 반복 게임 게임이론. 그가 가장 자주 언급하는 분석 도구이며, 동시에 그의 일상 의사결정에도 그대로 적용된다는 분야다.

“한 번뿐인 게임과 반복되는 게임은 같은 게임이 아닙니다. 반복 게임 게임이론은 같은 보수표라도 시간 차원이 들어오면 다른 결과를 만든다는 사실을 수학적으로 보여줍니다.” 그가 말했다. “사람들은 이 차이를 잘 모릅니다. 한 번의 거래와 반복되는 거래에서 합리성의 의미가 어떻게 다른지를요.”

Q. 죄수의 딜레마부터 시작해주시죠. 왜 그게 반복 게임 게임이론의 출발점입니까?

Dr. R: 죄수의 딜레마는 모든 게임이론 책의 첫 페이지에 등장합니다. 두 명이 서로 협력하면 둘 다 득이지만, 한 명이 배신하면 배신한 쪽이 더 큰 이득을 봅니다. 합리적 개인의 균형은 양쪽 다 배신이지만, 그 균형은 두 사람 모두에게 손해입니다. 균형이 항상 최선이 아니라는 첫 충격을 주는 사례죠.

그런데 이 게임이 한 번이 아니라 반복된다고 가정해봅시다. 같은 두 사람이 같은 게임을 100번, 1000번 한다면. 이때 합리적 선택은 완전히 달라집니다. 배신한 상대를 다음 회차에 처벌할 수 있기 때문입니다. 그 가능성이 협력을 합리적 선택으로 만듭니다.

“미래의 그림자가 충분히 길게 드리울 때, 협력은 도덕이 아니라 수학이 됩니다.”

Q. 1980년대 액설로드 토너먼트가 결정적 사건이었다고 들었습니다.

Dr. R: 정치학자 로버트 액설로드가 한 일은 단순했습니다. 반복 죄수의 딜레마를 두고 전 세계 학자들에게 전략을 제출받았습니다. 그 전략들끼리 컴퓨터로 토너먼트를 돌렸고, 우승 전략을 발표했습니다.

모두가 복잡한 알고리즘을 기대했지만 우승자는 가장 단순했습니다. 첫 회차는 협력, 이후로는 직전 회차에 상대가 한 행동을 그대로 복제하는 팃포탯(Tit for Tat)이었습니다. 네 줄짜리 전략이 정교한 인공지능 전략들을 모두 이긴 겁니다.

Q. 팃포탯이 강한 이유가 무엇입니까?

Dr. R: 액설로드가 분석한 우승 전략의 네 가지 특징이 있습니다. 친절하다(첫 회차에 협력), 보복적이다(배신에 즉각 반응), 용서한다(상대가 협력으로 돌아오면 곧 협력 재개), 명료하다(전략이 단순해 상대가 읽기 쉽다).

이 네 가지가 모두 갖춰져야 합니다. 하나라도 빠지면 약점이 됩니다. 너무 친절하면 착취당하고, 너무 보복적이면 화해의 기회를 놓치고, 용서가 없으면 끝없는 보복 루프에 빠지고, 명료하지 않으면 상대가 협력 신호를 읽지 못합니다.

💡 Strategy Note: 팃포탯의 네 기둥

1. Nice. 먼저 배신하지 않는다. 시작은 협력이다.
2. Retaliatory. 배신에는 즉각 보복으로 응답한다.
3. Forgiving. 상대가 다시 협력하면 곧 협력으로 복귀한다.
4. Clear. 전략이 단순해 상대가 예측 가능하다.

Q. 미래의 그림자라는 표현이 인상적입니다.

Dr. R: 게임이론에서 가장 중요한 용어 중 하나입니다. 다음 회차가 일어날 확률이 높을수록, 그리고 미래의 보상을 현재만큼 중요하게 여길수록 미래의 그림자가 길다고 말합니다. 그림자가 충분히 길면 협력이 균형이 됩니다. 짧으면 배신이 균형이 됩니다.

이 통찰이 비즈니스 관계, 평판 시스템, 국제 외교의 작동 원리입니다. 다음 거래가 있을 거라는 기대가 협력을 만들고, 마지막 거래라는 인식이 배신을 합리화합니다. 마지막 회차의 함정(end-game problem)이 모든 반복 게임의 가장 어려운 지점인 이유입니다.

Q. 반복 게임 게임이론에서 평판은 어떻게 작동합니까?

Dr. R: 평판은 반복 게임 게임이론이 가장 잘 설명하는 현상입니다. 한 사람의 과거 행동이 다른 사람들에게 알려질 때, 그것은 미래 게임의 정보가 됩니다. 평판이 좋은 사람과는 다음 거래가 안전하고, 평판이 나쁜 사람과는 위험합니다. 이 정보 흐름이 시장의 보이지 않는 손보다 더 강력하게 협력을 강제합니다.

흥미로운 사실은 평판이 작동하는 시장에서는 한 번의 배신이 평생의 비용이 된다는 것입니다. 그 비용이 충분히 크다면 합리적 인간은 처음부터 배신하지 않습니다. 도덕이 없어도 시장 메커니즘만으로 협력이 유지됩니다.

Q. 그러면 평판 없는 환경에서는 협력이 불가능합니까?

Dr. R: 매우 어려워집니다. 익명성이 보장된 일회성 거래에서 합리적 행위자는 배신을 선택합니다. 인터넷 익명 환경에서 신뢰가 자주 무너지는 이유가 여기에 있습니다. 같은 두 사람이 실명으로 만났다면 다른 결과가 나왔을 게임이, 익명 환경에서는 다른 균형으로 수렴합니다.

해결책은 두 가지입니다. 평판 시스템을 인공적으로 만들거나(별점, 리뷰, 인증), 강제 메커니즘을 도입하거나(에스크로, 보증금, 법적 강제). 두 방법 모두 일회성 게임을 사실상 반복 게임으로 변환하는 시도입니다. 반복 게임 게임이론의 균형을 빌려와서 일회성 환경에서도 협력을 만드는 셈입니다.

Q. 이 통찰을 일상에서 어떻게 사용하십니까?

Dr. R: 사람을 만났을 때 저는 항상 묻습니다. 이 사람과의 게임은 1회인가, 반복인가. 1회 게임이라면 상대의 합리성에 의존할 수 없습니다. 반복 게임이라면 협력을 기대할 수 있습니다. 이 구분이 신뢰와 의심의 경계를 만듭니다.

그리고 자신이 1회 게임의 상대인지 반복 게임의 상대인지를 항상 의식하는 것이 중요합니다. 상대가 당신을 1회 게임으로 본다면, 그 상대는 배신할 합리적 이유가 있습니다. 게임이론은 도덕을 가르치지 않지만, 도덕이 어디서 자라는지를 알려줍니다.

Epilogue

인터뷰가 끝날 무렵 그는 한 가지를 덧붙였다. “팃포탯의 가장 깊은 교훈은 단순함이 정교함을 이긴다는 사실입니다. 사람들은 복잡한 전략에 끌리지만, 시간이 길게 작용할수록 단순한 원칙이 살아남습니다.” 차는 이미 식어 있었다.

Dr. R의 다른 분석 자료가 궁금하십니까?

DHT Academy 회원에게만 공개되는 게임이론 시뮬레이션 자료를 확인하세요.

연구 자료 열람하기