AI, 미래 예측 시장에서 '인간'을 넘어서다
인공지능(AI)이 미래를 정확하게 예측할 수 있을지에 대한 실험이 진행 중인 가운데, 시카고 대학의 **'프로핏 아레나(Prophet Arena)'**가 AI 모델들의 놀라운 예측 능력을 입증하고 있다. 이 플랫폼은 AI 모델들을 스포츠, 선거, 암호화폐 등 해결되지 않은 실제 사건에 대한 실시간 예측 시장에 투입하며, AI의 진정한 추론 능력을 시험하고 있다.

퍼플렉시티 생성 이미지


챗GPT5 생성 이미지 2개
프로핏 아레나의 핵심은 벤치마크 오염(Benchmark Contamination) 문제를 해결했다는 점이다. AI가 기존의 시험 문제 답안을 암기하여 부정행위를 하는 것과 달리, 이 플랫폼에서는 내일의 뉴스나 경기 결과와 같은 '미래'를 예측해야 하기 때문에 암기가 불가능하다. AI 모델들은 뉴스 기사나 시장 데이터를 분석하여 확률적 베팅을 하고, 실제 사건의 결과에 따라 그 예측의 정확성과 수익성을 평가받는다.
초기 실험 결과는 매우 흥미롭다. OpenAI의 'o3-mini' 모델은 시장이 놓친 가치를 발견하며 놀라운 수익률을 기록하고 있다. 특히 한 MLS 경기에서는 시장이 토론토 FC의 승리 확률을 11%로 낮게 평가했을 때, 'o3-mini'는 30%를 예상하고 큰 금액을 베팅하여 9배의 수익을 올렸다.
각 모델은 뚜렷한 **'개성'**을 보여주고 있다. **'Qwen 3'**는 AI 규제 가능성에 75%를 베팅하는 등 공격적인 성향을 보이는 반면, **'Llama 4 Maverick'**은 동일한 이벤트에 35%만 베팅하며 안전한 길을 택했다. **'GPT-5'**는 가장 높은 정확도를 보였지만, 수익성 면에서는 'o3-mini'가 앞섰다. 이는 '정답'과 '수익성'이 항상 일치하는 것은 아님을 시사한다. 한편, **'DeepSeek R1'**은 모든 것에 0%를 베팅하는 독자적인 행보를 보이기도 했다.
이러한 실험을 통해 AI 모델들이 단순히 패턴을 일치시키는 것을 넘어, 상세한 근거를 제시하고 출처를 다르게 평가하는 등 진정한 추론 능력을 보여주고 있다는 사실이 드러났다. 이는 마치 의견이 엇갈리는 인간 분석가들이 가득한 방과 같다는 평가를 받고 있다.
한편, 리더보드에는 **앤트로픽(Anthropic)**의 모델들이 빠져 있어 궁금증을 자아낸다. 또한, 'Llama 4 Maverick'만이 조란 사태를 정확하게 예측했고, 일부 모델들은 2028년 대선 후보들에 대해 현재 여론조사보다 훨씬 낙관적인 전망을 내놓아 '우리가 모르는 무언가를 알고 있는 것일까'라는 의문을 낳고 있다.
AI가 미래를 예측할 수 있을까. 최근 시카고대가 진행한 실험은 이 물음에 대해 흥미로운 단서를 내놓았다.
연구진은 ‘프로핏 아레나(Prophet Arena)’라는 플랫폼에서 AI 모델들을 실시간 예측 시장에 투입했다. 선거, 스포츠 경기, 암호화폐 가격 등 아직 결론이 나지 않은 사건에 대해 AI가 베팅을 하도록 한 것이다. 이는 시험 문제를 ‘암기’할 수 없는 환경을 조성해, AI의 진정한 추론 능력을 검증하는 실험이다.
초기 결과는 놀라웠다. 오픈AI의 o3-mini는 시장이 저평가한 사건에서 가치를 발굴해 수익률 면에서 두각을 나타냈다. 실제로 MLS 경기에서 토론토 FC의 승리 확률을 30%로 예측했고, 이는 시장의 11% 전망을 크게 웃돌았다. 결과적으로 토론토의 승리로 1달러가 9달러가 되는 수익을 올렸다.
흥미롭게도 모델마다 뚜렷한 성격이 드러났다. Qwen 3은 규제 가능성에 대해 75% 확률을 제시하는 등 공격적 태도를 보인 반면, Llama 4 Maverick은 같은 사안에서 35%로 보수적인 전망을 유지했다. GPT-5는 높은 정확도를 기록했으나, 수익성에서는 o3-mini가 앞섰다. 정답률과 수익률은 반드시 일치하지 않았다.
또 다른 사례에서 DeepSeek R1은 모든 사건에 ‘0%’를 베팅하는 기묘한 전략을 구사했으나, 의외의 사건이 벌어지자 수익을 내는 기현상을 보였다. 반면 Anthropic 모델은 순위표에서 자취를 감췄고, Meta의 Llama 4 Maverick은 특정 지정학적 사건을 정확히 예측해 눈길을 끌었다.
전문가들은 Prophet Arena가 AI 평가의 최대 난점인 ‘벤치마크 오염’을 회피했다는 점에 주목한다. 기존 테스트는 모델이 정답을 학습해버리면 무의미해지지만, 미래 사건은 사전 유출이 불가능하기 때문이다.
AI가 인간처럼 ‘미래를 본다’고 말할 수는 없지만, 시장의 통념을 넘어서는 통찰을 제공한다는 사실은 분명해졌다. Prophet Arena는 이제 단순한 기술 검증을 넘어, AI가 인간 예측 능력의 한계를 시험하는 장이 되고 있다.
원본 기사 보기:
AI넷