필자의 다른기사 보기 인쇄하기 메일로 보내기 글자 크게 글자 작게
글로벌
[AI, 미래 예측 시장에서 '인간'을 넘어서다] 연구진은 ‘프로핏 아레나(Prophet Arena)’라는 플랫폼에서 AI 모델들을 실시간 예측 시장에 투입했다. 선거, 스포츠 경기, 암호화폐 가격 등
기사입력: 2025/08/25 [07:54]   widenews.kr
트위터 페이스북 카카오톡
박영숙세계미래보고서저자

 

AI, 미래 예측 시장에서 '인간'을 넘어서다

 

 

인공지능(AI)이 미래를 정확하게 예측할 수 있을지에 대한 실험이 진행 중인 가운데, 시카고 대학의 **'프로핏 아레나(Prophet Arena)'**가 AI 모델들의 놀라운 예측 능력을 입증하고 있다. 이 플랫폼은 AI 모델들을 스포츠, 선거, 암호화폐 등 해결되지 않은 실제 사건에 대한 실시간 예측 시장에 투입하며, AI의 진정한 추론 능력을 시험하고 있다.

 

퍼플렉시티 생성 이미지

 

 

챗GPT5 생성 이미지 2개

 

프로핏 아레나의 핵심은 벤치마크 오염(Benchmark Contamination) 문제를 해결했다는 점이다. AI가 기존의 시험 문제 답안을 암기하여 부정행위를 하는 것과 달리, 이 플랫폼에서는 내일의 뉴스나 경기 결과와 같은 '미래'를 예측해야 하기 때문에 암기가 불가능하다. AI 모델들은 뉴스 기사나 시장 데이터를 분석하여 확률적 베팅을 하고, 실제 사건의 결과에 따라 그 예측의 정확성과 수익성을 평가받는다.

 

초기 실험 결과는 매우 흥미롭다. OpenAI'o3-mini' 모델은 시장이 놓친 가치를 발견하며 놀라운 수익률을 기록하고 있다. 특히 한 MLS 경기에서는 시장이 토론토 FC의 승리 확률을 11%로 낮게 평가했을 때, 'o3-mini'는 30%를 예상하고 큰 금액을 베팅하여 9배의 수익을 올렸다.

 

각 모델은 뚜렷한 **'개성'**을 보여주고 있다. **'Qwen 3'**는 AI 규제 가능성에 75%를 베팅하는 등 공격적인 성향을 보이는 반면, **'Llama 4 Maverick'**은 동일한 이벤트에 35%만 베팅하며 안전한 길을 택했다. **'GPT-5'**는 가장 높은 정확도를 보였지만, 수익성 면에서는 'o3-mini'가 앞섰다. 이는 '정답'과 '수익성'이 항상 일치하는 것은 아님을 시사한다. 한편, **'DeepSeek R1'**은 모든 것에 0%를 베팅하는 독자적인 행보를 보이기도 했다.

 

이러한 실험을 통해 AI 모델들이 단순히 패턴을 일치시키는 것을 넘어, 상세한 근거를 제시하고 출처를 다르게 평가하는 등 진정한 추론 능력을 보여주고 있다는 사실이 드러났다. 이는 마치 의견이 엇갈리는 인간 분석가들이 가득한 방과 같다는 평가를 받고 있다.

 

한편, 리더보드에는 **앤트로픽(Anthropic)**의 모델들이 빠져 있어 궁금증을 자아낸다. 또한, 'Llama 4 Maverick'만이 조란 사태를 정확하게 예측했고, 일부 모델들은 2028년 대선 후보들에 대해 현재 여론조사보다 훨씬 낙관적인 전망을 내놓아 '우리가 모르는 무언가를 알고 있는 것일까'라는 의문을 낳고 있다.

 

AI가 미래를 예측할 수 있을까. 최근 시카고대가 진행한 실험은 이 물음에 대해 흥미로운 단서를 내놓았다.

 

연구진은 ‘프로핏 아레나(Prophet Arena)’라는 플랫폼에서 AI 모델들을 실시간 예측 시장에 투입했다. 선거, 스포츠 경기, 암호화폐 가격 등 아직 결론이 나지 않은 사건에 대해 AI가 베팅을 하도록 한 것이다. 이는 시험 문제를 ‘암기’할 수 없는 환경을 조성해, AI의 진정한 추론 능력을 검증하는 실험이다.

 

초기 결과는 놀라웠다. 오픈AI의 o3-mini는 시장이 저평가한 사건에서 가치를 발굴해 수익률 면에서 두각을 나타냈다. 실제로 MLS 경기에서 토론토 FC의 승리 확률을 30%로 예측했고, 이는 시장의 11% 전망을 크게 웃돌았다. 결과적으로 토론토의 승리로 1달러가 9달러가 되는 수익을 올렸다.

 

흥미롭게도 모델마다 뚜렷한 성격이 드러났다. Qwen 3은 규제 가능성에 대해 75% 확률을 제시하는 등 공격적 태도를 보인 반면, Llama 4 Maverick은 같은 사안에서 35%로 보수적인 전망을 유지했다. GPT-5는 높은 정확도를 기록했으나, 수익성에서는 o3-mini가 앞섰다. 정답률과 수익률은 반드시 일치하지 않았다.

 

또 다른 사례에서 DeepSeek R1은 모든 사건에 ‘0%’를 베팅하는 기묘한 전략을 구사했으나, 의외의 사건이 벌어지자 수익을 내는 기현상을 보였다. 반면 Anthropic 모델은 순위표에서 자취를 감췄고, Meta의 Llama 4 Maverick은 특정 지정학적 사건을 정확히 예측해 눈길을 끌었다.

 

전문가들은 Prophet Arena가 AI 평가의 최대 난점인 ‘벤치마크 오염’을 회피했다는 점에 주목한다. 기존 테스트는 모델이 정답을 학습해버리면 무의미해지지만, 미래 사건은 사전 유출이 불가능하기 때문이다.

 

 

AI가 인간처럼 ‘미래를 본다’고 말할 수는 없지만, 시장의 통념을 넘어서는 통찰을 제공한다는 사실은 분명해졌다. Prophet Arena는 이제 단순한 기술 검증을 넘어, AI가 인간 예측 능력의 한계를 시험하는 장이 되고 있다.

 

 


원본 기사 보기:AI넷
닉네임 패스워드 도배방지 숫자 입력
내용
기사 내용과 관련이 없는 글, 욕설을 사용하는 등 타인의 명예를 훼손하는 글은 관리자에 의해 예고 없이 임의 삭제될 수 있으므로 주의하시기 바랍니다.
 
  • [AI, 미래 예측 시장에서 '인간'을 넘어서다] 연구진은 ‘프로핏 아레나(Prophet Arena)’라는 플랫폼에서 AI 모델들을 실시간 예측 시장에 투입했다. 선거, 스포츠 경기, 암호화폐 가격 등
  • 광고
    PHOTO News
    메인사진
    제25화 광양 매회축제장에 만발한 매화꽃이 관광객의 시선을 잡고 있다.
    메인사진
    박수현 의원 , ‘ G3 도약을 위한 AI 산업경쟁력 강화 전략 국회토론회 ’ 개최
    메인사진
    [서평] 새롭게 도래할 민주주의 – 『시민의회로 가는 길』
    메인사진
    [포토] 베트남 청년들의 땀방울, 상주 캠벨포도에 생명을 불어넣다
    메인사진
    남수단 슈바이처 고 이태석 신부 묘지 앞에서
    메인사진
    지리산 한신계곡 가내소 폭포 절경
    메인사진
    계룡산 삼불봉에서 관음봉 가는 길 풍경
    메인사진
    함평군이 독서문화 정착 위한 휴가지 책 나눔 행사를 하고 있다
    메인사진
    목포의 맛을 느끼다...원도심 선창가 식당의 아귀수육이 입맛을 자극한다
    메인사진
    황매산 철쭉이 상춘객을 불러 모은다
    메인사진
    금오산 대혜폭포의 겨울 위용
    메인사진
    900M 깍아지른 절벽에 자리한 금오산 약사암 절경
    메인사진
    새해 이튿날 지리산 천왕봉에 핀 눈꽃
    메인사진
    크리스마스 트리가 코로나로 힘든 사람들을 위로한다
    메인사진
    내장산 단풍의 구경에 가을을 맞이한다
    메인사진
    가을 영암 월출산 기찬랜드에 핀 화려한 국화
    메인사진
    초여름 곡성 초악산 기암괴석과 들꽃들
    메인사진
    가을의 전령사 코스모스가 살랑이는 순천 영화마을
    메인사진
    국립공원 월출산 아래 만개한 노란 유채꽃
    메인사진
    대한민국 대표 축제 ‘2017 대한민국 국향대전’절정의 모습