autorenew
GPT-5 在 Prophet Arena 的预测基准中领先:关于预测市场的洞见

GPT-5 在 Prophet Arena 的预测基准中领先:关于预测市场的洞见

在 DeFi 爱好者 @Defi0xJeff 最近的一条推文中,我们得以一窥由 AI 驱动预测的精彩世界。该帖子强调了一个名为 Prophet Arena 的新基准测试,它通过让各类 AI 模型预测来自像 PolymarketKalshi 等流行预测市场的真实事件来检验这些模型的表现。

这个基准的独特之处在于它揭示了不同 AI 模型的“个性”。即便输入相同的信息,它们仍会给出各异的输出,展示出各自对概率和预测的不同处理方式。根据分享的排名,GPT-5 目前在两个关键指标上占据主导:Brier Score 和 Average Return。

我们用更简单的方式来拆解一下。Brier Score 是衡量概率预测准确性的一种方式——基本上计算的是预测概率与实际结果之间的均方差。分数越低表示准确性越高,但在这个基准中,他们报告的是 1 减去 Brier Score,因此数值越高越好。它会奖励那些校准良好、与现实紧密一致的预测。

另一方面,Average Return 则模拟了基于 AI 预测的最优下注策略在考虑市场状况和既定风险厌恶水平下能产生的收益。可以把它想象成把 AI 的预测转换成假设交易,然后看这些交易能产生多少回报。

Prophet Arena 排名图,显示各 AI 模型的 Brier Score 和 Average Return

从图表来看,GPT-5 在调整后的 Brier Score 中以令人印象深刻的 84% 位居榜首,紧随其后的是 o1-medium 和 Gemini 2.5 Experimental 等模型。在 Average Return 项目中,它录得 102%,表明在盈利下注方面有很强的潜力。其他表现突出的包括 Grok x1、Claude Sonnet 3.5 和 Llama 4,但在下游则有明显回落,例如 Kim 2 和 Phi 等模型。

该推文还引用了同一用户早前的一段推文串,进一步深入探讨了 AI 与预测市场交汇处的机会。它列出了低门槛的机会,例如用于发现顶级下注者或异常市场活动的数据分析;中等难度的玩法,如流动性提供;以及高回报的思路,比如将预测市场收益打包的 DeFi 保险库,甚至由 AI 驱动的对冲基金。

对于加密圈的人来说,这尤其相关。像 Polymarket 这样的平台上的预测市场允许对从选举结果到加密价格波动的一切进行下注,常常结合区块链以实现透明性和不可篡改性。整合 AI 可以显著增强策略——想象把 GPT-5 当成副驾驶,扫描市场事件的截图、发现错价并建议交易。正如 @Defi0xJeff 所指出的,这对任何涉足这些市场的人来说都是一个极为有用的工具。

这一进展也可能溢出到 meme token 领域。Meme 币依赖炒作、叙事和情绪的快速变化,而这些正好适合预测市场。擅长预测的 AI 模型或许能帮助交易者预判拉盘或抛售,甚至围绕 meme 相关事件创造新的 DeFi 产品。

如果你热衷于区块链并想提升自己的竞争力,尝试将 AI 应用于预测市场或许正是你需要的优势。查看 X 上的完整推文串以获取更多细节,并持续关注这些基准的演进。

你可能感兴趣