autorenew
GPT-5、Prophet ArenaでAI予測ベンチマークをリード:予測市場に関する考察

GPT-5、Prophet ArenaでAI予測ベンチマークをリード:予測市場に関する考察

最近、DeFi愛好家の @Defi0xJeff のツイートから、AI駆動の予測の興味深い世界が垣間見えます。その投稿では Prophet Arena と呼ばれる新しいベンチマークが紹介されており、Polymarket や Kalshi といった人気の予測市場から収集された実世界のイベントを予測することで、様々なAIモデルを比較しています。

このベンチマークが際立っているのは、異なるAIモデルの「性格」を明らかにする点です。同じ情報を与えられても、それぞれが異なる出力を出し、確率や予測に対する独自のアプローチを見せます。共有されたランキングによると、GPT-5 は現在、Brier Score と Average Return の二つの主要指標で優位に立っています。

ここでそれらを簡単に分解しましょう。Brier Score は確率的予測の正確さを測る指標で、予測された確率と実際の結果との差の二乗平均を計算します。スコアが低いほど精度が高いことを意味しますが、このベンチマークでは「1 minus the Brier Score」を報告しているため、数値が高い方が良いとされます。現実と密接に一致する、良く校正された予測を評価する仕組みです。

一方、Average Return はAIの予測に基づく最適なベッティング戦略から得られる利益を市場状況と一定のリスク回避度を考慮してシミュレートしたものです。AIの予測を仮想的なトレードに変換して、どれだけのリターンが得られるかを見ているわけです。

Prophet Arenaのランキング(各AIモデルのBrier ScoreとAverage Returnを示す)

チャートを見ると、GPT-5 は調整後のBrier Scoreで印象的な84%を記録してトップに立ち、o1-medium や Gemini 2.5 Experimental といったモデルが続いています。Average Return のカテゴリでは102%を記録しており、有利なベットになる可能性を示しています。他に注目すべきは Grok x1、Claude Sonnet 3.5、Llama 4 などの好成績モデルですが、Kim 2 や Phi といった下位モデルに向かって明確な低下が見られます。

ツイートは同ユーザーの以前のスレッドも引用しており、AI と予測市場の交差点にある機会についてさらに掘り下げています。上位の成果を狙える「取り組みやすい」領域としては、トップベッターや異常な市場活動を察知するためのデータ解析が挙げられ、中程度の難易度のものは流動性提供に関するプレイ、そして高リターンを狙えるアイデアには予測市場の利回りをパッケージ化するDeFiバウルトやAI駆動のヘッジファンドのようなものが含まれます。

暗号資産に関心がある人にとって、これは特に関連性が高い話題です。Polymarket のようなプラットフォーム上の予測市場では、選挙結果から暗号資産の価格変動まであらゆることに賭けることができ、しばしば透明性や不変性のためにブロックチェーンと結び付けられます。AIを組み合わせることで戦略は大幅に強化される可能性があり、GPT-5 をコパイロットにして市場イベントのスクリーンショットをスキャンし、誤価格付けを見つけて取引を提案するといったことが想像できます。@Defi0xJeff の示唆するように、これらの市場に手を出す人にとって役立つツールになり得ます。

この発展はミームトークン領域にも波及するかもしれません。ミームコインは盛り上がり、物語性、感情の急変に依存しており、予測市場と相性が良いからです。予測に優れたAIモデルは、トレーダーがポンプやダンプを予測するのに役立ったり、ミーム関連イベントを対象とした新しいDeFi商品を生み出したりする可能性があります。

ブロックチェーンに関与していてスキルアップしたいなら、予測市場におけるAIの実験はあなたにとって優位性をもたらすかもしれません。詳細は X の全文スレッドをチェックし、これらのベンチマークがどのように進化するか注目してください。

おすすめ記事