人類全クリア、AI最高0.37%:ARC-AGI-3が「未知のゲーム」でエージェントの真の知能を測定

1M AI Newsの監測によると、Kerasの創始者フランソワ・チョレとZapierの共同創設者マイク・ノープが設立した非営利団体ARC Prize基金会は、ARC-AGI-3のベンチマークテストを発表しました。従来の静的な格子推論タスクとは異なり、ARC-AGI-3はインタラクティブなターン制環境のセットであり、エージェントは64×64の16色格子世界で行動します。指示や目標のヒントは一切なく、自律的に環境を探索し、ルールや勝利条件を推測し、世界モデルを構築し、行動のシーケンスを計画しなければなりません。

スコアは「行動効率」メカニズムを採用しており、同じレベルをクリアするのに必要なステップ数が少ないほど高得点となります。これは、真の推論能力と単なる暴力的な総当たりを区別するためのものです。各環境は人間による校正テストを経ており、初めて触れたときに100%クリアできることが確認されています。公開時点での最先端AIモデルのスコアは以下の通りです。

  1. Google Gemini 3.1 Pro Preview:0.37%
  2. OpenAI GPT 5.4(High):0.26%
  3. Anthropic Opus 4.6(Max):0.25%
  4. xAI Grok-4.20(Beta):0.00%

新バージョンのリリースは、一部で前世代のベンチマークが「汚染」されているとの懸念に起因しています。論文では、Gemini 3が推論チェーン内でARC-AGIの整数-色対応関係(例:「3=緑」)を自動的に使用していることが指摘されています。これは、プロンプトにその対応関係が一切記載されていないにもかかわらず、モデルの学習データがARC-AGIのタスクを十分にカバーしていることを強く示唆しています。ARC-AGI-3は、インタラクティブな環境と自主的な目標発見メカニズムを通じて、このような記憶によるショートカットに抵抗します。ARC Prize 2026の総賞金は200万ドルを超えています。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし