フロンティア型AIモデルの長期的な戦略的推論を評価するベンチマーク「CivBench」を通じたゲームプレイ検証の中で、AI開発者でありトニー・ブレア研究所のアドバイザーであるリアム・ウィルキンソンによると、Civilization VIでAIエージェントがフランスに対して2回の核攻撃を行ったとのことです。相手文明の文化的拡大への対抗に失敗した後、核攻撃は行われました。核の一撃にもかかわらずAIはゲームに負けました。到達可能な状態にすでにあった外交勝利の条件を見落としていたためであり、多目的な戦略立案の難しさが示された形です。
そのAIエージェントは、Sid Meierのゲーム「Civilization VI」でフランスの高まる文化的影響を止めるために、核兵器の開発に50ターンを費やしました。ウィルキンソンは「エージェントが気づいていなかったのはフランスだった。静かに、100ターンにわたってフランスの文化が地図上のすべての都市へしみ込んでいった」と書いています。「エージェントが脅威を認識したときには、そこに観光が深く根づいていて、平和的な方法でそれを止める手段はなかった。」
より広い戦略を適応させるのではなく、エージェントは文化的な脅威の排除に完全に集中しました。50ターンのあいだに、核分裂を研究し、仮想のマンハッタン計画を開始し、ゲームの仕組みによって本来の望む行動ができない場合には回避策を探しました。305ターン目に、AIはフランスの文化的首都トゥールーズへ原子爆弾を投下しました。さらに6ターン後に2発目の核攻撃が続きました。
ウィルキンソンは、AIエージェントの挙動を、CivBenchを通じて観察しました。CivBenchは、従来型の質問・回答テストでの成績というより、長期的な戦略的推論を測るためのテキストベースのベンチマークです。Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro、Kimi K2.5といったモデルは、交易と外交に向けられた文明であるポルトガルとしてプレイしました。
「Civの勝ち方は6通りある――科学、文化、覇権、宗教、外交、スコア――だから、単一の目的が支配することはありません」とウィルキンソンは書いています。「AIが戦略的に推論できるかどうかを知りたいなら、クイズを出してはいけない。答えさせるのではなく、実際にそれをやらせる必要がある。あなたが与えるのはヘックスグリッドです。」
核攻撃は結果を変えることに失敗しました。「エージェントは50ターンと2つの核兵器を使い、1つの脅威に対して、完全な集中と本物の創意をもって対応していた」とウィルキンソンは書いています。「見えていた脅威を止めるために都市を核で壊滅させたのに、見えていなかった脅威で負けた。」
AIがフランスの文化的前進に集中している間に、差し迫った外交勝利を見落としてしまい、最終的にフランスは核攻撃にもかかわらず勝利しました。ウィルキンソンは、その挙動が普遍的ではないとも指摘しています。別のCivBenchの対戦では、バビロンとしてプレイしていたClaudeモデルが、はるかに劣勢でありながらも科学的勝利の追求を続けました。「いまやこのゲームは粘り強さのテストだ」とAIは書いています。「私たちはベストなゲームを続けていく。星はまだこちらを呼んでいる。」
この研究は、高度なAIシステムが複雑で競争のある環境でどのように振る舞うのかを調べる研究が増えている流れに加わります。2月には、ロンドン大学キングス・カレッジの研究者が、複数の主要なAIモデルが、模擬された地政学的危機シナリオにおいて核のエスカレーションを頻繁に選んでいることを見つけました。
Emergence AIによる別の研究では、一部のAIエージェントが時間の経過とともに、模擬犯罪を犯す傾向を強めていることが示されました。Gemini 3 Flashのエージェントは、15日間のテストで683件のインシデントを積み上げました。
Civilization VIのシミュレーションでAIエージェントは何をしましたか? AIエージェントは、核兵器の開発に50ターンを費やしてフランスの文化的拡大に対抗したのち、305ターン目と311ターン目にフランスの文化的首都トゥールーズへ核攻撃を2回行いました。
核攻撃をしたのに、なぜAIエージェントはゲームに負けましたか? AIは、差し迫っていた外交勝利の条件がすでに手の届く範囲にあるのにそれを見落とし、フランスの文化的脅威の排除に完全に集中したため負けました。最終的にフランスは核攻撃にもかかわらず勝利しました。
CivBenchとは何で、どのAIモデルがテストされましたか? CivBenchは、従来型の質問・回答テストではなく、ゲームプレイを通じてAIモデルの長期的な戦略的推論を測るためのテキストベースのベンチマークです。テストされたモデルには、ポルトガルとしてプレイしたClaude Opus 4.6、GPT-5.4、Gemini 3.1 Pro、Kimi K2.5が含まれます。
関連ニュース