Inception LabsのMercury 2はAIME 2026で90を獲得し、GoogleのDiffusionGemmaを上回る

Inception Labsは木曜日にMercury 2を発表し、毎秒およそ1,000トークンという世界最速の推論言語モデルとして位置づけた。同モデルはAIME 2026ベンチマークで90を獲得し、最近リリースされたGoogleのDiffusionGemmaを上回った。DiffusionGemmaは同テストで69.1%を記録し、生成速度は同程度だった。両モデルは、逐次的なトークン処理ではなく拡散ベースの並列生成を採用しており、より高速な推論手法への業界全体のアーキテクチャ転換を反映している。

Mercury 2 数学ベンチマークでDiffusionGemmaを上回る

Mercury 2は毎秒約1,000トークン、つまりAIモデルが読み書きするテキストの塊を生成し、Inception Labsの発表によれば、AnthropicのClaude Haiku 4.5 Reasoningは毎秒約89トークン、そしてOpenAIのGPT-5 Miniは毎秒71トークンだ。AIME 2026は実際の米国招待数学試験の問題から構築され、正解率の割合としてスコア化されており、Mercury 2は90%に到達した。Googleは同じセットでDiffusionGemmaをテストし、69.1%を獲得した。一方、標準的な非拡散のGemma 4は同テストで88.3%だった。

GPQAでは、博士号レベルの科学ベンチマークでも同様の結果となり、2つのモデルはほぼ互角だ。Mercury 2は77%で、DiffusionGemmaの73.2%に対して優位にある。Googleの開発者向けガイドでは、最大品質を要求するアプリケーションには標準のGemma 4を推奨しており、DiffusionGemmaが全体を通して劣勢であることを認めている。DiffusionGemmaはHugging Faceで無料かつオープンウェイト。Mercury 2は有料のクローズドウェイトAPIモデルだ。

拡散モデルが逐次トークン生成に取って代わる

両モデルとも、タイプライター方式での書き込みをやめている。標準的なチャットボットは1語を書き、その直後に書いた内容を確認してから次を書き、答えが完成するまで繰り返す。拡散モデルは代わりに、ランダムなプレースホルダートークンでテキストのブロックを埋め、数回の並列パスでノイズを消し去る。Stable Diffusionのような画像生成器で静止画を写真に変えるのと同じ仕掛けで、テキスト全体がまとめて完成した応答としてロックされるまで行う。

Augment Codeが本番で82%のレイテンシ削減を報告

Augment CodeというAIコーディングエージェント企業は、文脈圧縮サブエージェントでAnthropicのClaude Opus 4.7の代わりにMercury 2を投入し、レイテンシが82%減、コストが90%削減されたとしている。同時に、共同のケーススタディによれば出力品質は同じだと報告している。

Inception Labsが5,000万ドルの資金調達ラウンドを確保

Inception Labsは、Nvidiaのベンチャー部門と個人投資家のAndrew Ng、Andrej Karpathyの支援を受け、5,000万ドルの資金を調達した。創業者のStefano Ermonが行った研究に基づいて作られており、彼はスタンフォードの教授で、今日の画像生成器を支えるスコアベース拡散技術の一部を共同執筆している。

並列生成がマルチエージェントのシステムアーキテクチャを可能にする

複雑なAIシステムは専門の助っ人たちのオーケストラだ。深い推論担当、素早い要約担当が複数、ルーティング、ツールの参照、出力チェック担当などがいる。逐次モデルだと、それらのユーティリティ呼び出しが高コストで遅くなる。並列の拡散モデルなら、それらを安価かつ十分に高速にして、ふんだんに使える。Mercury 2は当面API/クラウドであり、ローカル実行環境やエージェントフレームワークから成る完全なエコシステムはまだ追いついている最中だ。

拡散アプローチは速度に敏感なワークフローに有利

ユースケースには、モデルが編集に追随できるリアルタイムのプログラミング、素早いサブ呼び出しが大量に発生するマルチエージェントのコーディングやサポートシステム、遅延を感じにくい音声インターフェース、そしてあらゆるレイテンシ重視のオートコンプリートや次アクション予測が含まれる。大規模運用では、標準的なハードウェアでのスループット向上によるコストとエネルギー節約が素早く積み上がる、とInception Labsは述べている。

FAQ

Inception Labsは木曜日に何を発表しましたか? Inception Labsは木曜日にMercury 2を導入し、それを世界最速の推論言語モデルだと呼んだ。毎秒約1,000トークンを生成し、AIME 2026ベンチマークで90を獲得した。

Mercury 2はベンチマークでGoogleのDiffusionGemmaとどう比べられますか? Mercury 2はAIME 2026で90を獲得したのに対し、GoogleのDiffusionGemmaは同じテストで69.1%だった。博士号レベルの科学ベンチマークであるGPQAでは、Mercury 2はDiffusionGemmaの73.2%に対して77%を達成した。

Augment Codeはどんなコストとレイテンシの改善を報告しましたか? Augment Codeは文脈圧縮サブエージェントでAnthropicのClaude Opus 4.7の代わりにMercury 2を投入し、共同のケーススタディによれば、レイテンシが82%低下し、コストが90%削減されたとしている。あわせて、出力品質は同じだと報告している。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし