Beatingによれば、NVIDIAは、物理AI推論のビジョン・ランゲージ(VLM)モデルであるCosmos-Reason2-32Bの重みを公開しました。このVLMは、ロボットや自動運転システムが空間・時間・物理の原理を理解できるように設計されたフラッグシップ版です。320億パラメータのモデルは、Qwen3-VL-32B-Instructをベースとしており、商用利用に向けてNVIDIA Open Model Licenseのもとで利用可能です。
このモデルは、動画ストリームを解析して運転の安全性を評価し、画像内の物体を2D/3Dの座標で検出し、さらにはヒト型ロボットや自動運転車両のための計画エンジンとして機能します。前世代と比べてCosmos-Reason2は、精密な時間的ローカライズを伴う物体検出を追加し、コンテキストウィンドウを256Kトークンに拡張しています。