根據 Beating,NVIDIA 已發布用於 Cosmos-Reason2-32B 的權重,這是其物理 AI 推理視覺語言模型(VLM)的旗艦版本,旨在協助機器人與自動駕駛系統理解空間、時間與物理原理。這個 320 億參數模型以 Qwen3-VL-32B-Instruct 為基礎,並在 NVIDIA Open Model License 下提供商業使用。
該模型可分析影像串流以評估行車安全,並利用 2D/3D 坐標在影像中偵測物體,同時可作為人形機器人與自動化車輛的規劃引擎。相較於上一代,Cosmos-Reason2 新增具備精確時間定位的物體偵測,並將上下文視窗擴展至 256K 個 tokens。