Beating afirma que NVIDIA ha lanzado los pesos de Cosmos-Reason2-32B, la versión insignia de su modelo de visión-lenguaje (VLM) de razonamiento físico para IA, diseñado para ayudar a robots y sistemas de conducción autónoma a comprender principios espaciales, temporales y físicos. El modelo de 32 mil millones de parámetros, construido sobre Qwen3-VL-32B-Instruct, está disponible bajo la NVIDIA Open Model License para uso comercial.
El modelo puede analizar flujos de video para evaluar la seguridad al conducir, detectar objetos en imágenes con coordenadas 2D/3D y servir como motor de planificación para robots humanoides y vehículos autónomos. En comparación con la generación anterior, Cosmos-Reason2 añade detección de objetos con localización temporal precisa y amplía la ventana de contexto a 256K tokens.