De acordo com Beating, a NVIDIA lançou os pesos do Cosmos-Reason2-32B, a versão principal de sua visão-linguagem (VLM) de raciocínio de IA física, projetada para ajudar robôs e sistemas de direção autônoma a entender princípios espaciais, temporais e físicos. O modelo de 32 bilhões de parâmetros, construído sobre Qwen3-VL-32B-Instruct, está disponível sob a NVIDIA Open Model License para uso comercial.
O modelo pode analisar fluxos de vídeo para avaliar a segurança no trânsito, detectar objetos em imagens com coordenadas 2D/3D e funcionar como um mecanismo de planejamento para robôs humanoides e veículos autônomos. Em comparação com a geração anterior, o Cosmos-Reason2 adiciona detecção de objetos com localização temporal precisa e amplia a janela de contexto para 256K tokens.