Alibaba lança o Qwen-Robot Suite com três modelos, com vários robôs “todos de código aberto”

Qwen-Robot Suite模型

A equipe do Alibaba Qwen lançou em 17 de junho o Qwen-Robot Suite, um sistema completo de IA corpórea composto por três modelos base: Qwen-RobotNav (navegação móvel), Qwen-RobotManip (manipulação robótica) e Qwen-RobotWorld (simulação do mundo físico). Os três modelos já foram disponibilizados como código aberto.

Qwen-RobotNav: cinco tarefas unificadas, 15,6 milhões de dados de treinamento

O Qwen-RobotNav integra cinco tarefas: seguir instruções, navegação por ponto-alvo, busca de objetos, rastreamento de alvos e direção autônoma, oferecendo uma interface parametrizável (orçamento de tokens, decaimento temporal, peso por frame). O modelo foi treinado com 15,6 milhões de amostras; no benchmark VLN-CE RxR (navegação visual e linguística em ambientes reais) obteve 76,5% de acurácia e, no EVT-Bench (rastreamento de alvos móveis), 90%.

Qwen-RobotManip: 38,100 horas de dados de treinamento, 1º lugar no RoboChallenge Table30-v1

As formas de representar ações de diferentes robôs variam de maneira marcante (o braço robótico Franka usa ângulos articulares; o ALOHA de dois braços usa posição e direção das pinças; robôs humanoides usam coordenadas do corpo inteiro). A Alibaba sintetizou cerca de 38,100 horas de dados de treinamento a partir de um banco de dados de robôs de código aberto e de vídeos humanos, sem depender de coleta de dados proprietários. O modelo ficou em 1º lugar no benchmark RoboChallenge Table30-v1, superando métodos anteriores em 20%.

Qwen-RobotWorld: 8,6 milhões de pares de vídeo para linguagem, 1º lugar no EWMBench e no DreamGen Bench

O Qwen-RobotWorld é um modelo de mundo de vídeo condicionado por linguagem: usa a linguagem natural como uma interface de ação universal. O comando “pegue o copo vermelho e despeje água sobre a flor” funciona como instrução para agentes com pinça, carros autônomos ou navegação móvel. O conjunto de dados de treinamento inclui 8,6 milhões de pares de vídeo-texto, além de 200 milhões de frames, abrangendo manipulação (5,9 milhões de amostras, 1.300+ habilidades, 20+ formas), direção autônoma (Waymo, NVIDIA PhysicalAI-AD), navegação em ambientes internos e transferência humano-robô entre 14 tipos de braços mecânicos. Nos dois benchmarks, EWMBench e DreamGen Bench, ficou em 1º lugar, e nos testes de consistência física obteve pontuação máxima.

Explicação oficial da Qwen: modelos de software, não robôs físicos; preços e cronograma ainda não foram divulgados

Pela explicação do blog oficial da Qwen, o Qwen-Robot Suite é um modelo de software, não um robô físico; a implantação em cenários residenciais ainda levará vários anos. A Alibaba ainda não divulgou preços, cronograma ou lista de clientes fora dos planos de piloto. Laboratórios ocidentais como Google DeepMind, Nvidia, Figure e Physical Intelligence também buscam objetivos semelhantes, mas reportes indicam que a maioria foca capacidades individuais como navegação ou manipulação, e não um pacote unificado e montável.

Perguntas frequentes

Para quais cenários cada um dos três modelos do Qwen-Robot Suite foi projetado?

De acordo com o blog oficial da Qwen, as funções dos três modelos são: Qwen-RobotNav responde pela navegação móvel (cinco tarefas unificadas); Qwen-RobotManip responde pela manipulação robótica entre robôs diferentes (compatível com diferentes formas de representar ações); Qwen-RobotWorld responde pela simulação do mundo físico (linguagem como interface de ação universal). Os três modelos são independentes entre si e, juntos, formam um stack completo de IA corpórea.

A “hora do Android dos robôs” é uma descrição dita pela própria Qwen?

Sim. “A hora do Android na área de robôs” é a descrição de posicionamento usada pela Qwen oficial da Alibaba na ocasião do lançamento, indicando que o Qwen-Robot Suite é uma plataforma na camada de sistema operacional, e não um hardware. Essa é uma declaração de posicionamento de mercado da Qwen, e não uma avaliação de terceiros.

O Qwen-Robot Suite é de código aberto para o público?

De acordo com o blog oficial da Qwen, os três modelos foram lançados como código aberto. Os dados de treinamento da Alibaba vêm de um banco de dados de robôs de código aberto e de vídeos humanos, sem depender de coleta de dados proprietários. A política de open source é uma das mensagens centrais do lançamento.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários