Alibaba lance la Qwen-Robot Suite avec trois modèles, et plusieurs robots « tous open source »

Qwen-Robot Suite模型

L’équipe Qwen d’Alibaba a publié le 17 juin Qwen-Robot Suite, un dispositif d’intelligence incarnée full-stack composé de trois modèles de base : Qwen-RobotNav (navigation mobile), Qwen-RobotManip (manipulation mécanique) et Qwen-RobotWorld (simulation du monde physique). Les trois modèles sont tous open source.

Qwen-RobotNav : cinq tâches unifiées, 15,6 millions de données d’entraînement

Qwen-RobotNav intègre cinq tâches : suivi d’instructions, navigation vers un point cible, recherche d’objets, suivi d’une cible et conduite autonome, avec une interface paramétrable (budget de tokens, décroissance temporelle, poids par image). Le modèle est entraîné sur 15,6 millions d’échantillons : le taux de réussite atteint 76,5 % sur le benchmark VLN-CE RxR (navigation visuelle et linguistique en environnement réel) et 90 % sur EVT-Bench (suivi de cible mobile).

Qwen-RobotManip : 38 100 heures de données d’entraînement, première place à RoboChallenge Table30-v1

Les manières de représenter les actions diffèrent nettement selon les robots (bras robot Franka : angles des articulations ; double bras ALOHA : positions et orientations des pinces ; robot humanoïde : coordonnées du corps entier). Alibaba a synthétisé environ 38 100 heures de données d’entraînement à partir d’une base de données open source de robots et de vidéos humaines, sans recourir à une collecte de données propriétaires. Le modèle arrive en première place sur le benchmark RoboChallenge Table30-v1, en dépassant de 20 % les méthodes précédentes.

Qwen-RobotWorld : 8,6 millions de données vidéo, première place à EWMBench et DreamGen Bench

Qwen-RobotWorld est un modèle de monde vidéo conditionné par le langage : il utilise le langage naturel comme interface d’action universelle. Par exemple, la consigne « prendre une tasse rouge et la verser sur une fleur » est valable pour les pinces, les voitures autonomes ou les agents de navigation mobile. Le corpus d’entraînement inclut 8,6 millions d’associations vidéo-texte et 200 millions de frames, couvrant la manipulation (5,9 millions d’échantillons, 1 300+ compétences, 20+ morphologies), la conduite autonome (Waymo, NVIDIA PhysicalAI-AD), la navigation intérieure et le transfert homme-machine à travers 14 types de bras mécaniques. Les benchmarks EWMBench et DreamGen Bench le placent en première position, et le test de cohérence physique atteint un score parfait.

Explication officielle de Qwen : modèles logiciels plutôt que robots physiques, tarification et calendrier non communiqués

D’après la publication officielle de Qwen, Qwen-Robot Suite est un ensemble de modèles logiciels plutôt qu’un robot physique : un déploiement dans un contexte domestique nécessiterait encore plusieurs années. Alibaba n’a pas encore annoncé de prix, de calendrier ou de liste de clients en dehors de pilotes. Des laboratoires occidentaux comme Google DeepMind, Nvidia, Figure et Physical Intelligence poursuivent aussi des objectifs similaires, mais les informations indiquent que la plupart se concentrent sur des capacités isolées comme la navigation ou la manipulation, plutôt que sur un kit unifié et assemblable.

FAQ

Dans quels contextes les trois modèles de Qwen-Robot Suite sont-ils chacun utilisés ?

D’après le blog officiel de Qwen, la fonction de chaque modèle est la suivante : Qwen-RobotNav assure la navigation mobile (cinq tâches unifiées) ; Qwen-RobotManip assure la manipulation mécanique multi-robots (compatible avec différentes manières de représenter les actions) ; Qwen-RobotWorld assure la simulation du monde physique (le langage comme interface d’action universelle). Les trois modèles sont indépendants ; réunis, ils forment une pile full-stack d’intelligence incarnée.

Le positionnement de « l’instant Android des robots » vient-il de ce que Qwen dit lui-même ?

Oui. « L’instant Android dans le domaine de la robotique » est la description de positionnement utilisée par le Qwen officiel d’Alibaba lors de l’annonce : cela signifie que Qwen-Robot Suite est une plateforme au niveau de l’« OS », plutôt qu’un matériel. C’est une formulation de positionnement du marché de Qwen, et non une évaluation d’un tiers.

Qwen-Robot Suite est-il open source pour le public ?

D’après le blog officiel de Qwen, les trois modèles ont été publiés en open source. Les données d’entraînement d’Alibaba proviennent d’une base de données open source de robots et de vidéos humaines, sans recourir à une collecte de données propriétaires ; la stratégie d’open source fait partie des messages clés de cette annonce.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire