Des dirigeants de l’industrie à la conférence Beijing Zhiyuan ont débattu des inquiétudes liées à une homogénéisation des modèles d’IA, alors que les performances d’évaluation des principaux modèles tendent de plus en plus à se rapprocher et que l’écart entre les modèles open source et les modèles propriétaires serait seulement de 3 à 6 mois. Chen Weiguang, associé gérant de Bluerun Ventures, Wang Zhongyuan, directeur de l’institut de recherche Zhiyuan, Wang He, fondateur et directeur technique de Galaxy General, et Li Dahai, PDG de MiniMax, ont discuté des sources de valeur à long terme à l’ère des grands modèles. Le panel a abordé la question de savoir si les modèles d’IA et les industries d’intelligence incarnée se dirigent vers l’homogénéisation et où se situent les avantages concurrentiels durables. Des observateurs de l’industrie estiment que les talents sont un facteur clé dans la compétition IA entre les États-Unis et la Chine, l’intelligence incarnée représentant l’opportunité de la Chine de connaître des moments décisifs comparables à AlphaGo et ChatGPT.
Wang Zhongyuan a déclaré que, même si les différents classements des leaders des grands modèles sont vertigineux et que les classements eux-mêmes ne sont pas entièrement crédibles, les entreprises de modèles qui osent faire des démonstrations en direct et entrer dans des scénarios du monde réel démontrent de la confiance et peuvent trouver des boucles de données fermées dans des scénarios réels. Il a déclaré que, dans l’ensemble, l’itération des performances des grands modèles est loin d’avoir atteint un goulot d’étranglement, que les voies techniques ne se sont pas convergées et que l’avenir pourrait présenter plusieurs schémas, y compris « une super-puissance avec plusieurs acteurs forts » ou « plusieurs géants côte à côte ». Wang a qualifié les affirmations selon lesquelles l’industrie irait vers l’homogénéisation de prématurées.
Le fondateur de Galaxy General, Wang He, a étendu la discussion des grands modèles de langage à l’intelligence incarnée. Il a déclaré que les grands modèles de langage eux-mêmes comportent encore de nombreuses variables, avec une incertitude plus grande dans les capacités de compréhension multimodale et vidéo. Wang a décrit l’intelligence incarnée comme se trouvant actuellement « à l’étape allant de GPT-1 à GPT-2 », l’industrie ne faisant qu’entrer dans une période d’accélération.
Wang He a décrit la marge concurrentielle de l’intelligence incarnée comme un système complet englobant l’approvisionnement en données sources (données synthétiques, données humaines, données de robots), les capacités d’affinage des données, l’itération du matériel et la co-conception logiciel-matériel, les capacités de fusion des performances de modèle (throughput), et les capacités de livraison finale du matériel. Il a décrit cela comme un système complet de « guerrier hexagonal », affirmant qu’aucun produit mûr de ce type n’existe dans le monde et que la marge reste extrêmement profonde.
Le PDG de MiniMax, Li Dahai, a cité le succès commercial d’Anthropic comme preuve directe contre l’homogénéisation. Il a déclaré que les grands modèles ne peuvent pas être simplement des « talents en forme de T » avec uniquement des capacités générales horizontales, mais doivent avoir des forces verticales. Li a expliqué qu’Anthropic est devenue un phénomène mondial parce qu’elle a construit des capacités de codage à un niveau sans précédent à partir de sa fondation de modèle généraliste, ce qui a permis une valorisation élevée et des performances commerciales impressionnantes.
Li a déclaré que les grands modèles s’intègrent dans l’évolution des systèmes plutôt que dans des points techniques isolés. Il a déclaré que l’optimisation future des modèles doit profondément s’aligner sur les scénarios d’application, la comparant à la conception d’un moteur qui doit coordonner avec l’ensemble du véhicule, où les directions d’optimisation diffèrent complètement pour des voitures de course F1 versus des voitures pour les courses alimentaires. Li a déclaré que l’universalité technique et l’universalité commerciale doivent être séparées : une bonne commercialisation requiert une optimisation extrême spécifique aux scénarios, permettant à chaque entreprise d’établir sa propre marge en trouvant la bonne direction.
Wang He a partagé les pratiques de Galaxy General avec le paradigme WAM (World Action Model). Avant l’émergence du paradigme WAM, Galaxy General utilisait 1 milliard de frames de données de simulation pour vérifier les possibilités d’échelle pour la saisie. L’entreprise a développé GRASP-VLA afin d’atteindre une saisie en zero-shot d’objets arbitraires, sans qu’aucun modèle s’appuie, à ce jour, sur des données de téléopération réelles atteignant des niveaux de performance équivalents.
Wang a expliqué que l’émergence du paradigme WAM a complètement brisé le goulot de données pour l’intelligence incarnée. Les modèles VLA traditionnels requièrent des données avec des étiquettes d’action et ne peuvent s’appuyer que sur des données de robots. Le WAM fait de l’Action le cœur, en réalisant une planification d’action au niveau visuel via une prédiction du futur, sans nécessiter d’étiquettes d’action. Cela signifie que les robots peuvent apprendre directement une logique comportementale à partir de vidéos humaines, et que d’énormes volumes de vidéos humaines deviennent du matériel d’entraînement.
Wang a déclaré que Galaxy General a publié le premier article WAM au monde en mars 2025, et qu’en avril, Jim Fan, directeur du NVIDIA Embodied Intelligence Lab, a déclaré que l’objectif final des robots est le WAM. Wang a décrit le pré-entraînement de l’intelligence incarnée comme entrant dans une période explosive, sans limitations pour l’acquisition de données. Il a déclaré qu’au cours des deux prochaines années, l’intelligence incarnée fera pleinement entrer son moment GPT-3,5, avec comme billet d’entrée des dizaines de millions d’heures de données de haute qualité et des milliards d’investissements en capital.
Wang Zhongyuan a révélé que, l’an dernier, les discussions de l’industrie sur l’échec de la Scaling Law provenaient de l’inquiétude selon laquelle « les données d’entraînement pré-internet ont été épuisées ». Au cours des deux dernières années, après l’entraînement, l’optimisation du raisonnement et l’auto-évolution récursive des agents ont apporté une nouvelle vague d’améliorations des capacités. Wang a déclaré que cela ne représente pas nécessairement une augmentation des paramètres des modèles eux-mêmes, mais plutôt un ensemble du système qui devient de plus en plus capable, avec une IA qui passe d’un outil de discussion à un outil d’exécution.
En tant qu’institut de recherche, Zhiyuan explore la prochaine courbe de croissance de l’intelligence. Au cours des deux dernières années, l’institut a validé le paradigme d’échelle dans le domaine multimodal, avec la série Wujie Emu3 utilisant moins de 1 % des données multimodales et des dizaines de milliards de paramètres montrant déjà des améliorations nettes des performances. L’institut a désormais commencé à avancer vers des modèles fondation mondiaux pour le monde physique, en explorant des voies de mise à l’échelle pour les world models.
Li Dahai a proposé la « loi de densité de connaissances » de MiniMax : intelligence globale des grands modèles = densité de connaissances × nombre de paramètres. Il a révélé qu’en déployant l’an dernier des modèles embarqués pour des entreprises automobiles, ils n’atteignaient qu’environ 1B de paramètres ; cette année, ils sont passés à 4B, et l’an prochain devrait probablement atteindre des dizaines de milliards. À mesure que la technologie de quantification s’améliore et que la densité de connaissances augmente, des modèles plus puissants après quantification occupent les mêmes ressources qu’auparavant, l’expansion d’échelle des modèles embarqués ne faisant que commencer.
Li a déclaré que de nombreuses conclusions par étapes dans l’industrie ont des durées de vie très courtes, le développement renversant constamment les perceptions anciennes. Il a déclaré que non seulement les modèles embarqués ont encore énormément de place pour progresser, mais aussi que le traitement du long contexte des grands modèles de langage et l’optimisation à faible consommation présentent encore un potentiel d’échelle très loin d’avoir été entièrement exploré, l’industrie étant encore loin d’atteindre un stade de convergence.
Wang Zhongyuan a déclaré que le développement de la technologie IA suit la même voie que la conduite autonome : elle doit nécessairement passer par un processus allant de l’inquiétude et de la peur à l’adaptation et à l’usage, puis à l’établissement de systèmes de gouvernance complets et de mécanismes d’allocation des responsabilités. Lorsque la technologie peut apporter une amélioration de la productivité de 3 à 5 fois, sa diffusion ne peut pas être bloquée, et l’humanité, après avoir connu plusieurs cycles d’ondes technologiques, trouvera des solutions de gouvernance correspondantes.
Li Dahai a déclaré que la société humaine s’est essentiellement développée par « l’apprentissage à partir des erreurs » — les règles de sécurité aérienne et les limites de vitesse routière ont toutes des leçons douloureuses derrière elles. La technologie IA améliorera l’efficacité pour découvrir les vulnérabilités et corriger les problèmes, réduisant fortement ce coût, l’industrie mettant fortement l’accent sur des bases de sécurité dès le stade du démarrage, et les entreprises assumant proactivement la responsabilité sociale. Li a déclaré que le schéma d’apprentissage à partir des erreurs pourrait être difficile à éviter complètement, avec des risques de sécurité souvent issus de dimensions inattendues, rendant l’amélioration des règles par les leçons une réalité à laquelle il faut faire face.
Concernant les avantages différenciateurs de la Chine en IA, Wang Zhongyuan a déclaré que la chaîne d’approvisionnement de la Chine, ses avantages manufacturiers et l’immense marché intérieur suffisent à incubler et à catalyser la mise en œuvre de nouvelles technologies, l’intelligence incarnée et les world models étant susceptibles de devenir des domaines où la Chine atteint un leadership différencié.
Wang He a déclaré avec fermeté que l’intelligence incarnée est l’opportunité de la Chine. Il a exprimé sa conviction que le « moment AlphaGo » de l’intelligence incarnée et le « moment ChatGPT » seront tous deux réalisés en Chine, affirmant que si le zero to one est accompli en Chine, le one to one hundred mûrira certainement en Chine.
Li Dahai a ajouté le facteur sous-jacent le plus essentiel : la Chine possède le plus grand nombre de jeunes talents IA les plus intelligents au monde, ce qui constitue l’avantage le plus fondamental. Combiné aux avantages de chaîne d’approvisionnement, d’écosystème et de scénarios, la Chine fera certainement des progrès significatifs dans le domaine de l’IA.
À quel stade Galaxy General a-t-elle dit que l’intelligence incarnée était arrivée ?
Le fondateur et directeur technique de Galaxy General, Wang He, a déclaré à la conférence Beijing Zhiyuan que l’intelligence incarnée se situe actuellement « à l’étape allant de GPT-1 à GPT-2 », l’industrie ne faisant que commencer une période d’accélération. Wang a déclaré qu’au cours des deux prochaines années, l’intelligence incarnée fera pleinement entrer son moment GPT-3,5, avec comme billet d’entrée des dizaines de millions d’heures de données de haute qualité et des milliards d’investissements en capital.
Comment les participants au panel ont-ils répondu aux inquiétudes d’homogénéisation des modèles d’IA ?
Le directeur de l’institut de recherche Zhiyuan, Wang Zhongyuan, a déclaré que, dans l’ensemble, l’itération des performances des grands modèles est loin d’avoir atteint un goulot d’étranglement et que les voies techniques ne se sont pas convergées, qualifiant les affirmations sur l’homogénéisation de prématurées. Le PDG de MiniMax, Li Dahai, a cité le succès d’Anthropic dans les capacités de codage comme preuve que les entreprises peuvent construire une différenciation grâce à des forces verticales. Le fondateur de Galaxy General, Wang He, a décrit la marge concurrentielle de l’intelligence incarnée comme un système complet englobant l’approvisionnement en données, l’itération du matériel et les capacités de modèles, affirmant qu’aucun produit mûr de ce type n’existe dans le monde.
Quels avantages le panel a-t-il identifiés pour le développement de l’IA en Chine ?
Les participants au panel ont identifié plusieurs avantages de la Chine. Wang Zhongyuan a cité la chaîne d’approvisionnement de la Chine, ses avantages manufacturiers et l’immense marché intérieur comme suffisants pour catalyser la mise en œuvre de nouvelles technologies. Li Dahai a déclaré que la Chine possède le plus grand nombre de jeunes talents IA les plus intelligents au monde comme avantage le plus fondamental. Wang He a exprimé sa conviction que les moments décisifs de l’intelligence incarnée, comparables à AlphaGo et ChatGPT, seront réalisés en Chine, affirmant que si le zero to one est accompli en Chine, le one to one hundred mûrira certainement en Chine.
Actualités associées
Dan Ives estime qu’une fusion entre SpaceX et Tesla est probablement possible dans l’année à venir
Le PDG de Microsoft, Nadella, propose un cadre d’IA pour le capital humain et le capital tokenisé
PDG de MiniMax : l’intelligence du modèle Edge correspond à GPT-4, la technologie d’agents a besoin de temps
Le PDG de Microsoft : la « douve » de l’IA est un cycle d’apprentissage en boucle fermée, et les entreprises ne peuvent pas externaliser l’apprentissage
Raoul Pal : La puissance de calcul remplace le capital, le goulot d'étranglement de l'IA déclenchera une nouvelle « troisième vague » de rotation des capitaux crypto