Analyse de Berkeley GEPA : l’IA peut apprendre de nouvelles tâches sans mettre à jour les poids, avec 35 fois moins de coûts d’entraînement que le RL

ChainNewsAbmedia

L’équipe de recherche de l’université de Californie à Berkeley propose une nouvelle méthode d’entraînement pour l’IA : GEPA, déjà acceptée par l’ICLR 2026 en tant qu’article Oral. GEPA ne met pas à jour les poids du modèle, ne nécessite pas d’entraînement sur GPU : il suffit d’utiliser un LLM qui « lit un journal d’entraînement » et réécrit à répétition les invites du système d’IA. Résultat : sur 6 tâches, GEPA surpasse en moyenne les méthodes d’apprentissage par renforcement dominantes de 6 %, avec un meilleur score jusqu’à 20 %, et avec un nombre d’essais d’entraînement (rollouts) inférieur de 35 fois. Après avoir été synthétisée par la communauté d’ingénierie IA, la méthode a suscité des discussions sur la plateforme X ; elle a désormais été intégrée à DSPy en tant qu’optimiseur de premier rang.

Ce que fait GEPA : utiliser les journaux d’entraînement comme support, au lieu de ne regarder que les scores

Le workflow des méthodes d’apprentissage par renforcement traditionnelles (comme GRPO) est le suivant : faire exécuter une fois une tâche à l’IA, obtenir un score « +1 ou -1 » en fonction du résultat, puis ajuster en boucle les poids du modèle à partir de ce score. Le problème, c’est que le déroulé de cette exécution d’une tâche comporte souvent des étapes de raisonnement de plusieurs milliers de tokens, des appels d’outils, des messages d’erreur : ces détails riches sont compressés en un seul score, et l’information du processus est perdue. Ainsi, le RL doit être lancé des dizaines de milliers, voire des dizaines de milliers de fois, pour converger.

La démarche de GEPA est l’inverse : une fois la tâche terminée, l’IA transmet l’intégralité du processus (reasoning, appels d’outils, historique d’erreurs) à un autre « LLM de réflexion » qui le lit tel quel. Le LLM de réflexion agit comme un ingénieur chevronné lisant un log de programme : il repère l’étape où ça s’est mal passé, pourquoi cela a échoué, et comment modifier l’invite, puis réécrit directement l’invite du module concerné. À exécution identique de la tâche, la quantité de signaux extraite par GEPA est bien plus grande que celle fournie par le seul score de RL.

Pourquoi ça marche : transformer le « score » en « lecture de tout le processus »

Sur 6 tâches, GEPA obtient en moyenne un avantage de 6 % sur GRPO, avec un maximum de 20 % ; face à un autre optimiseur d’invites dominant, MIPROv2, il dépasse aussi de plus de 10 % (avec une progression de 12 % sur le benchmark de maths AIME-2025). Le point le plus crucial est le coût d’entraînement : pour atteindre des performances comparables, GEPA a besoin de rollouts (un passage complet sur une tâche) inférieurs de 35 fois.

Une autre donnée : après l’intégration de GEPA avec DSPy, le « Full Program Adapter » permet d’optimiser l’ensemble du programme DSPy (y compris les signatures, les modules, la structure de contrôle). Sur le benchmark MATH, GEPA atteint 93 % de précision, bien au-delà de la méthode ChainOfThought initiale de DSPy (67 %). GEPA excelle aussi particulièrement sur des workflows multi-modules (agents IA chaînés sur plusieurs modules) : il peut cibler précisément un module qui échoue et réécrire son invite, plutôt que d’ajuster tout le système.

Qui va s’en servir en premier : un citoyen de première classe dans DSPy, code déjà open source sur GitHub

Le code de GEPA a été publié sur GitHub. Il est intégré au framework DSPy sous la forme de dspy.GEPA, et publié aussi de manière indépendante en tant que bibliothèque Python. L’équipe de recherche regroupe des institutions comme UC Berkeley, Stanford, Notre Dame et Anthropic. Les auteurs du papier comprennent Matei Zaharia (cofondateur de Databricks, auteur principal de DSPy) et Omar Khattab (auteur principal de DSPy).

Pour la communauté des développeurs, GEPA apporte une nouvelle solution à un problème courant : avoir énormément de rollouts mais ne pas savoir comment les exploiter. Beaucoup d’équipes ont déjà accumulé des milliers, voire des dizaines de milliers, de journaux d’exécution d’agents, mais au-delà de quelques vérifications quand ça bug, elles n’ont pas de méthode systématique pour transformer ces journaux en amélioration du modèle. Le prochain point à observer est l’adoption concrète de GEPA dans les workflows agentiques en entreprise (comme l’automatisation du support client et la réparation automatique de code), et de savoir si des implémentations de GEPA apparaîtront en dehors du cadre DSPy.

Cet article « Berkeley GEPA » : sans mise à jour des poids, l’IA apprend de nouvelles tâches, et avec 35 fois moins de coût d’entraînement, devance le RL—la première apparition de l’article remonte à Chaîne News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Particle Network publie la feuille de route des comptes universels, lance le SDK de dépôt universel et des comptes d'agents IA

D’après ChainCatcher, Particle Network a publié aujourd’hui la feuille de route de la prochaine phase pour les Universal Accounts, en annonçant deux nouveaux produits dans les prochains mois : Universal Deposit SDK, qui permet aux développeurs d’ajouter des dépôts multi-chaînes avec environ 10 lignes de code, et Universal Agent Accounts,

GateNewsIl y a 2h

Roblox lance un logiciel d’IA pour défier Unity et Epic Games

D’après Bloomberg, Roblox lance de nouveaux logiciels d’IA pour concurrencer Unity Technologies et Epic Games, dont les moteurs dominent le développement de jeux à gros budgets. Le PDG Dave Baszucki a déclaré que l’outil vise à aider les créateurs à construire plus facilement des jeux multijoueurs avec des graphismes photoréalistes, alimenté par ar

GateNewsIl y a 7h

La marine américaine signe un contrat d’environ 100 millions de dollars avec Domino Data Lab pour la détection de mines dans le détroit d’Hormuz

Selon l’Agence de presse Xinhua, la commande des systèmes de guerre de l’information de l’U.S. Navy a récemment signé un contrat avec la société d’IA Domino Data Lab, basée à San Francisco, afin d’acquérir et de déployer des solutions logicielles d’apprentissage automatique. Le contrat, d’une valeur proche de 100 millions de dollars s’il est entièrement exécuté, vise à

GateNewsIl y a 9h

XAI Grok ajoute des Custom Voices : clonage en 2 minutes, vérification d’identité en deux étapes

xAI lance Grok Custom Voices : enregistre environ 1 minute d’audio depuis le panneau de contrôle, puis génère en moins de 2 minutes un modèle vocal personnalisé utilisable pour l’API TTS et Voice Agent. Publication en parallèle de Grok 4,3 et de Voice Library. Pour empêcher le clonage, un système d’authentification en deux étapes est mis en place : d’abord, lecture d’une phrase de vérification, puis comparaison de speaker embedding afin de s’assurer que seule la même personne peut générer la voix. Voice Library unifie la gestion des voix créées et des voix préconstruites : plus de 80 voix, 28 langues, avec une expansion prévue par la suite.

ChainNewsAbmediaIl y a 11h

La version de bureau de Codex d’OpenAI ajoute une fonction “animal de compagnie” : 3 états de notification, éclosion selon la langue utilisée

La version bureau de OpenAI Codex a récemment mis en ligne la fonctionnalité « Animaux de compagnie » (Pets), permettant aux développeurs de suivre en temps réel l’état des tâches de Codex pendant qu’ils codent grâce à des personnages animés flottants. D’après la documentation officielle d’OpenAI, l’overlay des animaux de compagnie bascule en fonction de l’état actuel de Codex 3

ChainNewsAbmediaIl y a 13h

MoonPay lance la carte MoonAgents, une Mastercard virtuelle pour les agents d’IA, vendredi

Selon The Block, MoonPay a lancé MoonAgents Card, une carte de débit Mastercard virtuelle, vendredi. La carte est conçue à la fois pour les agents IA et pour les utilisateurs, convertissant des stablecoins en monnaie fiduciaire au moment du paiement et permettant de dépenser chez n’importe quel commerçant en ligne à l’échelle mondiale qui accepte Mastercard. La carte i

GateNewsIl y a 23h
Commentaire
0/400
Aucun commentaire