Ramp Labs propose une nouvelle solution de partage de mémoire entre agents multiples, réduisant la consommation de tokens maximale de 65%

Nouvelles de la Gate News : le 11 avril, la société d’infrastructure IA Ramp Labs a publié ses résultats de recherche « Latent Briefing ». En compressant directement le cache KV des grands modèles, elle permet un partage efficace de la mémoire entre systèmes multi-agents, tout en réduisant fortement la consommation de Tokens sans perte de précision. Dans les architectures multi-agents courantes, l’orchestrateur (Orchestrator) décompose les tâches et appelle de manière répétée le modèle de travail (Worker). À mesure que la chaîne d’inférence s’allonge, la quantité de Tokens augmente de façon exponentielle. L’idée centrale de Latent Briefing consiste à utiliser le mécanisme d’attention pour repérer, dans le contexte, les parties réellement essentielles, puis à supprimer directement les informations redondantes au niveau de la représentation, plutôt que de s’appuyer sur des résumés de LLM lents ou sur des recherches RAG peu stables. Lors des tests sur le banc LongBench v2, la méthode obtient d’excellents résultats : la consommation de Tokens du modèle Worker baisse de 65 %, et pour les documents de longueur moyenne (32k à 100k), le gain médian de Tokens atteint 49 %. Dans l’ensemble, la précision s’améliore d’environ 3 points par rapport à la base de référence, tandis que le surcoût de temps induit par chaque compression ne représente qu’environ 1,7 seconde, soit un gain de vitesse d’environ 20 fois par rapport à l’algorithme original. L’expérience utilise Claude Sonnet 4 comme orchestrateur et Qwen3-14B comme modèle Worker, couvrant des scénarios de documents variés : articles académiques, actes et documents juridiques, romans et rapports gouvernementaux. L’étude montre également que le seuil optimal de compression varie selon la difficulté de la tâche et la longueur du document : les cas difficiles se prêtent à une compression plus agressive pour filtrer le bruit de raisonnement spéculatif, tandis que les documents longs sont mieux servis par une compression légère afin de préserver des informations clés dispersées.
Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire