Message d’actualité de Gate, 24 avril — DeepSeek a publié la série V4 de modèles open-source sous la licence MIT, avec des poids désormais disponibles sur Hugging Face et ModelScope. La série comprend deux modèles (MoE) de type mixture-of-experts : V4-Pro avec 1,6 billion de paramètres au total et 49 milliards activés par jeton, et V4-Flash avec 284 milliards de paramètres au total et 13 milliards activés par jeton. Les deux prennent en charge une fenêtre de contexte d’1 million de jetons.

L’architecture présente trois mises à niveau clés : un mécanisme d’attention hybride combinant l’attention clairsemée compressée (CSA) et l’attention fortement compressée (HCA) qui réduit considérablement la surcharge pour les longs contextes — pour V4-Pro, les FLOPs d’inférence pour un contexte de 1M ne sont que 27 % de ceux de V3.2, et le cache KV (VRAM destiné au stockage d’informations historiques pendant l’inférence) n’est que 10 % de celui de V3.2 ; des hyperconnexions à contraintes de manifold (mHC) remplaçant les connexions résiduelles traditionnelles afin d’améliorer la stabilité de la propagation du signal entre les couches ; et l’optimiseur Muon pour une convergence d’entraînement plus rapide. Le préentraînement a utilisé plus de 32 trillions de jetons de données.

Le post-entraînement emploie une approche en deux étapes : d’abord entraîner des experts spécifiques au domaine via un fine-tuning supervisé (SFT) et l’apprentissage par renforcement GRPO, puis les fusionner en un seul modèle grâce à une distillation en ligne. V4-Pro-Max (plus haut mode d’inférence) affirme être le modèle open-source le plus puissant, avec des benchmarks de codage de premier plan et des écarts nettement réduits par rapport aux modèles de pointe propriétaires sur les tâches de raisonnement et d’agents. V4-Flash-Max atteint des performances de raisonnement de niveau Pro avec un budget de calcul suffisant, mais est limité par l’échelle des paramètres sur les tâches de connaissance pure et les tâches d’agents complexes. Les poids sont stockés dans une précision mixte FP4+FP8.

Afficher la source

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.

Actualités associées

04-24 01:46

OpenAI lance GPT-5.5, conçu pour les tâches d’agent et les flux de travail complexes

04-23 20:42

Brèche de sécurité chez Vercel : s’étend à des centaines d’utilisateurs ; les développeurs IA à plus haut risque

04-23 14:41

OpenClaw 2026.4.22 unifie le cycle de vie des plugins entre les harness Codex et Pi, réduisant le temps de chargement des plugins jusqu’à 90 %

04-23 09:45

DeepSeek publie en open source TileKernels, une bibliothèque de noyaux GPU pour l’entraînement et l’inférence de grands modèles

04-23 04:54

Perplexity révèle sa méthode de post-formation pour des agents de recherche web ; le modèle basé sur Qwen3.5 surpasse GPT-5.4 en précision et en coût

Analyse approfondie

OpenAI lance GPT-5.5 : 12M de contexte, l’indice AA atteint le sommet, Terminal-Bench 82,7 % reconfigure la référence des agents

ChainNewsAbmedia04-23 19:45

Google Jules ouvre une nouvelle liste de candidats pour la prochaine version et se repositionne comme une plateforme de développement de produits de bout en bout

Market Whisper04-23 06:13

DeepSeek discute d’un premier tour de financement externe, valorisation 20 milliards de dollars : nouveau sommet pour l’évaluation de l’IA en Chine

ChainNewsAbmedia04-22 13:13

Commentaire

0/400

Aucun commentaire