DeepSeek publie la série de modèles open-source V4 avec 1,6T de paramètres et une licence MIT

Message d’actualité de Gate, 24 avril — DeepSeek a publié la série V4 de modèles open-source sous la licence MIT, avec des poids désormais disponibles sur Hugging Face et ModelScope. La série comprend deux modèles (MoE) de type mixture-of-experts : V4-Pro avec 1,6 billion de paramètres au total et 49 milliards activés par jeton, et V4-Flash avec 284 milliards de paramètres au total et 13 milliards activés par jeton. Les deux prennent en charge une fenêtre de contexte d’1 million de jetons.

L’architecture présente trois mises à niveau clés : un mécanisme d’attention hybride combinant l’attention clairsemée compressée (CSA) et l’attention fortement compressée (HCA) qui réduit considérablement la surcharge pour les longs contextes — pour V4-Pro, les FLOPs d’inférence pour un contexte de 1M ne sont que 27 % de ceux de V3.2, et le cache KV (VRAM destiné au stockage d’informations historiques pendant l’inférence) n’est que 10 % de celui de V3.2 ; des hyperconnexions à contraintes de manifold (mHC) remplaçant les connexions résiduelles traditionnelles afin d’améliorer la stabilité de la propagation du signal entre les couches ; et l’optimiseur Muon pour une convergence d’entraînement plus rapide. Le préentraînement a utilisé plus de 32 trillions de jetons de données.

Le post-entraînement emploie une approche en deux étapes : d’abord entraîner des experts spécifiques au domaine via un fine-tuning supervisé (SFT) et l’apprentissage par renforcement GRPO, puis les fusionner en un seul modèle grâce à une distillation en ligne. V4-Pro-Max (plus haut mode d’inférence) affirme être le modèle open-source le plus puissant, avec des benchmarks de codage de premier plan et des écarts nettement réduits par rapport aux modèles de pointe propriétaires sur les tâches de raisonnement et d’agents. V4-Flash-Max atteint des performances de raisonnement de niveau Pro avec un budget de calcul suffisant, mais est limité par l’échelle des paramètres sur les tâches de connaissance pure et les tâches d’agents complexes. Les poids sont stockés dans une précision mixte FP4+FP8.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire