Google open-source modèle de diffusion de texte DiffusionGemma : plus de 1000 tokens par seconde sur une seule carte, vitesse multipliée par 4

GOOGLX-2,08%
Selon le suivi Beating, Google a publié un modèle de grande envergure expérimental open source appelé DiffusionGemma, utilisant un mécanisme de génération de texte basé sur la diffusion, une nouvelle approche qui brise la limite de la génération séquentielle mot par mot des modèles de langage traditionnels.
DiffusionGemma possède un total de 26 milliards de paramètres, et sous une architecture de spécialistes mixtes (MoE), seule une partie de 3,8 milliards de paramètres est activée lors de chaque propagation avant, permettant une génération parallèle de blocs entiers de texte, ce qui se traduit par une augmentation de vitesse allant jusqu’à 4 fois lors de l’inférence sur GPU local.

Contrairement à la génération séquentielle « à la machine à écrire » traditionnelle, le fonctionnement de DiffusionGemma ressemble à celui de la génération d’images : d’abord, générer des espaces réservés aléatoires sur la toile, puis, à travers plusieurs étapes de débruitage itératives, effacer le bruit et fixer le texte correct. Chaque propagation avant peut générer parallèlement 256 tokens, permettant à tous les tokens d’interagir via une attention bidirectionnelle.
Ce mécanisme d’attention bidirectionnelle offre des avantages significatifs dans des tâches de génération non linéaires telles que le remplissage de code, l’édition en ligne et la génération de formules mathématiques, mais la qualité globale de sortie de DiffusionGemma reste actuellement inférieure à celle du Gemma 4 standard.

En termes de test matériel et de performance de vitesse d’inférence, une seule carte NVIDIA H100 peut atteindre une vitesse de génération de plus de 1000 tokens par seconde, tandis qu’une carte grand public NVIDIA GeForce RTX 5090 dépasse également 700 tokens.
Après quantification en virgule flottante 4 bits (NVFP4), l’utilisation de la mémoire GPU pour l’inférence peut être réduite à moins de 18 Go, ce qui réduit considérablement la barrière pour le déploiement local.

Les poids de DiffusionGemma ont été open source sur Hugging Face, et ils sont supportés par des outils de développement principaux tels que MLX, vLLM, Unsloth et NVIDIA NeMo.
Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire