L’équipe de MIT de Kaiming He publie un modèle de diffusion de langage ELF avec 45 milliards de jetons d’entraînement

D’après Beating, l’équipe de MIT Kaiming He a récemment publié ELF (Embedded Language Flows), un modèle de diffusion de langage qui s’écarte de l’approche autoregressive « prédire le jeton suivant » utilisée par les modèles de type GPT. Au lieu de cela, ELF effectue la génération de texte dans un espace d’embeddings continus, ne convertissant en jetons discrets qu’à l’étape finale.

Lors des benchmarks de génération inconditionnelle sur OpenWebText, l’ELF-B à 105M paramètres a atteint environ 24,1 perplexité de génération (Gen. PPL) avec un échantillonnage sur 32 étapes, surpassant plusieurs baselines de modèles de langage à diffusion discrète et continue. Fait notable, ELF-B n’a nécessité qu’environ 45 milliards de tokens d’entraînement, soit à peu près un ordre de grandeur de moins que des méthodes comparables qui dépassent généralement 500 milliards de tokens.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire