Команда Мита Кайминга Хе выпустила модель диффузии языка ELF с 45 млрд токенов обучения

По словам Beating, команда МИТ Кайминга Хэ недавно выпустила ELF (Embedded Language Flows) — модель диффузии языка, которая отходит от авторегрессионного подхода «предсказывать следующий токен», используемого моделями в стиле GPT. Вместо этого ELF выполняет генерацию текста в непрерывном пространстве встраиваний, переводя в дискретные токены только на последнем шаге.

В бенчмарках безусловной генерации OpenWebText модель ELF-B с 105 млн параметров достигла примерно 24,1 перплексити генерации (Gen. PPL) при 32-шаговом семплировании, обойдя несколько базовых моделей дискретной и непрерывной диффузии языка. Примечательно, что ELF-B понадобилось только примерно 45 миллиардов обучающих токенов — примерно на один порядок меньше, чем сопоставимые методы, которые обычно превышают 500 миллиардов токенов.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев