По словам Beating, команда МИТ Кайминга Хэ недавно выпустила ELF (Embedded Language Flows) — модель диффузии языка, которая отходит от авторегрессионного подхода «предсказывать следующий токен», используемого моделями в стиле GPT. Вместо этого ELF выполняет генерацию текста в непрерывном пространстве встраиваний, переводя в дискретные токены только на последнем шаге.
В бенчмарках безусловной генерации OpenWebText модель ELF-B с 105 млн параметров достигла примерно 24,1 перплексити генерации (Gen. PPL) при 32-шаговом семплировании, обойдя несколько базовых моделей дискретной и непрерывной диффузии языка. Примечательно, что ELF-B понадобилось только примерно 45 миллиардов обучающих токенов — примерно на один порядок меньше, чем сопоставимые методы, которые обычно превышают 500 миллиардов токенов.