По словам Beating, команда МИТ Кайминга Хэ недавно выпустила ELF (Embedded Language Flows) — модель диффузии языка, которая отходит от авторегрессионного подхода «предсказывать следующий токен», используемого моделями в стиле GPT. Вместо этого ELF выполняет генерацию текста в непрерывном пространстве встраиваний, переводя в дискретные токены только на последнем шаге.

В бенчмарках безусловной генерации OpenWebText модель ELF-B с 105 млн параметров достигла примерно 24,1 перплексити генерации (Gen. PPL) при 32-шаговом семплировании, обойдя несколько базовых моделей дискретной и непрерывной диффузии языка. Примечательно, что ELF-B понадобилось только примерно 45 миллиардов обучающих токенов — примерно на один порядок меньше, чем сопоставимые методы, которые обычно превышают 500 миллиардов токенов.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-13 00:16

Фонд Ethereum поддерживает стандарты безопасной подписи ERC-7730 и запускает публичный реестр

05-12 12:58

Artificial Analysis выпускает бенчмарк для кодирующих агентов; Zhipu GLM-5.1 занимает первое место среди моделей с открытым исходным кодом

05-12 11:13

NVIDIA и Массачусетский технологический институт (MIT) выпускают фреймворк Lightning OPD, повышая эффективность дистилляции моделей в 4 раза при устранении проблем с памятью GPU

05-12 10:45

Вводимый метод Douban запускается на macOS с ИИ-голосом и двуязычным вводом

05-12 00:45

Thinking Machines запускает модель взаимодействия с откликом 200 мс, опережая GPT-Realtime-2.0

Детальный анализ