De acordo com Beating, a equipe de MIT Kaiming He lançou recentemente o ELF (Embedded Language Flows), um modelo de difusão de linguagem que se afasta da abordagem autoregressiva de “prever o próximo token” usada por modelos estilo GPT. Em vez disso, o ELF realiza a geração de texto em um espaço de embeddings contínuo, convertendo em tokens discretos apenas na etapa final.
Nos benchmarks de geração incondicional do OpenWebText, o ELF-B com 105M parâmetros alcançou aproximadamente 24,1 de perplexidade de geração (Gen. PPL) com amostragem em 32 etapas, superando várias bases de modelos de linguagem de difusão discretos e contínuos. Notavelmente, o ELF-B exigiu apenas aproximadamente 45 bilhões de tokens de treinamento, cerca de uma ordem de grandeza a menos do que métodos comparáveis, que normalmente excedem 500 bilhões de tokens.