De acordo com a Beating, a equipa de Kaiming He (MIT) lançou recentemente o ELF (Embedded Language Flows), um modelo de difusão de linguagem que se afasta da abordagem autorregressiva de “prever o token seguinte” usada por modelos do tipo GPT. Em vez disso, o ELF realiza a geração de texto num espaço de embeddings contínuo, convertendo para tokens discretos apenas no passo final.
Nos benchmarks de geração incondicional do OpenWebText, o ELF-B com 105M parâmetros alcançou cerca de 24,1 de perplexidade de geração (Gen. PPL) com amostragem em 32 passos, superando múltiplos modelos base de difusão de linguagem discretos e contínuos. Em particular, o ELF-B necessitou apenas de aproximadamente 45 mil milhões de tokens de treino, cerca de uma ordem de grandeza menos do que métodos comparáveis, que tipicamente excedem 500 mil milhões de tokens.