Según Beating, el equipo de MIT Kaiming He publicó recientemente ELF (Embedded Language Flows), un modelo de difusión de lenguaje que se aparta del enfoque autoregresivo de “predecir el siguiente token” utilizado por los modelos tipo GPT. En su lugar, ELF realiza la generación de texto en un espacio de incrustaciones continuo, convirtiendo en tokens discretos solo en el paso final.
En los puntos de referencia de generación incondicional en OpenWebText, ELF-B, con 105M parámetros, logró aproximadamente 24,1 de perplexidad de generación (Gen. PPL) con muestreo de 32 pasos, superando varios modelos base de lenguaje de difusión discretos y continuos. En particular, ELF-B necesitó solo aproximadamente 45 mil millones de tokens de entrenamiento, unas diez veces menos que métodos comparables que normalmente superan 500 mil millones de tokens.