Menurut Beating, tim Kaiming He dari MIT baru-baru ini merilis ELF (Embedded Language Flows), sebuah model difusi bahasa yang menyimpang dari pendekatan autoregresif "memprediksi token berikutnya" yang digunakan oleh model bergaya GPT. Sebagai gantinya, ELF melakukan generasi teks dalam ruang embedding kontinu, mengubahnya menjadi token diskrit hanya pada langkah terakhir.
Pada tolok ukur generasi tanpa kondisi OpenWebText, ELF-B dengan 105M parameter mencapai sekitar 24,1 perplexity generasi (Gen. PPL) dengan sampling 32 langkah, mengungguli berbagai baseline model bahasa difusi diskrit maupun kontinu. Yang menonjol, ELF-B hanya memerlukan kira-kira 45 miliar token pelatihan, sekitar satu orde besarnya lebih sedikit dibanding metode sebanding yang biasanya melampaui 500 miliar token.