Theo Beating, nhóm của MIT Kaiming He gần đây đã công bố ELF (Embedded Language Flows), một mô hình khuếch tán ngôn ngữ đi chệch khỏi cách tiếp cận tự hồi quy “dự đoán token tiếp theo” mà các mô hình kiểu GPT sử dụng. Thay vào đó, ELF thực hiện sinh văn bản trong không gian nhúng liên tục, chỉ chuyển đổi sang các token rời rạc ở bước cuối cùng.
Trong các benchmark sinh không điều kiện trên OpenWebText, ELF-B với 105M tham số đạt xấp xỉ 24,1 độ nghịch đảo sinh (Gen. PPL) với lấy mẫu 32 bước, vượt trội nhiều mô hình ngôn ngữ khuếch tán rời rạc và liên tục khác. Đáng chú ý, ELF-B chỉ cần khoảng 45 tỷ token huấn luyện, ít hơn cỡ một bậc độ lớn so với các phương pháp tương đương vốn thường vượt quá 500 tỷ token.