Nhóm của Kaiming He tại MIT phát hành mô hình khuếch tán ngôn ngữ ELF với 45 tỷ token huấn luyện

Theo Beating, nhóm của MIT Kaiming He gần đây đã công bố ELF (Embedded Language Flows), một mô hình khuếch tán ngôn ngữ đi chệch khỏi cách tiếp cận tự hồi quy “dự đoán token tiếp theo” mà các mô hình kiểu GPT sử dụng. Thay vào đó, ELF thực hiện sinh văn bản trong không gian nhúng liên tục, chỉ chuyển đổi sang các token rời rạc ở bước cuối cùng.

Trong các benchmark sinh không điều kiện trên OpenWebText, ELF-B với 105M tham số đạt xấp xỉ 24,1 độ nghịch đảo sinh (Gen. PPL) với lấy mẫu 32 bước, vượt trội nhiều mô hình ngôn ngữ khuếch tán rời rạc và liên tục khác. Đáng chú ý, ELF-B chỉ cần khoảng 45 tỷ token huấn luyện, ít hơn cỡ một bậc độ lớn so với các phương pháp tương đương vốn thường vượt quá 500 tỷ token.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận