Google Open-Sources DiffusionGemma Model: hơn 1.000 token mỗi giây trên H100, tăng tốc độ 4 lần

Theo Beating monitoring, Google đã phát hành một mô hình tạo văn bản mã nguồn mở có tên DiffusionGemma, sử dụng cơ chế khuếch tán để tạo văn bản theo các khối song song thay vì tuần tự từng token. Mô hình 26B tham số chỉ kích hoạt 3,8B tham số mỗi lượt forward theo kiến trúc mixture-of-experts, đạt cải thiện tốc độ 4 lần trong suy luận trên GPU cục bộ.

Trên một GPU NVIDIA H100 duy nhất, DiffusionGemma đạt hơn 1000 token mỗi giây, trong khi RTX 5090 tầm trung vượt hơn 700 token mỗi giây. Sau khi lượng tử hóa dấu phẩy động 4-bit, mô hình cần dưới 18GB VRAM. Trọng số của DiffusionGemma hiện đã được mở mã nguồn trên Hugging Face và được hỗ trợ bởi MLX, vLLM, Unsloth và NVIDIA NeMo.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận