Theo Beating monitoring, Google đã phát hành một mô hình tạo văn bản mã nguồn mở có tên DiffusionGemma, sử dụng cơ chế khuếch tán để tạo văn bản theo các khối song song thay vì tuần tự từng token. Mô hình 26B tham số chỉ kích hoạt 3,8B tham số mỗi lượt forward theo kiến trúc mixture-of-experts, đạt cải thiện tốc độ 4 lần trong suy luận trên GPU cục bộ.
Trên một GPU NVIDIA H100 duy nhất, DiffusionGemma đạt hơn 1000 token mỗi giây, trong khi RTX 5090 tầm trung vượt hơn 700 token mỗi giây. Sau khi lượng tử hóa dấu phẩy động 4-bit, mô hình cần dưới 18GB VRAM. Trọng số của DiffusionGemma hiện đã được mở mã nguồn trên Hugging Face và được hỗ trợ bởi MLX, vLLM, Unsloth và NVIDIA NeMo.