За даними моніторингу Beating, Google випустив open-source текстову модель генерації під назвою DiffusionGemma, яка використовує механізм дифузії для генерації тексту паралельними блоками, а не послідовно токен-за-токеном. Модель із 26 млрд параметрів активує лише 3,8 млрд параметрів за один прямий прохід у межах архітектури mixture-of-experts, досягаючи 4-кратного прискорення локального GPU-виведення.
На одному GPU NVIDIA H100 DiffusionGemma досягає понад 1000 токенів за секунду, тоді як споживчий RTX 5090 перевищує 700 токенів за секунду. Після 4-бітового квантування з плаваючою комою модель потребує менше ніж 18ГБ VRAM. Ваги DiffusionGemma вже відкриті в GitHub Hugging Face та підтримуються MLX, vLLM, Unsloth і NVIDIA NeMo.