Google відкриває вихідний код моделі DiffusionGemma: понад 1 тис. токенів на секунду на H100, приріст швидкості в 4 рази

2026-06-11 00:29:28

За даними моніторингу Beating, Google випустив open-source текстову модель генерації під назвою DiffusionGemma, яка використовує механізм дифузії для генерації тексту паралельними блоками, а не послідовно токен-за-токеном. Модель із 26 млрд параметрів активує лише 3,8 млрд параметрів за один прямий прохід у межах архітектури mixture-of-experts, досягаючи 4-кратного прискорення локального GPU-виведення.

На одному GPU NVIDIA H100 DiffusionGemma досягає понад 1000 токенів за секунду, тоді як споживчий RTX 5090 перевищує 700 токенів за секунду. Після 4-бітового квантування з плаваючою комою модель потребує менше ніж 18ГБ VRAM. Ваги DiffusionGemma вже відкриті в GitHub Hugging Face та підтримуються MLX, vLLM, Unsloth і NVIDIA NeMo.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

13год тому

Mastercard запускає Agent Pay для фреймворку Machines разом із 30+ партнерами, зокрема RippleX

14год тому

Curve запускає Llamalend v2 на Optimism і отримує 250 тис. OP заохочення

06-10 03:41

Google запускає Gemini 3.5 Live Translate із підтримкою 70+ мов для перекладу мовлення в реальному часі

06-09 15:22

Google запускає Gemini 3.5 для перекладу голос-у-голос у реальному часі 9 червня

06-09 09:01

Xiaomi MiMo-V2.5-Pro запускає режим UltraSpeed із швидкістю понад 1 000 токенів/с 9 червня

Поглиблений аналіз