Según Beating monitoring, Google lanzó un modelo de generación de texto de código abierto llamado DiffusionGemma, que utiliza un mecanismo basado en difusión para generar texto en bloques paralelos en lugar de forma secuencial token por token. El modelo de 26B parámetros activa solo 3,8B parámetros por pasada hacia adelante bajo una arquitectura de mixture-of-experts, logrando una mejora de 4x en la inferencia local en GPU.
En una sola GPU NVIDIA H100, DiffusionGemma alcanza más de 1000 tokens por segundo, mientras que la RTX 5090 de gama de consumo supera los 700 tokens por segundo. Tras la cuantización de punto flotante de 4 bits, el modelo requiere menos de 18GB de VRAM. Los pesos de DiffusionGemma ya están liberados como código abierto en Hugging Face y cuentan con soporte de MLX, vLLM, Unsloth y NVIDIA NeMo.