Google TurboQuant: cuantización KV de 3 bits sin pérdida de precisión, inferencia hasta 8 veces más rápida

BlockBeatNews

Según la monitorización de 1M AI News, Google Research ha lanzado el algoritmo de compresión cuantitativa TurboQuant, que puede comprimir la caché KV de modelos de lenguaje grande a 3 bits, reduciendo el uso de memoria al menos 6 veces, sin necesidad de entrenamiento o ajuste fino, y sin pérdida de precisión del modelo. En modo de 4 bits, la velocidad de cálculo de la atención en la GPU H100 de Nvidia es hasta 8 veces mayor que la línea base sin cuantificación de 32 bits.

El equipo de investigación ha validado TurboQuant en benchmarks de contexto largo como LongBench, Needle In A Haystack y ZeroSCROLLS, usando los modelos Gemma y Mistral, logrando el mejor rendimiento en todas las pruebas. El algoritmo consta de dos subalgoritmos: PolarQuant, que elimina el gasto de memoria de los métodos tradicionales de cuantificación mediante transformación en coordenadas polares, y QJL, que corrige el error residual con solo 1 bit.

Este estudio fue liderado por Amir Zandieh y Vahab Mirrokni, vicepresidente y fellow de Google, en colaboración con KAIST en Corea y la Universidad de Nueva York, y será presentado en ICLR 2026. Google indica que una de las principales aplicaciones de esta tecnología es resolver el cuello de botella en la caché KV de modelos como Gemini.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios