Google publica el algoritmo TurboQuant: cuantización KV cache de 3 bits sin pérdida de precisión, velocidad de inferencia aumenta hasta 8 veces

Noticias de Gate News, el 25 de marzo, el Google Research Institute publicó el algoritmo de compresión cuantitativa TurboQuant, que puede comprimir la caché KV de modelos de lenguaje grande a 3 bits, reduciendo el uso de memoria al menos 6 veces, sin necesidad de entrenamiento o ajuste fino, y sin pérdida de precisión del modelo. En modo de 4 bits, la velocidad de cálculo de atención en la GPU Nvidia H100 se incrementa hasta 8 veces en comparación con la línea base de 32 bits sin cuantificación. El equipo de investigación validó TurboQuant en benchmarks de contexto largo como LongBench, Needle In A Haystack, ZeroSCROLLS, usando los modelos Gemma y Mistral, logrando el mejor rendimiento en todas las pruebas. El algoritmo consta de dos subalgoritmos: PolarQuant, que elimina el gasto de memoria de los métodos tradicionales de cuantificación mediante transformación en coordenadas polares, y QJL, que corrige errores residuales con solo 1 bit. La investigación fue liderada por Amir Zandieh del Google Research Institute y Vahab Mirrokni, vicepresidente y Google Fellow, en colaboración con KAIST en Corea y la Universidad de Nueva York, y será presentada en ICLR 2026. Google afirmó que una de las principales aplicaciones de esta tecnología es resolver el cuello de botella en la caché KV de modelos como Gemini.
Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios