Google TurboQuant:3bit量子化KVキャッシュは精度の損失なく、推論速度は最大8倍向上

BlockBeatNews

1M AI Newsによる監測によると、Google研究所は量子圧縮アルゴリズムTurboQuantを発表しました。これにより、大規模言語モデルのKVキャッシュを3ビットに圧縮でき、メモリ使用量を少なくとも6倍削減します。訓練や微調整は不要で、モデルの精度を損なうこともありません。4ビットモードでは、NVIDIA H100 GPU上での注意力計算速度が32ビットの未量子化基準と比べて最大8倍向上します。

研究チームはLongBench、Needle In A Haystack、ZeroSCROLLSなどの長いコンテキストベンチマークでGemmaとMistralモデルを用いて検証し、TurboQuantはすべてのテストで最良の性能を示しました。このアルゴリズムは二つのサブアルゴリズムで構成されています。PolarQuantは極座標変換を用いて従来の量子化手法のメモリ負荷を排除し、QJLは1ビットだけで残余誤差を補正します。

この研究はGoogle研究所のAmir Zandiehと副社長兼Google FellowのVahab Mirrokniが主導し、韓国KAISTとニューヨーク大学と協力して行われ、ICLR 2026で発表される予定です。Googleはこの技術の主要な応用の一つとして、GeminiなどのモデルのKVキャッシュのボトルネック解消を挙げています。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし