تكشف Baseten عن طريقة ضغط ما يزال KV cache تحقق معدل ضغط يبلغ 200 ضعف

وفقاً لبحث Beating، كشفت وحدة أبحاث Baseten عن Still، وهي طريقة لضغط ذاكرة التخزين المؤقت KV تتيح تحقيق ضغط يصل إلى 200x في تمرير أمامي واحد دون أي تحسينات عبر الإنترنت أو تحديثات للمدرجات. تدمج Still ضواغط Perceiver خفيفة الوزن—بحجم يقارب 1% من معلمات النموذج الأساسي—داخل كل طبقة من طبقات Transformer، وتطبّق انتباهاً متصالباً على ذاكرة التخزين المؤقت KV الكاملة لتوليد ذاكرة مضغوطة مباشرة. جرى اختبارها على نماذج Qwen وGemma عبر نوافذ سياق من 8k إلى 64k بمعدلات ضغط من 8x إلى 200x، حيث حافظت Still على دقة عالية مع تفوقها على طرق مماثلة مثل SnapKV وH2O وKV-Distill في معيار RULER.
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات