آلية الانتباه الجديدة لتقليل ذاكرة التخزين المؤقت KV
تستكشف هذه المقالة آلية انتباه جديدة تسمى MFA و MFA-KR، والتي تقلل بشكل كبير من استخدام ذاكرة التخزين المؤقت KV في نماذج اللغة الكبيرة مع الحفاظ على الأداء أو تحسينه. تعمل MFA على تحسين كفاءة الذاكرة من خلال زيادة عدد رؤوس الانتباه والأبعاد، واستخدام تقنية التحلل منخفض الرتبة، وتوظيف تصميم رأس واحد للمفتاح والقيمة. أظهرت النتائج التجريبية أن MFA تتفوق على آليات الانتباه الأخرى مثل MQA و MLA، وتوفر تخفيضًا كبيرًا في استخدام الذاكرة.