کاهش حافظه پنهان KV با مکانیسم توجه جدید گام
این مقاله به بررسی مکانیسم توجه جدید چند ماتریسی فاکتوریزاسیون (MFA) و نوع آن MFA-KR می پردازد که با کاهش قابل توجه مصرف حافظه پنهان KV، هزینه استنتاج مدل های زبانی بزرگ را کاهش می دهد. MFA با حفظ عملکردی مشابه MHA سنتی، به میزان 93.7% در مصرف حافظه صرفه جویی می کند. این مکانیسم همچنین از نظر سادگی، سهولت بازتولید، حساسیت کم به ابرپارامترها و سازگاری با روش های مختلف تعبیه موقعیت برتری دارد. MFA با نوآوری هایی در افزایش تعداد و ابعاد سر توجه، استفاده از تجزیه رتبه پایین و طراحی یک سر کلید-مقدار، به این مهم دست یافته است. نتایج تجربی نشان می دهد که MFA در مقایسه با MQA و MLA، به حافظه پنهان KV کوچکتر و رتبه موثر کل بالاتری دست می یابد و در مقایسه با MHA سنتی، با وجود SLSD کوچکتر، TER بالاتری دارد. این مکانیسم جدید، با یک طراحی ساده، به طور موثر به مشکل گلوگاه حافظه در استنتاج LLM ها پرداخته و بدون ایجاد پیچیدگی های مهندسی اضافی، در اکوسیستم ترانسفورمر ادغام می شود.