Mekanisme Perhatian Baru Mengurangkan KV Cache
Artikel ini membincangkan mekanisme perhatian baru, Multi-matrix Factorization Attention (MFA) dan variannya MFA-Key-Reuse (MFA-KR), yang secara signifikan mengurangkan kos inferensi model bahasa sambil meningkatkan prestasi. MFA dan MFA-KR mengatasi MLA dalam prestasi dan menyamai prestasi MHA tradisional sambil mengurangkan penggunaan KV Cache sehingga 93.7%. Mekanisme ini mudah, mudah direproduksi, tidak sensitif terhadap hiperparameter, dan serasi dengan pelbagai kaedah Pos-embedding.