Mekanisme Perhatian Baru Step Mengurangi KV Cache untuk LLM
Artikel ini membahas tentang mekanisme perhatian baru, Multi-matrix Factorization Attention (MFA), yang secara signifikan mengurangi penggunaan memori KV cache pada Large Language Models (LLM) tanpa mengorbankan kinerja. MFA dan variannya, MFA-KR, melampaui MLA dan setara dengan MHA tradisional dengan penghematan memori hingga 93.7%. MFA dirancang agar sederhana, mudah direproduksi, dan kompatibel dengan berbagai metode Pos-embedding, menjadikannya solusi efektif untuk mengatasi hambatan memori dalam inferensi LLM.