Nowy Mechanizm Atencji Redukujący Pamięć KV Cache
Artykuł omawia nowy mechanizm uwagi o nazwie Multi-matrix Factorization Attention (MFA) i jego wariant MFA-Key-Reuse (MFA-KR), który znacząco redukuje zużycie pamięci KV Cache w modelach językowych, jednocześnie poprawiając wydajność. MFA i MFA-KR przewyższają MLA i dorównują MHA, zmniejszając zużycie pamięci KV Cache nawet o 93.7%. Mechanizm ten charakteryzuje się prostotą, łatwością reprodukcji, niską wrażliwością na hiperparametry i kompatybilnością z różnymi metodami Pos-embedding. Analiza projektu mechanizmów uwagi doprowadziła do koncepcji Generalized Multi-Head Attention (GMHA) i Fully Parameterized Bilinear Attention (FPBA) jako teoretycznego limitu wydajności. MFA wykorzystuje zwiększoną liczbę i wymiar głów uwagi, strategię niskiego rzędu rozkładu oraz pojedynczą głowę klucz-wartość. Eksperymenty pokazały, że MFA zachowuje dobrą skalowalność i wydajność przy dużych modelach, a w połączeniu z MFA-KR osiąga znaczne oszczędności pamięci.