Mécanisme d'Attention Innovant Réduction du Cache KV
Cet article explore le Multi-matrix Factorization Attention (MFA), une nouvelle architecture d'attention qui réduit considérablement l'utilisation du cache KV dans les grands modèles de langage (LLM), tout en améliorant les performances par rapport aux approches traditionnelles et aux alternatives telles que MQA et MLA. MFA, avec sa variante MFA-KR, offre une solution plus efficace et moins gourmande en mémoire pour l'inférence à grande échelle des LLM.