Tag: Stepfun

Mecanismo de Atención MFA: Reducción de KV Cache en LLMs

Este artículo explora el innovador mecanismo de atención Multi-matrix Factorization Attention (MFA) y su variante MFA-KR, que reducen significativamente el uso de memoria KV Cache en modelos de lenguaje grandes (LLMs), superando a alternativas como MLA y acercándose al rendimiento de MHA. MFA destaca por su simplicidad, eficiencia y compatibilidad con diversos métodos de Pos-embedding, ofreciendo una solución escalable para la inferencia de LLMs.

Mecanismo de Atención MFA: Reducción de KV Cache en LLMs