대규모 언어 모델 추론 효율성 향상: MFA의 KV 캐시 감소 전략
대규모 언어 모델(LLM) 추론 시 메모리 병목 현상을 해결하는 새로운 어텐션 메커니즘 MFA(Multi-matrix Factorization Attention) 및 MFA-KR(MFA-Key-Reuse)을 소개합니다. 이 메커니즘은 KV 캐시 사용량을 93.7%까지 줄이면서도 기존 MHA 성능을 유지하거나 능가하며, 복잡성을 줄이고 다양한 Pos-embedding 방법과 호환됩니다. MFA는 어텐션 헤드 수와 차원을 늘려 모델 용량을 극대화하고, 저랭크 분해 전략을 통해 파라미터 효율성을 유지하며, 단일 키-값 헤드 디자인으로 메모리 소비를 최소화합니다. 실험 결과 MFA는 기존 MHA와 유사한 확장성을 보이며, 대규모 모델에서 87.5%의 메모리 절감 효과를 달성했습니다.