Tag: Stepfun

Reduzierte KV-Cache-Nutzung durch neuen Aufmerksamkeitsmechanismus

Ein neuer Aufmerksamkeitsmechanismus namens Multi-Matrix Factorization Attention (MFA) und seine Variante MFA-Key-Reuse (MFA-KR) reduzieren den KV-Cache-Verbrauch in großen Sprachmodellen (LLMs) erheblich und verbessern gleichzeitig die Leistung. MFA übertrifft MLA und erreicht die Leistung von MHA mit bis zu 93,7% weniger KV-Cache-Nutzung. MFA ist einfach, reproduzierbar und mit verschiedenen Pos-Embedding-Methoden kompatibel. Die Forschung analysierte die Kapazität von Aufmerksamkeitsmechanismen und entwickelte neue Analysemethoden. MFA maximiert die Modellkapazität durch mehr Aufmerksamkeitsköpfe und eine Low-Rank-Zerlegung, während der Speicherverbrauch durch einen einzelnen Key-Value-Head minimal gehalten wird. Experimente zeigen, dass MFA mit MHA skaliert und große Speichereinsparungen erzielt.

Reduzierte KV-Cache-Nutzung durch neuen Aufmerksamkeitsmechanismus