Tag: Stepfun

Новый механизм внимания Step-снижение KV-кэша

В статье рассматривается новый механизм внимания Multi-matrix Factorization Attention (MFA) и его вариант MFA-Key-Reuse (MFA-KR), разработанные для снижения затрат на вывод больших языковых моделей (LLM). MFA превосходит MLA по производительности, соответствует MHA, снижая использование KV-кэша до 93.7%. MFA отличается простотой, легкостью воспроизведения и совместимостью. Исследование включает анализ производительности, сравнение с MQA и MLA, и экспериментальные результаты, демонстрирующие масштабируемость и экономию памяти.

Новый механизм внимания Step-снижение KV-кэша