Нов механизъм за внимание намалява KV кеша
В статията се представя нов механизъм за внимание, наречен Multi-matrix Factorization Attention (MFA), който значително намалява потреблението на памет при извод на големи езикови модели (LLM). MFA превъзхожда MLA по производителност и се доближава до MHA, като същевременно намалява използването на KV кеша до 93.7%. Механизмът е проектиран за простота, лесна възпроизводимост и съвместимост с различни методи за позиционно вграждане. Изследването анализира общия дизайн на механизмите за внимание и идентифицира ключови измерения, свързани с капацитета. MFA постига по-високи стойности на TER и SLSD в сравнение с MQA и MLA. Експерименталните резултати показват, че MFA поддържа отлична производителност дори при по-големи мащаби, като същевременно осигурява значителни икономии на памет.