Nieuw Aandachtsmechanisme Vermindert KV-Cache voor Efficiënte LLM's
Dit artikel bespreekt de Multi-matrix Factorization Attention (MFA) en MFA-Key-Reuse (MFA-KR) mechanismen, die de kosten van taalmodelinferentie aanzienlijk verminderen en tegelijkertijd de prestaties verbeteren. MFA en MFA-KR overtreffen MLA in prestaties en evenaren de traditionele MHA-prestaties, terwijl het KV-cachegebruik met tot wel 93,7% wordt verminderd. Het onderzoek analyseerde de algemene opzet en capaciteit van aandachtmechanismen, wat leidde tot de ontwikkeling van nieuwe analytische methoden en ontwerpprincipes, met als doel een aandachtmechanisme te creëren dat het resourceverbruik minimaliseert en tegelijkertijd de theoretische prestatielimieten benadert.