Tag: Stepfun

מנגנון קשב חדש מפחית מטמון KV

מאמר זה מציג מנגנון קשב חדש בשם Multi-matrix Factorization Attention (MFA) וגרסתו MFA-Key-Reuse (MFA-KR), שמפחיתים משמעותית את עלות ההסקה של מודלי שפה גדולים תוך שיפור הביצועים. MFA ו-MFA-KR עולים על MLA בביצועים ומתאימים לביצועים של MHA מסורתי, תוך הפחתת השימוש במטמון KV בעד 93.7%. המאמר מנתח את העיצוב הכללי והקיבולת של מנגנוני קשב, מציג את המושג של Generalized Multi-Head Attention (GMHA) כמסגרת מאחדת, וקובע את Fully Parameterized Bilinear Attention (FPBA) כגבול העליון התיאורטי של הביצועים. MFA משלבת שלוש חדשנות עיקריות: הגדלת מספר וממד ראשי הקשב, שימוש בפירוק דרגה נמוכה, ושימוש בראש מפתח-ערך יחיד. תוצאות ניסיוניות מראות כי MFA שומרת על ביצועים מצוינים גם בסדרי גודל גדולים, ומשיגה חיסכון משמעותי בזיכרון.

מנגנון קשב חדש מפחית מטמון KV