बड़े भाषा मॉडल में मेमोरी प्रबंधन के लिए एक नया ध्यान तंत्र
बड़े भाषा मॉडल (LLM) में कुशल अनुमान एक महत्वपूर्ण चुनौती है। पारंपरिक ध्यान तंत्र में Key-Value (KV) कैश एक मेमोरी बाधा है। मल्टी-मैट्रिक्स फैक्टराइजेशन अटेंशन (MFA) और MFA-Key-Reuse (MFA-KR) जैसे नए तंत्र मेमोरी के उपयोग को कम करते हैं और प्रदर्शन को बढ़ाते हैं। MFA पारंपरिक MHA के प्रदर्शन से मेल खाता है और KV कैश उपयोग को 93.7% तक कम करता है। यह डिजाइन में सरल, पुनरुत्पादन में आसान और विभिन्न पॉस-एम्बेडिंग विधियों के साथ संगत है। MFA के विश्लेषण में टोटल इफेक्टिव रैंक (TER) और शेयर्ड लेटेंट सबस्पेस डायमेंशन (SLSD) जैसे नए मैट्रिक्स शामिल हैं। MFA, MQA और MLA की तुलना में बेहतर प्रदर्शन करता है, और यह LLM अनुप्रयोगों को गति देने में मदद करता है।