Tag: Stepfun

ਨਵੀਂ ਅਟੈਂਸ਼ਨ ਮਕੈਨਿਜ਼ਮ KV ਕੈਸ਼ ਘਟਾਈ ਗਈ

ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਦੀ ਵੱਧਦੀ ਵਰਤੋਂ ਅਤੇ ਅਨੁਮਾਨ ਵਿੱਚ ਨਵੇਂ ਪੈਰਾਡਾਈਮਾਂ ਦੇ ਉਭਾਰ ਨੇ ਕੁਸ਼ਲ ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ ਅਨੁਮਾਨ ਦੀ ਚੁਣੌਤੀ ਨੂੰ ਸਾਹਮਣੇ ਲਿਆਂਦਾ ਹੈ। ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਰੁਕਾਵਟ ਰਵਾਇਤੀ ਧਿਆਨ ਵਿਧੀ ਦੇ ਅੰਦਰ ਕੀ-ਵੈਲਯੂ (KV) ਕੈਸ਼ ਹੈ, ਜੋ ਕਿ ਬੈਚ ਦੇ ਆਕਾਰ ਅਤੇ ਕ੍ਰਮ ਦੀ ਲੰਬਾਈ ਦੇ ਨਾਲ ਲੀਨੀਅਰ ਰੂਪ ਵਿੱਚ ਫੈਲਦੀ ਹੈ, ਇੱਕ 'ਮੈਮੋਰੀ ਹੋਗ' ਬਣ ਜਾਂਦੀ ਹੈ ਜੋ LLMs ਦੇ ਸਕੇਲਿੰਗ ਅਤੇ ਵਿਸਥਾਰ ਵਿੱਚ ਰੁਕਾਵਟ ਪਾਉਂਦੀ ਹੈ। ਮਲਟੀ-ਮੈਟ੍ਰਿਕਸ ਫੈਕਟੋਰਾਈਜ਼ੇਸ਼ਨ ਅਟੈਂਸ਼ਨ (MFA) ਅਤੇ ਇਸਦਾ ਰੂਪ MFA-Key-Reuse (MFA-KR) ਇੱਕ ਨਵੀਂ ਧਿਆਨ ਵਿਧੀ ਆਰਕੀਟੈਕਚਰ ਹੈ ਜੋ ਭਾਸ਼ਾ ਮਾਡਲ ਅਨੁਮਾਨ ਦੀ ਲਾਗਤ ਨੂੰ ਕਾਫ਼ੀ ਘਟਾਉਂਦਾ ਹੈ ਜਦੋਂ ਕਿ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਸੁਧਾਰ ਹੁੰਦਾ ਹੈ। MFA ਅਤੇ MFA-KR ਨਾ ਸਿਰਫ਼ MLA ਨੂੰ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਪਛਾੜਦੇ ਹਨ, ਸਗੋਂ ਰਵਾਇਤੀ MHA ਪ੍ਰਦਰਸ਼ਨ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਹਨ ਜਦੋਂ ਕਿ KV ਕੈਸ਼ ਦੀ ਵਰਤੋਂ ਨੂੰ 93.7% ਤੱਕ ਘਟਾਉਂਦੇ ਹਨ।

ਨਵੀਂ ਅਟੈਂਸ਼ਨ ਮਕੈਨਿਜ਼ਮ KV ਕੈਸ਼ ਘਟਾਈ ਗਈ