RWKV-X: ਲੰਬੀ ਸੰਦਰਭ ਭਾਸ਼ਾ ਮਾਡਲਿੰਗ ਲਈ ਨਵੀਂ ਆਰਕੀਟੈਕਚਰ

ਵੱਡੀਆਂ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਦੀਆਂ ਹੱਦਾਂ ਲੰਬੇ ਅਤੇ ਗੁੰਝਲਦਾਰ ਕ੍ਰਮਾਂ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਦੀ ਵੱਧ ਰਹੀ ਮੰਗ ਦੁਆਰਾ ਧੱਕੀਆਂ ਗਈਆਂ ਹਨ। ਪਰੰਪਰਾਗਤ ਟਰਾਂਸਫਾਰਮਰ-ਅਧਾਰਤ ਆਰਕੀਟੈਕਚਰ, ਸ਼ਕਤੀਸ਼ਾਲੀ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਲੜੀ ਦੀ ਲੰਬਾਈ ਦੇ ਸਬੰਧ ਵਿੱਚ ਉਹਨਾਂ ਦੀ ਵਰਗਾਕਾਰ ਗੁੰਝਲਤਾ ਦੇ ਕਾਰਨ ਮਹੱਤਵਪੂਰਨ ਸਕੇਲਿੰਗ ਮੁੱਦਿਆਂ ਨਾਲ ਜੂਝਦੇ ਹਨ। ਇਹ ਸੀਮਾ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਉਦੋਂ ਸਪੱਸ਼ਟ ਹੋ ਜਾਂਦੀ ਹੈ ਜਦੋਂ ਲੰਬੇ ਸੰਦਰਭ ਇਨਪੁਟਸ ਨਾਲ ਨਜਿੱਠਣਾ, ਲੜੀ ਦੇ ਦੂਰ ਦੇ ਹਿੱਸਿਆਂ ਤੋਂ ਜਾਣਕਾਰੀ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਹਾਸਲ ਕਰਨ ਅਤੇ ਵਰਤਣ ਦੀ ਉਹਨਾਂ ਦੀ ਯੋਗਤਾ ਵਿੱਚ ਰੁਕਾਵਟ ਆਉਂਦੀ ਹੈ। ਇਸ ਚੁਣੌਤੀ ਦੇ ਜਵਾਬ ਵਿੱਚ, ਨਵੀਨਤਾਕਾਰੀ ਪਹੁੰਚਾਂ ਦੀ ਇੱਕ ਲਹਿਰ ਉੱਭਰੀ ਹੈ, ਜਿਸਦਾ ਉਦੇਸ਼ ਲੰਬੇ ਕ੍ਰਮਾਂ ਦੀ ਪ੍ਰੋਸੈਸਿੰਗ ਵਿੱਚ ਰੇਖਿਕ ਗੁੰਝਲਤਾ ਪ੍ਰਾਪਤ ਕਰਨਾ ਹੈ।

ਇਹਨਾਂ ਤਰੀਕਿਆਂ ਵਿੱਚ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਮਾਡਲ, ਸਟੇਟ ਸਪੇਸ ਮਾਡਲ (ਜਿਵੇਂ ਕਿ ਮਾਂਬਾ), ਲੀਨੀਅਰ RNNs (ਜਿਵੇਂ ਕਿ ਡੈਲਟਾ ਨੈੱਟ), ਅਤੇ RWKV ਸ਼ਾਮਲ ਹਨ। ਇਹਨਾਂ ਵਿੱਚੋਂ ਹਰੇਕ ਆਰਕੀਟੈਕਚਰ ਵਰਗਾਕਾਰ ਗੁੰਝਲਤਾ ਦੀ ਸਮੱਸਿਆ ਦਾ ਇੱਕ ਵਿਲੱਖਣ ਹੱਲ ਪੇਸ਼ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ ਲੰਬੇ ਕ੍ਰਮਾਂ ਦੀ ਵਧੇਰੇ ਕੁਸ਼ਲ ਪ੍ਰੋਸੈਸਿੰਗ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਇਹਨਾਂ ਲੀਨੀਅਰ ਆਰਕੀਟੈਕਚਰਾਂ ਨੂੰ ਅਕਸਰ ਲੰਬੇ-ਸੰਦਰਭ ਜਾਣਕਾਰੀ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਮਝਣ ਅਤੇ ਵਰਤਣ ਵਿੱਚ ਮੁਸ਼ਕਲਾਂ ਆਉਂਦੀਆਂ ਹਨ।

ਉਦਾਹਰਨ ਲਈ, RWKV-7 (ਇੱਕ 2.9B ਪੈਰਾਮੀਟਰ ਮਾਡਲ) 28K ਟੋਕਨਾਂ ਤੱਕ ਦੇ ਪਾਸਕੀ ਪ੍ਰਾਪਤੀ ਕਾਰਜਾਂ ਵਿੱਚ ਉੱਚ ਸ਼ੁੱਧਤਾ ਦਰਸਾਉਂਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਇਸ ਥ੍ਰੈਸ਼ਹੋਲਡ ਤੋਂ ਪਰੇ ਇਸਦਾ ਪ੍ਰਦਰਸ਼ਨ ਤੇਜ਼ੀ ਨਾਲ ਵਿਗੜਦਾ ਹੈ। ਇੱਥੋਂ ਤੱਕ ਕਿ 128K-ਲੰਬਾਈ ਵਾਲੇ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਨਿਰੰਤਰ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਦੇ ਨਾਲ ਵੀ, ਲੰਬੇ-ਸੰਦਰਭ ਸੀਮਾਵਾਂ ਬਣੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ। ਇਹ ਮੁੱਦਾ RWKV ਲਈ ਵਿਲੱਖਣ ਨਹੀਂ ਹੈ; ਇਹ ਮਾਂਬਾ ਵਰਗੇ ਹੋਰ ਆਰਕੀਟੈਕਚਰਾਂ ਤੱਕ ਫੈਲਿਆ ਹੋਇਆ ਹੈ, ਜੋ ਕਿ ਮਾਡਲਾਂ ਦੇ ਇਸ ਵਰਗ ਲਈ ਇੱਕ ਬੁਨਿਆਦੀ ਚੁਣੌਤੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਲੰਬੇ ਸੰਦਰਭਾਂ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਣਾਈ ਰੱਖਣ ਲਈ ਸੰਘਰਸ਼ ਲੀਨੀਅਰ ਗੁੰਝਲਤਾ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਵਿੱਚ ਸੁਧਾਰ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਖੇਤਰ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ।

ਲੀਨੀਅਰ ਗੁੰਝਲਤਾ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦਾ ਲੈਂਡਸਕੇਪ

ਲੀਨੀਅਰ ਗੁੰਝਲਤਾ ਭਾਸ਼ਾ ਮਾਡਲ ਟਰਾਂਸਫਾਰਮਰ-ਅਧਾਰਤ ਆਰਕੀਟੈਕਚਰਾਂ ਦੇ ਆਕਰਸ਼ਕ ਵਿਕਲਪਾਂ ਵਜੋਂ ਸਾਹਮਣੇ ਆਏ ਹਨ, ਜੋ ਲੰਬੇ ਕ੍ਰਮਾਂ ਦੀ ਪ੍ਰੋਸੈਸਿੰਗ ਵਿੱਚ ਅੰਤਰਨਿਹਿਤ ਵਰਗਾਕਾਰ ਕੰਪਿਊਟੇਸ਼ਨਲ ਬੋਝਾਂ ਤੋਂ ਬਚਦੇ ਹਨ। RWKV ਮਾਡਲ ਪਰਿਵਾਰ, ਇਸ ਖੇਤਰ ਵਿੱਚ ਖੜ੍ਹਾ ਹੈ, ਸਿਖਲਾਈ ਦੌਰਾਨ ਟਰਾਂਸਫਾਰਮਰਾਂ ਦੀ ਸਮਾਨਾਂਤਰਤਾ ਨੂੰ RNN ਵਰਗੇ ਰੀਕਰੈਂਟ ਸਟੇਟ ਪ੍ਰਤੀਨਿਧਤਾ ਨਾਲ ਮੁਹਾਰਤ ਨਾਲ ਵਿਆਹਦਾ ਹੈ।

RWKV ਦਾ ਵਿਕਾਸ ਕਈ ਦੁਹਰਾਓ ਵਿੱਚ ਫੈਲਿਆ ਹੋਇਆ ਹੈ, ਜੋ ਕਿ ਬੁਨਿਆਦੀ RWKV-4 ਤੋਂ ਸ਼ੁਰੂ ਹੋ ਕੇ, RWKV-5, RWKV-6, ਅਤੇ RWKV-7 ਵਿੱਚ ਸਮਾਪਤ ਹੁੰਦਾ ਹੈ। ਹਰੇਕ ਦੁਹਰਾਓ ਨੇ ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਵਧਾਉਣ ਅਤੇ ਸੀਮਾਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਸੁਧਾਰ ਅਤੇ ਸੁਧਾਰ ਲਿਆਏ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਹਾਈਬ੍ਰਿਡ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਜਿਵੇਂ ਕਿ ਜੰਬਾ, ਜ਼ਾਂਬਾ, ਅਤੇ ਮਿਨੀਮੈਕਸ ਨੇ ਵਿਲੱਖਣ ਹਾਈਬ੍ਰਿਡ ਡਿਜ਼ਾਈਨ ਪੇਸ਼ ਕਰਕੇ ਆਪਣੀ ਛਾਪ ਛੱਡੀ ਹੈ, ਲੀਨੀਅਰ ਗੁੰਝਲਤਾ ਮਾਡਲਾਂ ਦੇ ਲੈਂਡਸਕੇਪ ਨੂੰ ਹੋਰ ਅਮੀਰ ਬਣਾਉਂਦਾ ਹੈ।

ਕੁਸ਼ਲ ਲੰਬੇ-ਸੰਦਰਭ ਪ੍ਰੋਸੈਸਿੰਗ ਦੀ ਖੋਜ ਨੇ ਨਵੀਨਤਾਕਾਰੀ ਧਿਆਨ ਵਿਧੀਆਂ ਦੇ ਵਿਕਾਸ ਵੱਲ ਵੀ ਅਗਵਾਈ ਕੀਤੀ ਹੈ। ਨੇਟਿਵ ਸਪਾਰਸ ਅਟੈਂਸ਼ਨ, ਉਦਾਹਰਨ ਲਈ, ਟੋਕਨਾਂ ਨੂੰ ਅਸਥਾਈ ਬਲਾਕਾਂ ਵਿੱਚ ਵਿਵਸਥਿਤ ਕਰਦਾ ਹੈ, ਤਿੰਨ ਵੱਖ-ਵੱਖ ਧਿਆਨ ਮਾਰਗਾਂ ਨੂੰ ਨਿਯੁਕਤ ਕਰਦਾ ਹੈ: ਗਲੋਬਲ ਸੰਦਰਭ ਲਈ ਸੰਕੁਚਿਤ ਮੋਟੇ-ਦਾਣੇ ਵਾਲੇ ਟੋਕਨ, ਸਥਾਨਕ ਵੇਰਵਿਆਂ ਲਈ ਚੋਣਵੇਂ ਤੌਰ ‘ਤੇ ਬਰਕਰਾਰ ਰੱਖੇ ਗਏ ਵਧੀਆ-ਦਾਣੇ ਵਾਲੇ ਟੋਕਨ, ਅਤੇ ਸਥਾਨਕ ਪ੍ਰਸੰਗਿਕ ਜਾਣਕਾਰੀ ਨੂੰ ਹਾਸਲ ਕਰਨ ਲਈ ਸਲਾਈਡਿੰਗ ਵਿੰਡੋਜ਼। ਹੋਰ ਧਿਆਨ ਦੇਣ ਯੋਗ ਧਿਆਨ ਵਿਧੀਆਂ ਵਿੱਚ ਸੀਅਰ ਅਟੈਂਸ਼ਨ ਅਤੇ ਬਲਾਕ ਅਟੈਂਸ਼ਨ (MoBA) ਸ਼ਾਮਲ ਹਨ, ਹਰੇਕ ਲੰਬੇ ਕ੍ਰਮਾਂ ਦੇ ਅੰਦਰ ਸੰਬੰਧਿਤ ਜਾਣਕਾਰੀ ਵੱਲ ਧਿਆਨ ਦੇਣ ਲਈ ਵਿਲੱਖਣ ਰਣਨੀਤੀਆਂ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ।

RWKV-X: ਵਧੀ ਹੋਈ ਲੰਬੀ-ਰੇਂਜ ਸੰਦਰਭ ਮਾਡਲਿੰਗ ਲਈ ਇੱਕ ਹਾਈਬ੍ਰਿਡ ਆਰਕੀਟੈਕਚਰ

ਗੁਆਂਗਡੋਂਗ ਲੈਬਾਰਟਰੀ ਆਫ਼ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਐਂਡ ਡਿਜੀਟਲ ਇਕਾਨਮੀ (SZ), ਸ਼ੇਨਜ਼ੇਨ, ਹੋਹਾਈ ਯੂਨੀਵਰਸਿਟੀ, ਨੈਨਜਿੰਗ, ਸ਼ੇਨਜ਼ੇਨ ਯੂਨੀਵਰਸਿਟੀ, ਅਤੇ ਕਿੰਗਹਾਈ ਯੂਨੀਵਰਸਿਟੀ, ਜ਼ਿਨਿੰਗ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ RWKV-X ਨਾਮਕ ਇੱਕ ਨਵਾਂ ਹਾਈਬ੍ਰਿਡ ਆਰਕੀਟੈਕਚਰ ਪੇਸ਼ ਕੀਤਾ ਹੈ। ਇਹ ਆਰਕੀਟੈਕਚਰ ਛੋਟੀ-ਰੇਂਜ ਨਿਰਭਰਤਾਵਾਂ ਨੂੰ ਮਾਡਲਿੰਗ ਕਰਨ ਵਿੱਚ RWKV ਦੀ ਕੁਸ਼ਲਤਾ ਨੂੰ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਲੰਬੀ-ਰੇਂਜ ਸੰਦਰਭ ਨੂੰ ਹਾਸਲ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੀ ਗਈ ਇੱਕ ਸਪਾਰਸ ਅਟੈਂਸ਼ਨ ਵਿਧੀ ਨਾਲ ਜੋੜਦਾ ਹੈ।

ਪਿਛਲੀਆਂ ਹਾਈਬ੍ਰਿਡ ਪਹੁੰਚਾਂ ਦੇ ਉਲਟ, RWKV-X ਸਿਖਲਾਈ ਦੌਰਾਨ ਲੀਨੀਅਰ-ਟਾਈਮ ਗੁੰਝਲਤਾ ਅਤੇ ਅਨੁਮਾਨ ਡੀਕੋਡਿੰਗ ਦੌਰਾਨ ਨਿਰੰਤਰ-ਟਾਈਮ ਗੁੰਝਲਤਾ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਇਹ ਲੰਬੇ ਕ੍ਰਮਾਂ ਦੀ ਪ੍ਰੋਸੈਸਿੰਗ ਲਈ ਇਸਨੂੰ ਬੇਹੱਦ ਕੁਸ਼ਲ ਬਣਾਉਂਦਾ ਹੈ। ਮਾਡਲ 64K-ਟੋਕਨ ਕ੍ਰਮਾਂ ‘ਤੇ ਨਿਰੰਤਰ ਪ੍ਰੀਟਰੇਨ ਕੀਤੇ ਜਾਣ ‘ਤੇ 64K ਪਾਸਕੀ ਪ੍ਰਾਪਤੀ ਬੈਂਚਮਾਰਕ ‘ਤੇ ਲਗਭਗ ਸੰਪੂਰਨ ਸ਼ੁੱਧਤਾ ਦਰਸਾਉਂਦਾ ਹੈ। ਇਹ ਲਗਾਤਾਰ ਲੰਬੇ-ਸੰਦਰਭ ਬੈਂਚਮਾਰਕ ‘ਤੇ ਪਿਛਲੇ RWKV-7 ਮਾਡਲਾਂ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ ਜਦੋਂ ਕਿ ਛੋਟੀ-ਸੰਦਰਭ ਕਾਰਜਾਂ ‘ਤੇ ਮਜ਼ਬੂਤ ​​ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਣਾਈ ਰੱਖਦਾ ਹੈ।

RWKV-X ਵਿੱਚ ਨਵੀਨਤਾਵਾਂ ਲੰਬੇ-ਸੰਦਰਭ ਭਾਸ਼ਾ ਮਾਡਲਿੰਗ ਦੀਆਂ ਚੁਣੌਤੀਆਂ ਨੂੰ ਹੱਲ ਕਰਨ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਹਨ। ਰੀਕਰੈਂਟ ਮਾਡਲਾਂ ਅਤੇ ਸਪਾਰਸ ਅਟੈਂਸ਼ਨ ਵਿਧੀਆਂ ਦੀਆਂ ਸ਼ਕਤੀਆਂ ਨੂੰ ਜੋੜ ਕੇ, RWKV-X ਕੁਸ਼ਲਤਾ ਅਤੇ ਸ਼ੁੱਧਤਾ ਦੇ ਵਿਚਕਾਰ ਇੱਕ ਸੰਤੁਲਨ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਲੰਬੇ ਕ੍ਰਮਾਂ ਦੀ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਪ੍ਰੋਸੈਸਿੰਗ ਲਈ ਰਾਹ ਪੱਧਰਾ ਕਰਦਾ ਹੈ।

RWKV-X: ਆਰਕੀਟੈਕਚਰ ਅਤੇ ਸਿਖਲਾਈ

RWKV-X ਇੱਕ ਹਾਈਬ੍ਰਿਡ ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, RWKV-7 ਬਲਾਕਾਂ ਨੂੰ ਸਪਾਰਸ ਅਟੈਂਸ਼ਨ ਬਲਾਕਾਂ ਨਾਲ ਜੋੜਦਾ ਹੈ ਤਾਂ ਜੋ ਦੋਵਾਂ ਪਹੁੰਚਾਂ ਦੀਆਂ ਸ਼ਕਤੀਆਂ ਦਾ ਲਾਭ ਲਿਆ ਜਾ ਸਕੇ। ਸ਼ੁਰੂ ਤੋਂ ਸਿਖਲਾਈ ਦੇਣ ਦੀ ਬਜਾਏ, RWKV-X LLaMA Pro ਤੋਂ ਪ੍ਰੇਰਿਤ ਇੱਕ ਇੰਟਰਲੀਵਡ ਬਲਾਕ ਵਿਸਤਾਰ ਪਹੁੰਚ ਅਤੇ ਜ਼ੀਰੋ-ਇਨੀਸ਼ੀਲਾਈਜ਼ੇਸ਼ਨ ਵਿਧੀ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮੌਜੂਦਾ ਮਾਡਲਾਂ ‘ਤੇ ਬਣਾਉਂਦਾ ਹੈ।

ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਦੋ ਪੜਾਅ ਹੁੰਦੇ ਹਨ, ਧਿਆਨ ਨਾਲ ਛੋਟੇ ਅਤੇ ਲੰਬੇ ਸੰਦਰਭਾਂ ‘ਤੇ ਮਾਡਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹਨ:

  • ਛੋਟੀ-ਸੰਦਰਭ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ: ਸ਼ੁਰੂ ਵਿੱਚ, ਮਾਡਲ ਨੂੰ MiniPile ਡੇਟਾਸੈੱਟ ਤੋਂ ਕੱਢੇ ਗਏ ਛੋਟੇ 1024-ਟੋਕਨ ਸੰਦਰਭਾਂ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਪੜਾਅ ਦੌਰਾਨ, ਨਵੇਂ ਜੋੜੇ ਗਏ ਬਲਾਕਾਂ ਤੋਂ ਇਲਾਵਾ ਸਾਰੇ ਪੈਰਾਮੀਟਰ ਫ੍ਰੀਜ਼ ਕੀਤੇ ਜਾਂਦੇ ਹਨ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦੇ ਹੋਏ ਕਿ ਬੇਸ RWKV-7 ਮਾਡਲ ਤੋਂ ਪ੍ਰੀ-ਸਿਖਲਾਈ ਵਾਲਾ ਗਿਆਨ ਸੁਰੱਖਿਅਤ ਹੈ। ਇਹ ਨਵੇਂ ਜੋੜੇ ਗਏ ਬਲਾਕਾਂ ਨੂੰ ਪਹਿਲਾਂ ਤੋਂ ਸਿਖਲਾਈ ਵਾਲੀਆਂ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਨੂੰ ਵਿਘਨ ਪਾਏ ਬਿਨਾਂ ਮੌਜੂਦਾ ਆਰਕੀਟੈਕਚਰ ਦੇ ਅਨੁਕੂਲ ਹੋਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।
  • ਲੰਬੀ-ਸੰਦਰਭ ਨਿਰੰਤਰ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ: ਦੂਜੇ ਪੜਾਅ ਵਿੱਚ ProLong-64K ਡੇਟਾਸੈੱਟ ਅਤੇ 64K ਟੋਕਨਾਂ ਦੀ ਇੱਕ ਸੰਦਰਭ ਲੰਬਾਈ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਲੰਬੀ-ਸੰਦਰਭ ਨਿਰੰਤਰ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਸ਼ਾਮਲ ਹੈ, ਜਿਸ ਵਿੱਚ ਕੁੱਲ ਮਿਲਾ ਕੇ ਲਗਭਗ 1 ਬਿਲੀਅਨ ਟੋਕਨਾਂ ਦੀ ਪ੍ਰੋਸੈਸਿੰਗ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਪੜਾਅ ਦੌਰਾਨ, ਸਾਰੇ ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਅਨਫ੍ਰੀਜ਼ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਸਾਂਝੇ ਤੌਰ ‘ਤੇ ਅਨੁਕੂਲ ਬਣਾਇਆ ਜਾਂਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਮਾਡਲ ਨੂੰ ਇਸਦੇ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਨੂੰ ਵਧੀਆ-ਟਿਊਨ ਕਰਨ ਅਤੇ ਲੰਬੀ-ਰੇਂਜ ਨਿਰਭਰਤਾਵਾਂ ਨੂੰ ਸਿੱਖਣ ਦੀ ਇਜਾਜ਼ਤ ਮਿਲਦੀ ਹੈ। ਸਿਖਲਾਈ ਲੰਬੇ-ਸੰਦਰਭ ਕਰਾਸ-ਐਂਟ੍ਰੋਪੀ (LongCE) ਘਾਟੇ ਨੂੰ ਨਿਯੁਕਤ ਕਰਦੀ ਹੈ, ਜੋ ਉਹਨਾਂ ਦੀ ਮਹੱਤਤਾ ਦੇ ਆਧਾਰ ‘ਤੇ ਟੋਕਨਾਂ ਨੂੰ ਗਤੀਸ਼ੀਲ ਤੌਰ ‘ਤੇ ਵਜ਼ਨ ਦਿੰਦੀ ਹੈ। ਇਹ ਘਾਟਾ ਫੰਕਸ਼ਨ ਮਾਡਲ ਨੂੰ ਲੜੀ ਦੇ ਸਭ ਤੋਂ ਢੁਕਵੇਂ ਹਿੱਸਿਆਂ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ, ਲੰਬੀ-ਰੇਂਜ ਸਬੰਧਾਂ ਨੂੰ ਹਾਸਲ ਕਰਨ ਦੀ ਇਸਦੀ ਯੋਗਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦਾ ਹੈ।

ਦੋ-ਪੜਾਵੀ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ RWKV-X ਨੂੰ ਛੋਟੀ-ਰੇਂਜ ਮਾਡਲਿੰਗ ਲਈ RWKV-7 ਦੀ ਕੁਸ਼ਲਤਾ ਨੂੰ ਸਪਾਰਸ ਅਟੈਂਸ਼ਨ ਵਿਧੀ ਦੀ ਲੰਬੀ-ਰੇਂਜ ਸੰਦਰਭ ਜਾਗਰੂਕਤਾ ਨਾਲ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਜੋੜਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੀ ਹੈ। ਪਹਿਲਾਂ ਛੋਟੇ ਸੰਦਰਭਾਂ ‘ਤੇ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਕਰਕੇ ਅਤੇ ਫਿਰ ਲੰਬੇ ਸੰਦਰਭਾਂ ‘ਤੇ ਵਧੀਆ-ਟਿਊਨਿੰਗ ਕਰਕੇ, ਮਾਡਲ ਲੜੀ ਦੇ ਵੱਖ-ਵੱਖ ਹਿੱਸਿਆਂ ਤੋਂ ਜਾਣਕਾਰੀ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਜੋੜਨਾ ਸਿੱਖਦਾ ਹੈ।

RWKV-X: ਮੁਲਾਂਕਣ ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ

ਛੋਟੀ-ਸੰਦਰਭ ਮੁਲਾਂਕਣ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ RWKV-X ਸਟੈਂਡਰਡ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ ਮੁਕਾਬਲੇ ਵਾਲਾ ਪ੍ਰਦਰਸ਼ਨ ਬਣਾਈ ਰੱਖਦਾ ਹੈ, ਛੋਟੇ ਕ੍ਰਮਾਂ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸੰਭਾਲਣ ਦੀ ਇਸਦੀ ਯੋਗਤਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਛੋਟਾ RWKV-X (0.22B) 51.0 ਦਾ ਔਸਤ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, RWKV-7 ਦੇ 51.8 ਦੇ ਬਰਾਬਰ। ਇੱਕ ਵੱਡੇ ਪੈਮਾਨੇ ‘ਤੇ, RWKV-X (3.6B) 71.9 ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ, RWKV-7 (2.9B, 72.8)ਅਤੇ Qwen2.5-3B (71.4) ਨਾਲ ਮਿਲਦਾ ਜੁਲਦਾ ਹੈ, ਜਦੋਂ ਕਿ LLaMA3.2-3B (69.7) ਨੂੰ ਪਛਾੜਦਾ ਹੈ। ਇਹ ਨਤੀਜੇ ਛੋਟੇ ਸੰਦਰਭਾਂ ‘ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਕੁਰਬਾਨ ਕੀਤੇ ਬਿਨਾਂ ਇੱਕ ਆਮ-ਮਕਸਦ ਵਾਲੇ LLM ਬੈਕਬੋਨ ਵਜੋਂ RWKV-X ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਦੀ ਪੁਸ਼ਟੀ ਕਰਦੇ ਹਨ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, ਕੁਸ਼ਲਤਾ ਵਿਸ਼ਲੇਸ਼ਣ ਲੰਬੇ ਕ੍ਰਮਾਂ ਲਈ RWKV-X ਦੀਆਂ ਉੱਤਮ ਸਕੇਲਿੰਗ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। 128K ਟੋਕਨਾਂ ‘ਤੇ, RWKV-X ਫਲੈਸ਼-ਅਟੈਂਸ਼ਨ v3 ‘ਤੇ 1.37 ਗੁਣਾ ਸਪੀਡਅੱਪ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਇਹ ਫਾਇਦਾ ਸੰਦਰਭ ਲੰਬਾਈ ਵਧਣ ਨਾਲ ਫੈਲਦਾ ਹੈ। ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ RWKV-X ਹੋਰ ਧਿਆਨ ਵਿਧੀਆਂ ਦੇ ਮੁਕਾਬਲੇ ਵੱਧ ਤੋਂ ਵੱਧ ਕੁਸ਼ਲ ਬਣ ਜਾਂਦਾ ਹੈ ਜਿਵੇਂ ਕਿ ਲੜੀ ਦੀ ਲੰਬਾਈ ਵਧਦੀ ਹੈ।

ਛੋਟੇ ਅਤੇ ਲੰਬੇ ਸੰਦਰਭਾਂ ‘ਤੇ RWKV-X ਦਾ ਮਜ਼ਬੂਤ ​​ਪ੍ਰਦਰਸ਼ਨ ਇੱਕ ਭਾਸ਼ਾ ਮਾਡਲ ਵਜੋਂ ਇਸਦੀ ਬਹੁਪੱਖੀਤਾ ਅਤੇ ਕੁਸ਼ਲਤਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ। ਛੋਟੇ ਕ੍ਰਮਾਂ ‘ਤੇ ਮੁਕਾਬਲੇ ਵਾਲੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਣਾਈ ਰੱਖਣ ਦੀ ਇਸਦੀ ਯੋਗਤਾ ਜਦੋਂ ਕਿ ਲੰਬੇ ਕ੍ਰਮਾਂ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਸਪੀਡਅੱਪ ਪ੍ਰਾਪਤ ਕਰਨਾ ਇਸਨੂੰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਲਈ ਇੱਕ ਵਾਅਦਾ ਕਰਨ ਵਾਲਾ ਆਰਕੀਟੈਕਚਰ ਬਣਾਉਂਦਾ ਹੈ।

RWKV-X: ਸੀਮਾਵਾਂ ਅਤੇ ਭਵਿੱਖ ਦੀਆਂ ਦਿਸ਼ਾਵਾਂ

RWKV-X ਇੱਕ ਹਾਈਬ੍ਰਿਡ ਭਾਸ਼ਾ ਮਾਡਲ ਵਜੋਂ ਉੱਭਰਦਾ ਹੈ ਜੋ ਛੋਟੀ-ਰੇਂਜ ਨਿਰਭਰਤਾਵਾਂ ਨੂੰ ਮਾਡਲਿੰਗ ਕਰਨ ਲਈ RWKV ਦੀ ਕੁਸ਼ਲਤਾ ਨੂੰ ਲੰਬੀ-ਰੇਂਜ ਸੰਦਰਭ ਮਾਡਲਿੰਗ ਲਈ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਤਿਆਰ ਕੀਤੀ ਗਈ ਇੱਕ ਨਵੀਂ ਸਪਾਰਸ ਅਟੈਂਸ਼ਨ ਵਿਧੀ ਨਾਲ ਸਫਲਤਾਪੂਰਵਕ ਜੋੜਦਾ ਹੈ। ਜਦੋਂ ਕਿ RWKV-X ਲੰਬੇ-ਸੰਦਰਭ ਭਾਸ਼ਾ ਮਾਡਲਿੰਗ ਵਿੱਚ ਮਜ਼ਬੂਤ ​​ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਕੁਸ਼ਲਤਾ ਦਰਸਾਉਂਦਾ ਹੈ, ਕਈ ਸੀਮਾਵਾਂ ਬਣੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ।

ਪਹਿਲਾਂ, ਇਸਦਾ ਸਪਾਰਸ ਅਟੈਂਸ਼ਨ ਵਿਧੀ, ਜੋ ਕਿ ਚੋਟੀ-ਕੇ ਚੰਕ ਚੋਣ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ, ਇੱਕ ਹੀਊਰਿਸਟਿਕ ਪਹੁੰਚ ਨੂੰ ਨਿਯੁਕਤ ਕਰਦੀ ਹੈ ਜੋ ਸਿਮੈਂਟਿਕ ਤੌਰ ‘ਤੇ ਸੰਬੰਧਿਤ ਨਿਰਭਰਤਾਵਾਂ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰ ਸਕਦੀ ਹੈ। ਚੋਟੀ-ਕੇ ਚੋਣ ਰਣਨੀਤੀ ਲੜੀ ਵਿੱਚ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਨੂੰ ਹਮੇਸ਼ਾ ਹਾਸਲ ਨਹੀਂ ਕਰ ਸਕਦੀ ਹੈ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਘੱਟ ਪ੍ਰਦਰਸ਼ਨ ਵੱਲ ਅਗਵਾਈ ਕਰਦੀ ਹੈ।

ਦੂਜਾ, ਮੌਜੂਦਾ ਲਾਗੂਕਰਨ ਵਨੀਲਾ RWKV ਨਾਲੋਂ ਹੌਲੀ ਚੱਲ ਰਹੇ ਸਪਾਰਸ ਅਟੈਂਸ਼ਨ ਡੀਕੋਡਿੰਗ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ ਹੋਰ ਇੰਜੀਨੀਅਰਿੰਗ ਯਤਨਾਂ ਦੀ ਲੋੜ ਹੈ। ਜਦੋਂ ਕਿ RWKV-X ਲੰਬੇ ਕ੍ਰਮਾਂ ‘ਤੇ ਹੋਰ ਧਿਆਨ ਵਿਧੀਆਂ ਦੇ ਮੁਕਾਬਲੇ ਮਹੱਤਵਪੂਰਨ ਸਪੀਡਅੱਪ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਇਸਦਾ ਸਪਾਰਸ ਅਟੈਂਸ਼ਨ ਡੀਕੋਡਿੰਗ ਅਜੇ ਵੀ ਵਨੀਲਾ RWKV ਨਾਲੋਂ ਹੌਲੀ ਹੈ, ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਇਸਦੇ ਲਾਗੂਕਰਨ ਵਿੱਚ ਸੁਧਾਰ ਦੀ ਗੁੰਜਾਇਸ਼ ਹੈ।

ਭਵਿੱਖ ਦੀ ਖੋਜ ਹੋਰ ਆਧੁਨਿਕ ਸਪਾਰਸ ਅਟੈਂਸ਼ਨ ਵਿਧੀਆਂ ਦੀ ਖੋਜ ਕਰਕੇ, ਸਪਾਰਸ ਅਟੈਂਸ਼ਨ ਡੀਕੋਡਿੰਗ ਦੇ ਲਾਗੂਕਰਨ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾ ਕੇ, ਅਤੇ ਵਿਕਲਪਕ ਸਿਖਲਾਈ ਰਣਨੀਤੀਆਂ ਦੀ ਜਾਂਚ ਕਰਕੇ ਇਹਨਾਂ ਸੀਮਾਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰ ਸਕਦੀ ਹੈ। ਇਹਨਾਂ ਚੁਣੌਤੀਆਂ ‘ਤੇ ਕਾਬੂ ਪਾ ਕੇ, RWKV-X ਵਿੱਚ ਲੰਬੇ-ਸੰਦਰਭ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਇੱਕ ਹੋਰ ਸ਼ਕਤੀਸ਼ਾਲੀ ਅਤੇ ਕੁਸ਼ਲ ਭਾਸ਼ਾ ਮਾਡਲ ਬਣਨ ਦੀ ਸੰਭਾਵਨਾ ਹੈ।