ਕ੍ਰਮ ਪ੍ਰੋਸੈਸਿੰਗ ਵਿੱਚ ਬਦਲਦੇ ਰੁਝਾਨ: Transformer ਦੀਆਂ ਸੀਮਾਵਾਂ ਤੋਂ ਪਰੇ
ਕਈ ਸਾਲਾਂ ਤੋਂ, ਕ੍ਰਮ ਮਾਡਲਿੰਗ ਦਾ ਖੇਤਰ, ਖਾਸ ਤੌਰ ‘ਤੇ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਵਿੱਚ, ਆਟੋਰਿਗਰੈਸਿਵ Transformer ਆਰਕੀਟੈਕਚਰ ਦੀ ਸਫਲਤਾ ਦੁਆਰਾ ਬਹੁਤ ਜ਼ਿਆਦਾ ਪ੍ਰਭਾਵਿਤ ਰਿਹਾ ਹੈ। ਇਨ-ਕੰਟੈਕਸਟ ਲਰਨਿੰਗ ਲਈ ਉਹਨਾਂ ਦੀ ਕਮਾਲ ਦੀ ਯੋਗਤਾ, softmax attention ਮਕੈਨਿਜ਼ਮ ਦੁਆਰਾ ਸਿਖਲਾਈ ਪੜਾਅ ਦੌਰਾਨ ਅੰਦਰੂਨੀ ਸਮਾਨਾਂਤਰਤਾ ਦੇ ਨਾਲ ਮਿਲ ਕੇ, ਉਹਨਾਂ ਦੀ ਸਥਿਤੀ ਨੂੰ ਪ੍ਰਮੁੱਖ ਪੈਰਾਡਾਈਮ ਵਜੋਂ ਮਜ਼ਬੂਤ ਕੀਤਾ। ਹਾਲਾਂਕਿ, ਇਹ ਦਬਦਬਾ ਕਾਫ਼ੀ ਕੀਮਤ ‘ਤੇ ਆਉਂਦਾ ਹੈ। ਕੋਰ ਕੰਪਿਊਟੇਸ਼ਨਲ ਇੰਜਣ, softmaxattention, ਇਨਪੁਟ ਕ੍ਰਮ ਦੀ ਲੰਬਾਈ ਦੇ ਸਬੰਧ ਵਿੱਚ ਕੁਆਡ੍ਰੈਟਿਕ ਸਕੇਲਿੰਗ ਵਿਵਹਾਰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦਾ ਹੈ। ਇਹ ਵਿਸ਼ੇਸ਼ਤਾ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਵਧਦੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਓਵਰਹੈੱਡ ਅਤੇ ਮਹੱਤਵਪੂਰਨ ਮੈਮੋਰੀ ਲੋੜਾਂ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਦੀ ਹੈ, ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਰੁਕਾਵਟ ਪੈਦਾ ਕਰਦੀ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਜਦੋਂ ਆਧੁਨਿਕ ਐਪਲੀਕੇਸ਼ਨਾਂ ਜਿਵੇਂ ਕਿ ਦਸਤਾਵੇਜ਼ ਸੰਖੇਪ, ਲੰਬੇ-ਫਾਰਮ ਪ੍ਰਸ਼ਨ ਉੱਤਰ, ਜਾਂ ਜੀਨੋਮਿਕ ਵਿਸ਼ਲੇਸ਼ਣ ਵਿੱਚ ਆਮ ਵਿਆਪਕ ਕ੍ਰਮਾਂ ਨਾਲ ਨਜਿੱਠਣਾ ਹੁੰਦਾ ਹੈ।
ਜਦੋਂ ਕਿ ਸੂਝਵਾਨ GPU ਅਨੁਕੂਲਤਾਵਾਂ ਨੇ ਸਿਖਲਾਈ ਦੌਰਾਨ ਛੋਟੇ ਕ੍ਰਮ ਦੀ ਲੰਬਾਈ ਲਈ ਇਹਨਾਂ ਵਿੱਚੋਂ ਕੁਝ ਦਬਾਵਾਂ ਨੂੰ ਘੱਟ ਕਰਨ ਵਿੱਚ ਕਾਮਯਾਬੀ ਹਾਸਲ ਕੀਤੀ ਹੈ, ਅਨੁਮਾਨ ਪੜਾਅ - ਜਿੱਥੇ ਮਾਡਲਾਂ ਨੂੰ ਅਸਲ-ਸੰਸਾਰ ਦੇ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਤੈਨਾਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ - ਬਦਨਾਮ ਤੌਰ ‘ਤੇ ਸਰੋਤ-ਸੰਘਣੀ ਅਤੇ ਮਹਿੰਗਾ ਰਹਿੰਦਾ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਜਦੋਂ ਪੈਮਾਨੇ ‘ਤੇ ਕੰਮ ਕਰਦੇ ਹਨ। ਧਿਆਨ ਦੀ ਕੁਆਡ੍ਰੈਟਿਕ ਪ੍ਰਕਿਰਤੀ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਕ੍ਰਮ ਦੀ ਲੰਬਾਈ ਨੂੰ ਦੁੱਗਣਾ ਕਰਨ ਨਾਲ ਅਨੁਮਾਨ ਦੇ ਦੌਰਾਨ ਕੰਪਿਊਟੇਸ਼ਨਲ ਕੋਸ਼ਿਸ਼ ਅਤੇ ਮੈਮੋਰੀ ਫੁੱਟਪ੍ਰਿੰਟ ਚੌਗੁਣਾ ਹੋ ਜਾਂਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਲੰਬੇ ਸੰਦਰਭਾਂ ‘ਤੇ ਬਹੁਤ ਵੱਡੇ Transformer ਮਾਡਲਾਂ ਦੀ ਤੈਨਾਤੀ ਕਈ ਸਥਿਤੀਆਂ ਵਿੱਚ ਆਰਥਿਕ ਤੌਰ ‘ਤੇ ਚੁਣੌਤੀਪੂਰਨ ਜਾਂ ਤਕਨੀਕੀ ਤੌਰ ‘ਤੇ ਅਸੰਭਵ ਹੋ ਜਾਂਦੀ ਹੈ।
ਇਹਨਾਂ ਬੁਨਿਆਦੀ ਸੀਮਾਵਾਂ ਨੂੰ ਪਛਾਣਦੇ ਹੋਏ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਲਗਾਤਾਰ ਵਿਕਲਪਕ ਆਰਕੀਟੈਕਚਰਲ ਮਾਰਗਾਂ ਦੀ ਖੋਜ ਕੀਤੀ ਹੈ। ਇੱਕ ਖਾਸ ਤੌਰ ‘ਤੇ ਹੋਨਹਾਰ ਦਿਸ਼ਾ ਵਿੱਚ ਰੀਕਰੈਂਟ ਨਿਊਰਲ ਨੈੱਟਵਰਕ (RNN) ਡਿਜ਼ਾਈਨਾਂ ਨੂੰ ਮੁੜ ਵਿਚਾਰਨਾ ਅਤੇ ਮੁੜ ਸੁਰਜੀਤ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ। ਆਧੁਨਿਕ RNN ਪਹੁੰਚਾਂ ਦਾ ਉਦੇਸ਼ ਕੰਪਰੈਸਿਵ ਸਟੇਟ ਮਕੈਨਿਜ਼ਮ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨਾ ਹੈ। ਇਹ ਸਟੇਟਸ ਕ੍ਰਮ ਤੋਂ ਸੰਬੰਧਿਤ ਇਤਿਹਾਸਕ ਜਾਣਕਾਰੀ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦੀਆਂ ਹਨ, ਮਾਡਲ ਨੂੰ ਕ੍ਰਮ ਦੀ ਲੰਬਾਈ ਦੇ ਅਨੁਸਾਰੀ ਲੀਨੀਅਰ ਕੰਪਿਊਟੇਸ਼ਨਲ ਜਟਿਲਤਾ ਨਾਲ ਕੰਮ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀਆਂ ਹਨ ਅਤੇ, ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਅਨੁਮਾਨ ਦੇ ਦੌਰਾਨ ਕ੍ਰਮ ਕਿੰਨਾ ਵੀ ਲੰਬਾ ਹੋ ਜਾਵੇ, ਸਥਿਰ ਮੈਮੋਰੀ ਵਰਤੋਂ ਨੂੰ ਬਣਾਈ ਰੱਖਦੀਆਂ ਹਨ। ਇਹ ਵਿਸ਼ੇਸ਼ਤਾ ਲੰਬੇ-ਕ੍ਰਮ ਕਾਰਜਾਂ ਲਈ Transformers ਉੱਤੇ ਇੱਕ ਮਜਬੂਰ ਕਰਨ ਵਾਲਾ ਫਾਇਦਾ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਅਨੁਮਾਨਾਂ ਅਤੇ ਸਟੇਟ-ਸਪੇਸ ਮਾਡਲਾਂ (SSMs) ਵਰਗੇ ਖੇਤਰਾਂ ਵਿੱਚ ਹਾਲੀਆ ਤਰੱਕੀ ਨੇ ਮਹੱਤਵਪੂਰਨ ਸੰਭਾਵਨਾਵਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਹੈ। RWKV-4 ਵਰਗੇ ਆਰਕੀਟੈਕਚਰ ਮਹੱਤਵਪੂਰਨ ਉਦਾਹਰਣਾਂ ਵਜੋਂ ਉੱਭਰੇ, ਪ੍ਰਤੀਯੋਗੀ ਪ੍ਰਦਰਸ਼ਨ ਪੱਧਰਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹੋਏ ਅਨੁਮਾਨ ਨਾਲ ਜੁੜੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਬੋਝ ਨੂੰ ਬਹੁਤ ਘੱਟ ਕਰਦੇ ਹੋਏ, ਸਟੈਂਡਰਡ ਅਟੈਂਸ਼ਨ ਦੀਆਂ ਕੁਆਡ੍ਰੈਟਿਕ ਰੁਕਾਵਟਾਂ ਤੋਂ ਪਰੇ ਇੱਕ ਵਿਹਾਰਕ ਮਾਰਗ ਦਾ ਸੰਕੇਤ ਦਿੰਦੇ ਹਨ।
ਪੇਸ਼ ਹੈ RWKV-7 ‘Goose’: ਰੀਕਰੈਂਟ ਆਰਕੀਟੈਕਚਰ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਇੱਕ ਨਵਾਂ ਬੈਂਚਮਾਰਕ
ਇਸ ਨੀਂਹ ‘ਤੇ ਨਿਰਮਾਣ ਕਰਦੇ ਹੋਏ ਅਤੇ ਰੀਕਰੈਂਟ ਆਰਕੀਟੈਕਚਰ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾਉਂਦੇ ਹੋਏ, RWKV ਪ੍ਰੋਜੈਕਟ, EleutherAI, Tsinghua University, ਅਤੇ ਹੋਰਾਂ ਸਮੇਤ ਵਿਭਿੰਨ ਸੰਸਥਾਵਾਂ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੀ ਇੱਕ ਸਹਿਯੋਗੀ ਕੋਸ਼ਿਸ਼ RWKV-7, ਕੋਡਨੇਮ ‘Goose’ ਦੇ ਵਿਕਾਸ ਵਿੱਚ ਸਮਾਪਤ ਹੋਈ ਹੈ। ਇਹ ਨਾਵਲ ਕ੍ਰਮ ਮਾਡਲਿੰਗ ਆਰਕੀਟੈਕਚਰ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਛਾਲ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਨਵੇਂ ਸਟੇਟ-ਆਫ-ਦੀ-ਆਰਟ (SoTA) ਪ੍ਰਦਰਸ਼ਨ ਬੈਂਚਮਾਰਕ ਸਥਾਪਤ ਕਰਦਾ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ 3 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਸਕੇਲ ‘ਤੇ, ਬਹੁ-ਭਾਸ਼ਾਈ ਕਾਰਜਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਵਿੱਚ।
RWKV-7 ਦੀ ਪ੍ਰਾਪਤੀ ਦੇ ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਪਹਿਲੂਆਂ ਵਿੱਚੋਂ ਇੱਕ ਇਸਦੀ ਕਮਾਲ ਦੀ ਕੁਸ਼ਲਤਾ ਹੈ। ਕਈ ਪ੍ਰਮੁੱਖ ਸਮਕਾਲੀ ਮਾਡਲਾਂ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਟੋਕਨਾਂ ਦੇ ਕਾਫ਼ੀ ਛੋਟੇ ਕਾਰਪਸ ‘ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, RWKV-7 English ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਸਮਰੱਥਾਵਾਂ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਜੋ ਇਸਦੇ ਵੱਡੇ, ਵਧੇਰੇ ਡੇਟਾ-ਭੁੱਖੇ ਹਮਰੁਤਬਾ ਨਾਲ ਬਹੁਤ ਪ੍ਰਤੀਯੋਗੀ ਹਨ। ਸ਼ਾਇਦ ਵਧੇਰੇ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਇਹ ਉੱਨਤ RNNs ਦੇ ਮੁੱਖ ਕੁਸ਼ਲਤਾ ਸਿਧਾਂਤਾਂ ਦੀ ਵਫ਼ਾਦਾਰੀ ਨਾਲ ਪਾਲਣਾ ਕਰਦੇ ਹੋਏ ਇਸਨੂੰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ: ਸਥਿਰ ਮੈਮੋਰੀ ਖਪਤ ਅਤੇ ਪ੍ਰਤੀ ਟੋਕਨ ਇਕਸਾਰ ਅਨੁਮਾਨ ਸਮਾਂ, ਪ੍ਰੋਸੈਸ ਕੀਤੇ ਜਾ ਰਹੇ ਕ੍ਰਮ ਦੀ ਲੰਬਾਈ ਦੀ ਪਰਵਾਹ ਕੀਤੇ ਬਿਨਾਂ। ਇਹ RWKV-7 ਨੂੰ ਉਹਨਾਂ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਇੱਕ ਬੇਮਿਸਾਲ ਆਕਰਸ਼ਕ ਵਿਕਲਪ ਬਣਾਉਂਦਾ ਹੈ ਜਿਹਨਾਂ ਲਈ ਉੱਚ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਸਰੋਤ ਸੰਜਮ ਦੋਵਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਖਾਸ ਕਰਕੇ ਲੰਬੇ ਸੰਦਰਭਾਂ ਨੂੰ ਸੰਭਾਲਣ ਵੇਲੇ।
RWKV-7 ਵਿੱਚ ਸ਼ਾਮਲ ਤਰੱਕੀਆਂ ਕਈ ਮੁੱਖ ਆਰਕੀਟੈਕਚਰਲ ਨਵੀਨਤਾਵਾਂ ਤੋਂ ਪੈਦਾ ਹੁੰਦੀਆਂ ਹਨ ਜੋ ਇਸਦੇ ਪੂਰਵਜਾਂ ਦੇ ਸਿਧਾਂਤਾਂ ਨੂੰ ਵਧਾਉਂਦੀਆਂ ਅਤੇ ਸੁਧਾਰਦੀਆਂ ਹਨ। ਮਾਡਲ ਇੱਕ ਸੂਝਵਾਨ ਵੈਕਟਰ-ਵੈਲਯੂਡ ਸਟੇਟ ਗੇਟਿੰਗ ਮਕੈਨਿਜ਼ਮ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ, ਜੋ ਰੀਕਰੈਂਟ ਸਟੇਟ ਦੇ ਅੰਦਰ ਜਾਣਕਾਰੀ ਦੇ ਪ੍ਰਵਾਹ ‘ਤੇ ਵਧੇਰੇ ਸੂਖਮ ਨਿਯੰਤਰਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਹ ਅਨੁਕੂਲ ਇਨ-ਕੰਟੈਕਸਟ ਲਰਨਿੰਗ ਰੇਟ ਪੇਸ਼ ਕਰਦਾ ਹੈ, ਮਾਡਲ ਨੂੰ ਤੁਰੰਤ ਸੰਦਰਭ ਦੇ ਅਧਾਰ ‘ਤੇ ਆਪਣੀ ਸਿੱਖਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਗਤੀਸ਼ੀਲ ਤੌਰ ‘ਤੇ ਵਿਵਸਥਿਤ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਗੁੰਝਲਦਾਰ ਨਿਰਭਰਤਾਵਾਂ ਨੂੰ ਹਾਸਲ ਕਰਨ ਦੀ ਇਸਦੀ ਯੋਗਤਾ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ। ਇਸਦੇ ਕੋਰ ਰੀਕਰੈਂਟ ਅੱਪਡੇਟ ਨਿਯਮ ਦੇ ਅੰਦਰ ਇੱਕ ਸੁਧਾਰਿਆ ਮੁੱਲ ਬਦਲਣ ਵਾਲਾ ਮਕੈਨਿਜ਼ਮ, ਡੈਲਟਾ ਨਿਯਮ ਸੰਕਲਪ ਦਾ ਵਿਸਤਾਰ ਕਰਦਾ ਹੋਇਆ, ਮਾਡਲ ਦੀ ਪ੍ਰਗਟਾਵੇਯੋਗਤਾ ਅਤੇ ਗੁੰਝਲਦਾਰ ਪੈਟਰਨ ਪਛਾਣ ਲਈ ਸਮਰੱਥਾ ਨੂੰ ਹੋਰ ਵਧਾਉਂਦਾ ਹੈ।
ਇਹ ਸੁਧਾਰ ਸਿਰਫ਼ ਅਨੁਭਵੀ ਸੁਧਾਰ ਨਹੀਂ ਹਨ; ਉਹ RWKV-7 ਨੂੰ ਸਿਧਾਂਤਕ ਸਮਰੱਥਾਵਾਂ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ ਜੋ ਆਮ ਜਟਿਲਤਾ ਧਾਰਨਾਵਾਂ ਦੇ ਤਹਿਤ ਸਟੈਂਡਰਡ Transformers ਨਾਲ ਅਕਸਰ ਜੁੜੀਆਂ ਹੁੰਦੀਆਂ ਹਨ। ਖੋਜਕਰਤਾ ਸਬੂਤ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ ਜੋ ਸੁਝਾਅ ਦਿੰਦੇ ਹਨ ਕਿ RWKV-7 ਗੁੰਝਲਦਾਰ ਸਟੇਟਸ ਨੂੰ ਕੁਸ਼ਲਤਾ ਨਾਲ ਟਰੈਕ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ,ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਨਿਯਮਤ ਭਾਸ਼ਾਵਾਂ ਦੀ ਪੂਰੀ ਸ਼੍ਰੇਣੀ ਨੂੰ ਪਛਾਣ ਸਕਦਾ ਹੈ, ਇੱਕ ਕਾਰਨਾਮਾ ਜੋ ਵਿਸ਼ੇਸ਼ ਸੋਧਾਂ ਜਾਂ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਮਨਾਹੀ ਵਾਲੀ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਕੇਲਿੰਗ ਤੋਂ ਬਿਨਾਂ ਵਨੀਲਾ Transformers ਲਈ ਚੁਣੌਤੀਪੂਰਨ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ।
ਖੁੱਲੇ ਵਿਗਿਆਨ ਅਤੇ ਸਹਿਯੋਗੀ ਤਰੱਕੀ ਪ੍ਰਤੀ ਆਪਣੀ ਵਚਨਬੱਧਤਾ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦੇ ਹੋਏ, ਖੋਜ ਟੀਮ ਨੇ ਨਾ ਸਿਰਫ਼ ਆਰਕੀਟੈਕਚਰ ਵੇਰਵੇ ਜਾਰੀ ਕੀਤੇ ਹਨ ਬਲਕਿ ਪੂਰਵ-ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ RWKV-7 ਮਾਡਲਾਂ ਦਾ ਇੱਕ ਸੂਟ ਵੀ ਜਾਰੀ ਕੀਤਾ ਹੈ। ਇਹ ਮਾਡਲ ਇੱਕ ਸੀਮਾ ਦੇ ਆਕਾਰਾਂ ਵਿੱਚ ਫੈਲੇ ਹੋਏ ਹਨ, ਇੱਕ ਚੁਸਤ 0.19 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਤੋਂ ਲੈ ਕੇ ਸ਼ਕਤੀਸ਼ਾਲੀ 2.9 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਵੇਰੀਐਂਟ ਤੱਕ, ਵਿਭਿੰਨ ਕੰਪਿਊਟੇਸ਼ਨਲ ਬਜਟ ਅਤੇ ਐਪਲੀਕੇਸ਼ਨ ਲੋੜਾਂ ਨੂੰ ਪੂਰਾ ਕਰਦੇ ਹਨ। ਇਹਨਾਂ ਮਾਡਲਾਂ ਦੇ ਨਾਲ ਇੱਕ ਵਿਆਪਕ 3.1 ਟ੍ਰਿਲੀਅਨ-ਟੋਕਨ ਬਹੁ-ਭਾਸ਼ਾਈ ਕਾਰਪਸ ਹੈ, ਜਿਸਨੂੰ RWKV World v3 ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਜੋ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੀ ਅਤੇ ਆਪਣੇ ਆਪ ਵਿੱਚ ਕਮਿਊਨਿਟੀ ਲਈ ਇੱਕ ਕੀਮਤੀ ਸਰੋਤ ਹੈ। ਇਹ ਸਾਰੇ ਯੋਗਦਾਨ, ਮਾਡਲ ਵਜ਼ਨ ਅਤੇ ਅੰਡਰਲਾਈੰਗ ਕੋਡਬੇਸ ਸਮੇਤ, ਪਰਮਿਸਿਵ Apache 2.0 ਓਪਨ-ਸੋਰਸ ਲਾਇਸੈਂਸ ਦੇ ਤਹਿਤ ਉਪਲਬਧ ਕਰਵਾਏ ਗਏ ਹਨ, ਜੋ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਅਪਣਾਉਣ, ਜਾਂਚ ਅਤੇ ਹੋਰ ਵਿਕਾਸ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦੇ ਹਨ।
ਆਰਕੀਟੈਕਚਰਲ ਡੂੰਘਾਈ: RWKV-7 ਨੂੰ ਸ਼ਕਤੀ ਦੇਣ ਵਾਲਾ ਇੰਜਣ
RWKV-7 ਦਾ ਡਿਜ਼ਾਈਨ ਫਲਸਫਾ RWKV-6 ਦੁਆਰਾ ਰੱਖੀ ਗਈ ਠੋਸ ਨੀਂਹ ‘ਤੇ ਬਣਿਆ ਹੈ, ਜਿਸ ਵਿੱਚ ਸੁਧਰੀ ਹੋਈ ਟੈਂਪੋਰਲ ਮਾਡਲਿੰਗ ਲਈ ਟੋਕਨ-ਸ਼ਿਫਟ, ਸੁਧਰੇ ਹੋਏ ਧਿਆਨ-ਵਰਗੇ ਵਿਵਹਾਰ ਲਈ ਬੋਨਸ ਮਕੈਨਿਜ਼ਮ, ਅਤੇ ਇੱਕ ਕੁਸ਼ਲ ReLU² ਫੀਡਫਾਰਵਰਡ ਨੈੱਟਵਰਕ ਬਣਤਰ ਵਰਗੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵਿਰਾਸਤ ਵਿੱਚ ਮਿਲੀਆਂ ਹਨ। ਹਾਲਾਂਕਿ, ‘Goose’ ਦੁਹਰਾਓ ਕਈ ਨਾਜ਼ੁਕ ਸੁਧਾਰਾਂ ਨੂੰ ਪੇਸ਼ ਕਰਦਾ ਹੈ ਜੋ ਸਮੂਹਿਕ ਤੌਰ ‘ਤੇ ਇਸਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਉੱਚਾ ਚੁੱਕਦੇ ਹਨ।
- ਵੈਕਟਰ-ਵੈਲਯੂਡ ਸਟੇਟ ਗੇਟਿੰਗ: ਸਰਲ ਸਕੇਲਰ ਗੇਟਿੰਗ ਤੋਂ ਹਟ ਕੇ, RWKV-7 ਵੈਕਟਰ ਗੇਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਰੀਕਰੈਂਟ ਸਟੇਟ ਦੇ ਅੰਦਰ ਵੱਖ-ਵੱਖ ਚੈਨਲਾਂ ਜਾਂ ਮਾਪਾਂ ਨੂੰ ਸੁਤੰਤਰ ਤੌਰ ‘ਤੇ ਅੱਪਡੇਟ ਅਤੇ ਮੋਡਿਊਲੇਟ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਇਸ ਗੱਲ ‘ਤੇ ਬਹੁਤ ਵਧੀਆ ਨਿਯੰਤਰਣ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਕਿ ਜਾਣਕਾਰੀ ਸਮੇਂ ਦੇ ਨਾਲ ਕਿਵੇਂ ਬਣੀ ਰਹਿੰਦੀ ਹੈ ਜਾਂ ਘਟਦੀ ਹੈ। ਇਹ ਵਧੀ ਹੋਈ ਗ੍ਰੈਨਿਊਲਰਿਟੀ ਗੁੰਝਲਦਾਰ, ਬਹੁ-ਪੱਖੀ ਪ੍ਰਸੰਗਿਕ ਜਾਣਕਾਰੀ ਦਾ ਪ੍ਰਬੰਧਨ ਕਰਨ ਲਈ ਮਾਡਲ ਦੀ ਯੋਗਤਾ ਨੂੰ ਵਧਾਉਂਦੀ ਹੈ।
- ਅਨੁਕੂਲ ਇਨ-ਕੰਟੈਕਸਟ ਲਰਨਿੰਗ ਰੇਟ: ਇੱਕ ਨਾਵਲ ਮਕੈਨਿਜ਼ਮ ਮਾਡਲ ਦੇ ਅੰਦਰੂਨੀ ‘ਲਰਨਿੰਗ ਰੇਟ’ ਨੂੰ ਪ੍ਰਸੰਗ ਸਮਾਈ ਲਈ ਪ੍ਰੋਸੈਸ ਕੀਤੇ ਜਾ ਰਹੇ ਟੋਕਨਾਂ ਦੇ ਅਧਾਰ ‘ਤੇ ਗਤੀਸ਼ੀਲ ਤੌਰ ‘ਤੇ ਅਨੁਕੂਲ ਹੋਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਮਾਡਲ ਨਵੀਂ ਜਾਂ ਹੈਰਾਨੀਜਨਕ ਜਾਣਕਾਰੀ ‘ਤੇ ਆਪਣਾ ਧਿਆਨ ਤੇਜ਼ ਕਰ ਸਕਦਾ ਹੈ ਜਦੋਂ ਕਿ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਬੇਲੋੜੇ ਇਨਪੁਟਸ ਨੂੰ ਘੱਟ-ਵਜ਼ਨ ਦਿੰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਵਧੇਰੇ ਕੁਸ਼ਲ ਸਿਖਲਾਈ ਅਤੇ ਸਟੇਟ ਪ੍ਰਤੀਨਿਧਤਾ ਹੁੰਦੀ ਹੈ।
- ਸੁਧਾਰਿਆ ਡੈਲਟਾ ਨਿਯਮ ਫਾਰਮੂਲੇਸ਼ਨ: ਕੋਰ ਟਾਈਮ-ਮਿਕਸਿੰਗ ਬਲਾਕ, ਪਿਛਲੀ ਜਾਣਕਾਰੀ ਨੂੰ ਏਕੀਕ੍ਰਿਤ ਕਰਨ ਲਈ ਜ਼ਿੰਮੇਵਾਰ, ਡੈਲਟਾ ਨਿਯਮ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਦੇਖਦਾ ਹੈ। ਇਸ ਵਿੱਚ ਆਉਣ ਵਾਲੇ ਟੋਕਨਾਂ ਅਤੇ ਰੀਕਰੈਂਟ ਸਟੇਟ ਦੇ ਵਿਚਕਾਰ ਗੁੰਝਲਦਾਰ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ, ਸੂਝਵਾਨ ਪਰਿਵਰਤਨਾਂ ਲਈ ਸਿਖਲਾਈਯੋਗ ਮੈਟ੍ਰਿਕਸ (ਮਾਡਲ ਮਾਪ D ਨਾਲ ਦਰਸਾਇਆ ਗਿਆ) ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ। ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਕੁਸ਼ਲਤਾ ਲਈ ਘੱਟ-ਰੈਂਕ ਮਲਟੀ-ਲੇਅਰ ਪਰਸੈਪਟਰੋਨ (MLPs) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵਜ਼ਨ ਦੀ ਤਿਆਰੀ ਸ਼ਾਮਲ ਹੈ। ਸਟੇਟ ਈਵੇਲੂਸ਼ਨ ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਨ ਵਾਲੇ ਮੁੱਖ ਭਾਗਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
- ਰਿਪਲੇਸਮੈਂਟ ਕੁੰਜੀਆਂ: ਅੱਪਡੇਟ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਸਟੇਟ ਦੇ ਹਿੱਸਿਆਂ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਨਾ।
- ਡਿਕੇ ਫੈਕਟਰ: ਇਹ ਨਿਯੰਤਰਿਤ ਕਰਨਾ ਕਿ ਪਿਛਲੀ ਜਾਣਕਾਰੀ ਕਿੰਨੀ ਜਲਦੀ ਫਿੱਕੀ ਪੈ ਜਾਂਦੀ ਹੈ।
- ਲਰਨਿੰਗ ਰੇਟ: ਮੌਜੂਦਾ ਇਨਪੁਟ ਦੇ ਅਧਾਰ ‘ਤੇ ਅੱਪਡੇਟ ਦੀ ਤੀਬਰਤਾ ਨੂੰ ਮੋਡਿਊਲੇਟ ਕਰਨਾ।
- ਵੇਟਿਡ ਕੀ-ਵੈਲਯੂ (WKV) ਮਕੈਨਿਜ਼ਮ: ਇਹ ਮਕੈਨਿਜ਼ਮ RWKV ਆਰਕੀਟੈਕਚਰ ਦੇ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਅਨੁਮਾਨ ਲਈ ਕੇਂਦਰੀ ਹੈ। ਇਹ ਇਨਪੁਟ ਕ੍ਰਮ ਤੋਂ ਲਏ ਗਏ ਕੁੰਜੀਆਂ ਅਤੇ ਮੁੱਲਾਂ ਵਿਚਕਾਰ ਵਜ਼ਨ ਵਾਲੇ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਦੇ ਅਧਾਰ ‘ਤੇ ਗਤੀਸ਼ੀਲ ਸਟੇਟ ਪਰਿਵਰਤਨ ਦੀ ਸਹੂਲਤ ਦਿੰਦਾ ਹੈ, ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਇੱਕ ਸੂਝਵਾਨ ਭੁੱਲਣ ਵਾਲੇ ਗੇਟ ਵਾਂਗ ਕੰਮ ਕਰਦਾ ਹੈ ਜੋ ਮਾਡਲ ਨੂੰ ਸਾਰਥਕਤਾ ਦੇ ਅਧਾਰ ‘ਤੇ ਪਿਛਲੀ ਜਾਣਕਾਰੀ ਨੂੰ ਚੋਣਵੇਂ ਰੂਪ ਵਿੱਚ ਬਰਕਰਾਰ ਰੱਖਣ ਜਾਂ ਰੱਦ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।
- ਪ੍ਰਗਟਾਵੇਯੋਗਤਾ ਸੁਧਾਰ: RWKV-7 ਪ੍ਰਤੀ-ਚੈਨਲ ਸੋਧਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ ਅਤੇ ਕੁਝ ਭਾਗਾਂ ਵਿੱਚ ਦੋ-ਪਰਤ MLP ਬਣਤਰ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਤਬਦੀਲੀਆਂ ਨਾ ਸਿਰਫ਼ ਮਾਡਲ ਦੀ ਪ੍ਰਤੀਨਿਧਤਾ ਸ਼ਕਤੀ ਨੂੰ ਵਧਾਉਣ ਲਈ ਤਿਆਰ ਕੀਤੀਆਂ ਗਈਆਂ ਹਨ, ਬਲਕਿ ਸਿਖਲਾਈ ਅਤੇ ਅਨੁਮਾਨ ਦੇ ਦੌਰਾਨ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਥਿਰਤਾ ਅਤੇ ਸੰਖਿਆਤਮਕ ਸ਼ੁੱਧਤਾ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਵੀ ਤਿਆਰ ਕੀਤੀਆਂ ਗਈਆਂ ਹਨ, ਜਦੋਂ ਕਿ RNN ਡਿਜ਼ਾਈਨ ਵਿੱਚ ਮੌਜੂਦ ਮਹੱਤਵਪੂਰਨ ਸਟੇਟ-ਟਰੈਕਿੰਗ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਧਿਆਨ ਨਾਲ ਸੁਰੱਖਿਅਤ ਰੱਖਿਆ ਜਾਂਦਾ ਹੈ।
RWKV-7 ਲਈ ਸਿਖਲਾਈ ਪ੍ਰਣਾਲੀ ਨੇ ਨਵੇਂ ਕੰਪਾਇਲ ਕੀਤੇ RWKV World v3 ਕਾਰਪਸ ਦਾ ਲਾਭ ਉਠਾਇਆ। 3 ਟ੍ਰਿਲੀਅਨ ਤੋਂ ਵੱਧ ਟੋਕਨਾਂ ਵਾਲਾ ਇਹ ਵਿਸ਼ਾਲ ਡੇਟਾਸੈਟ, ਜਾਣਬੁੱਝ ਕੇ ਮਾਡਲ ਦੀ ਮੁਹਾਰਤ ਨੂੰ ਨਾ ਸਿਰਫ਼ English ਵਿੱਚ ਬਲਕਿ ਵੱਖ-ਵੱਖ ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਪ੍ਰੋਗਰਾਮਿੰਗ ਕੋਡ ਵਿੱਚ ਵੀ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵਧਾਉਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ, ਜੋ ਸੱਚਮੁੱਚ ਬਹੁ-ਭਾਸ਼ਾਈ ਅਤੇ ਕੋਡ-ਜਾਗਰੂਕ ਬੁਨਿਆਦ ਮਾਡਲਾਂ ਦੀ ਵੱਧਦੀ ਲੋੜ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਖੋਜ RWKV-7 ਦੀ ਸ਼ਕਤੀ ਲਈ ਸਿਧਾਂਤਕ ਆਧਾਰ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਜਟਿਲਤਾ ਕਲਾਸ TC₀ ਦੀ ਪਹੁੰਚ ਤੋਂ ਬਾਹਰ ਮੰਨੀਆਂ ਜਾਂਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਇਸਦੀ ਸਮਰੱਥਾ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹੋਏ ਸਬੂਤ ਪੇਸ਼ ਕੀਤੇ ਜਾਂਦੇ ਹਨ, ਜਿਸ ਵਿੱਚ S₅ ਸਟੇਟ ਟਰੈਕਿੰਗ (5 ਤੱਤਾਂ ਦੇ ਪਰਮਿਊਟੇਸ਼ਨ ਦਾ ਪ੍ਰਬੰਧਨ) ਅਤੇ ਉਪਰੋਕਤ ਸਾਰੀਆਂ ਨਿਯਮਤ ਭਾਸ਼ਾਵਾਂ ਦੀ ਪਛਾਣ ਵਰਗੇ ਕਾਰਜ ਸ਼ਾਮਲ ਹਨ। ਇਹ ਸਿਧਾਂਤਕ ਕਿਨਾਰਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ RWKV-7 ਕੁਝ ਕਿਸਮ ਦੇ ਢਾਂਚਾਗਤ ਜਾਂ ਐਲਗੋਰਿਦਮਿਕ ਕਾਰਜਾਂ ਨੂੰ ਰਵਾਇਤੀ Transformer ਆਰਕੀਟੈਕਚਰ ਨਾਲੋਂ ਵਧੇਰੇ ਕੁਦਰਤੀ ਅਤੇ ਕੁਸ਼ਲਤਾ ਨਾਲ ਸੰਭਾਲ ਸਕਦਾ ਹੈ। ਆਰਕੀਟੈਕਚਰਲ ਡਿਜ਼ਾਈਨ ਦਾ ਇੱਕ ਦਿਲਚਸਪ ਵਿਹਾਰਕ ਨਤੀਜਾ ਇੱਕ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਅੱਪਗ੍ਰੇਡ ਮਾਰਗ ਦਾ ਪ੍ਰਸਤਾਵ ਹੈ। ਇਹ ਵਿਧੀ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਮੌਜੂਦਾ RWKV ਮਾਡਲਾਂ ਨੂੰ ਸ਼ੁਰੂ ਤੋਂ ਇੱਕ ਸੰਪੂਰਨ, ਮਹਿੰਗੇ ਮੁੜ-ਸਿਖਲਾਈ ਚੱਕਰ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਨਵੇਂ ਆਰਕੀਟੈਕਚਰਲ ਸੁਧਾਰਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਲਈ ਵਧਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ, ਵਧੇਰੇ ਚੁਸਤ ਅਤੇ ਵਾਧੇ ਵਾਲੇ ਮਾਡਲ ਵਿਕਾਸ ਦੀ ਸਹੂਲਤ ਦਿੰਦੀ ਹੈ।
‘Goose’ ਦਾ ਮੁਲਾਂਕਣ: ਵਿਭਿੰਨ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਨ
RWKV-7 ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਸਖਤੀ ਨਾਲ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ, ਮਾਡਲਾਂ ਨੇ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਅਪਣਾਏ ਗਏ LM Evaluation Harness ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵਿਆਪਕ ਮੁਲਾਂਕਣ ਕੀਤਾ। ਇਹ ਫਰੇਮਵਰਕ ਭਾਸ਼ਾ ਸਮਝ ਅਤੇ ਉਤਪਾਦਨ ਕਾਰਜਾਂ ਦੇ ਇੱਕ ਵਿਸ਼ਾਲ ਸਪੈਕਟ੍ਰਮ ਨੂੰ ਕਵਰ ਕਰਨ ਵਾਲੇ ਬੈਂਚਮਾਰਕਾਂ ਦਾ ਇੱਕ ਮਾਨਕੀਕ੍ਰਿਤ ਸੂਟ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ English-ਕੇਂਦਰਿਤ ਬੈਂਚਮਾਰਕ ਅਤੇ ਕਈ ਤਰ੍ਹਾਂ ਦੀਆਂ ਬਹੁ-ਭਾਸ਼ਾਈ ਚੁਣੌਤੀਆਂ ਸ਼ਾਮਲ ਸਨ।
ਨਤੀਜੇ RWKV-7 ਦੀ ਯੋਗਤਾ ਦੀ ਇੱਕ ਮਜਬੂਰ ਕਰਨ ਵਾਲੀ ਤਸਵੀਰ ਪੇਸ਼ ਕਰਦੇ ਹਨ। ਬਹੁਤ ਸਾਰੇ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ, RWKV-7 ਮਾਡਲਾਂ ਨੇ ਪ੍ਰਦਰਸ਼ਨ ਪੱਧਰਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਜੋ ਸਥਾਪਿਤ ਸਟੇਟ-ਆਫ-ਦੀ-ਆਰਟ ਮਾਡਲਾਂ ਨਾਲ ਬਹੁਤ ਪ੍ਰਤੀਯੋਗੀ ਹਨ, ਜਿਸ ਵਿੱਚ ਪ੍ਰਮੁੱਖ Transformer-ਅਧਾਰਿਤ ਆਰਕੀਟੈਕਚਰ ਸ਼ਾਮਲ ਹਨ। ਇਹ ਖਾਸ ਤੌਰ ‘ਤੇ ਇਸਦੇ ਕਈ ਪ੍ਰਤੀਯੋਗੀਆਂ ਦੀ ਤੁਲਨਾ ਵਿੱਚ RWKV-7 ਲਈ ਵਰਤੇ ਗਏ ਸਿਖਲਾਈ ਟੋਕਨਾਂ ਦੀ ਕਾਫ਼ੀ ਘੱਟ ਮਾਤਰਾ ਨੂੰ ਦੇਖਦੇ ਹੋਏ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਚੁਣੌਤੀਪੂਰਨ MMLU (Massive Multitask Language Understanding) ਬੈਂਚਮਾਰਕ ‘ਤੇ, RWKV-7 ਨੇ ਆਪਣੇ ਪੂਰਵਜ, RWKV-6 ਨਾਲੋਂ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਦਿਖਾਏ। ਇਸਦੇ ਲਾਭ ਬਹੁ-ਭਾਸ਼ਾਈ ਕਾਰਜਾਂ ਵਿੱਚ ਹੋਰ ਵੀ ਸਪੱਸ਼ਟ ਸਨ, ਜੋ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਵਿਆਪਕ ਅਤੇ ਵਿਭਿੰਨ RWKV World v3 ਸਿਖਲਾਈ ਕਾਰਪਸ ਤੋਂ ਪ੍ਰਾਪਤ ਲਾਭਾਂ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ।
ਮਾਨਕੀਕ੍ਰਿਤ ਅਕਾਦਮਿਕ ਬੈਂਚਮਾਰਕਾਂ ਤੋਂ ਪਰੇ, ਮੁਲਾਂਕਣ ਵਿੱਚ ਹਾਲੀਆ ਇੰਟਰਨੈਟ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮੁਲਾਂਕਣ ਵੀ ਸ਼ਾਮਲ ਕੀਤੇ ਗਏ। ਇਹਨਾਂ ਟੈਸਟਾਂ ਦਾ ਉਦੇਸ਼ ਅੱਪ-ਟੂ-ਡੇਟ ਜਾਣਕਾਰੀ ਦੀ ਪ੍ਰਕਿਰਿਆ ਅਤੇ ਤਰਕ ਕਰਨ ਲਈ ਮਾਡਲ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ ਸੀ, ਸਮਕਾਲੀ ਗਿਆਨ ਅਤੇ ਭਾਸ਼ਾ ਦੀ ਵਰਤੋਂ ਨੂੰ ਸੰਭਾਲਣ ਵਿੱਚ ਇਸਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਦੀ ਪੁਸ਼ਟੀ ਕਰਨਾ।
ਮੁਲਾਂਕਣ ਦੌਰਾਨ ਉਜਾਗਰ ਕੀਤੀਆਂ ਖਾਸ ਸ਼ਕਤੀਆਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
- ਐਸੋਸੀਏਟਿਵ ਰੀਕਾਲ: ਮਾਡਲ ਨੇ ਸੰਬੰਧਿਤ ਸੰਕੇਤਾਂ ਦੇ ਅਧਾਰ ‘ਤੇ ਜਾਣਕਾਰੀ ਨੂੰ ਯਾਦ ਕਰਨ ਲਈ ਇੱਕ ਮਜ਼ਬੂਤ ਸਮਰੱਥਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਗਿਆਨ ਪ੍ਰਾਪਤੀ ਅਤੇ ਤਰਕ ਨਾਲ ਜੁੜੇ ਕਾਰਜਾਂ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸਮਰੱਥਾ।
- ਮਕੈਨਿਸਟਿਕ ਆਰਕੀਟੈਕਚਰ ਡਿਜ਼ਾਈਨ: ਮੁਲਾਂਕਣ ਅਪ੍ਰਤੱਖ ਤੌਰ ‘ਤੇ RWKV-7 ਵਿੱਚ ਕੀਤੇ ਗਏ ਖਾਸ ਆਰਕੀਟੈਕਚਰਲ ਵਿਕਲਪਾਂ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਨੂੰ ਪ੍ਰਮਾਣਿਤ ਕਰਦੇ ਹਨ, ਸਮੁੱਚੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਉਹਨਾਂ ਦੇ ਯੋਗਦਾਨ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ।
- ਲੰਬੇ-ਸੰਦਰਭ ਧਾਰਨ: ਸਥਿਰ ਮੈਮੋਰੀ ਵਰਤੋਂ ਤੋਂ ਲਾਭ ਉਠਾਉਂਦੇ ਹੋਏ, ਮਾਡਲ ਨੇ ਵਿਸਤ੍ਰਿਤ ਕ੍ਰਮ ਦੀ ਲੰਬਾਈ ‘ਤੇ ਜਾਣਕਾਰੀ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਣ ਅਤੇ ਵਰਤਣ ਵਿੱਚ ਵਿਹਾਰਕ ਯੋਗਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਵੀ ਕੀਤਾ, ਲੰਬੀ-ਸੀਮਾ ਨਿਰਭਰਤਾ ਮਾਡਲਿੰਗ ਦੀ ਲੋੜ ਵਾਲੇ ਕਾਰਜਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ।
ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਾਪਤੀਆਂ ਕਮਾਲ ਦੀ ਕੰਪਿਊਟੇਸ਼ਨਲ ਕੁਸ਼ਲਤਾ ਨਾਲ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ ਗਈਆਂ ਸਨ। ਕੁਝ ਉਦਯੋਗਿਕ ਦਿੱਗਜਾਂ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਉਪਲਬਧ ਸਿਖਲਾਈ ਸਰੋਤਾਂ ਵਿੱਚ ਰੁਕਾਵਟਾਂ ਦੇ ਤਹਿਤ ਕੰਮ ਕਰਨ ਦੇ ਬਾਵਜੂਦ, RWKV-7 ਨੇ ਤੁਲਨਾਤਮਕ ਆਕਾਰ ਦੇ ਕਈ ਪ੍ਰਮੁੱਖ Transformer ਮਾਡਲਾਂ ਨਾਲੋਂ ਸਿਖਲਾਈ ਦੌਰਾਨ ਘੱਟ ਫਲੋਟਿੰਗ ਪੁਆਇੰਟ ਓਪਰੇਸ਼ਨ (FLOPs) ਦੀ ਮੰਗ ਕਰਦੇ ਹੋਏ ਆਪਣੇ ਮਜ਼ਬੂਤ ਬੈਂਚਮਾਰਕ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤੇ। ਇਹ ਪੈਰਾਮੀਟਰ ਕੁਸ਼ਲਤਾ ਅਤੇ ਇਸਦੇ ਲੀਨੀਅਰਲੀ ਸਕੇਲਿੰਗ ਰੀਕਰੈਂਟ ਡਿਜ਼ਾਈਨ ਦੇ ਅੰਦਰੂਨੀ ਫਾਇਦਿਆਂ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦਾ ਹੈ। SoTA-ਪੱਧਰ ਦੇ ਪ੍ਰਦਰਸ਼ਨ (ਖਾਸ ਕਰਕੇ ਬਹੁ-ਭਾਸ਼ਾਈ ਤੌਰ ‘ਤੇ) ਅਤੇ ਉੱਤਮ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸੰਜਮ ਦਾ ਸੁਮੇਲ RWKV-7 ਨੂੰ ਕ੍ਰਮ ਮਾ