ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੀ ਸ਼ਕਤੀ
ਰਵਾਇਤੀ AI ਮਾਡਲ ਵਿਕਾਸ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਤਰੀਕਿਆਂ ‘ਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। ਹਾਲਾਂਕਿ, Qwen ਟੀਮ ਨੇ ਇਹਨਾਂ ਰਵਾਇਤੀ ਤਕਨੀਕਾਂ ਤੋਂ ਅੱਗੇ ਵਧ ਕੇ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਵਿੱਚ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਏਜੰਟ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਜੋੜਿਆ ਹੈ। ਇਹ ਏਕੀਕਰਣ QwQ-32B ਨੂੰ ਆਲੋਚਨਾਤਮਕ ਸੋਚ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਣ, ਬਾਹਰੀ ਸਾਧਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ, ਅਤੇ ਇਸਦੇ ਵਾਤਾਵਰਣ ਤੋਂ ਫੀਡਬੈਕ ਦੇ ਅਧਾਰ ‘ਤੇ ਆਪਣੀ ਤਰਕ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਗਤੀਸ਼ੀਲ ਰੂਪ ਵਿੱਚ ਅਨੁਕੂਲ ਬਣਾਉਣ ਦੀ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਇਹ ਵਧੇਰੇ ਅਨੁਕੂਲ ਅਤੇ ਬੁੱਧੀਮਾਨ AI ਸਿਸਟਮ ਬਣਾਉਣ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।
Qwen ਟੀਮ ਜ਼ੋਰ ਦਿੰਦੀ ਹੈ ਕਿ ਸਕੇਲਿੰਗ RL ਵਿੱਚ ਰਵਾਇਤੀ ਤਰੀਕਿਆਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਪਾਰ ਕਰਨ ਵਾਲੇ ਪ੍ਰਦਰਸ਼ਨ ਸੁਧਾਰਾਂ ਨੂੰ ਅਨਲੌਕ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਹੈ। ਹਾਲੀਆ ਖੋਜ ਨੇ ਪਹਿਲਾਂ ਹੀ AI ਮਾਡਲਾਂ ਦੀਆਂ ਤਰਕ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵਧਾਉਣ ਦੀ RL ਦੀ ਯੋਗਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਹੈ, ਅਤੇ QwQ-32B ਕਾਰਵਾਈ ਵਿੱਚ ਇਸ ਸੰਭਾਵਨਾ ਦੀ ਇੱਕ ਮਜਬੂਰ ਕਰਨ ਵਾਲੀ ਉਦਾਹਰਣ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ।
ਆਕਾਰ ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿਚਕਾਰ ਅੰਤਰ ਨੂੰ ਪੂਰਾ ਕਰਨਾ
QwQ-32B ਦਾ ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਪਹਿਲੂਆਂ ਵਿੱਚੋਂ ਇੱਕ ਇਸਦੇ ਆਕਾਰ ਦੇ ਅਨੁਸਾਰੀ ਇਸਦਾ ਪ੍ਰਦਰਸ਼ਨ ਹੈ। DeepSeek-R1, ਇੱਕ ਮਾਡਲ ਜਿਸ ਨਾਲ QwQ-32B ਮੁਕਾਬਲਾ ਕਰਦਾ ਹੈ, ਵਿੱਚ 671 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਹਨ (37 ਬਿਲੀਅਨ ਕਿਰਿਆਸ਼ੀਲ ਹਨ)। QwQ-32B, ਤੁਲਨਾਤਮਕ ਤੌਰ ‘ਤੇ ਮਾਮੂਲੀ 32 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਦੇ ਨਾਲ, ਤੁਲਨਾਤਮਕ ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, RL ਦੇ ਰਣਨੀਤਕ ਲਾਗੂਕਰਨ ਦੁਆਰਾ ਪ੍ਰਾਪਤ ਕੀਤੀ ਗਈ ਕਮਾਲ ਦੀ ਕੁਸ਼ਲਤਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ। ਇਹ ਪ੍ਰਾਪਤੀ ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਚੱਲੀ ਆ ਰਹੀ ਇਸ ਧਾਰਨਾ ਨੂੰ ਚੁਣੌਤੀ ਦਿੰਦੀ ਹੈ ਕਿ ਮਾਡਲ ਦਾ ਆਕਾਰ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁੱਖ ਨਿਰਣਾਇਕ ਹੈ, ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਸੂਝਵਾਨ ਸਿਖਲਾਈ ਤਕਨੀਕਾਂ ਆਕਾਰ ਅਤੇ ਸਮਰੱਥਾ ਦੇ ਵਿਚਕਾਰਲੇ ਪਾੜੇ ਨੂੰ ਪੂਰਾ ਕਰ ਸਕਦੀਆਂ ਹਨ।
ਬੈਂਚਮਾਰਕਿੰਗ ਉੱਤਮਤਾ
QwQ-32B ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਸਖ਼ਤੀ ਨਾਲ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ, Qwen ਟੀਮ ਨੇ ਮਾਡਲ ਨੂੰ ਬੈਂਚਮਾਰਕਾਂ ਦੇ ਇੱਕ ਵਿਆਪਕ ਸੂਟ ਦੇ ਅਧੀਨ ਕੀਤਾ। ਇਹ ਬੈਂਚਮਾਰਕ, ਜਿਸ ਵਿੱਚ AIME24, LiveCodeBench, LiveBench, IFEval, ਅਤੇ BFCL ਸ਼ਾਮਲ ਹਨ, ਖਾਸ ਤੌਰ ‘ਤੇ AI ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਵੱਖ-ਵੱਖ ਪਹਿਲੂਆਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹਨ, ਜਿਸ ਵਿੱਚ ਗਣਿਤਿਕ ਤਰਕ, ਕੋਡਿੰਗ ਨਿਪੁੰਨਤਾ, ਅਤੇ ਆਮ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨ ਦੀਆਂ ਯੋਗਤਾਵਾਂ ਸ਼ਾਮਲ ਹਨ। ਇਹਨਾਂ ਮੁਲਾਂਕਣਾਂ ਦੇ ਨਤੀਜੇ QwQ-32B ਦੀਆਂ ਸ਼ਕਤੀਆਂ ਦੀ ਇੱਕ ਮਜਬੂਰ ਕਰਨ ਵਾਲੀ ਤਸਵੀਰ ਪੇਸ਼ ਕਰਦੇ ਹਨ।
ਇੱਥੇ ਹਰੇਕ ਬੈਂਚਮਾਰਕ ‘ਤੇ QwQ-32B ਦੇ ਪ੍ਰਦਰਸ਼ਨ ‘ਤੇ ਇੱਕ ਡੂੰਘੀ ਨਜ਼ਰ ਹੈ:
AIME24: ਇਹ ਬੈਂਚਮਾਰਕ ਗਣਿਤਿਕ ਤਰਕ ‘ਤੇ ਕੇਂਦ੍ਰਤ ਹੈ। QwQ-32B ਨੇ 79.5 ਦਾ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਜੋ ਕਿ DeepSeek-R1-671B ਦੇ 79.8 ਦੇ ਸਕੋਰ ਤੋਂ ਥੋੜ੍ਹਾ ਪਿੱਛੇ ਹੈ। ਖਾਸ ਤੌਰ ‘ਤੇ, ਦੋਵਾਂ ਮਾਡਲਾਂ ਨੇ OpenAl-o1-mini, ਜਿਸਨੇ 63.6 ਸਕੋਰ ਕੀਤਾ, ਦੇ ਨਾਲ-ਨਾਲ ਡਿਸਟਿਲਡ ਮਾਡਲਾਂ ਨੂੰ ਵੀ ਪਛਾੜ ਦਿੱਤਾ।
LiveCodeBench: ਇਹ ਬੈਂਚਮਾਰਕ ਕੋਡਿੰਗ ਨਿਪੁੰਨਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ। QwQ-32B ਨੇ 63.4 ਸਕੋਰ ਕੀਤਾ, ਜੋ ਕਿ DeepSeek-R1-671B ਦੇ 65.9 ਦੇ ਸਕੋਰ ਦੇ ਨੇੜੇ ਹੈ। ਦੁਬਾਰਾ ਫਿਰ, ਦੋਵਾਂ ਮਾਡਲਾਂ ਨੇ ਡਿਸਟਿਲਡ ਮਾਡਲਾਂ ਅਤੇ OpenAl-o1-mini (53.8) ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ।
LiveBench: ਆਮ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ, LiveBench ਨੇ QwQ-32B ਨੂੰ 73.1 ਦਾ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹੋਏ ਦੇਖਿਆ, ਜੋ ਕਿ DeepSeek-R1-671B ਦੇ 71.6 ਦੇ ਸਕੋਰ ਤੋਂ ਵੱਧ ਹੈ। ਇਹ ਨਤੀਜਾ ਆਮ AI ਕਾਰਜਾਂ ਵਿੱਚ ਇੱਕ ਮਜ਼ਬੂਤ ਦਾਅਵੇਦਾਰ ਵਜੋਂ QwQ-32B ਦੀ ਸਥਿਤੀ ਨੂੰ ਹੋਰ ਮਜ਼ਬੂਤ ਕਰਦਾ ਹੈ।
IFEval: ਇਹ ਬੈਂਚਮਾਰਕ ਮਨੁੱਖੀ ਤਰਜੀਹਾਂ ਦੇ ਨਾਲ ਹਿਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਅਤੇ ਅਨੁਕੂਲਤਾ ‘ਤੇ ਕੇਂਦ੍ਰਤ ਹੈ। QwQ-32B ਨੇ 83.9 ਦਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਜੋ ਕਿ DeepSeek-R1-671B ਦੇ 83.3 ਦੇ ਸਕੋਰ ਦੇ ਲਗਭਗ ਬਰਾਬਰ ਹੈ। ਦੋਵਾਂ ਮਾਡਲਾਂ ਨੇ OpenAl-o1-mini (59.1) ਅਤੇ ਡਿਸਟਿਲਡ ਮਾਡਲਾਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਪਛਾੜ ਦਿੱਤਾ।
BFCL: ਇਹ ਬੈਂਚਮਾਰਕ ਇੱਕ ਮਾਡਲ ਦੀ ਗੁੰਝਲਦਾਰ, ਅਸਲ-ਸੰਸਾਰ ਦੇ ਦ੍ਰਿਸ਼ਾਂ ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਯੋਗਤਾ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ। QwQ-32B ਨੇ 66.4 ਦਾ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਜੋ ਕਿ DeepSeek-R1-671B ਦੇ 62.8 ਦੇ ਸਕੋਰ ਤੋਂ ਵੱਧ ਹੈ। ਇਹ ਨਤੀਜਾ ਸਿਰਫ਼ ਅਕਾਦਮਿਕ ਬੈਂਚਮਾਰਕਾਂ ਤੋਂ ਪਰੇ ਵਿਹਾਰਕ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ QwQ-32B ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।
ਇਹ ਨਤੀਜੇ ਲਗਾਤਾਰ QwQ-32B ਦੀ ਮੁਕਾਬਲਾ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ, ਅਤੇ ਕੁਝ ਮਾਮਲਿਆਂ ਵਿੱਚ, ਬਹੁਤ ਵੱਡੇ ਮਾਡਲਾਂ ਨੂੰ ਪਛਾੜ ਦਿੰਦੇ ਹਨ। ਇਹ Qwen ਟੀਮ ਦੇ ਪਹੁੰਚ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਅਤੇ AI ਵਿਕਾਸ ਵਿੱਚ RL ਦੀ ਪਰਿਵਰਤਨਸ਼ੀਲ ਸੰਭਾਵਨਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ।
Qwen ਟੀਮ ਦੀ ਨਵੀਨਤਾਕਾਰੀ ਪਹੁੰਚ
QwQ-32B ਦੀ ਸਫਲਤਾ ਦਾ ਸਿਹਰਾ Qwen ਟੀਮ ਦੀ ਨਵੀਨਤਾਕਾਰੀ ਬਹੁ-ਪੜਾਅ ਵਾਲੀ RL ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਦਿੱਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇਹ ਪ੍ਰਕਿਰਿਆ ਇੱਕ ‘ਕੋਲਡ-ਸਟਾਰਟ’ ਚੈਕਪੁਆਇੰਟ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ, ਮਤਲਬ ਕਿ ਮਾਡਲ ਇੱਕ ਪਹਿਲਾਂ ਤੋਂ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਬੁਨਿਆਦ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ ਪਰ ਫਿਰ RL ਦੁਆਰਾ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਸੁਧਾਰਿਆ ਜਾਂਦਾ ਹੈ। ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਨਤੀਜਾ-ਅਧਾਰਤ ਇਨਾਮਾਂ ਦੁਆਰਾ ਚਲਾਈ ਜਾਂਦੀ ਹੈ, ਮਾਡਲ ਨੂੰ ਖਾਸ ਕਾਰਜਾਂ ‘ਤੇ ਆਪਣੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕਰਦੀ ਹੈ।
ਸਿਖਲਾਈ ਦਾ ਸ਼ੁਰੂਆਤੀ ਪੜਾਅ ਗਣਿਤ ਅਤੇ ਕੋਡਿੰਗ ਕਾਰਜਾਂ ਲਈ ਸਕੇਲਿੰਗ RL ‘ਤੇ ਕੇਂਦ੍ਰਤ ਹੈ। ਇਸ ਵਿੱਚ ਫੀਡਬੈਕ ਪ੍ਰਦਾਨ ਕਰਨ ਅਤੇ ਮਾਡਲ ਦੀ ਸਿਖਲਾਈ ਦੀ ਅਗਵਾਈ ਕਰਨ ਲਈ ਸ਼ੁੱਧਤਾ ਤਸਦੀਕਕਰਤਾਵਾਂ ਅਤੇ ਕੋਡ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਸਰਵਰਾਂ ਦੀ ਵਰਤੋਂ ਸ਼ਾਮਲ ਹੈ। ਮਾਡਲ ਸਫਲ ਨਤੀਜਿਆਂ ਲਈ ਇਨਾਮ ਪ੍ਰਾਪਤ ਕਰਕੇ ਸਹੀ ਗਣਿਤਿਕ ਹੱਲ ਤਿਆਰ ਕਰਨਾ ਅਤੇ ਕਾਰਜਸ਼ੀਲ ਕੋਡ ਲਿਖਣਾ ਸਿੱਖਦਾ ਹੈ।
ਦੂਜਾ ਪੜਾਅ ਆਮ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਲਈ RL ਸਿਖਲਾਈ ਦੇ ਦਾਇਰੇ ਦਾ ਵਿਸਤਾਰ ਕਰਦਾ ਹੈ। ਇਹ ਪੜਾਅ ਆਮ ਇਨਾਮ ਮਾਡਲਾਂ ਅਤੇ ਨਿਯਮ-ਅਧਾਰਤ ਤਸਦੀਕਕਰਤਾਵਾਂ ਤੋਂ ਇਨਾਮਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ, ਵੱਖ-ਵੱਖ ਕਾਰਜਾਂ ਅਤੇ ਹਿਦਾਇਤਾਂ ਦੀ ਮਾਡਲ ਦੀ ਸਮਝ ਨੂੰ ਵਿਸ਼ਾਲ ਕਰਦਾ ਹੈ। ਇਹ ਪੜਾਅ ਇੱਕ ਚੰਗੀ ਤਰ੍ਹਾਂ ਵਿਕਸਤ AI ਮਾਡਲ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ ਜੋ ਕਿ ਚੁਣੌਤੀਆਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਨੂੰ ਸੰਭਾਲ ਸਕਦਾ ਹੈ।
Qwen ਟੀਮ ਨੇ ਖੋਜ ਕੀਤੀ ਕਿ RL ਸਿਖਲਾਈ ਦਾ ਇਹ ਦੂਜਾ ਪੜਾਅ, ਭਾਵੇਂ ਕਿ ਥੋੜ੍ਹੇ ਜਿਹੇ ਕਦਮਾਂ ਦੇ ਨਾਲ ਵੀ, ਵੱਖ-ਵੱਖ ਆਮ ਸਮਰੱਥਾਵਾਂ ਵਿੱਚ ਮਾਡਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵਧਾ ਸਕਦਾ ਹੈ। ਇਹਨਾਂ ਵਿੱਚ ਹਿਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ, ਮਨੁੱਖੀ ਤਰਜੀਹਾਂ ਦੇ ਨਾਲ ਅਨੁਕੂਲਤਾ, ਅਤੇ ਸਮੁੱਚੀ ਏਜੰਟ ਕਾਰਗੁਜ਼ਾਰੀ ਸ਼ਾਮਲ ਹਨ। ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਆਮ ਸਮਰੱਥਾਵਾਂ ਵਿੱਚ ਇਹ ਸੁਧਾਰ ਗਣਿਤ ਅਤੇ ਕੋਡਿੰਗ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਕੀਮਤ ‘ਤੇ ਨਹੀਂ ਆਉਂਦਾ, ਜੋ ਕਿ ਬਹੁ-ਪੜਾਅ ਵਾਲੇ ਪਹੁੰਚ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।
ਓਪਨ-ਵੇਟ ਅਤੇ ਪਹੁੰਚਯੋਗ
ਇੱਕ ਅਜਿਹੇ ਕਦਮ ਵਿੱਚ ਜੋ ਸਹਿਯੋਗ ਅਤੇ ਹੋਰ ਖੋਜ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦਾ ਹੈ, Qwen ਟੀਮ ਨੇ QwQ-32B ਨੂੰ ਓਪਨ-ਵੇਟ ਬਣਾਇਆ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਮਾਡਲ ਦੇ ਪੈਰਾਮੀਟਰ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਹਨ, ਜਿਸ ਨਾਲ ਖੋਜਕਰਤਾਵਾਂ ਅਤੇ ਡਿਵੈਲਪਰਾਂ ਨੂੰ Qwen ਟੀਮ ਦੇ ਕੰਮ ਤੱਕ ਪਹੁੰਚ, ਅਧਿਐਨ ਅਤੇ ਨਿਰਮਾਣ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਮਿਲਦੀ ਹੈ। ਮਾਡਲ Apache 2.0 ਲਾਇਸੰਸ ਦੇ ਅਧੀਨ Hugging Face ਅਤੇ ModelScope ‘ਤੇ ਉਪਲਬਧ ਹੈ, ਇੱਕ ਅਨੁਮਤੀ ਵਾਲਾ ਲਾਇਸੰਸ ਜੋ ਵਿਆਪਕ ਵਰਤੋਂ ਅਤੇ ਸੋਧ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, QwQ-32B Qwen Chat ਰਾਹੀਂ ਪਹੁੰਚਯੋਗ ਹੈ, ਜੋ ਮਾਡਲ ਨਾਲ ਗੱਲਬਾਤ ਕਰਨ ਲਈ ਇੱਕ ਉਪਭੋਗਤਾ-ਅਨੁਕੂਲ ਇੰਟਰਫੇਸ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
AGI ਵੱਲ ਇੱਕ ਕਦਮ
QwQ-32B ਦਾ ਵਿਕਾਸ ਆਰਟੀਫੀਸ਼ੀਅਲ ਜਨਰਲ ਇੰਟੈਲੀਜੈਂਸ (AGI) ਦੀ ਪ੍ਰਾਪਤੀ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। Qwen ਟੀਮ ਇਸ ਮਾਡਲ ਨੂੰ ਤਰਕ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਵਧਾਉਣ ਲਈ ਸਕੇਲਿੰਗ RL ਦੀ ਸ਼ੁਰੂਆਤੀ ਖੋਜ ਵਜੋਂ ਦੇਖਦੀ ਹੈ, ਅਤੇ ਉਹ ਲੰਬੇ ਸਮੇਂ ਦੇ ਤਰਕ ਲਈ ਏਜੰਟਾਂ ਦੇ RL ਨਾਲ ਏਕੀਕਰਣ ਦੀ ਜਾਂਚ ਜਾਰੀ ਰੱਖਣ ਦੀ ਯੋਜਨਾ ਬਣਾਉਂਦੇ ਹਨ। ਇਸ ਵਿੱਚ AI ਸਿਸਟਮਾਂ ਨੂੰ ਵਿਕਸਤ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ ਜੋ ਲੰਬੇ ਸਮੇਂ ਲਈ ਗੁੰਝਲਦਾਰ ਕਾਰਜਾਂ ਦੀ ਯੋਜਨਾ ਬਣਾ ਸਕਦੇ ਹਨ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਪੂਰਾ ਕਰ ਸਕਦੇ ਹਨ, AGI ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸਮਰੱਥਾ।
ਟੀਮ ਨੂੰ ਭਰੋਸਾ ਹੈ ਕਿ ਮਜ਼ਬੂਤ ਬੁਨਿਆਦੀ ਮਾਡਲਾਂ ਨੂੰ RL ਨਾਲ ਜੋੜਨਾ, ਸਕੇਲ ਕੀਤੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ ਦੁਆਰਾ ਸੰਚਾਲਿਤ, AGI ਦੇ ਵਿਕਾਸ ਵਿੱਚ ਇੱਕ ਮੁੱਖ ਚਾਲਕ ਹੋਵੇਗਾ। QwQ-32B ਇਸ ਸੰਭਾਵਨਾ ਦਾ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਪ੍ਰਦਰਸ਼ਨ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ, ਰਣਨੀਤਕ RL ਲਾਗੂਕਰਨ ਦੁਆਰਾ ਪ੍ਰਾਪਤ ਕੀਤੇ ਜਾ ਸਕਣ ਵਾਲੇ ਕਮਾਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਲਾਭਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। Qwen ਟੀਮ ਦੇ ਚੱਲ ਰਹੇ ਖੋਜ ਅਤੇ ਵਿਕਾਸ ਦੇ ਯਤਨਾਂ, QwQ-32B ਦੇ ਓਪਨ-ਸੋਰਸ ਸੁਭਾਅ ਦੇ ਨਾਲ, AI ਦੇ ਖੇਤਰ ਵਿੱਚ ਤਰੱਕੀ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਅਤੇ ਸਾਨੂੰ ਸੱਚਮੁੱਚ ਬੁੱਧੀਮਾਨ ਮਸ਼ੀਨਾਂ ਦੀ ਪ੍ਰਾਪਤੀ ਦੇ ਨੇੜੇ ਲਿਆਉਣ ਦਾ ਵਾਅਦਾ ਕਰਦੇ ਹਨ। ਹੁਣ ਧਿਆਨ ਸਿਰਫ਼ ਵੱਡੇ ਮਾਡਲਾਂ ਨੂੰ ਬਣਾਉਣ ‘ਤੇ ਨਹੀਂ ਹੈ, ਸਗੋਂ ਨਵੀਨਤਾਕਾਰੀ ਸਿਖਲਾਈ ਤਕਨੀਕਾਂ ਰਾਹੀਂ ਵਧੇਰੇ ਬੁੱਧੀਮਾਨ ਅਤੇ ਅਨੁਕੂਲ ਸਿਸਟਮ ਬਣਾਉਣ ‘ਤੇ ਹੈ।