ਅਲੀਬਾਬਾ ਨੇ Qwen-32B ਲਾਂਚ ਕੀਤਾ

ਮਾਡਲ ਕਾਰਗੁਜ਼ਾਰੀ: QwQ-32B ਦੀ ਬੈਂਚਮਾਰਕਿੰਗ

QwQ-32B ਦਾ ਮੁਲਾਂਕਣ ਗਣਿਤਿਕ ਤਰਕ, ਪ੍ਰੋਗਰਾਮਿੰਗ, ਅਤੇ ਆਮ ਸਮਰੱਥਾਵਾਂ ਸਮੇਤ ਕਈ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ ਕੀਤਾ ਗਿਆ। ਨਤੀਜੇ QwQ-32B ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਹੋਰ ਪ੍ਰਮੁੱਖ ਮਾਡਲਾਂ, ਜਿਵੇਂ ਕਿ DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, ਅਤੇ ਮੂਲ DeepSeek-R1 ਦੇ ਮੁਕਾਬਲੇ ਦਰਸਾਉਂਦੇ ਹਨ।

ਨਤੀਜੇ ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਹਨ। QwQ-32B ਬੇਮਿਸਾਲ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਉਂਦਾ ਹੈ, ਇੱਥੋਂ ਤੱਕ ਕਿ LiveBench, IFEval, ਅਤੇ BFCL ਬੈਂਚਮਾਰਕਾਂ ‘ਤੇ DeepSeek-R1-67B ਨੂੰ ਥੋੜ੍ਹਾ ਜਿਹਾ ਪਛਾੜਦਾ ਹੈ। ਇਹ Qwen ਟੀਮ ਦੁਆਰਾ ਅਪਣਾਏ ਗਏ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਪਹੁੰਚ ਦੀ ਕੁਸ਼ਲਤਾ ਅਤੇ ਸ਼ਕਤੀ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ।

ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਵਿੱਚ ਡੂੰਘੀ ਝਾਤ

QwQ-32B ਦਾ ਵਿਕਾਸ ਇੱਕ ਕੋਲਡ-ਸਟਾਰਟ ਫਾਊਂਡੇਸ਼ਨ ‘ਤੇ ਬਣੇ ਵੱਡੇ ਪੈਮਾਨੇ ਦੀ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦਾ ਲਾਭ ਉਠਾਉਂਦਾ ਹੈ। ਸ਼ੁਰੂਆਤੀ ਪੜਾਅ ਖਾਸ ਤੌਰ ‘ਤੇ ਗਣਿਤਿਕ ਅਤੇ ਪ੍ਰੋਗਰਾਮਿੰਗ ਕਾਰਜਾਂ ਲਈ RL ਸਿਖਲਾਈ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ। ਰਿਵਾਰਡ ਮਾਡਲਾਂ ‘ਤੇ ਨਿਰਭਰ ਕਰਨ ਵਾਲੇ ਰਵਾਇਤੀ ਤਰੀਕਿਆਂ ਦੇ ਉਲਟ, Qwen ਟੀਮ ਨੇ ਤਿਆਰ ਕੀਤੇ ਜਵਾਬਾਂ ਦੀ ਸ਼ੁੱਧਤਾ ਦੀ ਪੁਸ਼ਟੀ ਕਰਕੇ ਗਣਿਤਿਕ ਸਮੱਸਿਆਵਾਂ ਲਈ ਫੀਡਬੈਕ ਪ੍ਰਦਾਨ ਕੀਤਾ। ਕੋਡਿੰਗ ਕਾਰਜਾਂ ਲਈ, ਫੀਡਬੈਕ ਇੱਕ ਕੋਡ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਸਰਵਰ ਤੋਂ ਲਿਆ ਗਿਆ ਸੀ, ਇਹ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹੋਏ ਕਿ ਕੀ ਤਿਆਰ ਕੀਤਾ ਕੋਡ ਟੈਸਟ ਕੇਸਾਂ ਨੂੰ ਸਫਲਤਾਪੂਰਵਕ ਪਾਸ ਕਰਦਾ ਹੈ।

ਜਿਵੇਂ ਕਿ ਸਿਖਲਾਈ ਕਈ ਦੁਹਰਾਓ ਦੁਆਰਾ ਅੱਗੇ ਵਧੀ, QwQ-32B ਨੇ ਦੋਵਾਂ ਡੋਮੇਨਾਂ ਵਿੱਚ ਲਗਾਤਾਰ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਸੁਧਾਰ ਦਿਖਾਇਆ। ਇਹ ਦੁਹਰਾਓ ਵਾਲੀ ਸੁਧਾਈ ਪ੍ਰਕਿਰਿਆ, ਹੱਲ ਦੀ ਸ਼ੁੱਧਤਾ ‘ਤੇ ਸਿੱਧੇ ਫੀਡਬੈਕ ਦੁਆਰਾ ਸੇਧਿਤ, ਬਹੁਤ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸਾਬਤ ਹੋਈ।

ਗਣਿਤ ਅਤੇ ਪ੍ਰੋਗਰਾਮਿੰਗ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਸ਼ੁਰੂਆਤੀ RL ਪੜਾਅ ਤੋਂ ਬਾਅਦ, ਆਮ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਵਧਾਉਣ ਲਈ ਇੱਕ ਬਾਅਦ ਵਾਲਾ RL ਪੜਾਅ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਸੀ। ਇਸ ਪੜਾਅ ਨੇ ਸਿਖਲਾਈ ਲਈ ਆਮ ਰਿਵਾਰਡ ਮਾਡਲਾਂ ਅਤੇ ਨਿਯਮ-ਅਧਾਰਤ ਵੈਲੀਡੇਟਰਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਨਤੀਜਿਆਂ ਨੇ ਸੰਕੇਤ ਦਿੱਤਾ ਕਿ ਆਮ RL ਵਿੱਚ ਥੋੜ੍ਹੇ ਜਿਹੇ ਕਦਮ ਵੀ ਪਹਿਲਾਂ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਗਣਿਤਿਕ ਅਤੇ ਪ੍ਰੋਗਰਾਮਿੰਗ ਕਾਰਜਾਂ ‘ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਪ੍ਰਭਾਵਿਤ ਕੀਤੇ ਬਿਨਾਂ ਸਮੁੱਚੀ ਸਮਰੱਥਾ ਨੂੰ ਵਧਾ ਸਕਦੇ ਹਨ। ਇਹ ਮਾਡਲ ਦੀ ਅਨੁਕੂਲਤਾ ਅਤੇ ਮਜ਼ਬੂਤੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

ਭਵਿੱਖ ਦੀਆਂ ਦਿਸ਼ਾਵਾਂ: AI ਦੇ ਦਿਸਹੱਦਿਆਂ ਦਾ ਵਿਸਤਾਰ

Qwen ਟੀਮ ਨੇ ਆਪਣੀਆਂ ਭਵਿੱਖ ਦੀਆਂ ਯੋਜਨਾਵਾਂ ਵੀ ਸਾਂਝੀਆਂ ਕੀਤੀਆਂ, ਇਹ ਦੱਸਦੇ ਹੋਏ, ‘ਇਹ ਤਰਕ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਵਧਾਉਣ ਲਈ ਵੱਡੇ ਪੈਮਾਨੇ ਦੀ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RL) ਦਾ ਲਾਭ ਉਠਾਉਣ ਵਿੱਚ Qwen ਦਾ ਪਹਿਲਾ ਕਦਮ ਹੈ। ਇਸ ਯਾਤਰਾ ਦੁਆਰਾ, ਅਸੀਂ ਨਾ ਸਿਰਫ RL ਨੂੰ ਸਕੇਲ ਕਰਨ ਦੀ ਅਥਾਹ ਸੰਭਾਵਨਾ ਨੂੰ ਦੇਖਿਆ ਹੈ, ਬਲਕਿ ਪਹਿਲਾਂ ਤੋਂ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੇ ਅੰਦਰ ਅਣਵਰਤੀਆਂ ਸੰਭਾਵਨਾਵਾਂ ਨੂੰ ਵੀ ਪਛਾਣਿਆ ਹੈ। ਜਿਵੇਂ ਕਿ ਅਸੀਂ Qwen ਦੀ ਅਗਲੀ ਪੀੜ੍ਹੀ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਵੱਲ ਕੰਮ ਕਰਦੇ ਹਾਂ, ਸਾਡਾ ਮੰਨਣਾ ਹੈ ਕਿ RL ਦੇ ਨਾਲ ਹੋਰ ਵੀ ਸ਼ਕਤੀਸ਼ਾਲੀ ਫਾਊਂਡੇਸ਼ਨ ਮਾਡਲਾਂ ਨੂੰ ਜੋੜਨਾ, ਸਕੇਲ ਕੀਤੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ ਦੁਆਰਾ ਸੰਚਾਲਿਤ, ਸਾਨੂੰ ਆਰਟੀਫੀਸ਼ੀਅਲ ਜਨਰਲ ਇੰਟੈਲੀਜੈਂਸ (AGI) ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਦੇ ਨੇੜੇ ਲਿਆਵੇਗਾ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਅਸੀਂ ਲੰਬੇ ਸਮੇਂ ਦੇ ਤਰਕ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਣ ਲਈ ਏਜੰਟਾਂ ਨੂੰ RL ਨਾਲ ਜੋੜਨ ਦੀ ਸਰਗਰਮੀ ਨਾਲ ਪੜਚੋਲ ਕਰ ਰਹੇ ਹਾਂ, ਜਿਸਦਾ ਉਦੇਸ਼ ਵਿਸਤ੍ਰਿਤ ਤਰਕ ਸਮੇਂ ਦੁਆਰਾ ਹੋਰ ਵੀ ਵੱਧ ਬੁੱਧੀ ਨੂੰ ਅਨਲੌਕ ਕਰਨਾ ਹੈ।’ ਨਿਰੰਤਰ ਸੁਧਾਰ ਅਤੇ ਖੋਜ ਲਈ ਇਹ ਵਚਨਬੱਧਤਾ ਟੀਮ ਦੇ AI ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣ ਦੇ ਸਮਰਪਣ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ।

ਕਮਿਊਨਿਟੀ ਰਿਸੈਪਸ਼ਨ: QwQ-32B ਨੇ ਵਿਆਪਕ ਪ੍ਰਸ਼ੰਸਾ ਪ੍ਰਾਪਤ ਕੀਤੀ

QwQ-32B ਦੀ ਰਿਲੀਜ਼ ਨੂੰ ਵਿਆਪਕ ਉਤਸ਼ਾਹ ਅਤੇ ਸਕਾਰਾਤਮਕ ਫੀਡਬੈਕ ਮਿਲਿਆ ਹੈ। AI ਕਮਿਊਨਿਟੀ, ਜਿਸ ਵਿੱਚ Qwen ਦੇ ਬਹੁਤ ਸਾਰੇ ਉਪਭੋਗਤਾ ਸ਼ਾਮਲ ਹਨ, ਨੇ ਇਸ ਨਵੇਂ ਮਾਡਲ ਦੇ ਉਦਘਾਟਨ ਦੀ ਬੇਸਬਰੀ ਨਾਲ ਉਡੀਕ ਕੀਤੀ।

DeepSeek ਦੇ ਆਲੇ ਦੁਆਲੇ ਦੇ ਹਾਲੀਆ ਉਤਸ਼ਾਹ ਨੇ ਡਿਸਟਿਲਡ ਸੰਸਕਰਣ ਦੀਆਂ ਸੀਮਾਵਾਂ ਦੇ ਕਾਰਨ ਪੂਰੇ-ਪੂਰੇ ਮਾਡਲ ਲਈ ਕਮਿਊਨਿਟੀ ਦੀ ਤਰਜੀਹ ਨੂੰ ਉਜਾਗਰ ਕੀਤਾ। ਹਾਲਾਂਕਿ, 67.1B ਪੈਰਾਮੀਟਰ ਵਾਲੇ ਪੂਰੇ-ਪੂਰੇ ਮਾਡਲ ਨੇ ਤੈਨਾਤੀ ਦੀਆਂ ਚੁਣੌਤੀਆਂ ਪੇਸ਼ ਕੀਤੀਆਂ, ਖਾਸ ਤੌਰ ‘ਤੇ ਸੀਮਤ ਸਰੋਤਾਂ ਵਾਲੇ ਕਿਨਾਰੇ ਵਾਲੇ ਉਪਕਰਣਾਂ ਲਈ। Qwen-32B, ਆਪਣੇ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਘਟਾਏ ਗਏ ਆਕਾਰ ਦੇ ਨਾਲ, ਇਸ ਚਿੰਤਾ ਨੂੰ ਦੂਰ ਕਰਦਾ ਹੈ, ਵਿਆਪਕ ਤੈਨਾਤੀ ਲਈ ਸੰਭਾਵਨਾਵਾਂ ਖੋਲ੍ਹਦਾ ਹੈ।

ਇੱਕ ਉਪਭੋਗਤਾ ਨੇ ਟਿੱਪਣੀ ਕੀਤੀ, ‘ਇਹ ਸ਼ਾਇਦ ਅਜੇ ਵੀ ਮੋਬਾਈਲ ਫੋਨਾਂ ‘ਤੇ ਸੰਭਵ ਨਹੀਂ ਹੈ, ਪਰ ਕਾਫ਼ੀ RAM ਵਾਲੇ Macs ਇਸਨੂੰ ਸੰਭਾਲਣ ਦੇ ਯੋਗ ਹੋ ਸਕਦੇ ਹਨ।’ ਇਹ ਭਾਵਨਾ QwQ-32B ਨੂੰ ਸਰੋਤ-ਪ੍ਰਤੀਬੰਧਿਤ ਉਪਕਰਣਾਂ ‘ਤੇ ਚਲਾਉਣ ਦੀ ਸੰਭਾਵਨਾ ਦੇ ਆਲੇ ਦੁਆਲੇ ਦੇ ਆਸ਼ਾਵਾਦ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ।

ਇੱਕ ਹੋਰ ਉਪਭੋਗਤਾ ਨੇ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਅਲੀਬਾਬਾ ਦੀ ਟੋਂਗੀ ਲੈਬਾਰਟਰੀ ਦੇ ਇੱਕ ਵਿਗਿਆਨੀ, ਬਿਨਯੁਆਨ ਹੁਈ ਨੂੰ ਸੰਬੋਧਿਤ ਕੀਤਾ, ਹੋਰ ਵੀ ਛੋਟੇ ਮਾਡਲਾਂ ਦੇ ਵਿਕਾਸ ਦੀ ਅਪੀਲ ਕੀਤੀ। ਇਹ ਵਧਦੀ ਸੰਖੇਪ ਅਤੇ ਕੁਸ਼ਲ AI ਮਾਡਲਾਂ ਦੀ ਮੰਗ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ।

ਉਪਭੋਗਤਾਵਾਂ ਨੇ ਆਪਣੇ ਤਜ਼ਰਬੇ ਵੀ ਸਾਂਝੇ ਕੀਤੇ ਹਨ, ਮਾਡਲ ਦੀ ਗਤੀ ਅਤੇ ਜਵਾਬਦੇਹੀ ਦੀ ਪ੍ਰਸ਼ੰਸਾ ਕੀਤੀ ਹੈ। ਇੱਕ ਉਪਭੋਗਤਾ ਨੇ ਇੱਕ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਇਆ, QwQ-32B ਦੀਆਂ ਤੇਜ਼ ਪ੍ਰੋਸੈਸਿੰਗ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਉਜਾਗਰ ਕੀਤਾ।

ਐਪਲ ਦੇ ਇੱਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਖੋਜਕਰਤਾ, ਅਵਨੀ ਹਨੂਨ ਨੇ M4 ਮੈਕਸ ‘ਤੇ QwQ-32B ਦੇ ਸਫਲ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਦੀ ਪੁਸ਼ਟੀ ਕੀਤੀ, ਇਸਦੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਗਤੀ ਨੂੰ ਨੋਟ ਕੀਤਾ। ਇੱਕ ਪ੍ਰਮੁੱਖ ਖੋਜਕਰਤਾ ਦੁਆਰਾ ਇਹ ਪ੍ਰਮਾਣਿਕਤਾ ਮਾਡਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਦਾਅਵਿਆਂ ਨੂੰ ਹੋਰ ਮਜ਼ਬੂਤ ਕਰਦੀ ਹੈ।

Qwen ਟੀਮ ਨੇ QwQ-32B ਦਾ ਇੱਕ ਪੂਰਵਦਰਸ਼ਨ ਸੰਸਕਰਣ ਆਪਣੇ ਅਧਿਕਾਰਤ ਚੈਟ ਇੰਟਰਫੇਸ, Qwen Chat ‘ਤੇ ਵੀ ਉਪਲਬਧ ਕਰਵਾਇਆ ਹੈ, ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਟੈਸਟ ਕਰਨ ਅਤੇ ਫੀਡਬੈਕ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ ਹੈ। ਇਹ ਇੰਟਰਐਕਟਿਵ ਪਹੁੰਚ ਕਮਿਊਨਿਟੀ ਦੀ ਸ਼ਮੂਲੀਅਤ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦੀ ਹੈ ਅਤੇ ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦੇ ਅਸਲ-ਸੰਸਾਰ ਮੁਲਾਂਕਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ।

ਕਮਿਊਨਿਟੀ ਦੁਆਰਾ QwQ-32B ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਅਪਣਾਉਣਾ ਅਤੇ ਓਲਾਮਾ ਵਰਗੇ ਪ੍ਰਸਿੱਧ ਸਾਧਨਾਂ ਵਿੱਚ ਇਸਦਾ ਏਕੀਕਰਣ ਮਾਡਲ ਦੀ ਮਹੱਤਤਾ ਅਤੇ ਪ੍ਰਭਾਵ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ, ਇੱਕ ਛੋਟੇ ਮਾਡਲ ਆਕਾਰ, ਅਤੇ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੀ ਨਵੀਨਤਾਕਾਰੀ ਵਰਤੋਂ ਦੇ ਸੁਮੇਲ ਨੇ QwQ-32B ਨੂੰ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੇ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਤਰੱਕੀ ਵਜੋਂ ਸਥਾਪਿਤ ਕੀਤਾ ਹੈ। ਮਾਡਲ ਦੀ ਓਪਨ-ਸੋਰਸ ਪ੍ਰਕਿਰਤੀ AI ਕਮਿਊਨਿਟੀ ਦੇ ਅੰਦਰ ਸਹਿਯੋਗ ਅਤੇ ਨਵੀਨਤਾ ਨੂੰ ਹੋਰ ਉਤਸ਼ਾਹਿਤ ਕਰਦੀ ਹੈ, ਭਵਿੱਖ ਦੀਆਂ ਸਫਲਤਾਵਾਂ ਲਈ ਰਾਹ ਪੱਧਰਾ ਕਰਦੀ ਹੈ। ਵਿਹਾਰਕ ਤੈਨਾਤੀ ਅਤੇ ਅਸਲ-ਸੰਸਾਰ ਐਪਲੀਕੇਸ਼ਨਾਂ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਨਾ QwQ-32B ਦੀ ਖੋਜ ਸੈਟਿੰਗਾਂ ਤੋਂ ਪਰੇ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਭਾਵ ਪਾਉਣ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ, ਉੱਨਤ AI ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਉਪਭੋਗਤਾਵਾਂ ਅਤੇ ਉਪਕਰਣਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਤੱਕ ਪਹੁੰਚਾਉਂਦਾ ਹੈ। Qwen ਟੀਮ ਦੁਆਰਾ ਚੱਲ ਰਹੇ ਖੋਜ ਅਤੇ ਵਿਕਾਸ ਦੇ ਯਤਨ AGI ਦੀ ਪ੍ਰਾਪਤੀ ਵਿੱਚ ਹੋਰ ਵੀ ਦਿਲਚਸਪ ਤਰੱਕੀ ਦਾ ਵਾਅਦਾ ਕਰਦੇ ਹਨ।

ਇੱਕ ਦੇਰ ਰਾਤ ਦੀ ਹੈਰਾਨੀਜਨਕ ਘੋਸ਼ਣਾ ਵਿੱਚ, ਅਲੀਬਾਬਾ ਨੇ ਆਪਣੇ ਨਵੀਨਤਮ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ, Qwen-32B (QwQ-32B) ਨੂੰ ਓਪਨ-ਸੋਰਸ ਕੀਤਾ ਹੈ। 32 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਵਾਲਾ, ਇਹ ਮਾਡਲ ਕਾਫ਼ੀ ਵੱਡੇ 67.1 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ, ਪੂਰੀ ਤਰ੍ਹਾਂ ਵਿਕਸਤ DeepSeek-R1 ਦੇ ਬਰਾਬਰ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।

Qwen ਟੀਮ ਦੀ ਘੋਸ਼ਣਾ ਨੇ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RL) ਤਕਨੀਕਾਂ ਨੂੰ ਸਕੇਲ ਕਰਨ ਵਿੱਚ ਉਹਨਾਂ ਦੀ ਖੋਜ ਨੂੰ ਉਜਾਗਰ ਕੀਤਾ। ਉਹਨਾਂ ਨੇ ਕਿਹਾ, “ਅਸੀਂ RL ਨੂੰ ਵਧਾਉਣ ਦੇ ਤਰੀਕਿਆਂ ਦੀ ਪੜਚੋਲ ਕਰ ਰਹੇ ਹਾਂ, ਸਾਡੇ Qwen2.5-32B ਦੇ ਅਧਾਰ ਤੇ ਕੁਝ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰ ਰਹੇ ਹਾਂ। ਅਸੀਂ ਪਾਇਆ ਕਿ RL ਸਿਖਲਾਈ ਲਗਾਤਾਰ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਸੁਧਾਰ ਕਰ ਸਕਦੀ ਹੈ, ਖਾਸ ਕਰਕੇ ਗਣਿਤਿਕ ਅਤੇ ਕੋਡਿੰਗ ਕਾਰਜਾਂ ਵਿੱਚ। ਅਸੀਂ ਦੇਖਿਆ ਕਿ RL ਦੀ ਨਿਰੰਤਰ ਸਕੇਲਿੰਗ ਮੱਧ-ਆਕਾਰ ਦੇ ਮਾਡਲਾਂ ਨੂੰ ਵੱਡੇ MoE ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੀ ਹੈ। ਅਸੀਂ ਸਾਡੇ ਨਵੇਂ ਮਾਡਲ ਨਾਲ ਗੱਲਬਾਤ ਕਰਨ ਅਤੇ ਸਾਨੂੰ ਫੀਡਬੈਕ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਸਾਰਿਆਂ ਦਾ ਸਵਾਗਤ ਕਰਦੇ ਹਾਂ!”

QwQ-32B ਹੁਣ Apache 2.0 ਓਪਨ-ਸੋਰਸ ਲਾਇਸੈਂਸ ਦੇ ਅਧੀਨ Hugging Face ਅਤੇ ModelScope ‘ਤੇ ਉਪਲਬਧ ਹੈ। ਉਪਭੋਗਤਾ Qwen Chat ਰਾਹੀਂ ਸਿੱਧੇ ਮਾਡਲ ਨਾਲ ਗੱਲਬਾਤ ਵੀ ਕਰ ਸਕਦੇ ਹਨ। ਪ੍ਰਸਿੱਧ ਸਥਾਨਕ ਤੈਨਾਤੀ ਟੂਲ, ਓਲਾਮਾ, ਨੇ ਪਹਿਲਾਂ ਹੀ ਏਕੀਕ੍ਰਿਤ ਸਮਰਥਨ ਕੀਤਾ ਹੈ, ਕਮਾਂਡ ਰਾਹੀਂ ਪਹੁੰਚਯੋਗ: ollama run qwq

ਰਿਲੀਜ਼ ਦੇ ਨਾਲ, Qwen ਟੀਮ ਨੇ “QwQ-32B: Harnessing the Power of Reinforcement Learning,” ਸਿਰਲੇਖ ਵਾਲਾ ਇੱਕ ਬਲਾੱਗ ਪੋਸਟ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤਾ, ਜਿਸ ਵਿੱਚ ਜ਼ਮੀਨੀ ਤਰੱਕੀ ਦਾ ਵੇਰਵਾ ਦਿੱਤਾ ਗਿਆ ਹੈ।

ਬਲਾੱਗ ਪੋਸਟ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਵਧਾਉਣ ਵਿੱਚ ਰਵਾਇਤੀ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਵਿਧੀਆਂ ਨੂੰ ਪਛਾੜਨ ਲਈ ਵੱਡੇ ਪੈਮਾਨੇ ਦੀ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RL) ਦੀ ਅਥਾਹ ਸੰਭਾਵਨਾ ‘ਤੇ ਜ਼ੋਰ ਦਿੰਦਾ ਹੈ। ਹਾਲੀਆ ਖੋਜ, ਜਿਵੇਂ ਕਿ ਕੋਲਡ-ਸਟਾਰਟ ਡੇਟਾ ਅਤੇ ਮਲਟੀ-ਸਟੇਜ ਸਿਖਲਾਈ ਦਾ DeepSeek-R1 ਦਾ ਏਕੀਕਰਣ, RL ਦੀ ਤਰਕ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵਧਾਉਣ, ਡੂੰਘੀ ਸੋਚ ਅਤੇ ਗੁੰਝਲਦਾਰ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਣ ਦੀ ਯੋਗਤਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

Qwen ਟੀਮ ਦੀ ਖੋਜ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੀ ਬੁੱਧੀ ਨੂੰ ਉੱਚਾ ਚੁੱਕਣ ਲਈ ਵੱਡੇ ਪੈਮਾਨੇ ਦੀ RL ਦਾ ਲਾਭ ਉਠਾਉਣ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ, ਜਿਸਦਾ ਨਤੀਜਾ QwQ-32B ਦੀ ਸਿਰਜਣਾ ਵਿੱਚ ਹੋਇਆ। ਇਹ 32 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਮਾਡਲ ਕਮਾਲ ਦੀ ਗੱਲ ਹੈ ਕਿ 67.1 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ (37 ਬਿਲੀਅਨ ਕਿਰਿਆਸ਼ੀਲ ਦੇ ਨਾਲ) DeepSeek-R1 ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਕਾਬਲਾ ਕਰਦਾ ਹੈ। ਟੀਮ ਨੇ ਜ਼ੋਰ ਦਿੱਤਾ, “ਇਹ ਪ੍ਰਾਪਤੀ ਮਜ਼ਬੂਤ, ਪਹਿਲਾਂ ਤੋਂ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਫਾਊਂਡੇਸ਼ਨ ਮਾਡਲਾਂ ‘ਤੇ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਨੂੰ ਲਾਗੂ ਕਰਨ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ।”

QwQ-32B ਏਜੰਟ-ਸਬੰਧਤ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਵੀ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ, ਇਸ ਨੂੰ ਸਾਧਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਆਪਣੀਆਂ ਕਾਰਵਾਈਆਂ ਦਾ ਆਲੋਚਨਾਤਮਕ ਮੁਲਾਂਕਣ ਕਰਨ ਅਤੇ ਵਾਤਾਵਰਣਕ ਫੀਡਬੈਕ ਦੇ ਅਧਾਰ ‘ਤੇ ਆਪਣੀ ਤਰਕ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ। ਟੀਮ ਨੇ ਕਿਹਾ, “ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ ਸਾਡੇ ਯਤਨ ਇਹ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਸ਼ਕਤੀਸ਼ਾਲੀ ਫਾਊਂਡੇਸ਼ਨ ਮਾਡਲਾਂ ਨੂੰ ਵੱਡੇ ਪੈਮਾਨੇ ਦੀ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਨਾਲ ਜੋੜਨਾ ਆਰਟੀਫੀਸ਼ੀਅਲ ਜਨਰਲ ਇੰਟੈਲੀਜੈਂਸ (AGI) ਵੱਲ ਇੱਕ ਵਿਹਾਰਕ ਮਾਰਗ ਹੋ ਸਕਦਾ ਹੈ।”