32B 'ਚ ਡੀਪਸੀਕ-R1 ਨੂੰ ਮਾਤ ਦੇਣ ਵਾਲਾ ਪ੍ਰਦਰਸ਼ਨ?

ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ, ਕੁਝ ਵਾਧੂ ਤਸਦੀਕ ਦੁਆਰਾ ਸਮਰਥਤ, ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਕਿੰਨਾ ਉੱਚਾ ਚੁੱਕ ਸਕਦੀ ਹੈ? ਅਲੀਬਾਬਾ ਦੀ Qwen ਟੀਮ ਆਪਣੀ ਨਵੀਨਤਮ ਰਚਨਾ, QwQ ਦੇ ਨਾਲ ਇਸਦਾ ਪਤਾ ਲਗਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਵਿੱਚ ਹੈ।

QwQ, ਇੱਕ ‘ਤਰਕ’ ਮਾਡਲ, ਇੱਕ ਮੁਕਾਬਲਤਨ ਸੰਖੇਪ 32 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਦਾ ਮਾਣ ਰੱਖਦਾ ਹੈ। ਫਿਰ ਵੀ, ਅਲੀਬਾਬਾ ਦਾ ਦਾਅਵਾ ਹੈ ਕਿ ਇਹ ਗਣਿਤ, ਕੋਡਿੰਗ ਅਤੇ ਫੰਕਸ਼ਨ-ਕਾਲਿੰਗ ਨਾਲ ਸਬੰਧਤ ਖਾਸ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ, 671 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਵਾਲੇ, DeepSeek R1 ਨੂੰ ਪਛਾੜਦਾ ਹੈ।

Qwen ਟੀਮ, R1 ਦੇ ਨਾਲ ਅਪਣਾਏ ਗਏ ਤਰੀਕੇ ਦੇ ਸਮਾਨ, QwQ ਦੀ ਚੇਨ-ਆਫ-ਥੌਟ ਤਰਕ ਨੂੰ ਸੁਧਾਰਨ ਲਈ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਨੂੰ ਨਿਯੁਕਤ ਕਰਦੀ ਹੈ। ਇਹ ਵਿਧੀ ਸਮੱਸਿਆ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਟੁੱਟਣ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਵਧਾਉਂਦੀ ਹੈ। ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਰਵਾਇਤੀ ਤੌਰ ‘ਤੇ ਸਹੀ ਜਵਾਬਾਂ ਲਈ ਮਾਡਲਾਂ ਨੂੰ ਇਨਾਮ ਦੇ ਕੇ ਕਦਮ-ਦਰ-ਕਦਮ ਤਰਕ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਦੀ ਹੈ, ਇਸ ਤਰ੍ਹਾਂ ਵਧੇਰੇ ਸਹੀ ਜਵਾਬਾਂ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦੀ ਹੈ। ਹਾਲਾਂਕਿ, QwQ ਇੱਕ ਸ਼ੁੱਧਤਾ ਤਸਦੀਕਕਰਤਾ ਅਤੇ ਇੱਕ ਕੋਡ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਸਰਵਰ ਨੂੰ ਸ਼ਾਮਲ ਕਰਕੇ ਇੱਕ ਕਦਮ ਹੋਰ ਅੱਗੇ ਵਧਦਾ ਹੈ। ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਇਨਾਮ ਸਿਰਫ਼ ਸਹੀ ਗਣਿਤਿਕ ਹੱਲਾਂ ਅਤੇ ਕਾਰਜਸ਼ੀਲ ਕੋਡ ਲਈ ਦਿੱਤੇ ਗਏ ਹਨ।

Qwen ਟੀਮ ਦਾ ਕਹਿਣਾ ਹੈ ਕਿ ਇਹ ਪਹੁੰਚ ਇੱਕ ਅਜਿਹੇ ਮਾਡਲ ਵਿੱਚ ਨਤੀਜਾ ਦਿੰਦੀ ਹੈ ਜੋ ਇਸਦੇ ਆਕਾਰ ਨੂੰ ਪਛਾੜਦਾ ਹੈ, ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਅਤੇ ਕਈ ਵਾਰ, ਬਹੁਤ ਵੱਡੇ ਮਾਡਲਾਂ ਨੂੰ ਵੀ ਪਛਾੜਦਾ ਹੈ।

ਹਾਲਾਂਕਿ, AI ਬੈਂਚਮਾਰਕ ਧੋਖੇਬਾਜ਼ ਹੋ ਸਕਦੇ ਹਨ। ਇਸ ਲਈ, ਆਓ ਜਾਂਚ ਕਰੀਏ ਕਿ ਇਹ ਦਾਅਵੇ ਅਸਲ-ਸੰਸਾਰ ਦੇ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਕਿਵੇਂ ਅਨੁਵਾਦ ਕਰਦੇ ਹਨ ਅਤੇ ਫਿਰ ਅਸੀਂ ਤੁਹਾਨੂੰ ਸੁਤੰਤਰ ਤੌਰ ‘ਤੇ QwQ ਨੂੰ ਕਿਵੇਂ ਚਲਾਉਣਾ ਹੈ ਇਸ ਬਾਰੇ ਮਾਰਗਦਰਸ਼ਨ ਕਰਾਂਗੇ।

ਪ੍ਰਦਰਸ਼ਨ ਮੁਲਾਂਕਣ

ਅਸੀਂ QwQ ਨੂੰ ਟੈਸਟ ਪ੍ਰੋਂਪਟਾਂ ਦੀ ਇੱਕ ਲੜੀ ਦੇ ਅਧੀਨ ਕੀਤਾ, ਜਿਸ ਵਿੱਚ ਆਮ ਗਿਆਨ, ਸਥਾਨਿਕ ਤਰਕ, ਸਮੱਸਿਆ-ਹੱਲ, ਗਣਿਤ, ਅਤੇ ਹੋਰ ਸਵਾਲ ਸ਼ਾਮਲ ਹਨ ਜੋ ਸਭ ਤੋਂ ਉੱਨਤ LLMs ਨੂੰ ਵੀ ਚੁਣੌਤੀ ਦਿੰਦੇ ਹਨ।

ਪੂਰੇ ਮਾਡਲ ਦੀਆਂ ਵੱਡੀਆਂ ਮੈਮੋਰੀ ਲੋੜਾਂ ਦੇ ਕਾਰਨ, ਅਸੀਂ ਵੱਖ-ਵੱਖ RAM ਸਮਰੱਥਾਵਾਂ ਵਾਲੇ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਦੋ ਸੰਰਚਨਾਵਾਂ ਵਿੱਚ ਆਪਣੇ ਟੈਸਟ ਕੀਤੇ। ਸ਼ੁਰੂ ਵਿੱਚ, ਅਸੀਂ Hugging Face ‘ਤੇ QwQ ਡੈਮੋ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਪੂਰੇ ਮਾਡਲ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ। ਇਸ ਤੋਂ ਬਾਅਦ, ਅਸੀਂ ਸ਼ੁੱਧਤਾ ‘ਤੇ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ ਦੇ ਪ੍ਰਭਾਵ ਨੂੰ ਮਾਪਣ ਲਈ ਇੱਕ 24 GB GPU (Nvidia 3090 ਜਾਂ AMD Radeon RX 7900XTX) ‘ਤੇ ਇੱਕ 4-ਬਿੱਟ ਕੁਆਂਟਾਈਜ਼ਡ ਸੰਸਕਰਣ ਦੀ ਜਾਂਚ ਕੀਤੀ।

ਜ਼ਿਆਦਾਤਰ ਆਮ ਗਿਆਨ ਦੇ ਸਵਾਲਾਂ ਲਈ, QwQ ਨੇ DeepSeek ਦੇ 671 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ R1 ਅਤੇ OpenAI ਦੇ o3-mini ਵਰਗੇ ਹੋਰ ਤਰਕ ਮਾਡਲਾਂ ਦੇ ਸਮਾਨ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਇਆ, ਜਵਾਬ ਦੇਣ ਤੋਂ ਪਹਿਲਾਂ ਆਪਣੇ ਵਿਚਾਰਾਂ ਨੂੰ ਤਿਆਰ ਕਰਨ ਲਈ ਸੰਖੇਪ ਵਿੱਚ ਰੁਕਿਆ।

ਮਾਡਲ ਦੀਆਂ ਸ਼ਕਤੀਆਂ, ਸ਼ਾਇਦ ਹੈਰਾਨੀ ਦੀ ਗੱਲ ਨਹੀਂ, ਵਧੇਰੇ ਗੁੰਝਲਦਾਰ ਤਰਕ, ਕੋਡਿੰਗ, ਜਾਂ ਗਣਿਤਿਕ ਚੁਣੌਤੀਆਂ ਨਾਲ ਨਜਿੱਠਣ ਵੇਲੇ ਸਪੱਸ਼ਟ ਹੋ ਜਾਂਦੀਆਂ ਹਨ। ਆਓ ਇਸ ਦੀਆਂ ਕੁਝ ਕਮੀਆਂ ਨੂੰ ਹੱਲ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਇਹਨਾਂ ਖੇਤਰਾਂ ਵਿੱਚ ਡੂੰਘਾਈ ਨਾਲ ਵਿਚਾਰ ਕਰੀਏ।

ਸਥਾਨਿਕ ਤਰਕ ਦੀ ਸ਼ਕਤੀ

ਅਸੀਂ ਹੋਮਬਰਿਊ ਰਿਸਰਚ ਦੁਆਰਾ ਉਹਨਾਂ ਦੇ AlphaMaze ਪ੍ਰੋਜੈਕਟ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ਤਿਆਰ ਕੀਤੇ ਗਏ ਇੱਕ ਮੁਕਾਬਲਤਨ ਨਵੇਂ ਸਥਾਨਿਕ-ਤਰਕ ਟੈਸਟ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕੀਤੀ।

ਟੈਸਟ ਮਾਡਲ ਨੂੰ ਟੈਕਸਟ ਫਾਰਮੈਟ ਵਿੱਚ ਇੱਕ ਭੁਲੱਕੜ ਪੇਸ਼ ਕਰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਹੇਠਾਂ ਦਿਖਾਇਆ ਗਿਆ ਹੈ। ਮਾਡਲ ਦਾ ਕੰਮ ਮੂਲ “O” ਤੋਂ ਨਿਸ਼ਾਨਾ “T” ਤੱਕ ਨੈਵੀਗੇਟ ਕਰਨਾ ਹੈ।