ਵੱਡੇ ਮਾਡਲਾਂ ਨੂੰ ਚੁਣੌਤੀ: ਇੱਕ ਛੋਟਾ ਦਾਅਵੇਦਾਰ
QwQ, ਡੀਪਸੀਕ R1 ਦੇ 671 ਬਿਲੀਅਨ ਦੇ ਮੁਕਾਬਲੇ ਸਿਰਫ 32 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਦੇ ਬਾਵਜੂਦ, ਇੱਕ “ਤਰਕ” ਮਾਡਲ ਵਜੋਂ ਸਥਾਪਿਤ ਕੀਤਾ ਗਿਆ ਹੈ। ਅਲੀਬਾਬਾ ਦਾ ਦਾਅਵਾ ਹੈ ਕਿ ਇਹ ਮੁਕਾਬਲਤਨ ਛੋਟਾ ਮਾਡਲ ਖਾਸ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ, ਖਾਸ ਕਰਕੇ ਗਣਿਤ, ਕੋਡਿੰਗ ਅਤੇ ਫੰਕਸ਼ਨ-ਕਾਲਿੰਗ ਵਰਗੇ ਖੇਤਰਾਂ ਵਿੱਚ R1 ਨੂੰ ਪਛਾੜ ਸਕਦਾ ਹੈ। ਇਹ ਅਭਿਲਾਸ਼ੀ ਦਾਅਵਾ QwQ ਦੇ ਅੰਦਰੂਨੀ ਕੰਮਕਾਜ ਅਤੇ ਅਸਲ-ਸੰਸਾਰ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ‘ਤੇ ਨੇੜਿਓਂ ਨਜ਼ਰ ਮਾਰਨ ਦੀ ਮੰਗ ਕਰਦਾ ਹੈ।
ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ: QwQ ਦੀ ਸਮਰੱਥਾ ਦੀ ਕੁੰਜੀ
ਡੀਪਸੀਕ R1 ਦੇ ਸਮਾਨ, Qwen ਟੀਮ ਨੇ QwQ ਦੀ ਚੇਨ-ਆਫ-ਥੌਟ ਤਰਕ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਸੁਧਾਰਨ ਲਈ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RL) ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਇਹ ਵਿਧੀ ਮਾਡਲ ਦੀ ਗੁੰਝਲਦਾਰ ਸਮੱਸਿਆਵਾਂ ਦਾ ਕਦਮ-ਦਰ-ਕਦਮ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਵਿਭਾਜਨ ਕਰਨ ਦੀ ਯੋਗਤਾ ਨੂੰ ਵਧਾਉਂਦੀ ਹੈ। RL ਵਿੱਚ ਰਵਾਇਤੀ ਪਹੁੰਚ ਵਿੱਚ ਸਹੀ ਜਵਾਬਾਂ ਲਈ ਮਾਡਲ ਨੂੰ ਇਨਾਮ ਦੇਣਾ ਸ਼ਾਮਲ ਹੈ, ਇਸ ਤਰ੍ਹਾਂ ਸਹੀ ਪ੍ਰਤੀਕਿਰਿਆਵਾਂ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨਾ।
ਹਾਲਾਂਕਿ, Qwen ਟੀਮ ਨੇ QwQ ਨਾਲ ਵਧੇਰੇ ਸੂਖਮ ਪਹੁੰਚ ਅਪਣਾਈ। ਉਨ੍ਹਾਂ ਨੇ ਇੱਕ ਸ਼ੁੱਧਤਾ ਤਸਦੀਕਕਰਤਾ ਅਤੇ ਇੱਕ ਕੋਡ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਸਰਵਰ ਨੂੰ ਏਕੀਕ੍ਰਿਤ ਕੀਤਾ। ਇਹ ਮਹੱਤਵਪੂਰਨ ਜੋੜ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਇਨਾਮ ਸਿਰਫ ਗਣਿਤਿਕ ਤੌਰ ‘ਤੇ ਸਹੀ ਹੱਲਾਂ ਅਤੇ ਕਾਰਜਸ਼ੀਲ ਕੋਡ ਲਈ ਦਿੱਤੇ ਜਾਂਦੇ ਹਨ। ਇਸ ਸਖ਼ਤ ਤਸਦੀਕ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਲਾਗੂ ਕਰਕੇ, ਟੀਮ ਦਾ ਉਦੇਸ਼ ਇੱਕ ਅਜਿਹਾ ਮਾਡਲ ਵਿਕਸਤ ਕਰਨਾ ਹੈ ਜੋ ਉੱਚ ਪੱਧਰ ਦੀ ਸ਼ੁੱਧਤਾ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।
ਕਾਰਗੁਜ਼ਾਰੀ ਦੇ ਦਾਅਵੇ: ਇੱਕ ਹਕੀਕਤ ਦੀ ਜਾਂਚ
Qwen ਟੀਮ ਦੇ ਯਤਨਾਂ ਨੇ, ਉਨ੍ਹਾਂ ਦੇ ਦਾਅਵੇ ਅਨੁਸਾਰ, ਇੱਕ ਅਜਿਹਾ ਮਾਡਲ ਤਿਆਰ ਕੀਤਾ ਹੈ ਜੋ ਆਪਣੇ ਭਾਰ ਵਰਗ ਤੋਂ ਕਾਫ਼ੀ ਉੱਪਰ ਹੈ। ਉਹ ਦਾਅਵਾ ਕਰਦੇ ਹਨ ਕਿ QwQ ਬਹੁਤ ਵੱਡੇ ਮਾਡਲਾਂ ਦੇ ਬਰਾਬਰ, ਅਤੇ ਕੁਝ ਮਾਮਲਿਆਂ ਵਿੱਚ, ਉਹਨਾਂ ਤੋਂ ਵੀ ਵੱਧ, ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਪੱਧਰਾਂ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ।
ਹਾਲਾਂਕਿ, AI ਬੈਂਚਮਾਰਕਾਂ ਦੀ ਦੁਨੀਆ ਗੁੰਝਲਦਾਰ ਹੋ ਸਕਦੀ ਹੈ। ਰਿਪੋਰਟ ਕੀਤੇ ਗਏ ਅੰਕੜਿਆਂ ਤੋਂ ਅੱਗੇ ਵਧਣਾ ਅਤੇ ਇਹ ਜਾਂਚ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਇਹ ਦਾਅਵੇ ਵਿਹਾਰਕ, ਅਸਲ-ਸੰਸਾਰ ਦੇ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਕਿਵੇਂ ਅਨੁਵਾਦ ਕਰਦੇ ਹਨ।
ਹੈਂਡਸ-ਆਨ ਟੈਸਟਿੰਗ: QwQ ਨੂੰ ਇਸਦੇ ਪੜਾਵਾਂ ਵਿੱਚੋਂ ਲੰਘਾਉਣਾ
QwQ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ, ਡੋਮੇਨਾਂ ਦੀ ਇੱਕ ਰੇਂਜ ਵਿੱਚ ਫੈਲੀਆਂ ਟੈਸਟ ਪ੍ਰੋਂਪਟਾਂ ਦੀ ਇੱਕ ਲੜੀ ਤਿਆਰ ਕੀਤੀ ਗਈ ਸੀ। ਇਹਨਾਂ ਵਿੱਚ ਆਮ ਗਿਆਨ, ਸਥਾਨਿਕ ਤਰਕ, ਸਮੱਸਿਆ-ਹੱਲ, ਗਣਿਤ, ਅਤੇ ਹੋਰ ਚੁਣੌਤੀਆਂ ਸ਼ਾਮਲ ਸਨ ਜੋ ਸਭ ਤੋਂ ਉੱਨਤ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਲਈ ਵੀ ਮੁਸ਼ਕਲਾਂ ਪੈਦਾ ਕਰਨ ਲਈ ਜਾਣੀਆਂ ਜਾਂਦੀਆਂ ਹਨ।
ਪੂਰੇ ਮਾਡਲ ਦੀਆਂ ਵੱਡੀਆਂ ਮੈਮੋਰੀ ਲੋੜਾਂ ਦੇ ਕਾਰਨ, ਟੈਸਟਿੰਗ ਨੂੰ ਦੋ ਸੰਰਚਨਾਵਾਂ ਵਿੱਚ ਚਲਾਇਆ ਗਿਆ ਸੀ। ਪਹਿਲਾਂ, ਪੂਰੇ ਮਾਡਲ ਦਾ ਮੁਲਾਂਕਣ Hugging Face ‘ਤੇ QwQ ਡੈਮੋ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੀਤਾ ਗਿਆ ਸੀ। ਇਸਨੇ ਇਸਦੀ ਪੂਰੀ ਸਮਰੱਥਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੱਤੀ। ਦੂਜਾ, ਇੱਕ 24GB GPU (ਖਾਸ ਤੌਰ ‘ਤੇ, ਇੱਕ Nvidia 3090 ਜਾਂ ਇੱਕ AMD Radeon RX 7900XTX) ‘ਤੇ ਇੱਕ 4-ਬਿੱਟ ਕੁਆਂਟਾਈਜ਼ਡ ਸੰਸਕਰਣ ਦੀ ਜਾਂਚ ਕੀਤੀ ਗਈ ਸੀ। ਇਸ ਸੰਰਚਨਾ ਦਾ ਉਦੇਸ਼ ਮਾਡਲ ਦੀ ਸ਼ੁੱਧਤਾ ‘ਤੇ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ ਦੇ ਪ੍ਰਭਾਵ ਨੂੰ ਮਾਪਣਾ ਸੀ, ਜਿਸ ਨਾਲ ਇਹ ਘੱਟ ਸ਼ਕਤੀਸ਼ਾਲੀ ਹਾਰਡਵੇਅਰ ਵਾਲੇ ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਵਧੇਰੇ ਪਹੁੰਚਯੋਗ ਬਣ ਗਿਆ।
ਆਮ ਗਿਆਨ: ਆਪਣੀ ਪਕੜ ਬਣਾਈ ਰੱਖਣਾ
ਜ਼ਿਆਦਾਤਰ ਆਮ ਗਿਆਨ ਦੇ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਜਵਾਬ ਵਿੱਚ, QwQ ਨੇ ਡੀਪਸੀਕ ਦੇ 671-ਬਿਲੀਅਨ-ਪੈਰਾਮੀਟਰ R1 ਅਤੇ OpenAI ਦੇ o3-mini ਵਰਗੇ ਹੋਰ ਤਰਕ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਮਾਡਲ ਨੇ ਆਮ ਤੌਰ ‘ਤੇ ਸਵਾਲ ਦਾ ਜਵਾਬ ਦੇਣ ਤੋਂ ਪਹਿਲਾਂ ਆਪਣੇ ਵਿਚਾਰਾਂ ਨੂੰ ਤਿਆਰ ਕਰਨ ਲਈ ਕੁਝ ਸਕਿੰਟ ਲਏ। ਇਹ ਵਿਵਹਾਰ ਤਰਕ ਮਾਡਲਾਂ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਹੈ, ਜੋ ਤੁਰੰਤ ਜਵਾਬਾਂ ਨਾਲੋਂ ਸਾਵਧਾਨੀ ਨਾਲ ਵਿਚਾਰ-ਵਟਾਂਦਰੇ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦੇ ਹਨ।
ਜਟਿਲਤਾ ਵਿੱਚ ਉੱਤਮ: ਤਰਕ, ਕੋਡਿੰਗ, ਅਤੇ ਗਣਿਤ
ਜਿੱਥੇ QwQ ਸੱਚਮੁੱਚ ਆਪਣੇ ਆਪ ਨੂੰ ਵੱਖਰਾ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰਦਾ ਹੈ ਉਹ ਹੈ ਤਰਕ, ਕੋਡਿੰਗ, ਜਾਂ ਗਣਿਤ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੀਆਂ ਵਧੇਰੇ ਗੁੰਝਲਦਾਰ ਚੁਣੌਤੀਆਂ ਨਾਲ ਨਜਿੱਠਣਾ। ਆਓ ਇਹਨਾਂ ਖੇਤਰਾਂ ਵਿੱਚ ਡੂੰਘਾਈ ਨਾਲ ਵਿਚਾਰ ਕਰੀਏ, ਇਸਦੀਆਂ ਸ਼ਕਤੀਆਂ ਨੂੰ ਉਜਾਗਰ ਕਰੀਏ ਅਤੇ ਕੁਝ ਖੇਤਰਾਂ ਨੂੰ ਸੰਬੋਧਿਤ ਕਰੀਏ ਜਿੱਥੇ ਇਹ ਘੱਟ ਜਾਂਦਾ ਹੈ।
ਸਥਾਨਿਕ ਤਰਕ: ਭੁਲੱਕੜ ਵਿੱਚ ਨੈਵੀਗੇਟ ਕਰਨਾ
ਇੱਕ ਮੁਕਾਬਲਤਨ ਨਵਾਂ ਸਥਾਨਿਕ-ਤਰਕ ਟੈਸਟ, ਹੋਮਬ੍ਰੂ ਰਿਸਰਚ ਦੁਆਰਾ ਉਹਨਾਂ ਦੇ ਅਲਫਾਮੇਜ਼ ਪ੍ਰੋਜੈਕਟ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ, QwQ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਵਰਤਿਆ ਗਿਆ ਸੀ।
ਸਥਾਨਕ ਤੌਰ ‘ਤੇ ਹੋਸਟ ਕੀਤੇ ਗਏ QwQ ਉਦਾਹਰਨ ਅਤੇ ਪੂਰੇ ਆਕਾਰ ਦੇ ਮਾਡਲ ਦੋਵਾਂ ਨੇ ਇਹਨਾਂ ਪਹੇਲੀਆਂ ਨੂੰ ਲਗਾਤਾਰ ਸਫਲਤਾਪੂਰਵਕ ਹੱਲ ਕੀਤਾ। ਹਾਲਾਂਕਿ, ਹਰੇਕ ਰਨ ਨੂੰ ਪੂਰਾ ਹੋਣ ਵਿੱਚ ਕੁਝ ਮਿੰਟ ਲੱਗੇ। ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਜਦੋਂ ਕਿ QwQ ਸਥਾਨਿਕ ਤਰਕ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸੰਭਾਲ ਸਕਦਾ ਹੈ, ਇਹ ਜ਼ਰੂਰੀ ਨਹੀਂ ਕਿ ਇਹ ਸਭ ਤੋਂ ਤੇਜ਼ ਹੋਵੇ।
ਇਸਦੇ ਉਲਟ, ਡੀਪਸੀਕ ਦੇ R1 ਅਤੇ ਇਸਦੇ 32B ਡਿਸਟਿਲ ਨੇ ਵੱਖੋ-ਵੱਖਰੇ ਵਿਵਹਾਰ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤੇ। ਦੋਵਾਂ ਮਾਡਲਾਂ ਨੇ ਪਹਿਲੀ ਭੁਲੱਕੜ ਨੂੰ ਸਫਲਤਾਪੂਰਵਕ ਹੱਲ ਕੀਤਾ। ਹਾਲਾਂਕਿ, R1 ਨੇ ਦੂਜੇ ਨਾਲ ਸੰਘਰਸ਼ ਕੀਤਾ, ਜਦੋਂ ਕਿ 32B ਡਿਸਟਿਲ ਨੇ ਦੂਜੀ ਭੁਲੱਕੜ ‘ਤੇ 90% ਸਫਲਤਾ ਦਰ ਪ੍ਰਾਪਤ ਕੀਤੀ। ਇਹ ਪਰਿਵਰਤਨਸ਼ੀਲਤਾ ਪੂਰੀ ਤਰ੍ਹਾਂ ਅਚਾਨਕ ਨਹੀਂ ਹੈ, ਇਹ ਦੇਖਦੇ ਹੋਏ ਕਿ R1 ਅਤੇ ਡਿਸਟਿਲ ਵੱਖਰੇ ਅਧਾਰ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ।
ਜਦੋਂ ਕਿ QwQ ਨੇ ਇਸ ਖਾਸ ਟੈਸਟ ਵਿੱਚ ਡੀਪਸੀਕ ਦੇ ਮੁਕਾਬਲੇ ਉੱਤਮ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, 4-ਬਿੱਟ ਮਾਡਲ ਨਾਲ ਕੁਝ ਅਸਾਧਾਰਨ ਵਿਵਹਾਰ ਦੇਖਿਆ ਗਿਆ। ਸ਼ੁਰੂ ਵਿੱਚ, ਇਸਨੂੰ ਟੈਸਟ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਲਗਭਗ ਦੁੱਗਣੇ “ਵਿਚਾਰ” ਟੋਕਨਾਂ ਦੀ ਲੋੜ ਸੀ। ਇਸਨੇ ਸ਼ੁਰੂ ਵਿੱਚ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ ਦੇ ਕਾਰਨ ਸੰਭਾਵੀ ਨੁਕਸਾਨਾਂ ਦਾ ਸੁਝਾਅ ਦਿੱਤਾ। ਹਾਲਾਂਕਿ, ਅਗਲੇਰੀ ਜਾਂਚ ਨੇ ਖੁਲਾਸਾ ਕੀਤਾ ਕਿ ਕੁਆਂਟਾਈਜ਼ਡ ਮਾਡਲ, ਆਪਣੀ ਸ਼ੁਰੂਆਤੀ ਸਥਿਤੀ ਵਿੱਚ, ਉਪ-ਅਨੁਕੂਲ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰ ਰਿਹਾ ਸੀ। ਹਾਈਪਰਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਅਨੁਕੂਲ ਕਰਨ ਅਤੇ ਟੈਸਟਾਂ ਨੂੰ ਦੁਬਾਰਾ ਚਲਾਉਣ ਨਾਲ ਇਸ ਮੁੱਦੇ ਦਾ ਹੱਲ ਹੋ ਗਿਆ, ਜਿਸ ਨਾਲ ਸਹੀ ਸੰਰਚਨਾ ਦੀ ਮਹੱਤਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਹੋਇਆ।
ਵਨ-ਸ਼ਾਟ ਕੋਡਿੰਗ: ਇੱਕ ਸੰਭਾਵੀ ਤਾਕਤ
QwQ ਨੇ “ਵਨ-ਸ਼ਾਟ” ਕੋਡ ਜਨਰੇਸ਼ਨ ਲਈ ਆਪਣੀ ਸੰਭਾਵਨਾ ਲਈ ਕਾਫ਼ੀ ਧਿਆਨ ਖਿੱਚਿਆ ਹੈ - ਪਹਿਲੀ ਕੋਸ਼ਿਸ਼ ‘ਤੇ ਵਰਤੋਂ ਯੋਗ ਕੋਡ ਤਿਆਰ ਕਰਨ ਦੀ ਯੋਗਤਾ। ਇਹ ਖਾਸ ਖੇਤਰ ਮਾਡਲ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਤਾਕਤ ਜਾਪਦਾ ਹੈ।
ਮਾਡਲ ਨੂੰ ਪਾਈਗੇਮ ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਪਾਈਥਨ ਵਿੱਚ ਕਈ ਮੁਕਾਬਲਤਨ ਸਧਾਰਨ ਗੇਮਾਂ ਨੂੰ ਦੁਬਾਰਾ ਬਣਾਉਣ ਦਾ ਕੰਮ ਸੌਂਪਿਆ ਗਿਆ ਸੀ। ਚੁਣੀਆਂ ਗਈਆਂ ਗੇਮਾਂ ਸਨ ਪੋਂਗ, ਬ੍ਰੇਕਆਉਟ, ਐਸਟਰਾਇਡਜ਼, ਅਤੇ ਫਲੈਪੀ ਬਰਡ।
QwQ ਨੇ ਪੋਂਗ ਅਤੇ ਬ੍ਰੇਕਆਉਟ ਨੂੰ ਮੁਕਾਬਲਤਨ ਆਸਾਨੀ ਨਾਲ ਸੰਭਾਲਿਆ। ਕੁਝ ਮਿੰਟਾਂ ਦੀ ਪ੍ਰੋਸੈਸਿੰਗ ਤੋਂ ਬਾਅਦ, ਮਾਡਲ ਨੇ ਦੋਵਾਂ ਗੇਮਾਂ ਦੇ ਕੰਮ ਕਰਨ ਵਾਲੇ ਸੰਸਕਰਣ ਤਿਆਰ ਕੀਤੇ।
ਹਾਲਾਂਕਿ, ਜਦੋਂ ਐਸਟਰਾਇਡਜ਼ ਨੂੰ ਦੁਬਾਰਾ ਬਣਾਉਣ ਦਾ ਕੰਮ ਸੌਂਪਿਆ ਗਿਆ, ਤਾਂ QwQ ਨੂੰ ਮੁਸ਼ਕਲਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪਿਆ। ਹਾਲਾਂਕਿ ਤਿਆਰ ਕੀਤਾ ਕੋਡ ਚੱਲਿਆ, ਗ੍ਰਾਫਿਕਸ ਅਤੇ ਗੇਮ ਮਕੈਨਿਕਸ ਅਕਸਰ ਵਿਗੜੇ ਹੋਏ ਅਤੇ ਬੱਗੀ ਸਨ। ਇਸਦੇ ਉਲਟ, R1 ਨੇ, ਆਪਣੀ ਪਹਿਲੀ ਕੋਸ਼ਿਸ਼ ‘ਤੇ, ਕਲਾਸਿਕ ਆਰਕੇਡ ਸ਼ੂਟਰ ਨੂੰ ਇਮਾਨਦਾਰੀ ਨਾਲ ਦੁਬਾਰਾ ਬਣਾਇਆ।
ਇਹਨਾਂ ਮਾਡਲਾਂ ਲਈ ਸਿਖਲਾਈ ਡੇਟਾ ‘ਤੇ ਵਿਚਾਰ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਉਹਨਾਂ ਨੂੰ ਖੁੱਲ੍ਹੇ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਸਰੋਤ ਕੋਡ ਦੀ ਇੱਕ ਵੱਡੀ ਮਾਤਰਾ ਦੇ ਸੰਪਰਕ ਵਿੱਚ ਲਿਆਂਦਾ ਗਿਆ ਹੈ, ਜਿਸ ਵਿੱਚ ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ ਕਲਾਸਿਕ ਗੇਮਾਂ ਦੇ ਪ੍ਰਜਨਨ ਸ਼ਾਮਲ ਹਨ। ਇਹ ਸਵਾਲ ਉਠਾਉਂਦਾ ਹੈ ਕਿ ਕੀ ਮਾਡਲ ਸਿਰਫ਼ ਸਿੱਖੀ ਹੋਈ ਜਾਣਕਾਰੀ ਨੂੰ ਯਾਦ ਕਰ ਰਹੇ ਹਨ ਜਾਂ ਸ਼ੁਰੂ ਤੋਂ ਸੁਤੰਤਰ ਤੌਰ ‘ਤੇ ਗੇਮ ਮਕੈਨਿਕਸ ਪ੍ਰਾਪਤ ਕਰ ਰਹੇ ਹਨ। ਇਹ ਇਹਨਾਂ ਵਿਸ਼ਾਲ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਦੀ ਬੁਨਿਆਦੀ ਪ੍ਰਕਿਰਤੀ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦਾ ਹੈ, ਜਿੱਥੇ ਸਪੱਸ਼ਟ ਬੁੱਧੀ ਅਕਸਰ ਵਿਆਪਕ ਪੈਟਰਨ ਮਾਨਤਾ ਤੋਂ ਪੈਦਾ ਹੁੰਦੀ ਹੈ।
ਇਹਨਾਂ ਸੀਮਾਵਾਂ ਦੇ ਨਾਲ ਵੀ, ਕਲਾਸਿਕ ਆਰਕੇਡ ਗੇਮਾਂ ਨੂੰ ਦੁਬਾਰਾ ਬਣਾਉਣ ਵਿੱਚ QwQ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ, ਖਾਸ ਕਰਕੇ ਇਸਦੀ ਪੈਰਾਮੀਟਰ ਗਿਣਤੀ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦੇ ਹੋਏ। ਇਹ ਹਰ ਟੈਸਟ ਵਿੱਚ R1 ਨਾਲ ਮੇਲ ਨਹੀਂ ਖਾਂਦਾ, ਪਰ ਇਹ ਸਮਰੱਥਾ ਦੇ ਇੱਕ ਕਮਾਲ ਦੇ ਪੱਧਰ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। “ਵਿਸਥਾਪਨ ਲਈ ਕੋਈ ਬਦਲ ਨਹੀਂ ਹੈ,” ਅਕਸਰ ਆਟੋਮੋਟਿਵ ਸੰਸਾਰ ਵਿੱਚ ਵਰਤਿਆ ਜਾਣ ਵਾਲਾ ਵਾਕੰਸ਼, ਇੱਥੇ ਢੁਕਵਾਂ ਹੋ ਸਕਦਾ ਹੈ। ਇਹ ਸਮਝਾ ਸਕਦਾ ਹੈ ਕਿ ਅਲੀਬਾਬਾ QwQ ਦਾ “ਮੈਕਸ” ਸੰਸਕਰਣ ਕਿਉਂ ਵਿਕਸਤ ਕਰ ਰਿਹਾ ਹੈ, ਹਾਲਾਂਕਿ ਇਹ ਜਲਦੀ ਹੀ ਕਿਸੇ ਵੀ ਸਮੇਂ ਖਪਤਕਾਰ ਹਾਰਡਵੇਅਰ ‘ਤੇ ਚੱਲਣ ਦੀ ਸੰਭਾਵਨਾ ਨਹੀਂ ਹੈ।
ਡੀਪਸੀਕ ਦੇ ਸਮਾਨ ਆਕਾਰ ਦੇ R1 Qwen 2.5 32B ਡਿਸਟਿਲ ਦੇ ਮੁਕਾਬਲੇ, ਅਲੀਬਾਬਾ ਦੇ ਆਪਣੀ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਪਾਈਪਲਾਈਨ ਵਿੱਚ ਇੱਕ ਕੋਡ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਸਰਵਰ ਨੂੰ ਏਕੀਕ੍ਰਿਤ ਕਰਨ ਦੇ ਫੈਸਲੇ ਨੇ ਪ੍ਰੋਗਰਾਮਿੰਗ-ਸਬੰਧਤ ਚੁਣੌਤੀਆਂ ਵਿੱਚ ਇੱਕ ਫਾਇਦਾ ਦਿੱਤਾ ਹੋ ਸਕਦਾ ਹੈ।
ਗਣਿਤ: ਇੱਕ ਚੇਤਾਵਨੀ ਦੇ ਨਾਲ ਸਮਰੱਥਾ
ਇਤਿਹਾਸਕ ਤੌਰ ‘ਤੇ, LLMs ਨੇ ਗਣਿਤ ਨਾਲ ਸੰਘਰਸ਼ ਕੀਤਾ ਹੈ, ਜੋ ਕਿ ਉਹਨਾਂ ਦੀ ਭਾਸ਼ਾ-ਕੇਂਦ੍ਰਿਤ ਸਿਖਲਾਈ ਦਾ ਨਤੀਜਾ ਹੈ। ਜਦੋਂ ਕਿ ਨਵੇਂ ਮਾਡਲਾਂ ਨੇ ਸੁਧਾਰ ਦਿਖਾਏ ਹਨ, QwQ ਅਜੇ ਵੀ ਚੁਣੌਤੀਆਂ ਦਾ ਸਾਹਮਣਾ ਕਰਦਾ ਹੈ, ਹਾਲਾਂਕਿ ਜ਼ਰੂਰੀ ਨਹੀਂ ਕਿ ਉਹਨਾਂ ਕਾਰਨਾਂ ਕਰਕੇ ਜਿਨ੍ਹਾਂ ਦੀ ਕੋਈ ਉਮੀਦ ਕਰ ਸਕਦਾ ਹੈ।
QwQ ਨੇ ਪਹਿਲਾਂ R1 ਨੂੰ ਪੁੱਛੀਆਂ ਗਈਆਂ ਸਾਰੀਆਂ ਗਣਿਤ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਸਫਲਤਾਪੂਰਵਕ ਹੱਲ ਕੀਤਾ। ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ QwQ ਬੁਨਿਆਦੀ ਗਣਿਤ ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਕੁਝ ਅਲਜਬਰੇ ਨੂੰ ਵੀ ਸੰਭਾਲ ਸਕਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਮੁੱਦਾ ਇਸਦੀ ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਹੈ। ਗਣਿਤਿਕ ਗਣਨਾਵਾਂ ਲਈ ਇੱਕ LLM ਨੂੰ ਸ਼ਾਮਲ ਕਰਨਾ ਉਲਟ ਜਾਪਦਾ ਹੈ ਜਦੋਂ ਕੈਲਕੁਲੇਟਰ ਅਤੇ ਸਿੱਧੀ ਗਣਨਾ ਆਸਾਨੀ ਨਾਲ ਉਪਲਬਧ ਅਤੇ ਕਾਫ਼ੀ ਤੇਜ਼ ਰਹਿੰਦੀ ਹੈ।
ਉਦਾਹਰਨ ਲਈ, 7*43
ਵਰਗੇ ਇੱਕ ਸਧਾਰਨ ਸਮੀਕਰਨ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ QwQ ਨੂੰ 1,000 ਤੋਂ ਵੱਧ ਟੋਕਨ ਤਿਆਰ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਜਿਸ ਵਿੱਚ ਇੱਕ RTX 3090 Ti ‘ਤੇ ਲਗਭਗ 23 ਸਕਿੰਟ ਲੱਗਦੇ ਹਨ। ਇਹ ਇੱਕ ਅਜਿਹਾ ਕੰਮ ਹੈ ਜੋ ਸਮੇਂ ਦੇ ਇੱਕ ਹਿੱਸੇ ਵਿੱਚ ਇੱਕ ਪਾਕੇਟ ਕੈਲਕੁਲੇਟਰ ‘ਤੇ ਪੂਰਾ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
ਵੱਡੀਆਂ ਗਣਨਾਵਾਂ ਨਾਲ ਅਕੁਸ਼ਲਤਾ ਹੋਰ ਵੀ ਸਪੱਸ਼ਟ ਹੋ ਜਾਂਦੀ ਹੈ। 3394*35979
ਨੂੰ ਹੱਲ ਕਰਨਾ, ਇੱਕ ਗੁਣਾ ਸਮੱਸਿਆ ਜੋ ਜ਼ਿਆਦਾਤਰ ਗੈਰ-ਤਰਕ ਮਾਡਲਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਤੋਂ ਪਰੇ ਹੈ, QwQ ਦੇ ਸਥਾਨਕ ਉਦਾਹਰਨ ਨੂੰ ਗਣਨਾ ਕਰਨ ਲਈ ਤਿੰਨ ਮਿੰਟ ਅਤੇ 5,000 ਤੋਂ ਵੱਧ ਟੋਕਨ ਲੱਗੇ।
ਹਾਈਪਰਪੈਰਾਮੀਟਰ ਫਿਕਸ ਤੋਂ ਪਹਿਲਾਂ, ਉਸੇ ਸਮੀਕਰਨ ਨੂੰ ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਨੌਂ ਮਿੰਟ ਅਤੇ ਲਗਭਗ 12,000 ਟੋਕਨਾਂ ਦੀ ਲੋੜ ਸੀ।
ਇੱਥੇ ਮੁੱਖ ਗੱਲ ਇਹ ਹੈ ਕਿ ਜਦੋਂ ਕਿ ਇੱਕ ਮਾਡਲ ਸਹੀ ਜਵਾਬ ਲਈ ਆਪਣੇ ਤਰੀਕੇ ਨਾਲ ਜ਼ਬਰਦਸਤੀ ਕਰਨ ਦੇ ਯੋਗ ਹੋ ਸਕਦਾ ਹੈ, ਇਸਦਾ ਜ਼ਰੂਰੀ ਮਤਲਬ ਇਹ ਨਹੀਂ ਹੈ ਕਿ ਇਹ ਕੰਮ ਲਈ ਅਨੁਕੂਲ ਸਾਧਨ ਹੈ। ਇੱਕ ਵਧੇਰੇ ਵਿਹਾਰਕ ਪਹੁੰਚ QwQ ਨੂੰ ਇੱਕ ਪਾਈਥਨ ਕੈਲਕੁਲੇਟਰ ਤੱਕ ਪਹੁੰਚ ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੋਵੇਗਾ। ਇਹ ਮਾਡਲ ਦੀਆਂ ਸ਼ਕਤੀਆਂ ਦਾ ਲਾਭ ਉਠਾਉਂਦਾ ਹੈ ਜਦੋਂ ਕਿ ਗਣਨਾਤਮਕ ਤੌਰ ‘ਤੇ ਗੁੰਝਲਦਾਰ ਕੰਮਾਂ ਨੂੰ ਵਧੇਰੇ ਢੁਕਵੇਂ ਸਾਧਨ ‘ਤੇ ਆਫਲੋਡ ਕਰਦਾ ਹੈ।
ਜਦੋਂ ਟੂਲਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਉਸੇ 3394*35979
ਸਮੀਕਰਨ ਨੂੰ ਹੱਲ ਕਰਨ ਦਾ ਕੰਮ ਸੌਂਪਿਆ ਗਿਆ, ਤਾਂ QwQ ਦਾ ਜਵਾਬ ਸਮਾਂ ਅੱਠ ਸਕਿੰਟਾਂ ਤੱਕ ਘੱਟ ਗਿਆ, ਕਿਉਂਕਿ ਕੈਲਕੁਲੇਟਰ ਨੇ ਭਾਰੀ ਲਿਫਟਿੰਗ ਨੂੰ ਸੰਭਾਲਿਆ।
“ਉਡੀਕ ਕਰੋ” ਦੀ ਪ੍ਰਚਲਿਤਤਾ: ਵਿਚਾਰ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਇੱਕ ਝਲਕ
QwQ ਦੇ “ਵਿਚਾਰਾਂ” ਦੀ ਜਾਂਚ ਕਰਨ ਨਾਲ “ਉਡੀਕ ਕਰੋ” ਸ਼ਬਦ ਦੀ ਇੱਕ ਵਾਰ-ਵਾਰ ਮੌਜੂਦਗੀ ਦਾ ਪਤਾ ਚਲਦਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਗੁੰਝਲਦਾਰ ਕੰਮਾਂ ਜਾਂ ਸ਼ਬਦਾਂ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਦੌਰਾਨ। ਇਹ ਵਿਕਲਪਕ ਨਤੀਜਿਆਂ ਦੇ ਵਿਰੁੱਧ ਆਪਣੇ ਕੰਮ ਦੀ ਜਾਂਚ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਅੰਦਰੂਨੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।
ਜਦੋਂ ਕਿ ਇਹ ਵਿਵਹਾਰ ਤਰਕ ਮਾਡਲਾਂ ਵਿੱਚ ਆਮ ਹੈ, ਇਹ ਖਾਸ ਤੌਰ ‘ਤੇ ਨਿਰਾਸ਼ਾਜਨਕ ਹੋ ਸਕਦਾ ਹੈ ਜਦੋਂ QwQ ਇੱਕ ਗਲਤ ਜਵਾਬ ਤਿਆਰ ਕਰਦਾ ਹੈ, ਭਾਵੇਂ ਕਿ ਇਸਦੀ “ਵਿਚਾਰ” ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ ਸਹੀ ਜਵਾਬ ਦੀ ਸਮਝ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਤੋਂ ਬਾਅਦ ਵੀ।
ਟੈਸਟਿੰਗ ਦੌਰਾਨ ਇਸ ਮੁੱਦੇ ਦਾ ਅਕਸਰ ਸਾਹਮਣਾ ਕਰਨਾ ਪਿਆ। ਸਭ ਤੋਂ ਵੱਧ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਵਾਲੀਆਂ ਉਦਾਹਰਣਾਂ ਵਿੱਚੋਂ ਇੱਕ ਆਟੋਜੇਨ AI ਦਾ ਕਲਾਸਿਕ ਬਘਿਆੜ, ਬੱਕਰੀ ਅਤੇ ਗੋਭੀ ਦੀ ਸਮੱਸਿਆ ਦਾ ਰੂਪਾਂਤਰ ਸੀ। ਇਹ ਬੁਝਾਰਤ ਇੱਕ ਮੋੜ ਦੇ ਨਾਲ ਇੱਕ ਆਵਾਜਾਈ ਅਨੁਕੂਲਤਾ ਚੁਣੌਤੀ ਪੇਸ਼ ਕਰਦੀ ਹੈ:
ਹੱਲ ਪ੍ਰੋਂਪਟ ਦੇ ਅੰਦਰ ਏਮਬੈਡ ਕੀਤਾ ਗਿਆ ਹੈ: ਤਿੰਨ ਸੁਰੱਖਿਅਤ ਕੰਪਾਰਟਮੈਂਟਾਂ ਦੇ ਨਾਲ, ਕਿਸਾਨ ਇੱਕੋ ਯਾਤਰਾ ਵਿੱਚ ਸਾਰੀਆਂ ਚੀਜ਼ਾਂ ਦੀ ਢੋਆ-ਢੁਆਈ ਕਰ ਸਕਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਬੁਝਾਰਤ ਦੀ ਕਲਾਸਿਕ ਸੰਸਕਰਣ ਨਾਲ ਸਮਾਨਤਾ ਦੇ ਕਾਰਨ, ਮਾਡਲ ਅਕਸਰ ਕੰਪਾਰਟਮੈਂਟਾਂ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਦੇ ਹਨ।
ਟੈਸਟਿੰਗ ਵਿੱਚ, QwQ ਲਗਾਤਾਰ ਇਸ ਬੁਝਾਰਤ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਹੱਲ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਿਹਾ। ਇਸਦੀ ਵਿਚਾਰ ਪ੍ਰਕਿਰਿਆ ਦੀ ਜਾਂਚ ਕਰਨ ਨਾਲ ਪਤਾ ਚੱਲਿਆ ਕਿ ਇਸਨੇ ਤਿੰਨ ਕੰਪਾਰਟਮੈਂਟਾਂ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਨਹੀਂ ਕੀਤਾ। ਅਸਲ ਵਿੱਚ, ਇਸਨੇ ਉਹਨਾਂ ਨੂੰ ਸਵੀਕਾਰ ਕੀਤਾ ਪਰ ਉਹਨਾਂ ਨੂੰ ਬਹੁਤ ਸਰਲ ਹੋਣ ਕਰਕੇ ਖਾਰਜ ਕਰ ਦਿੱਤਾ:
“ਉਡੀਕ ਕਰੋ, ਜੇ ਕਿਸਾਨ ਇੱਕੋ ਯਾਤਰਾ ਵਿੱਚ ਤਿੰਨੋਂ ਲੈ ਸਕਦਾ ਹੈ, ਤਾਂ ਉਹ ਬੱਸ ਅਜਿਹਾ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਪੂਰਾ ਹੋ ਸਕਦਾ ਹੈ। ਪਰ ਇਹ ਸਮੱਸਿਆ ਨੂੰ ਮਾਮੂਲੀ ਬਣਾ ਦੇਵੇਗਾ, ਜਿਸਦੀ ਸੰਭਾਵਨਾ ਨਹੀਂ ਹੈ। ਇਸ ਲਈ ਸ਼ਾਇਦ ਕੰਪਾਰਟਮੈਂਟ ਵੱਖਰੇ ਹਨ ਪਰ ਕਿਸ਼ਤੀ ਸਿਰਫ ਦੋ ਚੀਜ਼ਾਂ ਅਤੇ ਕਿਸਾਨ ਨੂੰ ਲੈ ਜਾ ਸਕਦੀ ਹੈ?”
ਭਾਵੇਂ ਟੈਸਟ ਕਲਾਉਡ ਵਿੱਚ ਪੂਰੇ ਮਾਡਲ ‘ਤੇ ਚਲਾਇਆ ਗਿਆ ਸੀ ਜਾਂ ਸਥਾਨਕ ਤੌਰ ‘ਤੇ, QwQ ਨੇ ਇਸਨੂੰ ਲਗਾਤਾਰ ਹੱਲ ਕਰਨ ਲਈ ਸੰਘਰਸ਼ ਕੀਤਾ। ਇਹ ਇਸਦੀਆਂ ਤਰਕ ਸਮਰੱਥਾਵਾਂ ਵਿੱਚ ਇੱਕ ਸੰਭਾਵੀ ਸੀਮਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ, ਜਿੱਥੇ ਇਹ ਸਮੱਸਿਆ ਦੀਆਂ ਰੁਕਾਵਟਾਂ ਨੂੰ ਜ਼ਿਆਦਾ ਸੋਚ ਸਕਦਾ ਹੈ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਕਰ ਸਕਦਾ ਹੈ।
ਹਾਈਪਰਪੈਰਾਮੀਟਰ ਸੰਵੇਦਨਸ਼ੀਲਤਾ: ਇੱਕ ਨਾਜ਼ੁਕ ਸੰਤੁਲਨ
ਹੋਰ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ, QwQ ਨੇ ਆਪਣੀ ਸੰਰਚਨਾ ਪ੍ਰਤੀ ਵਧੀ ਹੋਈ ਸੰਵੇਦਨਸ਼ੀਲਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਸ਼ੁਰੂ ਵਿੱਚ, ਅਲੀਬਾਬਾ ਨੇ ਖਾਸ ਨਮੂਨਾ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ:
- ਤਾਪਮਾਨ: 0.6
- TopP: 0.95
- TopK: 20 ਅਤੇ 40 ਦੇ ਵਿਚਕਾਰ
ਬਾਅਦ ਵਿੱਚ, ਇਹਨਾਂ ਸਿਫਾਰਸ਼ਾਂ ਨੂੰ ਅੱਪਡੇਟ ਕੀਤਾ ਗਿਆ ਸੀ:
- MinP: 0
- ਮੌਜੂਦਗੀ ਜੁਰਮਾਨਾ: 0 ਅਤੇ 2 ਦੇ ਵਿਚਕਾਰ
Llama.cpp ਦੇ ਨਮੂਨਾ ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਸੰਭਾਲਣ ਵਿੱਚ ਇੱਕ ਸਪੱਸ਼ਟ ਬੱਗ ਦੇ ਕਾਰਨ (Llama.cpp ਦੀ ਵਰਤੋਂ ਮਾਡਲਾਂ ‘ਤੇ ਅਨੁਮਾਨ ਚਲਾਉਣ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ), ਦੁਹਰਾਓ ਜੁਰਮਾਨੇ ਨੂੰ 1 ‘ਤੇ ਸੈੱਟ ਕਰਕੇ ਅਯੋਗ ਕਰਨਾ ਵੀ ਜ਼ਰੂਰੀ ਸੀ।
ਜਿਵੇਂ ਕਿ ਪਹਿਲਾਂ ਦੱਸਿਆ ਗਿਆ ਹੈ, ਇਹਨਾਂ ਸੰਰਚਨਾ ਮੁੱਦਿਆਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਹੋਇਆ, ਜਿਸ ਨਾਲ ਜਵਾਬ ‘ਤੇ ਪਹੁੰਚਣ ਲਈ ਲੋੜੀਂਦੇ “ਸੋਚਣ” ਟੋਕਨਾਂ ਦੀ ਗਿਣਤੀ ਅੱਧੇ ਤੋਂ ਵੱਧ ਘੱਟ ਗਈ। ਹਾਲਾਂਕਿ, ਇਹ ਬੱਗ GGUF-ਕੁਆਂਟਾਈਜ਼ਡ ਮਾਡਲਾਂ ਲਈ ਖਾਸ ਜਾਪਦਾ ਹੈ ਜਦੋਂ Llama.cpp ਅਨੁਮਾਨ ਇੰਜਣ ‘ਤੇ ਚੱਲ ਰਿਹਾ ਹੋਵੇ, ਜਿਸਦੀ ਵਰਤੋਂ ਓਲਾਮਾ ਅਤੇ LM ਸਟੂਡੀਓ ਵਰਗੀਆਂ ਪ੍ਰਸਿੱਧ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੁਆਰਾ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
Llama.cpp ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਯੋਜਨਾ ਬਣਾ ਰਹੇ ਉਪਭੋਗਤਾਵਾਂ ਲਈ, ਨਮੂਨਾ ਆਰਡਰ ਨੂੰ ਠੀਕ ਕਰਨ ਲਈ ਅਨਸਲੋਥ ਦੀ ਗਾਈਡ ਨਾਲ ਸਲਾਹ ਕਰਨ ਦੀ ਜ਼ੋਰਦਾਰ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
QwQ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕਰਨਾ: ਇੱਕ ਵਿਹਾਰਕ ਗਾਈਡ
QwQ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਨ ਵਿੱਚ ਦਿਲਚਸਪੀ ਰੱਖਣ ਵਾਲਿਆਂ ਲਈ, ਇਸਨੂੰ ਓਲਾਮਾ ਵਿੱਚ ਸਥਾਪਤ ਕਰਨਾ ਮੁਕਾਬਲਤਨ ਸਿੱਧਾ ਹੈ। ਹਾਲਾਂਕਿ, ਇਹ ਨੋਟ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਇਸ ਲਈ ਕਾਫ਼ੀ ਮਾਤਰਾ ਵਿੱਚ vRAM ਵਾਲੇ ਇੱਕ GPU ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਮਾਡਲ ਨੂੰ ਇੱਕ 24GB 3090 Ti ‘ਤੇ ਇੱਕ ਪ੍ਰਸੰਗ ਵਿੰਡੋ ਦੇ ਨਾਲ ਸਫਲਤਾਪੂਰਵਕ ਚਲਾਇਆ ਗਿਆ ਸੀ ਜੋ ਵਿਹਾਰਕ ਵਰਤੋਂ ਲਈ ਕਾਫ਼ੀ ਵੱਡੀ ਸੀ।
ਜਦੋਂ ਕਿ ਤਕਨੀਕੀ ਤੌਰ ‘ਤੇ ਇੱਕ CPU ਅਤੇ ਸਿਸਟਮ ਮੈਮੋਰੀ ‘ਤੇ ਮਾਡਲ ਨੂੰ ਚਲਾਉਣਾ ਸੰਭਵ ਹੈ, ਇਸਦੇ ਨਤੀਜੇ ਵਜੋਂ ਬਹੁਤ ਹੌਲੀ ਜਵਾਬ ਸਮਾਂ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਹੈ ਜਦੋਂ ਤੱਕ ਕਿ ਇੱਕ ਉੱਚ-ਅੰਤ ਵਾਲੇ ਵਰਕਸਟੇਸ਼ਨ ਜਾਂ ਸਰਵਰ ਦੀ ਵਰਤੋਂ ਨਾ ਕੀਤੀ ਜਾਵੇ।
ਪੂਰਵ-ਸ਼ਰਤਾਂ:
- 4-ਬਿੱਟ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ ‘ਤੇ ਮੱਧਮ ਆਕਾਰ ਦੇ LLMs ਨੂੰ ਚਲਾਉਣ ਦੇ ਸਮਰੱਥ ਇੱਕ ਮਸ਼ੀਨ। ਘੱਟੋ-ਘੱਟ 24GB vRAM ਵਾਲੇ ਇੱਕ ਅਨੁਕੂਲ GPU ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਸਮਰਥਿਤ ਕਾਰਡਾਂ ਦੀ ਇੱਕ ਸੂਚੀ ਇੱਥੇ ਲੱਭੀ ਜਾ ਸਕਦੀ ਹੈ।
- ਐਪਲ ਸਿਲੀਕਾਨ ਮੈਕਸ ਲਈ, ਘੱਟੋ-ਘੱਟ 32GB ਮੈਮੋਰੀ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
ਇਹ ਗਾਈਡ ਇੱਕ ਲੀਨਕਸ-ਵਰਲਡ ਕਮਾਂਡ-ਲਾਈਨ ਇੰਟਰਫੇਸ ਅਤੇ ਓਲਾਮਾ ਨਾਲ ਬੁਨਿਆਦੀ ਜਾਣ-ਪਛਾਣ ਮੰਨਦੀ ਹੈ।
ਓਲਾਮਾ ਨੂੰ ਸਥਾਪਿਤ ਕਰਨਾ
ਓਲਾਮਾ ਇੱਕ ਪ੍ਰਸਿੱਧ ਮਾਡਲ ਰਨਰ ਹੈ ਜੋ ਖਪਤਕਾਰ ਹਾਰਡਵੇਅਰ ‘ਤੇ LLMs ਨੂੰ ਡਾਊਨਲੋਡ ਕਰਨ ਅਤੇ ਸੇਵਾ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਸਰਲ ਬਣਾਉਂਦਾ ਹੈ। ਵਿੰਡੋਜ਼ ਜਾਂ ਮੈਕੋਸ ਉਪਭੋਗਤਾਵਾਂ ਲਈ, ਇਸਨੂੰ ollama.com ਤੋਂ ਕਿਸੇ ਹੋਰ ਐਪਲੀਕੇਸ਼ਨ ਵਾਂਗ ਡਾਊਨਲੋਡ ਅਤੇ ਸਥਾਪਿਤ ਕਰੋ।
ਲੀਨਕਸ ਉਪਭੋਗਤਾਵਾਂ ਲਈ, ਓਲਾਮਾ ਸਥਾਪਨਾ ਲਈ ਇੱਕ ਸੁਵਿਧਾਜਨਕ ਵਨ-ਲਾਈਨਰ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ: