Microsoft ਦਾ ਛੋਟਾ ਮਾਡਲ ਜਿੱਤ ਗਿਆ!

Phi-4 ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਦਾ ਉਭਾਰ

AI ਜਗਤ ਵਰਤਮਾਨ ਵਿੱਚ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਤੋਂ ਬਹੁਤ ਪ੍ਰਭਾਵਿਤ ਹੈ, ਅਤੇ Microsoft ਨੇ ਹਾਲ ਹੀ ਵਿੱਚ Phi-4 ਇਨਫਰੈਂਸ ਮਾਡਲਾਂ ਦਾ ਪਰਿਵਾਰ ਪੇਸ਼ ਕੀਤਾ ਹੈ। ਇਸ ਵਿੱਚ Phi-4-reasoning, Phi-4-reasoning-plus, ਅਤੇ Phi-4-mini-reasoning ਸ਼ਾਮਲ ਹਨ। ਖਾਸ ਤੌਰ ‘ਤੇ ਧਿਆਨ ਦੇਣ ਯੋਗ ਗੱਲ ਇਹ ਹੈ ਕਿ ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਵਿੱਚੋਂ ਸਭ ਤੋਂ ਵੱਡਾ ਮਾਡਲ, ਜਿਸ ਵਿੱਚ ਸਿਰਫ਼ 14 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਹਨ, ਉੱਚ-ਪ੍ਰਦਰਸ਼ਨ ਵਾਲੇ ਲੈਪਟਾਪਾਂ ‘ਤੇ ਆਸਾਨੀ ਨਾਲ ਚੱਲ ਸਕਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, 3.8 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਵਾਲਾ Phi-4-mini-reasoning, 8 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਵਾਲੇ DeepSeek-R1 ਡਿਸਟਿਲਡ ਮਾਡਲ ਨੂੰ ਗਣਿਤਿਕ ਰੀਜ਼ਨਿੰਗ ਵਿੱਚ ਪਛਾੜ ਦਿੰਦਾ ਹੈ, ਜੋ ਕਿ ਇਨਫਰੈਂਸ ਕੰਮਾਂ ਵਿੱਚ ਛੋਟੇ ਮਾਡਲਾਂ ਦੀ ਸ਼ਕਤੀ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ।

ਅਪ੍ਰੈਲ ਵਿੱਚ ਦੂਜੀ ਪੀੜ੍ਹੀ ਦੇ DeepSeek-R2 ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਦੇ ਰਿਲੀਜ਼ ਹੋਣ ਦੀ ਉਡੀਕ ਕਰਨ ਦੀ ਬਜਾਏ, Microsoft ਨੇ Phi-4 ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਦੀ ਇੱਕ ਨਵੀਂ ਲੜੀ ਪੇਸ਼ ਕੀਤੀ। ਇਹ ਮਾਡਲ ਗਣਿਤਿਕ ਰੀਜ਼ਨਿੰਗ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ, Phi-4-Mini-Reasoning ਦੇ ਛੋਟੇ ਪੈਰਾਮੀਟਰ ਸਕੇਲ ਦੇ ਬਾਵਜੂਦ, DeepSeek-R1 ਡਿਸਟਿਲਡ ਮਾਡਲ ਨੂੰ ਵੀ ਪਛਾੜ ਦਿੰਦੇ ਹਨ।

ਅਹਿਮਦ ਅਵਾਦੱਲਾ, ਪਾਰਟਨਰ ਰਿਸਰਚ ਮੈਨੇਜਰ, Microsoft AI ਫਰੰਟੀਅਰਜ਼ ਲੈਬਾਰਟਰੀ, ਨੇ Phi-4-reasoning ਦਾ ਵਰਣਨ ਕੀਤਾ ਅਤੇ ਨਵੇਂ ਮਾਡਲ ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦਾ ਸਾਰ ਦਿੱਤਾ।

  • ਇਹ ਮਾਡਲ ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ (ਧਿਆਨ ਨਾਲ ਚੁਣੇ ਗਏ ਰੀਜ਼ਨਿੰਗ ਉਦਾਹਰਣ ਡੇਟਾਸੈੱਟ ਦੀ ਵਰਤੋਂ ਕਰਕੇ) ਅਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਨਾਲ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਹੈ।
  • ਇਹ ਇਨਫਰੈਂਸ ਬੈਂਚਮਾਰਕਸ ਵਿੱਚ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ ਅਤੇ ਵੱਡੇ ਟੌਪ ਮਾਡਲਾਂ ਜਿਵੇਂ ਕਿ DeepSeek R1 ਦੇ ਮੁਕਾਬਲੇ ਹੋ ਸਕਦਾ ਹੈ।
  • ਇਹ ਨਵੇਂ ਟੈਸਟਾਂ (ਜਿਵੇਂ ਕਿ AIME 2025, HMMT) ‘ਤੇ ਵੀ ਮਜ਼ਬੂਤੀ ਨਾਲ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨਾ ਜਾਰੀ ਰੱਖਦਾ ਹੈ।
  • ਰੀਜ਼ਨਿੰਗ ਦੀ ਸਮਰੱਥਾ ਵਿੱਚ ਮਜ਼ਬੂਤ ਟ੍ਰਾਂਸਫਰਬਿਲਟੀ/ਜਨਰਲਾਈਜ਼ੇਸ਼ਨ ਦੀ ਸਮਰੱਥਾ ਹੈ, ਇੱਥੋਂ ਤੱਕ ਕਿ ਸਿਰਫ਼ ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਤੋਂ ਬਾਅਦ ਵੀ, ਇਹ ਨਵੇਂ ਕੰਮਾਂ (ਜਿਵੇਂ ਕਿ k-SAT, ਗਣਿਤਿਕ ਸਮੀਕਰਨ ਹੱਲ ਕਰਨਾ, ਸ਼ਡਿਊਲਿੰਗ, ਆਦਿ) ਨਾਲ ਅਨੁਕੂਲ ਹੋ ਸਕਦਾ ਹੈ।
  • ਇਹ ਆਮ ਸਮਰੱਥਾਵਾਂ (ਜਿਵੇਂ ਕਿ ਹਦਾਇਤ ਸਮਝਣਾ ਅਤੇ ਲਾਗੂ ਕਰਨਾ) ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦਾ ਹੈ ਅਤੇ ਬਹੁਤ ਸੁਧਾਰ ਕਰਦਾ ਹੈ।

ਉਸਨੇ ਕਿਹਾ ਕਿ Phi-4 ਵਿੱਚ ਅਜੇ ਵੀ ਕਈ ਪਹਿਲੂ ਹਨ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਸੁਧਾਰ ਦੀ ਲੋੜ ਹੈ, ਖਾਸ ਕਰਕੇ ਸੰਦਰਭ ਲੰਬਾਈ, ਏਨਕੋਡਿੰਗ ਦੀ ਸਮਰੱਥਾ, ਅਤੇ ਟੂਲ ਇੰਟੀਗ੍ਰੇਸ਼ਨ ਵਿੱਚ।

ਮਾਡਲ ਤੋਂ ਇਲਾਵਾ, Microsoft ਨੇ ਇੱਕ ਵਿਸਤ੍ਰਿਤ ਤਕਨੀਕੀ ਰਿਪੋਰਟ ਵੀ ਸਾਂਝੀ ਕੀਤੀ ਹੈ ਜੋ ਮਾਡਲ ਦੀ ਸਿਖਲਾਈ ਅਤੇ ਮੁਲਾਂਕਣ ਪ੍ਰਕਿਰਿਆ ਦਾ ਡੂੰਘਾਈ ਨਾਲ ਵਿਸ਼ਲੇਸ਼ਣ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ।

X ‘ਤੇ, ਦਮਿੱਤਰੀਸ ਪਾਪਾਈਲੀਓਪੂਲੋਸ, ਪ੍ਰਿੰਸੀਪਲ ਰਿਸਰਚਰ, Microsoft ਰਿਸਰਚ AI ਫਰੰਟੀਅਰਜ਼ ਲੈਬਾਰਟਰੀ ਅਤੇ ਵਿਸਕਾਨਸਿਨ ਯੂਨੀਵਰਸਿਟੀ ਵਿੱਚ ਐਸੋਸੀਏਟ ਪ੍ਰੋਫੈਸਰ, ਨੇ Phi-4 ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਬਾਰੇ ਹੋਰ ਜਾਣਕਾਰੀ ਪੇਸ਼ ਕੀਤੀ।

ਉਸਦਾ ਮੰਨਣਾ ਹੈ ਕਿ Phi-4-reasoning ਪੂਰੀ ਤਰ੍ਹਾਂ ਗ੍ਰੈਜੂਏਟ ਪੱਧਰ ‘ਤੇ ਪਹੁੰਚ ਗਿਆ ਹੈ ਅਤੇ ਇਸਨੂੰ ਇੱਕ ਸਥਾਨਕ PC ‘ਤੇ ਚਲਾਇਆ ਜਾ ਸਕਦਾ ਹੈ।

ਇਸ ਨੇ AI ਦੇ ਵਿਕਾਸ ਲਈ ਉਸਦੀਆਂ ਉਮੀਦਾਂ ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ ਹੈ।

ਨਵੇਂ ਮਾਡਲ ਵਿੱਚ ਘੱਟ ਪੈਰਾਮੀਟਰ ਹਨ ਪਰ ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ ਹੈ।

ਇੱਕ ਪ੍ਰਦਰਸ਼ਨ ਪਾਵਰਹਾਊਸ

ਆਪਣੇ ਮਾਮੂਲੀ ਆਕਾਰ ਦੇ ਬਾਵਜੂਦ, ਇਹ ਮਾਡਲ AIME, HMMT, ਅਤੇ OmniMath ਵਰਗੇ ਗਣਿਤ ਬੈਂਚਮਾਰਕਸ ਵਿੱਚ ਉੱਤਮ ਹੈ। ਇਹ QwQ-32B, R1-70B, ਅਤੇ R1 ਵਰਗੇ ਵੱਡੇ ਓਪਨ-ਵੇਟ ਮਾਡਲਾਂ ਅਤੇ o1-mini ਅਤੇ sonnet 3.7 ਵਰਗੇ ਬੰਦ ਮਾਡਲਾਂ ਦੇ ਬਰਾਬਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ ਜਾਂ ਉਨ੍ਹਾਂ ਤੋਂ ਵੱਧ ਜਾਂਦਾ ਹੈ।

ਇਹ ਮਾਡਲ ਆਕਾਰ ਵਿੱਚ ਛੋਟਾ ਹੈ ਅਤੇ ਉੱਚ-ਪ੍ਰਦਰਸ਼ਨ ਵਾਲੇ ਲੈਪਟਾਪਾਂ ‘ਤੇ ਆਸਾਨੀ ਨਾਲ ਚਲਾਉਣ ਲਈ ਢੁਕਵਾਂ ਹੈ।

ਇਸ ਦੇ ਨਾਲ ਹੀ, ਇਹ ਬਹੁਤ ਸਾਰੀਆਂ ਅਜਿਹੀਆਂ ਬੁਝਾਰਤਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਵੱਡੇ ਗੈਰ-ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਅਤੇ ਕੁਝ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਵੀ ਹੱਲ ਨਹੀਂ ਕਰ ਸਕਦੇ।

ਇਸਨੇ ਦਮਿੱਤਰੀਸ ਈਵੈਲ ਟੈਸਟ ਵੀ ਪਾਸ ਕਰ ਲਿਆ ਹੈ!

ਹੈਰਾਨੀ ਦੀ ਗੱਲ ਹੈ ਕਿ ਰੀਜ਼ਨਿੰਗ ਇੱਕ ਸੱਚਮੁੱਚ ਟ੍ਰਾਂਸਫਰੇਬਲ ‘ਮੈਟਾ-ਸਕਿੱਲ’ ਜਾਪਦੀ ਹੈ ਜੋ ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ SFT ਦੁਆਰਾ ਵੀ ਸਿੱਖੀ ਜਾ ਸਕਦੀ ਹੈ!

ਸਬੂਤ 1: ਗੈਰ-ਰੀਜ਼ਨਿੰਗ ਕੰਮਾਂ ‘ਤੇ ਵਿਸ਼ੇਸ਼ ਸਿਖਲਾਈ ਤੋਂ ਬਿਨਾਂ ਵੀ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਅਜੇ ਵੀ IFEval, FlenQA, ਅਤੇ ਅੰਦਰੂਨੀ PhiBench ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਦਰਸ਼ਨ ਸੁਧਾਰ ਦੇਖੇ (10 ਪੁਆਇੰਟਾਂ ਤੋਂ ਵੱਧ ਦਾ ਵਾਧਾ!)।

ਇਸ ਤੋਂ ਇਲਾਵਾ, SFT ਪੜਾਅ ਦੌਰਾਨ ਕੋਡਿੰਗ ਨਾਲ ਸਬੰਧਤ ਬਹੁਤ ਘੱਟ ਡਾਟਾ ਹੈ (ਅਤੇ RL ਪੜਾਅ ਦੌਰਾਨ ਬਿਲਕੁਲ ਵੀ ਨਹੀਂ), ਪਰ ਮਾਡਲ ਅਜੇ ਵੀ ਇਸ ਸਬੰਧ ਵਿੱਚ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, ਦਮਿੱਤਰੀਸ ਪਾਪਾਈਲੀਓਪੂਲੋਸ ਨੇ ਖੁਲਾਸਾ ਕੀਤਾ ਕਿ ਪ੍ਰੋਗਰਾਮਿੰਗ ਬਾਅਦ ਵਾਲੇ ਸੰਸਕਰਣਾਂ ਲਈ ਇੱਕ ਮੁੱਖ ਫੋਕਸ ਹੈ।

ਸਬੂਤ 2: ਕੁਝ ਖਾਸ ਸਮੱਸਿਆਵਾਂ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਜਿਨ੍ਹਾਂ ‘ਤੇ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਸਿਖਲਾਈ ਨਹੀਂ ਦਿੱਤੀ ਗਈ ਸੀ (ਜਾਂ ਤਾਂ SFT ਜਾਂ RL ਪੜਾਅ), ਜਿਵੇਂ ਕਿ ਟਰੈਵਲਿੰਗ ਸੇਲਜ਼ਮੈਨ ਸਮੱਸਿਆ, ਮੇਜ਼ ਸੋਲਵਿੰਗ, k-SAT, ਕੰਸਟ੍ਰੇਂਡ ਪਲੈਨਿੰਗ, ਆਦਿ, ਮਾਡਲ ਇਹਨਾਂ ਕੰਮਾਂ ਵਿੱਚ ਬਹੁਤ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ!

ਅਤੇ Phi-4 (ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ GPT-4) ਇਹ ਨਹੀਂ ਕਰ ਸਕਦੇ।

ਇਹ ਪੂਰੀ ਤਰ੍ਹਾਂ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਰੀਜ਼ਨਿੰਗ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਅਸਲ ਵਿੱਚ ਇੱਕ ਹੁਨਰ ਵਜੋਂ ਟ੍ਰਾਂਸਫਰ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ!

ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੇ ਇੱਕ ਬਹੁਤ ਹੀ ਥੋੜ੍ਹੇ ਜਿਹੇ ਗੇੜ ਤੋਂ ਬਾਅਦ (SFT ਲਈ 1.4 ਮਿਲੀਅਨ ਉਦਾਹਰਣਾਂ ਦੇ ਮੁਕਾਬਲੇ ਸਿਰਫ 6,000 ਨਮੂਨਿਆਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ), ਮਾਡਲ ਦਾ ਰੀਜ਼ਨਿੰਗ ਮਕੈਨਿਜ਼ਮ ‘ਲਾਕ’ ਹੋ ਗਿਆ ਜਾਪਦਾ ਹੈ।

ਇਸਨੇ ਦਮਿੱਤਰੀਸ ਪਾਪਾਈਲੀਓਪੂਲੋਸ ਨੂੰ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਹੈਰਾਨ ਕਰ ਦਿੱਤਾ।

ਉਸਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ ਜਿਵੇਂ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਨੇ ਮਾਡਲ ਨੂੰ ‘ਆਪਣੀ ਭਾਸ਼ਾ’ ਵਿੱਚ ਤਰਕ ਕਰਨਾ ਸਿਖਾਇਆ ਹੈ, ਜਿਸ ਨਾਲ AIME ਅਤੇ HMMT ‘ਤੇ ਸ਼ੁੱਧਤਾ ਲਗਭਗ 10% ਵਧ ਗਈ ਹੈ, ਅਤੇ ਮੁਸ਼ਕਲ ਸਮੱਸਿਆਵਾਂ ਵਿੱਚ ਔਸਤ ਜਵਾਬ ਦੀ ਲੰਬਾਈ 50% ਵਧ ਗਈ ਹੈ।

ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਅਸਲ ਵਿੱਚ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ!!

ਰੀਜ਼ਨਿੰਗ ਮਕੈਨਿਜ਼ਮ ਦੇ ‘ਲਾਕ’ ਹੋਣ ਦੀ ਘਟਨਾ ਆਮ ਤੌਰ ‘ਤੇ ਮਾਡਲ ਦੇ ਆਉਟਪੁੱਟ ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨ ਨੂੰ ਵਧੇਰੇ ਕੇਂਦਰਿਤ ਕਰਦੀ ਹੈ ਅਤੇ ਸ਼ੁੱਧਤਾ ਵੀ ਵਧੇਰੇ ਹੁੰਦੀ ਹੈ।

ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਢੰਗ ਨਾਲ ਸੁਧਾਰਨ ਲਈ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੀ ਤੱਥ Microsoft ਦੁਆਰਾ ਪਿਛਲੀ ਖੋਜ ਵਿੱਚ ਵੀ ਪ੍ਰਤੀਬਿੰਬਤ ਹੋਇਆ ਹੈ।

ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਪੜਾਅ ਵਿੱਚ, ਨਵੇਂ ਮਾਡਲ ਨੂੰ ਡੇਟਾ ਲਈ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਅਨੁਕੂਲਿਤ ਵੀ ਨਹੀਂ ਕੀਤਾ ਗਿਆ ਸੀ: 6,000 ਸਵਾਲ ਸਿਰਫ਼ ਡੇਟਾਸੈੱਟਾਂ ਦੀ ਇੱਕ ਵੱਡੀ ਚੋਣ ਤੋਂ ਬੇਤਰਤੀਬੇ ਢੰਗ ਨਾਲ ਚੁਣੇ ਗਏ ਸਨ।

ਤਾਂ Microsoft ਨੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਸਿਖਲਾਈ ਕਿਉਂ ਨਹੀਂ ਕਰਵਾਈ?

ਕਿਉਂਕਿ ਮਾਡਲ ਨੇ ਉਨ੍ਹਾਂ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਤਿਆਰ ਕੀਤੇ ਜੋ 32k ਸੰਦਰਭ ਲੰਬਾਈ ਤੋਂ ਵੱਧ ਗਏ (ਜਿਸ ਲੰਬਾਈ ‘ਤੇ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਨਹੀਂ ਦਿੱਤੀ ਗਈ ਸੀ), ਉਹਨਾਂ ਨੂੰ ਸਿਰਫ ਛੋਟਾ ਕਰਨਾ ਪਿਆ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, ਪੈਰਲਲ ਰੀਜ਼ਨਿੰਗ ਗਣਨਾਵਾਂ (ਜਿਵੇਂ ਕਿ Maj@N) ਦੀ ਮਦਦ ਨਾਲ, ਨਵਾਂ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਲਗਭਗ AIME 2025 ‘ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਸੀਮਾ ‘ਤੇ ਪਹੁੰਚ ਗਿਆ ਹੈ, ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਆਪਣੇ ਅਧਿਆਪਕ ਮਾਡਲ (o3-mini) ਦੇ pass@1 ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਵੀ ਪਛਾੜ ਗਿਆ ਹੈ।

ਅਤੇ ਫਰਵਰੀ 2025 ਤੋਂ ਪਹਿਲਾਂ ਸਾਰਾ ਡਾਟਾ ਇਕੱਠਾ ਕੀਤਾ ਗਿਆ ਸੀ, ਅਤੇ ਇਸੇ ਤਰ੍ਹਾਂ HMMT ਵੀ ਹੈ।

ਦੂਜੇ ਕੰਮਾਂ ਵਿੱਚ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ‘ਅਧਿਆਪਕ ਨੂੰ ਪਛਾੜਨ’ ਦੀ ਘਟਨਾ ਵੀ ਦੇਖੀ ਹੈ, ਜਿਵੇਂ ਕਿ OmniMath ਅਤੇ Calendar Planning ਕੰਮਾਂ ਵਿੱਚ।

SFT ਪੜਾਅ ਵਿੱਚ ਪ੍ਰੋਂਪਟ ਡਿਜ਼ਾਈਨ, ਬਾਅਦ ਵਿੱਚ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਪ੍ਰਕਿਰਿਆ ਦੇ ਨਾਲ ਮਿਲ ਕੇ, ਮਾਡਲ ਨੂੰ ‘ਆਪਣੇ ਆਪ ਨੂੰ ਸੁਧਾਰਨ’ ਦੀ ਸਮਰੱਥਾ ਪ੍ਰਦਾਨ ਕੀਤੀ ਜਾਪਦੀ ਹੈ, ਜੋ ਕਿ ਅਧਿਆਪਕ ਮਾਡਲ ਦੁਆਰਾ ਪ੍ਰਦਾਨ ਕੀਤੇ ਗਿਆਨ ਦੇ ਖੇਤਰ ਤੋਂ ਵੱਧ ਹੈ।

ਹੇਠਾਂ ਦਿੱਤੇ ਅੰਕੜੇ ਵਿੱਚ, ਮੈਜੈਂਟਾ o3-mini ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਅਤੇ ਹਰਾ Phi ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

ਇੱਕ ਦਿਲਚਸਪ ਘਟਨਾ ਇਹ ਹੈ ਕਿ: ਜਵਾਬ ਦੀ ਲੰਬਾਈ ਵਾਲੇ ਲੰਬੇ ਟੈਕਸਟ ਜੋ ਚੋਟੀ ਦੇ 25% ਵਿੱਚ ਹਨ, ਅਕਸਰ ਗਲਤ ਜਵਾਬਾਂ ਨਾਲ ਮਜ਼ਬੂਤੀ ਨਾਲ ਸਬੰਧਤ ਹੁੰਦੇ ਹਨ!

ਹਾਲਾਂਕਿ, ਦੂਜੇ ਪਾਸੇ, ਜ਼ਿਆਦਾਤਰ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ, ਸਮੁੱਚੀ ਔਸਤ ਜਵਾਬ ਦੀ ਲੰਬਾਈ ਲੰਬੀ ਹੁੰਦੀ ਹੈ ਅਤੇ ਸ਼ੁੱਧਤਾ ਵਧੇਰੇ ਹੁੰਦੀ ਹੈ।

ਦੂਜੇ ਸ਼ਬਦਾਂ ਵਿੱਚ, ਟੈਸਟਿੰਗ ਦੌਰਾਨ ਕੰਪਿਊਟਿੰਗ ਸਰੋਤਾਂ ਨੂੰ ਵਧਾਉਣਾ ਮਦਦ ਕਰਦਾ ਹੈ, ਪਰ ਜਦੋਂ ਮਾਡਲ ‘ਫਸ ਜਾਂਦਾ ਹੈ’ ਤਾਂ ਇਹ ‘ਭਟਕਣ’ ਦੀ ਸੰਭਾਵਨਾ ਵੀ ਰੱਖਦਾ ਹੈ।

ਮਾਡਲ ਦੀਆਂ ਸੀਮਾਵਾਂ ਬਾਰੇ, ਕੁਝ ਚੀਜ਼ਾਂ ਹਨ ਜਿਨ੍ਹਾਂ ‘ਤੇ ਧਿਆਨ ਦੇਣਾ ਚਾਹੀਦਾ ਹੈ:

  • 32k ਤੋਂ ਵੱਧ ਸੰਦਰਭ ਲੰਬਾਈ ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਵਧਾਇਆ ਜਾਂ ਪਰਖਿਆ ਨਹੀਂ ਗਿਆ ਹੈ।
  • ਮਾਡਲ ਸਧਾਰਨ ਸਮੱਸਿਆਵਾਂ ਨਾਲ ਨਜਿੱਠਣ ਵੇਲੇ ‘ਓਵਰਥਿੰਕਿੰਗ’ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਰੱਖਦਾ ਹੈ, ਅਤੇ ਸਵੈ-ਮੁਲਾਂਕਣ ਵਿੱਚ ਬਹੁਤ ਜ਼ਿਆਦਾ ਸ਼ਬਦਮਈ ਜਾਪ ਸਕਦਾ ਹੈ।
  • ਮਲਟੀ-ਟਰਨ ਡਾਇਲਾਗ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਪਰਖਿਆ ਨਹੀਂ ਗਿਆ ਹੈ।

ਬੇਸ਼ੱਕ, ਲੱਭਣ ਲਈ ਹੋਰ ‘ਬਲਾਈਂਡ ਸਪੌਟਸ’ ਹਨ, ਪਰ ਕੁੱਲ ਮਿਲਾ ਕੇ, ਖੋਜ ਟੀਮ ਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ ਉਹ ਸਹੀ ਰਸਤੇ ‘ਤੇ ਹਨ!

ਸਿਖਲਾਈ ਦੇ ਹੈਰਾਨੀ

ਸੂਰੀਆ ਗੁਨਾਸੇਕਰ, ਪ੍ਰਿੰਸੀਪਲ ਰਿਸਰਚ ਮੈਨੇਜਰ, Microsoft ਰਿਸਰਚ ਅਤੇ ‘AGI ਫਿਜ਼ਿਕਸ’ ਟੀਮ ਨਾਲ ਸਬੰਧਤ ਹੈ, ਜੋ ਕਿ Phi ਸੀਰੀਜ਼ ਦੇ ਮਾਡਲਾਂ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਹੈ, ਨੇ ਕੰਮ ਦੇ ਮੂਲ ਸਿਧਾਂਤਾਂ ਨੂੰ ਪੇਸ਼ ਕਰਨ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ।

ਇਸ ਵਾਰ, Microsoft Phi ਟੀਮ ਨੇ ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਪੜਾਅ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ ਅਤੇ Phi-4-reasoning (ਸਿਰਫ਼ SFT ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ) ਅਤੇ Phi-4-reasoning-plus (SFT+ RL ਦੀ ਥੋੜ੍ਹੀ ਜਿਹੀ ਮਾਤਰਾ) ਲਾਂਚ ਕੀਤਾ।

ਦੋਵੇਂ 14B ਮਾਡਲ ਹਨ ਜਿਨ੍ਹਾਂ ਨੇ ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਆਮ ਕੰਮ ਦੇ ਬੈਂਚਮਾਰਕਸ ਵਿੱਚ ਮਜ਼ਬੂਤ ਸਮਰੱਥਾਵਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਹੈ।

ਇਸ ਕੰਮ ਦਾ ਮੂਲ ਪ੍ਰੋਂਪਟ ਚੋਣ ਅਤੇ ਟ੍ਰਾਂਸਫਰੇਬਲ, ਸਵੈ-ਸੁਧਾਰਨ ਵਾਲੇ ਰੀਜ਼ਨਿੰਗ ਹੁਨਰਾਂ ਦੀ ਪ੍ਰਯੋਗਾਤਮਕ ਖੋਜ ਵਿੱਚ ਹੈ।

ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ ਦੋ ਹੈਰਾਨੀਜਨਕ ਖੋਜਾਂ ਹੋਈਆਂ:

ਪਹਿਲੀ, ਜਦੋਂ ਤੱਕ ਕੁਝ ਡੋਮੇਨ-ਸਿਖਲਾਈ ਵਾਲੇ ਲੰਬੇ-ਚੇਨ ਰੀਜ਼ਨਿੰਗ (CoT) ਟ੍ਰੈਜੈਕਟਰੀਜ਼ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, Phi-4 ਸ਼ਡਿਊਲਿੰਗ, ਮੇਜ਼ ਸੋਲਵਿੰਗ (ਵਿਜ਼ੂਅਲ ਇਨਪੁੱਟ ਤੋਂ ਬਿਨਾਂ), IFEva, FlenQA, KITAB (ਲੁੱਕਅੱਪ-ਬੇਸਡ ਸਵਾਲ ਜਵਾਬ) ਅਤੇ ਅੰਦਰੂਨੀ PhiBench ਵਰਗੇ ਕਈ ਕੰਮਾਂ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਦਰਸ਼ਨ ਸੁਧਾਰ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦਾ ਹੈ;

ਦੂਜਾ, ਭਾਵੇਂ ਸਿਰਫ਼ 6,000 ਗਣਿਤਿਕ ਉਦਾਹਰਣਾਂ ਦੀ ਵਰਤੋਂ ਘੱਟੋ-ਘੱਟ RL ਸਿਖਲਾਈ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਮਾਡਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਕੁਝ ਬੈਂਚਮਾਰਕਸ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਹੁੰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਸਭ ਤੋਂ ਵੱਧ ਸੁਧਾਰ 10% ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ (ਪਰ ਟੋਕਨ ਦੀ ਵਰਤੋਂ ਲਗਭਗ 1.5 ਗੁਣਾ ਵਧ ਗਈ ਹੈ), ਅਤੇ RL ਪੜਾਅ ਦੌਰਾਨ ਹੁਨਰਾਂ ਦਾ ਕਰਾਸ-ਡੋਮੇਨ ਟ੍ਰਾਂਸਫਰ ਵੀ ਦੇਖਿਆ ਗਿਆ।

ਦੂਜੇ ਸ਼ਬਦਾਂ ਵਿੱਚ, OpenAI ਅਤੇ Google ਵਰਗੇ ਵੱਡੇ ਮੁਕਾਬਲੇਬਾਜ਼ਾਂ ਦੇ ਮੁਕਾਬਲੇ, Microsoft Phi-4 ਰੀਜ਼ਨਿੰਗ ਸੀਰੀਜ਼ ਨਵੀਆਂ ਸੰਭਾਵਨਾਵਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੀ ਹੈ: ਛੋਟੇ ਮਾਡਲ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਡਾਟਾ ਅਤੇ ਰਿਫਾਈਨਡ ਸਿਖਲਾਈ ਰਣਨੀਤੀਆਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਖਾਸ ਕੰਮਾਂ ਵਿੱਚ ਵੱਡੇ ਮਾਡਲਾਂ ਨਾਲ ਮੇਲ ਖਾਂ ਸਕਦੇ ਹਨ ਜਾਂ ਉਨ੍ਹਾਂ ਨੂੰ ਵੀ ਪਛਾੜ ਸਕਦੇ ਹਨ

ਕੋਰ ਵਿਧੀਆਂ

ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ Phi-4-reasoning ਵਿੱਚ 14 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਹਨ ਅਤੇ ਇਹ ਗੁੰਝਲਦਾਰ ਰੀਜ਼ਨਿੰਗ ਕੰਮਾਂ ਵਿੱਚ ਮਜ਼ਬੂਤੀ ਨਾਲ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।

ਇਹ ਮਾਡਲ Phi-4 ‘ਤੇ ਅਧਾਰਤ ਹੈ ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਸਿਖਲਾਈ ਲਈ, ‘ਸਿਖਾਉਣ ਯੋਗ’ ਪ੍ਰੋਂਪਟਸ ਦੇ ਇੱਕ ਧਿਆਨ ਨਾਲ ਚੁਣੇ ਗਏ ਸੈੱਟ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਜਿਸ ਵਿੱਚ ਉਚਿਤ ਗੁੰਝਲਤਾ ਅਤੇ ਵਿਭਿੰਨਤਾ ਦੋਵੇਂ ਹਨ; o3-mini ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੀਆਂ ਰੀਜ਼ਨਿੰਗ ਉਦਾਹਰਣਾਂ ਦੀ ਵਰਤੋਂ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ ਹਵਾਲਿਆਂ ਵਜੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।

Phi-4-reasoning ਵਿਸਤ੍ਰਿਤ ਰੀਜ਼ਨਿੰਗ ਚੇਨਾਂ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਰੀਜ਼ਨਿੰਗ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ ਕੰਪਿਊਟਿੰਗ ਸਰੋਤਾਂ ਦੀ ਪੂਰੀ ਤਰ੍ਹਾਂ ਵਰਤੋਂ ਕਰ ਸਕਦਾ ਹੈ।

ਇਸ ਅਧਾਰ ‘ਤੇ, Microsoft ਨੇ ਅੱਗੇ Phi-4-reasoning-plus ਵਿਕਸਤ ਕੀਤਾ।

ਇਸਨੂੰ ਮੂਲ ਮਾਡਲ ਦੇ ਅਧਾਰ ‘ਤੇ ਨਤੀਜਾ-ਅਧਾਰਤ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੇ ਇੱਕ ਛੋਟੇ ਪੜਾਅ ਦੁਆਰਾ ਵਧਾਇਆ ਗਿਆ ਹੈ, ਅਤੇ ਇਹ ਲੰਬੀਆਂ ਅਤੇ ਵਧੇਰੇ ਸ਼ਕਤੀਸ਼ਾਲੀ ਰੀਜ਼ਨਿੰਗ ਚੇਨਾਂ ਤਿਆਰ ਕਰਦਾ ਹੈ।

ਖੋਜ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਇੱਕ ਚੰਗੀ ਤਰ੍ਹਾਂ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਗਿਆ SFT ਡੇਟਾਸੈੱਟ ਰੀਜ਼ਨਿੰਗ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੇ ਪ੍ਰਭਾਵ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਢੰਗ ਨਾਲ ਸੁਧਾਰ ਸਕਦਾ ਹੈ, ਅਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RL) ਇਸ ਅਧਾਰ ‘ਤੇ ਇਸ ਸੁਧਾਰ ਨੂੰ ਹੋਰ ਵਧਾ ਸਕਦਾ ਹੈ।

SFT ਪ੍ਰਯੋਗਾਂ ਵਿੱਚ, ਇਸ ਮੁਕਾਬਲਤਨ ਸਧਾਰਨ ਜਨਰੇਸ਼ਨ ਸੈਟਿੰਗ ਵਿੱਚ ਵੀ, ਬੀਜ ਸਮੱਸਿਆਵਾਂ ਦੀ ਧਿਆਨ ਨਾਲ ਚੋਣ ਅਤੇ ਸਖ਼ਤ ਫਿਲਟਰਿੰਗ ਅਜੇ ਵੀ ਮਾਡਲ ਦੀ ਸਫਲਤਾ ਦੀ ਕੁੰਜੀ ਹੈ।

ਉਹਨਾਂ ਨੇ ਸਾਰੇ ਸਿਖਲਾਈ ਡਾਟਾ ਸੈੱਟ ਨੂੰ ਇੱਕ ਸਖ਼ਤ ਡੀ-ਪੋਲਿਊਸ਼ਨ ਪ੍ਰਕਿਰਿਆ ਦੇ ਅਧੀਨ ਕੀਤਾ ਹੈ ਤਾਂ ਜੋ ਇਹ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ ਕਿ ਇਸ ਵਿੱਚ ਅਜਿਹਾ ਡਾਟਾ ਨਹੀਂ ਹੈ ਜੋ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਵਰਤੇ ਜਾਂਦੇ ਰੀਜ਼ਨਿੰਗ ਜਾਂ ਆਮ ਬੈਂਚਮਾਰਕ ਸਵਾਲਾਂ ਨਾਲ ਬਹੁਤ ਜ਼ਿਆਦਾ ਓਵਰਲੈਪ ਹੁੰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਕੁਝ ਬੈਂਚਮਾਰਕਸ ਸ਼ਾਮਲ ਹਨ ਜਿਨ੍ਹਾਂ ਦਾ ਇਸ ਰਿਪੋਰਟ ਵਿੱਚ ਜ਼ਿਕਰ ਨਹੀਂ ਕੀਤਾ ਗਿਆ ਹੈ।

ਬੈਂਚਮਾਰਕ ਟੈਸਟਾਂ ਦੀ ਪੂਰੀ ਸੂਚੀ ਜਿਨ੍ਹਾਂ ਨੂੰ ਡੀਕੰਟੈਮੀਨੇਟ ਕੀਤਾ ਗਿਆ ਹੈ, ਹੇਠਾਂ ਦਿੱਤੀ ਗਈ ਹੈ:

  • ਗਣਿਤ ਅਤੇ ਰੀਜ਼ਨਿੰਗ: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
  • ਪ੍ਰੋਗਰਾਮਿੰਗ: LiveCodeBench, Codeforces, HumanEval, MBPP
  • ਸਵਾਲ ਜਵਾਬ ਅਤੇ ਆਮ ਗਿਆਨ: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
  • ਹੋਰ ਮੁਲਾਂਕਣ ਕੰਮ: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench

14 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਵਾਲੇ Phi-4 ਮਾਡਲ ਦੀ ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨਟਿਊਨਿੰਗ (SFT) ਦੁਆਰਾ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ Phi-4-reasoning ਪ੍ਰਾਪਤ ਕੀਤੀ, ਇਸ ਤੋਂ ਪਹਿਲਾਂ ਕੋਈ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਨਹੀਂ ਸੀ।

SFT ਦਾ ਟੀਚਾ ਮੂਲ ਮਾਡਲ ਵਿੱਚ ਸ਼ਾਮਲ ਢਾਂਚਾਗਤ ਰੀਜ਼ਨਿੰਗ ਸਮਰੱਥਾ ਨੂੰ ਸੁਧਾਰਨਾ ਹੈ।

Phi-4-reasoning ਦਾ ਆਰਕੀਟੈਕਚਰ Phi-4 ਮਾਡਲ ਵਾਂਗ ਹੀ ਹੈ, ਪਰ ਦੋ ਮੁੱਖ ਸੋਧਾਂ ਦੇ ਨਾਲ:

  • ਰੀਜ਼ਨਿੰਗ ਟੋਕਨ: ਮੂਲ ਮਾਡਲ ਵਿੱਚ ਦੋ ਪਲੇਸਹੋਲਡਰ ਟੋਕਨਾਂ ਨੂੰ ਅਤੇ ਟੋਕਨਾਂ ਵਜੋਂ ਮੁੜ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ, ਜੋ ਇੱਕ ਰੀਜ਼ਨਿੰਗ (‘ਸੋਚਣ’) ਪ੍ਰਕਿਰਿਆ ਦੀ ਸ਼ੁਰੂਆਤ ਅਤੇ ਅੰਤ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਵਰਤੇ ਜਾਂਦੇ ਹਨ।
  • ਵਧੀ ਹੋਈ ਟੋਕਨ ਲੰਬਾਈ: ਮੂਲ ਮਾਡਲ (Phi-4) ਦੁਆਰਾ ਸ਼ੁਰੂ ਵਿੱਚ ਸਮਰਥਿਤ ਅਧਿਕਤਮ ਟੋਕਨ ਲੰਬਾਈ 16K ਸੀ। ਵਾਧੂ ਰੀਜ਼ਨਿੰਗ ਟੋਕਨਾਂ ਨੂੰ ਅਨੁਕੂਲ ਕਰਨ ਲਈ, RoPE ਦੀ ਬੇਸ ਬਾਰੰਬਾਰਤਾ ਨੂੰ ਦੁੱਗਣਾ ਕੀਤਾ ਗਿਆ, ਅਤੇ ਮਾਡਲ ਨੂੰ 32K ਦੀ ਅਧਿਕਤਮ ਟੋਕਨ ਲੰਬਾਈ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ।

ਉਹਨਾਂ ਨੇ ਵਿਚਾਰਾਂ ਦੀ ਚੇਨ ਰੀਜ਼ਨਿੰਗ ਉਦਾਹਰਣਾਂ ਦੀ ਇੱਕ ਵੱਡੀ ਗਿਣਤੀ ਤਿਆਰ ਕਰਨ ਲਈ ਇੱਕ ਸਿੰਥੈਟਿਕ ਵਿਧੀ ਦੀ ਵਰਤੋਂ ਕੀਤੀ।

ਵਰਤੇ ਗਏ SFT ਡੇਟਾਸੈੱਟ ਵਿੱਚ 1.4 ਮਿਲੀਅਨ ਤੋਂ ਵੱਧ ਪ੍ਰੋਂਪਟ-ਜਵਾਬ ਜੋੜੇ ਹਨ, ਜੋ ਕਿ 8.3 ਬਿਲੀਅਨ ਵਿਲੱਖਣ ਟੋਕਨਾਂ ਦੇ ਬਰਾਬਰ ਹਨ, ਜਿਸ ਵਿੱਚ ਗਣਿਤ ਅਤੇ ਪ੍ਰੋਗਰਾਮਿੰਗ ਵਰਗੇ ਰੀਜ਼ਨਿੰਗ ਖੇਤਰਾਂ ਦੇ ਨਾਲ-ਨਾਲ ਸੁਰੱਖਿਅਤ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰ AI ਲਈ ਅਲਾਈਨਮੈਂਟ ਡਾਟਾ ਸ਼ਾਮਲ ਹੈ।

ਚਿੱਤਰ 4a SFT ਦੁਹਰਾਓ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ ਮੁੱਖ ਸੰਕੇਤਕਾਂ ਵਿੱਚ ਤਬਦੀਲੀਆਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

ਸਿਖਲਾਈ ਦੇ ਸ਼ੁਰੂ ਵਿੱਚ, ਮਾਡਲ ਨੇ ਸਪੱਸ਼ਟ ‘ਸੋਚਣ’ ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨੀ ਸ਼ੁਰੂ ਕਰ ਦਿੱਤੀ, ਜੋ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਮਾਡਲ ਨੇ ਇਸ ਛਾਲੇ ਢਾਂਚਾਗਤ ਫਾਰਮੈਟ ਨੂੰ ਜਲਦੀ ਸਿੱਖ ਲਿਆ।

ਹਾਲਾਂਕਿ, ਜਿਵੇਂ ਕਿ ਚਿੱਤਰ 4a ਵਿੱਚ ਦਿਖਾਇਆ ਗਿਆ ਹੈ, ਵਿਚਾਰਾਂ ਦੀ ਚੇਨ ਮੋਡੀਊਲ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਅਤੇ ਮਾਡਲ ਦੀ ਰੀਜ਼ਨਿੰਗ ਸਮਰੱਥਾ ਪੂਰੀ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ ਸੁਧਾਰ ਕਰ ਰਹੀ ਹੈ, ਜੋ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਮਾਡਲ ਸਿਰਫ਼ ਫਾਰਮੈਟ ਦੀ ਨਕਲ ਨਹੀਂ ਕਰ ਰਿਹਾ ਹੈ, ਬਲਕਿ ਅਸਲ ਵਿੱਚ ਰੀਜ਼ਨਿੰਗ ਹੁਨਰ ਸਿੱਖ ਰਿਹਾ ਹੈ।

ਦਿਲਚਸਪ ਗੱਲ ਇਹ ਹੈ ਕਿ, ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੇ ਉਲਟ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ SFT ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ ਜਵਾਬ ਦੀ ਲੰਬਾਈ ਵਿੱਚ ਵਾਧਾ ਨਹੀਂ ਦੇਖਿਆ।

ਦਰਅਸਲ, ਜਿਵੇਂ ਕਿ ਚਿੱਤਰ 4b ਵਿੱਚ ਦਿਖਾਇਆ ਗਿਆ ਹੈ, ਔਸਤ ਜਵਾਬ ਦੀ ਲੰਬਾਈ ਥੋੜ੍ਹੀ ਜਿਹੀ ਘੱਟ ਗਈ।

ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਜਿਵੇਂ-ਜਿਵੇਂ ਸਿਖਲਾਈ ਅੱਗੇ ਵਧਦੀ ਹੈ, ਮਾਡਲ ਆਪਣੇ ਟੋਕਨ ਬਜਟ ਨੂੰ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਵਰਤਣਾ ਸਿੱਖ ਰਿਹਾ ਹੈ।

ਵੱਖ-ਵੱਖ ਸਿਖਲਾਈ ਰਣਨੀਤੀਆਂ ਦਾ ਯੋਜਨਾਬੱਧ ਢੰਗ ਨਾਲ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ, ਉਹਨਾਂ ਨੇ ਇੱਕ ਸਥਿਰ ਬੈਂਚਮਾਰਕ - AIME 2024 ਅਤੇ GPQA ਡਾਇਮੰਡ - ਨੂੰ ਤਰੱਕੀ ਦੇ ਸੰਕੇਤ ਵਜੋਂ ਵਰਤਿਆ।

ਕੁੱਲ ਮਿਲਾ ਕੇ, ਪ੍ਰਯੋਗਾਤਮਕ ਵਿਧੀ ਨੂੰ ਦੋ ਪੜਾਵਾਂ ਵਿੱਚ ਵੰਡਿਆ ਜਾ ਸਕਦਾ ਹੈ: ਖੋਜ ਅਤੇ ਸਕੇਲਿੰਗ।

ਖੋਜ ਪੜਾਅ ਵਿੱਚ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਛੋਟੇ ਸਿਖਲਾਈ ਚੱਕਰਾਂ ਅਤੇ ਸੀਮਤ ਡਾਟਾ ਸਰੋਤਾਂ ਅਤੇ ਖੇਤਰਾਂ ਦੀ ਵਰਤੋਂ ਤੇਜ਼ੀ ਨਾਲ ਦੁਹਰਾਉਣ ਅਤੇ ਮਜ਼ਬੂਤ ਸਿਖਲਾਈ ਵਿਧੀਆਂ ਨੂੰ ਕੱਢਣ ਲਈ ਕੀਤੀ।

ਬਾਅਦ ਦੇ ਵਿਸਤਾਰ ਪੜਾਅ ਵਿੱਚ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਸ਼ੁਰੂਆਤੀ ਜੋਖਮ ਘਟਾਉਣ ਦੇ ਪ੍ਰਯੋਗਾਂ ਦੇ ਨਤੀਜਿਆਂ ਦਾ ਸਾਰ ਦਿੱਤਾ ਅਤੇ SFT ਸੈਟਿੰਗਾਂ ਨੂੰ ਅੰਤਿਮ ਰੂਪ ਦਿੱਤਾ।

ਚਿੱਤਰ 5 ਇਸ ਤਰੱਕੀ ਦਾ ਸਾਰ ਦਿੰਦਾ ਹੈ, ਕਈ ਮੁੱਖ ਡਿਜ਼ਾਈਨ ਵਿਕਲਪਾਂ ਲਈ ਐਬਲੇਸ਼ਨ ਪ੍ਰਯੋਗਾਂ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ।

ਚਿੱਤਰ 5 Phi-4-reasoning ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ (SFT) ਪ੍ਰਯੋਗਾਤਮਕ ਚੱਕਰ ਦੀ ਇੱਕ ਉੱਚ-ਪੱਧਰੀ ਸੰਖੇਪ ਜਾਣਕਾਰੀ ਦਿਖਾਉਂਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਖੋਜ ਅਤੇ ਵਿਸਤਾਰ ਪੜਾਅ ਸ਼ਾਮਲ ਹਨ, ਕੁਝ ਉਦਾਹਰਣ ਪ੍ਰਯੋਗਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਦਰਸਾਇਆ ਗਿਆ ਹੈ। ਹਰੇਕ ਡਾਟ ਕਲੱਸਟਰ ਇੱਕ ਖਾਸ ਸਿਖਲਾਈ ਡਿਜ਼ਾਈਨ ਵਿਕਲਪ ਦੇ ਪ੍ਰਯੋਗਾਤਮਕ ਨਤੀਜਿਆਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

ਚਿੱਤਰ 7 GRPO ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ Phi-4-reasoning-plus ਮਾਡਲ ਦੀਆਂ ਮੁੱਖ ਖੋਜਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ (SFT) ਬੇਸ ਮਾਡਲ Phi-4-reasoning ਤੋਂ ਸ਼ੁਰੂ ਕਰਦੇ ਹੋਏ, ਸਿਰਫ਼ 90 ਕਦਮਾਂ ਦੀ GRPO ਸਿਖਲਾਈ ਨੇ AIME ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ 10% ਤੋਂ ਵੱਧ ਵਧਾ ਦਿੱਤਾ (ਚਿੱਤਰ 7a)।

ਸਿਖਲਾਈ ਕਦਮਾਂ ਦੀ ਗਿਣਤੀ ਨੂੰ ਵਧਾਉਣਾ ਜਾਰੀ ਰੱਖਣ ਨਾਲ ਕੋਈ ਵਾਧੂ ਲਾਭ ਨਹੀਂ ਹੋਇਆ, ਜੋ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਇੱਕ ਮਜ਼ਬੂਤ SFT ਮਾਡਲ ਦੀ ਸੰਭਾਵਨਾ ਪ੍ਰਦਰਸ਼ਨ ਸੀਮਾ ਦੇ ਨੇੜੇ ਹੈ। ਇਹ ਨੋਟ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ GRPO ਸਿਖਲਾਈ ਵਿੱਚ ਆਉਟਪੁੱਟ 31k ਟੋਕਨਾਂ ਦੇ ਅੰਦਰ ਸੀਮਤ ਹੈ, ਜੋ GRPO ਦੇ ਅਨੁਕੂਲਨ ਸਪੇਸ ਨੂੰ ਵਸਤੂਗਤ ਰੂਪ ਵਿੱਚ ਸੀਮਤ ਕਰਦੀ ਹੈ।

ਜਿਵੇਂ ਕਿ ਚਿੱਤਰ 7c ਵਿੱਚ ਦਿਖਾਇਆ ਗਿਆ ਹੈ, ਜਵਾਬ ਦੀ ਲੰਬਾਈ AIME ਪ੍ਰਦਰਸ਼ਨ ਨਾਲ ਮਜ਼ਬੂਤੀ ਨਾਲ ਸਬੰਧਤ ਹੈ, ਜਦੋਂ ਕਿ ਇਨਾਮ ਸਕੋਰ ਅਤੇ AIME ਸਕੋਰ ਵਿਚਕਾਰ ਸਬੰਧ ਕਮਜ਼ੋਰ ਹੈ। ਇਹ ਜਵਾਬ ਲੰਬਾਈ ਵਿਕਾਸ ਪ੍ਰਭਾਵ GRPO ਸਿਖਲਾਈ ਦਾ ਉਮੀਦ ਪ੍ਰਭਾਵ ਹੈ - ਮਾਡਲ ‘ਸੋਚਣ ਦੇ ਸਮੇਂ’ ਨੂੰ ਵਧਾ ਕੇ ਆਪਣੀ ਰੀਜ਼ਨਿੰਗ ਸਮਰੱਥਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦਾ ਹੈ।

ਚਿੱਤਰ 7d ਅੱਗੇ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਇਨਾਮ ਮਾਡਲ ਦੇ ਡਿਜ਼ਾਈਨ ਦੇ ਕਾਰਨ, ਗਲਤ ਜਵਾਬਾਂ ਦੀ ਜਨਰੇਸ਼ਨ ਲੰਬਾਈ ਸਹੀ ਜਵਾਬਾਂ ਨਾਲੋਂ ਮਹੱਤਵਪੂਰਨ ਢੰਗ ਨਾਲ ਤੇਜ਼ੀ ਨਾਲ ਵਧਦੀ ਹੈ (ਜਦੋਂ ਮਾਡਲ ਦਾ ਮੌਜੂਦਾ ਜਵਾਬ ਗਲਤ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਸਿਸਟਮ ਇਸਨੂੰ ਲੰਬੇ ਸਮੇਂ ਤੱਕ ਸੋਚਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕਰੇਗਾ)।

ਦਰਅਸਲ, ਸਿਰਫ਼ ਜਵਾਬ ਦੀ ਲੰਬਾਈ (ਖਾਸ ਕਰਕੇ ਲੰਬੇ ਜਵਾਬ ਜੋ ਮੱਧਮਾਨ ਤੋਂ ਵੱਧ ਜਾਂਦੇ ਹਨ) ਦੇ ਆਧਾਰ ‘ਤੇ ਰੱਦ ਕਰਨ ਵਾਲੇ ਸੈਂਪਲਿੰਗ ਕਰਨਾ GRPO ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਹੋਰ ਸੁਧਾਰ ਸਕਦਾ ਹੈ।

ਜਿਵੇਂ ਕਿ ਚਿੱਤਰ 7d ਵਿੱਚ ਦਿਖਾਇਆ ਗਿਆ ਹੈ, ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ ਛੋਟੇ ਜਵਾਬਾਂ (ਲੰਬਾਈ ਹੇਠਲੇ 25% ਕੁਆਂਟਾਈਲ ਵਿੱਚ ਸਥਿਤ ਹੈ) ਦਾ ਵਿਕਾਸ ਰੁਝਾਨ ਸਹੀ ਜਵਾਬਾਂ ਦੀ ਔਸਤ ਲੰਬਾਈ ਦੇ ਸਮਾਨ ਹੈ, ਜਦੋਂ ਕਿ ਗਲਤ ਜਵਾਬਾਂ ਦੀ ਲੰਬਾਈ ਸਮੁੱਚੀ ਜਵਾਬ ਲੰਬਾਈ ਦੇ 75% ਕੁਆਂਟਾਈਲ ਦੇ ਨੇੜੇ ਹੈ।

ਇਹ ਵਿਭਿੰਨਤਾ ਘਟਨਾ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਲੰਬਾਈ-ਅਧਾਰਤ ਰੱਦ ਕਰਨ ਵਾਲੇ ਸੈਂਪਲਿੰਗ ਵਾਧੂ ਲੰਬੇ ਗਲਤ ਆਉਟਪੁੱਟਾਂ ਨੂੰ ਦਬਾ ਕੇ ਮਾਡਲ ਦੀ ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰ ਸਕਦਾ ਹੈ।