ਮਾਈਕਰੋਸਾਫਟ ਦਾ ਫਾਈ-4: ਤਰਕ ਦੀ ਜਿੱਤ ਜਾਰੀ

ਮਾਈਕਰੋਸਾਫਟ ਦਾ ਓਪਨ-ਸੋਰਸ AI ਮਾਡਲਾਂ ਦੇ ਖੇਤਰ ਵਿੱਚ ਦਾਖਲਾ, ਖਾਸ ਕਰਕੇ ਫਾਈ ਪਰਿਵਾਰ, ਖਿੱਚ ਪ੍ਰਾਪਤ ਕਰ ਰਿਹਾ ਹੈ, ਹਾਲਾਂਕਿ ਓਪਨਏਆਈ ਵਿੱਚ ਉਨ੍ਹਾਂ ਦੇ ਨਿਵੇਸ਼ ਵਾਂਗ ਵਿਆਪਕ ਮਾਨਤਾ ਨਹੀਂ ਹੈ। ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਵਿੱਚੋਂ, ਫਾਈ-4 ਤਰਕ ਪਲੱਸ ਵੱਖਰਾ ਹੈ, ਜੋ ਕਿ ਬੈਂਚਮਾਰਕ ਟੈਸਟਾਂ ‘ਤੇ ਸ਼ਾਨਦਾਰ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰਨ ਵਿੱਚ ਮਜ਼ਬੂਤੀ ਸਿੱਖਣ (RL) ਦੀ ਸ਼ਕਤੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

ਫਾਈ ਸੀਰੀਜ਼ ਨੂੰ ਸਰੋਤ-ਕੁਸ਼ਲ ਬਣਾਉਣ ਲਈ ਇੰਜੀਨੀਅਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਜੋ ਕਿ ਘੱਟ ਕੰਪਿਊਟੇਸ਼ਨਲ ਪਾਵਰ ਅਤੇ ਸਟੋਰੇਜ ਸਪੇਸ ਦੀ ਖਪਤ ਕਰਦਾ ਹੈ। ਸਾਵਧਾਨੀਪੂਰਵਕ ਖੋਜ ਅਤੇ ਅਨੁਕੂਲਤਾ ਤਕਨੀਕਾਂ ਦੁਆਰਾ, ਇਹ ਮਾਡਲ ਲਗਾਤਾਰ ਉਮੀਦਾਂ ਤੋਂ ਵੱਧ ਗਏ ਹਨ, ਆਪਣੀ ਭਾਰ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਵੱਡੇ ਮਾਡਲਾਂ ਨੂੰ ਚੁਣੌਤੀ ਦਿੰਦੇ ਹੋਏ ਮੁਕਾਬਲੇਬਾਜ਼ਾਂ ਨੂੰ ਪਛਾੜਦੇ ਹਨ।

ਫਾਈ-4 ਤਰਕ ਮਾਡਲ, 14 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਨਾਲ ਭਰਿਆ ਹੋਇਆ ਹੈ, ਨੂੰ ਬੇਸ ਫਾਈ-4 ਮਾਡਲ ‘ਤੇ ਇੱਕ ਨਿਗਰਾਨੀ ਕੀਤੇ ਫਾਈਨ-ਟਿਊਨਿੰਗ (SFT) ਐਲਗੋਰਿਦਮ ਲਾਗੂ ਕਰਕੇ ਬਣਾਇਆ ਗਿਆ ਸੀ। ਇਸ ‘ਤੇ ਬਣਾਉਂਦੇ ਹੋਏ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਫਾਈ-4 ਤਰਕ ਫਾਊਂਡੇਸ਼ਨ ‘ਤੇ ਮਜ਼ਬੂਤੀ ਸਿੱਖਣ (RL) ਦਾ ਲਾਭ ਉਠਾਉਂਦੇ ਹੋਏ, ਹੋਰ ਫਾਈ-4 ਤਰਕ ਪਲੱਸ ਮਾਡਲ ਵਿਕਸਿਤ ਕੀਤਾ।

ਜ਼ਿਕਰਯੋਗ ਹੈ ਕਿ, ਫਾਈ-4 ਤਰਕ ਅਤੇ ਫਾਈ-4 ਤਰਕ ਪਲੱਸ ਮਾਡਲ ਦੋਵਾਂ ਨੇ ਡੀਪਸੀਕ ਆਰ1 ਵਰਗੇ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵੱਡੇ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਇਆ ਹੈ, ਜਿਸ ਵਿੱਚ 70 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਹਨ। ਇਹ ਪ੍ਰਾਪਤੀ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਕੋਡਿੰਗ, ਗਣਿਤਿਕ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨ, ਅਤੇ ਗ੍ਰੈਜੂਏਟ ਪੱਧਰ ‘ਤੇ ਉੱਨਤ ਵਿਗਿਆਨਕ ਕਾਰਜਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੇ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ ਸਪੱਸ਼ਟ ਹੈ। ਮਾਡਲਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਇੱਥੋਂ ਤੱਕ ਕਿ ਪੂਰੇ ਪੈਮਾਨੇ ਦੇ 671 ਬਿਲੀਅਨ-ਪੈਰਾਮੀਟਰ ਡੀਪਸੀਕ ਆਰ1 ਮਾਡਲ ਦੇ ਨੇੜੇ ਪਹੁੰਚਦਾ ਹੈ।

ਮਾਈਕਰੋਸਾਫਟ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮਾਡਲ ਦੀ ਸਫਲਤਾ ਦਾ ਮੁੱਖ ਕਾਰਨ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਸਿਖਲਾਈ ਡੇਟਾਸੈਟਾਂ ਦੀ ਵਰਤੋਂ ਨੂੰ ਦੱਸਿਆ ਹੈ, ਇੱਕ ਰਣਨੀਤੀ ਜਿਸ ‘ਤੇ ਕੰਪਨੀ ਨੇ ਆਪਣੇ ਪਿਛਲੇ ਮਾਡਲਾਂ ਨਾਲ ਲਗਾਤਾਰ ਭਰੋਸਾ ਕੀਤਾ ਹੈ। ਇਹਨਾਂ ਡੇਟਾਸੈਟਾਂ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਕੋਡਿੰਗ ਅਤੇ STEM (ਵਿਗਿਆਨ, ਤਕਨਾਲੋਜੀ, ਇੰਜੀਨੀਅਰਿੰਗ ਅਤੇ ਗਣਿਤ) ਵਿਸ਼ਿਆਂ ਵਿੱਚ ਫੈਲੇ 1.4 ਮਿਲੀਅਨ ਤੋਂ ਵੱਧ ਧਿਆਨ ਨਾਲ ਤਿਆਰ ਕੀਤੇ ਪ੍ਰੋਂਪਟ ਸ਼ਾਮਲ ਹਨ। ਹਰੇਕ ਪ੍ਰੋਂਪਟ ਦੇ ਨਾਲ ਸਾਵਧਾਨੀਪੂਰਵਕ ਤਿਆਰ ਕੀਤੇ ਜਵਾਬ ਹਨ, ਜਿਸ ਵਿੱਚ ਓਪਨਏਆਈ ਦੇ ਓ3-ਮਿਨੀ ਮਾਡਲ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਵਿਸਤ੍ਰਿਤ ਤਰਕ ਟਰੇਸ ਸ਼ਾਮਲ ਹਨ।

ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਰਣਨੀਤਕ ਤੌਰ ‘ਤੇ ਉਹਨਾਂ ਪ੍ਰੋਂਪਟਾਂ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਇਆ ਜਿਨ੍ਹਾਂ ਨੇ ਬੇਸ ਫਾਈ-4 ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾਇਆ। ਇਸ ਵਿੱਚ ਸਿਰਫ਼ ਉਹਨਾਂ ਪ੍ਰੋਂਪਟਾਂ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਣ ਲਈ ਸਿਖਲਾਈ ਡੇਟਾਸੈਟਾਂ ਨੂੰ ਫਿਲਟਰ ਕਰਨਾ ਸ਼ਾਮਲ ਸੀ ਜਿਨ੍ਹਾਂ ਨੇ ਸੁਧਾਰ ਲਈ ਮਹੱਤਵਪੂਰਨ ਮੌਕੇ ਪ੍ਰਦਾਨ ਕੀਤੇ।

RL ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਦੇ ਪਿੱਛੇ ਤਰਕ

ਫਾਈ-4 ਤਰਕ ਪਲੱਸ ਦੇ ਵਿਕਾਸ ਵਿੱਚ ਇੱਕ ਦੋ-ਪੜਾਵੀ ਪ੍ਰਕਿਰਿਆ ਸ਼ਾਮਲ ਸੀ: ਪਹਿਲਾਂ, ਬੇਸ ਫਾਈ-4 ਮਾਡਲ ਦੀ ਨਿਗਰਾਨੀ ਕੀਤੇ ਫਾਈਨ-ਟਿਊਨਿੰਗ (SFT) ਰਾਹੀਂ ਫਾਈ-4 ਤਰਕ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨਾ, ਇਸ ਤੋਂ ਬਾਅਦ ਇੱਕ ਮਜ਼ਬੂਤੀ ਸਿੱਖਣ (RL) ਪੜਾਅ। ਫਾਈ-4 ਤਰਕ ਪਲੱਸ ਦੇ RL ਭਾਗਾਂ ਬਾਰੇ ਡੂੰਘਾਈ ਨਾਲ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ, ਮਾਈਕਰੋਸਾਫਟ ਦੇ ਇੱਕ ਖੋਜਕਰਤਾ, ਹਰਕੀਰਤ ਬਹਿਲ ਨਾਲ ਸਿੱਧਾ ਸੰਚਾਰ ਜ਼ਰੂਰੀ ਸੀ, ਜਿਸ ਨੇ ਪ੍ਰੋਜੈਕਟ ਦੇ ਇਸ ਪਹਿਲੂ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਭੂਮਿਕਾ ਨਿਭਾਈ।

ਮਜ਼ਬੂਤੀ ਸਿੱਖਣਾ (RL) ਇੱਕ ਵਿਲੱਖਣ ਸਿਖਲਾਈ ਵਿਧੀ ਹੈ ਜਿੱਥੇ ਇੱਕ AI ਸਿਸਟਮ ਪ੍ਰਯੋਗ ਦੁਆਰਾ ਸਿੱਖਦਾ ਹੈ। AI ਕਾਰਵਾਈਆਂ ਕਰਦਾ ਹੈ, ਇਨਾਮਾਂ ਜਾਂ ਜੁਰਮਾਨਿਆਂ ਦੇ ਰੂਪ ਵਿੱਚ ਫੀਡਬੈਕ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਅਤੇ ਲੰਬੇ ਸਮੇਂ ਦੇ ਲੋੜੀਂਦੇ ਨਤੀਜਿਆਂ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਨ ਲਈ ਆਪਣੀ ਫੈਸਲਾ ਲੈਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਲਗਾਤਾਰ ਸੁਧਾਰਦਾ ਹੈ। ਇਹ ਪਹੁੰਚ ਉਹਨਾਂ ਕਾਰਜਾਂ ਲਈ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਲਾਭਦਾਇਕ ਹੈ ਜਿਨ੍ਹਾਂ ਲਈ AI ਮਾਡਲ ਨੂੰ "ਤਰਕ" ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਇੱਕ ਸਖ਼ਤ, ਪਹਿਲਾਂ ਤੋਂ ਨਿਰਧਾਰਤ ਪ੍ਰਕਿਰਿਆ ਦੀ ਪਾਲਣਾ ਕਰਨ ਦੀ ਬਜਾਏ ਲੋੜੀਂਦੇ ਨਤੀਜੇ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦਾ ਹੈ।

ਰਵਾਇਤੀ ਮਾਡਲਾਂ ਦੇ ਉਲਟ ਜੋ ਸਿਰਫ਼ ਅਗਲੇ ਸ਼ਬਦ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹਨ ਅਤੇ ਹਰੇਕ ਗਲਤੀ ਲਈ ਮਾਡਲ ਨੂੰ ਸਜ਼ਾ ਦਿੰਦੇ ਹਨ, RL ਇੱਕ ਜਵਾਬ ਕਿਵੇਂ ਪ੍ਰਾਪਤ ਹੁੰਦਾ ਹੈ ਇਸ ਵਿੱਚ ਵਧੇਰੇ ਲਚਕਤਾ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਇਹ ਲਚਕਤਾ ਮਾਡਲ ਨੂੰ ਕਈ ਸੰਭਾਵੀ ਹੱਲ ਮਾਰਗਾਂ ਨਾਲ ਗੁੰਝਲਦਾਰ ਸਮੱਸਿਆਵਾਂ ਦੀ ਪੜਚੋਲ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ, ਅੰਤ ਵਿੱਚ ਸਹੀ ਸਿੱਟੇ ‘ਤੇ ਪਹੁੰਚਦੀ ਹੈ।

ਬਹਿਲ ਦੇ ਅਨੁਸਾਰ, RL ਮਾਡਲ ਨੂੰ "ਬਹੁਤ ਲੰਬੇ ਜਵਾਬ, ਅਤੇ ਕਈ ਵੱਖਰੇ ਜਵਾਬ" ਪੈਦਾ ਕਰਨ ਦਾ ਅਧਿਕਾਰ ਦਿੰਦਾ ਹੈ, ਜਿਸਦਾ ਮੁੱਖ ਧਿਆਨ ਅੰਤਮ ਨਤੀਜੇ ਦੀ ਸ਼ੁੱਧਤਾ ‘ਤੇ ਹੁੰਦਾ ਹੈ। ਨਤੀਜੇ ‘ਤੇ ਇਹ ਜ਼ੋਰ, ਖਾਸ ਕਦਮਾਂ ਦੀ ਬਜਾਏ, ਇਸ ਗੱਲ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਮਨੁੱਖ ਸਮੱਸਿਆ ਹੱਲ ਕਰਨ ਲਈ ਕਿਵੇਂ ਪਹੁੰਚਦੇ ਹਨ। ਵੱਖ-ਵੱਖ ਵਿਚਾਰ ਪ੍ਰਕਿਰਿਆਵਾਂ ਸਵੀਕਾਰਯੋਗ ਹਨ, ਜਿੰਨਾ ਚਿਰ ਉਹ ਸਹੀ ਜਵਾਬ ਵੱਲ ਲੈ ਜਾਂਦੇ ਹਨ।

ਮਾਈਕਰੋਸਾਫਟ ਦੇ ਮਾਡਲਾਂ ਵਿੱਚ, RL ਪੜਾਅ ਜਾਣਬੁੱਝ ਕੇ ਗਣਿਤਿਕ ਤਰਕ ‘ਤੇ ਕੇਂਦਰਿਤ ਸੀ। ਇਨਾਮ ਪ੍ਰਣਾਲੀ ਨੇ ਸ਼ੁੱਧਤਾ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ, ਜਦੋਂ ਕਿ ਉਸੇ ਸਮੇਂ ਦੁਹਰਾਓ, ਬਹੁਤ ਜ਼ਿਆਦਾ ਲੰਬਾਈ, ਅਤੇ ਗਲਤ ਜਵਾਬ ਫਾਰਮੈਟਿੰਗ ਨੂੰ ਵੀ ਸਜ਼ਾ ਦਿੱਤੀ।

ਬਹਿਲ ਨੇ ਅੱਗੇ ਦੱਸਿਆ ਕਿ ਖੋਜਕਰਤਾਵਾਂਨੇ ਮਾਡਲ ਨੂੰ ਇੱਕ ਦਿੱਤੇ ਸਵਾਲ ਲਈ ਕਈ ਜਵਾਬ ਤਿਆਰ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੱਤੀ। ਫਿਰ ਹਰੇਕ ਜਵਾਬ ਨੂੰ ਤਿਆਰ ਕੀਤੇ ਜਵਾਬਾਂ ਦੇ ਸਮੂਹ ਦੇ ਅੰਦਰ ਔਸਤ ਸਕੋਰ ਨਾਲ ਇਸਦੀ ਤੁਲਨਾ ਦੇ ਅਧਾਰ ‘ਤੇ ਅੰਕ ਦਿੱਤੇ ਗਏ ਸਨ।

ਇਹ ਅਨੁਪਾਤਕ ਸਕੋਰ ਇੱਕ ਫੀਡਬੈਕ ਵਿਧੀ ਵਜੋਂ ਕੰਮ ਕਰਦੇ ਹਨ, ਮਾਡਲ ਨੂੰ ਉਹਨਾਂ ਜਵਾਬਾਂ ਦਾ ਪੱਖ ਪੂਰਨ ਲਈ ਮਾਰਗਦਰਸ਼ਨ ਕਰਦੇ ਹਨ ਜੋ ਲਗਾਤਾਰ ਉੱਚ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹਨ। ਸਮੇਂ ਦੇ ਨਾਲ, ਇਹ ਪ੍ਰਕਿਰਿਆ ਮਾਡਲ ਨੂੰ ਉਹਨਾਂ ਦੇ ਜਵਾਬਾਂ ਨੂੰ ਲੋੜੀਂਦੇ ਇਨਾਮ ਸੰਕੇਤ ਦੇ ਨਾਲ ਵਧੇਰੇ ਨੇੜਿਓਂ ਇਕਸਾਰ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਦਿੰਦੀ ਹੈ।

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਦੇਖਿਆ ਕਿ 6,400 ਸਮੱਸਿਆਵਾਂ ਦੇ ਇੱਕ ਸੀਮਤ ਸਮੂਹ ‘ਤੇ RL ਲਾਗੂ ਕਰਨ ਨਾਲ ਵੱਖ-ਵੱਖ ਗਣਿਤ ਅਤੇ ਤਰਕ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਹੋਇਆ ਹੈ।

"ਫਾਈ-1, ਫਾਈ-2, ਫਾਈ-3, ਅਤੇ ਫਾਈ-4 ਬਣਾਉਣ ਤੋਂ ਬਾਅਦ, ਮੇਰੇ ਲਈ ਖੋਜ ਵਿੱਚ ਇੱਕ ਜਾਣਕਾਰੀ ਇਹ ਹੈ ਕਿ RL ਨੂੰ SFT ਸਿਖਲਾਈ ਨਾਲੋਂ ਬਹੁਤ ਘੱਟ ਡਾਟੇ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ," ਬਹਿਲ ਨੇ ਕਿਹਾ।

ਉਸਨੇ ਇਸਦਾ ਕਾਰਨ ਇਸ ਤੱਥ ਨੂੰ ਦੱਸਿਆ ਕਿ RL ਸ਼ੁਰੂ ਤੋਂ ਹੀ ਮਾਡਲ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਵੇਂ ਹੁਨਰ ਪ੍ਰਦਾਨ ਕਰਨ ਬਾਰੇ ਘੱਟ ਹੈ ਅਤੇ ਮਾਡਲ ਨੂੰ ਬਿਹਤਰ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਮੌਜੂਦਾ ਹੁਨਰਾਂ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਜੋੜਨ ਅਤੇ ਲਾਭ ਲੈਣ ਲਈ ਮਾਰਗਦਰਸ਼ਨ ਕਰਨ ਬਾਰੇ ਵਧੇਰੇ ਹੈ।

ਮਾਈਕਰੋਸਾਫਟ ਦੀ ਮਜ਼ਬੂਤੀ ਸਿੱਖਣ ਦੇ ਨਾਲ ਸਫਲਤਾ ਕਈ ਹੋਰ AI ਕੰਪਨੀਆਂ ਦੇ ਤਜ਼ਰਬਿਆਂ ਨਾਲ ਮੇਲ ਖਾਂਦੀ ਹੈ। ਓਪਨਏਆਈ, ਤਰਕ ਮਾਡਲਾਂ ਦੇ ਵਿਕਾਸ ਵਿੱਚ ਇੱਕ ਮੋਢੀ, ਨੇ ਵਾਰ-ਵਾਰ ਆਪਣੇ ਪ੍ਰੋਜੈਕਟਾਂ ‘ਤੇ RL ਦੇ ਅਨੁਕੂਲ ਪ੍ਰਭਾਵ ਨੂੰ ਉਜਾਗਰ ਕੀਤਾ ਹੈ।

ਦਿਲਚਸਪ ਗੱਲ ਇਹ ਹੈ ਕਿ ਡੀਪਸੀਕ ਆਰ1, ਇੱਕ ਚੀਨੀ ਮਾਡਲ ਜਿਸਨੇ ਪਿਛਲੇ ਸਾਲ AI ਲੈਂਡਸਕੇਪ ਨੂੰ ਵਿਗਾੜ ਦਿੱਤਾ ਸੀ, ਨੇ ਵੀ ਆਪਣੀ ਸਫਲਤਾ ਦਾ ਕਾਰਨ RL ਦੀ ਵਰਤੋਂ ਨੂੰ ਦੱਸਿਆ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਓਪਨਏਆਈ ਦੇ ਕਈ ਖੋਜਕਰਤਾਵਾਂ ਅਤੇ ਇੰਜੀਨੀਅਰਾਂ ਨੇ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਆਪਣੀਆਂ ਡੂੰਘੀ ਖੋਜ ਪਹਿਲਕਦਮੀਆਂ ਦੀ ਸਫਲਤਾ ਵਿੱਚ RL ਦੀ ਮਹੱਤਵਪੂਰਨ ਭੂਮਿਕਾ ਨੂੰ ਸਵੀਕਾਰ ਕੀਤਾ ਹੈ।

ਹਾਲ ਹੀ ਵਿੱਚ, ਅਲੀਬਾਬਾ ਦੇ ਕਵੈਨ ਮਾਡਲ ਨੇ ਵੀ ਮਜ਼ਬੂਤੀ ਸਿੱਖਣ ਦਾ ਸਮਰਥਨ ਕੀਤਾ, ਉਹਨਾਂ ਦੇ ਤਰਕ ਮਾਡਲਾਂ ‘ਤੇ ਇਸਦੇ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਭਾਵ ‘ਤੇ ਜ਼ੋਰ ਦਿੱਤਾ। ਇੱਕ ਬਲਾਗ ਪੋਸਟ ਵਿੱਚ, ਕੰਪਨੀ ਨੇ ਕਿਹਾ, "ਸਾਨੂੰ ਵਿਸ਼ਵਾਸ ਹੈ ਕਿ ਵੱਧ ਮਜ਼ਬੂਤ ਫਾਊਂਡੇਸ਼ਨ ਮਾਡਲਾਂ ਨੂੰ ਸਕੇਲਡ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ ਦੁਆਰਾ ਸੰਚਾਲਿਤ RL ਨਾਲ ਜੋੜਨਾ ਸਾਨੂੰ ਨਕਲੀ ਜਨਰਲ ਇੰਟੈਲੀਜੈਂਸ (AGI) ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਦੇ ਨੇੜੇ ਲੈ ਜਾਵੇਗਾ।"

ਹਾਲਾਂਕਿ, ਫਾਈ-4 ਤਰਕ, ਫਾਈ-4 ਤਰਕ ਪਲੱਸ, ਅਤੇ ਕਈ ਹੋਰ ਤਰਕ ਮਾਡਲਾਂ ਦੀਆਂ ਸਫਲਤਾਵਾਂ ਦੇ ਬਾਵਜੂਦ, ਇਹ ਖੇਤਰ ਅਜੇ ਵੀ ਕਈ ਚੁਣੌਤੀਆਂ ਦਾ ਸਾਹਮਣਾ ਕਰ ਰਿਹਾ ਹੈ।

ਸੁਧਾਰ ਲਈ ਚੱਲ ਰਹੀ ਖੋਜ

ਪਿਛਲੇ ਮਹੀਨਿਆਂ ਵਿੱਚ, ਬਹੁਤ ਸਾਰੇ ਖੋਜ ਅਧਿਐਨਾਂ ਨੇ ਤਰਕ ਮਾਡਲਾਂ ਦੀਆਂ ਮੌਜੂਦਾ ਸੀਮਾਵਾਂ ਅਤੇ ਸੰਭਾਵੀ ਖਤਰਿਆਂ ਨੂੰ ਉਜਾਗਰ ਕੀਤਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਫਾਈ-4 ਤਰਕ ‘ਤੇ ਆਪਣੇ ਖੋਜ ਪੱਤਰ ਵਿੱਚ, ਮਾਈਕਰੋਸਾਫਟ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮੰਨਿਆ ਕਿ ਉਹ ਸਮੇਂ ਅਤੇ ਸਰੋਤਾਂ ਦੀ ਬਹੁਤ ਜ਼ਿਆਦਾ ਖਪਤ, ਹੌਲੀ ਜਵਾਬ ਦੇਣ ਦੇ ਸਮੇਂ, ਅਤੇ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਮਾਡਲਾਂ ਦੇ ਜਵਾਬਾਂ ਦੁਆਰਾ ਉਹਨਾਂ ਦੇ ਆਪਣੇ ਪਹਿਲਾਂ ਵਾਲੇ ਤਰਕ ਕਦਮਾਂ ਦਾ ਵਿਰੋਧ ਕਰਨ ਨਾਲ ਸਬੰਧਤ ਚੁਣੌਤੀਆਂ ਨਾਲ ਜੂਝ ਰਹੇ ਹਨ।

ਇੱਕ ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਵਿਕਾਸ ਵਿੱਚ, ਐਨਥ੍ਰੋਪਿਕ ਨੇ ਇੱਕ ਅਧਿਐਨ ਪ੍ਰਕਾਸ਼ਤ ਕੀਤਾ ਜਿਸ ਵਿੱਚ ਇਹ ਖੁਲਾਸਾ ਹੋਇਆ ਕਿ ਤਰਕ ਚੇਨ (ਅਕਸਰ ਚੇਨ-ਆਫ-ਥੌਟਸ, ਜਾਂ CoTs ਵਜੋਂ ਜਾਣੇ ਜਾਂਦੇ ਹਨ) ਲਗਾਤਾਰ ਮਾਡਲ ਦੀ ਅਸਲ ਤਰਕ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਨਹੀਂ ਦਰਸਾ ਸਕਦੇ ਹਨ। ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਖੋਜ ਕੀਤੀ ਕਿ ਮਾਡਲ ਅਕਸਰ ਬਾਹਰੀ ਸੰਕੇਤਾਂ ਦਾ ਸ਼ੋਸ਼ਣ ਕਰਦੇ ਹਨ, ਜਿਵੇਂ ਕਿ ਸਹੀ ਜਵਾਬਾਂ ਵੱਲ ਉਹਨਾਂ ਦਾ ਮਾਰਗਦਰਸ਼ਨ ਕਰਨ ਲਈ ਪ੍ਰੋਂਪਟਾਂ ਵਿੱਚ ਪਾਏ ਗਏ ਸਪੱਸ਼ਟ ਸੰਕੇਤ, ਪਰ ਉਹਨਾਂ ਦੇ ਸਪੱਸ਼ਟ ਤਰਕ ਕਦਮਾਂ ਵਿੱਚ ਇਹਨਾਂ ਸੰਕੇਤਾਂ ਨੂੰ ਘੱਟ ਹੀ ਸਵੀਕਾਰ ਜਾਂ ਜ਼ਬਾਨੀ ਕਰਦੇ ਹਨ। ਮਾਡਲ ਦੇ ਅੰਦਰੂਨੀ ਵਿਵਹਾਰ ਅਤੇ ਇਸਦੇ ਬਾਹਰੀ ਸਪੱਸ਼ਟੀਕਰਨ ਦੇ ਵਿਚਕਾਰ ਇਹ ਅੰਤਰ CoTs ਨੂੰ ਮਾਡਲ ਵਿਆਖਿਆਯੋਗਤਾ ਲਈ ਇੱਕ ਭਰੋਸੇਯੋਗ ਸਾਧਨ ਵਜੋਂ ਵਰਤਣ ਅਤੇ ਸੁਰੱਖਿਆ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਬਾਰੇ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਕਰਦਾ ਹੈ।

ਇੱਥੋਂ ਤੱਕ ਕਿ ਓਪਨਏਆਈ ਨੇ ਵੀ ਉੱਨਤ ਤਰਕ ਮਾਡਲਾਂ ਦੀ "ਇਨਾਮ ਹੈਕਿੰਗ" ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਣ ਦੀ ਪ੍ਰਵਿਰਤੀ ਨੂੰ ਉਜਾਗਰ ਕਰਦੇ ਹੋਏ ਖੋਜ ਰਿਪੋਰਟਾਂ ਜਾਰੀ ਕੀਤੀਆਂ ਹਨ। ਇਨਾਮ ਹੈਕਿੰਗ ਉਹਨਾਂ ਸਥਿਤੀਆਂ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ ਜਿੱਥੇ AI ਏਜੰਟ ਆਪਣੇ ਪਰਿਭਾਸ਼ਿਤ ਉਦੇਸ਼ਾਂ ਦੇ ਅੰਦਰ ਅਣਦੇਖੇ ਲੂਪਹੋਲਾਂ ਜਾਂ ਅਣਇੱਛਤ ਨਤੀਜਿਆਂ ਦਾ ਸ਼ੋਸ਼ਣ ਕਰਦੇ ਹਨ ਤਾਂ ਜੋ ਉਹਨਾਂ ਤਰੀਕਿਆਂ ਨਾਲ ਇਨਾਮਾਂ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕੀਤਾ ਜਾ ਸਕੇ ਜਿਨ੍ਹਾਂ ਦਾ ਅਸਲ ਵਿੱਚ ਇਰਾਦਾ ਨਹੀਂ ਸੀ ਜਾਂ ਲੋੜੀਦਾ ਨਹੀਂ ਸੀ। ਓਪਨਏਆਈ ਨੇ ਇਸਨੂੰ ਘਟਾਉਣ ਲਈ ਰਣਨੀਤੀਆਂ ਦੀ ਪੜਚੋਲ ਕੀਤੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਓ3-ਮਿਨੀ ਵਰਗੇ ਇੱਕ ਮਜ਼ਬੂਤ ਮਾਡਲ ਦੀ ਨਿਗਰਾਨੀ ਕਰਨ ਲਈ ਇੱਕ ਘੱਟ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਡਲ (GPT-4o) ਦੀ ਵਰਤੋਂ ਕਰਨਾ, ਹਾਲਾਂਕਿ ਇਹ ਆਪਣੀ ਜਟਿਲਤਾਵਾਂ ਅਤੇ ਸੰਭਾਵੀ ਪੱਖਪਾਤ ਪੇਸ਼ ਕਰਦਾ ਹੈ।

ਓਪਨਏਆਈ ਦੇ ਤਕਨੀਕੀ ਸਟਾਫ ਦੇ ਇੱਕ ਮੈਂਬਰ ਨੈਟ ਮੈਕਅਲੀਸ ਨੇ ਜ਼ੋਰ ਦਿੱਤਾ ਕਿ "ਵੱਡੇ ਤਰਕ ਮਾਡਲ ਇਨਾਮ ਹੈਕਿੰਗ ਵਿੱਚ ਬਹੁਤ ਵਧੀਆ ਹਨ," ਇਸ ਗੱਲ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਰਿਪੋਰਟ ਤੋਂ ਹੱਥੀਂ ਚੁਣੀਆਂ ਗਈਆਂ ਉਦਾਹਰਣਾਂ ਦਾ ਹਵਾਲਾ ਦਿੰਦੇ ਹੋਏ।

"ਤਰਕ ਦੀ ਲੜੀ ਵਿੱਚ ਬਹੁਤ ਜ਼ਿਆਦਾ ਵਾਧਾ ਹੈ; ਉਹ ਆਪਣੇ ਆਪ ਦਾ ਵਿਰੋਧ ਕਰਦੇ ਹਨ, ਅਤੇ ਬਹੁਤ ਸਾਰੇ ਅਣਉੱਤਰੇ ਸਵਾਲ ਹਨ," ਬਹਿਲ ਨੇ ਟਿੱਪਣੀ ਕੀਤੀ। "ਪਰ, ਇਹ ਇੱਕ ਵਿਕਸਤ ਖੇਤਰ ਹੈ। ਜੇ ਅਸੀਂ ਇੱਕ ਭਾਈਚਾਰੇ ਦੇ ਰੂਪ ਵਿੱਚ ਇਸਨੂੰ ਨੱਥ ਪਾ ਸਕਦੇ ਹਾਂ ਅਤੇ ਇਹ ਸਮਝ ਸਕਦੇ ਹਾਂ ਕਿ ਮਾਡਲ ਕਿਵੇਂ ਸੋਚਦੇ ਹਨ, ਤਾਂ ਬਹੁਤ ਲਾਭ ਹੋਵੇਗਾ।" ਤਰਕ ਮਾਡਲਾਂ ਦਾ ਭਵਿੱਖ AI ਭਾਈਚਾਰੇ ਦੇ ਅੰਦਰ ਨਿਰੰਤਰ ਖੋਜ ਅਤੇ ਸਹਿਯੋਗ ਦੁਆਰਾ ਇਹਨਾਂ ਚੁਣੌਤੀਆਂ ਨੂੰ ਹੱਲ ਕਰਨ ‘ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ।