LLM ਟੂਲ ਵਰਤੋਂ ਵਿੱਚ ਨਮੇਟ੍ਰੋਨ-ਟੂਲ-N1 ਦਾ ਇਨਕਲਾਬ
ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਨੂੰ ਬਾਹਰੀ ਟੂਲਾਂ ਨਾਲ ਜੋੜਨਾ ਇੱਕ ਪਰਿਵਰਤਨਸ਼ੀਲ ਰਣਨੀਤੀ ਵਜੋਂ ਉੱਭਰਿਆ ਹੈ, ਜਿਸ ਨਾਲ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੇ ਇੱਕ ਸਪੈਕਟ੍ਰਮ ਵਿੱਚ ਬੇਮਿਸਾਲ ਸਮਰੱਥਾਵਾਂ ਖੁੱਲ੍ਹਦੀਆਂ ਹਨ। ਹਾਲਾਂਕਿ, ਪਰੰਪਰਾਗਤ ਵਿਧੀਆਂ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਟੂਲ-ਵਰਤੋਂ ਦੇ ਦ੍ਰਿਸ਼ਾਂ ਦੇ ਵਿਆਪਕ ਸਿੰਥੈਟਿਕ ਡੇਟਾਸੈਟਸ ਦੀ ਸਿਰਜਣਾ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੀਆਂ ਹਨ, ਇਸ ਤੋਂ ਬਾਅਦ LLMs ਨੂੰ ਇਹਨਾਂ ਟੂਲਾਂ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਵਰਤਣ ਦੀ ਯੋਗਤਾ ਨਾਲ ਭਰਨ ਲਈ ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ (SFT) ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਪਹੁੰਚ ਦੀ ਇੱਕ ਬੁਨਿਆਦੀ ਸੀਮਾ ਟੂਲ ਦੀ ਵਰਤੋਂ ਵਿੱਚ ਸ਼ਾਮਲ ਗੁੰਝਲਦਾਰ ਤਰਕ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਦਰਸਾਉਣ ਲਈ ਸਿੰਥੈਟਿਕ ਡੇਟਾਸੈਟਸ ਦੀ ਅਸਮਰੱਥਾ ਹੈ, ਜਿਸਦੇ ਨਤੀਜੇ ਵਜੋਂ ਉਪਰੀ ਸਿਖਲਾਈ ਅਤੇ ਸੱਚੀ ਸਮਝ ਦੀ ਘਾਟ ਹੁੰਦੀ ਹੈ। ਅਕਸਰ, ਜ਼ਰੂਰੀ ਤਰਕ ਦੇ ਕਦਮ ਜਾਂ ਤਾਂ ਸਿਖਲਾਈ ਦੌਰਾਨ ਪੂਰੀ ਤਰ੍ਹਾਂ ਗੈਰਹਾਜ਼ਰ ਹੁੰਦੇ ਹਨ ਜਾਂ ਵਿਸਤ੍ਰਿਤ ਪ੍ਰੋਂਪਟਿੰਗ ਤਕਨੀਕਾਂ ਦੁਆਰਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਛੱਡ ਦਿੱਤੇ ਜਾਂਦੇ ਹਨ। ਇਹ “ਸੂਡੋ-ਰੀਜ਼ਨਿੰਗ” ਦੀ ਇੱਕ ਵਰਤਾਰਾ ਪੇਸ਼ ਕਰਦਾ ਹੈ, ਜਿੱਥੇ ਮਾਡਲ, ਅੰਤਰੀਵ ਫੈਸਲਾ ਲੈਣ ਦੀਆਂ ਵਿਧੀਆਂ ਨੂੰ ਸਮਝਣ ਦੀ ਬਜਾਏ, ਸਿਰਫ਼ ਸਤਹ-ਪੱਧਰੀ ਪੈਟਰਨਾਂ ਦੀ ਨਕਲ ਕਰਦੇ ਹਨ।
ਪਰੰਪਰਾਗਤ ਟੂਲ-ਵਰਤੋਂ ਸਿਖਲਾਈ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਸੰਬੋਧਿਤ ਕਰਨਾ
LLMs ਦੀ ਟੂਲ-ਵਰਤੋਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਵਧਾਉਣ ਲਈ ਮੌਜੂਦਾ ਖੋਜ ਯਤਨਾਂ ਨੇ ਕਈ ਤਰ੍ਹਾਂ ਦੀਆਂ ਪਹੁੰਚਾਂ ਦੀ ਖੋਜ ਕੀਤੀ ਹੈ, ਮੁੱਖ ਤੌਰ ‘ਤੇ ਦੋ ਮੁੱਖ ਰਣਨੀਤੀਆਂ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹੋਏ: ਡੇਟਾਸੈਟ ਕਿਊਰੇਸ਼ਨ ਅਤੇ ਮਾਡਲ ਰਿਫਾਈਨਮੈਂਟ, ਅਤੇ ਤਰਕ ਵਿੱਚ ਸੁਧਾਰ।
ਡੇਟਾਸੈਟ ਕਿਊਰੇਸ਼ਨ ਅਤੇ ਮਾਡਲ ਰਿਫਾਈਨਮੈਂਟ: ਇਸ ਪਹੁੰਚ ਵਿੱਚ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ, ਨਿਗਰਾਨੀ ਅਧੀਨ ਡੇਟਾਸੈਟਸ ਦੀ ਸਿਰਜਣਾ ਸ਼ਾਮਲ ਹੈ ਜੋ SFT ਅਤੇ DPO (ਡਾਇਰੈਕਟ ਪ੍ਰੈਫਰੈਂਸ ਆਪਟੀਮਾਈਜ਼ੇਸ਼ਨ) ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਵਰਗੀਆਂ ਉੱਨਤ ਸਿਖਲਾਈ ਤਕਨੀਕਾਂ ਨਾਲ ਜੁੜੇ ਹੋਏ ਹਨ। LLMs ਨੂੰ ਖੋਜ ਇੰਜਣਾਂ, ਕੈਲਕੂਲੇਟਰਾਂ, ਵਿਜ਼ਨ ਟੂਲਸ ਅਤੇ ਪਾਈਥਨ ਇੰਟਰਪ੍ਰੇਟਰਾਂ ਸਮੇਤ ਕਈ ਤਰ੍ਹਾਂ ਦੇ ਬਾਹਰੀ ਟੂਲਾਂ ਨਾਲ ਵਧਾਇਆ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਜੋ ਉਹਨਾਂ ਦੀਆਂ ਕਾਰਜਸ਼ੀਲ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵਧਾਇਆ ਜਾ ਸਕੇ। ਇਹ ਰਣਨੀਤੀ LLMs ਨੂੰ ਬਹੁਤ ਸਾਰੀਆਂ ਉਦਾਹਰਣਾਂ ਪ੍ਰਦਾਨ ਕਰਨ ਅਤੇ ਇਹਨਾਂ ਉਦਾਹਰਣਾਂ ਤੋਂ ਆਮ ਜਾਣਕਾਰੀ ਦੇਣ ਦੀ ਉਹਨਾਂ ਦੀ ਯੋਗਤਾ ਨੂੰ ਸੁਧਾਰਨ ਦੀ ਮਹੱਤਤਾ ‘ਤੇ ਜ਼ੋਰ ਦਿੰਦੀ ਹੈ। ਹਾਲਾਂਕਿ, ਚੁਣੌਤੀ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦੀਆਂ ਸੀਮਾਵਾਂ ਵਿੱਚ ਹੈ।
ਤਰਕ ਵਿੱਚ ਸੁਧਾਰ: ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਡੇਟਾਸੈਟਸ ‘ਤੇ ਨਿਰਭਰ ਕਰਨ ਦੀਆਂ ਕਮੀਆਂ ਨੂੰ ਪਛਾਣਦੇ ਹੋਏ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ LLMs ਦੀ ਤਰਕ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਰਣਨੀਤੀਆਂ ‘ਤੇ ਵੀ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ ਹੈ। ਇਸ ਵਿੱਚ ਰਵਾਇਤੀ ਟ੍ਰੇਨ-ਟਾਈਮ ਸਕੇਲਿੰਗ ਤੋਂ ਹੋਰ ਵਧੀਆ ਟੈਸਟ-ਟਾਈਮ ਸਕੇਲਿੰਗ ਰਣਨੀਤੀਆਂ ਵੱਲ ਜਾਣਾ ਸ਼ਾਮਲ ਹੈ। ਪਹਿਲੇ ਤਰੀਕਿਆਂ ਨੇ ਅਕਸਰ ਕਦਮ-ਪੱਧਰੀ ਨਿਗਰਾਨੀ ਅਤੇ ਸਿੱਖੇ ਇਨਾਮ ਮਾਡਲਾਂ ‘ਤੇ ਭਰੋਸਾ ਕੀਤਾ ਤਾਂ ਜੋ ਤਰਕ ਦੇ ਰਸਤਿਆਂ ਦੀ ਅਗਵਾਈ ਕੀਤੀ ਜਾ ਸਕੇ। ਇਹਨਾਂ ਤਰੀਕਿਆਂ ਦਾ ਉਦੇਸ਼ ਮਾਡਲ ਨੂੰ ਤਰਕ ਪ੍ਰਕਿਰਿਆ ਨਾਲ ਹੀ ਪਰਦਾਫਾਸ਼ ਕਰਨਾ ਹੈ, ਟੂਲ ਚੋਣ ਅਤੇ ਵਰਤੋਂ ਦੇ ਪਿੱਛੇ ਤਰਕ ਦੀ ਡੂੰਘੀ ਸਮਝ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਨਾ ਹੈ।
ਨਮੇਟ੍ਰੋਨ-ਟੂਲ-N1: LLM ਟੂਲ ਵਰਤੋਂ ਵਿੱਚ ਇੱਕ ਪੈਰਾਡਾਈਮ ਸ਼ਿਫਟ
NVIDIA, ਪੈਨਸਿਲਵੇਨੀਆ ਸਟੇਟ ਯੂਨੀਵਰਸਿਟੀ, ਅਤੇ ਵਾਸ਼ਿੰਗਟਨ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ Nemotron-Research-Tool-N1 ਸੀਰੀਜ਼ ਪੇਸ਼ ਕੀਤੀ ਹੈ, ਜੋ ਕਿ ਮੌਜੂਦਾ ਸੰਦਾਂ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਦੂਰ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੀ ਗਈ ਇੱਕ ਨਵੀਨਤਾਕਾਰੀ ਪਹੁੰਚ ਹੈ- ਉਪਯੋਗੀਤਾ ਵਿਧੀਆਂ। ਰਵਾਇਤੀ SFT ਅਤੇ ਤਰਕ ਟਰੇਸ ਡਿਸਟੀਲੇਸ਼ਨ ਤਕਨੀਕਾਂ ਦੇ ਉਲਟ, Nemotron-Research-Tool-N1 ਇੱਕ ਵਿਲੱਖਣ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RL) ਪੈਰਾਡਾਈਮ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। DeepSeek-R1 ਦੀ ਸਫਲਤਾ ਤੋਂ ਪ੍ਰੇਰਿਤ ਹੋ ਕੇ, ਇਹ ਪਹੁੰਚ ਇੱਕ ਹਲਕੇ ਨਿਗਰਾਨੀ ਵਿਧੀ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ ਜੋ ਟੂਲ ਇਨਵੋਕੇਸ਼ਨਾਂ ਦੀ ਢਾਂਚਾਗਤ ਵੈਧਤਾ ਅਤੇ ਕਾਰਜਸ਼ੀਲ ਸਹੀਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੁੰਦੀ ਹੈ। Nemotron-Research-Tool-N1 ਮਾਡਲ ਇੱਕ ਬਾਈਨਰੀ ਇਨਾਮ ਵਿਧੀ ਦਾ ਲਾਭ ਉਠਾਉਂਦਾ ਹੈ ਜੋ ਮਾਡਲ ਨੂੰ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਐਨਟੇਟਿਡ ਤਰਕ ਟਰੇਜੈਕਟਰੀਆਂ ‘ਤੇ ਨਿਰਭਰ ਕੀਤੇ ਬਿਨਾਂ ਖੁਦਮੁਖਤਿਆਰੀ ਨਾਲ ਤਰਕ ਰਣਨੀਤੀਆਂ ਵਿਕਸਤ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।
ਇਹ ਪਹੁੰਚ ਰਵਾਇਤੀ ਵਿਧੀਆਂ ਤੋਂ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਰਵਾਨਗੀ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ, ਜੋ ਵਧੇਰੇ ਮਜ਼ਬੂਤ ਅਤੇ ਆਮ ਤੌਰ ‘ਤੇ ਵਰਤੋਂ ਯੋਗ ਟੂਲ-ਵਰਤੋਂ ਸਮਰੱਥਾਵਾਂ ਦੀ ਸੰਭਾਵਨਾ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦੀ ਹੈ। ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਤਰਕ ਦੇ ਕਦਮਾਂ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਨ ਦੀ ਬਜਾਏ ਟੂਲ ਇਨਵੋਕੇਸ਼ਨਾਂ ਦੀ ਸਹੀਤਾ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਕੇ, ਮਾਡਲ ਨੂੰ ਖੋਜ ਕਰਨ ਅਤੇ ਆਪਣੇ ਆਪ ਅਨੁਕੂਲ ਤਰਕ ਰਣਨੀਤੀਆਂ ਸਿੱਖਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
ਡੇਟਾ ਦੀ ਤਿਆਰੀ ਅਤੇ ਮਾਡਲ ਆਰਕੀਟੈਕਚਰ
ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮੌਜੂਦਾ ਟੂਲ-ਕਾਲਿੰਗ ਡੇਟਾਸੈਟਾਂ, ਜਿਸ ਵਿੱਚ xLAM ਅਤੇ ToolACE ਦਾ ਇੱਕ ਸਬਸੈੱਟ ਸ਼ਾਮਲ ਹੈ, ਤੋਂ ਡੇਟਾ ਨੂੰ ਇਕੱਠਾ ਅਤੇ ਪ੍ਰੀਪ੍ਰੋਸੈਸ ਕੀਤਾ, ਜੋ ਇੱਕ-ਟਰਨ ਅਤੇ ਮਲਟੀ-ਟਰਨ ਸਿੰਥੈਟਿਕ ਟੂਲ-ਕਾਲਿੰਗ ਟ੍ਰੈਜੈਕਟਰੀਆਂ ਦੋਵੇਂ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਟੂਲ ਕਾਲ ਜਨਰੇਸ਼ਨ ਦੀ ਅਗਵਾਈ ਕਰਨ ਲਈ, ਇੱਕ ਹਲਕਾ ਪ੍ਰੋਂਪਟਿੰਗ ਟੈਂਪਲੇਟ ਬਣਾਇਆ ਗਿਆ ਸੀ, ਜਿਸ ਵਿੱਚ <think>…</think> ਟੈਗਾਂ ਦੇ ਅੰਦਰ ਵਿਚਕਾਰਲੇ ਤਰਕ ਲਈ ਸਪੱਸ਼ਟ ਹਦਾਇਤਾਂ ਅਤੇ <toll_call>…</tool_call> ਟੈਗਾਂ ਵਿੱਚ ਬੰਦ ਟੂਲ ਇਨਵੋਕੇਸ਼ਨ ਸ਼ਾਮਲ ਸਨ। ਇਹ ਟੈਂਪਲੇਟ ਸਖ਼ਤ ਫਾਰਮੈਟਿੰਗ ਰੁਕਾਵਟਾਂ ਨੂੰ ਘੱਟ ਕਰਨ ਅਤੇ ਖਾਸ ਪ੍ਰੋਂਪਟ ਪੈਟਰਨਾਂ ‘ਤੇ ਓਵਰਫਿਟਿੰਗ ਦੇ ਜੋਖਮ ਨੂੰ ਘਟਾਉਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ।
ਇਸ ਖੋਜ ਵਿੱਚ ਵਰਤਿਆ ਜਾਣ ਵਾਲਾ ਮੁੱਖ ਬੈਕਬੋਨ ਮਾਡਲ Qwen2.5-7B/14B-Instruct ਹੈ। ਪ੍ਰਸਤਾਵਿਤ ਵਿਧੀ ਦੀ ਆਮਕਰਨ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ, LLaMA ਪਰਿਵਾਰ ਦੇ ਕਈ ਰੂਪਾਂ ਸਮੇਤ, ਵਿਕਲਪਕ ਬੈਕਬੋਨ ਮਾਡਲਾਂ ‘ਤੇ ਵੀ ਮੁਲਾਂਕਣ ਕੀਤੇ ਗਏ ਸਨ। ਵੱਖ-ਵੱਖ ਮਾਡਲ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਇਹ ਸਖ਼ਤ ਮੁਲਾਂਕਣ ਨਮੇਟ੍ਰੋਨ-ਟੂਲ-N1 ਪਹੁੰਚ ਦੀ ਮਜ਼ਬੂਤੀ ਅਤੇ ਲਾਗੂ ਹੋਣ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ।
ਬੈਂਚਮਾਰਕਿੰਗ ਪ੍ਰਦਰਸ਼ਨ: BFCL ਅਤੇ API-ਬੈਂਕ
ਨਮੇਟ੍ਰੋਨ-ਰਿਸਰਚ-ਟੂਲ-N1 ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਦਾ ਸਖ਼ਤੀ ਨਾਲ BFCL ਅਤੇ API-ਬੈਂਕ ਬੈਂਚਮਾਰਕਸ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮੁਲਾਂਕਣ ਕੀਤਾ ਗਿਆ। ਨਤੀਜੇ ਮੌਜੂਦਾ ਪਹੁੰਚਾਂ ਦੇ ਮੁਕਾਬਲੇ Nemotron-Research-Tool-N1 ਮਾਡਲਾਂ ਦੀ ਉੱਤਮ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ।
BFCL ਬੈਂਚਮਾਰਕ: BFCL ਬੈਂਚਮਾਰਕ ‘ਤੇ, ਟੂਲ-N1-7B/14B ਮਾਡਲਾਂ ਨੇ GPT-4o ਵਰਗੇ ਬੰਦ-ਸਰੋਤ ਮਾਡਲਾਂ ਅਤੇ xLAM-2-70B ਅਤੇ ToolACE-8B ਵਰਗੇ ਵਿਸ਼ੇਸ਼ ਫਾਈਨ-ਟਿਊਨਡ ਮਾਡਲਾਂ ਤੋਂ ਵੱਧ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਇਆ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਮਾਡਲਾਂ ਨੇ ਇੱਕੋ ਜਿਹੇ ਡੇਟਾ ਸਰੋਤਾਂ ‘ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ SFT ਬੇਸਲਾਈਨਾਂ ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ, ਜਿਸ ਨਾਲ Nemotron-Research-Tool-N1 ਵਿੱਚ ਵਰਤੀ ਗਈ R1-ਸ਼ੈਲੀ RL ਪਹੁੰਚ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ‘ਤੇ ਜ਼ੋਰ ਦਿੱਤਾ ਗਿਆ। ਇਹ ਬੈਂਚਮਾਰਕ ਮਾਡਲ ਦੀ ਗੁੰਝਲਦਾਰ ਤਰਕ ਅਤੇ ਟੂਲ ਦੀ ਵਰਤੋਂ ਦੀ ਲੋੜ ਵਾਲੇ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਢਾਲਣ ਦੀ ਯੋਗਤਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ। BFCL (ਬਿਗ ਫਾਈਵ ਕਮਾਂਡ ਲਾਈਨਾਂ) ਬੈਂਚਮਾਰਕ LLMs ਦੀ ਗੁੰਝਲਦਾਰ ਕਮਾਂਡ-ਲਾਈਨ ਹਦਾਇਤਾਂ ਨੂੰ ਸਮਝਣ ਅਤੇ ਚਲਾਉਣ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ‘ਤੇ ਕੇਂਦ੍ਰਤ ਕਰਦਾ ਹੈ, ਜਿਸ ਲਈ ਉੱਚ ਪੱਧਰੀ ਤਰਕ ਅਤੇ ਟੂਲ ਦੀ ਵਰਤੋਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
API-ਬੈਂਕ ਬੈਂਚਮਾਰਕ: API-ਬੈਂਕ ਬੈਂਚਮਾਰਕ ਨੇ ਇਹਨਾਂ ਖੋਜਾਂ ਨੂੰ ਹੋਰ ਪ੍ਰਮਾਣਿਤ ਕੀਤਾ, ਜਿਸ ਵਿੱਚ ਟੂਲ-N1-7B/14B ਨੇ GPT-4o ਨਾਲੋਂ 4.12% ਅਤੇ 5.03% ਵੱਧ ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ। ਇਹ ਬੈਂਚਮਾਰਕ ਖਾਸ ਕੰਮ ਕਰਨ ਲਈ ਵੱਖ-ਵੱਖ APIs (ਐਪਲੀਕੇਸ਼ਨ ਪ੍ਰੋਗਰਾਮਿੰਗ ਇੰਟਰਫੇਸ) ਦੀ ਵਰਤੋਂ ਕਰਨ ਵਿੱਚ LLM ਦੀ ਮੁਹਾਰਤ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ। ਇਸ ਬੈਂਚਮਾਰਕ ‘ਤੇ Nemotron-Research-Tool-N1 ਦੁਆਰਾ ਪ੍ਰਾਪਤ ਕੀਤੇ ਸੁਧਾਰਾਂ ਨੇ ਇੱਕ ਨਵੇਂ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਪੈਰਾਡਾਈਮ ਦੁਆਰਾ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੀ ਟੂਲ-ਕਾਲਿੰਗ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਵਧਾਉਣ ਵਿੱਚ ਵਿਧੀ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਦਰਸਾਇਆ ਹੈ।
ਦੋਵਾਂ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ ਨਿਰੰਤਰ ਸੁਧਾਰ LLMs ਦੀ ਟੂਲ-ਵਰਤੋਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਵਧਾਉਣ ਵਿੱਚ Nemotron-Research-Tool-N1 ਪਹੁੰਚ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਇੱਕ ਨਿਯਮ-ਅਧਾਰਤ RL ਪਹੁੰਚ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਕੇ ਅਤੇ ਮਾਡਲਾਂ ਨੂੰ ਆਪਣੀਆਂ ਤਰਕ ਰਣਨੀਤੀਆਂ ਵਿਕਸਿਤ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾ ਕੇ, Nemotron-Research-Tool-N1 ਵਧੇਰੇ ਅਨੁਕੂਲ ਅਤੇ ਬੁੱਧੀਮਾਨ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਖੋਲ੍ਹਦਾ ਹੈ।
ਨਮੇਟ੍ਰੋਨ-ਟੂਲ-N1 ਦੇ ਮੁੱਖ ਨਵੀਨਤਾਕਾਰੀ
Nemotron-Research-Tool-N1 ਦਾ ਮੁੱਖ ਯੋਗਦਾਨ LLMs ਵਿੱਚ ਟੂਲ ਦੀ ਵਰਤੋਂ ਨੂੰ ਵਧਾਉਣ ਲਈ ਇਸਦੀ ਨਵੀਂ ਪਹੁੰਚ ਤੋਂ ਆਉਂਦਾ ਹੈ। ਮਿਆਰੀ SFT ਵਿਧੀਆਂ ‘ਤੇ ਨਿਰਭਰ ਕਰਨ ਦੀ ਬਜਾਏ, ਇਹ ਇੱਕ ਵਿਲੱਖਣ, ਨਿਯਮ-ਅਧਾਰਤ RL ਫਰੇਮਵਰਕ ਨੂੰ ਜੋੜਦਾ ਹੈ। ਇਸਦੇ ਆਰਕੀਟੈਕਚਰ ਦਾ ਇੱਕ ਨੀਂਹ ਪੱਥਰ ਇੱਕ ਬਾਈਨਰੀ ਇਨਾਮ ਵਿਧੀ ਹੈ ਜੋ ਟੂਲ ਇਨਵੋਕੇਸ਼ਨਾਂ ਦੀ ਢਾਂਚਾਗਤ ਵੈਧਤਾ ਅਤੇ ਕਾਰਜਸ਼ੀਲ ਸਹੀਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ। ਇਹ ਪਹੁੰਚ ਮਾਡਲ ਨੂੰ ਬਿਨਾਂ ਕਿਸੇ ਲੋੜ ਦੇ ਤਰਕ ਰਣਨੀਤੀਆਂ ਨੂੰ ਸੁਤੰਤਰ ਤੌਰ ‘ਤੇ ਬਣਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ ਤਰਕ ਟ੍ਰੈਜੈਕਟਰੀਆਂ ਜੋ ਪਹਿਲਾਂ ਤੋਂ ਧਿਆਨ ਨਾਲ ਐਨਟੇਟਿਡ ਹਨ।
Nemotron-Research-Tool-N1 ਦੇ ਫਾਇਦੇ ਕਈ ਹਨ। ਟੂਲ ਦੀ ਵਰਤੋਂ ਲਈ ਸਿਖਲਾਈ ਡੇਟਾ ਵਿੱਚ ਆਮ ਤੌਰ ‘ਤੇ ਸਪੱਸ਼ਟ ਤਰਕ ਸ਼ਾਮਲ ਨਹੀਂ ਹੁੰਦਾ ਹੈ। ਇਨਾਮ ਪ੍ਰਣਾਲੀ ਮਾਡਲਾਂ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਟੂਲ ਅਤੇ ਹੱਥ ਵਿੱਚ ਸਮੱਸਿਆ ਦੇ ਵਿਚਕਾਰ ਸਬੰਧ ਨੂੰ ਸੁਤੰਤਰ ਤੌਰ ‘ਤੇ ਲੱਭ ਕੇ ਵਧਾਉਂਦੀ ਹੈ। RL ਆਮਕਰਨ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਵਿੱਚ ਵੀ ਮਦਦ ਕਰਦਾ ਹੈ ਕਿਉਂਕਿ ਮਾਡਲ ਨੂੰ ਵੱਖ-ਵੱਖ ਹਾਲਤਾਂ ਦੇ ਅਨੁਕੂਲ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ।
Nemotron-Research-Tool-N1 ਵਿਸ਼ੇਸ਼ ਟੈਗਾਂ (ਸੋਚੋ ਅਤੇ /ਸੋਚੋ) ਦੇ ਅੰਦਰ ਤਰਕ ਨੂੰ ਜੋੜਨ ਲਈ ਇੱਕ ਮਜ਼ਬੂਤ ਟੈਂਪਲੇਟ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਇਹ ਟੂਲ (ਟੂਲ_ਕਾਲ ਅਤੇ /ਟੂਲ_ਕਾਲ) ‘ਤੇ ਕਾਲ ਕਰਨ ਲਈ ਵੀ ਸੱਚ ਹੈ। ਅਜਿਹਾ ਕਰਕੇ, Nemotron-Research-Tool-N1 ਮਾਡਲ ਨੂੰ ਪ੍ਰੋਂਪਟ ਦੇ ਪੈਟਰਨ ‘ਤੇ ਓਵਰਫਿਟਿੰਗ ਤੋਂ ਜੋਖਮਾਂ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ।
ਟੂਲਾਂ ‘ਤੇ ਸਫਲਤਾਪੂਰਵਕ ਕਾਲ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਦੋ ਬੈਂਚਮਾਰਕਾਂ ‘ਤੇ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਜੋ Nemotron-Research-Tool-N1 ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ:
- ਵੱਡੀਆਂ ਪੰਜ ਕਮਾਂਡ ਲਾਈਨਾਂ (BFCL): BFCL ਇਸ ਗੱਲ ‘ਤੇ ਜ਼ੋਰ ਦਿੰਦਾ ਹੈ ਕਿ LLMs ਨੂੰ ਗੁੰਝਲਦਾਰ ਕਮਾਂਡ-ਲਾਈਨ ਹਦਾਇਤਾਂ ਨੂੰ ਸਮਝਣ ਅਤੇ ਲਾਗੂ ਕਰਨ ਦੀ ਲੋੜ ਹੈ। Nemotron-Research-Tool-N1 ਆਪਣੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਵਿਧੀਆਂ ਦੁਆਰਾ ਇਸ ਖੇਤਰ ਵਿੱਚ ਉੱਤਮ ਹੈ।
- API-ਬੈਂਕ ਬੈਂਚਮਾਰਕ: API-ਬੈਂਕ ਬੈਂਚਮਾਰਕ ਨੇ ਇਹਨਾਂ ਨਤੀਜਿਆਂ ਦੀ ਪੁਸ਼ਟੀ ਕੀਤੀ। ਮਾਡਲ ਦੀ ਸ਼ੁੱਧਤਾ ਦਰ GPT-4o ਨਾਲੋਂ 4.12% ਅਤੇ 5.03% ਵੱਧ ਸੀ।
ਮੌਜੂਦਾ ਪਹੁੰਚਾਂ ਨਾਲ ਤੁਲਨਾਤਮਕ ਵਿਸ਼ਲੇਸ਼ਣ
Nemotron-Research-Tool-N1 ਟੂਲ ਦੀ ਵਰਤੋਂ ਲਈ ਮੌਜੂਦਾ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਵਿਧੀਆਂ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਦਿਖਾਉਂਦਾ ਹੈ। ਫਾਈਨ-ਟਿਊਨਿੰਗ ਲਈ ਅਕਸਰ ਧਿਆਨ ਨਾਲ ਕਿਊਰੇਟ ਕੀਤੇ ਡੇਟਾ ਦੀ ਵੱਡੀ ਮਾਤਰਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਅਤੇ ਅਕਸਰ ਮਾਡਲ ਨੂੰ ਮੌਜੂਦਾ ਪੈਟਰਨਾਂ ਦੀ ਨਕਲ ਕਰਨ ਵੱਲ ਲੈ ਜਾਂਦਾ ਹੈ। ਇੱਕ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਵਿਧੀ ਵਜੋਂ, Nemotron-Research-Tool-N1, ਮਾਡਲ ਸੁਤੰਤਰ ਤੌਰ ‘ਤੇ ਤਰਕ ਰਣਨੀਤੀਆਂ ਪੈਦਾ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਖਾਸ ਡੇਟਾਸੈਟਾਂ ‘ਤੇ ਨਿਰਭਰਤਾ ਨੂੰ ਘਟਾਉਣ ਵਿੱਚ ਵੀ ਮਦਦ ਕਰਦਾ ਹੈ। Nemotron ਮੌਜੂਦਾ ਬੈਂਚਮਾਰਕਾਂ ਨੂੰ ਉਹਨਾਂ ਹੀ ਚੁਣੌਤੀਆਂ ਤੋਂ ਬਿਨਾਂ ਪਛਾੜਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਤੋਂ ਮੌਜੂਦਾ ਵਿਧੀਆਂ ਪੀੜਤ ਹਨ।
ਕਈ ਬੈਂਚਮਾਰਕ ਇਸ ਸੁਧਾਰ ਨੂੰ ਸਾਬਤ ਕਰਦੇ ਹਨ। BFCL ਬੈਂਚਮਾਰਕ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਟੂਲ-N1 ਮਾਡਲ ਮੌਜੂਦਾ ਪਹੁੰਚਾਂ ‘ਤੇ ਸੁਧਾਰ ਕਰਦੇ ਹਨ। ਇਹ xLAM-2-70B ਅਤੇ ToolACE-8B ਵਰਗੇ ਓਪਨ ਸੋਰਸ ਸਿਸਟਮਾਂ ‘ਤੇ ਸੁਧਾਰ ਕਰਦਾ ਹੈ, ਅਤੇ GPT-4o ਵਰਗੇ ਕਲੋਜ਼ਡ ਸੋਰਸ ਮਾਡਲਾਂ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। API-ਬੈਂਕ ਬੈਂਚਮਾਰਕ ਇਹਨਾਂ ਖੋਜਾਂ ਨੂੰ ਪ੍ਰਮਾਣਿਤ ਕਰਦਾ ਹੈ, ਜੋ ਮੌਜੂਦਾ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ‘ਤੇ ਟੂਲ ਕਾਲਿੰਗ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਵੇਲੇ ਸ਼ੁੱਧਤਾ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵਧਾਉਣ ਲਈ ਦਿਖਾਇਆ ਗਿਆ ਹੈ।
ਪ੍ਰਭਾਵ ਅਤੇ ਭਵਿੱਖ ਦੀਆਂ ਦਿਸ਼ਾਵਾਂ
ਖੋਜਕਰਤਾਵਾਂ ਨੇ LLM ਟੂਲਾਂ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਸਫਲਤਾ, Nemotron-Research-Tool-N1 ਪੇਸ਼ ਕੀਤਾ। ਖੋਜ ਇੱਕ ਅਤਿ-ਆਧੁਨਿਕ ਨਿਯਮ-ਅਧਾਰਤ RL ਵਿਧੀ ਨੂੰ ਲਾਗੂ ਕਰਕੇ ਰਵਾਇਤੀ SFT ਵਿਧੀਆਂ ਤੋਂ ਦੂਰ ਤਬਦੀਲੀ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦੀ ਹੈ। ਸੁਝਾਈ ਗਈ ਵਿਧੀ ਮਾਡਲਾਂ ਨੂੰ ਸੂਖਮ ਤਰਕ ਦੀਆਂ ਚਾਲਾਂ ਤਿਆਰ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦੀ ਹੈ, ਜਦੋਂ ਕਿ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਐਨਟੇਟਿਡ ਤਰਕ ਟ੍ਰੈਜੈਕਟਰੀਆਂ ‘ਤੇ ਨਿਰਭਰ ਨਹੀਂ ਕਰਦੀ ਹੈ। ਇਸ ਵਿਧੀ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ BFCL ਅਤੇ API-ਬੈਂਕ ਵਿੱਚ ਇਸਦੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਬੈਂਚਮਾਰਕਿੰਗ ਮੁਲਾਂਕਣਾਂ ਦੁਆਰਾ ਦਿਖਾਇਆ ਗਿਆ ਹੈ। ਨਾਲ ਹੀ, ਇਹ ਮੌਜੂਦਾ ਬੇਸਲਾਈਨਾਂ ਨਾਲੋਂ ਮਾਪਣਯੋਗ ਪ੍ਰਦਰਸ਼ਨ ਸੁਧਾਰਾਂ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰ ਰਿਹਾ ਹੈ। ਇਹ ਵਧੇਰੇ ਅਨੁਕੂਲ ਅਤੇ ਬੁੱਧੀਮਾਨ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਲਈ ਮੌਕੇ ਖੋਲ੍ਹਦਾ ਹੈ ਜੋ ਆਪਣੇ ਆਪ ਤਰਕ ਦੀਆਂ ਰਣਨੀਤੀਆਂ ਬਣਾਉਂਦੇ ਹਨ।
ਖੋਜਾਂ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਲਈ ਨਵੇਂ ਰਾਹ ਖੋਲ੍ਹਦੀਆਂ ਹਨ ਜੋ ਵਧੇਰੇ ਅਨੁਕੂਲ ਅਤੇ ਬੁੱਧੀਮਾਨ ਹਨ। ਬਾਈਨਰੀ ਇਨਾਮ ਵਿਧੀਆਂ ਦੀ ਵਰਤੋਂ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਨੂੰ ਕਈ ਅਸਲ-ਸੰਸਾਰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਅਤੇ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਬਣਨ ਦੀ ਯੋਗਤਾ ਪ੍ਰਦਾਨ ਕਰੇਗੀ। Nemotron-Research-Tool-N1 ਵਧੇਰੇ ਸਵੈਚਲਿਤ ਤਰਕ ਵੱਲ ਲੈ ਜਾਵੇਗਾ, ਜੋ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੀ ਟੂਲ-ਵਰਤੋਂ ਸਮਰੱਥਾਵਾਂ ਵਿੱਚ ਸੁਧਾਰ ਕਰੇਗਾ।
ਖੋਜ LLM ਟੂਲਸ ਵਿੱਚ ਇੱਕ ਨਵਾਂ ਪੈਰਾਡਾਈਮ ਦਰਸਾਉਂਦੀ ਹੈ। ਇਹ ਇਸ ਗੱਲ ਦੀਆਂ ਨਵੀਆਂ ਦਿਸ਼ਾਵਾਂ ਨੂੰ ਵੀ ਉਜਾਗਰ ਕਰਦਾ ਹੈ ਕਿ ਭਵਿੱਖ ਦੇ ਭਾਸ਼ਾ ਮਾਡਲ ਕਿਵੇਂ ਬਣਾਏ ਜਾਂਦੇ ਹਨ। ਤਰਕ ਵਿੱਚ ਆਟੋਮੇਸ਼ਨ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਨਾ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਨੂੰ ਭਵਿੱਖ ਵਿੱਚ ਵਧੇਰੇ ਬੁੱਧੀਮਾਨ ਬਣਾਉਣ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਹੋਵੇਗਾ।