Nvidia ਦਾ ਨਵਾਂ ਮਾਡਲ DeepSeek-R1 ਤੋਂ ਵੀ ਅੱਗੇ

Nvidia ਦੇ Llama-Nemotron ਸੀਰੀਜ਼ ਮਾਡਲ ਨੇ ਅਧਿਕਾਰਤ ਤੌਰ ‘ਤੇ DeepSeek-R1 ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ ਹੈ, ਅਤੇ ਉਨ੍ਹਾਂ ਦੀ ਸਿਖਲਾਈ ਦੇ ਵੇਰਵਿਆਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਾਲ ਦੱਸਿਆ ਗਿਆ ਹੈ, ਜੋ ਇਹ ਦੱਸਦੇ ਹਨ ਕਿ ਇਹ ਮਾਡਲ ਕਿਵੇਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਵਿਕਸਤ ਕੀਤੇ ਗਏ ਸਨ।

ਇਹ ਮਾਡਲ ਹੁਣ ਪੂਰੀ ਤਰ੍ਹਾਂ ਓਪਨ-ਸੋਰਸ ਹਨ, ਜੋ ਕਿ ਪਹੁੰਚਯੋਗ AI ਤਕਨਾਲੋਜੀ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਤਰੱਕੀ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਅਨੁਮਾਨ ਮਾਡਲਾਂ ਦੀ ਇੱਕ ਲੜੀ ਜੋ ਅਨੁਮਾਨ ਥ੍ਰੋਪੁੱਟ ਅਤੇ ਮੈਮੋਰੀ ਕੁਸ਼ਲਤਾ ਦੇ ਮਾਮਲੇ ਵਿੱਚ DeepSeek-R1 ਤੋਂ ਕਾਫ਼ੀ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੀ ਹੈ, ਹੁਣ ਕਿਸੇ ਵੀ ਵਿਅਕਤੀ ਲਈ ਵਰਤਣ ਅਤੇ ਸੋਧਣ ਲਈ ਉਪਲਬਧ ਹੈ।

ਮਾਡਲ ਦੀ ਸਫਲਤਾ ਦੇ ਪਿੱਛੇ ਰਾਜ਼

ਤਾਂ, ਇਹ ਮਾਡਲ, ਜੋ DeepSeek-R1 ਤੋਂ ਵੀ ਅੱਗੇ ਨਿਕਲ ਗਏ, ਕਿਵੇਂ ਬਣਾਏ ਗਏ? Nvidia ਦੀ ਤਕਨੀਕੀ ਰਿਪੋਰਟ ਉਨ੍ਹਾਂ ਦੀ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਦੇ ਮਹੱਤਵਪੂਰਨ ਤੱਤਾਂ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ:

  • ਸਿੰਥੈਟਿਕ ਡਾਟਾ + ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਨਾਲ ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ: ਇਹ ਸੁਮੇਲ ਮਾਡਲ ਦੀ ਤਰਕ ਕਰਨ ਦੀਆਂ ਯੋਗਤਾਵਾਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵਧਾਉਂਦਾ ਹੈ।
  • ਵਿਆਪਕ ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆ: ਇੱਕ ਮਜ਼ਬੂਤ ਅਤੇ ਚੰਗੀ ਤਰ੍ਹਾਂ ਡਿਜ਼ਾਈਨ ਕੀਤੀ ਗਈ ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆ ਮਾਡਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ।

ਪਿਛਲੇ ਮਹੀਨੇ, Nvidia ਨੇ ਅਧਿਕਾਰਤ ਤੌਰ ‘ਤੇ Llama-Nemotron 253B ਦਾ ਐਲਾਨ ਕੀਤਾ, ਜਿਸ ਨੇ ਜਲਦੀ ਹੀ Llama 4 ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ (ਜੋ ਕਿ ਸਿਰਫ਼ ਤਿੰਨ ਦਿਨ ਪੁਰਾਣਾ ਸੀ ਅਤੇ ਲੀਡਰਬੋਰਡ ਦੀ ਹੇਰਾਫੇਰੀ ਕਾਰਨ "ਇਮਾਨਦਾਰੀ ਸੰਕਟ" ਦਾ ਸਾਹਮਣਾ ਕਰ ਰਿਹਾ ਸੀ)। ਇਸ ਸੀਰੀਜ਼ ਦੇ ਮਾਡਲਾਂ ਦੇ ਜਾਰੀ ਹੋਣ ਨਾਲ ਉਦਯੋਗ ਵਿੱਚ ਕਾਫ਼ੀ ਹਲਚਲ ਮਚ ਗਈ।

ਆਰਟੀਫੀਸ਼ੀਅਲ ਐਨਾਲਿਸਿਸ ਇੰਟੈਲੀਜੈਂਸ ਇੰਡੈਕਸ ਦੇ ਅਨੁਸਾਰ, Llama-Nemotron-Ultra ਨੂੰ ਵਰਤਮਾਨ ਵਿੱਚ ਅਪ੍ਰੈਲ 2025 ਤੱਕ "ਸਭ ਤੋਂ ਬੁੱਧੀਮਾਨ" ਓਪਨ-ਸੋਰਸ ਮਾਡਲ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ।

Nvidia ਨੇ Llama-Nemotron ਸੀਰੀਜ਼ ਵਿੱਚ ਤਿੰਨ ਮਾਡਲ ਲਾਂਚ ਕੀਤੇ: LN-Nano 8B, LN-Super 49B, ਅਤੇ LN-Ultra 253B

ਖਾਸ ਤੌਰ ‘ਤੇ, LN-Ultra ਨਾ ਸਿਰਫ਼ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ DeepSeek-R1 ਤੋਂ ਬਿਹਤਰ ਹੈ, ਸਗੋਂ ਇੱਕ ਸਿੰਗਲ 8xH100 ਨੋਡ ‘ਤੇ ਵੀ ਚੱਲਦਾ ਹੈ, ਜੋ ਉੱਚ ਅਨੁਮਾਨ ਥ੍ਰੋਪੁੱਟ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

ਇਹ ਮਾਡਲ ਉੱਚ-ਥ੍ਰੋਪੁੱਟ ਅਨੁਮਾਨ ਲਈ ਅਨੁਕੂਲਿਤ ਕੀਤੇ ਗਏ ਹਨ ਜਦੋਂ ਕਿ ਮਜ਼ਬੂਤ ਤਰਕ ਕਰਨ ਦੀਆਂ ਯੋਗਤਾਵਾਂ ਅਤੇ 128K ਤੱਕ ਦੀ ਸੰਦਰਭ ਲੰਬਾਈ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦੇ ਹਨ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, Nvidia ਨੇ ਗਲੋਬਲ AI ਓਪਨ-ਸੋਰਸ ਕਮਿਊਨਿਟੀ ਵਿੱਚ ਇੱਕ ਗਰਾਊਂਡਬ੍ਰੇਕਿੰਗ ਅਨੁਮਾਨ ਸਵਿੱਚ ਵਿਸ਼ੇਸ਼ਤਾ ਪੇਸ਼ ਕੀਤੀ ਹੈ। ਉਪਭੋਗਤਾ ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ "ਵਿਸਤ੍ਰਿਤ ਵਿਚਾਰ ਚਾਲੂ/ਬੰਦ" ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਟੈਂਡਰਡ ਚੈਟ ਮੋਡ ਅਤੇ ਤਰਕ ਮੋਡ ਵਿਚਕਾਰ ਗਤੀਸ਼ੀਲ ਰੂਪ ਨਾਲ ਸਵਿੱਚ ਕਰ ਸਕਦੇ ਹਨ।

ਇਹ ਡਿਜ਼ਾਈਨ ਮਾਡਲ ਨੂੰ ਵੱਖ-ਵੱਖ ਮਾਡਲਾਂ ਜਾਂ ਆਰਕੀਟੈਕਚਰ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਆਮ ਰੋਜ਼ਾਨਾ ਦੀਆਂ ਲੋੜਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਅਤੇ ਗੁੰਝਲਦਾਰ, ਬਹੁ-ਪੜਾਵੀ ਤਰਕ ਕਾਰਜਾਂ ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।

ਉਸਾਰੀ ਪ੍ਰਕਿਰਿਆ: ਇੱਕ ਪੰਜ-ਪੜਾਵੀ ਪਹੁੰਚ

Llama-Nemotron ਮਾਡਲਾਂ ਦੀ ਉਸਾਰੀ ਨੂੰ ਪੰਜ ਵੱਖ-ਵੱਖ ਪੜਾਵਾਂ ਵਿੱਚ ਵੰਡਿਆ ਗਿਆ ਹੈ:

ਪੜਾਅ 1: Llama 3 ਸੀਰੀਜ਼ ਮਾਡਲਾਂ ‘ਤੇ ਅਧਾਰਤ ਨਿਊਰਲ ਆਰਕੀਟੈਕਚਰ ਖੋਜ (NAS) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਤਰਕ ਕੁਸ਼ਲਤਾ ਦੀ ਅਨੁਕੂਲਤਾ, ਫੀਡਫਾਰਵਰਡ ਨੈੱਟਵਰਕ ਫਿਊਜ਼ਨ (FFN ਫਿਊਜ਼ਨ) ਦੀ ਸ਼ੁਰੂਆਤ ਦੇ ਨਾਲ।

ਪੜਾਅ 2: ਗਿਆਨ ਡਿਸਟਿਲੇਸ਼ਨ ਅਤੇ ਨਿਰੰਤਰ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਦੁਆਰਾ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਰਿਕਵਰੀ।

ਪੜਾਅ 3: ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ (SFT), ਜੋ ਸ਼ਕਤੀਸ਼ਾਲੀ ਅਧਿਆਪਕ ਮਾਡਲਾਂ ਜਿਵੇਂ ਕਿ DeepSeek-R1 ਤੋਂ ਤਰਕ ਪ੍ਰਕਿਰਿਆਵਾਂ ਦੇ ਨਾਲ ਸਟੈਂਡਰਡ ਹਦਾਇਤ ਡੇਟਾ ਨੂੰ ਜੋੜਦੀ ਹੈ, ਮਾਡਲ ਨੂੰ ਬਹੁ-ਪੜਾਵੀ ਤਰਕ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ।

ਪੜਾਅ 4: ਗੁੰਝਲਦਾਰ ਗਣਿਤਿਕ ਅਤੇ STEM ਡੇਟਾਸੈੱਟਾਂ ‘ਤੇ ਵੱਡੇ ਪੈਮਾਨੇ ‘ਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ, ਜੋ ਕਿ ਵਿਦਿਆਰਥੀ ਮਾਡਲ ਲਈ ਅਧਿਆਪਕ ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਪਾਰ ਕਰਨ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ। LN-Ultra ਲਈ, ਇਹ ਪੜਾਅ GPQA-D ਬੈਂਚਮਾਰਕ ‘ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਕਰਦਾ ਹੈ, ਇਸਨੂੰ ਓਪਨ-ਸੋਰਸ ਡੋਮੇਨ ਵਿੱਚ ਵਿਗਿਆਨਕ ਤਰਕ ਲਈ ਸਭ ਤੋਂ ਮਜ਼ਬੂਤ ਮਾਡਲ ਵਜੋਂ ਸਥਾਪਿਤ ਕਰਦਾ ਹੈ।

ਅਜਿਹੀ ਵੱਡੇ ਪੈਮਾਨੇ ਦੀ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਸਿਖਲਾਈ ਦਾ ਸਮਰਥਨ ਕਰਨ ਲਈ, ਟੀਮ ਨੇ ਕਈ ਅਨੁਕੂਲਤਾ ਉਪਾਵਾਂ ਦੇ ਨਾਲ ਇੱਕ ਨਵਾਂ ਸਿਖਲਾਈ ਢਾਂਚਾ ਵਿਕਸਤ ਕੀਤਾ, ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ FP8 ਸ਼ੁੱਧਤਾ ਉਤਪਾਦਨ ਸਮਰੱਥਾ ਦਾ ਸਮਰਥਨ ਕਰਨਾ।

ਪੜਾਅ 5: ਮਨੁੱਖੀ ਤਰਜੀਹਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਅਤੇ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਇੱਕ ਸੰਖੇਪ ਅਲਾਈਨਮੈਂਟ ਸਿਖਲਾਈ।

ਅਨੁਕੂਲਿਤ ਅਨੁਮਾਨ ਕੁਸ਼ਲਤਾ ਲਈ ਨਵੀਨਤਾਕਾਰੀ ਆਰਕੀਟੈਕਚਰ

LN-Super ਅਤੇ LN-Ultra ਮਾਡਲ ਅਨੁਮਾਨ ਕੁਸ਼ਲਤਾ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ ਨਿਊਰਲ ਆਰਕੀਟੈਕਚਰ ਖੋਜ ਲਈ Puzzle ਢਾਂਚੇ ਦਾ ਲਾਭ ਉਠਾਉਂਦੇ ਹਨ।

Puzzle ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਨੂੰ ਹਾਰਡਵੇਅਰ-ਅਨੁਕੂਲਿਤ, ਕੁਸ਼ਲ ਸੰਸਕਰਣਾਂ ਵਿੱਚ ਬਦਲਦਾ ਹੈ, ਜੋ ਤਾਇਨਾਤੀ ਲਈ ਅਨੁਕੂਲਿਤ ਹੁੰਦੇ ਹਨ।

"ਬਲਾਕ-ਬਾਈ-ਬਲਾਕ ਲੋਕਲ ਡਿਸਟਿਲੇਸ਼ਨ" ਦੁਆਰਾ, ਡਿਵੈਲਪਰਾਂ ਨੇ Llama 3 Instruct ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵਿਕਲਪਕ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮੋਡੀਊਲ ਦੀ ਇੱਕ ਲਾਇਬ੍ਰੇਰੀ ਬਣਾਈ।

ਇਸ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ, ਹਰੇਕ ਮੋਡੀਊਲ ਨੂੰ ਆਜ਼ਾਦ ਤੌਰ ‘ਤੇ ਅਤੇ ਸਮਾਨਾਂਤਰ ਵਿੱਚ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਗਣਨਾਤਮਕ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਦੇ ਨਾਲ ਨਾਲ ਅਸਲ ਮੋਡੀਊਲ ਦੀ ਕਾਰਜਕੁਸ਼ਲਤਾ ਨੂੰ ਅਨੁਮਾਨਿਤ ਕਰਦਾ ਹੈ

ਹਰੇਕ ਵਿਕਲਪਕ ਮੋਡੀਊਲ ਵਿੱਚ ਖਾਸ "ਸ਼ੁੱਧਤਾ-ਕੁਸ਼ਲਤਾ" ਵਪਾਰ-ਬੰਦ ਹੁੰਦੇ ਹਨ। ਕੁਝ ਮੋਡੀਊਲ ਵਧੇਰੇ ਕੁਸ਼ਲ ਹੁੰਦੇ ਹਨ ਪਰ ਨਤੀਜੇ ਵਜੋਂ ਗੁਣਵੱਤਾ ਵਿੱਚ ਕੁਝ ਗਿਰਾਵਟ ਆ ਸਕਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਗਣਨਾਤਮਕ ਲਾਗਤ ਅਤੇ ਮਾਡਲ ਦੀ ਸ਼ੁੱਧਤਾ ਦੇ ਵਿਚਕਾਰ ਇੱਕ ਸਪੱਸ਼ਟ ਵਪਾਰ-ਬੰਦ ਹੁੰਦਾ ਹੈ।

ਇਹਨਾਂ ਮੋਡੀਊਲ ਭਿੰਨਤਾਵਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

ਧਿਆਨ ਵਿਧੀ ਹਟਾਉਣਾ: ਕੁਝ ਮੋਡੀਊਲ ਧਿਆਨ ਵਿਧੀ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਾਲ ਛੱਡ ਦਿੰਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਗਣਨਾ ਦੀ ਮਾਤਰਾ ਅਤੇ KV ਕੈਸ਼ ਮੈਮੋਰੀ ਦੀ ਖਪਤ ਘੱਟ ਜਾਂਦੀ ਹੈ।

ਵੇਰੀਏਬਲ FFN ਮਾਪ: ਫੀਡਫਾਰਵਰਡ ਨੈੱਟਵਰਕਸ ਦੇ ਵਿਚਕਾਰਲੇ ਮਾਪਾਂ ਨੂੰ ਐਡਜਸਟ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਵੱਖ-ਵੱਖ ਗ੍ਰੈਨਿਊਲੈਰਿਟੀਆਂ ‘ਤੇ ਮਾਡਲ ਕੰਪਰੈਸ਼ਨ ਦੀ ਆਗਿਆ ਮਿਲਦੀ ਹੈ।

ਮੋਡੀਊਲ ਲਾਇਬ੍ਰੇਰੀ ਬਣਾਉਣ ਤੋਂ ਬਾਅਦ, Puzzle ਹਰੇਕ ਪਰਤ ਤੋਂ ਇੱਕ ਮੋਡੀਊਲ ਚੁਣਦਾ ਹੈ ਤਾਂ ਜੋ ਇੱਕ ਸੰਪੂਰਨ ਮਾਡਲ ਨੂੰ ਇਕੱਠਾ ਕੀਤਾ ਜਾ ਸਕੇ।

ਇਸ ਚੋਣ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਇੱਕ ਮਿਕਸਡ-ਇੰਟੀਜਰ ਪ੍ਰੋਗਰਾਮਿੰਗ (MIP) ਸੋਲਵਰ ਦੁਆਰਾ ਨਿਯੰਤਰਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਜੋ ਹਾਰਡਵੇਅਰ ਅਨੁਕੂਲਤਾ, ਅਧਿਕਤਮ ਆਗਿਆ ਵਾਲੀ ਲੇਟੈਂਸੀ, ਮੈਮੋਰੀ ਬਜਟ, ਜਾਂ ਲੋੜੀਂਦੇ ਅਨੁਮਾਨ ਥ੍ਰੋਪੁੱਟ ਵਰਗੀਆਂ ਰੁਕਾਵਟਾਂ ‘ਤੇ ਅਧਾਰਤ ਅਨੁਕੂਲ ਸੰਰਚਨਾ ਲੱਭਦਾ ਹੈ।

ਵਰਟੀਕਲ ਕੰਪਰੈਸ਼ਨ ਅਤੇ FFN ਫਿਊਜ਼ਨ

LN-Ultra ਮਾਡਲ ਵਿੱਚ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ FFN ਫਿਊਜ਼ਨ (ਫੀਡਫਾਰਵਰਡ ਨੈੱਟਵਰਕ ਫਿਊਜ਼ਨ) ਪੇਸ਼ ਕੀਤਾ, ਜੋ ਮਾਡਲ ਦੀ ਕ੍ਰਮ ਡੂੰਘਾਈ ਨੂੰ ਘਟਾਉਣ ਅਤੇ ਤਰਕ ਲੇਟੈਂਸੀ ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰਨ ਲਈ ਇੱਕ ਵਾਧੂ ਕੰਪਰੈਸ਼ਨ ਤਕਨੀਕ ਹੈ।

ਕੁਝ ਧਿਆਨ ਪਰਤਾਂ ਨੂੰ Puzzle ਦੁਆਰਾ ਹਟਾਉਣ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇੱਕ ਵਿਲੱਖਣ ਢਾਂਚਾ ਹੁੰਦਾ ਹੈ: ਮਲਟੀਪਲ ਨਿਰੰਤਰ FFN ਬਲਾਕ ਅਕਸਰ ਮਾਡਲ ਢਾਂਚੇ ਵਿੱਚ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ।

FFN ਫਿਊਜ਼ਨ ਇਹਨਾਂ ਨਿਰੰਤਰ ਢਾਂਚਿਆਂ ਦੀ ਪਛਾਣ ਕਰਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਘੱਟ ਪਰ ਵਿਆਪਕ, ਸਮਾਨਾਂਤਰ-ਕਾਰਜਕਾਰੀ FFN ਪਰਤਾਂ ਨਾਲ ਬਦਲਦਾ ਹੈ।

ਇਹ ਬਦਲੀ ਵਿਧੀ ਮਾਡਲ ਦੀ ਭਾਵਨਾ ਨੂੰ ਕੁਰਬਾਨ ਕੀਤੇ ਬਿਨਾਂ ਲਗਾਤਾਰ ਗਣਨਾ ਦੇ ਕਦਮਾਂ ਨੂੰ ਘਟਾਉਂਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਕੰਪਿਊਟਿੰਗ ਸਰੋਤਾਂ ਦੀ ਵਰਤੋਂ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਹੁੰਦਾ ਹੈ - ਖਾਸ ਕਰਕੇ ਮਲਟੀ-GPU ਵਾਤਾਵਰਣਾਂ ਵਿੱਚ, ਜਿੱਥੇ ਕਰਾਸ-ਲੇਅਰ ਸੰਚਾਰ ਓਵਰਹੈੱਡ ਮਹੱਤਵਪੂਰਨ ਹੁੰਦਾ ਹੈ।

LN-Ultra ਮਾਡਲ ਸ਼ੁੱਧਤਾ ਅਤੇ ਕੁਸ਼ਲਤਾ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਲਗਾਤਾਰ DeepSeek-R1 ਅਤੇ Llama-3.1-405B ਤੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਇੱਕ ਅਨੁਕੂਲ ਸੰਤੁਲਨ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ।

ਪੋਸਟ-NAS ਸਿਖਲਾਈ: ਗਿਆਨ ਡਿਸਟਿਲੇਸ਼ਨ ਅਤੇ ਨਿਰੰਤਰ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ

ਨਿਊਰਲ ਆਰਕੀਟੈਕਚਰ ਖੋਜ (NAS) ਪੜਾਅ ਤੋਂ ਬਾਅਦ, LN-Super ਅਤੇ LN-Ultra ਦੋਵਾਂ ਨੇ ਮੋਡੀਊਲਾਂ ਵਿਚਕਾਰ ਅਨੁਕੂਲਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰਨ ਅਤੇ ਮੋਡੀਊਲ ਬਦਲੀ ਦੌਰਾਨ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗੁਣਵੱਤਾ ਦੇ ਨੁਕਸਾਨ ਨੂੰ ਮੁੜ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਵਾਧੂ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਕੀਤੀ।

  • LN-Super ਨੂੰ ਗਿਆਨ ਡਿਸਟਿਲੇਸ਼ਨ ਉਦੇਸ਼ ਦੇ ਤਹਿਤ 40 ਬਿਲੀਅਨ ਟੋਕਨਾਂ ਲਈ ਡਿਸਟਿਲੇਸ਼ਨ ਮਿਕਸ ਡੇਟਾਸੈੱਟ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ।
  • LN-Ultra ਨੂੰ ਸ਼ੁਰੂ ਵਿੱਚ 65 ਬਿਲੀਅਨ ਟੋਕਨਾਂ ਲਈ ਉਸੇ ਡਿਸਟਿਲੇਸ਼ਨ ਡੇਟਾਸੈੱਟ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ, ਇਸਦੇ ਬਾਅਦ 88 ਬਿਲੀਅਨ ਟੋਕਨਾਂ ਲਈ Nemotron-H ਚੌਥੇ ਪੜਾਅ ਦੇ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਡੇਟਾਸੈੱਟ ‘ਤੇ ਨਿਰੰਤਰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ।

ਇਸ ਆਖਰੀ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਕਦਮ ਨੇ LN-Ultra ਨੂੰ ਨਾ ਸਿਰਫ਼ ਹਵਾਲਾ ਮਾਡਲ, Llama 3.1-405B-Instruct ਨਾਲ ਫੜਨ ਦੇ ਯੋਗ ਬਣਾਇਆ, ਸਗੋਂ ਇਸਨੂੰ ਮੁੱਖ ਬੈਂਚਮਾਰਕ ਟੈਸਟਾਂ ਵਿੱਚ ਵੀ ਪਛਾੜ ਦਿੱਤਾ।

ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਸੰਖੇਪ ਡਿਸਟਿਲੇਸ਼ਨ ਅਤੇ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਹਮਲਾਵਰ ਆਰਕੀਟੈਕਚਰਲ ਅਨੁਕੂਲਤਾ ਅਤੇ ਉੱਚ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਵਿਚਕਾਰ ਅਨੁਕੂਲਤਾ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੀ ਹੈ

ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ: ਤਰਕ ਦੀ ਨਿਪੁੰਨਤਾ ਨੂੰ ਸੁਧਾਰਨਾ

ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ (SFT) Llama-Nemotron ਮਾਡਲਾਂ ਲਈ ਇੱਕ "ਨਿੱਜੀ ਟ੍ਰੇਨਰ" ਵਜੋਂ ਕੰਮ ਕਰਦੀ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਖਾਸ ਕਾਰਜਾਂ ਲਈ ਤਰਕ ਕਰਨ ਦੇ ਕਦਮਾਂ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦੀ ਹੈ ਅਤੇ "ਸਟਾਰ ਵਿਦਿਆਰਥੀ" ਮਾਡਲਾਂ ਜਿਵੇਂ ਕਿ DeepSeek-R1 ਤੋਂ ਅਨੁਮਾਨ ਤਕਨੀਕਾਂ ਸਿੱਖਦੀ ਹੈ।

ਅਸਲੀ ਤਰਕ ਦੇ ਹੁਨਰਾਂ ਨੂੰ ਸਥਾਪਿਤ ਕਰਨ ਲਈ, ਵੱਡੇ ਪੈਮਾਨੇ ‘ਤੇ, ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲਾ ਤਰਕ ਸਿਖਲਾਈ ਡੇਟਾ ਜ਼ਰੂਰੀ ਹੈ।

ਸਿੰਥੈਟਿਕ ਡਾਟਾ: ਤਰਕ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਲਈ ਤਰਕ ਅਤੇ ਗੈਰ-ਤਰਕ ਦੋਵਾਂ ਡੇਟਾ ਵਾਲੇ ਡੇਟਾ ਨਮੂਨਿਆਂ ਨੂੰ ਧਿਆਨ ਨਾਲ ਤਿਆਰ ਕੀਤਾ।

ਤਰਕ ਨਮੂਨਿਆਂ ਲਈ, ਉਹਨਾਂ ਨੇ ਸਿਸਟਮ ਹਦਾਇਤਾਂ ਵਿੱਚ "ਵਿਸਤ੍ਰਿਤ ਵਿਚਾਰ ਚਾਲੂ" ਜੋੜਿਆ, ਜਦੋਂ ਕਿ ਗੈਰ-ਤਰਕ ਨਮੂਨਿਆਂ ਲਈ, ਉਹਨਾਂ ਨੇ "ਵਿਸਤ੍ਰਿਤ ਵਿਚਾਰ ਬੰਦ" ਵਰਤਿਆ।

ਇਹ ਸੈਟਿੰਗ ਮਾਡਲ ਨੂੰ ਤਰਕ ਪੜਾਅ ਦੌਰਾਨ ਪ੍ਰੋਂਪਟ ਦੇ ਅਧਾਰ ‘ਤੇ ਤਰਕ ਵਿਵਹਾਰ ਨੂੰ ਬਦਲਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ।

ਤਰਕ ਲਈ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਗਣਿਤ, ਕੋਡਿੰਗ ਅਤੇ ਸੰਬੰਧਿਤ ਖੇਤਰਾਂ ਵਿੱਚ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ

ਮਾਡਲ ਨੂੰ "ਤਰਕ ਸਵਿੱਚ" ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਦੇਣ ਲਈ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਜੋੜੀ ਵਾਲੇ ਡੇਟਾਸੈੱਟ ਬਣਾਏ, ਜਿੱਥੇ ਹਰੇਕ ਪ੍ਰੋਂਪਟ ਤਰਕ ਦੇ ਨਾਲ ਅਤੇ ਇੱਕ ਬਿਨਾਂ ਤਰਕ ਦੇ ਜਵਾਬ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ।

ਇਹ ਜੋੜੀ ਮਾਡਲ ਨੂੰ ਸਿਸਟਮ ਹਦਾਇਤਾਂ ਦੇ ਅਧਾਰ ‘ਤੇ ਇਸਦੇ ਤਰਕ ਵਿਵਹਾਰ ਨੂੰ ਐਡਜਸਟ ਕਰਨਾ ਸਿੱਖਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦੀ ਹੈ।

ਇਹਨਾਂ ਜਵਾਬਾਂ ਦੀ ਬਾਅਦ ਦੀ ਫਿਲਟਰਿੰਗ ਮਿਆਰੀ ਜਵਾਬਾਂ ਜਾਂ ਇਨਾਮ ਮਾਡਲਾਂ ਦੇ ਅਧਾਰ ‘ਤੇ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।

ਫਾਈਨ-ਟਿਊਨਿੰਗ ਪ੍ਰਕਿਰਿਆ

ਸਾਰੇ ਮਾਡਲਾਂ ਨੂੰ ਟੋਕਨ-ਪੱਧਰੀ ਕਰਾਸ-ਐਂਟਰੋਪੀ ਘਾਟੇ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਹਦਾਇਤ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਡੇਟਾ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ।

ਜ਼ਿਆਦਾਤਰ ਸਿਖਲਾਈ ਸੈਟਿੰਗਾਂ ਵਿੱਚ, ਤਰਕ ਅਤੇ ਗੈਰ-ਤਰਕ ਡੇਟਾ ਨੂੰ ਸਿਖਲਾਈ ਬੈਚ ਬਣਾਉਣ ਲਈ ਮਿਲਾਇਆ ਜਾਂਦਾ ਹੈ, ਜਿੱਥੇ ਹਰੇਕ ਪ੍ਰੋਂਪਟ "ਵਿਸਤ੍ਰਿਤ ਵਿਚਾਰ ਚਾਲੂ/ਬੰਦ" ਸਿਸਟਮ ਹਦਾਇਤਾਂ ਦੇ ਅਧਾਰ ‘ਤੇ ਇੱਕ ਸੰਬੰਧਿਤ ਜਵਾਬ ਨਾਲ ਜੋੜਿਆ ਜਾਂਦਾ ਹੈ।

ਸਿਖਲਾਈ ਨੂੰ ਕਈ ਗੇੜਾਂ ਤੱਕ ਵਧਾਉਣਾ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਸੁਧਾਰ ਕਰ ਸਕਦਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਛੋਟੇ ਮਾਡਲਾਂ ਲਈ।

NeMo-Aligner ਦੀ ਵਰਤੋਂ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਸਿਖਲਾਈ ਲਈ ਕੀਤੀ ਗਈ ਸੀ, ਜੋ GRPO ਅਤੇ ਵਿਭਿੰਨ ਮਾਡਲਾਂ ਦੀ ਸਿਖਲਾਈ ਦਾ ਸਮਰਥਨ ਕਰਦੀ ਹੈ।

vLLM ਦੀ ਵਰਤੋਂ ਉਤਪਾਦਨ ਪੜਾਅ ਲਈ ਕੀਤੀ ਗਈ ਸੀ, ਅਤੇ Megatron-LM ਦੀ ਵਰਤੋਂ ਸਿਖਲਾਈ ਪੜਾਅ ਲਈ ਕੀਤੀ ਗਈ ਸੀ।

ਸਿਖਲਾਈ ਅਤੇ ਤਰਕ ਪੜਾਵਾਂ ਨੇ GPU ਦਾ ਇੱਕੋ ਜਿਹਾ ਬੈਚ ਸਾਂਝਾ ਕੀਤਾ, ਜੋ ਇੱਕੋ ਡਿਵਾਈਸ ‘ਤੇ ਪੂਰਾ ਹੋਇਆ।

ਪੂਰੀ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਨੇ 72 ਨੋਡਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ, ਹਰੇਕ ਵਿੱਚ 8 H100 GPUs ਲੱਗੇ ਹੋਏ ਸਨ

ਉਤਪਾਦਨ ਪੜਾਅ ਨੇ FP8 ਸ਼ੁੱਧਤਾ ਦੀ ਵਰਤੋਂ ਕੀਤੀ, ਸਿਖਲਾਈ ਪੜਾਅ ਨੇ BF16 ਸ਼ੁੱਧਤਾ ਦੀ ਵਰਤੋਂ ਕੀਤੀ, ਅਤੇ ਅਨੁਕੂਲਕ ਰਾਜ ਨੇ FP32 ਦੀ ਵਰਤੋਂ ਕੀਤੀ।

ਹਰੇਕ ਪੜਾਅ ਨੇ ਇੱਕ ਸੁਤੰਤਰ ਮਾਡਲ ਵਜ਼ਨ ਬਣਾਈ ਰੱਖਿਆ, ਜੋ ਹਰੇਕ ਕਦਮ ਦੀ ਸ਼ੁਰੂਆਤ ਵਿੱਚ ਸਮਕਾਲੀ ਕੀਤਾ ਗਿਆ ਸੀ।

ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ: R1 ਦੀ ਤਰਕ ਕਰਨ ਦੀ ਯੋਗਤਾ ਨੂੰ ਪਾਰ ਕਰਨ ਦੀ ਕੁੰਜੀ

ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ (SFT) ਮਾਡਲ ਨੂੰ ਸ਼ਕਤੀਸ਼ਾਲੀ ਅਧਿਆਪਕ ਮਾਡਲਾਂ ਤੋਂ ਗਿਆਨ ਕੱਢਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਸ਼ਾਨਦਾਰ ਸਮਰੱਥਾਵਾਂ ਪ੍ਰਾਪਤ ਹੁੰਦੀਆਂ ਹਨ।

ਹਾਲਾਂਕਿ, ਗਿਆਨ ਡਿਸਟਿਲੇਸ਼ਨ ਅੰਦਰੂਨੀ ਤੌਰ ‘ਤੇ ਵਿਦਿਆਰਥੀ ਮਾਡਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ‘ਤੇ ਇੱਕ ਸੀਮਾ ਨਿਰਧਾਰਤ ਕਰਦੀ ਹੈ, ਖਾਸ ਕਰਕੇ ਜਦੋਂ ਵਿਦਿਆਰਥੀ ਮਾਡਲ ਦੀ ਬੇਸ ਮਾਡਲ ਸਮਰੱਥਾ ਅਧਿਆਪਕ ਮਾਡਲ ਦੀ ਸਮਰੱਥਾ ਤੋਂ ਵੱਧ ਨਹੀਂ ਹੁੰਦੀ ਹੈ।

ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਦੁਆਰਾ, LN-Ultra ਦਾ ਪ੍ਰਦਰਸ਼ਨ DeepSeek-R1 ਦੇ ਨੇੜੇ ਪਹੁੰਚ ਸਕਦਾ ਹੈ ਪਰ ਇਸਨੂੰ ਪਾਰ ਨਹੀਂ ਕਰ ਸਕਦਾ ਹੈ।

ਵੱਡੇ ਪੈਮਾਨੇ ‘ਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RL) ਵਿਦਿਆਰਥੀ ਮਾਡਲ ਨੂੰ ਅਧਿਆਪਕ ਮਾਡਲ ਨੂੰ ਪਾਰ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਣ ਲਈ ਇੱਕ ਵਿਹਾਰਕ ਤਰੀਕਾ ਹੈ ਕਿਉਂਕਿ ਇਹ ਮਾਡਲ ਨੂੰ ਲਗਾਤਾਰ ਨਵੀਆਂ ਸੰਭਾਵਨਾਵਾਂ ਦੀ ਖੋਜ ਕਰਨ ਅਤੇ ਸਵੈ-ਸਿੱਖਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।

ਸਰੋਤ ਰੁਕਾਵਟਾਂ ਦੇ ਕਾਰਨ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਸਿਰਫ਼ LN-Ultra ‘ਤੇ ਤਰਕ RL ਲਾਗੂ ਕੀਤਾ, ਜਿਸਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇੱਕ ਵਿਦਿਆਰਥੀ ਮਾਡਲ ਅਧਿਆਪਕ ਮਾਡਲ ਨੂੰ ਪਾਰ ਕਰ ਗਿਆ।

ਪੂਰੀ ਤਰਕ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ, GPQA-Diamond ਡੇਟਾਸੈੱਟ ‘ਤੇ LN-Ultra ਦੀ ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਸੁਧਾਰ ਹੋਇਆ।

ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ: ਵਿਗਿਆਨਕ ਤਰਕ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਨਾ

LN-Ultra ਲਈ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਵੱਡੇ ਪੈਮਾਨੇ ‘ਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RL) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇਸਦੀ ਵਿਗਿਆਨਕ ਤਰਕ ਯੋਗਤਾ ਨੂੰ ਵਧਾਇਆ, ਗਰੁੱਪਡ ਰੀਲੇਟਿਵ ਪਾਲਿਸੀ ਔਪਟੀਮਾਈਜ਼ੇਸ਼ਨ (GRPO) ਐਲਗੋਰਿਦਮ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਉਹੀ ਜੋ DeepSeek-R1 ਦੁਆਰਾ ਵਰਤਿਆ ਗਿਆ ਸੀ।

ਪੂਰੀ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਲਗਭਗ 140,000 H100 ਘੰਟੇ ਲੱਗੇ, ਮਾਡਲ ਨੂੰ ਤਰਕ ਕਾਰਜਾਂ ‘ਤੇ ਇਕਸਾਰ ਹੋਣ ਤੱਕ ਲਗਾਤਾਰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ।

ਇਨਾਮ ਵਿਧੀ ਡਿਜ਼ਾਈਨ ਵਿੱਚ ਦੋ ਸ਼੍ਰੇਣੀਆਂ ਸ਼ਾਮਲ ਸਨ:

  • ਸ਼ੁੱਧਤਾ ਇਨਾਮ: ਮਿਆਰੀ ਜਵਾਬਾਂ (ਸੰਖਿਆਤਮਕ/ਵਾਕ/ਪੈਰਾਗ੍ਰਾਫ) ਦੇ ਅਧਾਰ ‘ਤੇ, Llama-3.3-70B-Instruct ਮਾਡਲ ਨੂੰ ਕਾਲ ਕਰਕੇ ਭਵਿੱਖਬਾਣੀ ਨਤੀਜਿਆਂ ਦੀ ਮੈਚਿੰਗ ਡਿਗਰੀ ਦਾ ਨਿਰਣਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
  • ਫਾਰਮੈਟ ਇਨਾਮ: DeepSeek-AI ਦੀ ਸਕੀਮ ਦੀ ਪਾਲਣਾ ਕਰਦੇ ਹੋਏ, ਮਾਡਲ ਨੂੰ "ਵਿਸਤ੍ਰਿਤ ਵਿਚਾਰ" ਮੋਡ ਵਿੱਚ <think\> ਟੈਗਾਂ ਨਾਲ ਤਰਕ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਲਪੇਟਣ ਲਈ ਮਜਬੂਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਅਜਿਹੇ ਟੈਗਾਂ ਦੀ ਦਿੱਖ ਨੂੰ ਗੈਰ-ਵਿਸਤ੍ਰਿਤ ਵਿਚਾਰ ਮੋਡ ਵਿੱਚ ਮਨ੍ਹਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।

ਖੋਜ ਟੀਮ ਨੇ ਡੇਟਾ ਫਿਲਟਰਿੰਗ ਅਤੇ ਪਾਠਕ੍ਰਮ ਸਿਖਲਾਈ ਸਮੇਤ ਡੇਟਾ ਨੂੰ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸ ਵੀ ਕੀਤਾ।

  • ਡੇਟਾ ਸਕ੍ਰੀਨਿੰਗ: LN-Super ਦੀ ਵਰਤੋਂ ਹਰੇਕ ਪ੍ਰਸ਼ਨ ਲਈ 8 ਜਵਾਬ ਤਿਆਰ ਕਰਨ ਲਈ ਪਹਿਲਾਂ ਤੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਅਤੇ ≥ 75% ਪਾਸ ਦਰ ਵਾਲੇ ਸਧਾਰਨ ਨਮੂਨਿਆਂ ਨੂੰ ਹਟਾ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ।
  • ਪਾਠਕ੍ਰਮ ਸਿਖਲਾਈ: ਪਾਸ ਦਰ ਦੇ ਅਧਾਰ ‘ਤੇ ਪ੍ਰਗਤੀਸ਼ੀਲ ਬੈਚ ਵੰਡ ਨੂੰ ਅਪਣਾਇਆ ਜਾਂਦਾ ਹੈ।

ਗਤੀਸ਼ੀਲ ਵੰਡ: ਗੌਸੀਅਨ ਫੰਕਸ਼ਨ ਨਾਲ ਬੈਚ ਮੁਸ਼ਕਲ ਨੂੰ ਮਾਡਲਿੰਗ ਕਰਨਾ, ਸ਼ੁਰੂ ਵਿੱਚ ਉੱਚ-ਪਾਸ-ਦਰ (ਸਧਾਰਨ) ਨਮੂਨਿਆਂ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਨਾ ਅਤੇ ਬਾਅਦ ਵਿੱਚ ਘੱਟ-ਪਾਸ-ਦਰ (ਮੁਸ਼ਕਲ) ਨਮੂਨਿਆਂ ਵੱਲ ਤਬਦੀਲ ਕਰਨਾ।

ਪੈਡਿੰਗ ਤਰਕ: ਨਮੂਨਿਆਂ ਨੂੰ ਪਹਿਲਾਂ ਟੀਚਾ ਵੰਡ ਦੇ ਅਨੁਸਾਰ ਵੰਡਿਆ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਬਾਕੀ ਬਚੀ ਸਮਰੱਥਾ ਨੂੰ ਸਭ ਤੋਂ ਵੱਡੇ ਬਾਕੀ ਬਚੇ ਨਮੂਨਾ ਪੂਲ ਤੋਂ ਪੂਰਕ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।

ਅੰਦਰੂਨੀ-ਬੈਚ ਪ੍ਰੋਸੈਸਿੰਗ: ਵਿਭਿੰਨਤਾ ਬਣਾਈ ਰੱਖਣ ਲਈ ਇੱਕੋ ਬੈਚ ਵਿੱਚ ਨਮੂਨਿਆਂ ਨੂੰ ਬੇਤਰਤੀਬ ਢੰਗ ਨਾਲ ਬਦਲਿਆ ਜਾਂਦਾ ਹੈ।

ਤਰਜੀਹ ਅਨੁਕੂਲਤਾ ਲਈ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ

ਵਿਗਿਆਨਕ ਤਰਕ ਸਿਖਲਾਈ ਨੂੰ ਪੂਰਾ ਕਰਨ ਤੋਂ ਬਾਅਦ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ LN-Super ਅਤੇ LN-Ultra ਮਾਡਲਾਂ ਲਈ ਇੱਕ ਸੰਖੇਪ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਪੜਾਅ ਕਰਵਾਇਆ, ਉਹਨਾਂ ਦੀ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਦੀਆਂ ਯੋਗਤਾਵਾਂ ਵਿੱਚ ਸੁਧਾਰ ਕਰਨ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ।

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮਾਡਲਾਂ ਦੀਆਂ ਗਣਿਤ, ਵਿਗਿਆਨ, ਅਤੇ ਹੋਰ ਖੇਤਰਾਂ ਵਿੱਚ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦੇ ਹੋਏ ਉਹਨਾਂ ਦੀਆਂ ਆਮ ਮਦਦ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਚੈਟ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ RLHF ਦੀ ਵਰਤੋਂ ਵੀ ਕੀਤੀ।

LN-Super ਨੇ Arena Hard ਟੈਸਟ ਵਿੱਚ 88.3 ਦਾ ਉੱਚ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਜੋ Claude 3.5 Sonnet ਅਤੇ GPT-4o-2024-05-13 ਵਰਗੇ ਮਲਕੀਅਤੀ ਮਾਡਲਾਂ ਨੂੰ ਪਛਾੜ ਗਿਆ, ਅਤੇ ਵੱਡੇ ਓਪਨ-ਸੋਰਸ ਮਾਡਲਾਂ ਨਾਲੋਂ ਵੀ ਬਿਹਤਰ ਰਿਹਾ।

ਇਸ ਨਤੀਜੇ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ, ਉਹਨਾਂ ਨੇ "ਔਨਲਾਈਨ ਰਿਵਾਰਡ-ਪਾਲਿਸੀ ਔਪਟੀਮਾਈਜ਼ੇਸ਼ਨ" ਵਿਧੀ ਨੂੰ ਅਪਣਾਇਆ, HelpSteer2 ਡੇਟਾਸੈੱਟ ‘ਤੇ ਮਾਡਲ ਦੇ ਭਵਿੱਖਬਾਣੀ ਇਨਾਮ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕੀਤਾ। ਵਰਤਿਆ ਗਿਆ ਇਨਾਮ ਮਾਡਲ Llama-3.1-Nemotron-70B-Reward ਸੀ।

ਦੋ ਗੇੜਾਂ ਦੀ ਔਨਲਾਈਨ RPO ਸਿਖਲਾਈ ਨੇ Arena Hard ਸਕੋਰ ਨੂੰ 69.1 ਤੋਂ ਵਧਾ ਕੇ 88.1 ਕਰ ਦਿੱਤਾ

LN-Ultra ਲਈ, ਉਹਨਾਂ ਨੇ ਇੱਕ ਸਮਾਨ ਪ੍ਰਕਿਰਿਆ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਪਰ GRPO ਨੂੰ ਅਪਣਾਇਆ।

LN-Nano ਲਈ, ਉਹਨਾਂ ਨੇ ਨੀਤੀ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਸਿਖਲਾਈ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਔਫਲਾਈਨ RPO ਸਿਖਲਾਈ ਦੇ ਦੋ ਗੇੜ ਕਰਵਾਏ।

ਪਹਿਲੇ ਗੇੜ ਵਿੱਚ ਮਾਡਲ ਦੀ ਤਰਕ ਕੰਟਰੋਲ ਕਰਨ ਦੀ ਯੋਗਤਾ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ ਢੁਕਵੇਂ ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ ਦੇ ਨਾਲ ਤਰਕ ਅਤੇ ਗੈਰ-ਤਰਕ ਡੇਟਾ ਨੂੰ ਜੋੜਿਆ ਗਿਆ। ਦੂਜੇ ਗੇੜ ਵਿੱਚ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਦੀਆਂ ਯੋਗਤਾਵਾਂ ਨੂੰ ਸੁਧਾਰਨ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ ਗਿਆ।

ਮੁਲਾਂਕਣ ਨਤੀਜੇ: ਇੱਕ ਵਿਆਪਕ ਮੁਲਾਂਕਣ

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਤਰਕ ਕਾਰਜਾਂ ਅਤੇ ਗੈਰ-ਤਰਕ ਕਾਰਜਾਂ ਦੋ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਸਾਰੇ Llama-Nemotron ਮਾਡਲਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ।

ਤਰਕ ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ: AIME24 ਅਤੇ AIME25, GPQA-Diamond, LiveCodeBench, ਅਤੇ MATH500।

ਗੈਰ-ਤਰਕ ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ: ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਮੁਲਾਂਕਣ ਲਈ IFEval, ਫੰਕਸ਼ਨ ਕਾਲ ਟੂਲ ਵਰਤੋਂ ਮੁਲਾਂਕਣ ਲਈ BFCL V2 Live, ਅਤੇ ਮਨੁੱਖੀ ਗੱਲਬਾਤ ਤਰਜੀਹਾਂ ਨਾਲ ਅਲਾਈਨਮੈਂਟ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ Arena-Hard।

LN-Nano ਨੇ ਆਪਣੇ ਛੋਟੇ ਆਕਾਰ ਦੇ ਬਾਵਜੂਦ, ਸਾਰੇ ਤਰਕ ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਾਪਤ ਕੀਤਾ।

ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਪ੍ਰਕਿਰਿਆਵਾਂ ਅਤੇ ਚੰਗੀ ਤਰ੍ਹਾਂ ਤਿਆਰ ਕੀਤੇ ਗਏ ਤਰਕ ਡੇਟਾਸੈੱਟ ਛੋਟੇ ਮਾਡਲਾਂ ਵਿੱਚ ਢਾਂਚਾਗਤ ਤਰਕ ਯੋਗਤਾਵਾਂ ਨੂੰ ਟ੍ਰਾਂਸਫਰ ਕਰਨ ਵਿੱਚ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹਨ।

LN-Super ਨੇ ਸਮਾਨ ਪੈਰਾਮੀਟਰ ਸਕੇਲ ਦੇ ਹੋਰ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਤਰਕ ਅਤੇ ਗੈਰ-ਤਰਕ ਦੋਵਾਂ ਕਾਰਜਾਂ ਵਿੱਚ ਮਜ਼ਬੂਤ ਪ੍ਰਤੀਯੋਗੀਤਾ ਦਿਖਾਈ।

"ਤਰਕ ਬੰਦ" ਮੋਡ ਵਿੱਚ, LN-Super ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਇਸਦੇ ਡਿਸਟਿਲੇਸ਼ਨ ਸਰੋਤ ਮਾਡਲ, Llama-3.3-70B ਦੇ ਬਰਾਬਰ ਸੀ; "ਤਰਕ ਚਾਲੂ" ਮੋਡ ਵਿੱਚ, ਇਸਨੇ DeepSeek-R1-Distilled-Llama-70B ਵਰਗੇ ਹੋਰ ਪ੍ਰਤੀਯੋਗੀ ਮਾਡਲਾਂ ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ, ਜੋ ਚੰਗੀ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਦੀ ਯੋਗਤਾ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦੇ ਹੋਏ ਮਜ਼ਬੂਤ ਤਰਕ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।

ਇਹ ਨਤੀਜੇ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ LN-Super ਇੱਕ ਬਹੁਮੁਖੀ ਮਾਡਲ ਹੈ ਜੋ ਤਰਕ-ਅਨੁਕੂਲਿਤ ਮਾਡਲਾਂ ਅਤੇ ਗੈਰ-ਤਰਕ ਮਾਡਲਾਂ ਦੇ ਫਾਇਦਿਆਂ ਨੂੰ ਜੋੜਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਰੋਜ਼ਾਨਾ ਸਹਾਇਕ ਕਾਰਜਾਂ ਅਤੇ ਢਾਂਚਾਗਤ ਤਰਕ ਕਾਰਜਾਂ ਲਈ ਢੁਕਵਾਂ ਹੈ।

LN-Ultra ਨੇ ਤਰਕ ਅਤੇ ਗੈਰ-ਤਰਕ ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਸਾਰੇ ਮੌਜੂਦਾ ਓਪਨ-ਸੋਰਸ ਵਜ਼ਨ ਮਾਡਲਾਂ ਦੇ ਬਰਾਬਰ ਜਾਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਇਸਨੇ GPQA ‘ਤੇ ਓਪਨ-ਸੋਰਸ ਮਾਡਲਾਂ ਵਿੱਚ ਸਭ ਤੋਂ ਉੱਨਤ ਪੱਧਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, Nvidia ਖੋਜਕਰਤਾਵਾਂ ਦੇ ਵੱਡੇ ਪੈਮਾਨੇ ‘ਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਸਿਖਲਾਈ ਵਿਧੀਆਂ ਦੀ ਪ੍ਰਭਾਵਸ਼