ਮੁਹਾਰਤ ਦੀ ਚੁਣੌਤੀ: ਤਕਨੀਕੀ ਸਰਹੱਦਾਂ ਲਈ AI ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣਾ
ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ (LLMs) ਨੇ ਬਿਨਾਂ ਸ਼ੱਕ ਸਾਡੇ ਜਾਣਕਾਰੀ ਨਾਲ ਗੱਲਬਾਤ ਕਰਨ ਅਤੇ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਨਾਲ ਜੁੜੇ ਕੰਮਾਂ ਨੂੰ ਸਵੈਚਾਲਤ ਕਰਨ ਦੇ ਤਰੀਕੇ ਵਿੱਚ ਕ੍ਰਾਂਤੀ ਲਿਆ ਦਿੱਤੀ ਹੈ। Llama ਅਤੇ Mistral ਵਰਗੇ ਦਿੱਗਜ, ਆਪਣੇ ਓਪਨ-ਸੋਰਸ ਰੂਪਾਂ ਵਿੱਚ ਵੀ, ਟੈਕਸਟ ਨੂੰ ਸਮਝਣ ਅਤੇ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਕਮਾਲ ਦੀ ਰਵਾਨਗੀ ਦਿਖਾਉਂਦੇ ਹਨ ਜੋ ਅਕਸਰ ਮਨੁੱਖੀ ਆਉਟਪੁੱਟ ਦਾ ਮੁਕਾਬਲਾ ਕਰਦਾ ਹੈ। ਉਹਨਾਂ ਦੀ ਮੁਹਾਰਤ ਇੱਕ ਵਿਸ਼ਾਲ ਲੈਂਡਸਕੇਪ ਵਿੱਚ ਫੈਲੀ ਹੋਈ ਹੈ, ਰੋਜ਼ਾਨਾ ਦੀ ਗੱਲਬਾਤ ਤੋਂ ਲੈ ਕੇ ਗੁੰਝਲਦਾਰ ਸੰਖੇਪੀਕਰਨ ਤੱਕ। ਹਾਲਾਂਕਿ, ਵਿਗਿਆਨ ਅਤੇ ਇੰਜੀਨੀਅਰਿੰਗ ਦੇ ਵਿਸ਼ੇਸ਼, ਸ਼ਬਦਾਵਲੀ-ਭਰਪੂਰ ਖੇਤਰਾਂ—ਜਿਵੇਂ ਕਿ ਪਦਾਰਥ ਵਿਗਿਆਨ ਜਾਂ ਬਾਇਓਮੈਟਰੀਓਮਿਕਸ—ਵਿੱਚ ਉੱਦਮ ਕਰਨਾ ਇੱਕ ਵਿਲੱਖਣ ਰੁਕਾਵਟ ਪੇਸ਼ ਕਰਦਾ ਹੈ।
ਇਹ ਤਕਨੀਕੀ ਡੋਮੇਨ ਆਮ ਗਿਆਨ ਤੋਂ ਵੱਧ ਦੀ ਮੰਗ ਕਰਦੇ ਹਨ; ਉਹਨਾਂ ਨੂੰ ਡੂੰਘੀ, ਸੂਖਮ ਸਮਝ, ਖਾਸ ਸਿਧਾਂਤਾਂ ‘ਤੇ ਤਰਕ ਕਰਨ ਦੀ ਯੋਗਤਾ, ਅਤੇ ਵਿਸ਼ੇਸ਼ ਸ਼ਬਦਾਵਲੀ ਅਤੇ ਡਾਟਾ ਢਾਂਚਿਆਂ ਨਾਲ ਜਾਣੂ ਹੋਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਸਟੈਂਡਰਡ LLMs, ਜੋ ਵਿਆਪਕ ਵੈੱਬ ਕਾਰਪੋਰਾ ‘ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਹੁੰਦੇ ਹਨ, ਅਕਸਰ ਇਹਨਾਂ ਮੰਗਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨ ਵੇਲੇ ਅਸਫਲ ਹੋ ਜਾਂਦੇ ਹਨ। ਇਸ ਲਈ, ਚੁਣੌਤੀ ਡੋਮੇਨ ਅਨੁਕੂਲਨ ਵਿੱਚ ਹੈ: ਅਸੀਂ ਇਹਨਾਂ ਸ਼ਕਤੀਸ਼ਾਲੀ ਜਨਰਲਿਸਟ ਮਾਡਲਾਂ ਨੂੰ ਬਹੁਤ ਖਾਸ ਖੇਤਰਾਂ ਵਿੱਚ ਮਾਹਰ ਸਹਾਇਕ ਬਣਨ ਲਈ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਕਿਵੇਂ ਤਿਆਰ ਕਰ ਸਕਦੇ ਹਾਂ?
ਸਿਰਫ਼ ਹੋਰ ਵਿਸ਼ੇਸ਼ ਡਾਟਾ ਫੀਡ ਕਰਨਾ ਹਮੇਸ਼ਾ ਜਵਾਬ ਨਹੀਂ ਹੁੰਦਾ, ਨਾ ਹੀ ਇਹ ਹਮੇਸ਼ਾ ਸੰਭਵ ਹੁੰਦਾ ਹੈ। ਇਹਨਾਂ ਵਿਸ਼ਾਲ ਮਾਡਲਾਂ ਨੂੰ ਸ਼ੁਰੂ ਤੋਂ ਸਿਖਲਾਈ ਦੇਣਾ ਬਹੁਤ ਮਹਿੰਗਾ ਹੈ, ਅਤੇ ਉਹਨਾਂ ਦੀ ਸ਼ੁਰੂਆਤੀ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਲਈ ਵਰਤੇ ਗਏ ਅਸਲ, ਵਿਸ਼ਾਲ ਡਾਟਾਸੈੱਟ ਆਮ ਤੌਰ ‘ਤੇ ਪਹੁੰਚਯੋਗ ਨਹੀਂ ਹੁੰਦੇ ਹਨ। ਇਹ ਖਾਸ ਤੌਰ ‘ਤੇ ਪ੍ਰਸਿੱਧ ਓਪਨ-ਸੋਰਸ ਮਾਡਲਾਂ ਲਈ ਸੱਚ ਹੈ ਜਿੱਥੇ, ਕੁਝ ਪਾਰਦਰਸ਼ਤਾ ਦੇ ਬਾਵਜੂਦ, ਪੂਰੀ ਵਿਧੀ—ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ, ਫਾਈਨ-ਟਿਊਨਿੰਗ, ਅਤੇ ਅਲਾਈਨਮੈਂਟ ਦੌਰਾਨ ਵਰਤੇ ਗਏ ਸਹੀ ਡਾਟਾ ਮਿਸ਼ਰਣ ਅਤੇ ਕ੍ਰਮ—ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਮਲਕੀਅਤੀ ਰਹਿੰਦੀ ਹੈ। ਖੋਜਕਰਤਾਵਾਂ ਅਤੇ ਇੰਜੀਨੀਅਰਾਂ ਨੂੰ ਮੌਜੂਦਾ ਮਾਡਲਾਂ ਵਿੱਚ ਨਵੇਂ, ਵਿਸ਼ੇਸ਼ ਗਿਆਨ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਲਈ ਮਜ਼ਬੂਤ, ਕੁਸ਼ਲ ਰਣਨੀਤੀਆਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਜਦੋਂ ਕਿ ਉਹਨਾਂ ਦੀ ਸ਼ੁਰੂਆਤੀ ਸਿਖਲਾਈ ਦੌਰਾਨ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ ਵਿਸ਼ਾਲ ਆਮ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਸੁਰੱਖਿਅਤ ਰੱਖਿਆ ਜਾਂਦਾ ਹੈ। ਇਹ ਨਾਜ਼ੁਕ ਸੰਤੁਲਨ ਐਕਟ ਵਿਗਿਆਨਕ ਖੋਜ ਅਤੇ ਇੰਜੀਨੀਅਰਿੰਗ ਨਵੀਨਤਾ ਲਈ ਸੱਚਮੁੱਚ ਉਪਯੋਗੀ AI ਟੂਲ ਬਣਾਉਣ ਲਈ ਸਰਵਉੱਚ ਹੈ, ਜਿਵੇਂ ਕਿ ਵਿਭਿੰਨ ਪੈਮਾਨਿਆਂ ਅਤੇ ਸੰਦਰਭਾਂ ਵਿੱਚ ਜੈਵਿਕ ਪਦਾਰਥ ਡਿਜ਼ਾਈਨ ਪ੍ਰੇਰਨਾ ਦੀ ਪੜਚੋਲ ਕਰਨ ਲਈ ਮਲਟੀਮੋਡਲ ਤਰਕ ਦੇ ਸਮਰੱਥ ਇੰਜਣਾਂ ਦਾ ਵਿਕਾਸ ਕਰਨਾ।
ਸਿਖਲਾਈ ਲੈਂਡਸਕੇਪ ਦਾ ਚਾਰਟਿੰਗ: ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਤੋਂ ਤਰਜੀਹ ਅਨੁਕੂਲਨ ਤੱਕ
ਡੋਮੇਨ-ਵਿਸ਼ੇਸ਼ LLM ਮੁਹਾਰਤ ਦੇ ਮਾਰਗ ‘ਤੇ ਨੈਵੀਗੇਟ ਕਰਨ ਵਿੱਚ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਰਣਨੀਤੀਆਂ ਦੇ ਇੱਕ ਵਿਭਿੰਨ ਟੂਲਕਿੱਟ ਦੀ ਪੜਚੋਲ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ। ਹਰੇਕ ਪਹੁੰਚ ਮਾਡਲ ਦੇ ਗਿਆਨ ਅਤੇ ਵਿਵਹਾਰ ਨੂੰ ਆਕਾਰ ਦੇਣ ਦਾ ਇੱਕ ਵੱਖਰਾ ਤਰੀਕਾ ਪੇਸ਼ ਕਰਦੀ ਹੈ।
ਨਿਰੰਤਰ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ (CPT): ਇਸ ਰਣਨੀਤੀ ਵਿੱਚ ਸ਼ੁਰੂਆਤੀ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਪੜਾਅ ਨੂੰ ਵਧਾਉਣਾ ਸ਼ਾਮਲ ਹੈ, ਪਰ ਇਸ ਵਾਰ ਇੱਕ ਕਾਰਪਸ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਜੋ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਟੀਚਾ ਡੋਮੇਨ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ—ਜਿਵੇਂ ਕਿ ਪਦਾਰਥ ਵਿਗਿਆਨ ਖੋਜ ਪੱਤਰਾਂ ਦਾ ਸੰਗ੍ਰਹਿ। ਟੀਚਾ ਮਾਡਲ ਨੂੰ ਖੇਤਰ ਦੀ ਖਾਸ ਭਾਸ਼ਾ, ਸੰਕਲਪਾਂ ਅਤੇ ਗਿਆਨ ਢਾਂਚਿਆਂ ਵਿੱਚ ਲੀਨ ਕਰਨਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਸਿਰਫ਼ ਕਾਰਜ-ਵਿਸ਼ੇਸ਼ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਨਾਲ ਸੰਭਵ ਹੋਣ ਨਾਲੋਂ ਡੂੰਘਾਈ ਨਾਲ ਡੋਮੇਨ-ਵਿਸ਼ੇਸ਼ ਜਾਣਕਾਰੀ ਨੂੰ ਜਜ਼ਬ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਸੰਬੰਧਿਤ ਗਿਆਨ ਦੀ ਨੀਂਹ ਰੱਖਦਾ ਹੈ।
ਨਿਗਰਾਨੀ ਅਧੀਨ ਫਾਈਨ-ਟਿਊਨਿੰਗ (SFT): CPT ਤੋਂ ਬਾਅਦ ਜਾਂ ਇੱਕ ਬੇਸ ਮਾਡਲ ਤੋਂ ਸ਼ੁਰੂ ਕਰਦੇ ਹੋਏ, SFT ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਮਾਡਲ ਨੂੰ ਸਿਖਾਉਂਦਾ ਹੈ ਕਿ ਖਾਸ ਕਾਰਜ ਕਿਵੇਂ ਕਰਨੇ ਹਨ। ਇਹ ਇਨਪੁਟ-ਆਉਟਪੁੱਟ ਜੋੜਿਆਂ ਦੇ ਕਿਉਰੇਟਿਡ ਡਾਟਾਸੈਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਅਕਸਰ ਨਿਰਦੇਸ਼ਾਂ ਅਤੇ ਲੋੜੀਂਦੇ ਜਵਾਬਾਂ, ਜਾਂ ਡੋਮੇਨ ਨਾਲ ਸੰਬੰਧਿਤ ਪ੍ਰਸ਼ਨਾਂ ਅਤੇ ਸਹੀ ਉੱਤਰਾਂ ਦੇ ਰੂਪ ਵਿੱਚ ਫਾਰਮੈਟ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। SFT ਮਾਡਲ ਦੀ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ, ਵਿਸ਼ੇਸ਼ ਸੰਦਰਭ ਵਿੱਚ ਸਵਾਲਾਂ ਦੇ ਸਹੀ ਜਵਾਬ ਦੇਣ, ਅਤੇ ਲੋੜੀਂਦੇ ਆਉਟਪੁੱਟ ਫਾਰਮੈਟਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਦੀ ਯੋਗਤਾ ਨੂੰ ਨਿਖਾਰਦਾ ਹੈ।
ਲੋ-ਰੈਂਕ ਅਡੈਪਟੇਸ਼ਨ (LoRA): ਹਾਲਾਂਕਿ ਇੱਥੇ ਮੁੱਖ ਫੋਕਸ ਨਹੀਂ ਹੈ, LoRA ਇੱਕ ਕੁਸ਼ਲ ਵਿਕਲਪ ਜਾਂ ਪੂਰਕ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਪੂਰੇ ਮਾਡਲ ਨੂੰ ਮੁੜ ਸਿਖਲਾਈ ਦੇਣ ਦੀ ਬਜਾਏ, LoRA ਛੋਟੀਆਂ, ਸਿਖਲਾਈ ਯੋਗ ‘ਅਡਾਪਟਰ’ ਪਰਤਾਂ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਇਹ ਬਹੁਤ ਘੱਟ ਕੰਪਿਊਟੇਸ਼ਨਲ ਲਾਗਤ ਨਾਲ ਮਹੱਤਵਪੂਰਨ ਅਨੁਕੂਲਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਹਾਲਾਂਕਿ ਇਸ ਵਿੱਚ ਸੀਮਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ ਕਿ CPT ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਕਿੰਨਾ ਬੁਨਿਆਦੀ ਤੌਰ ‘ਤੇ ਨਵਾਂ ਗਿਆਨ ਏਕੀਕ੍ਰਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
ਤਰਜੀਹ-ਅਧਾਰਤ ਅਨੁਕੂਲਨ: ਸਧਾਰਨ ਕਾਰਜ ਸੰਪੂਰਨਤਾ ਤੋਂ ਪਰੇ ਜਾ ਕੇ, ਤਰਜੀਹ ਅਨੁਕੂਲਨ ਦਾ ਉਦੇਸ਼ ਮਾਡਲ ਦੇ ਆਉਟਪੁੱਟ ਨੂੰ ਮਨੁੱਖੀ ਨਿਰਣੇ ਜਾਂ ਮਦਦਗਾਰਤਾ, ਨੁਕਸਾਨ ਰਹਿਤਤਾ, ਅਤੇ ਤਰਕ ਵਿੱਚ ਸ਼ੁੱਧਤਾ ਵਰਗੇ ਖਾਸ ਮਾਪਦੰਡਾਂ ਨਾਲ ਵਧੇਰੇ ਨੇੜਿਓਂ ਇਕਸਾਰ ਕਰਨਾ ਹੈ। ਸਿਰਫ਼ ਪੂਰਵ-ਪ੍ਰਭਾਸ਼ਿਤ ‘ਸਹੀ’ ਜਵਾਬਾਂ ‘ਤੇ ਭਰੋਸਾ ਕਰਨ ਦੀ ਬਜਾਏ (ਜਿਵੇਂ ਕਿ SFT ਵਿੱਚ), ਇਹ ਵਿਧੀਆਂ ਤੁਲਨਾਵਾਂ ਤੋਂ ਸਿੱਖਦੀਆਂ ਹਨ।
- ਡਾਇਰੈਕਟ ਪ੍ਰੈਫਰੈਂਸ ਓਪਟੀਮਾਈਜੇਸ਼ਨ (DPO): DPO ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਜਵਾਬਾਂ ਦੇ ਜੋੜਿਆਂ ਤੋਂ ਸਿੱਖਦਾ ਹੈ ਜਿੱਥੇ ਇੱਕ ਨੂੰ ਦੂਜੇ ਨਾਲੋਂ ਤਰਜੀਹ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ (ਉਦਾਹਰਨ ਲਈ, ਇੱਕ ਮਨੁੱਖੀ ਮੁਲਾਂਕਣਕਰਤਾ ਜਾਂ ਕਿਸੇ ਹੋਰ AI ਦੁਆਰਾ)। ਇਹ ਇੱਕ ਵੱਖਰੇ ਇਨਾਮ ਮਾਡਲ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਤਰਜੀਹੀ ਜਵਾਬ ਪੈਦਾ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਵਧਾਉਣ ਲਈ ਮਾਡਲ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਂਦਾ ਹੈ, ਰਵਾਇਤੀ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਫਰਾਮ ਹਿਊਮਨ ਫੀਡਬੈਕ (RLHF) ਪਾਈਪਲਾਈਨ ਨੂੰ ਸਰਲ ਬਣਾਉਂਦਾ ਹੈ।
- ਔਡਸ ਰੇਸ਼ੋ ਪ੍ਰੈਫਰੈਂਸ ਓਪਟੀਮਾਈਜੇਸ਼ਨ (ORPO): ਇੱਕ ਨਵਾਂ ਪ੍ਰਵੇਸ਼ਕਰਤਾ, ORPO ਅਨੁਕੂਲਨ ਉਦੇਸ਼ ਨੂੰ ਸੋਧਦਾ ਹੈ, ਕਈ ਵਾਰ DPO ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਜਾਂ ਸਥਿਰਤਾ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਇੱਕ ਡੋਮੇਨ ਦੇ ਅੰਦਰ ਖਾਸ ਸ਼ੈਲੀਗਤ ਜਾਂ ਤਰਕ ਮਾਪਦੰਡਾਂ ਵੱਲ ਮਾਡਲਾਂ ਨੂੰ ਇਕਸਾਰ ਕਰਨ ਵਿੱਚ।
ਇਹ ਤਕਨੀਕਾਂ ਆਪਸ ਵਿੱਚ ਨਿਵੇਕਲੀਆਂ ਨਹੀਂ ਹਨ; ਉਹਨਾਂ ਨੂੰ ਅਕਸਰ ਕ੍ਰਮਵਾਰ ਜਾਂ ਸੁਮੇਲ ਵਿੱਚ ਲਗਾਇਆ ਜਾਂਦਾ ਹੈ, ਗੁੰਝਲਦਾਰ ਸਿਖਲਾਈ ਪਾਈਪਲਾਈਨਾਂ ਬਣਾਉਂਦੀਆਂ ਹਨ। ਇੱਕ ਆਮ ਕ੍ਰਮ ਵਿੱਚ ਡੋਮੇਨ ਗਿਆਨ ਬਣਾਉਣ ਲਈ CPT ਸ਼ਾਮਲ ਹੋ ਸਕਦਾ ਹੈ, ਇਸ ਤੋਂ ਬਾਅਦ ਕਾਰਜ ਕੁਸ਼ਲਤਾ ਲਈ SFT, ਅਤੇ ਅੰਤ ਵਿੱਚ ਅਲਾਈਨਮੈਂਟ ਅਤੇ ਸੁਧਾਈ ਲਈ DPO ਜਾਂ ORPO ਸ਼ਾਮਲ ਹੋ ਸਕਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਅਨੁਕੂਲ ਸੁਮੇਲ ਅਤੇ ਕ੍ਰਮ ਖੋਜ ਦੇ ਸਰਗਰਮ ਖੇਤਰ ਬਣੇ ਹੋਏ ਹਨ, ਖਾਸ ਤੌਰ ‘ਤੇ ਵਿਸ਼ੇਸ਼ ਵਿਗਿਆਨਕ ਡੋਮੇਨਾਂ ਵਿੱਚ ਸਿਖਰ ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ।
ਸਧਾਰਨ ਟਿਊਨਿੰਗ ਤੋਂ ਪਰੇ: ਮਾਡਲਾਂ ਨੂੰ ਮਿਲਾਉਣ ਦਾ ਵਾਅਦਾ
ਜਦੋਂ ਕਿ ਕ੍ਰਮਵਾਰ ਸਿਖਲਾਈ ਪੜਾਵਾਂ ਦੁਆਰਾ ਇੱਕ ਸਿੰਗਲ ਮਾਡਲ ਨੂੰ ਸੁਧਾਰਨ ਨਾਲ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਹੋ ਸਕਦੇ ਹਨ, ਇੱਕ ਹੋਰ ਦਿਲਚਸਪ ਰਸਤਾ ਸਾਹਮਣੇ ਆਇਆ ਹੈ: ਮਾਡਲ ਮਰਜਿੰਗ। ਇਸ ਅਭਿਆਸ ਵਿੱਚ ਦੋ ਜਾਂ ਦੋ ਤੋਂ ਵੱਧ ਵੱਖਰੇ ਤੌਰ ‘ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲਾਂ ਨੂੰ ਲੈਣਾ ਅਤੇ ਉਹਨਾਂ ਦੇ ਮਾਪਦੰਡਾਂ—ਉਹਨਾਂ ਦੇ ਅੰਦਰੂਨੀ ‘ਵਜ਼ਨ’—ਨੂੰ ਮਿਲਾ ਕੇ ਇੱਕ ਸਿੰਗਲ, ਨਵਾਂ ਹਾਈਬ੍ਰਿਡ ਮਾਡਲ ਬਣਾਉਣਾ ਸ਼ਾਮਲ ਹੈ।
ਅਜਿਹਾ ਫਿਊਜ਼ਨ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਿਉਂ ਕਰੀਏ? ਮੁੱਖ ਵਿਚਾਰ ਮਾਪਿਆਂ ਦੇ ਮਾਡਲਾਂ ਦੀਆਂ ਸ਼ਕਤੀਆਂ ਨੂੰ ਤਾਲਮੇਲ ਨਾਲ ਜੋੜਨਾ ਹੈ। ਇੱਕ ਮਾਡਲ ਦੀ ਕਲਪਨਾ ਕਰੋ ਜੋ ਪਦਾਰਥ ਵਿਗਿਆਨ ਸਾਹਿਤ (CPT ਅਤੇ SFT ਦੁਆਰਾ) ‘ਤੇ ਮੁਹਾਰਤ ਨਾਲ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਹੈ ਅਤੇ ਦੂਜਾ ਆਮ-ਉਦੇਸ਼ ‘instruct’ ਮਾਡਲ ਜੋ ਗੁੰਝਲਦਾਰ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਅਤੇ ਇਕਸਾਰ ਸੰਵਾਦ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਣ ਵਿੱਚ ਬਹੁਤ ਮਾਹਰ ਹੈ। ਉਹਨਾਂ ਨੂੰ ਮਿਲਾਉਣ ਨਾਲ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਇੱਕ ਅਜਿਹਾ ਮਾਡਲ ਬਣ ਸਕਦਾ ਹੈ ਜਿਸ ਵਿੱਚ ਡੂੰਘੇ ਡੋਮੇਨ ਗਿਆਨ ਅਤੇ ਸ਼ਾਨਦਾਰ ਗੱਲਬਾਤ ਅਤੇ ਨਿਰਦੇਸ਼-ਪਾਲਣਾ ਯੋਗਤਾਵਾਂ ਦੋਵੇਂ ਹੋਣ।
ਸ਼ੁਰੂਆਤੀ ਖੋਜਾਂ ਨੇ ਸੰਕੇਤ ਦਿੱਤਾ ਕਿ ਇਹ ਪ੍ਰਕਿਰਿਆ ਸਧਾਰਨ ਔਸਤ ਤੋਂ ਵੱਧ ਹੋ ਸਕਦੀ ਹੈ। ਸਿਰਫ਼ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਮਿਲਾਉਣ ਦੀ ਬਜਾਏ, ਮਰਜਿੰਗ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਵੀਆਂ, ਉੱਭਰਦੀਆਂ ਕਾਰਜਕੁਸ਼ਲਤਾਵਾਂ ਨੂੰ ਅਨਲੌਕ ਕਰ ਸਕਦੀ ਹੈ—ਯੋਗਤਾਵਾਂ ਜੋ ਕਿਸੇ ਵੀ ਮਾਪੇ ਮਾਡਲ ਵਿੱਚ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਮੌਜੂਦ ਨਹੀਂ ਹਨ। ਇਹ ਮਰਜ ਦੇ ਦੌਰਾਨ ਮਾਪਦੰਡਾਂ ਵਿਚਕਾਰ ਇੱਕ ਬਹੁਤ ਹੀ ਗੈਰ-ਲੀਨੀਅਰ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਇਸਦੇ ਹਿੱਸਿਆਂ ਦੇ ਜੋੜ ਤੋਂ ਵੱਧ ਇੱਕ ਪੂਰੇ ਵੱਲ ਲੈ ਜਾਂਦਾ ਹੈ। ਜੇਕਰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਅਤੇ ਨਿਯੰਤਰਣਯੋਗ ਸਾਬਤ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਮਾਡਲ ਮਰਜਿੰਗ LLM ਸਮਰੱਥਾਵਾਂ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣ, ਗੁੰਝਲਦਾਰ, ਅਸਲ-ਸੰਸਾਰ ਵਿਗਿਆਨਕ ਅਤੇ ਇੰਜੀਨੀਅਰਿੰਗ ਚੁਣੌਤੀਆਂ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਬਹੁਤ ਹੀ ਅਨੁਕੂਲ ਅਤੇ ਸ਼ਕਤੀਸ਼ਾਲੀ AI ਸਿਸਟਮ ਬਣਾਉਣ ਲਈ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ, ਪਰਿਵਰਤਨਸ਼ੀਲ ਸਾਧਨ ਦੀ ਨੁਮਾਇੰਦਗੀ ਕਰ ਸਕਦੀ ਹੈ।
SLERP ਦੀ ਸ਼ਕਤੀ ਦਾ ਪਰਦਾਫਾਸ਼: ਮਰਜਿੰਗ ਲਈ ਇੱਕ ਜਿਓਮੈਟ੍ਰਿਕ ਪਹੁੰਚ
ਮਾਡਲ ਮਰਜਿੰਗ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਇਸ ਗੱਲ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ ਕਿ ਮਾਪਿਆਂ ਦੇ ਮਾਡਲਾਂ ਦੇ ਮਾਪਦੰਡਾਂ ਨੂੰ ਕਿਵੇਂ ਜੋੜਿਆ ਜਾਂਦਾ ਹੈ। ਇੱਕ ਸਧਾਰਨ ਲੀਨੀਅਰ ਔਸਤ (ਅਕਸਰ ਲੀਨੀਅਰ ਇੰਟਰਪੋਲੇਸ਼ਨ ਜਾਂ LERP ਕਿਹਾ ਜਾਂਦਾ ਹੈ) ਅਨੁਭਵੀ ਲੱਗ ਸਕਦਾ ਹੈ, ਪਰ ਇਹ ਅਕਸਰ ਉਪ-ਅਨੁਕੂਲ ਨਤੀਜਿਆਂ ਵੱਲ ਲੈ ਜਾਂਦਾ ਹੈ ਜਾਂ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਵੀ ਘਟਾਉਂਦਾ ਹੈ। ਇਹ ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ ਇਸ ਲਈ ਹੈ ਕਿਉਂਕਿ LLMs ਦਾ ਉੱਚ-ਅਯਾਮੀ ਪੈਰਾਮੀਟਰ ਸਪੇਸ ਸਮਤਲ ਨਹੀਂ ਹੈ; ਇਸ ਵਿੱਚ ਇੱਕ ਗੁੰਝਲਦਾਰ, ਕਰਵਡ ਜਿਓਮੈਟਰੀ ਹੈ। ਲੀਨੀਅਰ ਇੰਟਰਪੋਲੇਸ਼ਨ ਇਸ ਸਪੇਸ ਦੇ ਅੰਦਰ ‘ਡੈੱਡ ਜ਼ੋਨ’ ਜਾਂ ਉੱਚ-ਨੁਕਸਾਨ ਵਾਲੇ ਖੇਤਰਾਂ ਵਿੱਚੋਂ ਲੰਘਣ ਦਾ ਜੋਖਮ ਰੱਖਦਾ ਹੈ, ਮਾਪਿਆਂ ਦੇ ਮਾਡਲਾਂ ਦੀਆਂ ਧਿਆਨ ਨਾਲ ਸਿੱਖੀਆਂ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਖਿੰਡਾਉਂਦਾ ਹੈ।
ਸਫੈਰੀਕਲ ਲੀਨੀਅਰ ਇੰਟਰਪੋਲੇਸ਼ਨ (SLERP) ਦਾਖਲ ਕਰੋ। ਅਸਲ ਵਿੱਚ ਕੰਪਿਊਟਰ ਗ੍ਰਾਫਿਕਸ ਵਿੱਚ ਰੋਟੇਸ਼ਨਾਂ ਦੇ ਨਿਰਵਿਘਨ ਐਨੀਮੇਸ਼ਨ ਲਈ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ, SLERP ਦੋ ਬਿੰਦੂਆਂ (ਇਸ ਕੇਸ ਵਿੱਚ, ਦੋ ਮਾਡਲਾਂ ਦੇ ਪੈਰਾਮੀਟਰ ਵੈਕਟਰ) ਦੇ ਵਿਚਕਾਰ ਇੱਕ ਹਾਈਪਰਸਫੀਅਰ ਦੀ ਸਤ੍ਹਾ ਦੇ ਨਾਲ ਸਭ ਤੋਂ ਛੋਟੇ ਮਾਰਗ ਦੀ ਪਾਲਣਾ ਕਰਕੇ ਇੰਟਰਪੋਲੇਟ ਕਰਨ ਦਾ ਇੱਕ ਜਿਓਮੈਟ੍ਰਿਕ ਤੌਰ ‘ਤੇ ਵਧੀਆ ਤਰੀਕਾ ਪੇਸ਼ ਕਰਦਾ ਹੈ।
ਦੋ ਮਾਪਿਆਂ ਦੇ ਮਾਡਲਾਂ ਦੇ ਪੈਰਾਮੀਟਰ ਸੈੱਟਾਂ ਨੂੰ ਇੱਕ ਵਿਸ਼ਾਲ ਗੋਲੇ ਦੀ ਸਤ੍ਹਾ ‘ਤੇ ਦੋ ਬਿੰਦੂਆਂ ਵਜੋਂ ਕਲਪਨਾ ਕਰੋ।
- LERP ਬਿੰਦੂਆਂ ਨੂੰ ਜੋੜਦੇ ਹੋਏ ਗੋਲੇ ਵਿੱਚੋਂ ਇੱਕ ਸਿੱਧੀ ਰੇਖਾ ਖਿੱਚੇਗਾ। ਇਹ ਮਾਰਗ ਸਤ੍ਹਾ ‘ਤੇ ਨਹੀਂ ਰਹਿ ਸਕਦਾ ਹੈ ਅਤੇ ਖਰਾਬ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲੇ ਮਾਡਲਾਂ ਨੂੰ ਦਰਸਾਉਂਦੇ ਖੇਤਰਾਂ ਵਿੱਚੋਂ ਲੰਘ ਸਕਦਾ ਹੈ।
- SLERP, ਇਸਦੇ ਉਲਟ, ਗੋਲੇ ਦੀ ਕਰਵਡ ਸਤ੍ਹਾ ਦੇ ਨਾਲ ਯਾਤਰਾ ਕਰਦਾ ਹੈ। ਇਹ ਮਾਰਗ ਅੰਦਰੂਨੀ ਤੌਰ ‘ਤੇ ਪੈਰਾਮੀਟਰ ਸਪੇਸ ਦੀ ਅੰਤਰੀਵ ਜਿਓਮੈਟ੍ਰਿਕ ਬਣਤਰ ਦਾ ਸਨਮਾਨ ਕਰਦਾ ਹੈ।
LLMs ਨੂੰ ਮਿਲਾਉਣ ਲਈ ਇਹ ਗੋਲਾਕਾਰ ਮਾਰਗ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਉੱਤਮ ਕਿਉਂ ਹੈ?
- ਢਾਂਚਾ ਸੰਭਾਲ: ‘ਗੋਲੇ ‘ਤੇ’ ਰਹਿ ਕੇ, SLERP ਮਾਪਦੰਡਾਂ ਵਿਚਕਾਰ ਜਿਓਮੈਟ੍ਰਿਕ ਸਬੰਧਾਂ ਨੂੰ ਕਾਇਮ ਰੱਖਦਾ ਹੈ, ਹਰੇਕ ਮਾਪੇ ਮਾਡਲ ਦੇ ਅੰਦਰ ਸਿੱਖੀਆਂ ਗਈਆਂ ਬਣਤਰਾਂ ਨੂੰ ਇੱਕ ਲੀਨੀਅਰ ਮਾਰਗ ਨਾਲੋਂ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸੁਰੱਖਿਅਤ ਰੱਖਦਾ ਹੈ।
- ਉੱਚ-ਨੁਕਸਾਨ ਵਾਲੇ ਖੇਤਰਾਂ ਤੋਂ ਬਚਣਾ: ਕਰਵਡ ਮਾਰਗ ਦੇ ਪੈਰਾਮੀਟਰ ਸਪੇਸ ਦੇ ਉਹਨਾਂ ਖੇਤਰਾਂ ਨੂੰ ਕੱਟਣ ਦੀ ਸੰਭਾਵਨਾ ਘੱਟ ਹੁੰਦੀ ਹੈ ਜੋ ਉੱਚ ਪੂਰਵ-ਅਨੁਮਾਨ ਦੀਆਂ ਗਲਤੀਆਂ (ਨੁਕਸਾਨ) ਨਾਲ ਜੁੜੇ ਹੁੰਦੇ ਹਨ।
- ਗੈਰ-ਲੀਨੀਅਰ ਸੁਮੇਲ: SLERP ਲਈ ਇੰਟਰਪੋਲੇਸ਼ਨ ਫਾਰਮੂਲਾ ਅੰਦਰੂਨੀ ਤੌਰ ‘ਤੇ ਗੈਰ-ਲੀਨੀਅਰ ਹੈ। ਇਹ ਮਾਪਿਆਂ ਦੇ ਮਾਡਲਾਂ ਤੋਂ ਮਾਪਦੰਡਾਂ ਵਿਚਕਾਰ ਗੁੰਝਲਦਾਰ, ਤਾਲਮੇਲ ਵਾਲੇ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਉਹਨਾਂ ਸੰਜੋਗਾਂ ਨੂੰ ਅਨਲੌਕ ਕਰਦਾ ਹੈ ਜੋ ਨਾਵਲ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਇੱਕ ਮਿਲਾਇਆ ਪੈਰਾਮੀਟਰ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਸਰਗਰਮ ਕਰ ਸਕਦਾ ਹੈ ਜਿਵੇਂ ਕਿ ਕੋਈ ਵੀ ਮਾਪਾ ਇਕੱਲਾ ਨਹੀਂ ਕਰ ਸਕਦਾ ਸੀ।
- ਨਿਰਵਿਘਨ ਤਬਦੀਲੀਆਂ: SLERP ਮਾਪਿਆਂ ਦੇ ਮਾਡਲਾਂ ਦੀਆਂ ਸਥਿਤੀਆਂ ਵਿਚਕਾਰ ਇੱਕ ਗਣਿਤਿਕ ਤੌਰ ‘ਤੇ ਨਿਰਵਿਘਨ ਤਬਦੀਲੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਮਿਲਾਏ ਗਏ ਮਾਡਲ ਵਿੱਚ ਬਿਹਤਰ ਸਧਾਰਨੀਕਰਨ ਵੱਲ ਅਗਵਾਈ ਕਰਦਾ ਹੈ।
ਕਿਉਂਕਿ SLERP ਮਾਡਲ ਦੀ ਅੰਦਰੂਨੀ ਜਿਓਮੈਟਰੀ ਦਾ ਸਨਮਾਨ ਕਰਦਾ ਹੈ ਅਤੇ ਗੈਰ-ਲੀਨੀਅਰ ਪੈਰਾਮੀਟਰ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਦੀ ਸਹੂਲਤ ਦਿੰਦਾ ਹੈ, ਇਸ ਵਿੱਚ ਨਾ ਸਿਰਫ਼ ਔਸਤ ਸਮਰੱਥਾਵਾਂ ਬਲਕਿ ਉਹਨਾਂ ਨੂੰ ਅਸਲ ਵਿੱਚ ਇਸ ਤਰੀਕੇ ਨਾਲ ਮਿਲਾਉਣ ਦੀ ਸਮਰੱਥਾ ਹੈ ਜੋ ਉੱਭਰਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦੀ ਹੈ। ਇਹ ਇਸਨੂੰ ਪਦਾਰਥ ਵਿਗਿਆਨ ਵਰਗੇ ਗੁੰਝਲਦਾਰ ਡੋਮੇਨਾਂ ਲਈ ਨਿਸ਼ਾਨਾ ਬਣਾਏ ਗਏ ਮਾਡਲਾਂ ਨੂੰ ਮਿਲਾਉਣ ਲਈ ਇੱਕ ਖਾਸ ਤੌਰ ‘ਤੇ ਹੋਨਹਾਰ ਉਮੀਦਵਾਰ ਬਣਾਉਂਦਾ ਹੈ, ਜਿੱਥੇ ਸੂਖਮ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਅਤੇ ਸੂਖਮ ਸਮਝ ਮੁੱਖ ਹਨ।
ਸਿਧਾਂਤਾਂ ਨੂੰ ਪਰਖਣਾ: Llama ਅਤੇ Mistral ਪ੍ਰਯੋਗ
ਇਹਨਾਂ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਅਤੇ ਮਰਜਿੰਗ ਰਣਨੀਤੀਆਂ ਦੀ ਸਖਤੀ ਨਾਲ ਜਾਂਚ ਕਰਨ ਲਈ, ਪ੍ਰਸਿੱਧ ਓਪਨ-ਸੋਰਸ ਮਾਡਲ ਪਰਿਵਾਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਪ੍ਰਯੋਗਾਂ ਦੀ ਇੱਕ ਯੋਜਨਾਬੱਧ ਲੜੀ ਕਰਵਾਈ ਗਈ: Llama 3.1 (8 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ) ਅਤੇ Mistral (7 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ)। ਟੀਚਾ ਵੱਖ-ਵੱਖ ਸਿਖਲਾਈ ਪਾਈਪਲਾਈਨਾਂ ਦੀ ਤੁਲਨਾ ਕਰਨਾ ਅਤੇ SLERP ਮਰਜਿੰਗ ਦੇ ਪ੍ਰਭਾਵ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ ਸੀ।
ਪ੍ਰਯੋਗਾਤਮਕ ਡਿਜ਼ਾਈਨ ਵਿੱਚ ਕਈ ਮੁੱਖ ਕਦਮ ਸ਼ਾਮਲ ਸਨ:
- ਬੇਸ ਮਾਡਲ: ਪ੍ਰਯੋਗ ਬੁਨਿਆਦੀ ‘ਬੇਸ’ ਮਾਡਲਾਂ (ਪ੍ਰੀ-ਟ੍ਰੇਨਡ ਪਰ ਨਿਰਦੇਸ਼-ਟਿਊਨਡ ਨਹੀਂ) ਅਤੇ ‘instruct’ ਸੰਸਕਰਣਾਂ (ਪਹਿਲਾਂ ਹੀ ਚੈਟ ਅਤੇ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਲਈ ਫਾਈਨ-ਟਿਊਨਡ) ਦੋਵਾਂ Llama ਅਤੇ Mistral ਪਰਿਵਾਰਾਂ ਲਈ ਸ਼ੁਰੂ ਹੋਏ।
- ਡੋਮੇਨ ਕਾਰਪਸ: ਪਦਾਰਥ ਵਿਗਿਆਨ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਇੱਕ ਵਿਸ਼ੇਸ਼ ਕਾਰਪਸ ਵਿਗਿਆਨਕ ਪ੍ਰਕਾਸ਼ਨਾਂ ਅਤੇ ਪ੍ਰੋਸੈਸਡ ਡਾਟਾ ਤੋਂ ਸੰਕਲਿਤ ਕੀਤਾ ਗਿਆ ਸੀ।
- ਸਿਖਲਾਈ ਪਾਈਪਲਾਈਨਾਂ: ਸਿਖਲਾਈ ਤਕਨੀਕਾਂ ਦੇ ਵੱਖ-ਵੱਖ ਸੰਜੋਗ ਲਾਗੂ ਕੀਤੇ ਗਏ ਸਨ:
- ਸਿਰਫ਼ CPT
- CPT ਤੋਂ ਬਾਅਦ SFT (CPT-SFT)
- CPT-SFT ਤੋਂ ਬਾਅਦ ORPO (CPT-SFT-ORPO)
- CPT-SFT ਤੋਂ ਬਾਅਦ DPO (CPT-SFT-DPO)
- ਕੁਝ ਭਿੰਨਤਾਵਾਂ ਸਿੱਧੇ Instruct ਮਾਡਲ ਤੋਂ ਸ਼ੁਰੂ ਹੁੰਦੀਆਂ ਹਨ (ਉਦਾਹਰਨ ਲਈ, Instruct-CPT-SFT-DPO)।
- ਮਾਡਲ ਮਰਜਿੰਗ: ਬਹੁਤ ਸਾਰੇ ਫਾਈਨ-ਟਿਊਨਡ ਮਾਡਲਾਂ ਲਈ, SLERP ਮਰਜਿੰਗ ਕੀਤੀ ਗਈ ਸੀ, ਆਮ ਤੌਰ ‘ਤੇ ਡੋਮੇਨ-ਅਨੁਕੂਲਿਤ ਮਾਡਲ ਨੂੰ ਉਸੇ ਪਰਿਵਾਰ ਦੇ ਅਨੁਸਾਰੀ ਆਮ-ਉਦੇਸ਼ ‘instruct’ ਮਾਡਲ ਨਾਲ ਜੋੜਿਆ ਜਾਂਦਾ ਸੀ (ਉਦਾਹਰਨ ਲਈ, ਇੱਕ CPT-SFT-DPO Llama ਮਾਡਲ ਨੂੰ ਸਟੈਂਡਰਡ Llama 3.1 Instruct ਮਾਡਲ ਨਾਲ ਮਿਲਾਇਆ ਗਿਆ)।
- ਮੁਲਾਂਕਣ: ਸਾਰੇ ਨਤੀਜੇ ਵਜੋਂ ਮਾਡਲਾਂ (ਮਰਜ ਕੀਤੇ ਅਤੇ ਗੈਰ-ਮਰਜ ਕੀਤੇ ਦੋਵੇਂ) ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ਡੋਮੇਨ ਗਿਆਨ, ਤਰਕ ਅਤੇ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਸੰਬੰਧਿਤ ਬੈਂਚਮਾਰਕਾਂ ਦੇ ਇੱਕ ਸੂਟ ਵਿੱਚ ਕੀਤਾ ਗਿਆ ਸੀ।
Llama ਅਤੇ Mistral ਵਿੱਚ ਮੁੱਖ ਖੋਜਾਂ:
- SLERP ਮਰਜਿੰਗ ਲਗਾਤਾਰ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਵਧਾਉਂਦੀ ਹੈ: ਦੋਵਾਂ ਮਾਡਲ ਪਰਿਵਾਰਾਂ ਅਤੇ ਵੱਖ-ਵੱਖ ਸਿਖਲਾਈ ਪਾਈਪਲਾਈਨਾਂ ਵਿੱਚ, SLERP ਮਰਜਿੰਗ ਦੁਆਰਾ ਵਧਾਏ ਗਏ ਮਾਡਲਾਂ ਨੇ ਆਮ ਤੌਰ ‘ਤੇ ਮੁਲਾਂਕਣ ਬੈਂਚਮਾਰਕਾਂ ‘ਤੇ ਸਭ ਤੋਂ ਵੱਧ ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ। ਇਹ ਇਸ ਪਰਿਕਲਪਨਾ ਦਾ ਜ਼ੋਰਦਾਰ ਸਮਰਥਨ ਕਰਦਾ ਹੈ ਕਿ SLERP ਮਾਡਲ ਦੀਆਂ ਸ਼ਕਤੀਆਂ ਨੂੰ ਜੋੜਨ ਲਈ ਇੱਕ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਕਨੀਕ ਹੈ।
- ਤਾਲਮੇਲ ਪ੍ਰਭਾਵਾਂ ਦੀ ਪੁਸ਼ਟੀ: SLERP-ਮਰਜ ਕੀਤੇ ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਅਕਸਰ ਦੋ ਮਾਪਿਆਂ ਦੇ ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦੇ ਸਧਾਰਨ ਔਸਤ ਤੋਂ ਵੱਧ ਜਾਂਦੀ ਹੈ। ਇਸ ਸੰਭਾਵਿਤ ਔਸਤ ਦੇ ਵਿਰੁੱਧ ਅਸਲ ਪ੍ਰਾਪਤ ਕੀਤੇ ਸਕੋਰ ਨੂੰ ਪਲਾਟ ਕਰਨ ਨਾਲ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸਕਾਰਾਤਮਕ ਭਟਕਣਾ ਦਾ ਖੁਲਾਸਾ ਹੋਇਆ, ਇਸ ਗੱਲ ਦੀ ਪੁਸ਼ਟੀ ਕਰਦਾ ਹੈ ਕਿ ਮਰਜਿੰਗ ਪ੍ਰਕਿਰਿਆ ਅਕਸਰ ਤਾਲਮੇਲ ਲਾਭਾਂ ਅਤੇ ਉੱਭਰਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਅਨਲੌਕ ਕਰਦੀ ਹੈ। ਮਿਲਾਇਆ ਗਿਆ ਹਸਤੀ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਇਸਦੇ ਹਿੱਸਿਆਂ ਦੇ ਜੋੜ ਨਾਲੋਂ ਵਧੇਰੇ ਸਮਰੱਥ ਸੀ।
- ਤਰਜੀਹ ਅਨੁਕੂਲਨ ਮੁੱਲ ਜੋੜਦਾ ਹੈ: ਤਰਜੀਹ ਅਨੁਕੂਲਨ ਪੜਾਵਾਂ (DPO ਜਾਂ ORPO) ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਨਾਲ ਅਕਸਰ ਇੱਕ ਵਾਧੂ ਪ੍ਰਦਰਸ਼ਨ ਲਿਫਟ ਪ੍ਰਦਾਨ ਹੁੰਦੀ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਜਦੋਂ SLERP ਮਰਜਿੰਗ ਨਾਲ ਜੋੜਿਆ ਜਾਂਦਾ ਹੈ। CPT-SFT-DPO-SLERP ਜਾਂ CPT-SFT-ORPO-SLERP ਵਰਗੀਆਂ ਰਣਨੀਤੀਆਂ ਅਕਸਰ ਚੋਟੀ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲਿਆਂ ਵਿੱਚੋਂ ਸਨ।
- ਅਨੁਕੂਲ ਗੈਰ-ਮਰਜ ਕੀਤੀ ਰਣਨੀਤੀ ਬਦਲਦੀ ਹੈ: ਮਰਜ ਕੀਤੇ ਬਿਨਾਂ, ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲੀ ਰਣਨੀਤੀ ਮਾਡਲ ਪਰਿਵਾਰਾਂ ਵਿਚਕਾਰ ਥੋੜੀ ਵੱਖਰੀ ਸੀ। Llama 3.1 ਲਈ, Instruct-CPT-SFT-DPO ਨੇ ਮਜ਼ਬੂਤ ਨਤੀਜੇ ਦਿਖਾਏ, ਜਦੋਂ ਕਿ Mistral ਲਈ, Base-CPT-SFT ਨੇ ਇਸਦੇ Instruct ਹਮਰੁਤਬਾ ਦੇ ਮੁਕਾਬਲੇ ਤੁਲਨਾਤਮਕ ਤੌਰ ‘ਤੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ।
- CPT ਮਿਆਦ ਦਾ ਪ੍ਰਭਾਵ: Mistral ਮਾਡਲਾਂ ‘ਤੇ ਹੋਰ ਵਿਸ਼ਲੇਸ਼ਣ ਨੇ ਦਿਖਾਇਆ ਕਿ ਪ੍ਰਦਰਸ਼ਨ ਆਮ ਤੌਰ ‘ਤੇ ਨਿਰੰਤਰ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਦੇ ਹੋਰ ਯੁੱਗਾਂ (ਪੰਜ ਟੈਸਟ ਕੀਤੇ ਗਏ ਤੱਕ) ਨਾਲ ਸੁਧਰਿਆ, ਖਾਸ ਤੌਰ ‘ਤੇ ਜਦੋਂ Instruct ਮਾਡਲ ਤੋਂ ਸ਼ੁਰੂ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, CPT ਦੌਰਾਨ ਲੋੜੀਂਦੇ ਡੋਮੇਨ ਐਕਸਪੋਜਰ ਦੇ ਮੁੱਲ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਦਾ ਹੈ।
ਇਹ ਨਤੀਜੇ ਇੱਕ ਸਪਸ਼ਟ ਤਸਵੀਰ ਪੇਂਟ ਕਰਦੇ ਹਨ: ਜਦੋਂ ਕਿ ਕ੍ਰਮਵਾਰ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਮਹੱਤਵਪੂਰਨ ਹੈ, SLERP ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਰਣਨੀਤਕ ਮਾਡਲ ਮਰਜਿੰਗ LLM ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵਧਾਉਣ ਲਈ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਰਗ ਪੇਸ਼ ਕਰਦੀ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਵਿਸ਼ੇਸ਼ ਡੋਮੇਨਾਂ ਲਈ, ਅਕ