ਮੂਓਨ ਅਤੇ ਮੂਨਲਾਈਟ ਵੱਡੇ ਮਾਡਲ ਸਿਖਲਾਈ

ਵੱਡੇ ਪੈਮਾਨੇ ਦੀ ਭਾਸ਼ਾ ਮਾਡਲ ਸਿਖਲਾਈ ਵਿੱਚ ਕੁਸ਼ਲਤਾ ਦੀ ਖੋਜ

ਵੱਡੇ ਅਤੇ ਵਧੇਰੇ ਸਮਰੱਥ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੀ ਨਿਰੰਤਰ ਖੋਜ ਨੇ ਇੱਕ ਜ਼ਰੂਰੀ ਲੋੜ ਲਿਆਂਦੀ ਹੈ: ਕੁਸ਼ਲਤਾ। ਇਹਨਾਂ ਵੱਡੀਆਂ ਮਸ਼ੀਨਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਨਾ ਸਿਰਫ਼ ਕੱਚੀ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸ਼ਕਤੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਬਲਕਿ ਵਧੀਆ ਤਕਨੀਕਾਂ ਦੀ ਵੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਜੋ ਹਰ ਵਾਟ ਅਤੇ ਹਰ ਸਕਿੰਟ ਵਿੱਚੋਂ ਵੱਧ ਤੋਂ ਵੱਧ ਕਾਰਗੁਜ਼ਾਰੀ ਕੱਢ ਸਕਣ। ਅਨੁਕੂਲਨ ਐਲਗੋਰਿਦਮ, ਜੋ ਸਿੱਖਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਚਲਾਉਂਦੇ ਹਨ, ਬਿਲਕੁਲ ਨਾਜ਼ੁਕ ਹਨ। ਉਹ ਇਹ ਨਿਰਧਾਰਤ ਕਰਦੇ ਹਨ ਕਿ ਕਿੰਨੀ ਜਲਦੀ ਅਤੇ ਕਿੰਨੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ, ਅਰਬਾਂ ਜਾਂ ਖਰਬਾਂ ਪੈਰਾਮੀਟਰਾਂ ਵਾਲਾ ਇੱਕ ਮਾਡਲ ਅਨੁਕੂਲ ਕਾਰਗੁਜ਼ਾਰੀ ਦੀ ਸਥਿਤੀ ਵਿੱਚ ਇਕੱਠਾ ਹੋ ਸਕਦਾ ਹੈ। ਜਦੋਂ ਕਿ AdamW ਵਰਗੇ ਅਨੁਕੂਲਕ ਉਦਯੋਗ ਦੇ ਕੰਮ ਕਰਨ ਵਾਲੇ ਬਣ ਗਏ ਹਨ, ਉਹਨਾਂ ਦੀ ਸਾਵਧਾਨੀ ਨਾਲ ਹਾਈਪਰਪੈਰਾਮੀਟਰ ਟਿਊਨਿੰਗ ਦੀ ਪਿਆਸ ਅਤੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ ਦੀ ਭੁੱਖ ਨੇ ਵਧੇਰੇ ਸੁਚਾਰੂ ਵਿਕਲਪਾਂ ਦੀ ਖੋਜ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ ਹੈ। ਅੰਤਮ ਟੀਚਾ? ਇੱਕ ਅਨੁਕੂਲਕ ਜੋ ਕੰਪਿਊਟੇਸ਼ਨਲ ਬੋਝ ਨੂੰ ਘਟਾਉਂਦੇ ਹੋਏ, ਠੋਸ ਸਿਖਲਾਈ ਸਥਿਰਤਾ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

ਮੌਜੂਦਾ ਅਨੁਕੂਲਨ ਤਕਨੀਕਾਂ ਦੀਆਂ ਸੀਮਾਵਾਂ

ਵਿਸ਼ਾਲ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਵਿੱਚ ਮੁੱਖ ਚੁਣੌਤੀ ਕੰਪਿਊਟੇਸ਼ਨਲ ਮੰਗਾਂ ਦੇ ਪੈਮਾਨੇ ਵਿੱਚ ਹੈ। ਜਿਵੇਂ-ਜਿਵੇਂ ਮਾਡਲ ਵਧਦੇ ਹਨ, ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਗਿਣਤੀ ਜਿਨ੍ਹਾਂ ਨੂੰ ਹਰੇਕ ਦੁਹਰਾਓ ਨਾਲ ਅੱਪਡੇਟ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਵਿਸਫੋਟ ਹੁੰਦਾ ਹੈ। ਬਹੁਤ ਸਾਰੇ ਮੌਜੂਦਾ ਅਨੁਕੂਲਕ, ਛੋਟੀਆਂ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਇਸ ਭਾਰੀ ਦਬਾਅ ਹੇਠ ਡਿੱਗਣਾ ਸ਼ੁਰੂ ਕਰ ਦਿੰਦੇ ਹਨ। ਉਹ ਘੱਟ ਕੁਸ਼ਲ ਬਣ ਜਾਂਦੇ ਹਨ, ਲਗਾਤਾਰ ਟਵੀਕਿੰਗ ਅਤੇ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਜੋ ਸਿਖਲਾਈ ਦੀਆਂ ਸਮਾਂ-ਸੀਮਾਵਾਂ ਨੂੰ ਵਧਾਉਂਦੀ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਸਥਿਰਤਾ ਦੇ ਮੁੱਦੇ ਸਾਹਮਣੇ ਆ ਸਕਦੇ ਹਨ, ਜੋ ਅਸਥਿਰ ਅੱਪਡੇਟਾਂ ਵਜੋਂ ਪ੍ਰਗਟ ਹੁੰਦੇ ਹਨ ਜੋ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਘਟਾਉਂਦੇ ਹਨ। ਇੱਕ ਸੱਚਮੁੱਚ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੱਲ, ਇਸ ਲਈ, ਕੁਸ਼ਲਤਾ ਅਤੇ ਸਥਿਰਤਾ ਦੋਵਾਂ ਨੂੰ ਸੰਬੋਧਿਤ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ, ਬਹੁਤ ਜ਼ਿਆਦਾ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸ਼ਕਤੀ ਜਾਂ ਮੈਨੂਅਲ ਪੈਰਾਮੀਟਰ ਐਡਜਸਟਮੈਂਟ ਦੇ ਬੇਅੰਤ ਘੰਟਿਆਂ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਨਿਰਵਿਘਨ ਅਤੇ ਭਰੋਸੇਯੋਗ ਸਿਖਲਾਈ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣਾ।

ਉਦਾਹਰਨ ਲਈ, ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਐਡਮ ਅਤੇ ਐਡਮਡਬਲਯੂ ਅਨੁਕੂਲਕ, ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਵਧੀਆ ਬਣਾਉਣ ਲਈ ਅਨੁਕੂਲ ਸਿੱਖਣ ਦੀਆਂ ਦਰਾਂ ਅਤੇ ਭਾਰ ਘਟਾਉਣ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ। ਇਹਨਾਂ ਤਰੀਕਿਆਂ ਨੇ ਕਈ ਤਰ੍ਹਾਂ ਦੀਆਂ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿੱਚ ਆਪਣੀ ਕੀਮਤ ਸਾਬਤ ਕੀਤੀ ਹੈ। ਹਾਲਾਂਕਿ, ਮਾਡਲਾਂ ਦੇ ਪੈਮਾਨੇ ਵਧਣ ਨਾਲ ਉਹਨਾਂ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਘੱਟ ਜਾਂਦੀ ਹੈ। ਇਹਨਾਂ ਅਨੁਕੂਲਕਾਂ ਨਾਲ ਜੁੜਿਆ ਕੰਪਿਊਟੇਸ਼ਨਲ ਓਵਰਹੈੱਡ ਨਾਟਕੀ ਢੰਗ ਨਾਲ ਵਧਦਾ ਹੈ, ਉਹਨਾਂ ਨੂੰ ਸੱਚਮੁੱਚ ਵੱਡੇ ਪੈਮਾਨੇ ਦੀ ਸਿਖਲਾਈ ਦੇ ਯਤਨਾਂ ਲਈ ਅਯੋਗ ਬਣਾਉਂਦਾ ਹੈ। ਇਸਨੇ ਵਿਕਲਪਕ ਅਨੁਕੂਲਕਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਅਤੇ ਵਿਕਸਤ ਕਰਨ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਇੱਕ ਜੀਵੰਤ ਖੋਜ ਯਤਨ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ ਹੈ। ਇਹ ਨਵੇਂ ਤਰੀਕੇ ਵਧੀਆ ਕਾਰਗੁਜ਼ਾਰੀ ਅਤੇ ਕੁਸ਼ਲਤਾ ਪ੍ਰਦਾਨ ਕਰਨ ਦਾ ਟੀਚਾ ਰੱਖਦੇ ਹਨ, ਆਦਰਸ਼ਕ ਤੌਰ ‘ਤੇ ਸਥਿਰ ਅਤੇ ਸਕੇਲੇਬਲ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹੋਏ ਮਿਹਨਤੀ ਹਾਈਪਰਪੈਰਾਮੀਟਰ ਟਿਊਨਿੰਗ ਦੀ ਜ਼ਰੂਰਤ ਨੂੰ ਖਤਮ ਕਰਦੇ ਹਨ।

ਮੂਓਨ: ਸਕੇਲੇਬਿਲਟੀ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਇੱਕ ਨਵਾਂ ਅਨੁਕੂਲਕ

ਮੂਨਸ਼ਾਟ ਏਆਈ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ, ਯੂਸੀਐਲਏ ਦੇ ਸਹਿਯੋਗ ਨਾਲ, ਮੂਓਨ ਪੇਸ਼ ਕੀਤਾ ਹੈ, ਇੱਕ ਅਨੁਕੂਲਕ ਜੋ ਖਾਸ ਤੌਰ ‘ਤੇ ਵੱਡੇ ਪੈਮਾਨੇ ਦੀ ਸਿਖਲਾਈ ਦੇ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਮੌਜੂਦਾ ਤਰੀਕਿਆਂ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਨ ਵਾਲੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਦੂਰ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਮੂਓਨ ਨੇ ਸ਼ੁਰੂ ਵਿੱਚ ਛੋਟੇ ਪੈਮਾਨੇ ਦੇ ਮਾਡਲਾਂ ਵਿੱਚ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਇਸ ਨੂੰ ਭਾਸ਼ਾ ਮਾਡਲ ਦੀ ਦੁਨੀਆ ਦੇ ਵੱਡੇ ਮਾਡਲਾਂ ਨਾਲ ਨਜਿੱਠਣ ਵੇਲੇ ਰੁਕਾਵਟਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪਿਆ। ਇਹਨਾਂ ਚੁਣੌਤੀਆਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਦੋ ਮਹੱਤਵਪੂਰਨ ਤਕਨੀਕਾਂ ਨੂੰ ਲਾਗੂ ਕੀਤਾ।

ਪਹਿਲਾਂ, ਉਹਨਾਂ ਨੇ ਭਾਰ ਘਟਾਉਣਾ ਸ਼ਾਮਲਕੀਤਾ, ਇੱਕ ਨਿਯਮਤ ਕਰਨ ਦੀ ਤਕਨੀਕ ਜੋ ਓਵਰਫਿਟਿੰਗ ਨੂੰ ਰੋਕਣ ਅਤੇ ਸਿਖਲਾਈ ਸਥਿਰਤਾ ਨੂੰ ਵਧਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ। ਦੂਜਾ, ਉਹਨਾਂ ਨੇ ਸੰਗਤ ਰੂਟ ਮੀਨ ਵਰਗ (RMS) ਅੱਪਡੇਟ ਪੇਸ਼ ਕੀਤੇ। ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਉਹਨਾਂ ਦੇ ਆਕਾਰ ਦੀ ਪਰਵਾਹ ਕੀਤੇ ਬਿਨਾਂ, ਸਾਰੇ ਪੈਰਾਮੀਟਰਾਂ ਵਿੱਚ ਸਮਾਨ ਰੂਪ ਵਿੱਚ ਐਡਜਸਟਮੈਂਟ ਲਾਗੂ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਇੱਕ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ ਦੇ ਵਿਸ਼ਾਲ ਪੈਰਾਮੀਟਰ ਸਪੇਸ ਵਿੱਚ ਸੰਤੁਲਿਤ ਸਿਖਲਾਈ ਨੂੰ ਬਣਾਈ ਰੱਖਣ ਲਈ ਇਹ ਇਕਸਾਰਤਾ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਇਹ ਸੁਧਾਰ ਮੂਓਨ ਨੂੰ ਵਿਆਪਕ ਹਾਈਪਰਪੈਰਾਮੀਟਰ ਟਿਊਨਿੰਗ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਕੁਸ਼ਲਤਾ ਨਾਲ ਕੰਮ ਕਰਨ ਦੀ ਸ਼ਕਤੀ ਦਿੰਦੇ ਹਨ। ਇਹ “ਆਊਟ-ਆਫ-ਦ-ਬਾਕਸ” ਤਿਆਰੀ ਇਸ ਨੂੰ ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਇੱਕ ਮਜਬੂਰ ਕਰਨ ਵਾਲੀ ਚੋਣ ਬਣਾਉਂਦੀ ਹੈ, ਸੈੱਟਅੱਪ ਅਤੇ ਸੰਰਚਨਾ ਓਵਰਹੈੱਡ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਘਟਾਉਂਦੀ ਹੈ।

ਮੂਨਲਾਈਟ: ਮਾਹਰਾਂ ਦੇ ਮਿਸ਼ਰਣ ਮਾਡਲ ਵਿੱਚ ਮੂਓਨ ਦੀ ਸ਼ਕਤੀ ਦੀ ਵਰਤੋਂ ਕਰਨਾ

ਮੂਓਨ ਵਿੱਚ ਸ਼ਾਮਲ ਤਰੱਕੀਆਂ ‘ਤੇ ਨਿਰਮਾਣ ਕਰਦੇ ਹੋਏ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮੂਨਲਾਈਟ ਵਿਕਸਤ ਕੀਤਾ, ਜੋ ਕਿ ਮਾਹਰਾਂ ਦਾ ਮਿਸ਼ਰਣ (MoE) ਮਾਡਲ ਹੈ। ਮੂਨਲਾਈਟ ਦੋ ਸੰਰਚਨਾਵਾਂ ਵਿੱਚ ਉਪਲਬਧ ਹੈ: ਇੱਕ 3-ਅਰਬ ਪੈਰਾਮੀਟਰ ਸੰਸਕਰਣ ਅਤੇ ਇੱਕ ਵਧੇਰੇ ਮਹੱਤਵਪੂਰਨ 16-ਅਰਬ ਪੈਰਾਮੀਟਰ ਸੰਸਕਰਣ। ਦੋਵਾਂ ਨੂੰ ਇੱਕ ਵਿਸ਼ਾਲ ਡੇਟਾਸੈੱਟ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ ਜਿਸ ਵਿੱਚ 5.7 ਟ੍ਰਿਲੀਅਨ ਟੋਕਨ ਸ਼ਾਮਲ ਸਨ। ਮੂਨਲਾਈਟ ਆਪਣੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ ਮੂਓਨ ਦਾ ਲਾਭ ਉਠਾਉਂਦਾ ਹੈ ਜਦੋਂ ਕਿ ਕੰਪਿਊਟੇਸ਼ਨਲ ਲਾਗਤਾਂ ਨੂੰ ਘੱਟ ਤੋਂ ਘੱਟ ਕਰਦਾ ਹੈ।

ਕੁਸ਼ਲਤਾ ਨੂੰ ਹੋਰ ਵਧਾਉਣ ਲਈ, ਮੂਓਨ ਦਾ ਇੱਕ ਵੰਡਿਆ ਹੋਇਆ ਸੰਸਕਰਣ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਸੀ, ਇੱਕ ZeRO-1 ਸ਼ੈਲੀ ਅਨੁਕੂਲਨ ਰਣਨੀਤੀ ਨੂੰ ਲਾਗੂ ਕਰਦੇ ਹੋਏ। ਇਹ ਪਹੁੰਚ ਕਈ ਡਿਵਾਈਸਾਂ ਵਿੱਚ ਅਨੁਕੂਲਕ ਸਥਿਤੀ ਨੂੰ ਵੰਡ ਕੇ ਮੈਮੋਰੀ ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਕਰਦੀ ਹੈ। ਇਹ ਸੰਚਾਰ ਓਵਰਹੈੱਡ ਨੂੰ ਵੀ ਘੱਟ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ ਵੱਡੇ ਪੈਮਾਨੇ ਦੀ ਵੰਡੀ ਸਿਖਲਾਈ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਾਰਕ ਹੈ। ਇਹਨਾਂ ਸੁਧਾਰਾਂ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇੱਕ ਕਮਾਲ ਦੀ ਸਥਿਰ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਹੋਈ। ਮੂਨਲਾਈਟ ਨੇ ਸਮਾਨ ਪੈਮਾਨੇ ਦੇ ਪਿਛਲੇ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਕਾਫ਼ੀ ਘੱਟ ਕੰਪਿਊਟੇਸ਼ਨਲ ਫੁੱਟਪ੍ਰਿੰਟ ਦੇ ਨਾਲ ਅਤਿ-ਆਧੁਨਿਕ ਕਾਰਗੁਜ਼ਾਰੀ ਪ੍ਰਾਪਤ ਕੀਤੀ।

ਕਾਰਗੁਜ਼ਾਰੀ ਬੈਂਚਮਾਰਕਿੰਗ: ਮੂਨਲਾਈਟ ਮੁਕਾਬਲੇ ਨੂੰ ਪਛਾੜਦੀ ਹੈ

ਸਖ਼ਤ ਕਾਰਗੁਜ਼ਾਰੀ ਮੁਲਾਂਕਣਾਂ ਨੇ ਦਿਖਾਇਆ ਹੈ ਕਿ ਮੂਨਲਾਈਟ ਲਗਾਤਾਰ ਤੁਲਨਾਤਮਕ ਪੈਮਾਨੇ ਦੇ ਮੌਜੂਦਾ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਨੂੰ ਪਛਾੜਦਾ ਹੈ। ਇਸ ਵਿੱਚ LLAMA3-3B ਅਤੇ Qwen2.5-3B ਵਰਗੇ ਚੰਗੀ ਤਰ੍ਹਾਂ ਜਾਣੇ-ਪਛਾਣੇ ਮਾਡਲ ਸ਼ਾਮਲ ਹਨ। ਸਕੇਲਿੰਗ ਕਾਨੂੰਨ ਪ੍ਰਯੋਗ, ਜੋ ਮਾਡਲ ਦੇ ਆਕਾਰ, ਡੇਟਾ ਅਤੇ ਕਾਰਗੁਜ਼ਾਰੀ ਦੇ ਵਿਚਕਾਰ ਸਬੰਧਾਂ ਦੀ ਪੜਚੋਲ ਕਰਦੇ ਹਨ, ਨੇ ਮੂਓਨ ਦੇ ਇੱਕ ਸ਼ਾਨਦਾਰ ਫਾਇਦੇ ਦਾ ਖੁਲਾਸਾ ਕੀਤਾ: ਇਹ ਐਡਮ ਨਾਲੋਂ ਲਗਭਗ ਦੁੱਗਣਾ ਨਮੂਨਾ-ਕੁਸ਼ਲ ਹੈ। ਇਹ ਸਿਖਲਾਈ ਲਈ ਲੋੜੀਂਦੇ ਫਲੋਟਿੰਗ-ਪੁਆਇੰਟ ਓਪਰੇਸ਼ਨਾਂ (FLOPs) ਦੀ ਗਿਣਤੀ ਵਿੱਚ ਕਾਫ਼ੀ ਕਮੀ ਦਾ ਅਨੁਵਾਦ ਕਰਦਾ ਹੈ, ਜਦੋਂ ਕਿ ਅਜੇ ਵੀ ਪ੍ਰਤੀਯੋਗੀ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹਨ।

ਮੂਨਲਾਈਟ ਦੀ ਸ਼ਕਤੀ ਬੈਂਚਮਾਰਕ ਕਾਰਜਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਫੈਲੀ ਹੋਈ ਹੈ। MMLU (ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਮਲਟੀਟਾਸਕ ਲੈਂਗੂਏਜ ਅੰਡਰਸਟੈਂਡਿੰਗ) ਬੈਂਚਮਾਰਕ ਵਿੱਚ, ਇਸਨੇ 70.0 ਦਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਜੋ ਕਿ LLAMA3-3B (54.75) ਅਤੇ Qwen2.5-3B (65.6) ਤੋਂ ਕਾਫ਼ੀ ਵੱਧ ਹੈ। ਵਧੇਰੇ ਵਿਸ਼ੇਸ਼ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ, ਜਿਵੇਂ ਕਿ MMLU-ਪ੍ਰੋ ਅਤੇ BBH (ਬਿਗ-ਬੈਂਚ ਹਾਰਡ), ਮੂਨਲਾਈਟ ਨੇ ਕ੍ਰਮਵਾਰ 42.4 ਅਤੇ 65.2 ਦੇ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤੇ, ਜੋ ਇਸਦੀਆਂ ਵਧੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਹੋਰ ਉਜਾਗਰ ਕਰਦੇ ਹਨ। ਮਾਡਲ ਨੇ ਟ੍ਰਿਵੀਆਕਿਊਏ, ਇੱਕ ਸਵਾਲ-ਜਵਾਬ ਬੈਂਚਮਾਰਕ, ਵਿੱਚ 66.3 ਦੇ ਸਕੋਰ ਦੇ ਨਾਲ ਮਜ਼ਬੂਤ ​​ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਵੀ ਕੀਤਾ, ਜੋ ਕਿ ਸਾਰੇ ਤੁਲਨਾਤਮਕ ਮਾਡਲਾਂ ਨੂੰ ਪਛਾੜਦਾ ਹੈ।

ਕੋਡ ਜਨਰੇਸ਼ਨ ਅਤੇ ਗਣਿਤਿਕ ਤਰਕ: ਬਹੁਪੱਖੀਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ

ਮੂਨਲਾਈਟ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਦੀ ਸਮਝ ਅਤੇ ਸਵਾਲ-ਜਵਾਬ ਤੋਂ ਅੱਗੇ ਵਧਦੀਆਂ ਹਨ। ਇਹ ਕੋਡ-ਸਬੰਧਤ ਕਾਰਜਾਂ ਵਿੱਚ ਵੀ ਉੱਤਮ ਹੈ। ਹਿਊਮਨਈਵਲ ਵਿੱਚ, ਕੋਡ ਜਨਰੇਸ਼ਨ ਯੋਗਤਾਵਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਇੱਕ ਬੈਂਚਮਾਰਕ, ਇਸਨੇ 48.1 ਦਾ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ। MBPP (ਜ਼ਿਆਦਾਤਰ ਬੇਸਿਕ ਪ੍ਰੋਗਰਾਮਿੰਗ ਸਮੱਸਿਆਵਾਂ) ਵਿੱਚ, ਇੱਕ ਹੋਰ ਕੋਡ-ਜਨਰੇਸ਼ਨ ਬੈਂਚਮਾਰਕ, ਇਸਨੇ 63.8 ਸਕੋਰ ਕੀਤਾ। ਇਹ ਨਤੀਜੇ ਕਾਰਜਸ਼ੀਲ ਕੋਡ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਇਸਦੀ ਮੁਹਾਰਤ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ, ਸਮਾਨ ਪੈਰਾਮੀਟਰ ਗਿਣਤੀ ਵਾਲੇ ਦੂਜੇ ਮਾਡਲਾਂ ਨੂੰ ਪਛਾੜਦੇ ਹਨ।

ਗਣਿਤਿਕ ਤਰਕ ਦੇ ਖੇਤਰ ਵਿੱਚ, ਮੂਨਲਾਈਟ ਨੇ ਆਪਣੀਆਂ ਉੱਤਮ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਇਸਨੇ GSM8K (ਗ੍ਰੇਡ ਸਕੂਲ ਮੈਥ 8K) ਵਿੱਚ 77.4 ਦਾ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਜੋ ਕਿ ਗ੍ਰੇਡ-ਸਕੂਲ ਪੱਧਰ ਦੀਆਂ ਗਣਿਤ ਸ਼ਬਦ ਸਮੱਸਿਆਵਾਂ ਵਾਲਾ ਇੱਕ ਬੈਂਚਮਾਰਕ ਹੈ। MATH ਵਿੱਚ, ਇੱਕ ਹੋਰ ਚੁਣੌਤੀਪੂਰਨ ਬੈਂਚਮਾਰਕ ਜੋ ਉੱਨਤ ਗਣਿਤਿਕ ਸਮੱਸਿਆਵਾਂ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ, ਇਸਨੇ 45.3 ਸਕੋਰ ਕੀਤਾ। ਇਹ ਨਤੀਜੇ ਗੁੰਝਲਦਾਰ ਗਣਿਤਿਕ ਤਰਕ ਕਾਰਜਾਂ ਨਾਲ ਨਜਿੱਠਣ ਲਈ ਮੂਨਲਾਈਟ ਦੀ ਯੋਗਤਾ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ।

ਬਹੁਭਾਸ਼ਾਈ ਸ਼ਕਤੀ: ਚੀਨੀ ਭਾਸ਼ਾ ਦੇ ਕਾਰਜਾਂ ਵਿੱਚ ਉੱਤਮਤਾ

ਮੂਨਲਾਈਟ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਸਿਰਫ਼ ਅੰਗਰੇਜ਼ੀ ਤੱਕ ਹੀ ਸੀਮਤ ਨਹੀਂ ਹਨ। ਇਹ ਚੀਨੀ ਭਾਸ਼ਾ ਦੇ ਕਾਰਜਾਂ ਵਿੱਚ ਵੀ ਮਜ਼ਬੂਤ ​​ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। ਸੀ-ਈਵਲ ਵਿੱਚ, ਇੱਕ ਵਿਆਪਕ ਚੀਨੀ ਮੁਲਾਂਕਣ ਸੂਟ, ਇਸਨੇ 77.2 ਦਾ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ। CMMLU ਵਿੱਚ, ਇੱਕ ਹੋਰ ਚੀਨੀ ਬੈਂਚਮਾਰਕ ਜੋ ਬਹੁ-ਕਾਰਜ ਭਾਸ਼ਾ ਦੀ ਸਮਝ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ, ਇਸਨੇ 78.2 ਦਾ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ। ਇਹ ਨਤੀਜੇ ਬਹੁਭਾਸ਼ਾਈ ਪ੍ਰੋਸੈਸਿੰਗ ਵਿੱਚ ਮੂਨਲਾਈਟ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਨੂੰ ਸਥਾਪਿਤ ਕਰਦੇ ਹਨ, ਵਿਭਿੰਨ ਭਾਸ਼ਾਈ ਸੂਖਮਤਾਵਾਂ ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਇਸਦੀ ਯੋਗਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ। ਮਾਡਲ ਦੀ ਲਗਾਤਾਰ ਮਜ਼ਬੂਤ ​​ਕਾਰਗੁਜ਼ਾਰੀ ਬੈਂਚਮਾਰਕਾਂ ਦੀ ਅਜਿਹੀ ਵਿਭਿੰਨ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਇਸਦੀ ਮਜ਼ਬੂਤ ​​ਸਧਾਰਣਕਰਨ ਯੋਗਤਾ ਦਾ ਪ੍ਰਮਾਣ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਇਹ ਆਪਣੇ ਪੂਰਵਜਾਂ ਦੇ ਮੁਕਾਬਲੇ ਕਾਫ਼ੀ ਘੱਟ ਕੰਪਿਊਟੇਸ਼ਨਲ ਲਾਗਤ ਨੂੰ ਬਣਾਈ ਰੱਖਦੇ ਹੋਏ, ਵੱਖ-ਵੱਖ ਕਾਰਜਾਂ ਵਿੱਚ ਅਨੁਕੂਲ ਅਤੇ ਉੱਤਮ ਹੋ ਸਕਦਾ ਹੈ।

ਸਕੇਲੇਬਿਲਟੀ ਚੁਣੌਤੀਆਂ ਨੂੰ ਸੰਬੋਧਿਤ ਕਰਨਾ ਅਤੇ ਭਵਿੱਖ ਦੀ ਖੋਜ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਨਾ

ਮੂਓਨ ਵਿੱਚ ਸ਼ਾਮਲ ਨਵੀਨਤਾਵਾਂ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਨਾਜ਼ੁਕ ਸਕੇਲੇਬਿਲਟੀ ਚੁਣੌਤੀਆਂ ਨੂੰ ਸੰਬੋਧਿਤ ਕਰਦੀਆਂ ਹਨ ਜਿਨ੍ਹਾਂ ਨੇ ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੀ ਸਿਖਲਾਈ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕੀਤਾ ਹੈ। ਭਾਰ ਘਟਾਉਣ ਅਤੇ ਇਕਸਾਰ RMS ਅੱਪਡੇਟਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਕੇ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਸਥਿਰਤਾ ਅਤੇ ਕੁਸ਼ਲਤਾ ਦੋਵਾਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵਧਾਇਆ ਹੈ। ਇਸਨੇ ਮੂਨਲਾਈਟ ਨੂੰ ਸਿਖਲਾਈ ਦੀਆਂ ਲਾਗਤਾਂ ਨੂੰ ਘਟਾਉਂਦੇ ਹੋਏ ਕਾਰਗੁਜ਼ਾਰੀ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣ ਦੇ ਯੋਗ ਬਣਾਇਆ ਹੈ। ਇਹ ਤਰੱਕੀਆਂ ਐਡਮ-ਅਧਾਰਤ ਅਨੁਕੂਲਕਾਂ ਦੇ ਇੱਕ ਮਜਬੂਰ ਕਰਨ ਵਾਲੇ ਵਿਕਲਪ ਵਜੋਂ ਮੂਓਨ ਦੀ ਸਥਿਤੀ ਨੂੰ ਮਜ਼ਬੂਤ ​​ਕਰਦੀਆਂ ਹਨ। ਇਹ ਐਡਮ ਅਤੇ ਇਸਦੇ ਰੂਪਾਂ ਨਾਲ ਆਮ ਤੌਰ ‘ਤੇ ਜੁੜੇ ਵਿਆਪਕ ਟਿਊਨਿੰਗ ਦੀ ਮੰਗ ਕੀਤੇ ਬਿਨਾਂ ਉੱਤਮ ਨਮੂਨਾ ਕੁਸ਼ਲਤਾ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, ਮੂਓਨ ਅਤੇ ਮੂਨਲਾਈਟ ਦੋਵਾਂ ਦਾ ਓਪਨ-ਸੋਰਸਿੰਗ ਖੋਜ ਭਾਈਚਾਰੇ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਯੋਗਦਾਨ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਇਹਨਾਂ ਸਾਧਨਾਂ ਨੂੰ ਮੁਫਤ ਵਿੱਚ ਉਪਲਬਧ ਕਰਵਾ ਕੇ, ਖੋਜਕਰਤਾ ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ ਮਾਡਲਾਂ ਲਈ ਕੁਸ਼ਲ ਸਿਖਲਾਈ ਵਿਧੀਆਂ ਦੀ ਹੋਰ ਖੋਜ ਅਤੇ ਵਿਕਾਸ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰ ਰਹੇ ਹਨ। ਇਹ ਖੁੱਲ੍ਹਾ ਪਹੁੰਚ ਸਹਿਯੋਗ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦਾ ਹੈ ਅਤੇ ਖੇਤਰ ਵਿੱਚ ਤਰੱਕੀ ਨੂੰ ਤੇਜ਼ ਕਰਦਾ ਹੈ, ਭਵਿੱਖ ਵਿੱਚ ਹੋਰ ਵੀ ਸ਼ਕਤੀਸ਼ਾਲੀ ਅਤੇ ਪਹੁੰਚਯੋਗ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਲਈ ਰਾਹ ਪੱਧਰਾ ਕਰਦਾ ਹੈ। ਮੂਓਨ ਵਰਗੇ ਅਨੁਕੂਲਕਾਂ ਦਾ ਚੱਲ ਰਿਹਾ ਸੁਧਾਰ ਸਿਰਫ਼ ਵੱਡੇ ਮਾਡਲਾਂ ਨੂੰ ਬਣਾਉਣ ਬਾਰੇ ਨਹੀਂ ਹੈ; ਇਹ ਉਹਨਾਂ ਨੂੰ ਚੁਸਤ ਬਣਾਉਣ, ਉਪਲਬਧ ਸਰੋਤਾਂ ਦੀ ਵੱਧ ਤੋਂ ਵੱਧ ਵਰਤੋਂ ਕਰਨ, ਅਤੇ AI ਖੋਜ ਦੇ ਅਤਿ-ਆਧੁਨਿਕ ਤੱਕ ਪਹੁੰਚ ਨੂੰ ਜਮਹੂਰੀ ਬਣਾਉਣ ਬਾਰੇ ਹੈ।