Meta Platforms, ਜੋ Facebook, Instagram, ਅਤੇ WhatsApp ਦੇ ਪਿੱਛੇ ਤਕਨਾਲੋਜੀ ਦੀ ਦਿੱਗਜ ਕੰਪਨੀ ਹੈ, ਨੇ ਆਪਣੀ Llama 4 ਸੀਰੀਜ਼ ਦੀ ਸ਼ੁਰੂਆਤ ਨਾਲ ਆਰਟੀਫਿਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਦੇ ਖੇਤਰ ਵਿੱਚ ਆਪਣੀ ਸਥਿਤੀ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਅੱਗੇ ਵਧਾਇਆ ਹੈ। ਇਹ ਲਾਂਚ ਕੰਪਨੀ ਦੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ Llama ਪਰਿਵਾਰ ਦੇ ਓਪਨ ਮਾਡਲਾਂ ਦੀ ਅਗਲੀ ਪੀੜ੍ਹੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਜੋ AI ਵਿਕਾਸ ਦੇ ਮੋਹਰੀ ਸਥਾਨ ‘ਤੇ ਮੁਕਾਬਲਾ ਕਰਨ ਅਤੇ ਉਦਯੋਗ ਦੇ ਅੰਦਰ ਮੁਕਾਬਲੇਬਾਜ਼ੀ ਦੀ ਗਤੀਸ਼ੀਲਤਾ ਨੂੰ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਮੁੜ ਆਕਾਰ ਦੇਣ ਦੀ ਨਿਰੰਤਰ ਵਚਨਬੱਧਤਾ ਦਾ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ। ਇਸ ਰਿਲੀਜ਼ ਵਿੱਚ ਤਿੰਨ ਵੱਖ-ਵੱਖ ਮਾਡਲਾਂ ਦੀ ਤਿਕੜੀ ਪੇਸ਼ ਕੀਤੀ ਗਈ ਹੈ, ਹਰੇਕ ਨੂੰ ਖਾਸ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਆਰਕੀਟੈਕਚਰ ਨਾਲ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਗਿਆ ਹੈ, ਜਿਸਦਾ ਉਦੇਸ਼ ਆਮ ਚੈਟ ਕਾਰਜਕੁਸ਼ਲਤਾਵਾਂ ਤੋਂ ਲੈ ਕੇ ਗੁੰਝਲਦਾਰ ਡਾਟਾ ਪ੍ਰੋਸੈਸਿੰਗ ਕਾਰਜਾਂ ਤੱਕ ਵਿਭਿੰਨ ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨਾ ਹੈ।
Llama 4 ਪਰਿਵਾਰ ਦੀ ਜਾਣ-ਪਛਾਣ: Scout, Maverick, ਅਤੇ Behemoth
Llama 4 ਪੀੜ੍ਹੀ ਦੇ ਸ਼ੁਰੂਆਤੀ ਰੋਲਆਊਟ ਵਿੱਚ ਤਿੰਨ ਖਾਸ ਤੌਰ ‘ਤੇ ਨਾਮ ਦਿੱਤੇ ਗਏ ਮਾਡਲ ਸ਼ਾਮਲ ਹਨ: Llama 4 Scout, Llama 4 Maverick, ਅਤੇ ਅਜੇ ਵੀ ਵਿਕਾਸ ਅਧੀਨ Llama 4 Behemoth। Meta ਨੇ ਸੰਕੇਤ ਦਿੱਤਾ ਹੈ ਕਿ ਇਹਨਾਂ ਮਾਡਲਾਂ ਦੀ ਨੀਂਹ ਵਿਸ਼ਾਲ ਮਾਤਰਾ ਵਿੱਚ ਬਿਨਾਂ ਲੇਬਲ ਵਾਲੇ ਟੈਕਸਟ, ਚਿੱਤਰਾਂ ਅਤੇ ਵੀਡੀਓ ਸਮੱਗਰੀ ਵਾਲੇ ਵਿਆਪਕ ਸਿਖਲਾਈ ਡੇਟਾਸੈਟਾਂ ‘ਤੇ ਟਿਕੀ ਹੋਈ ਹੈ। ਇਸ ਮਲਟੀ-ਮੋਡਲ ਸਿਖਲਾਈ ਪਹੁੰਚ ਦਾ ਉਦੇਸ਼ ਮਾਡਲਾਂ ਨੂੰ ਇੱਕ ਗੁੰਝਲਦਾਰ ਅਤੇ ‘ਵਿਆਪਕ ਵਿਜ਼ੂਅਲ ਸਮਝ’ ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੈ, ਉਹਨਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਸਿਰਫ਼ ਟੈਕਸਟ-ਅਧਾਰਿਤ ਪਰਸਪਰ ਕ੍ਰਿਆਵਾਂ ਤੋਂ ਪਰੇ ਵਧਾਉਣਾ ਹੈ।
Llama 4 ਦਾ ਵਿਕਾਸ ਮਾਰਗ ਤੇਜ਼ੀ ਨਾਲ ਵਿਕਸਤ ਹੋ ਰਹੇ AI ਸੈਕਟਰ ਦੇ ਅੰਦਰ ਮੁਕਾਬਲੇ ਦੇ ਦਬਾਅ ਤੋਂ ਪ੍ਰਭਾਵਿਤ ਹੋਇਆ ਜਾਪਦਾ ਹੈ। ਰਿਪੋਰਟਾਂ ਸੁਝਾਅ ਦਿੰਦੀਆਂ ਹਨ ਕਿ ਅੰਤਰਰਾਸ਼ਟਰੀ AI ਪ੍ਰਯੋਗਸ਼ਾਲਾਵਾਂ, ਖਾਸ ਤੌਰ ‘ਤੇ ਚੀਨੀ ਲੈਬ DeepSeek ਦਾ ਹਵਾਲਾ ਦਿੰਦੇ ਹੋਏ, ਤੋਂ ਓਪਨ ਮਾਡਲਾਂ ਦੇ ਉਭਾਰ ਅਤੇ ਕਮਾਲ ਦੀ ਕੁਸ਼ਲਤਾ ਨੇ Meta ਨੂੰ ਆਪਣੇ ਖੁਦ ਦੇ ਵਿਕਾਸ ਯਤਨਾਂ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਲਈ ਪ੍ਰੇਰਿਤ ਕੀਤਾ। ਇਹ ਸਮਝਿਆ ਜਾਂਦਾ ਹੈ ਕਿ Meta ਨੇ ਮਹੱਤਵਪੂਰਨ ਸਰੋਤ ਸਮਰਪਿਤ ਕੀਤੇ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਵਿਸ਼ੇਸ਼ ਟੀਮਾਂ ਜਾਂ ‘ਵਾਰ ਰੂਮ’ ਸਥਾਪਤ ਕੀਤੇ, ਤਾਂ ਜੋ DeepSeek ਵਰਗੇ ਪ੍ਰਤੀਯੋਗੀਆਂ ਦੁਆਰਾ ਵਰਤੀਆਂ ਗਈਆਂ ਵਿਧੀਆਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਸਮਝਿਆ ਜਾ ਸਕੇ, ਖਾਸ ਤੌਰ ‘ਤੇ ਉਹਨਾਂ ਤਕਨੀਕਾਂ ‘ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਤ ਕਰਦੇ ਹੋਏ ਜਿਨ੍ਹਾਂ ਨੇ ਉੱਨਤ AI ਮਾਡਲਾਂ ਨੂੰ ਚਲਾਉਣ ਅਤੇ ਤੈਨਾਤ ਕਰਨ ਨਾਲ ਜੁੜੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਖਰਚਿਆਂ ਨੂੰ ਸਫਲਤਾਪੂਰਵਕ ਘਟਾ ਦਿੱਤਾ। ਇਹ ਮੁਕਾਬਲੇਬਾਜ਼ੀ ਦੀ ਅੰਦਰੂਨੀ ਲਹਿਰ ਪ੍ਰਮੁੱਖ ਤਕਨੀਕੀ ਖਿਡਾਰੀਆਂ ਅਤੇ ਖੋਜ ਸੰਸਥਾਵਾਂ ਵਿਚਕਾਰ AI ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਸੰਚਾਲਨ ਕੁਸ਼ਲਤਾ ਦੋਵਾਂ ਵਿੱਚ ਸਫਲਤਾਵਾਂ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਤੀਬਰ ਦੌੜ ਨੂੰ ਉਜਾਗਰ ਕਰਦੀ ਹੈ।
ਨਵੀਂ Llama 4 ਲਾਈਨਅੱਪ ਵਿੱਚ ਪਹੁੰਚਯੋਗਤਾ ਵੱਖਰੀ ਹੁੰਦੀ ਹੈ। Scout ਅਤੇ Maverick ਨੂੰ ਡਿਵੈਲਪਰ ਭਾਈਚਾਰੇ ਅਤੇ ਜਨਤਾ ਲਈ ਸਥਾਪਿਤ ਚੈਨਲਾਂ ਰਾਹੀਂ ਖੁੱਲ੍ਹੇ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਕਰਵਾਇਆ ਜਾ ਰਿਹਾ ਹੈ, ਜਿਸ ਵਿੱਚ Meta ਦਾ ਆਪਣਾ Llama.com ਪੋਰਟਲ ਅਤੇ ਸਾਂਝੇਦਾਰ ਪਲੇਟਫਾਰਮ ਜਿਵੇਂ ਕਿ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਵਰਤਿਆ ਜਾਣ ਵਾਲਾ AI ਵਿਕਾਸ ਹੱਬ, Hugging Face ਸ਼ਾਮਲ ਹਨ। ਇਹ ਖੁੱਲ੍ਹੀ ਉਪਲਬਧਤਾ Meta ਦੀ ਆਪਣੇ Llama ਮਾਡਲਾਂ ਦੇ ਆਲੇ ਦੁਆਲੇ ਇੱਕ ਵਿਸ਼ਾਲ ਈਕੋਸਿਸਟਮ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਨ ਦੀ ਰਣਨੀਤੀ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦੀ ਹੈ। ਹਾਲਾਂਕਿ, Behemoth, ਮੌਜੂਦਾ ਸੀਰੀਜ਼ ਵਿੱਚ ਸਭ ਤੋਂ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਡਲ ਵਜੋਂ ਸਥਿਤੀ ਵਿੱਚ ਹੈ, ਅਜੇ ਵੀ ਵਿਕਾਸ ਅਧੀਨ ਹੈ ਅਤੇ ਆਮ ਵਰਤੋਂ ਲਈ ਜਾਰੀ ਨਹੀਂ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਸਦੇ ਨਾਲ ਹੀ, Meta ਇਹਨਾਂ ਨਵੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਆਪਣੇ ਉਪਭੋਗਤਾ-ਮੁਖੀ ਉਤਪਾਦਾਂ ਵਿੱਚ ਏਕੀਕ੍ਰਿਤ ਕਰ ਰਿਹਾ ਹੈ। ਕੰਪਨੀ ਨੇ ਘੋਸ਼ਣਾ ਕੀਤੀ ਕਿ ਇਸਦਾ ਮਲਕੀਅਤੀ AI ਸਹਾਇਕ, Meta AI, ਜੋ ਕਿ WhatsApp, Messenger, ਅਤੇ Instagram ਵਰਗੀਆਂ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੇ ਸੂਟ ਵਿੱਚ ਕੰਮ ਕਰਦਾ ਹੈ, ਨੂੰ Llama 4 ਦੀ ਸ਼ਕਤੀ ਦਾ ਲਾਭ ਉਠਾਉਣ ਲਈ ਅਪਗ੍ਰੇਡ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਹ ਏਕੀਕਰਣ ਚਾਲੀ ਦੇਸ਼ਾਂ ਵਿੱਚ ਰੋਲ ਆਊਟ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ, ਹਾਲਾਂਕਿ ਉੱਨਤ ਮਲਟੀਮੋਡਲ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ (ਟੈਕਸਟ, ਚਿੱਤਰ, ਅਤੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਹੋਰ ਡਾਟਾ ਕਿਸਮਾਂ ਨੂੰ ਮਿਲਾਉਣਾ) ਸ਼ੁਰੂ ਵਿੱਚ ਸੰਯੁਕਤ ਰਾਜ ਦੇ ਅੰਦਰ ਅੰਗਰੇਜ਼ੀ-ਭਾਸ਼ਾ ਦੇ ਉਪਭੋਗਤਾਵਾਂ ਤੱਕ ਸੀਮਤ ਹਨ।
ਲਾਇਸੈਂਸਿੰਗ ਲੈਂਡਸਕੇਪ ਨੂੰ ਨੈਵੀਗੇਟ ਕਰਨਾ
ਕੁਝ ਮਾਡਲਾਂ ਲਈ ਖੁੱਲ੍ਹੇਪਣ ‘ਤੇ ਜ਼ੋਰ ਦੇਣ ਦੇ ਬਾਵਜੂਦ, Llama 4 ਦੀ ਤੈਨਾਤੀ ਅਤੇ ਵਰਤੋਂ ਖਾਸ ਲਾਇਸੈਂਸਿੰਗ ਸ਼ਰਤਾਂ ਦੁਆਰਾ ਨਿਯੰਤਰਿਤ ਹੁੰਦੀ ਹੈ ਜੋ ਕੁਝ ਡਿਵੈਲਪਰਾਂ ਅਤੇ ਸੰਗਠਨਾਂ ਲਈ ਰੁਕਾਵਟਾਂ ਪੇਸ਼ ਕਰ ਸਕਦੀਆਂ ਹਨ। ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਪਾਬੰਦੀ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਯੂਰਪੀਅਨ ਯੂਨੀਅਨ (European Union) ਵਿੱਚ ਅਧਾਰਤ ਜਾਂ ਆਪਣਾ ਮੁੱਖ ਕਾਰੋਬਾਰੀ ਸਥਾਨ ਰੱਖਣ ਵਾਲੇ ਉਪਭੋਗਤਾਵਾਂ ਅਤੇ ਕੰਪਨੀਆਂ ਨੂੰ Llama 4 ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਜਾਂ ਵੰਡਣ ਤੋਂ ਵਰਜਦੀ ਹੈ। ਇਹ ਭੂਗੋਲਿਕ ਸੀਮਾ ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ EU ਦੇ ਵਿਆਪਕ AI ਐਕਟ (AI Act) ਅਤੇ GDPR ਵਰਗੇ ਮੌਜੂਦਾ ਡਾਟਾ ਗੋਪਨੀਯਤਾ ਨਿਯਮਾਂ ਦੁਆਰਾ ਲਾਜ਼ਮੀ ਸਖ਼ਤ ਸ਼ਾਸਨ ਲੋੜਾਂ ਦਾ ਸਿੱਧਾ ਨਤੀਜਾ ਹੈ। ਇਹਨਾਂ ਗੁੰਝਲਦਾਰ ਰੈਗੂਲੇਟਰੀ ਢਾਂਚਿਆਂ ਨੂੰ ਨੈਵੀਗੇਟ ਕਰਨਾ ਖੇਤਰ ਵਿੱਚ Meta ਦੀ ਤੈਨਾਤੀ ਰਣਨੀਤੀ ਨੂੰ ਆਕਾਰ ਦੇਣ ਵਾਲਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਵਿਚਾਰ ਜਾਪਦਾ ਹੈ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਪਿਛਲੇ Llama ਦੁਹਰਾਓ ਦੇ ਲਾਇਸੈਂਸਿੰਗ ਢਾਂਚੇ ਦੀ ਗੂੰਜ ਕਰਦੇ ਹੋਏ, Meta ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ ਉੱਦਮਾਂ ‘ਤੇ ਇੱਕ ਸ਼ਰਤ ਲਾਗੂ ਕਰਦਾ ਹੈ। 700 ਮਿਲੀਅਨ ਤੋਂ ਵੱਧ ਮਾਸਿਕ ਸਰਗਰਮ ਉਪਭੋਗਤਾਵਾਂ ਵਾਲੀਆਂ ਕੰਪਨੀਆਂ ਨੂੰ ਸਿੱਧੇ Meta ਤੋਂ ਇੱਕ ਵਿਸ਼ੇਸ਼ ਲਾਇਸੈਂਸ ਲਈ ਰਸਮੀ ਤੌਰ ‘ਤੇ ਬੇਨਤੀ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਇਸ ਲਾਇਸੈਂਸ ਨੂੰ ਦੇਣ ਜਾਂ ਇਨਕਾਰ ਕਰਨ ਦਾ ਫੈਸਲਾ ਪੂਰੀ ਤਰ੍ਹਾਂ Meta ਦੇ ‘ਇਕਮਾਤਰ ਵਿਵੇਕ’ ਦੇ ਅੰਦਰ ਹੈ। ਇਹ ਧਾਰਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ Meta ਨੂੰ ਨਿਯੰਤਰਣ ਦਿੰਦੀ ਹੈ ਕਿ ਇਸਦੇ ਸਭ ਤੋਂ ਉੱਨਤ ਮਾਡਲਾਂ ਦਾ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਪ੍ਰਤੀਯੋਗੀ ਵੱਡੀਆਂ ਤਕਨਾਲੋਜੀ ਫਰਮਾਂ ਦੁਆਰਾ ਕਿਵੇਂ ਲਾਭ ਉਠਾਇਆ ਜਾਂਦਾ ਹੈ, Llama ਈਕੋਸਿਸਟਮ ਦੇ ਕੁਝ ਹਿੱਸਿਆਂ ਦੇ ‘ਖੁੱਲ੍ਹੇ’ ਸੁਭਾਅ ਦੇ ਬਾਵਜੂਦ ਰਣਨੀਤਕ ਨਿਗਰਾਨੀ ਦੀ ਇੱਕ ਡਿਗਰੀ ਬਣਾਈ ਰੱਖਦੀ ਹੈ। ਇਹ ਲਾਇਸੈਂਸਿੰਗ ਬਾਰੀਕੀਆਂ ਉੱਚ-ਦਾਅ ਵਾਲੇ AI ਡੋਮੇਨ ਵਿੱਚ ਖੁੱਲ੍ਹੀ ਨਵੀਨਤਾ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਨ ਅਤੇ ਰਣਨੀਤਕ ਨਿਯੰਤਰਣ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਣ ਵਿਚਕਾਰ ਗੁੰਝਲਦਾਰ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦੀਆਂ ਹਨ।
ਲਾਂਚ ਦੇ ਨਾਲ ਆਪਣੀ ਅਧਿਕਾਰਤ ਸੰਚਾਰ ਵਿੱਚ, Meta ਨੇ Llama 4 ਰੀਲੀਜ਼ ਨੂੰ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਪਲ ਵਜੋਂ ਦਰਸਾਇਆ। ਕੰਪਨੀ ਨੇ ਇੱਕ ਬਲੌਗ ਪੋਸਟ ਵਿੱਚ ਕਿਹਾ, ‘ਇਹ Llama 4 ਮਾਡਲ Llama ਈਕੋਸਿਸਟਮ ਲਈ ਇੱਕ ਨਵੇਂ ਯੁੱਗ ਦੀ ਸ਼ੁਰੂਆਤ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ,’ ਅਤੇ ਅੱਗੇ ਕਿਹਾ, ‘ਇਹ Llama 4 ਸੰਗ੍ਰਹਿ ਲਈ ਸਿਰਫ ਸ਼ੁਰੂਆਤ ਹੈ।’ ਇਹ ਅਗਾਂਹਵਧੂ ਬਿਆਨ Llama 4 ਪੀੜ੍ਹੀ ਦੇ ਅੰਦਰ ਨਿਰੰਤਰ ਵਿਕਾਸ ਅਤੇ ਵਿਸਥਾਰ ਲਈ ਇੱਕ ਰੋਡਮੈਪ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ, ਇਸ ਲਾਂਚ ਨੂੰ ਅੰਤਿਮ ਮੰਜ਼ਿਲ ਵਜੋਂ ਨਹੀਂ ਬਲਕਿ AI ਉੱਨਤੀ ਦੀ ਇੱਕ ਚੱਲ ਰਹੀ ਯਾਤਰਾ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਮੀਲ ਪੱਥਰ ਵਜੋਂ ਸਥਾਪਤ ਕਰਦਾ ਹੈ।
ਆਰਕੀਟੈਕਚਰਲ ਇਨੋਵੇਸ਼ਨਜ਼: ਮਿਕਸਚਰ ਆਫ਼ ਐਕਸਪਰਟਸ (MoE) ਪਹੁੰਚ
Llama 4 ਸੀਰੀਜ਼ ਨੂੰ ਵੱਖਰਾ ਕਰਨ ਵਾਲੀ ਇੱਕ ਮੁੱਖ ਤਕਨੀਕੀ ਵਿਸ਼ੇਸ਼ਤਾ ਇਸਦਾ Mixture of Experts (MoE) ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਅਪਣਾਉਣਾ ਹੈ। Meta ਉਜਾਗਰ ਕਰਦਾ ਹੈ ਕਿ ਇਹ Llama ਪਰਿਵਾਰ ਦੇ ਅੰਦਰ ਪਹਿਲਾ ਸਮੂਹ ਹੈ ਜੋ ਇਸ ਖਾਸ ਡਿਜ਼ਾਈਨ ਪੈਰਾਡਾਈਮ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। MoE ਪਹੁੰਚ ਇਸ ਗੱਲ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਤਬਦੀਲੀ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਕਿਵੇਂ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਨੂੰ ਬਣਾਇਆ ਅਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਜੋ ਕਿ ਸਰੋਤ-ਸੰਘਣੀ ਸਿਖਲਾਈ ਪੜਾਅ ਦੌਰਾਨ ਅਤੇ ਸੰਚਾਲਨ ਪੜਾਅ ਦੌਰਾਨ ਜਦੋਂ ਉਪਭੋਗਤਾ ਪੁੱਛਗਿੱਛਾਂ ਦਾ ਜਵਾਬ ਦਿੰਦੇ ਹਨ, ਦੋਵਾਂ ਵਿੱਚ ਕੰਪਿਊਟੇਸ਼ਨਲ ਕੁਸ਼ਲਤਾ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਫਾਇਦੇ ਪੇਸ਼ ਕਰਦੀ ਹੈ।
ਇਸਦੇ ਮੂਲ ਰੂਪ ਵਿੱਚ, ਇੱਕ MoE ਆਰਕੀਟੈਕਚਰ ਗੁੰਝਲਦਾਰ ਡਾਟਾ ਪ੍ਰੋਸੈਸਿੰਗ ਕਾਰਜਾਂ ਨੂੰ ਛੋਟੇ, ਵਧੇਰੇ ਪ੍ਰਬੰਧਨਯੋਗ ਉਪ-ਕਾਰਜਾਂ ਵਿੱਚ ਵੰਡ ਕੇ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹਨਾਂ ਉਪ-ਕਾਰਜਾਂ ਨੂੰ ਫਿਰ ਬੁੱਧੀਮਾਨੀ ਨਾਲ ਛੋਟੇ, ਵਿਸ਼ੇਸ਼ ਨਿਊਰਲ ਨੈਟਵਰਕ ਕੰਪੋਨੈਂਟਸ ਦੇ ਸੰਗ੍ਰਹਿ ਵਿੱਚ ਰੂਟ ਜਾਂ ਸੌਂਪਿਆ ਜਾਂਦਾ ਹੈ, ਜਿਨ੍ਹਾਂ ਨੂੰ ‘ਮਾਹਰ’ ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਹਰੇਕ ਮਾਹਰ ਨੂੰ ਆਮ ਤੌਰ ‘ਤੇ ਖਾਸ ਕਿਸਮ ਦੇ ਡਾਟਾ ਜਾਂ ਕਾਰਜਾਂ ਵਿੱਚ ਉੱਤਮਤਾ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। ਆਰਕੀਟੈਕਚਰ ਦੇ ਅੰਦਰ ਇੱਕ ਗੇਟਿੰਗ ਮਕੈਨਿਜ਼ਮ ਇਹ ਨਿਰਧਾਰਤ ਕਰਦਾ ਹੈ ਕਿ ਕਿਹੜਾ ਮਾਹਰ ਜਾਂ ਮਾਹਰਾਂ ਦਾ ਸੁਮੇਲ ਇਨਪੁਟ ਡਾਟਾ ਜਾਂ ਪੁੱਛਗਿੱਛ ਦੇ ਕਿਸੇ ਖਾਸ ਹਿੱਸੇ ਨੂੰ ਸੰਭਾਲਣ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਹੈ। ਇਹ ਰਵਾਇਤੀ ਸੰਘਣੇ ਮਾਡਲ ਆਰਕੀਟੈਕਚਰ ਦੇ ਉਲਟ ਹੈ ਜਿੱਥੇ ਪੂਰਾ ਮਾਡਲ ਇਨਪੁਟ ਦੇ ਹਰ ਹਿੱਸੇ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰਦਾ ਹੈ।
ਕੁਸ਼ਲਤਾ ਲਾਭ ਇਸ ਤੱਥ ਤੋਂ ਪੈਦਾ ਹੁੰਦੇ ਹਨ ਕਿ ਮਾਡਲ ਦੇ ਕੁੱਲ ਪੈਰਾਮੀਟਰਾਂ ਦਾ ਸਿਰਫ ਇੱਕ ਉਪ ਸਮੂਹ (ਚੁਣੇ ਹੋਏ ਮਾਹਰਾਂ ਨਾਲ ਸਬੰਧਤ ‘ਸਰਗਰਮ’ ਪੈਰਾਮੀਟਰ) ਕਿਸੇ ਵੀ ਦਿੱਤੇ ਗਏ ਕਾਰਜ ਲਈ ਲੱਗੇ ਹੁੰਦੇ ਹਨ। ਇਹ ਚੋਣਵੀਂ ਸਰਗਰਮੀ ਇੱਕ ਵਿਸ਼ਾਲ, ਸੰਘਣੇ ਮਾਡਲ ਦੀ ਪੂਰੀਤਾ ਨੂੰ ਸਰਗਰਮ ਕਰਨ ਦੇ ਮੁਕਾਬਲੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਲੋਡ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਘਟਾਉਂਦੀ ਹੈ।
Meta ਨੇ ਇਸ ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਕਾਰਵਾਈ ਵਿੱਚ ਦਰਸਾਉਂਦੇ ਹੋਏ ਖਾਸ ਵੇਰਵੇ ਪ੍ਰਦਾਨ ਕੀਤੇ:
- Maverick: ਇਸ ਮਾਡਲ ਵਿੱਚ 400 ਬਿਲੀਅਨ ਦੀ ਕਾਫ਼ੀ ਕੁੱਲ ਪੈਰਾਮੀਟਰ ਗਿਣਤੀ ਹੈ। ਹਾਲਾਂਕਿ, 128 ਵੱਖ-ਵੱਖ ‘ਮਾਹਰਾਂ’ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੇ MoE ਡਿਜ਼ਾਈਨ ਦਾ ਧੰਨਵਾਦ, ਪ੍ਰੋਸੈਸਿੰਗ ਦੌਰਾਨ ਕਿਸੇ ਵੀ ਸਮੇਂ ਸਿਰਫ 17 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਸਰਗਰਮੀ ਨਾਲ ਲੱਗੇ ਹੁੰਦੇ ਹਨ। ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਅਕਸਰ ਸਿੱਖਣ ਅਤੇ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨ ਦੀ ਗੁੰਝਲਤਾ ਲਈ ਇੱਕ ਮਾਡਲ ਦੀ ਸਮਰੱਥਾ ਲਈ ਇੱਕ ਮੋਟਾ ਪ੍ਰੌਕਸੀ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ।
- Scout: ਇਸੇ ਤਰ੍ਹਾਂ ਬਣਾਇਆ ਗਿਆ, Scout ਵਿੱਚ 16 ‘ਮਾਹਰਾਂ’ ਵਿੱਚ ਵੰਡੇ ਗਏ 109 ਬਿਲੀਅਨ ਕੁੱਲ ਪੈਰਾਮੀਟਰ ਹਨ, ਜਿਸਦੇ ਨਤੀਜੇ ਵਜੋਂ Maverick ਵਾਂਗ ਹੀ 17 ਬਿਲੀਅਨ ਸਰਗਰਮ ਪੈਰਾਮੀਟਰ ਹਨ।
ਇਹ ਆਰਕੀਟੈਕਚਰਲ ਚੋਣ Meta ਨੂੰ ਵਿਸ਼ਾਲ ਸਮੁੱਚੀ ਸਮਰੱਥਾ (ਉੱਚ ਕੁੱਲ ਪੈਰਾਮੀਟਰ ਗਿਣਤੀ) ਵਾਲੇ ਮਾਡਲ ਬਣਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ ਜਦੋਂ ਕਿ ਅਨੁਮਾਨ (ਪੁੱਛਗਿੱਛ ਪ੍ਰੋਸੈਸਿੰਗ) ਲਈ ਪ੍ਰਬੰਧਨਯੋਗ ਕੰਪਿਊਟੇਸ਼ਨਲ ਮੰਗਾਂ ਨੂੰ ਬਣਾਈ ਰੱਖਿਆ ਜਾਂਦਾ ਹੈ, ਉਹਨਾਂ ਨੂੰ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਵੱਡੇ ਪੈਮਾਨੇ ‘ਤੇ ਤੈਨਾਤ ਕਰਨ ਅਤੇ ਚਲਾਉਣ ਲਈ ਵਧੇਰੇ ਵਿਹਾਰਕ ਬਣਾਉਂਦਾ ਹੈ।
ਪ੍ਰਦਰਸ਼ਨ ਬੈਂਚਮਾਰਕ ਅਤੇ ਮਾਡਲ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ
Meta ਨੇ ਆਪਣੇ ਨਵੇਂ ਮਾਡਲਾਂ ਨੂੰ ਮੁਕਾਬਲੇਬਾਜ਼ੀ ਨਾਲ ਸਥਿਤੀ ਵਿੱਚ ਰੱਖਿਆ ਹੈ, OpenAI, Google, ਅਤੇ Anthropic ਵਰਗੇ ਵਿਰੋਧੀਆਂ ਦੇ ਪ੍ਰਮੁੱਖ ਮਾਡਲਾਂ ਦੇ ਵਿਰੁੱਧ Llama 4 ਦੀ ਤੁਲਨਾ ਕਰਦੇ ਹੋਏ ਅੰਦਰੂਨੀ ਬੈਂਚਮਾਰਕ ਨਤੀਜੇ ਜਾਰੀ ਕੀਤੇ ਹਨ।
Maverick, ਜਿਸਨੂੰ Meta ਦੁਆਰਾ ‘ਆਮ ਸਹਾਇਕ ਅਤੇ ਚੈਟ’ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਸਰਵੋਤਮ ਨਾਮਜ਼ਦ ਕੀਤਾ ਗਿਆ ਹੈ, ਜਿਸ ਵਿੱਚ ਰਚਨਾਤਮਕ ਲਿਖਤ ਅਤੇ ਕੋਡ ਜਨਰੇਸ਼ਨ ਵਰਗੇ ਕਾਰਜ ਸ਼ਾਮਲ ਹਨ, ਰਿਪੋਰਟ ਅਨੁਸਾਰ ਖਾਸ ਬੈਂਚਮਾਰਕਾਂ ‘ਤੇ OpenAI ਦੇ GPT-4o ਅਤੇ Google ਦੇ Gemini 2.0 ਵਰਗੇ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਉੱਤਮ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। ਇਹ ਬੈਂਚਮਾਰਕ ਕੋਡਿੰਗ ਮੁਹਾਰਤ, ਤਰਕਸ਼ੀਲ ਤਰਕ, ਬਹੁ-ਭਾਸ਼ਾਈ ਸਮਰੱਥਾਵਾਂ, ਟੈਕਸਟ ਦੇ ਲੰਬੇ ਕ੍ਰਮ (ਲੰਬਾ-ਸੰਦਰਭ), ਅਤੇ ਚਿੱਤਰ ਸਮਝ ਵਰਗੇ ਖੇਤਰਾਂ ਨੂੰ ਕਵਰ ਕਰਦੇ ਹਨ। ਹਾਲਾਂਕਿ, Meta ਦਾ ਆਪਣਾ ਡਾਟਾ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ Maverick ਮੌਜੂਦਾ ਸਮੇਂ ਵਿੱਚ ਉਪਲਬਧ ਸਭ ਤੋਂ ਨਵੀਨਤਮ ਅਤੇ ਸਭ ਤੋਂ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਡਲਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਲਗਾਤਾਰ ਪਾਰ ਨਹੀਂ ਕਰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ Google ਦਾ Gemini 2.5 Pro, Anthropic ਦਾ Claude 3.7 Sonnet, ਜਾਂ OpenAI ਦਾ ਅਨੁਮਾਨਿਤ GPT-4.5। ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ Maverick ਉੱਚ-ਪ੍ਰਦਰਸ਼ਨ ਵਾਲੇ ਪੱਧਰ ਵਿੱਚ ਇੱਕ ਮਜ਼ਬੂਤ ਸਥਿਤੀ ਦਾ ਟੀਚਾ ਰੱਖਦਾ ਹੈ ਪਰ ਪ੍ਰਤੀਯੋਗੀਆਂ ਦੇ ਨਵੀਨਤਮ ਫਲੈਗਸ਼ਿਪ ਮਾਡਲਾਂ ਦੇ ਵਿਰੁੱਧ ਸਾਰੇ ਮਾਪਦੰਡਾਂ ਵਿੱਚ ਪੂਰਨ ਸਿਖਰ ਸਥਾਨ ਦਾ ਦਾਅਵਾ ਨਹੀਂ ਕਰ ਸਕਦਾ ਹੈ।
Scout, ਦੂਜੇ ਪਾਸੇ, ਵੱਖ-ਵੱਖ ਸ਼ਕਤੀਆਂ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਸ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਵਿਆਪਕ ਦਸਤਾਵੇਜ਼ਾਂ ਦਾ ਸਾਰਾਂਸ਼ ਕਰਨ ਅਤੇ ਵੱਡੇ, ਗੁੰਝਲਦਾਰ ਕੋਡਬੇਸਾਂ ‘ਤੇ ਤਰਕ ਕਰਨ ਵਾਲੇ ਕਾਰਜਾਂ ਵਿੱਚ ਉਜਾਗਰ ਕੀਤੀਆਂ ਗਈਆਂ ਹਨ। Scout ਦੀ ਇੱਕ ਖਾਸ ਤੌਰ ‘ਤੇ ਵਿਲੱਖਣ ਅਤੇ ਪਰਿਭਾਸ਼ਿਤ ਵਿਸ਼ੇਸ਼ਤਾ ਇਸਦੀ ਬੇਮਿਸਾਲ ਤੌਰ ‘ਤੇ ਵੱਡੀ ਸੰਦਰਭ ਵਿੰਡੋ (context window) ਹੈ, ਜੋ 10 ਮਿਲੀਅਨ ਟੋਕਨਾਂ ਤੱਕ ਨੂੰ ਸੰਭਾਲਣ ਦੇ ਸਮਰੱਥ ਹੈ। ਟੋਕਨ ਟੈਕਸਟ ਜਾਂ ਕੋਡ ਦੀਆਂ ਬੁਨਿਆਦੀ ਇਕਾਈਆਂ ਹਨ ਜਿਨ੍ਹਾਂ ਦੀ ਭਾਸ਼ਾ ਮਾਡਲ ਪ੍ਰਕਿਰਿਆ ਕਰਦੇ ਹਨ (ਉਦਾਹਰਨ ਲਈ, ਇੱਕ ਸ਼ਬਦ ਨੂੰ ਕਈ ਟੋਕਨਾਂ ਵਿੱਚ ਵੰਡਿਆ ਜਾ ਸਕਦਾ ਹੈ ਜਿਵੇਂ ਕਿ ‘ਸਮ-ਝ-ਣਾ’)। ਇੱਕ 10-ਮਿਲੀਅਨ-ਟੋਕਨ ਸੰਦਰਭ ਵਿੰਡੋ, ਵਿਹਾਰਕ ਰੂਪ ਵਿੱਚ, ਇੱਕੋ ਸਮੇਂ ਬਹੁਤ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਜਾਣਕਾਰੀ ਨੂੰ ਗ੍ਰਹਿਣ ਕਰਨ ਅਤੇ ਪ੍ਰਕਿਰਿਆ ਕਰਨ ਦੀ ਯੋਗਤਾ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਦੀ ਹੈ - ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਲੱਖਾਂ ਸ਼ਬਦਾਂ ਜਾਂ ਕੋਡ ਦੀਆਂ ਪੂਰੀਆਂ ਲਾਇਬ੍ਰੇਰੀਆਂ ਦੇ ਬਰਾਬਰ। ਇਹ Scout ਨੂੰ ਬਹੁਤ ਲੰਬੇ ਦਸਤਾਵੇਜ਼ਾਂ ਜਾਂ ਗੁੰਝਲਦਾਰ ਪ੍ਰੋਗਰਾਮਿੰਗ ਪ੍ਰੋਜੈਕਟਾਂ ਵਿੱਚ ਇਕਸਾਰਤਾ ਅਤੇ ਸਮਝ ਬਣਾਈ ਰੱਖਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਇੱਕ ਅਜਿਹਾ ਕਾਰਨਾਮਾ ਜੋ ਛੋਟੀਆਂ ਸੰਦਰਭ ਵਿੰਡੋਜ਼ ਵਾਲੇ ਮਾਡਲਾਂ ਲਈ ਚੁਣੌਤੀਪੂਰਨ ਹੈ। ਇਹ ਇਸ ਵਿਸ਼ਾਲ ਪਾਠ ਇਨਪੁਟ ਦੇ ਨਾਲ ਚਿੱਤਰਾਂ ਦੀ ਪ੍ਰਕਿਰਿਆ ਵੀ ਕਰ ਸਕਦਾ ਹੈ।
ਇਹਨਾਂ ਮਾਡਲਾਂ ਨੂੰ ਚਲਾਉਣ ਲਈ ਹਾਰਡਵੇਅਰ ਲੋੜਾਂ ਉਹਨਾਂ ਦੇ ਪੈਮਾਨੇ ਅਤੇ ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਹਨ। Meta ਦੇ ਅਨੁਮਾਨਾਂ ਅਨੁਸਾਰ:
- Scout ਮੁਕਾਬਲਤਨ ਕੁਸ਼ਲ ਹੈ, ਇੱਕ ਸਿੰਗਲ ਹਾਈ-ਐਂਡ Nvidia H100 GPU ‘ਤੇ ਚੱਲਣ ਦੇ ਸਮਰੱਥ ਹੈ।
- Maverick, MoE ਕੁਸ਼ਲਤਾ ਦੇ ਬਾਵਜੂਦ ਇਸਦੀ ਵੱਡੀ ਕੁੱਲ ਪੈਰਾਮੀਟਰ ਗਿਣਤੀ ਦੇ ਨਾਲ, ਵਧੇਰੇ ਮਹੱਤਵਪੂਰਨ ਸਰੋਤਾਂ ਦੀ ਮੰਗ ਕਰਦਾ ਹੈ, ਜਿਸ ਲਈ ਇੱਕ Nvidia H100 DGX ਸਿਸਟਮ (ਜਿਸ ਵਿੱਚ ਆਮ ਤੌਰ ‘ਤੇ ਕਈ H100 GPUs ਹੁੰਦੇ ਹਨ) ਜਾਂ ਬਰਾਬਰ ਦੀ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸ਼ਕਤੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
ਆਉਣ ਵਾਲੇ Behemoth ਮਾਡਲ ਤੋਂ ਹੋਰ ਵੀ ਜ਼ਿਆਦਾ ਸ਼ਕਤੀਸ਼ਾਲੀ ਹਾਰਡਵੇਅਰ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਦੀ ਲੋੜ ਹੋਣ ਦੀ ਉਮੀਦ ਹੈ। Meta ਨੇ ਖੁਲਾਸਾ ਕੀਤਾ ਕਿ Behemoth ਨੂੰ 288 ਬਿਲੀਅਨ ਸਰਗਰਮ ਪੈਰਾਮੀਟਰਾਂ ਨਾਲ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਗਿਆ ਹੈ (ਲਗਭਗ ਦੋ ਟ੍ਰਿਲੀਅਨ ਕੁੱਲ ਪੈਰਾਮੀਟਰਾਂ ਵਿੱਚੋਂ, 16 ਮਾਹਰਾਂ ਵਿੱਚ ਫੈਲਿਆ ਹੋਇਆ ਹੈ)। ਸ਼ੁਰੂਆਤੀ ਅੰਦਰੂਨੀ ਬੈਂਚਮਾਰਕ Behemoth ਨੂੰ GPT-4.5, Claude 3.7 Sonnet, ਅਤੇ Gemini 2.0 Pro (ਹਾਲਾਂਕਿ ਖਾਸ ਤੌਰ ‘ਤੇ, ਵਧੇਰੇ ਉੱਨਤ Gemini 2.5 Pro ਨਹੀਂ) ਵਰਗੇ ਮਾਡਲਾਂ ਨੂੰ STEM (ਵਿਗਿਆਨ, ਤਕਨਾਲੋਜੀ, ਇੰਜੀਨੀਅਰਿੰਗ, ਅਤੇ ਗਣਿਤ) ਦੇ ਹੁਨਰਾਂ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਕਈ ਮੁਲਾਂਕਣਾਂ ‘ਤੇ ਪਛਾੜਦੇ ਹੋਏ ਸਥਿਤੀ ਵਿੱਚ ਰੱਖਦੇ ਹਨ, ਖਾਸ ਤੌਰ ‘ਤੇ ਗੁੰਝਲਦਾਰ ਗਣਿਤ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਵਰਗੇ ਖੇਤਰਾਂ ਵਿੱਚ।
ਇਹ ਧਿਆਨ ਦੇਣ ਯੋਗ ਹੈ, ਹਾਲਾਂਕਿ, ਕਿ ਵਰਤਮਾਨ ਵਿੱਚ ਘੋਸ਼ਿਤ ਕੀਤੇ ਗਏ Llama 4 ਮਾਡਲਾਂ ਵਿੱਚੋਂ ਕੋਈ ਵੀ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ OpenAI ਦੇ ਵਿਕਾਸ ਸੰਬੰਧੀ o1 ਅਤੇ o3-mini ਸੰਕਲਪਾਂ ਦੀ ਤਰਜ਼ ‘ਤੇ ‘ਤਰਕ’ ਮਾਡਲ ਵਜੋਂ ਡਿਜ਼ਾਈਨ ਨਹੀਂ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਹ ਵਿਸ਼ੇਸ਼ ਤਰਕ ਮਾਡਲ ਆਮ ਤੌਰ ‘ਤੇ ਅੰਦਰੂਨੀ ਤੱਥ-ਜਾਂਚ ਅਤੇ ਉਹਨਾਂ ਦੇ ਜਵਾਬਾਂ ਦੇ ਦੁਹਰਾਓ ਵਾਲੇ ਸੁਧਾਰ ਲਈ ਵਿਧੀਆਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਵਧੇਰੇ ਭਰੋਸੇਮੰਦ ਅਤੇ ਸਹੀ ਜਵਾਬ ਮਿਲਦੇ ਹਨ, ਖਾਸ ਕਰਕੇ ਤੱਥਾਂ ਸੰਬੰਧੀ ਪੁੱਛਗਿੱਛਾਂ ਲਈ। ਵਪਾਰ-ਬੰਦ ਅਕਸਰ ਵਧੀ ਹੋਈ ਲੇਟੈਂਸੀ ਹੁੰਦੀ ਹੈ, ਭਾਵ ਉਹ Llama 4 ਪਰਿਵਾਰ ਵਰਗੇ ਵਧੇਰੇ ਰਵਾਇਤੀ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਜਵਾਬ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਜ਼ਿਆਦਾ ਸਮਾਂ ਲੈਂਦੇ ਹਨ, ਜੋ ਤੇਜ਼ੀ ਨਾਲ ਪੀੜ੍ਹੀ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦੇ ਹਨ।
ਗੱਲਬਾਤ ਦੀਆਂ ਹੱਦਾਂ ਨੂੰ ਵਿਵਸਥਿਤ ਕਰਨਾ: ਵਿਵਾਦਪੂਰਨ ਵਿਸ਼ੇ
Llama 4 ਲਾਂਚ ਦਾ ਇੱਕ ਦਿਲਚਸਪ ਪਹਿਲੂ Meta ਦੁਆਰਾ ਮਾਡਲਾਂ ਦੇ ਜਵਾਬ ਵਿਵਹਾਰ ਦੀ ਜਾਣਬੁੱਝ ਕੇ ਟਿਊਨਿੰਗ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਸੰਵੇਦਨਸ਼ੀਲ ਜਾਂ ਵਿਵਾਦਪੂਰਨ ਵਿਸ਼ਿਆਂ ਬਾਰੇ। ਕੰਪਨੀ ਨੇ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਕਿਹਾ ਹੈ ਕਿ ਉਸਨੇ Llama 4 ਮਾਡਲਾਂ ਨੂੰ Llama 3 ਪਰਿਵਾਰ ਵਿੱਚ ਉਹਨਾਂ ਦੇ ਪੂਰਵਜਾਂ ਦੇ ਮੁਕਾਬਲੇ ‘ਵਿਵਾਦਪੂਰਨ’ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਤੋਂ ਇਨਕਾਰ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਘੱਟ ਕਰਨ ਲਈ ਵਿਵਸਥਿਤ ਕੀਤਾ ਹੈ।
Meta ਦੇ ਅਨੁਸਾਰ, Llama 4 ਹੁਣ ‘ਬਹਿਸ ਵਾਲੇ’ ਰਾਜਨੀਤਿਕ ਅਤੇ ਸਮਾਜਿਕ ਵਿਸ਼ਿਆਂ ਨਾਲ ਜੁੜਨ ਲਈ ਵਧੇਰੇ ਝੁਕਾਅ ਰੱਖਦਾ ਹੈ ਜਿੱਥੇ ਪਿਛਲੇ ਸੰਸਕਰਣਾਂ ਨੇ ਇਨਕਾਰ ਕੀਤਾ ਹੋ ਸਕਦਾ ਹੈ ਜਾਂ ਇੱਕ ਆਮ ਇਨਕਾਰ ਪ੍ਰਦਾਨ ਕੀਤਾ ਹੋ ਸਕਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਕੰਪਨੀ ਦਾ ਦਾਅਵਾ ਹੈ ਕਿ Llama 4 ਉਹਨਾਂ ਪ੍ਰੋਂਪਟਾਂ ਦੀਆਂ ਕਿਸਮਾਂ ਦੇ ਸੰਬੰਧ ਵਿੱਚ ਇੱਕ ‘ਨਾਟਕੀ ਤੌਰ ‘ਤੇ ਵਧੇਰੇ ਸੰਤੁਲਿਤ’ ਪਹੁੰਚ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਨਾਲ ਇਹ ਪੂਰੀ ਤਰ੍ਹਾਂ ਜੁੜਨ ਤੋਂ ਇਨਕਾਰ ਕਰ ਦੇਵੇਗਾ। ਦੱਸਿਆ ਗਿਆ ਟੀਚਾ ਨਿਰਣਾ ਲਾਗੂ ਕੀਤੇ ਬਿਨਾਂ ਮਦਦਗਾਰ ਅਤੇ ਤੱਥਾਂ ਵਾਲੇ ਜਵਾਬ ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੈ।
ਇੱਕ Meta ਬੁਲਾਰੇ ਨੇ TechCrunch ਨੂੰ ਇਸ ਤਬਦੀਲੀ ਬਾਰੇ ਵਿਸਥਾਰ ਨਾਲ ਦੱਸਿਆ: ‘[Y]ਤੁਸੀਂ [Llama 4] ‘ਤੇ ਭਰੋਸਾ ਕਰ ਸਕਦੇ ਹੋ ਕਿ ਉਹ ਬਿਨਾਂ ਕਿਸੇ ਨਿਰਣੇ ਦੇ ਮਦਦਗਾਰ, ਤੱਥਾਂ ਵਾਲੇ ਜਵਾਬ ਪ੍ਰਦਾਨ ਕਰੇਗਾ… [W]ਅਸੀਂ Llama ਨੂੰ ਵਧੇਰੇ ਜਵਾਬਦੇਹ ਬਣਾਉਣਾ ਜਾਰੀ ਰੱਖ ਰਹੇ ਹਾਂ ਤਾਂ ਜੋ ਇਹ ਵਧੇਰੇ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਵੇ, ਵੱਖ-ਵੱਖ ਦ੍ਰਿਸ਼ਟੀਕੋਣਾਂ ਦੀ ਇੱਕ ਕਿਸਮ ਦਾ ਜਵਾਬ ਦੇ ਸਕੇ […] ਅਤੇ ਕੁਝ ਵਿਚਾਰਾਂ ਦਾ ਦੂਜਿਆਂ ਨਾਲੋਂ ਪੱਖ ਨਾ ਲਵੇ।’
ਇਹ ਵਿਵਸਥਾ ਆਰਟੀਫਿਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਪ੍ਰਣਾਲੀਆਂ ਵਿੱਚ ਸਮਝੇ ਗਏ ਪੱਖਪਾਤਾਂ ਦੇ ਆਲੇ ਦੁਆਲੇ ਚੱਲ ਰਹੀ ਜਨਤਕ ਅਤੇ ਰਾਜਨੀਤਿਕ ਬਹਿਸ ਦੇ ਪਿਛੋਕੜ ਵਿੱਚ ਹੁੰਦੀ ਹੈ। ਕੁਝ ਰਾਜਨੀਤਿਕ ਧੜਿਆਂ ਅਤੇ ਟਿੱਪਣੀਕਾਰਾਂ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ Trump ਪ੍ਰਸ਼ਾਸਨ ਨਾਲ ਜੁੜੀਆਂ ਪ੍ਰਮੁੱਖ ਸ਼ਖਸੀਅਤਾਂ ਜਿਵੇਂ ਕਿ Elon Musk ਅਤੇ ਉੱਦਮ ਪੂੰਜੀਪਤੀ David Sacks ਸ਼ਾਮਲ ਹਨ, ਨੇ ਦੋਸ਼ ਲਗਾਏ ਹਨ ਕਿ ਪ੍ਰਸਿੱਧ AI ਚੈਟਬੋਟ ਇੱਕ ਰਾਜਨੀਤਿਕ ਪੱਖਪਾਤ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦੇ ਹਨ, ਜਿਸਨੂੰ ਅਕਸਰ ‘woke’ ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਕਥਿਤ ਤੌਰ ‘ਤੇ ਰੂੜੀਵਾਦੀ ਦ੍ਰਿਸ਼ਟੀਕੋਣਾਂ ਨੂੰ ਸੈਂਸਰ ਕਰਦੇ ਹਨ ਜਾਂ ਇੱਕ ਉਦਾਰਵਾਦੀ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਵੱਲ ਝੁਕੀ ਹੋਈ ਜਾਣਕਾਰੀ ਪੇਸ਼ ਕਰਦੇ ਹਨ। Sacks, ਉਦਾਹਰਨ ਲਈ, ਨੇ ਅਤੀਤ ਵਿੱਚ ਖਾਸ ਤੌਰ ‘ਤੇ OpenAI ਦੇ ChatGPT ਦੀ ਆਲੋਚਨਾ ਕੀਤੀ ਹੈ, ਦਾਅਵਾ ਕੀਤਾ ਹੈ ਕਿ ਇਸਨੂੰ ‘woke ਹੋਣ ਲਈ ਪ੍ਰੋਗਰਾਮ ਕੀਤਾ ਗਿਆ ਸੀ’ ਅਤੇ ਰਾਜਨੀਤਿਕ ਮਾਮਲਿਆਂ ‘ਤੇ ਭਰੋਸੇਯੋਗ ਨਹੀਂ ਸੀ।
ਹਾਲਾਂਕਿ, AI ਵਿੱਚ ਸੱਚੀ ਨਿਰਪੱਖਤਾ ਪ੍ਰਾਪਤ ਕਰਨ ਅਤੇ ਪੱਖਪਾਤ ਨੂੰ ਖਤਮ ਕਰਨ ਦੀ ਚੁਣੌਤੀ ਨੂੰ ਤਕਨੀਕੀ ਭਾਈਚਾਰੇ ਦੇ ਅੰਦਰ ਇੱਕ ਬਹੁਤ ਹੀ ਗੁੰਝਲਦਾਰ ਅਤੇ ਨਿਰੰਤਰ ਸਮੱਸਿਆ (‘intractable’) ਵਜੋਂ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਮਾਨਤਾ ਪ੍ਰਾਪਤ ਹੈ। AI ਮਾਡਲ ਉਹਨਾਂ ਵਿਸ਼ਾਲ ਡੇਟਾਸੈਟਾਂ