Meta ਦਾ ਜਵਾਬ: Llama 4, ਮਲਟੀਮੋਡਲ ਤੇ ਵਿਸ਼ਾਲ ਸੰਦਰਭ ਨਾਲ

AI ਦੀ ਸਰਵਉੱਚਤਾ ਦੀ ਬਦਲਦੀ ਰੇਤ

ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (AI) ਦੇ ਖੇਤਰ ਵਿੱਚ 2025 ਦੇ ਸ਼ੁਰੂ ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਭੂਚਾਲ ਆਇਆ। DeepSeek R1, ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਓਪਨ-ਸੋਰਸ ਭਾਸ਼ਾ ਤਰਕ ਮਾਡਲ, ਦੀ ਜਨਤਕ ਰਿਲੀਜ਼ ਨੇ ਸਿਰਫ਼ ਇੱਕ ਨਵਾਂ ਖਿਡਾਰੀ ਹੀ ਪੇਸ਼ ਨਹੀਂ ਕੀਤਾ; ਇਸਨੇ ਸਥਾਪਤ ਲੜੀ ਨੂੰ ਬੁਨਿਆਦੀ ਤੌਰ ‘ਤੇ ਚੁਣੌਤੀ ਦਿੱਤੀ। ਰਿਪੋਰਟਾਂ ਨੇ ਸੁਝਾਅ ਦਿੱਤਾ ਕਿ DeepSeek R1 ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਮੈਟ੍ਰਿਕਸ, Meta Platforms ਸਮੇਤ, ਅਮਰੀਕੀ ਤਕਨੀਕੀ ਦਿੱਗਜਾਂ ਦੀਆਂ ਭਾਰੀ ਫੰਡ ਪ੍ਰਾਪਤ ਖੋਜ ਲੈਬਾਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਮਾਪਦੰਡਾਂ ਦੇ ਬਰਾਬਰ ਸਨ, ਅਤੇ ਕੁਝ ਪਹਿਲੂਆਂ ਵਿੱਚ ਉਹਨਾਂ ਤੋਂ ਵੱਧ ਸਨ। ਇਸ ਖੁਲਾਸੇ ਨੇ ਕਿ ਇਹ ਸ਼ਾਨਦਾਰ ਸਮਰੱਥਾ ਕਾਫ਼ੀ ਘੱਟ ਸਿਖਲਾਈ ਲਾਗਤ ‘ਤੇ ਪ੍ਰਾਪਤ ਕੀਤੀ ਗਈ ਸੀ, Silicon Valley ਵਿੱਚ, ਖਾਸ ਕਰਕੇ Meta ਦੇ ਗਲਿਆਰਿਆਂ ਵਿੱਚ, ਚਿੰਤਾ ਦੀਆਂ ਲਹਿਰਾਂ ਭੇਜ ਦਿੱਤੀਆਂ।

Meta ਲਈ, ਅਜਿਹੇ ਸ਼ਕਤੀਸ਼ਾਲੀ ਅਤੇ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਓਪਨ-ਸੋਰਸ ਪ੍ਰਤੀਯੋਗੀ ਦਾ ਉਭਾਰ ਇਸਦੀ ਜਨਰੇਟਿਵ AI ਰਣਨੀਤੀ ਦੇ ਦਿਲ ‘ਤੇ ਵੱਜਿਆ। ਕੰਪਨੀ ਨੇ Llama ਬ੍ਰਾਂਡ ਦੇ ਤਹਿਤ ਵੱਧ ਤੋਂ ਵੱਧ ਸਮਰੱਥ ਮਾਡਲਾਂ ਨੂੰ ਜਾਰੀ ਕਰਦੇ ਹੋਏ, ਓਪਨ-ਸੋਰਸ ਅੰਦੋਲਨ ਦੀ ਅਗਵਾਈ ਕਰਨ ‘ਤੇ ਆਪਣਾ ਦਾਅਵਾ ਕੀਤਾ ਸੀ। ਮੁੱਖ ਆਧਾਰ ਗਲੋਬਲ ਖੋਜ ਅਤੇ ਵਿਕਾਸ ਭਾਈਚਾਰੇ ਨੂੰ ਅਤਿ-ਆਧੁਨਿਕ ਸਾਧਨ ਪ੍ਰਦਾਨ ਕਰਨਾ, ਨਵੀਨਤਾ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਨਾ ਅਤੇ Llama ਨੂੰ ਓਪਨ AI ਵਿਕਾਸ ਲਈ ਡੀ ਫੈਕਟੋ ਸਟੈਂਡਰਡ ਵਜੋਂ ਸਥਾਪਤ ਕਰਨ ਦੀ ਉਮੀਦ ਕਰਨਾ ਸੀ। DeepSeek R1 ਦੀ ਆਮਦ ਨੇ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਬਾਰ ਨੂੰ ਉੱਚਾ ਚੁੱਕਿਆ, Meta ਨੂੰ ਤੀਬਰ ਰਣਨੀਤਕ ਮੁੜ-ਮੁਲਾਂਕਣ ਅਤੇ ਤੇਜ਼ ਵਿਕਾਸ ਦੇ ਦੌਰ ਵਿੱਚ ਮਜਬੂਰ ਕੀਤਾ।

Meta ਦਾ ਜਵਾਬ: Llama 4 ਪਰਿਵਾਰ ਦੀ ਸ਼ੁਰੂਆਤ

Meta ਦੇ ਜਵਾਬ ਦਾ ਸਿਖਰ ਸੰਸਥਾਪਕ ਅਤੇ CEO Mark Zuckerberg ਦੇ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਐਲਾਨ ਨਾਲ ਆਇਆ। ਕੰਪਨੀ ਨੇ ਆਪਣੀ ਅਗਲੀ ਪੀੜ੍ਹੀ ਦੀ Llama 4 ਸੀਰੀਜ਼ ਦਾ ਪਰਦਾਫਾਸ਼ ਕੀਤਾ, ਮਾਡਲਾਂ ਦਾ ਇੱਕ ਪਰਿਵਾਰ ਜੋ ਸਿਰਫ਼ ਫੜਨ ਲਈ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਓਪਨ-ਸੋਰਸ AI ਸਮਰੱਥਾਵਾਂ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਤੁਰੰਤ ਪ੍ਰਭਾਵ ਨਾਲ, ਇਸ ਨਵੇਂ ਪਰਿਵਾਰ ਦੇ ਦੋ ਮੈਂਬਰ ਦੁਨੀਆ ਭਰ ਦੇ ਡਿਵੈਲਪਰਾਂ ਲਈ ਉਪਲਬਧ ਕਰਵਾਏ ਗਏ ਸਨ:

  • Llama 4 Maverick: ਇੱਕ ਮਹੱਤਵਪੂਰਨ 400-ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਮਾਡਲ।
  • Llama 4 Scout: ਇੱਕ ਵਧੇਰੇ ਚੁਸਤ, ਪਰ ਫਿਰ ਵੀ ਸ਼ਕਤੀਸ਼ਾਲੀ, 109-ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਮਾਡਲ।

ਇਹ ਮਾਡਲ ਸਿੱਧੇ ਡਾਊਨਲੋਡ ਲਈ ਜਾਰੀ ਕੀਤੇ ਗਏ ਸਨ, ਖੋਜਕਰਤਾਵਾਂ ਅਤੇ ਕੰਪਨੀਆਂ ਨੂੰ ਬਿਨਾਂ ਕਿਸੇ ਦੇਰੀ ਦੇ ਉਹਨਾਂ ਦੀ ਵਰਤੋਂ, ਫਾਈਨ-ਟਿਊਨਿੰਗ, ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਆਪਣੇ ਖੁਦ ਦੇ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿੱਚ ਏਕੀਕ੍ਰਿਤ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰਨ ਲਈ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ।

ਇਹਨਾਂ ਆਸਾਨੀ ਨਾਲ ਉਪਲਬਧ ਮਾਡਲਾਂ ਦੇ ਨਾਲ, Meta ਨੇ Llama 4 Behemoth ਦੀ ਝਲਕ ਦੇ ਨਾਲ ਭਵਿੱਖ ਵਿੱਚ ਇੱਕ ਦਿਲਚਸਪ ਝਲਕ ਪੇਸ਼ ਕੀਤੀ। ਜਿਵੇਂ ਕਿ ਇਸਦੇ ਨਾਮ ਤੋਂ ਪਤਾ ਲੱਗਦਾ ਹੈ, ਇਹ ਮਾਡਲ ਪੈਮਾਨੇ ਵਿੱਚ ਇੱਕ ਯਾਦਗਾਰੀ ਛਾਲ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਇੱਕ ਹੈਰਾਨਕੁਨ 2-ਟ੍ਰਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਦਾ ਮਾਣ ਕਰਦਾ ਹੈ। ਹਾਲਾਂਕਿ, Meta ਦੇ ਅਧਿਕਾਰਤ ਸੰਚਾਰ ਨੇ ਸਪੱਸ਼ਟ ਕੀਤਾ ਕਿ Behemoth ਅਜੇ ਵੀ ਆਪਣੀ ਤੀਬਰ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚੋਂ ਗੁਜ਼ਰ ਰਿਹਾ ਹੈ, ਅਤੇ ਇਸਦੀ ਜਨਤਕ ਰਿਲੀਜ਼ ਲਈ ਕੋਈ ਖਾਸ ਸਮਾਂ-ਸੀਮਾ ਪ੍ਰਦਾਨ ਨਹੀਂ ਕੀਤੀ ਗਈ ਹੈ। ਇਸਦੀ ਮੌਜੂਦਾ ਭੂਮਿਕਾ ਇੱਕ ਅੰਦਰੂਨੀ ਬੈਂਚਮਾਰਕ ਸੈਟਰ ਅਤੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਛੋਟੇ ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਸੁਧਾਰਨ ਲਈ ਇੱਕ ‘ਅਧਿਆਪਕ’ ਮਾਡਲ ਦੀ ਜਾਪਦੀ ਹੈ।

ਪਰਿਭਾਸ਼ਿਤ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ: ਮਲਟੀਮੋਡੈਲਿਟੀ ਅਤੇ ਵਿਸ਼ਾਲ ਸੰਦਰਭ

Llama 4 ਸੀਰੀਜ਼ ਕਈ ਬੁਨਿਆਦੀ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਪੇਸ਼ ਕਰਦੀ ਹੈ ਜੋ ਇਸਨੂੰ ਵੱਖਰਾ ਕਰਦੀਆਂ ਹਨ। ਇਹਨਾਂ ਵਿੱਚੋਂ ਸਭ ਤੋਂ ਪ੍ਰਮੁੱਖ ਸਹਿਜ ਮਲਟੀਮੋਡੈਲਿਟੀ ਹੈ। ਪਿਛਲੀਆਂ ਪੀੜ੍ਹੀਆਂ ਦੇ ਉਲਟ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਮਲਟੀਮੋਡਲ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਜੋੜਿਆ ਗਿਆ ਹੋ ਸਕਦਾ ਹੈ, Llama 4 ਮਾਡਲਾਂ ਨੂੰ ਟੈਕਸਟ, ਵੀਡੀਓ ਅਤੇ ਚਿੱਤਰਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੇ ਵਿਭਿੰਨ ਡੇਟਾਸੈਟ ‘ਤੇ ਸ਼ੁਰੂ ਤੋਂ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ। ਸਿੱਟੇ ਵਜੋਂ, ਉਹਨਾਂ ਕੋਲ ਇਹਨਾਂ ਵੱਖ-ਵੱਖ ਡੇਟਾ ਕਿਸਮਾਂ ਵਾਲੇ ਪ੍ਰੋਂਪਟਾਂ ਨੂੰ ਸਮਝਣ ਦੀ ਕੁਦਰਤੀ ਯੋਗਤਾ ਹੈ ਅਤੇ ਜਵਾਬ ਤਿਆਰ ਕਰਦੇ ਹਨ ਜੋ ਟੈਕਸਟ, ਵੀਡੀਓ ਅਤੇ ਚਿੱਤਰਾਂ ਨੂੰ ਵੀ ਫੈਲਾ ਸਕਦੇ ਹਨ। ਖਾਸ ਤੌਰ ‘ਤੇ, ਸ਼ੁਰੂਆਤੀ ਘੋਸ਼ਣਾਵਾਂ ਵਿੱਚ ਆਡੀਓ ਪ੍ਰੋਸੈਸਿੰਗ ਸਮਰੱਥਾਵਾਂ ਦਾ ਜ਼ਿਕਰ ਨਹੀਂ ਕੀਤਾ ਗਿਆ ਸੀ।

ਇੱਕ ਹੋਰ ਸੁਰਖੀ ਸਮਰੱਥਾ ਨਵੇਂ ਮਾਡਲਾਂ ਦੁਆਰਾ ਪੇਸ਼ ਕੀਤੀ ਗਈ ਨਾਟਕੀ ਤੌਰ ‘ਤੇ ਵਿਸਤ੍ਰਿਤ ਸੰਦਰਭ ਵਿੰਡੋ ਹੈ। ਸੰਦਰਭ ਵਿੰਡੋ ਉਸ ਜਾਣਕਾਰੀ ਦੀ ਮਾਤਰਾ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ ਜਿਸਨੂੰ ਇੱਕ ਮਾਡਲ ਇੱਕ ਸਿੰਗਲ ਇੰਟਰੈਕਸ਼ਨ (ਇਨਪੁਟ ਅਤੇ ਆਉਟਪੁੱਟ ਦੋਵੇਂ) ਵਿੱਚ ਪ੍ਰੋਸੈਸ ਕਰ ਸਕਦਾ ਹੈ। Llama 4 ਇਹਨਾਂ ਸੀਮਾਵਾਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਅੱਗੇ ਵਧਾਉਂਦਾ ਹੈ:

  • Llama 4 Maverick: ਇੱਕ 1 ਮਿਲੀਅਨ ਟੋਕਨ ਸੰਦਰਭ ਵਿੰਡੋ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਹੈ। ਇਹ ਲਗਭਗ 1,500 ਸਟੈਂਡਰਡ ਪੰਨਿਆਂ ਦੀ ਟੈਕਸਟ ਸਮੱਗਰੀ ਨੂੰ ਇੱਕੋ ਸਮੇਂ ਪ੍ਰੋਸੈਸ ਕਰਨ ਦੇ ਬਰਾਬਰ ਹੈ।
  • Llama 4 Scout: ਇੱਕ ਹੋਰ ਵੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ 10 ਮਿਲੀਅਨ ਟੋਕਨ ਸੰਦਰਭ ਵਿੰਡੋ ਦਾ ਮਾਣ ਕਰਦਾ ਹੈ, ਜੋ ਇੱਕ ਵਾਰ ਵਿੱਚ ਲਗਭਗ 15,000 ਪੰਨਿਆਂ ਦੇ ਟੈਕਸਟ ਦੇ ਬਰਾਬਰ ਜਾਣਕਾਰੀ ਨੂੰ ਸੰਭਾਲਣ ਦੇ ਸਮਰੱਥ ਹੈ।

ਇਹ ਵਿਸ਼ਾਲ ਸੰਦਰਭ ਵਿੰਡੋਜ਼ ਲੰਬੇ ਦਸਤਾਵੇਜ਼ਾਂ, ਵਿਆਪਕ ਕੋਡਬੇਸ, ਲੰਬੀ ਗੱਲਬਾਤ, ਜਾਂ ਵਿਸਤ੍ਰਿਤ ਮਲਟੀ-ਟਰਨ ਵਿਸ਼ਲੇਸ਼ਣ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੇ ਗੁੰਝਲਦਾਰ ਕਾਰਜਾਂ ਲਈ ਨਵੀਆਂ ਸੰਭਾਵਨਾਵਾਂ ਨੂੰ ਖੋਲ੍ਹਦੀਆਂ ਹਨ, ਉਹ ਖੇਤਰ ਜਿੱਥੇ ਪਿਛਲੇ ਮਾਡਲ ਅਕਸਰ ਮੈਮੋਰੀ ਸੀਮਾਵਾਂ ਕਾਰਨ ਸੰਘਰਸ਼ ਕਰਦੇ ਸਨ।

ਆਰਕੀਟੈਕਚਰਲ ਆਧਾਰ: ‘ਮਿਕਸਚਰ-ਆਫ-ਐਕਸਪਰਟਸ’ (MoE) ਪਹੁੰਚ

ਤਿੰਨੋਂ Llama 4 ਮਾਡਲਾਂ ਨੂੰ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਨਾ ਆਧੁਨਿਕ ‘ਮਿਕਸਚਰ-ਆਫ-ਐਕਸਪਰਟਸ’ (MoE) ਆਰਕੀਟੈਕਚਰ ਹੈ। ਇਸ ਡਿਜ਼ਾਈਨ ਪੈਰਾਡਾਈਮ ਨੇ ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ AI ਮਾਡਲਾਂ ਦੇ ਵਿਕਾਸ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਖਿੱਚ ਪ੍ਰਾਪਤ ਕੀਤੀ ਹੈ। ਇੱਕ ਸਿੰਗਲ, ਮੋਨੋਲਿਥਿਕ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਬਣਾਉਣ ਦੀ ਬਜਾਏ, MoE ਇੱਕ ਵੱਡੇ ਫਰੇਮਵਰਕ ਦੇ ਅੰਦਰ ਕਈ ਛੋਟੇ, ਵਿਸ਼ੇਸ਼ ਨੈੱਟਵਰਕਾਂ - ‘ਮਾਹਿਰਾਂ’ - ਨੂੰ ਜੋੜਦਾ ਹੈ। ਹਰੇਕ ਮਾਹਰ ਨੂੰ ਖਾਸ ਕਾਰਜਾਂ, ਵਿਸ਼ਿਆਂ, ਜਾਂ ਵੱਖ-ਵੱਖ ਡੇਟਾ ਮੋਡੈਲਿਟੀਜ਼ (ਜਿਵੇਂ ਕਿ ਟੈਕਸਟ ਵਿਸ਼ਲੇਸ਼ਣ ਬਨਾਮ ਚਿੱਤਰ ਪਛਾਣ) ਵਿੱਚ ਉੱਤਮਤਾ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ।

MoE ਆਰਕੀਟੈਕਚਰ ਦੇ ਅੰਦਰ ਇੱਕ ਰੂਟਿੰਗ ਵਿਧੀ ਆਉਣ ਵਾਲੇ ਡੇਟਾ ਜਾਂ ਪੁੱਛਗਿੱਛਾਂ ਨੂੰ ਪ੍ਰੋਸੈਸਿੰਗ ਲਈ ਸਭ ਤੋਂ ਢੁਕਵੇਂ ਮਾਹਰ(ਆਂ) ਵੱਲ ਨਿਰਦੇਸ਼ਿਤ ਕਰਦੀ ਹੈ। ਇਹ ਪਹੁੰਚ ਕਈ ਫਾਇਦੇ ਪੇਸ਼ ਕਰਦੀ ਹੈ:

  1. ਕੁਸ਼ਲਤਾ: ਕਿਸੇ ਦਿੱਤੇ ਗਏ ਕਾਰਜ ਲਈ ਸਿਰਫ਼ ਲੋੜੀਂਦੇ ਮਾਹਰ ਹੀ ਸਰਗਰਮ ਹੁੰਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਅਨੁਮਾਨ (ਇੱਕ ਜਵਾਬ ਪੈਦਾ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ) ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਤੇਜ਼ ਅਤੇ ਇੱਕ ਪੂਰੇ ਵਿਸ਼ਾਲ ਮਾਡਲ ਨੂੰ ਸਰਗਰਮ ਕਰਨ ਨਾਲੋਂ ਘੱਟ ਗਣਨਾਤਮਕ ਤੌਰ ‘ਤੇ ਮਹਿੰਗਾ ਹੁੰਦਾ ਹੈ।
  2. ਸਕੇਲੇਬਿਲਟੀ: ਸਿਧਾਂਤਕ ਤੌਰ ‘ਤੇ, ਪੂਰੇ ਸਿਸਟਮ ਨੂੰ ਸ਼ੁਰੂ ਤੋਂ ਦੁਬਾਰਾ ਸਿਖਲਾਈ ਦਿੱਤੇ ਬਿਨਾਂ, ਹੋਰ ਮਾਹਰਾਂ ਨੂੰ ਜੋੜ ਕੇ ਜਾਂ ਮੌਜੂਦਾ ਲੋਕਾਂ ਨੂੰ ਹੋਰ ਸਿਖਲਾਈ ਦੇ ਕੇ ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਸਕੇਲ ਕਰਨਾ ਆਸਾਨ ਹੈ।
  3. ਵਿਸ਼ੇਸ਼ਤਾ: ਵੱਖ-ਵੱਖ ਡੋਮੇਨਾਂ ਵਿੱਚ ਡੂੰਘੀ ਵਿਸ਼ੇਸ਼ਤਾ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਖਾਸ ਕਿਸਮ ਦੇ ਕਾਰਜਾਂ ਲਈ ਉੱਚ ਗੁਣਵੱਤਾ ਵਾਲੇ ਆਉਟਪੁੱਟ ਵੱਲ ਅਗਵਾਈ ਕਰਦਾ ਹੈ।

Llama 4 ਪਰਿਵਾਰ ਲਈ MoE ਨੂੰ Meta ਦੁਆਰਾ ਅਪਣਾਉਣਾ ਉਦਯੋਗ ਦੇ ਰੁਝਾਨਾਂ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ ਅਤੇ ਗਣਨਾਤਮਕ ਕੁਸ਼ਲਤਾ ਦੇ ਨਾਲ ਅਤਿ-ਆਧੁਨਿਕ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਸੰਤੁਲਿਤ ਕਰਨ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਤ ਕਰਦਾ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਵਿਆਪਕ ਓਪਨ-ਸੋਰਸ ਵੰਡ ਲਈ ਤਿਆਰ ਕੀਤੇ ਮਾਡਲਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ।

ਵੰਡ ਰਣਨੀਤੀ ਅਤੇ ਵਿਕਾਸ ਫੋਕਸ

Meta Llama 4 ਰਿਲੀਜ਼ ਦੇ ਨਾਲ ਓਪਨ ਐਕਸੈਸ ਪ੍ਰਤੀ ਆਪਣੀ ਵਚਨਬੱਧਤਾ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰ ਰਿਹਾ ਹੈ। Llama 4 Scout ਅਤੇ Llama 4 Maverick ਦੋਵੇਂ ਸਵੈ-ਹੋਸਟਿੰਗ ਲਈ ਤੁਰੰਤ ਉਪਲਬਧ ਹਨ, ਲੋੜੀਂਦੇ ਗਣਨਾਤਮਕ ਸਰੋਤਾਂ ਵਾਲੀਆਂ ਸੰਸਥਾਵਾਂ ਨੂੰ ਆਪਣੇ ਖੁਦ ਦੇ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ‘ਤੇ ਮਾਡਲਾਂ ਨੂੰ ਚਲਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦੇ ਹਨ। ਇਹ ਪਹੁੰਚ ਵੱਧ ਤੋਂ ਵੱਧ ਨਿਯੰਤਰਣ, ਅਨੁਕੂਲਤਾ ਅਤੇ ਡੇਟਾ ਗੋਪਨੀਯਤਾ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ।

ਦਿਲਚਸਪ ਗੱਲ ਇਹ ਹੈ ਕਿ, Meta ਨੇ ਇਹਨਾਂ ਮਾਡਲਾਂ ਨੂੰ ਆਪਣੇ ਖੁਦ ਦੇ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ‘ਤੇ ਚਲਾਉਣ ਲਈ ਅਧਿਕਾਰਤ ਹੋਸਟਡ API ਐਕਸੈਸ ਜਾਂ ਸੰਬੰਧਿਤ ਕੀਮਤ ਪੱਧਰਾਂ ਦੀ ਘੋਸ਼ਣਾ ਨਹੀਂ ਕੀਤੀ ਹੈ, ਇੱਕ ਆਮ ਮੁਦਰੀਕਰਨ ਰਣਨੀਤੀ ਜੋ OpenAI ਅਤੇ Anthropic ਵਰਗੇ ਪ੍ਰਤੀਯੋਗੀਆਂ ਦੁਆਰਾ ਵਰਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਦੀ ਬਜਾਏ, ਸ਼ੁਰੂਆਤੀ ਫੋਕਸ ਸਿੱਧਾ ਇਸ ‘ਤੇ ਹੈ:

  1. ਓਪਨ ਡਾਊਨਲੋਡ: ਮਾਡਲ ਵੇਟਸ ਨੂੰ ਮੁਫ਼ਤ ਵਿੱਚ ਉਪਲਬਧ ਕਰਵਾਉਣਾ।
  2. ਪਲੇਟਫਾਰਮ ਏਕੀਕਰਣ: Meta ਦੇ ਆਪਣੇ ਖਪਤਕਾਰ-ਮੁਖੀ ਉਤਪਾਦਾਂ ਵਿੱਚ ਨਵੀਆਂ Llama 4 ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਸਹਿਜੇ ਹੀ ਸ਼ਾਮਲ ਕਰਨਾ, ਜਿਸ ਵਿੱਚ WhatsApp, Messenger, Instagram, ਅਤੇ ਇਸਦੇ ਵੈੱਬ ਇੰਟਰਫੇਸ ਦੇ ਅੰਦਰ Meta AI ਕਾਰਜਕੁਸ਼ਲਤਾਵਾਂ ਸ਼ਾਮਲ ਹਨ।

ਇਹ ਰਣਨੀਤੀ ਸੁਝਾਅ ਦਿੰਦੀ ਹੈ ਕਿ Meta ਦਾ ਉਦੇਸ਼ ਓਪਨ-ਸੋਰਸ ਭਾਈਚਾਰੇ ਦੇ ਅੰਦਰ ਅਪਣਾਉਣ ਅਤੇ ਨਵੀਨਤਾ ਨੂੰ ਚਲਾਉਣਾ ਹੈ ਜਦੋਂ ਕਿ ਇਸਦੇ ਆਪਣੇ ਵਿਸ਼ਾਲ ਉਪਭੋਗਤਾ ਈਕੋਸਿਸਟਮ ਨੂੰ ਵਧਾਉਣ ਲਈ ਇਸਦੀ ਅਤਿ-ਆਧੁਨਿਕ AI ਦਾ ਲਾਭ ਉਠਾਉਣਾ ਹੈ।

ਤਿੰਨੋਂ Llama 4 ਮਾਡਲਾਂ, ਖਾਸ ਤੌਰ ‘ਤੇ ਵੱਡੇ Maverick ਅਤੇ Behemoth ਲਈ ਵਿਕਾਸ ਦਾ ਜ਼ੋਰ, ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਤਰਕ, ਕੋਡਿੰਗ, ਅਤੇ ਕਦਮ-ਦਰ-ਕਦਮ ਸਮੱਸਿਆ-ਹੱਲ ‘ਤੇ ਹੈ। Meta ਨੇ ਇਹਨਾਂ ਤਰਕਸ਼ੀਲ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਲਈ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਤਿਆਰ ਕੀਤੀਆਂ ਕਸਟਮ ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਰਿਫਾਈਨਮੈਂਟ ਪਾਈਪਲਾਈਨਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨ ‘ਤੇ ਜ਼ੋਰ ਦਿੱਤਾ। ਹਾਲਾਂਕਿ ਤਰਕ ਵਿੱਚ ਸ਼ਕਤੀਸ਼ਾਲੀ, ਸ਼ੁਰੂਆਤੀ ਵਰਣਨ ਸੁਝਾਅ ਦਿੰਦੇ ਹਨ ਕਿ ਉਹ ਸਪੱਸ਼ਟ ‘ਚੇਨ-ਆਫ-ਥੌਟ’ ਪ੍ਰਕਿਰਿਆਵਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਨਹੀਂ ਕਰ ਸਕਦੇ ਹਨ ਜੋ ਖਾਸ ਤੌਰ ‘ਤੇ ਗੁੰਝਲਦਾਰ ਤਰਕ ਕਾਰਜਾਂ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਮਾਡਲਾਂ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਹਨ, ਜਿਵੇਂ ਕਿ ਕੁਝ OpenAI ਮਾਡਲ ਜਾਂ DeepSeek R1।

ਇੱਕ ਖਾਸ ਤੌਰ ‘ਤੇ ਜ਼ਿਕਰਯੋਗ ਨਵੀਨਤਾ MetaP ਹੈ, ਇੱਕ ਤਕਨੀਕ ਜੋ Llama 4 ਪ੍ਰੋਜੈਕਟ ਦੌਰਾਨ ਵਿਕਸਤ ਕੀਤੀ ਗਈ ਹੈ। ਇਹ ਟੂਲ ਇੰਜੀਨੀਅਰਾਂ ਨੂੰ ਇੱਕ ਕੋਰ ਮਾਡਲ ‘ਤੇ ਹਾਈਪਰਪੈਰਾਮੀਟਰ ਸੈੱਟ ਕਰਨ ਅਤੇ ਫਿਰ ਇਸ ਤੋਂ ਕੁਸ਼ਲਤਾ ਨਾਲ ਵੱਖ-ਵੱਖ ਹੋਰ ਮਾਡਲ ਕਿਸਮਾਂ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਆਗਿਆ ਦੇ ਕੇ ਭਵਿੱਖ ਦੇ ਮਾਡਲ ਵਿਕਾਸ ਨੂੰ ਸੁਚਾਰੂ ਬਣਾਉਣ ਦਾ ਵਾਅਦਾ ਕਰਦਾ ਹੈ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਸਿਖਲਾਈ ਕੁਸ਼ਲਤਾ ਅਤੇ ਲਾਗਤ ਬੱਚਤ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਲਾਭ ਵੱਲ ਅਗਵਾਈ ਕਰਦਾ ਹੈ।

ਟਾਈਟਨਸ ਦੀ ਬੈਂਚਮਾਰਕਿੰਗ: Llama 4 ਪ੍ਰਦਰਸ਼ਨ ਮੈਟ੍ਰਿਕਸ

ਪ੍ਰਤੀਯੋਗੀ AI ਲੈਂਡਸਕੇਪ ਵਿੱਚ, ਪ੍ਰਦਰਸ਼ਨ ਬੈਂਚਮਾਰਕ ਤਰੱਕੀ ਦੀ ਲਿੰਗੁਆ ਫ੍ਰੈਂਕਾ ਹਨ। Meta ਇਹ ਦਿਖਾਉਣ ਲਈ ਉਤਸੁਕ ਸੀ ਕਿ ਇਸਦਾ ਨਵਾਂ Llama 4 ਪਰਿਵਾਰ ਸਥਾਪਤ ਉਦਯੋਗ ਦੇ ਨੇਤਾਵਾਂ ਅਤੇ ਪਿਛਲੀਆਂ Llama ਪੀੜ੍ਹੀਆਂ ਦੇ ਮੁਕਾਬਲੇ ਕਿਵੇਂ ਖੜ੍ਹਾ ਹੈ।

Llama 4 Behemoth (2T ਪੈਰਾਮੀਟਰ - ਪੂਰਵਦਰਸ਼ਨ)

ਹਾਲਾਂਕਿ ਅਜੇ ਵੀ ਸਿਖਲਾਈ ਵਿੱਚ ਹੈ, Meta ਨੇ ਸ਼ੁਰੂਆਤੀ ਬੈਂਚਮਾਰਕ ਨਤੀਜੇ ਸਾਂਝੇ ਕੀਤੇ ਹਨ ਜੋ Behemoth ਨੂੰ ਇੱਕ ਚੋਟੀ ਦੇ ਦਾਅਵੇਦਾਰ ਵਜੋਂ ਸਥਾਨਿਤ ਕਰਦੇ ਹਨ, ਦਾਅਵਾ ਕਰਦੇ ਹੋਏ ਕਿ ਇਹ ਕਈ ਮੁੱਖ ਤਰਕ ਅਤੇ ਮਾਤਰਾਤਮਕ ਬੈਂਚਮਾਰਕਾਂ ‘ਤੇ GPT-4.5, Google ਦੇ Gemini 2.0 Pro, ਅਤੇ Anthropic ਦੇ Claude Sonnet 3.7 ਵਰਗੇ ਪ੍ਰਮੁੱਖ ਮਾਡਲਾਂ ਨੂੰ ਪਛਾੜਦਾ ਹੈ:

  • MATH-500: ਗਣਿਤ ਦੀ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨ ਦੀਆਂ ਯੋਗਤਾਵਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਵਾਲਾ ਇੱਕ ਚੁਣੌਤੀਪੂਰਨ ਬੈਂਚਮਾਰਕ। Behemoth 95.0 ਦਾ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ।
  • GPQA Diamond: ਗ੍ਰੈਜੂਏਟ-ਪੱਧਰ ਦੇ ਸਵਾਲ-ਜਵਾਬ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਮਾਪਦਾ ਹੈ। Behemoth 73.7 ਸਕੋਰ ਕਰਦਾ ਹੈ।
  • MMLU Pro (Massive Multitask Language Understanding): ਵਿਸ਼ਿਆਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਗਿਆਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਵਾਲਾ ਇੱਕ ਵਿਆਪਕ ਬੈਂਚਮਾਰਕ। Behemoth 82.2 ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ।

Llama 4 Maverick (400B ਪੈਰਾਮੀਟਰ - ਹੁਣ ਉਪਲਬਧ)

ਇੱਕ ਉੱਚ-ਪ੍ਰਦਰਸ਼ਨ ਵਾਲੇ ਮਲਟੀਮੋਡਲ ਮਾਡਲ ਵਜੋਂ ਸਥਿਤੀ, Maverick ਮਜ਼ਬੂਤ ਨਤੀਜੇ ਦਿਖਾਉਂਦਾ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਉਹਨਾਂ ਮਾਡਲਾਂ ਦੇ ਵਿਰੁੱਧ ਜੋ ਉਹਨਾਂ ਦੀ ਮਲਟੀਮੋਡਲ ਸ਼ਕਤੀ ਲਈ ਜਾਣੇ ਜਾਂਦੇ ਹਨ:

  • ਕਈ ਮਲਟੀਮੋਡਲ ਤਰਕ ਬੈਂਚਮਾਰਕਾਂ ‘ਤੇ GPT-4o ਅਤੇ Gemini 2.0 Flash ਨੂੰ ਪਛਾੜਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
    • ChartQA: ਚਾਰਟਾਂ ਵਿੱਚ ਪੇਸ਼ ਕੀਤੇ ਡੇਟਾ ਨੂੰ ਸਮਝਣਾ ਅਤੇ ਤਰਕ ਕਰਨਾ (90.0 ਬਨਾਮ GPT-4o ਦਾ 85.7)।
    • DocVQA: ਦਸਤਾਵੇਜ਼ ਚਿੱਤਰਾਂ ‘ਤੇ ਅਧਾਰਤ ਸਵਾਲ-ਜਵਾਬ (94.4 ਬਨਾਮ GPT-4o ਦਾ 92.8)।
    • MathVista: ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਪੇਸ਼ ਕੀਤੀਆਂ ਗਣਿਤ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਨਾਲ ਨਜਿੱਠਣਾ।
    • MMMU: ਵਿਸ਼ਾਲ ਮਲਟੀਮੋਡਲ ਸਮਝ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਵਾਲਾ ਇੱਕ ਬੈਂਚਮਾਰਕ।
  • DeepSeek v3.1 (ਇੱਕ 45.8B ਪੈਰਾਮੀਟਰ ਮਾਡਲ) ਨਾਲ ਮੁਕਾਬਲੇਬਾਜ਼ੀ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ ਜਦੋਂ ਕਿ ਅੱਧੇ ਤੋਂ ਘੱਟ ਸਰਗਰਮ ਪੈਰਾਮੀਟਰਾਂ (MoE ਆਰਕੀਟੈਕਚਰ ਕਾਰਨ ਅਨੁਮਾਨਿਤ 17B ਸਰਗਰਮ ਪੈਰਾਮੀਟਰ) ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਇਸਦੀ ਕੁਸ਼ਲਤਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ।
  • ਇੱਕ ਮਜ਼ਬੂਤ MMLU Pro ਸਕੋਰ 80.5 ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ।
  • Meta ਨੇ ਇਸਦੀ ਸੰਭਾਵੀ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਨੂੰ ਵੀ ਉਜਾਗਰ ਕੀਤਾ, ਅਨੁਮਾਨ ਲਗਾਉਂਦੇ ਹੋਏ ਕਿ ਅਨੁਮਾਨ ਲਾਗਤ $0.19–$0.49 ਪ੍ਰਤੀ 1 ਮਿਲੀਅਨ ਟੋਕਨ ਦੀ ਰੇਂਜ ਵਿੱਚ ਹੈ, ਸ਼ਕਤੀਸ਼ਾਲੀ AI ਨੂੰ ਵਧੇਰੇ ਪਹੁੰਚਯੋਗ ਬਣਾਉਂਦਾ ਹੈ।

Llama 4 Scout (109B ਪੈਰਾਮੀਟਰ - ਹੁਣ ਉਪਲਬਧ)

ਕੁਸ਼ਲਤਾ ਅਤੇ ਵਿਆਪਕ ਲਾਗੂਯੋਗਤਾ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ, Scout ਤੁਲਨਾਤਮਕ ਮਾਡਲਾਂ ਦੇ ਵਿਰੁੱਧ ਆਪਣਾ ਸਥਾਨ ਰੱਖਦਾ ਹੈ:

  • ਕਈ ਬੈਂਚਮਾਰਕਾਂ ‘ਤੇ Mistral 3.1, Gemini 2.0 Flash-Lite, ਅਤੇ Gemma 3 ਵਰਗੇ ਮਾਡਲਾਂ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ ਜਾਂ ਉਹਨਾਂ ਨੂੰ ਪਛਾੜਦਾ ਹੈ:
    • DocVQA: 94.4 ਦਾ ਉੱਚ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ।
    • MMLU Pro: ਇੱਕ ਸਤਿਕਾਰਯੋਗ 74.3 ਸਕੋਰ ਕਰਦਾ ਹੈ।
    • MathVista: 70.7 ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ।
  • ਇਸਦੀ ਸ਼ਾਨਦਾਰ ਵਿਸ਼ੇਸ਼ਤਾ ਬੇਮਿਸਾਲ 10 ਮਿਲੀਅਨ ਟੋਕਨ ਸੰਦਰਭ ਲੰਬਾਈ ਹੈ, ਜੋ ਇਸਨੂੰ ਬਹੁਤ ਲੰਬੇ ਦਸਤਾਵੇਜ਼ਾਂ, ਗੁੰਝਲਦਾਰ ਕੋਡਬੇਸ, ਜਾਂ ਵਿਸਤ੍ਰਿਤ ਮਲਟੀ-ਟਰਨ ਇੰਟਰੈਕਸ਼ਨਾਂ ਦੇ ਡੂੰਘੇ ਵਿਸ਼ਲੇਸ਼ਣ ਦੀ ਲੋੜ ਵਾਲੇ ਕਾਰਜਾਂ ਲਈ ਵਿਲੱਖਣ ਤੌਰ ‘ਤੇ ਅਨੁਕੂਲ ਬਣਾਉਂਦੀ ਹੈ।
  • ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, Scout ਕੁਸ਼ਲ ਤੈਨਾਤੀ ਲਈ ਇੰਜੀਨੀਅਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਇੱਕ ਸਿੰਗਲ NVIDIA H100 GPU ‘ਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਚੱਲਣ ਦੇ ਸਮਰੱਥ ਹੈ, ਸੀਮਤ ਹਾਰਡਵੇਅਰ ਸਰੋਤਾਂ ਵਾਲੀਆਂ ਸੰਸਥਾਵਾਂ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਵਿਚਾਰ।

ਤੁਲਨਾਤਮਕ ਵਿਸ਼ਲੇਸ਼ਣ: Behemoth ਬਨਾਮ ਰੀਜ਼ਨਿੰਗ ਮਾਹਿਰ

ਹੋਰ ਸੰਦਰਭ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ, ਪੂਰਵਦਰਸ਼ਨ ਕੀਤੇ Llama 4 Behemoth ਦੀ ਉਹਨਾਂ ਮਾਡਲਾਂ ਨਾਲ ਤੁਲਨਾ ਕਰਨਾ ਜਿਨ੍ਹਾਂ ਨੇ ਸ਼ੁਰੂ ਵਿੱਚ Meta ਦੇ ਤੇਜ਼ ਵਿਕਾਸ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ ਸੀ - DeepSeek R1 ਅਤੇ OpenAI ਦੀ ਤਰਕ-ਕੇਂਦਰਿਤ ‘o’ ਸੀਰੀਜ਼ - ਇੱਕ ਸੂਖਮ ਤਸਵੀਰ ਪ੍ਰਗਟ ਕਰਦੀ ਹੈ। DeepSeek R1 (ਖਾਸ ਤੌਰ ‘ਤੇ R1-32B ਵੇਰੀਐਂਟ ਜਿਸਦਾ ਅਕਸਰ ਹਵਾਲਾ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ) ਅਤੇ OpenAI o1 (ਖਾਸ ਤੌਰ ‘ਤੇ o1-1217) ਦੀਆਂ ਸ਼ੁਰੂਆਤੀ ਰਿਲੀਜ਼ਾਂ ਤੋਂ ਉਪਲਬਧ ਬੈਂਚਮਾਰਕ ਡੇਟਾ ਪੁਆਇੰਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ:

ਬੈਂਚਮਾਰਕ Llama 4 Behemoth DeepSeek R1 (32B ਵੇਰੀਐਂਟ ਦਾ ਹਵਾਲਾ) OpenAI o1-1217
MATH-500 95.0 97.3 96.4
GPQA Diamond 73.7 71.5 75.7
MMLU Pro 82.2 90.8 (ਨੋਟ: MMLU ਸਕੋਰ, Pro ਨਹੀਂ) 91.8 (ਨੋਟ: MMLU ਸਕੋਰ, Pro ਨਹੀਂ)

(ਨੋਟ: MMLU Pro ‘ਤੇ ਸਿੱਧੀ ਤੁਲਨਾ ਮੁਸ਼ਕਲ ਹੈ ਕਿਉਂਕਿ ਪਹਿਲਾਂ ਦੇ ਚਾਰਟ ਅਕਸਰ R1/o1 ਲਈ ਸਟੈਂਡਰਡ MMLU ਸਕੋਰਾਂ ਦਾ ਹਵਾਲਾ ਦਿੰਦੇ ਸਨ, ਜੋ ਆਮ ਤੌਰ ‘ਤੇ ਵਧੇਰੇ ਚੁਣੌਤੀਪੂਰਨ MMLU Pro ਵੇਰੀਐਂਟ ਨਾਲੋਂ ਵੱਧ ਸੰਖਿਆਵਾਂ ਦਿੰਦੇ ਹਨ। MMLU Pro ‘ਤੇ Behemoth ਦਾ 82.2 ਅਜੇ ਵੀ ਆਪਣੀ ਸ਼੍ਰੇਣੀ ਦੇ ਮੁਕਾਬਲੇ ਬਹੁਤ ਮਜ਼ਬੂਤ ਹੈ, GPT-4.5 ਅਤੇ Gemini 2.0 Pro ਤੋਂ ਵੱਧ ਹੈ)।

ਇਹਨਾਂ ਖਾਸ ਤੁਲਨਾਵਾਂ ਦੀ ਵਿਆਖਿਆ:

  • MATH-500 ਬੈਂਚਮਾਰਕ ‘ਤੇ, Llama 4 Behemoth DeepSeek R1 ਅਤੇ OpenAI o1 ਲਈ ਰਿਪੋਰਟ ਕੀਤੇ ਸਕੋਰਾਂ ਤੋਂ ਥੋੜ੍ਹਾ ਪਿੱਛੇ ਹੈ।
    *GPQA Diamond ਲਈ, Behemoth ਹਵਾਲਾ ਦਿੱਤੇ DeepSeek R1 ਸਕੋਰ ‘ਤੇ ਇੱਕ ਕਿਨਾਰਾ ਦਿਖਾਉਂਦਾ ਹੈ ਪਰ OpenAI o1 ਤੋਂ ਥੋੜ੍ਹਾ ਪਿੱਛੇ ਰਹਿ ਜਾਂਦਾ ਹੈ।
  • MMLU ‘ਤੇ (Behemoth ਦੇ MMLU Pro ਦੀ ਦੂਜਿਆਂ ਲਈ ਸਟੈਂਡਰਡ MMLU ਨਾਲ ਤੁਲਨਾ ਕਰਦੇ ਹੋਏ, ਅੰਤਰ ਨੂੰ ਸਵੀਕਾਰ ਕਰਦੇ ਹੋਏ), Behemoth ਦਾ ਸਕੋਰ ਘੱਟ ਹੈ, ਹਾਲਾਂਕਿ Gemini 2.0 Pro ਅਤੇ GPT-4.5 ਵਰਗੇ ਹੋਰ ਵੱਡੇ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਇਸਦਾ ਪ੍ਰਦਰਸ਼ਨ ਬਹੁਤ ਮੁਕਾਬਲੇ ਵਾਲਾ ਰਹਿੰਦਾ ਹੈ।

ਮੁੱਖ ਸਿੱਟਾ ਇਹ ਹੈ ਕਿ ਜਦੋਂ ਕਿ DeepSeek R1 ਅਤੇ OpenAI o1 ਵਰਗੇ ਵਿਸ਼ੇਸ਼