ਐਂਥਰੋਪਿਕ ਦਾ ਕਲੌਡ 4: ਏਆਈ ਕੋਡਿੰਗ ਦੀਆਂ ਹੱਦਾਂ ਮੁੜ ਪਰਿਭਾਸ਼ਿਤ | pa

ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (Artificial intelligence) ਦੇ ਖੇਤਰ ਵਿੱਚ ਐਂਥਰੋਪਿਕ (Anthropic) ਦੁਆਰਾ ਆਪਣੇ ਫਲੈਗਸ਼ਿਪ ਕਲਾਉਡ (Claude) ਪਰਿਵਾਰ ਵਿੱਚ ਓਪਸ 4 (Opus 4) ਅਤੇ ਸੋਨੇਟ 4 (Sonnet 4) ਦੇ ਨਵੀਨਤਮ ਸੰਸਕਰਣਾਂ ਦਾ ਪਰਦਾਫਾਸ਼ ਕਰਨ ਨਾਲ ਇੱਕ ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਛਾਲ ਮਾਰੀ ਗਈ ਹੈ। ਇੱਕ ਹਫ਼ਤੇ ਤੋਂ ਥੋੜ੍ਹੀ ਦੇਰ ਪਹਿਲਾਂ ਜਾਰੀ ਕੀਤੇ ਗਏ, ਇਹਨਾਂ ਮਾਡਲਾਂ ਨੇ ਤੇਜ਼ੀ ਨਾਲ ਧਿਆਨ ਖਿੱਚਿਆ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਕੋਡਿੰਗ ਦੇ ਨਾਜ਼ੁਕ ਖੇਤਰ ਵਿੱਚ ਨਵੇਂ ਮਾਪਦੰਡ ਸਥਾਪਤ ਕੀਤੇ ਹਨ। ਆਪਣੀ ਕੋਡਿੰਗ ਦੀ ਸ਼ਕਤੀ ਤੋਂ ਇਲਾਵਾ, ਓਪਸ 4 (Opus 4) ਅਤੇ ਸੋਨੇਟ 4 (Sonnet 4) ਤਰਕ ਅਤੇ ਏਜੰਟਿਕ ਕਾਰਜਕੁਸ਼ਲਤਾਵਾਂ ਵਿੱਚ ਮਜ਼ਬੂਤ ਸਮਰੱਥਾਵਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ, ਜੋ ਉਹਨਾਂ ਨੂੰ ਸਮਕਾਲੀ ਏਆਈ (AI) ਲੈਂਡਸਕੇਪ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਤਰੱਕੀ ਵਜੋਂ ਸਥਾਪਿਤ ਕਰਦੇ ਹਨ।

ਓਪਸ 4 (Opus 4) ਐਂਥਰੋਪਿਕ (Anthropic) ਦੀ ਅੱਜ ਤੱਕ ਦੀ ਸਭ ਤੋਂ ਵਧੀਆ ਰਚਨਾ ਹੈ, ਜਿਸਦੀ ਕੰਪਨੀ ਦੁਆਰਾ ਇਸਦੇ ਸਭ ਤੋਂ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਡਲ ਵਜੋਂ ਸ਼ਲਾਘਾ ਕੀਤੀ ਗਈ ਹੈ ਅਤੇ "ਦੁਨੀਆ ਦੇ ਸਭ ਤੋਂ ਵਧੀਆ ਕੋਡਿੰਗ ਮਾਡਲ" ਵਜੋਂ ਆਪਣੀ ਸਥਿਤੀ ਦਾ ਦਾਅਵਾ ਕੀਤਾ ਗਿਆ ਹੈ। ਓਪਸ 4 (Opus 4) ਦੇ ਪੂਰਕ ਵਜੋਂ, ਸੋਨੇਟ 4 (Sonnet 4) ਇੱਕ ਵਧੇਰੇ ਕਿਫ਼ਾਇਤੀ ਵਿਕਲਪ ਵਜੋਂ ਉਭਰਦਾ ਹੈ, ਜੋ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਵਿਹਾਰਕ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਦੇ ਵਿਚਕਾਰ ਇੱਕ ਵਧੀਆ ਸੰਤੁਲਨ ਬਣਾਉਣ ਲਈ ਇੰਜੀਨੀਅਰਡ ਹੈ। ਇਹ ਰਣਨੀਤਕ ਦੋਹਰੀ ਪੇਸ਼ਕਸ਼ ਉਪਭੋਗਤਾਵਾਂ ਦੇ ਇੱਕ ਵਿਸ਼ਾਲ ਸਪੈਕਟ੍ਰਮ ਨੂੰ ਪੂਰਾ ਕਰਦੀ ਹੈ, ਉਹਨਾਂ ਲੋਕਾਂ ਤੋਂ ਜੋ ਸਿਖਰਲੇ ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਮੰਗ ਕਰਦੇ ਹਨ ਉਹਨਾਂ ਤੱਕ ਜੋ ਵਧੇਰੇ ਬਜਟ-ਸਚੇਤ ਹੱਲ ਦੀ ਭਾਲ ਕਰਦੇ ਹਨ।

ਓਪਸ 4 (Opus 4) ਅਤੇ ਸੋਨੇਟ 4 (Sonnet 4) ਵਿੱਚ ਪੇਸ਼ ਕੀਤੇ ਗਏ ਸੁਧਾਰ ਧਿਆਨ ਦੇਣ ਯੋਗ ਹਨ। ਇੱਕ ਪ੍ਰਾਇਮਰੀ ਹਾਈਲਾਈਟ ਉਹਨਾਂ ਦੀ ਵਧੀ ਹੋਈ ਕੋਡਿੰਗ ਮੁਹਾਰਤ ਹੈ। ਓਪਸ 4 (Opus 4) ਨੇ ਪਹਿਲਾਂ ਹੀ SWE-bench ਅਤੇ Terminal-bench ਸਮੇਤ ਮੁੱਖ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ ਆਪਣੀ ਲੀਡਰਸ਼ਿਪ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਹੈ, ਜਦੋਂ ਕਿ ਸੋਨੇਟ (Sonnet) ਸਮਾਨ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਕੋਡਿੰਗ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਇਹ ਛਾਲ ਸਾਫਟਵੇਅਰ ਵਿਕਾਸ ਵਿੱਚ ਏਆਈ (AI) ਦੀ ਵੱਧ ਰਹੀ ਮਹੱਤਤਾ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦੀ ਹੈ।

ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਸੁਧਾਰਾਂ ਤੋਂ ਇਲਾਵਾ, ਐਂਥਰੋਪਿਕ (Anthropic) ਨੇ ਸੁਰੱਖਿਆ ਨੂੰ ਤਰਜੀਹ ਦਿੱਤੀ ਹੈ। ਓਪਸ 4 (Opus 4) ਵਿੱਚ ASL-3, ਜਾਂ AI Safety Level 3 ਦੀਆਂ ਸੁਰੱਖਿਆਵਾਂ ਸ਼ਾਮਲ ਹਨ। ਇਹ ਉਪਾਅ ਐਂਥਰੋਪਿਕ (Anthropic) ਦੀ ‘ਜ਼ਿੰਮੇਵਾਰ ਸਕੇਲਿੰਗ ਨੀਤੀ’ ਤੋਂ ਪੈਦਾ ਹੁੰਦਾ ਹੈ। ਓਪਨਏਆਈ (OpenAI) ਦੇ ਸਾਬਕਾ ਕਰਮਚਾਰੀਆਂ ਦੁਆਰਾ ਸਥਾਪਿਤ ਐਂਥਰੋਪਿਕ (Anthropic), ਜੋ ਸੁਰੱਖਿਆ ਬਾਰੇ ਚਿੰਤਤ ਹਨ, ਨੇ ਲਗਾਤਾਰ ਮਜ਼ਬੂਤ ਸੁਰੱਖਿਆ ਵਿਚਾਰਾਂ ਨਾਲ ਨਵੀਨਤਾ ‘ਤੇ ਜ਼ੋਰ ਦਿੱਤਾ ਹੈ।

ਓਪਸ 4 (Opus 4) ਅਤੇ ਸੋਨੇਟ 4 (Sonnet 4) ਦੀ ਰਿਲੀਜ਼ ਨੇ ਆਮ ਤੌਰ ‘ਤੇ ਡਿਵੈਲਪਰਾਂ ਅਤੇ ਉਪਭੋਗਤਾਵਾਂ ਤੋਂ ਸਕਾਰਾਤਮਕ ਫੀਡਬੈਕ ਪ੍ਰਾਪਤ ਕੀਤੀ ਹੈ। ਵਧੀਆਂ ਹੋਈਆਂ ਕੋਡਿੰਗ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਖੁਦਮੁਖਤਿਆਰੀ, ਜਾਂ ਏਜੰਟਿਕ, ਏਆਈ (AI) ਪ੍ਰਣਾਲੀਆਂ ਵੱਲ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਵਜੋਂ ਸ਼ਲਾਘਾ ਕੀਤੀ ਗਈ ਹੈ। ਕੀਮਤ ਢਾਂਚੇ, ਜੋ ਕਿ ਇੱਕ ਪ੍ਰੀਮੀਅਮ ਅਤੇ ਇੱਕ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਵਿਕਲਪ ਦੋਵਾਂ ਨੂੰ ਪੇਸ਼ ਕਰਕੇ ਪਿਛਲੀਆਂ ਪੀੜ੍ਹੀਆਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਨੂੰ ਵੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸਵੀਕਾਰ ਕੀਤਾ ਗਿਆ ਹੈ।

ਓਪਸ 4 (Opus 4) ਦੀ ਰਿਲੀਜ਼ ਬਿਨਾਂ ਵਿਵਾਦ ਦੇ ਨਹੀਂ ਸੀ। ਐਂਥਰੋਪਿਕ (Anthropic) ਦੇ ਇੱਕ ਖੋਜਕਰਤਾ ਨੇ ਖੁਲਾਸਾ ਕੀਤਾ ਕਿ ਓਪਸ (Opus) ਅਧਿਕਾਰੀਆਂ ਨਾਲ ਸੰਪਰਕ ਕਰ ਸਕਦਾ ਹੈ ਜੇਕਰ ਇਹ ਕਿਸੇ ਉਪਭੋਗਤਾ ਦੇ ਵਿਵਹਾਰ ਨੂੰ ਗਲਤ ਸਮਝਦਾ ਹੈ। ਜਦੋਂ ਕਿ ਖੋਜਕਰਤਾ ਨੇ ਬਾਅਦ ਵਿੱਚ ਸਪੱਸ਼ਟ ਕੀਤਾ ਕਿ ਇਹ ਆਮ ਵਰਤੋਂ ਵਿੱਚ ਅਸੰਭਵ ਹੈ, ਇਸਨੇ ਉਪਭੋਗਤਾਵਾਂ ਵਿੱਚ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਮਾਡਲ ਵਿੱਚ ਸ਼ਾਮਲ ਸੁਤੰਤਰਤਾ ਦੇ ਪੱਧਰ ਬਾਰੇ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਕੀਤੀਆਂ।

ਏਆਈ (AI) ਦਾ ਖੇਤਰ ਬਹੁਤ ਸਾਰੇ ਜ਼ਮੀਨੀ ਮਾਡਲਾਂ ਦੇ ਐਲਾਨਾਂ ਦੁਆਰਾ ਦਰਸਾਇਆ ਗਿਆ ਹੈ, ਹਰੇਕ "ਦੁਨੀਆ ਦੇ ਸਭ ਤੋਂ ਵਧੀਆ" ਦੇ ਖਿਤਾਬ ਲਈ ਮੁਕਾਬਲਾ ਕਰ ਰਿਹਾ ਹੈ। ਹਾਲ ਹੀ ਵਿੱਚ ਜਾਰੀ ਕੀਤੇ ਗਏ ਗੂਗਲ (Google) ਦੇ ਜੇਮਿਨੀ-2.5-ਪ੍ਰੋ (Gemini-2.5-Pro), ਓਪਨਏਆਈ (OpenAI) ਦੇ ਜੀਪੀਟੀ-4.5 (GPT-4.5) ਅਤੇ ਜੀਪੀਟੀ-4.1 (GPT-4.1), xAI ਦਾ ਗ੍ਰੋਕ 3 (Grok 3), ਅਤੇ ਅਲੀਬਾਬਾ (Alibaba) ਦੇ ਕਿਊਵੇਨ 2.5 (Qwen 2.5) ਅਤੇ ਕਿਊਡਬਲਿਊਕਿਊ-32ਬੀ (QwQ-32B) ਸ਼ਾਮਲ ਹਨ, ਇਹ ਸਾਰੇ ਬੇਮਿਸਾਲ ਬੈਂਚਮਾਰਕ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮਾਣ ਕਰਦੇ ਹਨ।

ਮੁਕਾਬਲੇ ਵਾਲੇ ਦਾਅਵਿਆਂ ਦੇ ਇਸ ਲੈਂਡਸਕੇਪ ਨੂੰ ਦੇਖਦੇ ਹੋਏ, ਇਹ ਜਾਂਚ ਕਰਨਾ ਉਚਿਤ ਹੈ ਕਿ ਕੀ ਕਲਾਉਡ 4 (Claude 4) ਸੱਚਮੁੱਚ ਸਰਵਉੱਚ ਹੈ। ਇਸ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ, ਬੈਂਚਮਾਰਕ ਪ੍ਰਦਰਸ਼ਨ, ਐਪਲੀਕੇਸ਼ਨਾਂ ਅਤੇ ਉਪਭੋਗਤਾ ਫੀਡਬੈਕ ਵਿੱਚ ਖੋਜ ਕਰਕੇ, ਇਸ ਸਵਾਲ ਦਾ ਜਵਾਬ ਨਿਸ਼ਚਿਤ ਕਰਨਾ ਸੰਭਵ ਹੋ ਸਕਦਾ ਹੈ।

ਓਪਸ 4: ਇੱਕ ਕੋਡਿੰਗ ਪਾਵਰਹਾਊਸ

ਓਪਸ 4 (Opus 4) ਐਂਥਰੋਪਿਕ (Anthropic) ਦਾ ਸਭ ਤੋਂ ਉੱਨਤ ਮਾਡਲ ਹੈ, ਜੋ ਗੁੰਝਲਦਾਰ, ਲੰਬੇ ਸਮੇਂ ਦੇ ਕੰਮਾਂ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਹ ਖੁਦਮੁਖਤਿਆਰੀ ਸਾਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ, ਖੋਜ ਅਤੇ ਏਜੰਟਿਕ ਵਰਕਫਲੋ ਲਈ ਢੁਕਵਾਂ ਹੈ, ਜਿਸ ਲਈ ਪ੍ਰੀਮੀਅਮ ਟੂਲਸ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਓਪਸ 4 (Opus 4) ਨੂੰ "ਦੁਨੀਆ ਦਾ ਸਭ ਤੋਂ ਵਧੀਆ ਕੋਡਿੰਗ ਮਾਡਲ" ਵਜੋਂ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਹੈ।

ਮੁੱਖ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਸੁਧਾਰ

ਓਪਸ 4 (Opus 4) ਵਿੱਚ ਉੱਨਤ ਸਮਰੱਥਾਵਾਂ ਹਨ। ਹੇਠ ਲਿਖੇ ਧਿਆਨ ਦੇਣ ਯੋਗ ਹਨ:

ਉੱਨਤ ਕੋਡਿੰਗ: ਓਪਸ 4 (Opus 4) ਖੁਦਮੁਖਤਿਆਰੀ ਨਾਲ "ਦਿਨ-ਲੰਬੇ ਇੰਜੀਨੀਅਰਿੰਗ ਕੰਮਾਂ" ਨੂੰ ਚਲਾਉਣ ਵਿੱਚ ਮਾਹਰ ਹੈ। ਮਾਡਲ "ਵਧੀਆ ਕੋਡ ਸੁਆਦ" ਨਾਲ ਖਾਸ ਡਿਵੈਲਪਰ ਸ਼ੈਲੀਆਂ ਦੇ ਅਨੁਕੂਲ ਹੁੰਦਾ ਹੈ ਅਤੇ 32,000 ਤੱਕ ਆਉਟਪੁੱਟ ਟੋਕਨਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ। ਇੱਕ ਬੈਕਗ੍ਰਾਉਂਡ ਕਲਾਉਡ ਕੋਡ ਇੰਜਣ (Claude Code engine) ਕੰਮਾਂ ਨੂੰ ਸੰਭਾਲਦਾ ਹੈ।
ਉੱਨਤ ਤਰਕ ਅਤੇ ਗੁੰਝਲਦਾਰ ਸਮੱਸਿਆ ਹੱਲ ਕਰਨਾ: ਇੱਕ ਹਾਈਬ੍ਰਿਡ ਤਰਕ ਪ੍ਰਣਾਲੀ ਦੇ ਨਾਲ ਜੋ ਤੁਰੰਤ ਜਵਾਬਾਂ ਅਤੇ ਡੂੰਘੇ, ਵਿਸਤ੍ਰਿਤ ਸੋਚ ਦੇ ਵਿਚਕਾਰ ਬਦਲਦਾ ਹੈ, ਓਪਸ 4 (Opus 4) ਲੰਬੇ ਸਮੇਂ ਦੇ ਕ੍ਰਮਾਂ ਵਿੱਚ ਫੋਕਸ ਬਣਾਈ ਰੱਖਦਾ ਹੈ।
ਏਜੰਟਿਕ ਸਮਰੱਥਾਵਾਂ: ਓਪਸ 4 (Opus 4) ਆਧੁਨਿਕ AI ਏਜੰਟਾਂ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ ਅਤੇ ਰਾਜ-ਦੇ-ਕਲਾ (SOTA) ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। ਇਹ ਐਂਟਰਪ੍ਰਾਈਜ਼ ਵਰਕਫਲੋ ਅਤੇ ਖੁਦਮੁਖਤਿਆਰੀ ਮੁਹਿੰਮ ਪ੍ਰਬੰਧਨ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ।
ਰਚਨਾਤਮਕ ਲਿਖਤ ਅਤੇ ਸਮੱਗਰੀ ਨਿਰਮਾਣ: ਓਪਸ 4 (Opus 4) ਬੇਮਿਸਾਲ ਸਟਾਈਲਿਸ਼ ਗੁਣਵੱਤਾ ਦੇ ਨਾਲ ਮਨੁੱਖੀ ਪੱਧਰ ਦੀ, ਬਾਰੀਕ ਗਦ ਪੈਦਾ ਕਰਦਾ ਹੈ, ਜੋ ਇਸਨੂੰ ਉੱਨਤ ਰਚਨਾਤਮਕ ਕੰਮਾਂ ਲਈ ਢੁਕਵਾਂ ਬਣਾਉਂਦਾ ਹੈ।
ਮੈਮੋਰੀ ਅਤੇ ਲੰਬੇ-ਸੰਦਰਭ ਜਾਗਰੂਕਤਾ: ਓਪਸ 4 (Opus 4) "ਮੈਮੋਰੀ ਫਾਈਲਾਂ" ਬਣਾਉਂਦਾ ਹੈ ਅਤੇ ਵਰਤਦਾ ਹੈ, ਲੰਬੇ ਕੰਮਾਂ ਵਿੱਚ ਇਕਸਾਰਤਾ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਪੋਕੇਮੋਨ (Pokémon) ਖੇਡਦੇ ਹੋਏ ਇੱਕ ਗੇਮ ਗਾਈਡ ਲਿਖਣਾ।
ਏਜੰਟਿਕ ਖੋਜ ਅਤੇ ਖੋਜ: ਓਪਸ 4 (Opus 4) ਘੰਟਿਆਂ ਦੀ ਖੋਜ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਪੇਟੈਂਟਾਂ ਅਤੇ ਅਕਾਦਮਿਕ ਪੇਪਰਾਂ ਵਰਗੇ ਗੁੰਝਲਦਾਰ ਡੇਟਾ ਤੋਂ ਜਾਣਕਾਰੀ ਦਾ ਸੰਯੋਗ ਕਰਦਾ ਹੈ।

ਬੈਂਚਮਾਰਕ ਪ੍ਰਦਰਸ਼ਨ ਹਾਈਲਾਈਟਸ

ਓਪਸ 4 (Opus 4) ਨੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਹੈ। ਹੇਠਾਂ ਦਿੱਤੇ ਬੈਂਚਮਾਰਕਾਂ ‘ਤੇ ਗੌਰ ਕਰੋ:

SWE-bench Verified (ਕੋਡਿੰਗ): 73.2%
- SWE-bench AI ਪ੍ਰਣਾਲੀਆਂ ਦੀਆਂ ਗਿਟਹੱਬ (GitHub) ਮੁੱਦਿਆਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ।
- ਓਪਨਏਆਈ (OpenAI) ਦਾ o3: 69.1%। ਗੂਗਲ (Google) ਦਾ ਜੇਮਿਨੀ-2.5-ਪ੍ਰੋ (Gemini-2.5-Pro): 63.8%।
Terminal-bench (CLI ਕੋਡਿੰਗ): 43.2% (50.0% ਉੱਚ-ਕੰਪਿਊਟ)
- Terminal-bench ਇੱਕ ਟਰਮੀਨਲ ਵਾਤਾਵਰਣ ਵਿੱਚ AI ਏਜੰਟਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਮਾਪਦਾ ਹੈ।
- ਕਲਾਉਡ ਸੋਨੇਟ 3.7 (Claude Sonnet 3.7): 35.2%, ਅਤੇ ਓਪਨਏਆਈ (OpenAI) ਦਾ ਜੀਪੀਟੀ-4.1 (GPT-4.1): 30.3%।
MMLU (ਜਨਰਲ ਜਾਣਕਾਰੀ): 88.8%
- MMLU-Pro ਨੂੰ ਭਾਸ਼ਾ ਸਮਝਣ ਵਾਲੇ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਵਿਆਪਕ ਅਤੇ ਵਧੇਰੇ ਚੁਣੌਤੀਪੂਰਨ ਕੰਮਾਂ ਵਿੱਚ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ।
- ਓਪਨਏਆਈ (OpenAI) ਦੇ ਜੀਪੀਟੀ-o1 (GPT-o1) ਅਤੇ ਜੀਪੀਟੀ-4.5 (GPT-4.5) ਕ੍ਰਮਵਾਰ 89.3% ਅਤੇ 86.1% ਸਕੋਰ ਕਰਦੇ ਹਨ। ਜੈਮਿਨੀ-2.5-ਪ੍ਰੋ-ਐਕਸਪਰੀਮੈਂਟਲ (Gemini-2.5-Pro-Experimental): 84.5%।
GPQA Diamond (ਗ੍ਰੈਜੂਏਟ ਤਰਕ): 79.6% (83.3% ਉੱਚ-ਕੰਪਿਊਟ)

*   GPQA ਵਿਗਿਆਨਾਂ ਵਿੱਚ ਗੁਣਵੱਤਾ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ।
*   ਗ੍ਰੋਕ 3 (Grok 3): 84.6%। ਜੈਮਿਨੀ-2.5-ਪ੍ਰੋ (Gemini-2.5-Pro): 84%। o3: 83.3%।

AIME (ਗਣਿਤ): 75.5% (90.0% ਉੱਚ-ਕੰਪਿਊਟ)
- AIME 2024 ਹਾਈ ਸਕੂਲ ਗਣਿਤ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ।
- ਜੈਮਿਨੀ-2.5-ਪ੍ਰੋ (Gemini-2.5-Pro): 92%, ਜੀਪੀਟੀ-o1 (GPT-o1): 79.2%। Nvidia ਦਾ ਨੇਮੇਟ੍ਰੋਨ ਅਲਟਰਾ (Nemotron Ultra): 80.1%।

HumanEval (ਕੋਡਿੰਗ): ਰਿਕਾਰਡ-ਉੱਚ ਦਾਅਵੇ
* HumanEval ਇੱਕ ਡੇਟਾਸੈਟ ਹੈ ਜੋ ਓਪਨਏਆਈ (OpenAI) ਦੁਆਰਾ ਕੋਡ ਜਨਰੇਸ਼ਨ ਸਮਰੱਥਾਵਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਹੈ।
* ਓਪਸ 3 (Opus 3): 84.9%।

TAU-bench: ਰਿਟੇਲ 81.4%
- TAU-bench ਰਿਟੇਲ ਰੀਟੇਲ ਸ਼ਾਪਿੰਗ ਡੋਮੇਨ ਵਿੱਚ ਟਾਸਕ ‘ਤੇ AI ਏਜੰਟਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਆਰਡਰ ਰੱਦ ਕਰਨਾ, ਐਡਰੈੱਸ ਬਦਲਣਾ, ਅਤੇ ਆਰਡਰ ਸਟੇਟਸ ਚੈੱਕ ਕਰਨਾ।
- ਕਲਾਉਡ ਸੋਨੇਟ 3.7 (Claude Sonnet 3.7): 72.2%। ਜੀਪੀਟੀ-4.5 (GPT-4.5): 70.4%।
MMMU (ਵਿਜ਼ੂਅਲ ਤਰਕ): 76.5%
- MMMU ਦਾ ਬੈਂਚ ਮੁਲਾਂਕਣ ਬੈਂਚਮਾਰਕ ‘ਤੇ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਜਾਂ ਫਿਊ-ਸ਼ਾਟ ਪ੍ਰਦਰਸ਼ਨਾਂ ਤੋਂ ਬਿਨਾਂ ਸਹੀ ਜਵਾਬ ਤਿਆਰ ਕਰਨ ਲਈ ਮਾਡਲਾਂ ਦੀ ਸਮਰੱਥਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਸੈਟਿੰਗ ਦੇ ਤਹਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
- ਜੈਮਿਨੀ-2.5-ਪ੍ਰੋ (Gemini-2.5-Pro): 84%। o3: 82.9%।
ਮੈਕਸ ਕੰਟੀਨਿਊਅਸ ਟਾਸਕ: 7 ਘੰਟਿਆਂ ਤੋਂ ਵੱਧ

ਐਪਲੀਕੇਸ਼ਨਾਂ

ਓਪਸ 4 (Opus 4) ਉੱਨਤ ਸਾਫਟਵੇਅਰ ਰੀਫੈਕਟਰਿੰਗ, ਖੋਜ ਸੰਸਲੇਸ਼ਣ, ਅਤੇ ਗੁੰਝਲਦਾਰ ਕੰਮਾਂ ਜਿਵੇਂ ਕਿ ਵਿੱਤੀ ਮਾਡਲਿੰਗ ਜਾਂ ਟੈਕਸਟ-ਟੂ-ਐਸਕਿਊਐਲ (text-to-SQL) ਪਰਿਵਰਤਨ ਵਿੱਚ ਉੱਤਮ ਹੈ। ਇਹ ਬਹੁ-ਪੜਾਵੀ ਖੁਦਮੁਖਤਿਆਰੀ ਏਜੰਟਾਂ ਅਤੇ ਲੰਬੇ-ਹੋਰੀਜ਼ਨ ਵਰਕਫਲੋ ਨੂੰ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਮਜ਼ਬੂਤ ਮੈਮੋਰੀ ਹੈ।

ਸੋਨੇਟ 4: ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਵਿਹਾਰਕਤਾ ਨੂੰ ਸੰਤੁਲਿਤ ਕਰਨਾ

ਕਲਾਉਡ 4 ਸੋਨੇਟ (Claude 4 Sonnet) ਪ੍ਰਦਰਸ਼ਨ, ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ, ਅਤੇ ਕੋਡਿੰਗ ਸਮਰੱਥਾ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਇਹ ਐਂਟਰਪ੍ਰਾਈਜ਼-ਸਕੇਲ AI ਤਾਇਨਾਤੀਆਂ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ ਜਿੱਥੇ ਬੁੱਧੀ ਅਤੇ ਸਮਰੱਥਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਮੁੱਖ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਸੁਧਾਰ

ਸੋਨੇਟ 4 (Sonnet 4) ਵਿੱਚ ਕਈ ਮੁੱਖ ਲਾਭ ਸ਼ਾਮਲ ਹਨ:

ਕੋਡਿੰਗ: ਏਜੰਟਿਕ ਵਰਕਫਲੋ ਲਈ ਆਦਰਸ਼, ਸੋਨੇਟ 4 (Sonnet 4) 64,000 ਤੱਕ ਆਉਟਪੁੱਟ ਟੋਕਨਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ ਅਤੇ ਗਿਟਹੱਬ (GitHub) ਦੇ ਕੋਪਾਇਲਟ (Copilot) ਏਜੰਟ ਨੂੰ ਪਾਵਰ ਦੇਣ ਲਈ ਚੁਣਿਆ ਗਿਆ ਸੀ। ਇਹ ਸਾਫਟਵੇਅਰ ਲਾਈਫਸਾਈਕਲ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ: ਯੋਜਨਾਬੰਦੀ, ਬੱਗ ਫਿਕਸਿੰਗ, ਰੱਖ-ਰਖਾਅ, ਅਤੇ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਰੀਫੈਕਟਰਿੰਗ।
ਤਰਕ ਅਤੇ ਹਿਦਾਇਤ ਦੀ ਪਾਲਣਾ: ਮਨੁੱਖੀ ਵਰਗੀ ਗੱਲਬਾਤ, ਵਧੀਆ ਟੂਲ ਦੀ ਚੋਣ, ਅਤੇ ਗਲਤੀ ਸੁਧਾਰ ਲਈ ਧਿਆਨ ਦੇਣ ਯੋਗ, ਸੋਨੇਟ (Sonnet) ਉੱਨਤ ਚੈਟਬੋਟ ਅਤੇ AI ਸਹਾਇਕ ਭੂਮਿਕਾਵਾਂ ਲਈ ਢੁਕਵਾਂ ਹੈ।
ਕੰਪਿਊਟਰ ਵਰਤੋਂ: ਸੋਨੇਟ (Sonnet) GUIs ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦਾ ਹੈ, ਅਤੇ ਡਿਜੀਟਲ ਇੰਟਰਫੇਸ, ਟਾਈਪਿੰਗ, ਕਲਿੱਕ ਕਰਨ, ਅਤੇ ਡੇਟਾ ਦੀ ਵਿਆਖਿਆ ਨਾਲ ਗੱਲਬਾਤ ਕਰ ਸਕਦਾ ਹੈ।
ਵਿਜ਼ੂਅਲ ਡੇਟਾ ਐਕਸਟਰੈਕਸ਼ਨ: ਚਾਰਟ ਅਤੇ ਡਾਇਗ੍ਰਾਮ ਵਰਗੇ ਗੁੰਝਲਦਾਰ ਵਿਜ਼ੂਅਲ ਫਾਰਮੈਟਾਂ ਤੋਂ ਡੇਟਾ ਐਕਸਟਰੈਕਟ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਟੇਬਲ ਐਕਸਟਰੈਕਸ਼ਨ ਸਮਰੱਥਾਵਾਂ ਹਨ।
ਸਮੱਗਰੀ ਉਤਪਾਦਨ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ: ਬਾਰੀਕ ਲਿਖਤ ਅਤੇ ਸਮੱਗਰੀ ਵਿਸ਼ਲੇਸ਼ਣ ਵਿੱਚ ਉੱਤਮਤਾ, ਇਸਨੂੰ ਸੰਪਾਦਕੀ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣਾਤਮਕ ਵਰਕਫਲੋ ਲਈ ਇੱਕ ਠੋਸ ਵਿਕਲਪ ਬਣਾਉਂਦਾ ਹੈ।
ਰੋਬੋਟਿਕ ਪ੍ਰਕਿਰਿਆ ਆਟੋਮੇਸ਼ਨ (Robotic Process Automation) (RPA): ਸੋਨੇਟ (Sonnet) ਉੱਚ ਹਿਦਾਇਤ-ਦੇ-ਪਾਲਣਾ ਸ਼ੁੱਧਤਾ ਦੇ ਕਾਰਨ RPA ਵਰਤੋਂ ਦੇ ਮਾਮਲਿਆਂ ਵਿੱਚ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ।
ਸਵੈ-ਸੁਧਾਈ: ਸੋਨੇਟ (Sonnet) ਆਪਣੀਆਂ ਗਲਤੀਆਂ ਨੂੰ ਪਛਾਣਦਾ ਅਤੇ ਠੀਕ ਕਰਦਾ ਹੈ, ਲੰਬੇ ਸਮੇਂ ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ।

ਬੈਂਚਮਾਰਕ ਪ੍ਰਦਰਸ਼ਨ ਹਾਈਲਾਈਟਸ

ਸੋਨੇਟ 4 (Sonnet 4) ਨੇ ਹੇਠਾਂ ਦਿੱਤੇ ਸਕੋਰ ਹਾਸਲ ਕੀਤੇ ਹਨ:

SWE-bench Verified: 72.7%
- ਓਪਸ 4 (Opus 4): 73.2%।
MMLU: 86.5%
- ਓਪਸ 4 (Opus 4): 88.8%।
GPQA Diamond: 75.4%
- ਓਪਸ 4 (Opus 4): 79.5%।
TAU-bench: ਰਿਟੇਲ 80.5%
- ਓਪਸ 4 (Opus 4): 81.4%।
MMMU: 74.4%
- ਓਪਸ 4 (Opus 4): 76.5%।
AIME: 70.5%
- ਓਪਸ 4 (Opus 4): 75.5%।
TerminalBench: 35.5%
- ਓਪਸ 4 (Opus 4): 43.2%
ਮੈਕਸ ਕੰਟੀਨਿਊਅਸ ਟਾਸਕ: ~4 ਘੰਟੇ, ਓਪਸ (Opus) ਲਈ ਦੱਸੀ ਗਈ 7+ ਘੰਟਿਆਂ ਤੋਂ ਘੱਟ।
ਗਲਤੀ ਘਟਾਉਣਾ: ਸੋਨੇਟ 3.7 (Sonnet 3.7) ਦੇ ਮੁਕਾਬਲੇ 65% ਘੱਟ ਸ਼ਾਰਟਕੱਟ ਵਿਵਹਾਰ

ਐਪਲੀਕੇਸ਼ਨਾਂ

ਸੋਨੇਟ 4 (Sonnet 4) AI ਚੈਟਬੋਟਸ, ਰੀਅਲ-ਟਾਈਮ ਖੋਜ, RPA, ਅਤੇ ਸਕੇਲੇਬਲ ਤਾਇਨਾਤੀਆਂ ਨੂੰ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਢੁਕਵਾਂ ਹੈ। ਦਸਤਾਵੇਜ਼ਾਂ ਤੋਂ ਗਿਆਨ ਕੱਢਣ, ਵਿਜ਼ੂਅਲ ਡੇਟਾ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ, ਅਤੇ ਵਿਕਾਸ ਦਾ ਸਮਰਥਨ ਕਰਨ ਦੀ ਇਸਦੀ ਸਮਰੱਥਾ ਇਸਨੂੰ ਇੱਕ ਸਮਰੱਥ ਸਹਾਇਕ ਬਣਾਉਂਦੀ ਹੈ।

ਆਰਕੀਟੈਕਚਰਲ ਨਵੀਨਤਾਵਾਂ ਅਤੇ ਸਾਂਝੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ

ਓਪਸ 4 (Opus 4) ਅਤੇ ਸੋਨੇਟ 4 (Sonnet 4) ਦੋਵਾਂ ਵਿੱਚ ਮੁੱਖ ਆਰਕੀਟੈਕਚਰਲ ਤਰੱਕੀ ਹਨ। ਉਹ 200K ਸੰਦਰਭ ਵਿੰਡੋ ਦਾ ਸਮਰਥਨ ਕਰਦੇ ਹਨ ਅਤੇ ਹਾਈਬ੍ਰਿਡ ਤਰਕ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਰੱਖਦੇ ਹਨ। ਉਹ ਅੰਦਰੂਨੀ ਤਰਕ ਦੇ ਨਾਲ ਸਮਾਨਾਂਤਰ ਰੂਪ ਵਿੱਚ ਬਾਹਰੀ ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਇਹ ਪਹਿਲੂ ਖੋਜ, ਕੋਡ ਐਗਜ਼ੀਕਿਊਸ਼ਨ, ਅਤੇ ਦਸਤਾਵੇਜ਼ ਵਿਸ਼ਲੇਸ਼ਣ ਵਰਗੇ ਕੰਮਾਂ ਵਿੱਚ ਰੀਅਲ-ਟਾਈਮ ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦੇ ਹਨ।

ਮਾਡਲ ਪਿਛਲੇ ਦੁਹਰਾਵਾਂ ਨਾਲੋਂ ਘੱਟ "ਸ਼ਾਰਟਕੱਟ ਵਿਵਹਾਰ" ਵੀ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦੇ ਹਨ, ਜੋ ਭਰੋਸੇਯੋਗਤਾ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ। ਇੱਕ "ਸੋਚ ਸਾਰਾਂਸ਼" ਦੀ ਉਪਲਬਧਤਾ ਦੁਆਰਾ ਪਾਰਦਰਸ਼ਤਾ ਨੂੰ ਵਧਾਇਆ ਗਿਆ ਹੈ ਜੋ ਫੈਸਲਾ ਲੈਣ ਦੀਆਂ ਪ੍ਰਕਿਰਿਆਵਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਦਾ ਹੈ।

ਅਸਲ-ਸੰਸਾਰ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਐਂਟਰਪ੍ਰਾਈਜ਼ ਫੀਡਬੈਕ

ਕੋਡਰਾਂ ਵਿੱਚ ਓਪਸ 4 (Opus 4) ‘ਤੇ ਫੀਡਬੈਕ ਸਕਾਰਾਤਮਕ ਰਹੀ ਹੈ। ਉਪਭੋਗਤਾ ਉੱਚ ਸ਼ੁੱਧਤਾ ਦੇ ਨਾਲ ਲੰਬੇ ਕੋਡਿੰਗ ਸੈਸ਼ਨਾਂ ਦੀ ਰਿਪੋਰਟ ਕਰਦੇ ਹਨ। ਉਹਨਾਂ ਨੇ ਪਹਿਲੀ ਕੋਸ਼ਿਸ਼ ‘ਤੇ ਬੱਗ ਫਿਕਸਿੰਗ, ਦੇ ਨਾਲ-ਨਾਲ ਮਨੁੱਖੀ-ਨਜ਼ਦੀਕੀ ਲਿਖਣ ਦੇ ਪ੍ਰਵਾਹ ਨੂੰ ਵੀ ਨੋਟ ਕੀਤਾ ਹੈ।

ਸੋਨੇਟ 4 (Sonnet 4) ਨੇ ਪ੍ਰਸ਼ੰਸਾ ਪ੍ਰਾਪਤ ਕੀਤੀ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਉਨ੍ਹਾਂ ਉਪਭੋਗਤਾਵਾਂ ਤੋਂ ਜੋ ਇਸਨੂੰ ਕਰਸਰ (Cursor) ਅਤੇ ਆਗਮੈਂਟ ਕੋਡ (Augment Code) ਵਰਗੇ ਡਿਵੈਲਪਰ ਟੂਲਸ ਨਾਲ ਜੋੜਦੇ ਹਨ। ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਸਮਝਣ ਅਤੇ ਦਰ-ਸੀਮਾ ਨਿਰਾਸ਼ਾ ਦੇ ਸੰਬੰਧ ਵਿੱਚ ਚਿੰਤਾਵਾਂ ਬਰਕਰਾਰ ਹਨ।

ਮੁੱਖ ਅਪਣਾਉਣ ਵਾਲਿਆਂ ਵਿੱਚ ਗਿਟਹੱਬ (GitHub) ਸ਼ਾਮਲ ਹੈ, ਜਿਸਨੇ ਸੋਨੇਟ 4 (Sonnet 4) ਨੂੰ "ਏਜੰਟਿਕ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਉੱਚਾ" ਕਿਹਾ। ਰੈਪਲਿਟ (Replit) ਨੇ ਇਸਦੀ ਸ਼ੁੱਧਤਾ ਦੀ ਪ੍ਰਸ਼ੰਸਾ ਕੀਤੀ, ਅਤੇ ਰਾਕੁਟੇਨ (Rakuten) ਅਤੇ ਬਲਾਕ (Block) ਨੇ ਉਤਪਾਦਕਤਾ ਵਿੱਚ ਵਾਧਾ ਦੱਸਿਆ। ਓਪਸ 4 (Opus 4) ਨੇ ਇੱਕ ਓਪਨ-ਸੋਰਸ ਕੋਡਬੇਸ ਦੇ ਪੂਰੇ 7-ਘੰਟੇ ਦੇ ਰੀਫੈਕਟਰ ਨੂੰ ਸਮਰੱਥ ਬਣਾਇਆ।

ਵ੍ਹਿਸਲਬਲੋਇੰਗ ਵਿਵਾਦ

ਐਂਥਰੋਪਿਕ (Anthropic) ਦੇ ਖੋਜਕਰਤਾ ਸੈਮ ਬਾਉਮੈਨ (Sam Bowman) ਦੀ X ‘ਤੇ ਇੱਕ ਪੋਸਟ ਨੇ ਖੁਲਾਸਾ ਕੀਤਾ ਕਿ ਜੇਕਰ ਓਪਸ (Opus) ਉਹਨਾਂ ਨੂੰ ਅਨੈਤਿਕ ਸਮਝਦਾ ਹੈ ਤਾਂ ਉਹ ਕਾਰਵਾਈ ਕਰ ਸਕਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਉਪਭੋਗਤਾਵਾਂ ਦੀ ਰਿਪੋਰਟ ਕਰਨਾ।

ਇਹ ਵਿਵਹਾਰ ਐਂਥਰੋਪਿਕ (Anthropic) ਦੇ ਸੰਵਿਧਾਨਕ AI ਫਰੇਮਵਰਕ (Constitutional AI framework) ਤੋਂ ਆਉਂਦਾ ਹੈ। ਜਦੋਂ ਕਿ ਇਰਾਦਾ ਨੁਕਸਾਨ ਨੂੰ ਘਟਾਉਣਾ ਹੈ, ਆਲੋਚਕ ਦਲੀਲ ਦਿੰਦੇ ਹਨ ਕਿ ਪਹਿਲਕਦਮੀ ਦਾ ਇਹ ਪੱਧਰ, ਖਾਸ ਕਰਕੇ ਜਦੋਂ ਏਜੰਟਿਕ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਕਮਾਂਡ-ਲਾਈਨ ਪਹੁੰਚ ਨਾਲ ਜੋੜਿਆ ਜਾਂਦਾ ਹੈ, ਇੱਕ ਤਿਲਕਣ ਵਾਲਾ ਢਲਾਨ ਬਣਾਉਂਦਾ ਹੈ।

ਸੁਰੱਖਿਆ ਅਤੇ ਉੱਭਰ ਰਹੀਆਂ ਸਮਰੱਥਾਵਾਂ

ਓਪਸ 4 (Opus 4) AI ਸੁਰੱਖਿਆ ਪੱਧਰ 3 ਦੇ ਅਧੀਨ ਕੰਮ ਕਰਦਾ ਹੈ, ਇਸਦਾ ਸਭ ਤੋਂ ਉੱਚਾ ਮੌਜੂਦਾ ਟੀਅਰ, ਸੰਵੇਦਨਸ਼ੀਲ ਵਿਸ਼ਿਆਂ ਦੇ ਗਿਆਨ ਬਾਰੇ ਚਿੰਤਾਵਾਂ ਦਾ ਹਵਾਲਾ ਦਿੰਦਾ ਹੈ। ਰੈੱਡ ਟੀਮਰਾਂ ਨੇ ਓਪਸ (Opus) ਦੀ ਜਾਂਚ ਕੀਤੀ ਅਤੇ ਪਾਇਆ ਕਿ ਵਿਵਹਾਰ ਅਤੇ ਸਮਰੱਥਾਵਾਂ "ਕਿਸੇ ਵੀ ਚੀਜ਼ ਨਾਲੋਂ ਗੁਣਾਤਮਕ ਤੌਰ ‘ਤੇ ਵੱਖਰੀਆਂ ਹਨ ਜਿਨ੍ਹਾਂ ਦੀ ਉਨ੍ਹਾਂ ਨੇ ਪਹਿਲਾਂ ਜਾਂਚ ਕੀਤੀ ਸੀ।”

ਕੀਮਤ ਅਤੇ ਮੁੱਲ ਪ੍ਰਸਤਾਵ

ਓਪਸ 4 (Opus 4): $75 ਪ੍ਰਤੀ ਮਿਲੀਅਨ ਆਉਟਪੁੱਟ ਟੋਕਨ ‘ਤੇ ਕੀਮਤ, ਇਹ ਉੱਚ-ਅੰਤ ਦੀਆਂ ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦਾ ਹੈ।
- ਇਹ ਓਪਸ 3 (Opus 3) ਵਾਂਗ ਹੀ ਕੀਮਤ ਹੈ।
- ਓਪਨਏਆਈ (OpenAI) ਦੇ o3 ਦੀ ਕੀਮਤ $40 ਪ੍ਰਤੀ ਮਿਲੀਅਨ ਆਉਟਪੁੱਟ ਟੋਕਨ ਹੈ।
ਸੋਨੇਟ 4 (Sonnet 4): $15 ਪ੍ਰਤੀ ਮਿਲੀਅਨ ਆਉਟਪੁੱਟ ਟੋਕਨ ‘ਤੇ ਕੀਮਤ, ਇਹ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਸਮਰੱਥਾ ਦੇ ਵਿਚਕਾਰ ਸੰਤੁਲਨ ਦਿੰਦਾ ਹੈ।
- ਓਪਨਏਆਈ (OpenAI) ਦੇ ਜੀਪੀਟੀ-4o (GPT-4o) ਅਤੇ ਗੂਗਲ (Google) ਦੇ ਜੈਮਿਨੀ-2.5-ਪ੍ਰੋ (Gemini-2.5-Pro) ਦੀ ਕੀਮਤ ਕ੍ਰਮਵਾਰ $20 ਅਤੇ $15 ਪ੍ਰਤੀ ਮਿਲੀਅਨ ਆਉਟਪੁੱਟ ਟੋਕਨ ਹੈ। ਓਪਨਏਆਈ (OpenAI) ਦੇ ਫਲੈਗਸ਼ਿਪ 4.1 ਮਾਡਲ ਦੀ ਕੀਮਤ $8 ਪ੍ਰਤੀ ਮਿਲੀਅਨ ਆਉਟਪੁੱਟ ਟੋਕਨ ਹੈ।

ਓਪਸ 4: ਇੱਕ ਡੂੰਘਾਈ ਨਾਲ ਵਿਸ਼ਲੇਸ਼ਣ

ਓਪਸ 4, ਐਂਥਰੋਪਿਕ ਦੀ ਸਭ ਤੋਂ ਤਾਜ਼ਾ ਪੇਸ਼ਕਸ਼, ਏਆਈ ਦੇ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਤਰੱਕੀ ਦੀ ਨਿਸ਼ਾਨਦੇਹੀ ਕਰਦਾ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਪ੍ਰੋਗਰਾਮਿੰਗ ਅਤੇ ਕੋਡਿੰਗ ਦੇ ਖੇਤਰਾਂ ਵਿੱਚ। ਆਪਣੀ ਪੂਰਵਜ, ਓਪਸ 3 ਨਾਲੋਂ ਬਹੁਤ ਸਾਰੇ ਸੁਧਾਰਾਂ ਦੇ ਨਾਲ, ਇਹ ਮਾਡਲ ਏਆਈ ਦੇ ਦੂਜੇ ਉੱਘੇ ਹਿੱਸਾ ਲੈਣ ਵਾਲਿਆਂ ਦੁਆਰਾ ਪੋਜ਼ ਕੀਤੇ ਗਏ ਮੁਕਾਬਲੇਬਾਜ਼ਾਂ ‘ਤੇ ਆਪਣੇ ਆਪ ਨੂੰ "ਸਭ ਤੋਂ ਵਧੀਆ" ਵਜੋਂ ਸਥਾਪਤ ਕਰਨ ਦਾ ਉਦੇਸ਼ ਰੱਖਦਾ ਹੈ।

ਕੋਡਿੰਗ ਸਮਰੱਥਾ

ਓਪਸ 4 ਮੁਢਲੇ ਤੌਰ ‘ਤੇ ਆਪਣੀ ਅਸਧਾਰਨ ਕੋਡਿੰਗ ਕੁਸ਼ਲਤਾ ਲਈ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ। ਇਹ ਏਕਾਦਮਕ ਮੁਲਾਂਕਣਾਂ ਤੋਂ ਪਰੇ ਹੈ ਅਤੇ ਉਦਯੋਗੀ ਕੋਡਿੰਗ ਦੇ ਗੁੰਝਲਦਾਰ ਪਹਿਲੂਆਂ ਵਿੱਚ ਡੁੱਬ ਜਾਂਦਾ ਹੈ, ਲਗਾਤਾਰ ਕਈ ਦਿਨਾਂ ਤੱਕ ਰਹਿਣ ਵਾਲੇ ਗੁੰਝਲਦਾਰ ਕੰਮਾਂ ਨੂੰ ਸੰਭਾਲਦਾ ਹੈ। ਮਾਡਲ ਵਿੱਚ ਵਿਵਸਥਿਤ ਕੋਡ ਸੁਆਦ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾ, ਜਿਸ ਨਾਲ ਇਸਨੂੰ ਸਮੁੱਚੇ ਪ੍ਰੋਜੈਕਟ ਢਾਂਚੇ ਦੀ ਪਾਲਣਾ ਕਰਦੇ ਹੋਏ ਮੌਜੂਦਾ ਡਿਵੈਲਪਰ ਸ਼ੈਲੀਆਂ ਨਾਲ ਮਿਲਾਉਣ ਵਿੱਚ ਮਦਦ ਮਿਲਦੀ ਹੈ, ਇੱਕ ਸਹਿਯੋਗੀ ਪਹਿਲੂ ਹੈ ਜੋ ਇਸਨੂੰ ਅਸਾਧਾਰਣ ਬਣਾਉਂਦਾ ਹੈ। 32,000 ਤੋਂ ਵੱਧ ਟੋਕਨਾਂ ਤੱਕ ਦਾ ਸਮਰਥਨ ਇੱਕ ਗੁੰਝਲਹੀਣ ਏਕੀਕਰਣ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ, ਜੋ ਫੈਲਾਏ ਗਏ, ਗੁੰਝਲਦਾਰ ਕੋਡਿੰਗ ਪ੍ਰੋਜੈਕਟਾਂ ਵਿੱਚ ਉੱਤਮ ਰਹਿਣ ਲਈ ਮਾਡਲ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

ਬੈਂਚਮਾਰਕ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਆਲੇ ਦੁਆਲੇ ਇੱਕ ਝਲਕ

ਓਪਸ 4 ਦੇ ਦਾਅਵਿਆਂ ਦਾ ਪਤਾ ਲਗਾਉਣ ਲਈ, ਬੈਂਚਮਾਰਕ ਤੁਲਨਾਵਾਂ ਜ਼ਰੂਰੀ ਬਣ ਜਾਂਦੀਆਂ ਹਨ:

SWE-bench: 73.2% ਦੇ ਵਧੀਆ ਨੰਬਰ ਦੇ ਨਾਲ, ਓਪਸ 4 ਅਸਲ-ਸੰਸਾਰ ਗਿਟਹੱਬ (GitHub) ਮੁੱਦਿਆਂ ਨੂੰ ਹੱਲ ਕਰਨ ਵਿੱਚ ਕੁਦਰਤੀ ਤੌਰ ‘ਤੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।
Terminal-bench: ਉਹਨਾਂ AI ਦੀ ਕੋਡ-ਸਬੰਧਤ ਟਾਸਕਾਂ ਨੂੰ ਸੰਪਾਦਿਤ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦੀ ਜਾਂਚ ਕਰਕੇ, ਕਮਾਂਡ ਲਾਈਨ ਰਾਹੀਂ ਲਗਭਗ 43.2% (ਉੱਚ ਕੰਪਿਊਟ ਪਹੁੰਚ ਨਾਲ 50% ਤੱਕ ਵੱ

ਤੇ ਅੱਪਡੇਟ ਕੀਤਾ ਗਿਆ 2025-06-03

# Anthropic # Claude # Agent