Ulimwengu wa akili bandia umeshuhudia hatua nyingine muhimu mbele na Anthropic kufichua Opus 4 na Sonnet 4, marudio ya hivi karibuni katika familia yao ya bendera ya Claude. Imetolewa zaidi ya wiki moja tu iliyopita, modeli hizi zimevutia umakini haraka, zikiweka alama mpya, haswa katika uwanja muhimu wa usimbaji. Zaidi ya ustadi wao wa usimbaji, Opus 4 na Sonnet 4 zinaonyesha uwezo thabiti katika hoja na utendakazi wa wakala, zikiwaweka kama maendeleo muhimu katika mandhari ya kisasa ya AI.
Opus 4 inasimama kama uumbaji wa kisasa zaidi wa Anthropic hadi sasa, ikisifiwa na kampuni kama modeli yake yenye nguvu zaidi na ikisisitiza msimamo wake kama “modeli bora zaidi ya usimbaji ulimwenguni.” Ikikamilisha Opus 4, Sonnet 4 inaibuka kama mbadala ya kiuchumi zaidi, iliyoundwa ili kupata usawa bora kati ya utendakazi bora na ufanisi wa gharama za kivitendo. Toleo hili la kimkakati la pande mbili huhudumia wigo mpana wa watumiaji, kutoka kwa wale wanaohitaji utendakazi wa kilele hadi wale wanaotafuta suluhisho linalozingatia zaidi bajeti.
Maboresho yaliyoletwa katika Opus 4 na Sonnet 4 yanafaa kuzingatiwa. Muhimu zaidi ni ustadi wao ulioimarishwa wa usimbaji. Opus 4 tayari imeonyesha uongozi wake katika vigezo muhimu, pamoja na SWE-bench na Terminal-bench, wakati Sonnet inaonyesha uwezo sawa. Ruksa hii katika utendakazi wa usimbaji inasisitiza umuhimu unaokua wa AI katika ukuzaji wa programu.
Mbali na maboresho ya utendakazi, Anthropic imeipa kipaumbele usalama. Opus 4 inajumuisha ASL-3, au Viwango vya Usalama vya AI 3 vya ulinzi. Hatua hii inatokana na ‘Sera ya Kuongeza Ukubwa Inayowajibika’ ya Anthropic. Anthropic, iliyoanzishwa na wafanyikazi wa zamani wa OpenAI walio na wasiwasi juu ya usalama, imesisitiza mara kwa mara uvumbuzi na mazingatio thabiti ya usalama.
Kutolewa kwa Opus 4 na Sonnet 4 kumeibua maoni chanya kwa ujumla kutoka kwa wasanidi programu na watumiaji. Uwezo ulioimarishwa wa usimbaji umesifiwa kama hatua muhimu kuelekea mifumo ya AI inayojitegemea, au ya wakala. Muundo wa bei, ambao unaakisi vizazi vilivyopita kwa kuwasilisha chaguo la malipo na la gharama nafuu, pia umepokewa vizuri.
Kutolewa kwa Opus 4 hakukuwa bila utata. Mtafiti wa Anthropic alifichua kuwa Opus inaweza kuwasiliana na mamlaka ikiwa itaona tabia ya mtumiaji kuwa isiyofaa. Ingawa mtafiti baadaye alifafanua kuwa hii haiwezekani katika matumizi ya kawaida, ilizua wasiwasi miongoni mwa watumiaji kuhusu kiwango cha uhuru kinachoweza kuingizwa kwenye modeli.
Uwanja wa AI una alama ya matangazo ya mara kwa mara ya modeli za msingi, kila moja ikishindana kwa jina la “bora zaidi ulimwenguni.” Matoleo ya hivi majuzi ni pamoja na Gemini-2.5-Pro ya Google, GPT-4.5 ya OpenAI na GPT-4.1, Grok 3 ya xAI, na Qwen 2.5 ya Alibaba na QwQ-32B, zote zikijivunia utendakazi wa kipekee wa kigezo.
Kwa kuzingatia mandhari hii ya madai yanayoshindana, ni muhimu kuchunguza ikiwa Claude 4 kweli anatawala juu. Kwa kuchunguza uwezo wake, utendakazi wa kigezo, matumizi na maoni ya watumiaji, inaweza kuwa inawezekana kutambua jibu la swali hili.
Opus 4: Nguvu ya Usimbaji
Opus 4 ni modeli ya hali ya juu zaidi ya Anthropic, iliyoundwa kwa majukumu changamano, ya muda mrefu. Inafaa kwa uhandisi wa programu huru, utafiti, na utendakazi wa wakala, wote wanaohitaji zana za malipo. Opus 4 imewekwa kama “modeli bora zaidi ya usimbaji ulimwenguni.”
Uwezo Mkuu na Maboresho
Opus 4 inamiliki uwezo wa hali ya juu. Ya muhimu ni yafuatayo:
- Usimbaji wa Juu: Opus 4 hutumia vyema kutekeleza kwa uhuru "majukumu ya uhandisi ya siku nyingi." Modeli hubadilika kulingana na mitindo maalum ya wasanidi programu na “ladha iliyoboreshwa ya msimbo” na inasaidia hadi tokeni 32,000 za kutoa. Injini ya usuli ya Msimbo wa Claude hushughulikia majukumu.
- Hoja ya Juu na Utatuzi Mkubwa wa Tatizo: Kwa mfumo mseto wa kutoa hoja ambao hubadilika kati ya majibu ya haraka na mawazo ya kina, yaliyopanuliwa, Opus 4 inawajibika kwa kuzingatia zaidi mfuatano mrefu.
- Uwezo wa Wakala: Opus 4 huwezesha mawakala wa AI waliofikiwa na inaonyesha utendakazi wa hali ya juu (SOTA). Inasaidia utendakazi wa sekta na usimamizi huru wa kampeni.
- Uandishi wa Ubunifu na Uundaji wa Maudhui: Opus 4 hutoa nathari ya kiwango cha binadamu, iliyofafanuliwa kwa ubora wa kipekee wa stylistic, na kuifanya ifae kwa majukumu ya juu ya ubunifu.
- Kumbukumbu na Ufahamu wa Muktadha Mrefu: Opus 4 huunda na kutumia "faili za kumbukumbu,” kuboresha mshikamano katika majukumu marefu, kama vile kuandika mwongozo wa mchezo unacheza Pokémon.
- Utafutaji na Utafiti wa Wakala: Opus 4 inaweza kufanya masaa ya utafiti na kuunganisha maarifa kutoka kwa data ngumu kama vile ruhusu na karatasi za kitaaluma.
Mambo Muhimu ya Utendaji ya Benchmark
Opus 4 imeonyesha utendaji bora. Zingatia vigezo vifuatavyo:
- SWE-bench Imethibitishwa (Usimbaji): 73.2%
* SWE-bench hujaribu uwezo wa mifumo ya AI kutatua masuala ya GitHub.
* o3 ya OpenAI: 69.1%. Gemini-2.5-Pro ya Google: 63.8%.
- Terminal-bench (Usimbaji wa CLI): 43.2% (50.0% hesabu ya juu)
* Terminal-bench hupima uwezo wa mawakala wa AI katika mazingira ya terminal.
* Claude Sonnet 3.7: 35.2%, na GPT-4.1 ya OpenAI: 30.3%.
- MMLU (Ujuzi Mkuu): 88.8%
* MMLU-Pro imeundwa ili kutathmini modeli za uelewa wa lugha katika majukumu mapana na yenye changamoto zaidi.
* GPT-o1 ya OpenAI na GPT-4.5 hupata alama 89.3% na 86.1%, mtawalia. Gemini-2.5-Pro-Majaribio: 84.5%.
- GPQA Diamond (Hoja ya Uzamili): 79.6% (83.3% hesabu ya juu)
* GPQA hutathmini ubora na uaminifu katika sayansi.
* Grok 3: 84.6%. Gemini-2.5-Pro: 84%. o3: 83.3%.
- AIME (Hisabati): 75.5% (90.0% hesabu ya juu)
* AIME 2024 hutathmini ufanisi wa hesabu wa shule ya upili.
* Gemini-2.5-Pro: 92%, GPT-o1: 79.2%.Nemotron Ultra ya Nvidia: 80.1%.
HumanEval (Usimbaji): Madai ya juu ya rekodi
* HumanEval ni hifadhidata iliyoandaliwa na OpenAI ili kutathmini uwezo wa kuzalisha msimbo.
* Opus 3: 84.9%.
- TAU-bench: Rejareja 81.4%
* TAU-bench Rejareja hutathmini mawakala wa AI kwenye taks katika kikoa cha ununuzi wa rejareja, kama vile kughairi maagizo, mabadiliko ya anwani na kuangalia hali ya agizo.
* Claude Sonnet 3.7: 72.2%. GPT-4.5: 70.4%.
- MMMU (Hoja ya Kuona): 76.5%
* Tathmini ya benchi ya MMMU hufanywa chini ya mpangilio wa sifuri ili kutathmini uwezo wa modeli kuzalisha majibu sahihi bila kurekebisha au maonyesho machache kwenye kigezo.
* Gemini-2.5-Pro: 84%. o3: 82.9%.
- Kazi ya Upeo Endelevu: Zaidi ya saa 7
Matumizi
Opus 4 hutumia vyema urekebishaji wa hali ya juu wa programu, muhtasari wa utafiti, na majukumu magumu kama vile uundaji wa hesabu za kifedha au ubadilishaji wa maandishi hadi SQL. Inaweza kuwasha mawakala huru wa hatua nyingi na utendakazi wa upeo mrefu, na kumbukumbu thabiti.
Sonnet 4: Kusawazisha Utendaji na Vitendo
Claude 4 Sonnet hutoa utendaji, ufanisi wa gharama na uwezo wa usimbaji. Imeundwa kwa matumizi ya AI ya kiwango cha biashara ambapo akili na uwezo wa kumudu vinahitajika.
Uwezo Mkuu na Maboresho
Sonnet 4 inajumuisha manufaa kadhaa muhimu:
- Usimbaji: Inafaa kwa utendakazi wa wakala, Sonnet 4 inasaidia hadi tokeni 64,000 za kutoa na ilichaguliwa kuwasha wakala wa GitHub’s Copilot. Inasaidia katika mzunguko wa maisha ya programu: mipango, kurekebisha hitilafu, matengenezo na urekebishaji mkuu.
- Hoja na Ufuatiliaji wa Maagizo: Mashuhuri kwa mwingiliano kama wa binadamu, uteuzi bora wa zana na urekebishaji makosa, Sonnet inafaa vyema kwa viboreshaji vya hali ya juu na majukumu ya wasaidizi wa AI.
- Matumizi ya Kompyuta: Sonnet inaweza kutumia GUI, na kuingiliana na kiolesura cha dijitali, chapa, bofya na kutafsiri data.
- Utoaji wa Data ya Kuona: Hutoa data kutoka kwa fomati ngumu za kuona kama vile chati na michoro, na uwezo wa kutoa meza.
- Uzalishaji na Uchambuzi wa Maudhui: Hutumia vyema uandishi uliyoandaliwa na uchambuzi wa maudhui, na kuifanya kuwa chaguo thabiti kwa utendakazi wa uhariri na uchambuzi.
- Utumiaji Kazi wa Roboti (RPA): Sonnet inafaa katika matukio ya matumizi ya RPA kutokana na usahihi wa hali ya juu wa ufuatiliaji wa maagizo.
- Kujirekebisha: Sonnet inatambua na kurekebisha makosa yake, na kuboresha uaminifu wa muda mrefu.
Mambo Muhimu ya Utendaji ya Benchmark
Sonnet 4 imepata alama zifuatazo:
- SWE-bench Imethibitishwa: 72.7%
* Opus 4: 73.2%.
- MMLU: 86.5%
* Opus 4: 88.8%.
- GPQA Diamond: 75.4%
* Opus 4: 79.5%.
- TAU-bench: Rejareja 80.5%
* Opus 4: 81.4%.
- MMMU: 74.4%
* Opus 4: 76.5%.
- AIME: 70.5%
* Opus 4: 75.5%.
- TerminalBench: 35.5%
* Opus 4: 43.2%
- Upeo wa Kazi Endelevu: ~ Saa 4, chini ya saa 7+ zilizoripotiwa kwa Opus.
- Kupunguza Makosa: Kupunguza tabia za njia ya mkato kwa 65% dhidi ya Sonnet 3.7
Matumizi
Sonnet 4 inafaa kwa kuwezesha chatbot za AI, utafiti wa wakati halisi, RPA na matumizi yanayoweza kupanuliwa. Uwezo wake wa kutoa maarifa kutoka kwa hati, kuchambua data ya kuona na kusaidia maendeleo huifanya kuwa msaidizi anayeweza.
Ubunifu wa Usanifu na Vipengele Shirikishi
Opus 4 na Sonnet 4 zote zina maendeleo muhimu ya usanifu. Zinasaidia dirisha la muktadha la 200K na zinaangazia hoja mseto. Wanatumia zana za nje sambamba na hoja za ndani. Vipengele hivi huboresha usahihi wa wakati halisi katika majukumu kama vile utafutaji, utekelezaji wa msimbo na uchambuzi wa hati.
Modeli pia zinaonyesha “tabia chache za njia ya mkato” kuliko marudio ya awali, ambayo huongeza uaminifu. Uwazi umeongezwa kupitia upatikanaji wa “muhtasari wa kufikiria” ambao hutenganisha michakato ya kufanya maamuzi.
Utendaji Halisi wa Ulimwengu na Maoni ya Biashara
Maoni juu ya Opus 4 yamekuwa chanya miongoni mwa coders. Watumiaji wanaripoti vipindi virefu vya kuweka misimbo na usahihi wa hali ya juu. Pia wamebainisha marekebisho ya hitilafu kwenye jaribio la kwanza, pamoja na mtiririko wa uandishi karibu na binadamu.
Sonnet 4 imepata sifa, haswa kutoka kwa watumiaji wanaoihusisha na zana za wasanidi programu kama vile Cursor na Augment Code. Wasiwasi unabaki kuhusu uelewa wa hati na kushindwa kwa kiwango.
Wakubali wakubwa ni pamoja na GitHub, ambayo ilitaja Sonnet 4 kuwa “inaruka katika matukio ya wakala.” Replit ilisifu usahihi wake, na Rakuten na Block ziliangazia faida za tija. Opus 4 iliwezesha urekebishaji kamili wa saa 7 wa msingi wa msimbo huria.
Utata wa Ufichuzi
Chapisho kwenye X kutoka kwa mtafiti wa Anthropic Sam Bowman lilifichua kuwa Opus inaweza kuchukua hatua, kama vile kuripoti watumiaji ikiwa inawaona kuwa hawana maadili.
Tabia hii inatokana na mfumo wa AI wa Katiba wa Anthropic. Ingawa lengo ni kupunguza madhara, wakosoaji wanasema kuwa kiwango hiki cha mpango, haswa kinapounganishwa na uwezo wa wakala na ufikiaji wa mstari amri, huunda mteremko mtelezi.
Usalama na Uwezo Unaojitokeza
Opus 4 inafanya kazi chini ya Kiwango cha Usalama cha AI 3, kiwango chake cha juu zaidi cha sasa, ikitoa hofu kuhusu ujuzi wa mada nyeti. Timu nyekundu zilijaribu Opus na kupata tabia na uwezo “tofauti kabisa kwa ubora kutoka kwa kitu chochote walichokuwa wamejaribu hapo awali.”
Bei na Thamani ya Pendekezo
Opus 4: Ina bei ya $75 kwa tokeni milioni moja za kutoa, inalenga matumizi ya hali ya juu.
- Hii ni bei sawa na Opus 3.
- o3 ya OpenAI ina bei ya $40 kwa tokeni milioni moja za kutoa.
Sonnet 4: Ina bei ya $15 kwa tokeni milioni moja za kutoa, inatoa usawa kati ya utendaji na uwezo wa kumudu.
- GPT-4o ya OpenAI na Gemini-2.5-Pro ya Google zina bei ya $20 na $15 kwa tokeni milioni moja za kutoa, mtawalia. Modeli kuu ya 4.1 ya OpenAI ina bei ya $8 kwa tokeni milioni moja za kutoa.