Claude 4 Anthropic: Mentakrifkan Semula Pengekodan AI

Alam kecerdasan buatan telah menyaksikan satu lagi lonjakan ketara ke hadapan dengan Anthropic memperkenalkan Opus 4 dan Sonnet 4, lelaran terkini dalam keluarga Claude utama mereka. Dikeluarkan lebih seminggu yang lalu, model-model ini telah dengan pantas menarik perhatian, menetapkan penanda aras baharu, terutamanya dalam domain pengekodan yang kritikal. Di sebalik kehebatan pengekodan mereka, Opus 4 dan Sonnet 4 menunjukkan keupayaan yang mantap dalam penaakulan dan fungsi ejen, meletakkan mereka sebagai kemajuan penting dalam landskap AI kontemporari.

Opus 4 berdiri sebagai ciptaan Anthropic yang paling canggih setakat ini, dipuji oleh syarikat itu sebagai modelnya yang paling berkuasa dan menegaskan kedudukannya sebagai "model pengekodan terbaik di dunia." Melengkapi Opus 4, Sonnet 4 muncul sebagai alternatif yang lebih menjimatkan, direka untuk mencapai keseimbangan optimum antara prestasi unggul dan keberkesanan kos yang praktikal. Tawaran dwi strategik ini memenuhi spektrum pengguna yang luas, daripada mereka yang menuntut prestasi puncak kepada mereka yang mencari penyelesaian yang lebih sedar bajet.

Peningkatan yang diperkenalkan dalam Opus 4 dan Sonnet 4 adalah penting. Sorotan utama ialah kecekapan pengekodan mereka yang dipertingkatkan. Opus 4 telah pun menunjukkan kepimpinannya dalam penanda aras utama, termasuk SWE-bench dan Terminal-bench, manakala Sonnet mempamerkan keupayaan yang serupa. Lonjakan dalam prestasi pengekodan ini menggariskan kepentingan AI yang semakin meningkat dalam pembangunan perisian.

Selain daripada peningkatan prestasi, Anthropic telah mengutamakan keselamatan. Opus 4 menggabungkan ASL-3, atau perlindungan Tahap Keselamatan AI 3. Langkah ini berpunca daripada ‘Polisi Penskalaan Bertanggungjawab’ Anthropic. Anthropic, yang diasaskan oleh bekas pekerja OpenAI yang prihatin tentang keselamatan, telah sentiasa menekankan inovasi dengan pertimbangan keselamatan yang mantap.

Pelancaran Opus 4 dan Sonnet 4 telah mendapat maklum balas yang umumnya positif daripada pembangun dan pengguna. Keupayaan pengekodan yang dipertingkatkan telah dipuji sebagai langkah penting ke arah sistem AI autonomi, atau ejen. Struktur harga, yang mencerminkan generasi sebelumnya dengan mempersembahkan kedua-dua pilihan premium dan kos efektif, juga telah diterima baik.

Pelancaran Opus 4 tidak tanpa kontroversi. Seorang penyelidik Anthropic mendedahkan bahawa Opus boleh menghubungi pihak berkuasa jika ia menganggap tingkah laku pengguna tidak wajar. Walaupun penyelidik kemudian menjelaskan bahawa ini adalah mustahil dalam penggunaan biasa, ia menimbulkan kebimbangan di kalangan pengguna mengenai tahap kebebasan yang berpotensi tertanam dalam model.

Bidang AI ditandai dengan pengumuman kerap model terobosan, masing-masing bersaing untuk gelaran "terbaik di dunia." Keluaran terkini termasuk Gemini-2.5-Pro Google, GPT-4.5 dan GPT-4.1 OpenAI, Grok 3 xAI, dan Qwen 2.5 dan QwQ-32B Alibaba, semuanya menawarkan prestasi penanda aras yang luar biasa.

Memandangkan landskap tuntutan bersaing ini, adalah wajar untuk meneliti sama ada Claude 4 benar-benar berkuasa. Dengan mendalami keupayaannya, prestasi penanda aras, aplikasi dan maklum balas pengguna, mungkin dapat dipastikan jawapan kepada soalan ini.

Opus 4: Rumah Kuasa Pengekodan

Opus 4 ialah model Anthropic yang paling canggih, direka untuk tugas-tugas kompleks dan jangka panjang. Ia sesuai untuk kejuruteraan perisian autonomi, penyelidikan dan aliran kerja ejen, yang semuanya memerlukan alatan premium. Opus 4 diletakkan sebagai "model pengekodan terbaik di dunia."

Keupayaan dan Peningkatan Teras

Opus 4 memiliki keupayaan canggih. Perkara yang perlu diberi perhatian ialah yang berikut:

  • Pengekodan Lanjutan: Opus 4 cemerlang dalam melaksanakan secara autonomi "tugas kejuruteraan berhari-hari." Model ini menyesuaikan diri dengan gaya pembangun tertentu dengan "rasa kod yang dipertingkatkan" dan menyokong sehingga 32,000 token output. Enjin Kod Claude latar belakang mengendalikan tugas.
  • Penaakulan Lanjutan & Penyelesaian Masalah Kompleks: Dengan sistem penaakulan hibrid yang beralih antara tindak balas segera dan pemikiran yang mendalam dan berpanjangan, Opus 4 mengekalkan fokus merentasi urutan yang berpanjangan.
  • Keupayaan Ejen: Opus 4 membolehkan ejen AI yang canggih dan menunjukkan prestasi canggih (SOTA). Ia menyokong aliran kerja perusahaan dan pengurusan kempen autonomi.
  • Penulisan Kreatif & Penciptaan Kandungan: Opus 4 menghasilkan prosa bernuansa, tahap manusia dengan kualiti gaya yang luar biasa, menjadikannya sesuai untuk tugas-tugas kreatif yang canggih.
  • Memori & Kesedaran Konteks Panjang: Opus 4 mencipta dan menggunakan "fail memori," meningkatkan koheren merentasi tugas yang panjang, seperti menulis panduan permainan semasa bermain Pokémon.
  • Carian & Penyelidikan Ejen: Opus 4 boleh menjalankan penyelidikan selama berjam-jam dan mensintesis wawasan daripada data kompleks seperti paten dan kertas akademik.

Sorotan Prestasi Penanda Aras

Opus 4 telah menunjukkan prestasi unggul. Pertimbangkan penanda aras berikut:

  • SWE-bench Disahkan (Pengekodan): 73.2%

    • SWE-bench menguji keupayaan sistem AI untuk menyelesaikan isu GitHub.
    • o3 OpenAI: 69.1%. Gemini-2.5-Pro Google: 63.8%.
  • Terminal-bench (Pengekodan CLI): 43.2% (50.0% pengiraan tinggi)

    • Terminal-bench mengukur keupayaan ejen AI dalam persekitaran terminal.
    • Claude Sonnet 3.7: 35.2%, dan GPT-4.1 OpenAI: 30.3%.
  • MMLU (Pengetahuan Am): 88.8%

    • MMLU-Pro direka untuk menilai model pemahaman bahasa merentasi tugas yang lebih luas dan lebih mencabar.
    • GPT-o1 dan GPT-4.5 OpenAI masing-masing menjaringkan 89.3% dan 86.1%. Gemini-2.5-Pro-Eksperimen: 84.5%.
  • GPQA Diamond (Penaakulan Siswazah): 79.6% (83.3% pengiraan tinggi)

    • GPQA menilai kualiti dan kebolehpercayaan merentasi sains.
    • Grok 3: 84.6%. Gemini-2.5-Pro: 84%. o3: 83.3%.
  • AIME (Matematik): 75.5% (90.0% pengiraan tinggi)

    • AIME 2024 menilai keberkesanan matematik sekolah menengah.
    • Gemini-2.5-Pro: 92%, GPT-o1: 79.2%. Nemotron Ultra Nvidia: 80.1%.

HumanEval (Pengekodan): Tuntutan rekod tertinggi
* HumanEval ialah set data yang dibangunkan oleh OpenAI untuk menilai keupayaan penjanaan kod.
* Opus 3: 84.9%.

  • TAU-bench: Runcit 81.4%

    • TAU-bench Runcit menilai ejen AI pada taks dalam domain membeli-belah runcit, seperti membatalkan pesanan, perubahan alamat dan menyemak status pesanan.
    • Claude Sonnet 3.7: 72.2%. GPT-4.5: 70.4%.
  • MMMU (Penaakulan Visual): 76.5%

    • Penilaian bangku MMMU dijalankan di bawah tetapan sifar-syot untuk menilai keupayaan model untuk menjana jawapan yang tepat tanpa penalaan halus atau demonstrasi beberapa syot pada penanda aras.
    • Gemini-2.5-Pro: 84%. o3: 82.9%.
  • Tugas Berterusan Maks: Lebih 7 jam

Aplikasi

Opus 4 cemerlang dalam penyusunan semula perisian lanjutan, sintesis penyelidikan dan tugas-tugas kompleks seperti pemodelan kewangan atau penukaran teks-ke-SQL. Ia boleh memperkasakan ejen autonomi berbilang langkah dan aliran kerja ufuk panjang, dengan memori yang kuat.

Sonnet 4: Mengimbangi Prestasi dan Kepraktikalan

Claude 4 Sonnet memberikan prestasi, kecekapan kos dan keupayaan pengekodan. Ia direka untuk penggunaan AI skala perusahaan di mana kecerdasan dan kemampuan diperlukan.

Keupayaan dan Peningkatan Teras

Sonnet 4 termasuk beberapa faedah utama:

  • Pengekodan: Ideal untuk aliran kerja ejen, Sonnet 4 menyokong sehingga 64,000 token output dan dipilih untuk memperkasakan ejen Copilot GitHub. Ia membantu dengan kitaran hayat perisian: perancangan, membetulkan pepijat, penyelenggaraan dan penyusunan semula berskala besar.
  • Penaakulan & Mengikuti Arahan: Ketara untuk interaksi seperti manusia, pemilihan alat yang unggul dan pembetulan ralat, Sonnet sesuai untuk peranan chatbot dan pembantu AI yang canggih.
  • Penggunaan Komputer: Sonnet boleh menggunakan GUI dan berinteraksi dengan antara muka digital, menaip, mengklik dan mentafsir data.
  • Pengekstrakan Data Visual: Mengekstrak data daripada format visual kompleks seperti carta dan rajah, dengan keupayaan pengekstrakan jadual.
  • Penjanaan & Analisis Kandungan: Cemerlang dalam penulisan bernuansa dan analisis kandungan, menjadikannya pilihan yang kukuh untuk aliran kerja editorial dan analisis.
  • Automasi Proses Robotik (RPA): Sonnet berkesan dalam kes penggunaan RPA kerana ketepatan mengikuti arahan yang tinggi.
  • Pembetulan Kendiri: Sonnet mengenali dan membetulkan kesilapannya sendiri, meningkatkan kebolehpercayaan jangka panjang.

Sorotan Prestasi Penanda Aras

Sonnet 4 telah mencapai skor berikut:

  • SWE-bench Disahkan: 72.7%

    • Opus 4: 73.2%.
  • MMLU: 86.5%

    • Opus 4: 88.8%.
  • GPQA Diamond: 75.4%

    • Opus 4: 79.5%.
  • TAU-bench: Runcit 80.5%

    • Opus 4: 81.4%.
  • MMMU: 74.4%

    • Opus 4: 76.5%.
  • AIME: 70.5%

    • Opus 4: 75.5%.
  • TerminalBench: 35.5%

    • Opus 4: 43.2%
  • Tugas Berterusan Maks: ~4 jam, kurang daripada 7+ jam yang dilaporkan untuk Opus.

  • Pengurangan Ralat: 65% kurang tingkah laku pintasan berbanding Sonnet 3.7

Aplikasi

Sonnet 4 sesuai untuk memperkasakan chatbot AI, penyelidikan masa nyata, RPA dan penggunaan berskala. Keupayaannya untuk mengekstrak pengetahuan daripada dokumen, menganalisis data visual dan menyokong pembangunan menjadikannya pembantu yang berkebolehan.

Inovasi Seni Bina dan Ciri Dikongsi

Kedua-dua Opus 4 dan Sonnet 4 mempunyai kemajuan seni bina yang ketara. Mereka menyokong tetingkap konteks 200K dan menampilkan penaakulan hibrid. Mereka menggunakan alatan luaran selari dengan penaakulan dalaman. Aspek ini meningkatkan ketepatan masa nyata merentasi tugas seperti carian, pelaksanaan kod dan analisis dokumen.

Model-model itu juga mempamerkan kurang "tingkah laku pintasan" berbanding lelaran sebelumnya, yang meningkatkan kebolehpercayaan. Ketelusan telah dipertingkatkan melalui ketersediaan "ringkasan pemikiran" yang membedah proses membuat keputusan.

Prestasi Dunia Nyata dan Maklum Balas Perusahaan

Maklum balas mengenai Opus 4 adalah positif di kalangan pengekod. Para pengguna melaporkan sesi pengekodan yang panjang dengan ketepatan yang tinggi. Mereka juga telah mengambil maklum tentang pembaikan pepijat pada percubaan pertama, serta aliran penulisan yang hampir manusia.

Sonnet 4 telah mendapat pujian, terutamanya daripada pengguna yang menghubungkannya dengan alatan pembangun seperti Cursor dan Augment Code. Kebimbangan kekal mengenai pemahaman dokumen dan kekecewaan had kadar.

Pengguna utama termasuk GitHub, yang memanggil Sonnet 4 "melambung tinggi dalam senario ejen." Replit memuji ketepatannya, dan Rakuten dan Block menyoroti peningkatan produktiviti. Opus 4 membolehkan penyusunan semula penuh selama 7 jam bagi asas kod sumber terbuka.

Kontroversi Pemberi Maklumat

Siaran di X daripada penyelidik Anthropic Sam Bowman mendedahkan bahawa Opus boleh mengambil tindakan, seperti melaporkan pengguna jika ia menganggap mereka tidak bermoral.

Tingkah laku ini datang daripada rangka kerja AI Perlembagaan Anthropic. Walaupun tujuannya adalah untuk mengurangkan bahaya, pengkritik berhujah bahawa tahap inisiatif ini, terutamanya apabila dipadankan dengan keupayaan ejen dan akses baris arahan, mewujudkan cerun licin.

Keselamatan dan Keupayaan Muncul

Opus 4 beroperasi di bawah Tahap Keselamatan AI 3, peringkat tertingginya pada masa ini, memetik kebimbangan tentang pengetahuan topik sensitif. Pasukan merah menguji Opus dan mendapati tingkah laku dan keupayaan "berbeza dari segi kualitatif daripada apa-apa yang pernah mereka uji sebelum ini."

Harga dan Proposisi Nilai

  • Opus 4: Berharga $75 setiap juta token output, ia menyasarkan aplikasi mewah.

    • Ini adalah harga yang sama seperti Opus 3.
    • o3 OpenAI berharga $40 setiap juta token output.
  • Sonnet 4: Berharga $15 setiap juta token output, ia memberikan keseimbangan antara prestasi dan kemampuan.

    • GPT-4o OpenAI dan Gemini-2.5-Pro Google masing-masing berharga $20 dan $15 setiap juta token output. Model perdana 4.1 OpenAI berharga $8 setiap juta token output.