Claude 4 Anthropic: Batas Baru AI

Era kecerdasan buatan (AI) kembali mencatat kemajuan signifikan dengan peluncuran Opus 4 dan Sonnet 4 dari Anthropic, iterasi terbaru dalam keluarga Claude mereka yang utama. Diluncurkan baru-baru ini, model-model ini dengan cepat menarik perhatian, menetapkan tolok ukur baru terutama dalam bidang pengkodean yang penting. Selain kehebatan pengkodean mereka, Opus 4 dan Sonnet 4 menunjukkan kemampuan yang kuat dalam penalaran dan fungsionalitas agentik, menempatkan mereka sebagai kemajuan penting dalam lanskap AI kontemporer.

Opus 4 adalah ciptaan Anthropic yang paling canggih hingga saat ini, dipuji oleh perusahaan sebagai modelnya yang paling kuat dan menegaskan posisinya sebagai "model pengkodean terbaik di dunia." Melengkapi Opus 4, Sonnet 4 muncul sebagai alternatif yang lebih ekonomis, direkayasa untuk mencapai keseimbangan optimal antara kinerja superior dan efektivitas biaya praktis. Penawaran ganda strategis ini melayani spektrum pengguna yang luas, mulai dari mereka yang menuntut kinerja puncak hingga mereka yang mencari solusi yang lebih hemat anggaran.

Peningkatan yang diperkenalkan dalam Opus 4 dan Sonnet 4 sangat penting. Sorotan utama adalah kemahiran pengkodean mereka yang ditingkatkan. Opus 4 telah menunjukkan kepemimpinannya dalam tolok ukur utama, termasuk SWE-bench dan Terminal-bench, sementara Sonnet menunjukkan kemampuan serupa. Lompatan dalam kinerja pengkodean ini menggarisbawahi meningkatnya signifikansi AI dalam pengembangan perangkat lunak.

Selain peningkatan kinerja, Anthropic telah memprioritaskan keselamatan. Opus 4 menggabungkan ASL-3, atau perlindungan AI Safety Level 3. Ukuran ini berasal dari ‘Responsible Scaling Policy’ Anthropic. Anthropic, didirikan oleh mantan karyawan OpenAI yang prihatin tentang keselamatan, secara konsisten menekankan inovasi dengan pertimbangan keselamatan yang kuat.

Peluncuran Opus 4 dan Sonnet 4 telah menghasilkan umpan balik yang umumnya positif dari pengembang dan pengguna. Kemampuan pengkodean yang ditingkatkan telah dipuji sebagai langkah signifikan menuju sistem AI otonom, atau agentik. Struktur harga, yang mencerminkan generasi sebelumnya dengan menghadirkan opsi premium dan hemat biaya, juga diterima dengan baik.

Peluncuran Opus 4 bukannya tanpa kontroversi. Seorang peneliti Anthropic mengungkapkan bahwa Opus dapat menghubungi pihak berwenang jika dianggap perilaku pengguna tidak pantas. Sementara peneliti kemudian mengklarifikasi bahwa ini tidak mungkin dalam penggunaan normal, itu menimbulkan kekhawatiran di antara pengguna mengenai tingkat independensi yang berpotensi tertanam dalam model.

Bidang AI ditandai dengan pengumuman model terobosan yang sering, masing-masing bersaing untuk gelar "terbaik di dunia." Rilis terbaru termasuk Gemini-2.5-Pro Google, GPT-4.5 OpenAI dan GPT-4.1, Grok 3 xAI, dan Qwen 2.5 dan QwQ-32B Alibaba, semua membanggakan kinerja tolok ukur yang luar biasa.

Mengingat lanskap klaim yang bersaing ini, penting untuk memeriksa apakah Claude 4 benar-benar berkuasa. Dengan mempelajari kemampuannya, kinerja tolok ukur, aplikasi, dan umpan balik pengguna, mungkin mungkin untuk memastikan jawaban atas pertanyaan ini.

Opus 4: Pusat Kekuatan Pengkodean

Opus 4 adalah model Anthropic yang paling canggih, dirancang untuk tugas-tugas kompleks dan berdurasi panjang. Cocok untuk rekayasa perangkat lunak otonom, penelitian, dan alur kerja agentik, semua membutuhkan alat premium. Opus 4 diposisikan sebagai "model pengkodean terbaik di dunia."

Kemampuan dan Peningkatan Inti

Opus 4 memiliki kemampuan yang canggih. Yang perlu diperhatikan adalah sebagai berikut:

  • Pengkodean Tingkat Lanjut: Opus 4 unggul dalam menjalankan secara otonom "tugas rekayasa selama berhari-hari." Model ini beradaptasi dengan gaya pengembang tertentu dengan "selera kode yang ditingkatkan" dan mendukung hingga 32.000 token keluaran. Mesin Claude Code latar belakang menangani tugas-tugas.
  • Penalaran Tingkat Lanjut & Pemecahan Masalah Kompleks: Dengan sistem penalaran hibrida yang beralih antara respons langsung dan pemikiran mendalam yang diperluas, Opus 4 mempertahankan fokus selama urutan yang berkepanjangan.
  • Kemampuan Agentik: Opus 4 memungkinkan agen AI yang canggih dan menunjukkan kinerja state-of-the-art (SOTA). Mendukung alur kerja perusahaan dan manajemen kampanye otonom.
  • Penulisan Kreatif & Pembuatan Konten: Opus 4 menghasilkan prosa bernuansa tingkat manusia dengan kualitas gaya yang luar biasa, membuatnya cocok untuk tugas kreatif yang canggih.
  • Memori & Kesadaran Konteks Panjang: Opus 4 membuat dan menggunakan "file memori," meningkatkan koherensi lintas tugas panjang, seperti menulis panduan game sambil bermain Pokémon.
  • Pencarian & Penelitian Agentik: Opus 4 dapat melakukan penelitian berjam-jam dan mensintesis wawasan dari data kompleks seperti paten dan makalah akademis.

Sorotan Kinerja Tolok Ukur

Opus 4 telah menunjukkan kinerja yang superior. Pertimbangkan tolok ukur berikut:

  • SWE-bench Verified (Pengkodean): 73,2%

    • SWE-bench menguji kemampuan sistem AI untuk menyelesaikan masalah GitHub.
    • o3 OpenAI: 69,1%. Gemini-2.5-Pro Google: 63,8%.
  • Terminal-bench (Pengkodean CLI): 43,2% (50,0% komputasi tinggi)

    • Terminal-bench mengukur kemampuan agen AI di lingkungan terminal.
    • Claude Sonnet 3.7: 35,2%, dan GPT-4.1 OpenAI: 30,3%.
  • MMLU (Pengetahuan Umum): 88,8%

    • MMLU-Pro dirancang untuk mengevaluasi model pemahaman bahasa di seluruh tugas yang lebih luas dan lebih menantang.
    • GPT-o1 dan GPT-4.5 OpenAI masing-masing mencetak 89,3% dan 86,1%. Gemini-2.5-Pro-Experimental: 84,5%.
  • GPQA Diamond (Penalaran Pascasarjana): 79,6% (83,3% komputasi tinggi)

    • GPQA mengevaluasi kualitas dan keandalan di seluruh ilmu pengetahuan.
    • Grok 3: 84,6%. Gemini-2.5-Pro: 84%. o3: 83,3%.
  • AIME (Matematika): 75,5% (90,0% komputasi tinggi)

    • AIME 2024 mengevaluasi efikasi matematika sekolah menengah.
    • Gemini-2.5-Pro: 92%, GPT-o1: 79,2%. Nemotron Ultra Nvidia: 80,1%.

HumanEval (Pengkodean): Klaim rekor tertinggi
* HumanEval adalah dataset yang dikembangkan oleh OpenAI untuk mengevaluasi kemampuan pembuatan kode.
* Opus 3: 84,9%.

  • TAU-bench: Ritel 81,4%

    • TAU-bench Retail mengevaluasi agen AI pada tugas-tugas di domain belanja ritel, seperti membatalkan pesanan, perubahan alamat, dan memeriksa status pesanan.
    • Claude Sonnet 3.7: 72,2%. GPT-4.5: 70,4%.
  • MMMU (Penalaran Visual): 76,5%

    • Evaluasi bangku MMMU dilakukan di bawah pengaturan zero-shot untuk menilai kemampuan model untuk menghasilkan jawaban akurat tanpa fine-tuning atau demonstrasi few-shot pada tolok ukur.
    • Gemini-2.5-Pro: 84%. o3: 82,9%.
  • Tugas Berkelanjutan Maksimum: Lebih dari 7 jam

Aplikasi

Opus 4 unggul dalam refactoring perangkat lunak tingkat lanjut, sintesis penelitian, dan tugas kompleks seperti pemodelan keuangan atau konversi teks-ke-SQL. Dapat memberdayakan agen otonom multi-langkah dan alur kerja horizon panjang, dengan memori yang kuat.

Sonnet 4: Menyeimbangkan Kinerja dan Kepraktisan

Claude 4 Sonnet memberikan kinerja, efisiensi biaya, dan kemampuan pengkodean. Dirancang untuk penyebaran AI skala perusahaan di mana kecerdasan dan keterjangkauan dibutuhkan.

Kemampuan dan Peningkatan Inti

Sonnet 4 mencakup beberapa manfaat utama:

  • Pengkodean: Ideal untuk alur kerja agentik, Sonnet 4 mendukung hingga 64.000 token keluaran dan dipilih untuk mendukung agen Copilot GitHub. Membantu dengan siklus hidup perangkat lunak: perencanaan, memperbaiki bug, pemeliharaan, dan refactoring skala besar.
  • Penalaran & Mengikuti Instruksi: Terkemuka untuk interaksi seperti manusia, pemilihan alat yang superior, dan koreksi kesalahan, Sonnet sangat cocok untuk peran chatbot dan asisten AI tingkat lanjut.
  • Penggunaan Komputer: Sonnet dapat menggunakan GUI, dan berinteraksi dengan antarmuka digital, mengetik, mengklik, dan menafsirkan data.
  • Ekstraksi Data Visual: Mengekstrak data dari format visual kompleks seperti bagan dan diagram, dengan kemampuan ekstraksi tabel.
  • Pembuatan & Analisis Konten: Unggul dalam penulisan dan analisis konten bernuansa, menjadikannya pilihan yang solid untuk alur kerja editorial dan analitis.
  • Robotic Process Automation (RPA): Sonnet efektif dalam kasus penggunaan RPA karena akurasi mengikuti instruksi yang tinggi.
  • Koreksi Diri: Sonnet mengenali dan memperbaiki kesalahannya sendiri, meningkatkan keandalan jangka panjang.

Sorotan Kinerja Tolok Ukur

Sonnet 4 telah mencapai skor berikut:

  • SWE-bench Verified: 72,7%

    • Opus 4: 73,2%.
  • MMLU: 86,5%

    • Opus 4: 88,8%.
  • GPQA Diamond: 75,4%

    • Opus 4: 79,5%.
  • TAU-bench: Ritel 80,5%

    • Opus 4: 81,4%.
  • MMMU: 74,4%

    • Opus 4: 76,5%.
  • AIME: 70,5%

    • Opus 4: 75,5%.
  • TerminalBench: 35,5%

    • Opus 4: 43,2%
  • Tugas Berkelanjutan Maksimum: ~4 jam, kurang dari 7+ jam yang dilaporkan untuk Opus.

  • Pengurangan Kesalahan: Perilaku jalan pintas 65% lebih sedikit vs. Sonnet 3.7

Aplikasi

Sonnet 4 cocok untuk memberdayakan chatbot AI, penelitian waktu nyata, RPA, dan penyebaran yang dapat diskalakan. Kemampuannya untuk mengekstrak pengetahuan dari dokumen, menganalisis data visual, dan mendukung pengembangan menjadikannya asisten yang mampu.

Inovasi Arsitektur dan Fitur Bersama

Baik Opus 4 dan Sonnet 4 memiliki kemajuan arsitektur utama. Mendukung jendela konteks 200K dan menampilkan penalaran hibrida. Memanfaatkan alat eksternal secara paralel dengan penalaran internal. Aspek-aspek ini meningkatkan akurasi waktu nyata lintas tugas seperti pencarian, eksekusi kode, dan analisis dokumen.

Model-model tersebut juga menunjukkan lebih sedikit "perilaku jalan pintas" daripada iterasi sebelumnya, yang meningkatkan keandalan. Transparansi telah ditingkatkan melalui ketersediaan "ringkasan pemikiran" yang membedah proses pengambilan keputusan.

Kinerja Dunia Nyata dan Umpan Balik Perusahaan

Umpan balik pada Opus 4 positif di antara para pembuat kode. Pengguna melaporkan sesi pengkodean panjang dengan akurasi tinggi. Mereka juga mencatat perbaikan bug pada percobaan pertama, serta alur penulisan yang hampir manusia.

Sonnet 4 telah mendapatkan pujian, terutama dari pengguna yang menghubungkannya dengan alat pengembang seperti Cursor dan Augment Code. Kekhawatiran tetap ada mengenai pemahaman dokumen dan frustrasi batas tarif.

Adopsi utama termasuk GitHub, yang menyebut Sonnet 4 "melambung dalam skenario agentik." Replit memuji presisinya, dan Rakuten dan Block menyoroti peningkatan produktivitas. Opus 4 memungkinkan refaktor lengkap 7 jam dari basis kode sumber terbuka.

Kontroversi Pelaporan

Sebuah postingan di X dari peneliti Anthropic Sam Bowman mengungkapkan bahwa Opus dapat mengambil tindakan, seperti melaporkan pengguna jika dianggap tidak bermoral.

Perilaku ini berasal dari kerangka AI Konstitusional Anthropic. Sementara niatnya adalah pengurangan bahaya, para kritikus berpendapat bahwa tingkat inisiatif ini, terutama ketika dipasangkan dengan kemampuan agentik dan akses baris perintah, menciptakan lereng yang licin.

Keselamatan dan Kemampuan yang Muncul

Opus 4 beroperasi di bawah AI Safety Level 3, tingkat tertingginya saat ini, mengutip kekhawatiran seputar pengetahuan tentang topik sensitif. Tim merah menguji Opus dan menemukan perilaku dan kemampuan "secara kualitatif berbeda dari apa pun yang pernah mereka uji sebelumnya."

Harga dan Proposisi Nilai

  • Opus 4: Harganya $75 per juta token keluaran, menargetkan aplikasi kelas atas.

    • Ini adalah harga yang sama dengan Opus 3.
    • o3 OpenAI harganya $40 per juta token keluaran.
  • Sonnet 4: Harganya $15 per juta token keluaran, memberikan keseimbangan antara kinerja dan keterjangkauan.

    • GPT-4o OpenAI dan Gemini-2.5-Pro Google masing-masing harganya $20 dan $15 per juta token keluaran. Model 4.1 utama OpenAI harganya $8 per juta token keluaran.