Mengungkap Claude 4: Era Baru Kecerdasan Buatan

Claude Opus 4: Model Coding Terbaik di Dunia

Claude Opus 4 menonjol sebagai model coding terbaik di dunia, menunjukkan kinerja luar biasa dan konsisten pada tugas-tugas rumit yang berdurasi panjang. Kemampuannya untuk menangani pemikiran yang diperpanjang dan alur kerja agen menjadikannya aset tak ternilai bagi para pengembang yang menangani tantangan coding yang kompleks. Kehebatan model ini meluas ke pemahaman codebase yang kompleks, membuat perubahan yang tepat di berbagai file, dan meningkatkan kualitas kode selama pengeditan dan debugging. Beberapa pemimpin industri telah memuji Claude Opus 4 atas kemampuannya:

  • Cursor: Memujinya sebagai yang tercanggih untuk coding dan kemajuan signifikan dalam pemahaman codebase yang kompleks.
  • Replit: Menyoroti peningkatan presisi dan peningkatan dramatis untuk perubahan kompleks di banyak file.
  • Block: Mengakui sebagai model pertama yang meningkatkan kualitas kode selama pengeditan dan debugging di dalam agennya, bernama kode "goose," sambil mempertahankan kinerja dan keandalan puncak.
  • Rakuten: Memvalidasi kemampuannya dengan refactor open-source yang menuntut, yang berjalan secara independen selama 7 jam dengan kinerja yang konsisten.
  • Cognition: Mengakui bahwa Opus 4 unggul dalam menyelesaikan tantangan rumit yang membuat model lain kesulitan, berhasil menangani tindakan penting yang diabaikan oleh model sebelumnya.

Claude Sonnet 4: Peningkatan Signifikan

Claude Sonnet 4 mewakili peningkatan substansial dari pendahulunya, Claude Sonnet 3.7. Ia memberikan kemampuan coding dan penalaran yang superior sambil menanggapi instruksi pengguna dengan lebih akurat. Model ini mencapai keseimbangan optimal antara kinerja dan efisiensi, sehingga cocok untuk berbagai kasus penggunaan internal dan eksternal. Meskipun mungkin tidak melampaui Opus 4 di semua domain, ia menawarkan kombinasi ideal antara kemampuan dan kepraktisan. Sorotan utama Claude Sonnet 4 meliputi:

  • GitHub: Menyatakan bahwa Claude Sonnet 4 unggul dalam skenario agentik dan akan diintegrasikan sebagai model yang mendukung agen coding baru di GitHub Copilot.
  • Manus: Menekankan peningkatan dalam mengikuti instruksi kompleks, penalaran yang jelas, dan output yang estetis.
  • iGent: Melaporkan bahwa Sonnet 4 unggul dalam pengembangan aplikasi multi-fitur otonom, serta pemecahan masalah dan navigasi codebase yang ditingkatkan secara signifikan, mengurangi kesalahan navigasi dari 20% menjadi hampir nol.
  • Sourcegraph: Menunjukkan bahwa model ini menunjukkan janji sebagai lompatan substansial dalam pengembangan perangkat lunak, mempertahankan fokus untuk durasi yang lebih lama, memahami masalah lebih dalam, dan memberikan kualitas kode yang lebih elegan.
  • Augment Code: Melaporkan tingkat keberhasilan yang lebih tinggi, pengeditan kode yang lebih bedah, dan pekerjaan yang lebih hati-hati melalui tugas-tugas yang kompleks, menjadikannya pilihan utama untuk model utama mereka.

Pemikiran yang Diperluas dengan Penggunaan Alat

Baik Claude Opus 4 dan Claude Sonnet 4 menampilkan kemampuan pemikiran yang diperluas dengan penggunaan alat, memungkinkan mereka untuk memanfaatkan alat eksternal untuk meningkatkan kemampuan penalaran dan pemecahan masalah mereka. Hal ini memungkinkan Claude untuk bergantian antara penalaran dan penggunaan alat, yang mengarah pada respons yang lebih baik dan hasil yang lebih akurat. Model-model tersebut juga dapat mengeksekusi alat secara paralel, mengikuti instruksi dengan presisi yang lebih besar, dan menunjukkan kemampuan memori yang ditingkatkan secara signifikan. Hal ini dicapai dengan mengekstrak dan menyimpan fakta-fakta kunci untuk mempertahankan kontinuitas dan membangun pengetahuan diam-diam dari waktu ke waktu.

Claude Code: Sekarang Tersedia Secara Umum

Claude Code, yang sekarang tersedia secara umum, memberi para pengembang kesempatan yang lebih luas untuk berkolaborasi dengan Claude. Ia mendukung tugas latar belakang melalui GitHub Actions dan integrasi asli dengan VS Code dan JetBrains. Edit ditampilkan langsung di file Anda, memfasilitasi pemrograman pasangan yang mulus dan pengembangan kolaboratif. Fitur ini telah menerima umpan balik positif yang luas selama pratinjau penelitian, menyoroti nilainya dalam merampingkan alur kerja pengembangan.

Kemampuan API Baru

Anthropic juga telah merilis empat kemampuan baru pada Anthropic API, memberdayakan para pengembang untuk membangun agen AI yang lebih kuat. Kemampuan ini meliputi:

  • Alat Eksekusi Kode: Memungkinkan agen untuk mengeksekusi cuplikan kode untuk memecahkan masalah kompleks.
  • Konektor MCP: Memungkinkan agen untuk berinteraksi dengan sumber dan layanan data eksternal.
  • Files API: Memberi agen akses ke sistem file lokal untuk pemrosesan data yang ditingkatkan.
  • Prompt Caching: Memungkinkan para pengembang untuk menyimpan prompt dalam cache hingga satu jam, mengurangi latensi dan meningkatkan kinerja.

Model Hibrida dengan Mode Ganda

Claude Opus 4 dan Sonnet 4 adalah model hibrida yang menawarkan dua mode berbeda:

  • Respons Hampir Instan: Memberikan respons yang cepat dan efisien untuk kueri rutin.
  • Pemikiran yang Diperpanjang: Memungkinkan penalaran dan pemecahan masalah yang lebih dalam untuk tugas-tugas yang kompleks.

Paket Pro, Max, Team, dan Enterprise Claude mencakup kedua model dan kemampuan pemikiran yang diperpanjang. Claude Sonnet 4 juga dapat diakses oleh pengguna gratis. Kedua model tersedia di Anthropic API, Amazon Bedrock, dan Vertex AI Google Cloud, memastikan aksesibilitas yang luas bagi para pengembang dan organisasi.

Konsistensi Harga

Harga untuk Claude Opus 4 dan Sonnet 4 tetap konsisten dengan model Opus dan Sonnet sebelumnya:

  • Opus 4: $15/$75 per juta token (input/output)
  • Sonnet 4: $3/$15 per juta token (input/output)

Peningkatan Model: Mengurangi Pintasan dan Meningkatkan Memori

Selain pemikiran yang diperpanjang dengan penggunaan alat, eksekusi alat paralel, dan peningkatan memori, Anthropic telah secara signifikan mengurangi kejadian model menggunakan pintasan atau celah untuk menyelesaikan tugas. Kedua model 65% lebih kecil kemungkinannya untuk terlibat dalam perilaku ini dibandingkan dengan Sonnet 3.7 pada tugas agentik. Claude Opus 4 juga secara dramatis mengungguli semua model sebelumnya dalam hal kemampuan memori. Ketika para pengembang membangun aplikasi yang menyediakan akses file lokal ke Claude, Opus 4 unggul dalam membuat dan memelihara ‘file memori’ untuk menyimpan informasi utama. Ini membuka kesadaran tugas jangka panjang, koherensi, dan kinerja yang lebih baik pada tugas agen, memungkinkan skenario seperti Opus 4 membuat ‘Panduan Navigasi’ saat bermain Pokémon.

Ringkasan Pemikiran

Anthropic telah memperkenalkan ringkasan pemikiran untuk model Claude 4, yang menggunakan model yang lebih kecil untuk meringkas proses pemikiran yang panjang. Fitur ini hanya digunakan sekitar 5% dari waktu, karena sebagian besar proses pemikiran cukup pendek untuk ditampilkan sepenuhnya. Pengguna yang membutuhkan rantai pemikiran mentah untuk rekayasa prompt tingkat lanjut dapat menghubungi penjualan tentang Mode Pengembang baru Anthropic untuk mempertahankan akses penuh.

Integrasi Claude Code

Claude Code sekarang terintegrasi ke dalam lebih banyak alur kerja pengembangan Anda, termasuk terminal, IDE pilihan Anda, dan eksekusi latar belakang dengan Claude Code SDK. Ekstensi beta baru untuk VS Code dan JetBrains mengintegrasikan Claude Code secara mulus langsung ke dalam IDE Anda. Edit yang diusulkan Claude muncul inline di file Anda, merampingkan peninjauan dan pelacakan dalam antarmuka editor yang familiar. Untuk menginstal, cukup jalankan Claude Code di terminal IDE Anda.

Claude Code SDK yang Dapat Diperluas

Di luar IDE, Anthropic merilis Claude Code SDK yang dapat diperluas, memungkinkan pengguna untuk membangun agen dan aplikasi mereka sendiri menggunakan agen inti yang sama dengan Claude Code. Contoh dari apa yang mungkin dengan SDK adalah Claude Code di GitHub, sekarang dalam beta. Tandai Claude Code di PR untuk menanggapi umpan balik peninjau, memperbaiki kesalahan CI, atau mengubah kode. Untuk menginstal, jalankan /install-github-app dari dalam Claude Code.

Sebuah Langkah Menuju Kolaborasi Virtual

Model-model ini mewakili langkah signifikan menuju kolaborator virtual, mempertahankan konteks penuh, mempertahankan fokus pada proyek yang lebih panjang, dan mendorong dampak transformasional. Itu menjalani pengujian dan evaluasi ekstensif untuk meminimalkan risiko dan memaksimalkan keselamatan, termasuk penerapan tindakan untuk Tingkat Keselamatan AI yang lebih tinggi seperti ASL-3.

Kemajuan ini menjanjikan kemungkinan yang menarik untuk berbagai aplikasi, dengan Opus 4 mendorong batasan dalam coding, penelitian, penulisan, dan penemuan ilmiah, dan Sonnet 4 menghadirkan kinerja perbatasan untuk kasus penggunaan sehari-hari sebagai peningkatan instan dari Sonnet 3.7.