Claude 3.7 Sonnet: Tolok Ukur Baru dalam Kemampuan Coding
Rilis Claude 3.7 Sonnet baru-baru ini, hanya dua minggu yang lalu, menjadi bukti nyata. Iterasi terbaru ini telah memecahkan rekor benchmark yang ada untuk performa coding. Bersamaan dengan itu, Anthropic meluncurkan Claude Code, agen AI command-line yang dirancang untuk mempercepat pengembangan aplikasi bagi programmer. Menambah momentum ini, Cursor, code editor bertenaga AI yang secara default menggunakan model Claude dari Anthropic, dilaporkan meroket hingga mencapai $100 juta dalam pendapatan berulang tahunan (ARR) hanya dalam waktu 12 bulan.
Penekanan yang disengaja Anthropic pada coding bertepatan dengan pengakuan yang berkembang di kalangan perusahaan tentang potensi transformatif dari agen coding AI. Agen-agen ini memberdayakan baik developer berpengalaman maupun individu tanpa keahlian coding untuk membuat aplikasi dengan kecepatan dan efisiensi yang belum pernah terjadi sebelumnya. Seperti yang dinyatakan oleh Guillermo Rauch, CEO Vercel, perusahaan yang berkembang pesat yang memungkinkan developer (termasuk non-coder) untuk menerapkan aplikasi front-end, ‘Anthropic terus unggul.’ Keputusan Vercel tahun lalu untuk mengalihkan model coding utamanya dari GPT OpenAI ke Claude Anthropic, setelah evaluasi menyeluruh terhadap kinerja mereka pada tugas-tugas coding yang krusial, menggarisbawahi poin ini.
Claude 3.7 Sonnet, yang diluncurkan pada 24 Februari, terbukti telah memimpin di hampir semua benchmark coding. Model ini mencapai 70,3% yang luar biasa pada benchmark SWE-bench yang sangat dihormati, sebuah ukuran kemampuan pengembangan perangkat lunak agen. Skor ini secara signifikan melampaui skor pesaing terdekatnya, o1 OpenAI (48,9%) dan DeepSeek-R1 (49,2%). Selain itu, Claude 3.7 menunjukkan performa yang unggul pada tugas-tugas agentik.
Hasil benchmark ini telah divalidasi dengan cepat oleh komunitas developer melalui pengujian dunia nyata. Diskusi online, terutama di platform seperti Reddit, yang membandingkan Claude 3.7 dengan Grok 3 (model terbaru dari xAI Elon Musk), secara konsisten lebih menyukai model Anthropic untuk tugas-tugas coding. Seorang komentator teratas merangkum sentimen tersebut: ‘Berdasarkan apa yang telah saya uji, Claude 3.7 tampaknya menjadi yang terbaik untuk menulis kode (setidaknya untuk saya).’ Sangat penting untuk dicatat bahwa bahkan Manus, agen multi-guna baru dari Tiongkok yang menggemparkan dunia awal minggu ini, mengatakan bahwa itu lebih baik daripada Deep Research Open AI dan tugas otonom lainnya, sebagian besar dibangun di atas Claude.
Fokus Strategis: Permainan Enterprise Anthropic
Fokus Anthropic yang tak tergoyahkan pada kemampuan coding bukanlah kebetulan. Proyeksi yang bocor yang dilaporkan oleh The Information menunjukkan bahwa Anthropic menargetkan pendapatan yang mengejutkan sebesar $34,5 miliar pada tahun 2027. Ini mewakili peningkatan 86 kali lipat dari levelnya saat ini. Sebagian besar (sekitar 67%) dari proyeksi pendapatan ini diharapkan berasal dari bisnis API, dengan aplikasi coding enterprise yang berfungsi sebagai mesin pertumbuhan utama. Meskipun Anthropic belum mengungkapkan angka pendapatan yang tepat, mereka telah melaporkan lonjakan 1.000% yang luar biasa dalam pendapatan coding selama kuartal terakhir tahun 2024. Menambah momentum finansial ini, Anthropic baru-baru ini mengumumkan putaran pendanaan sebesar $3,5 miliar, yang menempatkan nilai perusahaan pada angka $61,5 miliar yang mengesankan.
Strategi yang berpusat pada coding ini selaras dengan temuan Economic Index Anthropic sendiri. Indeks tersebut mengungkapkan bahwa 37,2% kueri yang signifikan yang ditujukan ke Claude termasuk dalam kategori ‘komputer dan matematika’. Kueri-kueri ini terutama mencakup tugas-tugas rekayasa perangkat lunak seperti modifikasi kode, debugging, dan pemecahan masalah jaringan.
Pendekatan Anthropic menonjol di tengah lanskap kompetitif, di mana para pesaing sering terjebak dalam pusaran aktivitas, berusaha untuk melayani pasar enterprise dan konsumen dengan berbagai fitur. OpenAI, meskipun mempertahankan keunggulan yang kuat karena pengakuan dan adopsi konsumen awalnya, menghadapi tantangan untuk melayani pengguna biasa dan bisnis dengan beragam model dan fungsionalitas. Google, juga, sedang mengejar strategi untuk menawarkan portofolio produk yang luas.
Pendekatan Anthropic yang relatif disiplin juga tercermin dalam keputusan produknya. Alih-alih mengejar pangsa pasar konsumen, perusahaan telah memprioritaskan fitur-fitur tingkat enterprise seperti integrasi GitHub, log audit, izin yang dapat disesuaikan, dan kontrol keamanan khusus domain. Enam bulan sebelumnya, mereka memperkenalkan context window 500.000 token yang sangat besar untuk developer, sangat kontras dengan keputusan Google untuk membatasi window 1 juta tokennya untuk penguji pribadi. Fokus strategis ini telah menghasilkan penawaran yang komprehensif dan berpusat pada coding yang semakin beresonansi dengan perusahaan.
Pengenalan fitur-fitur baru-baru ini oleh perusahaan yang memungkinkan non-coder untuk mempublikasikan aplikasi yang dihasilkan AI di dalam organisasi mereka, ditambah dengan peningkatan konsol minggu lalu yang menampilkan kemampuan kolaborasi yang ditingkatkan (termasuk prompt dan template yang dapat dibagikan), semakin memperjelas tren ini. Demokratisasi ini mencerminkan strategi ‘Kuda Troya’: awalnya memberdayakan developer untuk membangun fondasi yang kuat, diikuti dengan memperluas akses ke tenaga kerja enterprise yang lebih luas, yang pada akhirnya mencapai jajaran korporat.
Pengalaman Langsung dengan Claude: Eksperimen Praktis
Untuk menilai kemampuan dunia nyata dari agen-agen coding ini, sebuah eksperimen praktis dilakukan, dengan fokus pada pembangunan database untuk menyimpan artikel. Tiga pendekatan berbeda digunakan: Claude 3.7 Sonnet melalui aplikasi Anthropic, agen coding Cursor, dan Claude Code.
Memanfaatkan Claude 3.7 secara langsung melalui aplikasi Anthropic, panduan yang diberikan sangat berwawasan, terutama bagi seseorang yang tidak memiliki pengalaman coding yang luas. Model tersebut menyajikan beberapa opsi, mulai dari solusi kuat yang menggunakan database PostgreSQL hingga alternatif yang lebih ringan seperti Airtable. Memilih solusi yang ringan, Claude secara metodis memandu proses mengekstraksi artikel dari API dan mengintegrasikannya ke dalam Airtable menggunakan layanan konektor. Meskipun prosesnya memakan waktu sekitar dua jam, terutama karena tantangan otentikasi, proses ini menghasilkan sistem yang fungsional. Intinya, alih-alih menulis semua kode secara otonom, Claude memberikan cetak biru yang komprehensif untuk mencapai hasil yang diinginkan.
Cursor, dengan ketergantungan defaultnya pada model Claude, menyajikan pengalaman editor kode yang lengkap dan menunjukkan kecenderungan yang lebih besar terhadap otomatisasi. Namun, ia memerlukan izin di setiap langkah, menghasilkan alur kerja yang agak iteratif.
Claude Code menawarkan pendekatan yang berbeda, beroperasi langsung di dalam terminal dan menggunakan SQLite untuk membuat database lokal yang diisi dengan artikel dari umpan RSS. Solusi ini terbukti lebih sederhana dan lebih andal dalam mencapai tujuan akhir, meskipun kurang kuat dan kaya fitur dibandingkan dengan implementasi Airtable. Ini menyoroti trade-off yang melekat dan menggarisbawahi pentingnya memilih agen coding berdasarkan persyaratan proyek yang spesifik.
Kesimpulan utama dari eksperimen ini adalah bahwa bahkan sebagai non-developer, dimungkinkan untuk membangun aplikasi database fungsional menggunakan ketiga pendekatan tersebut. Ini akan hampir tidak terbayangkan setahun yang lalu. Dan, yang perlu diperhatikan, ketiga pendekatan tersebut mengandalkan kemampuan dasar Claude.
Ekosistem Agen Coding: Cursor dan Lebih Jauh
Mungkin indikator paling meyakinkan dari kesuksesan Anthropic adalah pertumbuhan fenomenal Cursor, sebuah editor kode AI. Laporan menunjukkan bahwa Cursor telah mengumpulkan 360.000 pengguna, dengan lebih dari 40.000 di antaranya adalah pelanggan berbayar, hanya dalam waktu 12 bulan. Lintasan pertumbuhan yang cepat ini berpotensi memposisikan Cursor sebagai perusahaan SaaS tercepat yang mencapai tonggak sejarah tersebut.
Kesuksesan Cursor terkait erat dengan Claude. Seperti yang diamati oleh Sam Witteveen, salah satu pendiri Red Dragon (pengembang independen agen AI), ‘Anda harus berpikir bahwa pelanggan nomor satu mereka adalah Cursor. Kebanyakan orang di [Cursor] sudah menggunakan model Claude Sonnet – model 3.5. Dan sekarang sepertinya semua orang bermigrasi ke 3.7.’
Hubungan antara Anthropic dan ekosistemnya melampaui perusahaan individu seperti Cursor. Pada bulan November, Anthropic memperkenalkan Model Context Protocol (MCP) sebagai standar terbuka, yang memungkinkan developer untuk membangun alat yang berinteraksi secara mulus dengan model Claude. Standar ini telah mendapatkan adopsi luas dalam komunitas developer.
Witteveen menjelaskan pentingnya pendekatan ini: ‘Dengan meluncurkan ini sebagai protokol terbuka, mereka seolah-olah mengatakan, ‘Hei, semuanya, silakan. Anda dapat mengembangkan apa pun yang Anda inginkan yang sesuai dengan protokol ini. Kami akan mendukung protokol ini.’’
Strategi ini menciptakan siklus yang baik: developer membangun alat khusus untuk Claude, meningkatkan proposisi nilainya untuk perusahaan, yang pada gilirannya mendorong adopsi lebih lanjut dan menarik lebih banyak developer.
Lanskap Kompetitif: Microsoft, OpenAI, Google, dan Open Source
Sementara Anthropic telah mengukir ceruk dengan pendekatannya yang terfokus, para pesaing mengejar beragam strategi dengan berbagai tingkat keberhasilan.
Microsoft mempertahankan pijakan yang kuat melalui GitHub Copilot-nya, membanggakan 1,3 juta pengguna berbayar dan adopsi oleh lebih dari 77.000 organisasi dalam waktu sekitar dua tahun. Perusahaan-perusahaan terkemuka seperti Honeywell, State Street, TD Bank Group, dan Levi’s termasuk di antara penggunanya. Adopsi yang luas ini sebagian besar disebabkan oleh hubungan enterprise Microsoft yang sudah ada dan keunggulan penggerak pertamanya, yang berasal dari investasi awalnya di OpenAI dan pemanfaatan model OpenAI untuk memberdayakan Copilot.
Namun, bahkan Microsoft telah mengakui kekuatan Anthropic. Pada bulan Oktober, mereka memungkinkan pengguna GitHub Copilot untuk memilih model Anthropic sebagai alternatif dari penawaran OpenAI. Selain itu, model OpenAI terbaru, o1 dan o3 yang lebih baru (yang menekankan penalaran melalui pemikiran yang diperluas), belum menunjukkan keuntungan khusus dalam coding atau tugas-tugas agentik.
Google telah membuat langkahnya sendiri dengan baru-baru ini menawarkan Code Assist-nya secara gratis, tetapi ini tampaknya lebih merupakan manuver defensif daripada inisiatif strategis.
Gerakan open-source mewakili kekuatan signifikan lainnya dalam lanskap ini. Model Llama Meta telah mendapatkan daya tarik enterprise yang substansial, dengan perusahaan-perusahaan besar seperti AT&T, DoorDash, dan Goldman Sachs menggunakan model berbasis Llama untuk berbagai aplikasi. Pendekatan open-source memberi perusahaan kontrol yang lebih besar, opsi penyesuaian, dan manfaat biaya yang seringkali tidak dapat ditandingi oleh model tertutup.
Alih-alih melihat ini sebagai ancaman langsung, Anthropic tampaknya memposisikan dirinya sebagai pelengkap open source. Pelanggan enterprise dapat memanfaatkan Claude bersama dengan model open-source tergantung pada kebutuhan spesifik mereka, mengadopsi pendekatan hibrida yang memaksimalkan kekuatan masing-masing.
Faktanya, banyak perusahaan enterprise skala besar telah mengadopsi pendekatan multimodal, menggunakan model mana pun yang paling cocok untuk tugas tertentu. Intuit, misalnya, awalnya mengandalkan OpenAI sebagai default untuk aplikasi pengembalian pajaknya, tetapi kemudian beralih ke Claude karena kinerjanya yang unggul dalam skenario tertentu. Pengalaman ini mendorong Intuit untuk mengembangkan kerangka kerja orkestrasi AI yang memfasilitasi peralihan yang mulus antar model.
Sebagian besar perusahaan enterprise lainnya telah mengadopsi praktik serupa, menggunakan model yang paling tepat untuk setiap kasus penggunaan tertentu, seringkali mengintegrasikan model melalui panggilan API sederhana. Meskipun model open-source seperti Llama mungkin cocok dalam beberapa kasus, Claude seringkali menjadi pilihan yang lebih disukai untuk tugas-tugas yang membutuhkan akurasi tinggi, seperti perhitungan.
Implikasi Enterprise: Menavigasi Pergeseran ke Agen Coding
Bagi para pengambil keputusan enterprise, lanskap yang berkembang pesat ini menghadirkan peluang dan tantangan.
Keamanan tetap menjadi perhatian utama, tetapi laporan independen baru-baru ini mengidentifikasi Claude 3.7 Sonnet sebagai model paling aman hingga saat ini, menjadi satu-satunya yang diuji yang terbukti ‘tahan jailbreak’. Postur keamanan ini, dikombinasikan dengan dukungan Anthropic dari Google dan Amazon (dan integrasi ke dalam AWS Bedrock), memposisikannya secara menguntungkan untuk adopsi enterprise.
Proliferasi agen coding tidak hanya mengubah cara aplikasi dikembangkan; itu mendemokratisasikan prosesnya. Menurut GitHub, 92% developer yang berbasis di AS di perusahaan enterprise sudah menggunakan alat coding bertenaga AI di tempat kerja 18 bulan yang lalu. Angka ini kemungkinan telah meningkat secara signifikan sejak saat itu.
Witteveen menyoroti penjembatanan kesenjangan antara anggota tim teknis dan non-teknis: ‘Tantangan yang dihadapi orang [karena] bukan seorang coder adalah bahwa mereka tidak tahu banyak terminologi. Mereka tidak tahu praktik terbaik.’ Agen coding AI semakin mengatasi tantangan ini, memungkinkan kolaborasi yang lebih efektif.
Untuk adopsi enterprise, Witteveen menganjurkan pendekatan yang seimbang: ‘Ini adalah keseimbangan antara keamanan dan eksperimen saat ini. Jelas, di sisi developer, orang-orang mulai membangun aplikasi dunia nyata dengan hal-hal ini.’
Munculnya agen coding AI menandakan pergeseran mendasar dalam pengembangan perangkat lunak enterprise. Ketika digunakan secara efektif, alat-alat ini tidak menggantikan developer, melainkan mengubah peran mereka, memungkinkan mereka untuk berkonsentrasi pada arsitektur dan inovasi daripada detail implementasi.
Pendekatan disiplin Anthropic, yang berfokus khusus pada kemampuan coding sementara para pesaing mengejar berbagai prioritas, tampaknya menghasilkan keuntungan yang signifikan. Pada akhir tahun 2025, periode ini dapat dilihat secara retrospektif sebagai momen penting ketika agen coding AI menjadi alat enterprise yang sangat diperlukan, dengan Claude memimpin.
Bagi para pengambil keputusan teknis, imperatifnya jelas: segera mulai eksperimen dengan alat-alat ini atau berisiko tertinggal dari pesaing yang sudah memanfaatkannya untuk mempercepat siklus pengembangan secara dramatis. Situasi ini mencerminkan masa-masa awal revolusi iPhone, di mana perusahaan awalnya berusaha untuk membatasi perangkat ‘yang tidak disetujui’ dari jaringan perusahaan mereka, hanya untuk akhirnya merangkul kebijakan BYOD karena permintaan karyawan menjadi sangat besar. Beberapa perusahaan, seperti Honeywell, baru-baru ini mencoba untuk menutup penggunaan ‘nakal’ alat coding AI yang tidak disetujui oleh IT.
Perusahaan pintar sudah membangun lingkungan sandbox yang aman untuk memfasilitasi eksperimen terkontrol. Organisasi yang menetapkan pagar pembatas yang jelas sambil mendorong inovasi akan menuai manfaat dari antusiasme karyawan dan wawasan tentang bagaimana alat-alat ini dapat melayani kebutuhan unik mereka dengan sebaik-baiknya, memposisikan diri mereka di depan pesaing yang menolak perubahan. Dan Claude dari Anthropic, setidaknya untuk saat ini, adalah penerima manfaat utama dari gerakan transformatif ini.