Kudeta Perusahaan Anthropic: Ejen Pengekodan Pilihan

Claude 3.7 Sonnet: Penanda Aras Baharu dalam Kehebatan Pengekodan

Pelancaran Claude 3.7 Sonnet baru-baru ini, hanya dua minggu yang lalu, berfungsi sebagai bukti yang kukuh. Iterasi terkini ini telah memecahkan rekod penanda aras sedia ada untuk prestasi pengekodan. Serentak dengan itu, Anthropic memperkenalkan Claude Code, ejen AI baris perintah yang direka untuk mempercepat pembangunan aplikasi untuk pengaturcara. Menambah momentum ini, Cursor, editor kod berkuasa AI yang menggunakan model Claude Anthropic secara lalai, dilaporkan telah melonjak kepada $100 juta yang mengagumkan dalam hasil berulang tahunan dalam masa 12 bulan sahaja.

Penekanan Anthropic yang disengajakan pada pengekodan bertepatan dengan pengiktirafan yang semakin meningkat di kalangan perusahaan tentang potensi transformatif ejen pengekodan AI. Ejen-ejen ini memperkasakan kedua-dua pembangun berpengalaman dan individu tanpa kepakaran pengekodan untuk mencipta aplikasi dengan kelajuan dan kecekapan yang belum pernah terjadi sebelumnya. Seperti yang dinyatakan oleh Guillermo Rauch, Ketua Pegawai Eksekutif Vercel, sebuah syarikat yang berkembang pesat yang membolehkan pembangun (termasuk bukan pengekod) menggunakan aplikasi front-end, “Anthropic terus mendahului.” Keputusan Vercel tahun lepas untuk menukar model pengekodan utamanya daripada GPT OpenAI kepada Claude Anthropic, berikutan penilaian menyeluruh terhadap prestasi mereka pada tugas pengekodan penting, menggariskan perkara ini.

Claude 3.7 Sonnet, yang dilancarkan pada 24 Februari, telah terbukti mendahului dalam hampir semua penanda aras pengekodan. Ia mencapai 70.3% yang luar biasa pada penanda aras SWE-bench yang sangat dihormati, ukuran keupayaan pembangunan perisian ejen. Skor ini jauh mengatasi pesaing terdekatnya, o1 OpenAI (48.9%) dan DeepSeek-R1 (49.2%). Tambahan pula, Claude 3.7 mempamerkan prestasi unggul pada tugas-tugas ejentik.

Keputusan penanda aras ini telah disahkan dengan pantas oleh komuniti pembangun melalui ujian dunia sebenar. Perbincangan dalam talian, terutamanya di platform seperti Reddit, membandingkan Claude 3.7 dengan Grok 3 (model terkini daripada xAI Elon Musk), secara konsisten memihak kepada model Anthropic untuk tugas pengekodan. Seorang pengulas teratas merumuskan sentimen itu: “Berdasarkan apa yang telah saya uji, Claude 3.7 nampaknya yang terbaik untuk menulis kod (sekurang-kurangnya untuk saya).” Adalah sangat penting untuk diperhatikan bahawa Manus, ejen pelbagai guna China baharu yang mengejutkan dunia awal minggu ini, mengatakan ia lebih baik daripada Deep Research Open AI dan tugas autonomi lain, sebahagian besarnya dibina di atas Claude.

Fokus Strategik: Permainan Perusahaan Anthropic

Fokus Anthropic yang tidak berbelah bahagi pada keupayaan pengekodan bukanlah secara kebetulan. Unjuran yang bocor yang dilaporkan oleh The Information mencadangkan bahawa Anthropic menyasarkan $34.5 bilion hasil yang mengejutkan menjelang 2027. Ini mewakili peningkatan 86 kali ganda daripada tahap semasanya. Sebahagian besar (kira-kira 67%) daripada unjuran hasil ini dijangka berpunca daripada perniagaan API, dengan aplikasi pengekodan perusahaan berfungsi sebagai enjin pertumbuhan utama. Walaupun Anthropic tidak mendedahkan angka hasil yang tepat, ia telah melaporkan lonjakan 1,000% yang luar biasa dalam hasil pengekodan pada suku terakhir 2024. Menambah momentum kewangan ini, Anthropic baru-baru ini mengumumkan pusingan pembiayaan $3.5 bilion, menilai syarikat itu pada $61.5 bilion yang mengagumkan.

Strategi berpusatkan pengekodan ini sejajar dengan penemuan Indeks Ekonomi Anthropic sendiri. Indeks itu mendedahkan bahawa 37.2% pertanyaan yang ketara yang ditujukan kepada Claude termasuk dalam kategori “komputer dan matematik”. Pertanyaan ini terutamanya merangkumi tugas kejuruteraan perisian seperti pengubahsuaian kod, penyahpepijatan dan penyelesaian masalah rangkaian.

Pendekatan Anthropic menonjol di tengah-tengah landskap persaingan, di mana pesaing sering terperangkap dalam pusaran aktiviti, cuba memenuhi keperluan pasaran perusahaan dan pengguna dengan pelbagai ciri. OpenAI, walaupun mengekalkan pendahuluan yang kukuh kerana pengiktirafan dan penggunaan penggunanya yang awal, menghadapi cabaran untuk melayani pengguna biasa dan perniagaan dengan pelbagai model dan fungsi. Google, begitu juga, sedang meneruskan strategi menawarkan portfolio produk yang luas.

Pendekatan Anthropic yang agak berdisiplin juga dicerminkan dalam keputusan produknya. Daripada mengejar bahagian pasaran pengguna, syarikat itu telah mengutamakan ciri gred perusahaan seperti integrasi GitHub, log audit, kebenaran yang boleh disesuaikan dan kawalan keselamatan khusus domain. Enam bulan sebelumnya, ia memperkenalkan tetingkap konteks 500,000 token yang besar untuk pembangun, berbeza dengan keputusan Google untuk mengehadkan tetingkap 1 juta tokennya kepada penguji peribadi. Fokus strategik ini telah menghasilkan tawaran yang komprehensif dan berpusatkan pengekodan yang semakin bergema dengan perusahaan.

Pengenalan ciri-ciri syarikat baru-baru ini yang membolehkan bukan pengekod menerbitkan aplikasi yang dijana AI dalam organisasi mereka, ditambah dengan peningkatan konsol minggu lepas yang menampilkan keupayaan kerjasama yang dipertingkatkan (termasuk gesaan dan templat yang boleh dikongsi), terus menggambarkan trend ini. Pendemokrasian ini mencerminkan strategi ‘Trojan Horse’: pada mulanya memperkasakan pembangun untuk membina asas yang kukuh, diikuti dengan meluaskan akses kepada tenaga kerja perusahaan yang lebih luas, akhirnya mencapai suite korporat.

Percubaan Praktikal dengan Claude: Eksperimen Praktikal

Untuk menilai keupayaan dunia sebenar ejen pengekodan ini, eksperimen praktikal telah dijalankan, memfokuskan pada membina pangkalan data untuk menyimpan artikel. Tiga pendekatan berbeza telah digunakan: Claude 3.7 Sonnet melalui aplikasi Anthropic, ejen pengekodan Cursor, dan Claude Code.

Menggunakan Claude 3.7 secara langsung melalui aplikasi Anthropic, panduan yang diberikan adalah sangat berwawasan, terutamanya bagi seseorang yang tidak mempunyai pengalaman pengekodan yang luas. Model itu membentangkan beberapa pilihan, daripada penyelesaian teguh yang menggunakan pangkalan data PostgreSQL kepada alternatif yang lebih ringan seperti Airtable. Memilih penyelesaian yang ringan, Claude secara metodis membimbing proses mengekstrak artikel daripada API dan menyepadukannya ke dalam Airtable menggunakan perkhidmatan penyambung. Walaupun proses itu mengambil masa kira-kira dua jam, terutamanya disebabkan oleh cabaran pengesahan, ia memuncak dalam sistem yang berfungsi. Pada asasnya, daripada menulis semua kod secara autonomi, Claude menyediakan pelan tindakan yang komprehensif untuk mencapai hasil yang diinginkan.

Cursor, dengan pergantungan lalainya pada model Claude, membentangkan pengalaman editor kod yang lengkap dan mempamerkan kecenderungan yang lebih besar ke arah automasi. Walau bagaimanapun, ia memerlukan kebenaran pada setiap langkah, menghasilkan aliran kerja yang agak berulang.

Claude Code menawarkan pendekatan yang berbeza, beroperasi secara langsung dalam terminal dan menggunakan SQLite untuk mencipta pangkalan data tempatan yang diisi dengan artikel daripada suapan RSS. Penyelesaian ini terbukti lebih mudah dan lebih dipercayai dalam mencapai matlamat akhir, walaupun kurang teguh dan kaya dengan ciri berbanding pelaksanaan Airtable. Ini menyerlahkan pertukaran yang wujud dan menggariskan kepentingan memilih ejen pengekodan berdasarkan keperluan projek tertentu.

Pengajaran utama daripada eksperimen ini ialah walaupun sebagai bukan pembangun, adalah mungkin untuk membina aplikasi pangkalan data yang berfungsi menggunakan ketiga-tiga pendekatan. Ini hampir tidak dapat dibayangkan setahun yang lalu. Dan, terutamanya, ketiga-tiga pendekatan bergantung pada keupayaan asas Claude.

Ekosistem Ejen Pengekodan: Cursor dan Seterusnya

Mungkin petunjuk kejayaan Anthropic yang paling menarik ialah pertumbuhan pesat Cursor, editor kod AI. Laporan menunjukkan bahawa Cursor telah mengumpulkan 360,000 pengguna, dengan lebih 40,000 daripadanya adalah pelanggan yang membayar, dalam masa 12 bulan sahaja. Trajektori pertumbuhan pesat ini berpotensi meletakkan Cursor sebagai syarikat SaaS terpantas untuk mencapai kejayaan itu.

Kejayaan Cursor berkait rapat dengan Claude. Seperti yang diperhatikan oleh Sam Witteveen, pengasas bersama Red Dragon (pembangun bebas ejen AI), “Anda perlu fikir pelanggan nombor satu mereka ialah Cursor. Kebanyakan orang di [Cursor] sudah menggunakan model Claude Sonnet — model 3.5 —. Dan kini nampaknya semua orang hanya berhijrah ke 3.7.”

Hubungan antara Anthropic dan ekosistemnya melangkaui syarikat individu seperti Cursor. Pada bulan November, Anthropic memperkenalkan Model Context Protocol (MCP) sebagai standard terbuka, membolehkan pembangun membina alat yang berinteraksi dengan lancar dengan model Claude. Piawaian ini telah mendapat penggunaan meluas dalam komuniti pembangun.

Witteveen menjelaskan kepentingan pendekatan ini: “Dengan melancarkan ini sebagai protokol terbuka, mereka seolah-olah berkata, ‘Hei, semua orang, silakan. Anda boleh membangunkan apa sahaja yang anda mahu yang sesuai dengan protokol ini. Kami akan menyokong protokol ini.’”

Strategi ini mewujudkan kitaran yang mulia: pembangun membina alat khusus untuk Claude, meningkatkan cadangan nilainya untuk perusahaan, yang seterusnya memacu penggunaan selanjutnya dan menarik lebih ramai pembangun.

Landskap Persaingan: Microsoft, OpenAI, Google, dan Sumber Terbuka

Walaupun Anthropic telah mengukir niche dengan pendekatan tertumpunya, pesaing sedang meneruskan pelbagai strategi dengan pelbagai tahap kejayaan.

Microsoft mengekalkan kedudukan yang kukuh melalui GitHub Copilotnya, yang mempunyai 1.3 juta pengguna berbayar dan penggunaan oleh lebih 77,000 organisasi dalam masa kira-kira dua tahun. Syarikat terkemuka seperti Honeywell, State Street, TD Bank Group, dan Levi’s adalah antara penggunanya. Penggunaan meluas ini sebahagian besarnya dikaitkan dengan hubungan perusahaan Microsoft yang sedia ada dan kelebihan penggerak pertamanya, berpunca daripada pelaburan awalnya dalam OpenAI dan penggunaan model OpenAI untuk memperkasakan Copilot.

Walau bagaimanapun, Microsoft sendiri telah mengakui kekuatan Anthropic. Pada bulan Oktober, ia membolehkan pengguna GitHub Copilot memilih model Anthropic sebagai alternatif kepada tawaran OpenAI. Tambahan pula, model OpenAI baru-baru ini, o1 dan o3 yang lebih baharu (yang menekankan penaakulan melalui pemikiran lanjutan), tidak menunjukkan kelebihan tertentu dalam pengekodan atau tugas ejentik.

Google telah membuat langkahnya sendiri dengan menawarkan Code Assist secara percuma baru-baru ini, tetapi ini kelihatan lebih kepada gerakan bertahan daripada inisiatif strategik.

Pergerakan sumber terbuka mewakili satu lagi kuasa penting dalam landskap ini. Model Llama Meta telah mendapat daya tarikan perusahaan yang besar, dengan syarikat utama seperti AT&T, DoorDash, dan Goldman Sachs menggunakan model berasaskan Llama untuk pelbagai aplikasi. Pendekatan sumber terbuka menyediakan perusahaan dengan kawalan yang lebih besar, pilihan penyesuaian dan faedah kos yang selalunya tidak dapat ditandingi oleh model tertutup.

Daripada melihat ini sebagai ancaman langsung, Anthropic nampaknya meletakkan dirinya sebagai pelengkap kepada sumber terbuka. Pelanggan perusahaan boleh memanfaatkan Claude bersama-sama dengan model sumber terbuka bergantung pada keperluan khusus mereka, menggunakan pendekatan hibrid yang memaksimumkan kekuatan setiap satu.

Malah, banyak syarikat perusahaan berskala besar telah menggunakan pendekatan multimodal, menggunakan model mana yang paling sesuai untuk tugas yang diberikan. Intuit, contohnya, pada mulanya bergantung pada OpenAI sebagai lalai untuk aplikasi penyata cukainya tetapi kemudiannya beralih kepada Claude kerana prestasinya yang unggul dalam senario tertentu. Pengalaman ini membawa Intuit untuk membangunkan rangka kerja orkestrasi AI yang memudahkan pertukaran lancar antara model.

Kebanyakan syarikat perusahaan lain telah menggunakan amalan yang sama, menggunakan model yang paling sesuai untuk setiap kes penggunaan tertentu, selalunya menyepadukan model melalui panggilan API yang mudah. Walaupun model sumber terbuka seperti Llama mungkin sesuai dalam sesetengah keadaan, Claude selalunya merupakan pilihan utama untuk tugas yang memerlukan ketepatan tinggi, seperti pengiraan.

Implikasi Perusahaan: Menavigasi Peralihan kepada Ejen Pengekodan

Bagi pembuat keputusan perusahaan, landskap yang berkembang pesat ini memberikan peluang dan cabaran.

Keselamatan kekal menjadi kebimbangan utama, tetapi laporan bebas baru-baru ini mengenal pasti Claude 3.7 Sonnet sebagai model paling selamat setakat ini, sebagai satu-satunya yang diuji yang terbukti ‘kalis jailbreak’. Postur keselamatan ini, digabungkan dengan sokongan Anthropic daripada Google dan Amazon (dan penyepaduan ke dalam AWS Bedrock), meletakkannya dengan baik untuk penggunaan perusahaan.

Percambahan ejen pengekodan bukan sahaja mengubah cara aplikasi dibangunkan; ia mendemokrasikan proses itu. Menurut GitHub, 92% pembangun yang berpangkalan di A.S. di syarikat perusahaan sudah menggunakan alat pengekodan berkuasa AI di tempat kerja 18 bulan lalu. Angka ini mungkin telah meningkat dengan ketara sejak itu.

Witteveen menyerlahkan penyambungan jurang antara ahli pasukan teknikal dan bukan teknikal: “Cabaran yang dihadapi oleh orang ramai [kerana] bukan seorang pengekod ialah mereka tidak tahu banyak istilah. Mereka tidak tahu amalan terbaik.” Ejen pengekodan AI semakin menangani cabaran ini, membolehkan kerjasama yang lebih berkesan.

Untuk penggunaan perusahaan, Witteveen menyokong pendekatan yang seimbang: “Ia adalah keseimbangan antara keselamatan dan percubaan pada masa ini. Jelas sekali, di pihak pembangun, orang ramai mula membina aplikasi dunia sebenar dengan perkara ini.”

Kemunculan ejen pengekodan AI menandakan peralihan asas dalam pembangunan perisian perusahaan. Apabila digunakan dengan berkesan, alat ini tidak menggantikan pembangun tetapi sebaliknya mengubah peranan mereka, membolehkan mereka menumpukan pada seni bina dan inovasi dan bukannya butiran pelaksanaan.

Pendekatan berdisiplin Anthropic, memfokuskan secara khusus pada keupayaan pengekodan manakala pesaing mengejar pelbagai keutamaan, nampaknya menghasilkan kelebihan yang ketara. Menjelang akhir tahun 2025, tempoh ini mungkin dilihat secara retrospektif sebagai detik penting apabila ejen pengekodan AI menjadi alat perusahaan yang sangat diperlukan, dengan Claude menerajui.

Bagi pembuat keputusan teknikal, imperatifnya jelas: mulakan percubaan dengan alat ini dengan segera atau berisiko ketinggalan di belakang pesaing yang sudah memanfaatkannya untuk mempercepatkan kitaran pembangunan secara mendadak. Situasi ini mencerminkan zaman awal revolusi iPhone, di mana syarikat pada mulanya cuba menyekat peranti ‘tidak dibenarkan’ daripada rangkaian korporat mereka, hanya untuk akhirnya menerima pakai dasar BYOD apabila permintaan pekerja menjadi terlalu banyak. Sesetengah syarikat, seperti Honeywell, baru-baru ini cuba menutup penggunaan ‘nakal’ alat pengekodan AI yang tidakdiluluskan oleh IT.

Syarikat pintar sudah mewujudkan persekitaran kotak pasir yang selamat untuk memudahkan percubaan terkawal. Organisasi yang mewujudkan pagar yang jelas sambil memupuk inovasi akan meraih faedah daripada kedua-dua semangat pekerja dan pandangan tentang cara alat ini boleh memenuhi keperluan unik mereka dengan sebaiknya, meletakkan diri mereka di hadapan pesaing yang menentang perubahan. Dan Claude Anthropic, sekurang-kurangnya pada masa ini, adalah penerima utama pergerakan transformatif ini.