Dalam dunia pembangunan kecerdasan buatan (AI) yang tanpa henti dan sering kali legap, satu langkah penting ke arah kejelasan telah dibuat. Anthropic, sebuah firma penyelidikan yang diperkukuh oleh sokongan besar daripada Amazon, telah sedikit sebanyak menyelak tirai mengenai cara kerja dalaman model bahasa besar (LLMs) dengan lelaran terbarunya, Claude 3.7 Sonnet. Model ini bukan sekadar satu lagi kemas kini tambahan; ia mewakili potensi anjakan paradigma, memperkenalkan apa yang syarikat istilahkan sebagai sistem AI penaakulan hibrid perdana dunia. Implikasinya sangat meluas, menjanjikan bukan sahaja prestasi yang dipertingkatkan, terutamanya dalam domain kompleks seperti kejuruteraan perisian, tetapi juga dos ketelusan yang amat diperlukan ke dalam laluan membuat keputusan minda digital yang semakin berkuasa ini.
Inovasi teras terletak pada keupayaan Claude 3.7 Sonnet untuk menggabungkan dua mod operasi yang berbeza dengan lancar: penjanaan respons pantas yang biasanya dijangkakan daripada AI perbualan, dan keupayaan penaakulan yang lebih mendalam dan disengajakan. Dualiti ini menawarkan pengguna pendekatan dinamik, membolehkan mereka memilih antara jawapan hampir serta-merta untuk pertanyaan mudah dan melibatkan enjin analitikal yang lebih mendalam untuk tugas yang menuntut proses pemikiran yang rumit. Fleksibiliti ini bertujuan untuk mengoptimumkan pertukaran abadi antara kelajuan dan kedalaman kognitif, menyesuaikan profil prestasi AI kepada permintaan khusus tugas yang dihadapi.
Mengintai ke Dalam Mesin: Kemunculan ‘Visible Scratch Pad’
Mungkin ciri paling menarik yang diperkenalkan dengan Claude 3.7 Sonnet ialah Visible Scratch Pad. Selama bertahun-tahun, pengiraan dalaman LLMs sebahagian besarnya kekal tidak dapat difahami, beroperasi dalam ‘kotak hitam’ yang mengecewakan pembangun, penyelidik, dan pengguna yang ingin memahami bagaimana AI mencapai kesimpulan tertentu. Inovasi Anthropic secara langsung menghadapi kelegapan ini.
Ciri ini berfungsi, secara metafora, seperti membenarkan seorang pelajar menunjukkan kerja mereka pada masalah matematik yang kompleks. Apabila dibentangkan dengan pertanyaan mencabar yang memerlukan analisis pelbagai langkah, Claude 3.7 Sonnet kini boleh mengeksternalkan pemikiran perantaraan dan urutan logiknya. Pengguna memperoleh keupayaan untuk memerhatikan perwakilan rantaian penaakulan model, menyaksikan pemecahan masalah dan langkah-langkah yang diambil ke arah penyelesaian.
- Kepercayaan dan Penyahpepijatan yang Dipertingkatkan: Kebolehnampakan ini tidak ternilai untuk membina kepercayaan. Apabila pengguna boleh mengikuti logik AI, mereka lebih bersedia untuk menilai kesahihan outputnya. Bagi pembangun, ia menawarkan alat penyahpepijatan yang berkuasa, menjadikannya lebih mudah untuk mengenal pasti di mana penaakulan mungkin tersasar atau di mana bias mungkin menyelinap masuk.
- Nilai Pendidikan dan Interpretasi: Memahami ‘mengapa’ di sebalik jawapan AI boleh menjadi sama pentingnya dengan jawapan itu sendiri, terutamanya dalam konteks pendidikan atau penyelidikan. ‘Scratch pad’ memberikan pandangan tentang strategi penyelesaian masalah model.
- Menavigasi Kerumitan: Untuk tugas yang melibatkan analisis data yang rumit, deduksi logik, atau penyelesaian masalah kreatif, memerhatikan proses pemikiran AI boleh membantu pengguna memperhalusi gesaan mereka atau membimbing model dengan lebih berkesan.
Walau bagaimanapun, adalah penting untuk ambil perhatian bahawa ketelusan ini tidak mutlak. Anthropic mengakui bahawa langkah-langkah tertentu dalam ‘scratch pad’ mungkin disunting atau dipermudahkan, terutamanya untuk pertimbangan keselamatan atau untuk melindungi elemen proprietari seni bina model. Namun begitu, langkah ke arah kebolehlihatan separa sekalipun menandakan penyingkiran yang signifikan daripada sifat operasi LLM yang secara tradisinya tertutup.
Menala Enjin: Kawalan Pembangun dan Pertimbangan Ekonomi
Melengkapi ketelusan yang dihadapi pengguna ialah lapisan kawalan baharu yang diberikan kepada pembangun. Anthropic telah memperkenalkan mekanisme skala gelangsar (sliding scale mechanism), yang diuruskan melalui antara muka berasaskan token, yang membolehkan pembangun memodulasi ‘bajet penaakulan’ yang diperuntukkan kepada model untuk sebarang tugas tertentu.
Ciri ini mengakui realiti praktikal penggunaan AI pada skala. Penaakulan mendalam, pelbagai langkah adalah mahal dari segi pengiraan. Tidak setiap tugas memerlukan kuasa analitikal penuh model. Dengan menyediakan cara untuk melaraskan sumber yang diperuntukkan, pembangun boleh mencapai keseimbangan yang disengajakan antara kualiti atau kedalaman output yang diingini dan kos pengiraan yang berkaitan (dan, akibatnya, perbelanjaan kewangan).
- Mengoptimumkan Peruntukan Sumber: Perusahaan kini boleh membuat keputusan yang lebih terperinci tentang penggunaan AI. Tugas mudah boleh diproses dengan bajet penaakulan minimum, menjimatkan sumber, manakala analisis strategik yang kompleks boleh memanfaatkan kedalaman penuh keupayaan model.
- Kebolehskalaan dan Pengurusan Kos: Kawalan ini penting untuk organisasi yang ingin mengintegrasikan AI canggih ke dalam aliran kerja yang pelbagai tanpa menanggung kos operasi yang melampau. Ia membolehkan belanjawan dan perancangan sumber yang lebih boleh diramal untuk inisiatif AI.
- Prestasi Aplikasi Tersuai: Aplikasi yang berbeza mempunyai keperluan yang berbeza. ‘Chatbot’ perkhidmatan pelanggan mungkin mengutamakan kelajuan dan kecekapan kos, manakala alat penyelidikan saintifik mungkin mengutamakan ketepatan dan kedalaman melebihi segalanya. Skala gelangsar membolehkan penyesuaian ini.
Fleksibiliti ekonomi dan operasi ini boleh terbukti menjadi pembeza utama dalam landskap AI yang kompetitif, menarik terutamanya kepada perniagaan yang mencari penyelesaian AI yang praktikal dan boleh skala.
Dominasi dalam Tempaan Digital: Cemerlang dalam Penjanaan Kod
Keupayaan Claude 3.7 Sonnet melangkaui penaakulan teori dan ketelusan; ia diterjemahkan kepada peningkatan prestasi yang ketara, terutamanya dalam bidang pengekodan dan pembangunan perisian yang mencabar. Anthropic telah mengeluarkan hasil penanda aras yang menunjukkan kelebihan jelas berbanding pesaing, khususnya model o3-mini OpenAI, dalam tugas-tugas utama untuk pengaturcaraan moden.
Pada ujian pengekodan SWE-Bench, penilaian ketat yang direka untuk menilai keupayaan menyelesaikan isu GitHub dunia sebenar, Claude 3.7 Sonnet mencapai ketepatan 62.3% yang mengagumkan. Angka ini jauh mengatasi ketepatan 49.3% yang dilaporkan bagi model setanding OpenAI. Ini menunjukkan kecekapan yang lebih tinggi dalam memahami konteks kod, mengenal pasti pepijat, dan menjana tampalan kod yang betul – kemahiran yang sangat dihargai dalam kejuruteraan perisian.
Tambahan pula, dalam bidang aliran kerja ejen (agentic workflows), yang melibatkan sistem AI secara autonomi melaksanakan urutan tindakan, Claude 3.7 Sonnet juga menunjukkan prestasi unggul. Pada TAU-Bench, ia memperoleh skor 81.2%, berbanding 73.5% OpenAI. Penanda aras ini menguji keupayaan model untuk berinteraksi dengan alat, API, dan persekitaran digital untuk menyelesaikan tugas kompleks, membayangkan ejen AI yang lebih berkebolehan dan boleh dipercayai untuk automasi.
- Implikasi untuk Pembangunan Perisian: Ketepatan yang lebih tinggi dalam penanda aras pengekodan diterjemahkan secara langsung kepada potensi peningkatan produktiviti untuk pembangun. Pembantu AI seperti Claude boleh menjadi rakan kongsi yang lebih dipercayai dalam menulis, menyahpepijat, dan menyelenggara pangkalan kod.
- Memajukan Keupayaan Ejen: Prestasi kukuh pada TAU-Bench menekankan fokus Anthropic dalam membina sistem AI yang lebih autonomi. Keupayaan ini penting untuk merealisasikan visi ejen AI yang boleh menguruskan tugas kompleks, pelbagai langkah dengan campur tangan manusia yang minimum.
- Penanda Aras Kompetitif: Keputusan ini meletakkan Anthropic dengan kukuh dalam ‘perlumbaan senjata AI’ yang sedang berlangsung, terutamanya dalam bidang penjanaan kod dan alat pembangunan yang penting secara komersial.
Membayangkan Semula Seni Bina: Melangkaui Paradigma Kotak Hitam
Selama beberapa dekad, seni bina lazim bagi banyak model AI canggih menyumbang kepada sifat ‘kotak hitam’ mereka. Selalunya, laluan pemprosesan yang lebih mudah dan pantas dikendalikan secara berasingan daripada tugas penaakulan yang lebih kompleks dan intensif sumber. Pemisahan ini boleh membawa kepada ketidakcekapan dan menyukarkan pemahaman holistik. Kejayaan Anthropic dengan Claude 3.7 Sonnet sebahagiannya berpunca daripada reka bentuk semula asas seni bina ini.
Dario Amodei, CEO Anthropic, mengartikulasikan anjakan ini dengan jelas: ‘Kami telah bergerak melangkaui menganggap penaakulan sebagai keupayaan berasingan—ia kini merupakan bahagian lancar fungsi teras model.’ Kenyataan ini menunjukkan seni bina penaakulan bersepadu (integrated reasoning architecture). Daripada mengalihkan masalah kompleks ke modul khusus, keupayaan penaakulan mendalam ditenun ke dalam fabrik model teras.
Penyatuan ini menawarkan beberapa kelebihan berpotensi:
- Peralihan Lebih Lancar: Model berpotensi beralih antara respons pantas dan pemikiran mendalam dengan lebih lancar, tanpa overhed memanggil sistem yang berasingan.
- Konteks Holistik: Mengekalkan penaakulan bersepadu mungkin membolehkan model mengekalkan konteks dan koheren yang lebih baik merentas mod operasi yang berbeza.
- Peningkatan Kecekapan: Walaupun penaakulan mendalam kekal intensif, mengintegrasikannya mungkin membuka kunci kecekapan seni bina berbanding mengurus sistem yang berbeza.
Falsafah seni bina ini sejajar dengan kemajuan Anthropic dalam AI ejen (agentic AI). Membina ciri Computer Use mereka, yang diperkenalkan pada awal 2024, yang membolehkan model Claude berinteraksi dengan aplikasi perisian sama seperti pengguna manusia (mengklik butang, memasukkan teks), model baharu ini meningkatkan keupayaan ini. Penaakulan yang dipertingkatkan dan seni bina bersepadu berkemungkinan menyumbang kepada kejayaan penanda aras yang dilihat dalam aliran kerja ejen.
Jared Kaplan, Ketua Saintis Anthropic, menekankan trajektori perkembangan ini, menonjolkan bahawa ejen AI masa depan yang dibina di atas asas ini akan menjadi semakin mahir dalam menggunakan pelbagai alat dan menavigasi persekitaran digital yang dinamik dan tidak dapat diramalkan. Matlamatnya adalah untuk mencipta ejen yang bukan sahaja boleh mengikut arahan tetapi juga menyusun strategi dan menyesuaikan diri untuk mencapai objektif yang kompleks.
Papan Catur Strategik: Persaingan dan Trajektori Masa Depan
Pelancaran Claude 3.7 Sonnet tidak berlaku dalam vakum. Ia tiba di tengah-tengah persaingan sengit, terutamanya dengan OpenAI, yang dijangka secara meluas akan mengeluarkan model generasi seterusnya, GPT-5. Pemerhati industri membuat spekulasi bahawa GPT-5 mungkin juga menggabungkan satu bentuk penaakulan hibrid, menjadikan keluaran semasa Anthropic sebagai langkah strategik yang tepat pada masanya untuk mewujudkan kelebihan awal.
Dengan meletakkan model hibrid dengan ketelusan yang dipertingkatkan dan kawalan pembangun ke pasaran sekarang, Anthropic mencapai beberapa matlamat:
- Menawan Perhatian (Mindshare): Ia meletakkan syarikat sebagai inovator, terutamanya dalam bidang penting penaakulan, ketelusan, dan keupayaan ejen.
- Mengumpul Data Dunia Sebenar: Penggunaan awal membolehkan Anthropic mengumpul data berharga tentang cara pengguna dan pembangun berinteraksi dengan ciri baharu ini, memaklumkan penambahbaikan masa depan.
- Menetapkan Penanda Aras: Hasil penanda aras pengekodan yang mengagumkan menetapkan penanda aras yang tinggi untuk dipenuhi atau diatasi oleh pesaing.
Penekanan pada ciri seperti ‘visible scratch pad’ dan ‘reasoning budget slider’ juga sejajar dengan trend dan permintaan yang muncul:
- AI Boleh Dijelaskan (Explainable AI - XAI): Apabila sistem AI menjadi lebih bersepadu ke dalam infrastruktur kritikal dan proses membuat keputusan (dalam kewangan, penjagaan kesihatan, undang-undang, dll.), badan kawal selia di seluruh dunia (seperti EU dengan Akta AI - AI Act) semakin menuntut ketelusan dan kebolehtafsiran. ‘Scratch pad’ secara langsung menangani keperluan untuk AI yang boleh dijelaskan ini.
- Kebolehlaksanaan Ekonomi: Fokus pada kecekapan kos melalui ‘reasoning budget slider’ menjadikan AI canggih lebih mudah diakses dan praktikal untuk rangkaian perniagaan yang lebih luas, bergerak melangkaui penggunaan eksperimen ke arah integrasi operasi yang boleh skala.
Memandang ke hadapan, Anthropic telah menggariskan pelan hala tuju yang jelas untuk membina di atas asas yang diletakkan oleh Claude 3.7 Sonnet:
- Keupayaan Kod Perusahaan: Pengembangan lanjut Claude Codedirancang, bertujuan untuk menyediakan alat yang lebih berkuasa dan disesuaikan khusus untuk pasukan pembangunan perisian perusahaan.
- Kawalan Penaakulan Automatik: Syarikat berhasrat untuk membangunkan mekanisme yang boleh menentukan secara automatik tempoh atau kedalaman penaakulan optimum yang diperlukan untuk tugas tertentu, berpotensi menghapuskan keperluan untuk pelarasan manual melalui ‘slider’ dalam banyak kes.
- Integrasi Multimodal: Lelaran masa depan akan memberi tumpuan kepada mengintegrasikan jenis input yang pelbagai dengan lancar, seperti imej, data daripada API, dan berpotensi data sensor lain, membolehkan Claude mengendalikan spektrum aliran kerja dunia sebenar yang kompleks yang lebih luas yang memerlukan pemahaman dan sintesis maklumat daripada pelbagai sumber.
Jared Kaplan menawarkan gambaran sekilas tentang visi jangka panjang, mencadangkan kadar pembangunan yang pesat: ‘Ini hanyalah permulaan,’ katanya. ‘Menjelang 2026, ejen AI akan mengendalikan tugas dengan lancar seperti manusia, daripada penyelidikan saat akhir hingga mengurus keseluruhan pangkalan kod.’ Ramalan bercita-cita tinggi ini menggariskan kepercayaan bahawa peningkatan seni bina dan keupayaan yang dilihat dalam Claude 3.7 Sonnet adalah batu loncatan ke arah sistem AI yang benar-benar autonomi dan sangat berkebolehan yang boleh membentuk semula kerja pengetahuan dan interaksi digital secara asas dalam beberapa tahun akan datang. Perlumbaan sedang berjalan, dan Anthropic baru sahaja membuat langkah yang sangat signifikan.