Adakah Google Cipta Alat AI Terbaik Pembangunan Perisian?

Satu potensi perubahan besar sedang berlaku dalam domain khusus kecerdasan buatan yang disesuaikan untuk tugas pengekodan. Untuk tempoh yang agak lama, model yang dibangunkan oleh Anthropic, terutamanya siri Claude mereka, sering disebut sebagai peneraju dalam membantu pembangun menulis, menyahpepijat, dan memahami kod. Walau bagaimanapun, perkembangan terkini menunjukkan pencabar baharu yang hebat telah memasuki arena: Gemini 2.5 Google. Petunjuk awal, termasuk prestasi penanda aras dan maklum balas awal pembangun, menunjukkan lelaran terkini ini berpotensi mentakrifkan semula standard untuk bantuan pengekodan berkuasa AI, menimbulkan persoalan sama ada hierarki yang sedia ada akan disusun semula. Kemunculan Gemini 2.5 Pro Experimental, khususnya, mencetuskan perbincangan dan perbandingan sengit dalam komuniti pembangun.

Kehebatan Penanda Aras: Kelebihan Kuantitatif?

Metrik objektif sering memberikan gambaran pertama tentang keupayaan model baharu, dan dalam hal ini, Gemini 2.5 telah membuat kemasukan yang signifikan. Satu penilaian yang sangat relevan ialah papan pendahulu Aider Polyglot, penanda aras yang direka dengan teliti untuk menilai kecekapan model bahasa besar (LLM) dalam tugas praktikal menjana kod baharu dan mengubah suai pangkalan kod sedia ada merentasi pelbagai bahasa pengaturcaraan. Dalam penilaian yang mencabar ini, versi eksperimen Gemini 2.5 Pro mencapai skor yang luar biasa iaitu 72.9%. Angka ini meletakkannya jauh di hadapan pesaing kuat, termasuk Claude 3.7 Sonnet Anthropic, yang mencatatkan 64.9%. Ia juga mengatasi tawaran daripada OpenAI, seperti model o1 (61.7%) dan varian tinggi o3-mini (60.4%). Kelebihan sedemikian dalam penanda aras khusus pengekodan adalah hujah kuantitatif yang kuat untuk kebolehan Gemini 2.5 dalam bidang ini.

Di luar penilaian berpusatkan pengekodan, Gemini 2.5 telah menunjukkan prestasi luar biasa dalam ujian penaakulan dan aplikasi pengetahuan yang lebih luas. Ia memperoleh kedudukan teratas dalam penanda aras GPQA (Graduate-Level Google-Proof Q&A), ujian ketat yang mencabar model AI dengan soalan kompleks merangkumi pelbagai disiplin saintifik yang biasanya ditemui di peringkat pengajian siswazah. Gemini 2.5 mencapai skor 83% pada penanda aras ini. Prestasi ini mengatasi model o1-Pro OpenAI, yang mendapat skor 79%, dan Claude 3.7 Sonnet Anthropic, mencapai 77% walaupun menggunakan teknik masa pemikiran lanjutan. Kedudukan tinggi yang konsisten merentasi pelbagai penanda aras, termasuk yang menguji penaakulan umum di samping kemahiran khusus seperti pengekodan, mencadangkan seni bina asas yang teguh dan serba boleh. Gabungan keupayaan pengekodan khusus dan kapasiti intelektual yang luas ini boleh menjadi pembeza utama bagi pembangun yang mencari pembantu AI yang komprehensif.

Pujian Pembangun dan Pengesahan Dunia Sebenar

Walaupun penanda aras menawarkan pandangan kuantitatif yang berharga, ujian sebenar pembantu pengekodan AI terletak pada aplikasi praktikalnya oleh pembangun yang menangani projek dunia sebenar. Laporan awal dan testimoni menunjukkan bahawa Gemini 2.5 bukan sahaja berprestasi baik dalam ujian terkawal tetapi juga mengagumkan pengguna dalam aliran kerja harian mereka. Mckay Wrigley, seorang pembangun yang aktif bereksperimen dengan model baharu itu, menawarkan sokongan padu, menyatakan dengan tegas, ‘Gemini 2.5 Pro kini dengan mudah adalah model terbaik untuk kod.’ Pemerhatiannya melangkaui penjanaan kod semata-mata; beliau menonjolkan contoh di mana model itu menunjukkan apa yang disebutnya ‘kilauan kecemerlangan sejati.’ Tambahan pula, Wrigley menunjukkan ciri yang berpotensi penting: model itu tidak hanya bersetuju dengan gesaan pengguna tetapi terlibat secara lebih kritikal, mencadangkan tahap pemahaman atau penaakulan simulasi yang lebih mendalam. Kesimpulannya adalah tegas: ‘Google telah menyampaikan pemenang sebenar di sini.’

Sentimen positif ini nampaknya dikongsi oleh orang lain, terutamanya apabila membuat perbandingan langsung dengan Claude 3.7 Sonnet Anthropic yang sangat dihormati. Ramai pembangun mendapati bahawa pengalaman praktikal mereka sejajar dengan keputusan penanda aras yang memihak kepada Gemini 2.5. Satu akaun ilustratif muncul daripada pengguna di Reddit yang memperincikan perjuangan mereka membina aplikasi selama beberapa jam menggunakan Claude 3.7 Sonnet. Hasilnya, menurut pengguna, sebahagian besarnya adalah kod tidak berfungsi yang dibelenggu oleh amalan keselamatan yang lemah, seperti membenamkan kunci API secara langsung dalam kod (hardcoding). Kecewa, pembangun itu beralih kepada Gemini 2.5. Mereka memberikan keseluruhan pangkalan kod cacat yang dijana oleh Claude sebagai input. Gemini 2.5 dilaporkan bukan sahaja mengenal pasti kelemahan kritikal dan menjelaskannya dengan jelas tetapi juga meneruskan untuk menulis semula keseluruhan aplikasi, menghasilkan versi yang berfungsi dan lebih selamat. Anekdot ini menekankan potensi Gemini 2.5 untuk mengendalikan tugas penyahpepijatan dan pemfaktoran semula yang kompleks dengan berkesan.

Ujian perbandingan lanjut telah memberi tumpuan kepada aspek pembangunan yang berbeza. Dalam satu contoh yang didokumenkan di platform sosial X, seorang pengguna mengadu Gemini 2.5 menentang Claude 3.7 Sonnet dalam tugas visual: mencipta semula antara muka pengguna (UI) ChatGPT. Menurut penilaian pengguna, Gemini 2.5 menghasilkan perwakilan visual yang lebih tepat bagi UI sasaran berbanding rakan sejawatannya dari Anthropic. Walaupun replikasi UI hanyalah satu aspek pembangunan, ketepatan dalam tugas sedemikian boleh menunjukkan perhatian terperinci model dan keupayaannya untuk menterjemahkan penerangan atau contoh kompleks kepada output yang ketara.

Penambahbaikan bukan sahaja relatif kepada pesaing tetapi juga mewakili kemajuan yang signifikan berbanding model Google sendiri sebelum ini. Pembangun Alex Mizrahi berkongsi pengalaman yang menonjolkan kemajuan dalaman ini. Beliau menggunakan Gemini 2.5 dan mendapati ia boleh mengingat kira-kira 80-90% sintaks untuk Rell (bahasa pengaturcaraan khusus) semata-mata daripada pangkalan pengetahuan dalamannya. Ini menandakan lonjakan besar ke hadapan daripada versi Gemini terdahulu, yang, menurut Mizrahi, bergelut dengan ketara dengan sintaks Rell walaupun diberikan contoh secara eksplisit dalam gesaan. Ini menunjukkan penambahbaikan dalam data latihan asas model dan keupayaan mengingat kembali untuk bahasa atau sintaks yang kurang biasa.

Pengekodan Kolaboratif dan Kelebihan Kontekstual

Di luar penjanaan kod mentah dan ketepatan, gaya interaksi dan kapasiti kontekstual model AI memberi kesan ketara kepada utilitinya sebagai rakan kongsi pengekodan. Pengguna melaporkan rasa lebih kolaboratif apabila bekerja dengan Gemini 2.5. Pembangun Matthew Berman menyatakan tingkah laku yang berbeza di X: ‘Ia (Gemini 2.5 Pro) bertanya soalan penjelasan kepada saya sepanjang jalan, yang tidak pernah dilakukan oleh model lain.‘ Beliau menafsirkannya sebagai menjadikan interaksi ‘jauh lebih‘ kolaboratif. Penglibatan proaktif ini—mencari penjelasan dan bukannya membuat andaian—boleh membawa kepada hasil yang lebih tepat, mengurangkan lelaran, dan berpotensi mencegah salah faham, terutamanya dalam tugas yang kompleks atau ditakrifkan secara samar-samar yang sering dihadapi dalam ‘pengekodan vibe’ di mana pembangun mempunyai idea umum tetapi bukan spesifikasi yang tepat.

Faktor teknikal utama yang menyumbang kepada potensi keunggulan Gemini 2.5 dalam senario pengekodan kompleks ialah tingkap konteksnya yang luas. Model ini mempunyai sokongan sehingga 1 juta token input. Ini mewakili kelebihan besar berbanding pesaing semasa. Model terkemuka OpenAI, o1 dan o3-mini, kini menyokong tingkap konteks sebanyak 250,000 token. Walaupun Anthropic dilaporkan sedang berusaha untuk mengembangkan tingkap konteksnya, berpotensi kepada 500,000 token, keupayaan semasa Gemini 2.5 jauh mengatasi angka-angka ini.

Mengapakah tingkap konteks yang besar begitu penting untuk pengekodan? Pembangunan perisian moden sering melibatkan kerja dengan pangkalan kod yang luas, berbilang fail, kebergantungan yang rumit, dan sejarah perubahan yang panjang. Model dengan tingkap konteks yang lebih besar boleh menelan dan memproses lebih banyak maklumat sekeliling ini secara serentak. Ini membolehkannya mengekalkan konsistensi yang lebih baik merentasi projek besar, memahami hubungan kompleks antara modul kod yang berbeza, menjejaki penggunaan pembolehubah dan definisi fungsi merentasi fail, dan berpotensi menjana kod yang berintegrasi dengan lebih lancar ke dalam struktur sedia ada tanpa memerlukan pembangun untuk sentiasa memasukkan cebisan konteks yang relevan secara manual. Untuk tugas seperti pemfaktoran semula berskala besar, memahami sistem legasi, atau membangunkan ciri yang menyentuh banyak bahagian aplikasi, tingkap konteks sejuta token boleh menjadi pengubah permainan, mengurangkan ralat dan meningkatkan kualiti serta relevansi sumbangan AI.

Ketidaksempurnaan yang Masih Ada dan Keperluan Pengawasan

Walaupun kemajuan yang mengagumkan dan maklum balas positif, adalah penting untuk mengekalkan perspektif: Gemini 2.5, terutamanya dalam penetapan ‘Pro Experimental’ semasanya, bukanlah oracle pengekodan yang sempurna. Ia masih menunjukkan beberapa cabaran klasik dan potensi perangkap yang berkaitan dengan penggunaan model bahasa besar untuk pembangunan perisian. Keperluan asas untuk pertimbangan manusia dan pengawasan yang tekun kekal mutlak.

Satu bidang kebimbangan utama terus menjadi keselamatan. Pembangun Kaden Bilyeu berkongsi contoh di X di mana Gemini 2.5 cuba menjana kod yang akan mencipta API sisi klien untuk mengendalikan respons sembang. Pendekatan ini sememangnya tidak selamat kerana ia pasti akan membawa kepada pendedahan atau kebocoran kunci API dalam kod sisi klien, menjadikannya boleh diakses oleh pengguna akhir. Ini menonjolkan bahawa walaupun model canggih boleh kekurangan pemahaman asas tentang amalan terbaik keselamatan, berpotensi memperkenalkan kelemahan kritikal jika outputnya dipercayai secara membuta tuli. Pembangun mesti menyemak kod yang dijana AI dengan teliti, terutamanya mengenai pengesahan, kebenaran, dan pengendalian data.

Tambahan pula, keupayaan model untuk mengurus pangkalan kod yang sangat besar dengan berkesan telah menerima ulasan bercampur-campur, menunjukkan tingkap konteksnya yang mengagumkan mungkin tidak selalu diterjemahkan dengan sempurna kepada prestasi praktikal di bawah beban berat. Pembangun Louie Bacaj melaporkan perjuangan yang signifikan apabila menugaskan Gemini 2.5 dengan operasi pada pangkalan kod yang terdiri daripada kira-kira 3,500 baris kod. Bacaj menyatakan bahawa walaupun penambahbaikan yang dikatakan model dalam pengendalian konteks dan panggilan API yang berjaya menunjukkan konteks telah diterima, ia sering gagal melaksanakan tugas yang diminta dengan tepat atau komprehensif dalam skop projek yang lebih besar ini. Ini menunjukkan potensi batasan dalam menggunakan keseluruhan tingkap konteks secara berkesan untuk penaakulan kompleks atau tugas manipulasi dalam kod sedia ada yang besar, atau mungkin ketidakkonsistenan dalam prestasi bergantung pada sifat khusus kod dan tugas tersebut.

Label ‘Experimental’ yang dilampirkan pada versi Gemini 2.5 Pro yang tersedia pada masa ini juga penting. Ia menandakan bahawa Google masih aktif memperhalusi model tersebut. Pengguna harus menjangkakan potensi ketidakstabilan, variasi dalam prestasi, dan perubahan berterusan semasa Google mengumpul maklum balas dan mengulangi teknologi tersebut. Walaupun fasa ini membolehkan akses awal kepada keupayaan canggih, ia juga bermakna model itu mungkin belum memiliki kebolehpercayaan penuh atau kemasan yang diharapkan daripada keluaran pengeluaran akhir. Penambahbaikan berterusan mungkin berlaku, tetapi pengguna semasa secara berkesan mengambil bahagian dalam ujian beta berskala besar. Ketidaksempurnaan ini menekankan peranan pembangun manusia yang tidak boleh diganti dalam gelung – bukan sahaja untuk menangkap ralat, tetapi untuk keputusan seni bina, perancangan strategik, dan memastikan produk akhir sejajar dengan keperluan dan standard kualiti.

Cabaran Lebih Luas: Membungkus Kuasa Menjadi Pengalaman

Walaupun Google DeepMind nampaknya mencapai pencapaian teknikal yang luar biasa dengan model seperti Gemini 2.5, tema berulang muncul: cabaran untuk menterjemahkan kuasa teknologi mentah kepada pengalaman pengguna yang menarik, boleh diakses, dan mengasyikkan yang menarik perhatian pasaran. Terdapat persepsi bahawa walaupun Google membangunkan keupayaan AI yang berpotensi terkemuka di dunia, ia kadangkala gagal dalam membungkus dan mempersembahkan keupayaan ini dengan cara yang bergema secara meluas dengan pengguna, terutamanya berbanding pesaing seperti OpenAI.

Isu ini diserlahkan oleh pelabur malaikat Nikunj Kothari, yang menyatakan sedikit simpati terhadap pasukan Google DeepMind. ‘Saya berasa sedikit kasihan kepada pasukan Google DeepMind,’ katanya, memerhatikan kontras antara pelancaran model berkuasa dan fenomena tular yang sering dijana oleh pesaing. ‘Anda membina model yang mengubah dunia dan semua orang menyiarkan gambar ala Ghibli sebaliknya,’ tambahnya, merujuk kepada buzz mengenai keupayaan penjanaan imej GPT-4o OpenAI, yang dengan cepat menarik imaginasi awam. Kothari mengenal pasti ini sebagai cabaran berterusan untuk Google: memiliki bakat teknikal yang besar yang mampu membina AI terbaik dalam kelasnya, tetapi berpotensi kurang melabur dalam lapisan penting reka bentuk produk dan pengalaman yang menghadap pengguna. ‘Saya merayu kepada mereka untuk mengambil 20% daripada bakat terbaik mereka dan memberi mereka kebebasan untuk membina pengalaman pengguna bertaraf dunia,’ gesanya.

Sentimen ini meluas kepada ‘personaliti’ yang dirasakan bagi model tersebut. Kothari menyatakan bahawa gaya interaktif Gemini 2.5 terasa ‘agak asas‘ berbanding model terkemuka lain. Elemen subjektif ini, walaupun sukar untuk diukur, mempengaruhi penglibatan pengguna dan perasaan bekerjasama dengan AI. Beberapa pengguna lain mengulangi pemerhatian ini, mencadangkan bahawa walaupun cekap dari segi teknikal, model itu mungkin kekurangan gaya interaksi yang lebih menarik atau bernuansa yang dipupuk oleh pesaing.

Isu kebolehgunaan praktikal juga telah timbul. Pelancaran penjanaan imej asli dalam model Gemini 2.0 Flash, misalnya, dipuji secara teknikal kerana keupayaannya. Walau bagaimanapun, ramai pengguna melaporkan kesukaran hanya untuk mencari dan menggunakan ciri tersebut. Antara muka pengguna digambarkan sebagai tidak intuitif, dengan pilihan yang tidak perlu bersarang dalam menu. Geseran dalam mengakses ciri yang berkuasa ini boleh menjejaskan semangat dan penerimaan pengguna dengan ketara, tanpa mengira kualiti teknologi asas. Jika pengguna bergelut untuk memulakan tugas, kuasa model menjadi tidak relevan kepada mereka.

Mengimbas kembali ‘mania Ghibli’ yang mengelilingi penjanaan imej GPT-4o, situasinya mungkin bukan tentang Google gagal secara terang-terangan dalam pemasaran tetapi lebih kepada kecekapan OpenAI dalam memahami dan memanfaatkan psikologi pengguna. Seperti yang ditunjukkan oleh seorang pengguna di X mengenai pameran OpenAI, ‘Anda menyiarkan dua gambar dan semua orang faham.‘ Sifat visual, mudah dikongsi, dan sememangnya kreatif demonstrasi itu memanfaatkan minat pengguna serta-merta. Sebaliknya, menilai penambahbaikan bernuansa dalam model bahasa seperti Gemini 2.5 memerlukan lebih banyak usaha. ‘Anda meminta orang yang sama membaca laporan yang dijana oleh 2.0 dan membandingkannya [dengan] 2.5, dan itu memerlukan lebih banyak masa daripada menatal dan menyukai,’ pengguna itu menghuraikan.

Senario ini menekankan pengajaran kritikal dalam landskap AI semasa: keunggulan teknologi semata-mata tidak menjamin kepimpinan pasaran atau keutamaan pengguna. Faktor seperti kemudahan penggunaan, reka bentuk intuitif, komunikasi keupayaan yang berkesan, dan juga personaliti yang dirasakan atau faktor penglibatan AI memainkan peranan penting. Pengguna biasa, termasuk ramai pembangun yang memberi tumpuan kepada produktiviti, sering tertarik kepada alat yang bukan sahaja berkuasa tetapi juga menyeronokkan, boleh dikaitkan, dan disepadukan dengan lancar ke dalam aliran kerja mereka. Agar Google memanfaatkan sepenuhnya potensi model seperti Gemini 2.5, terutamanya dalam bidang kompetitif seperti bantuan pengekodan, merapatkan jurang antara penyelidikan canggih dan pengalaman pengguna yang luar biasa kekal sebagai usaha penting.