Kepantasan inovasi dalam kecerdasan buatan (AI) yang tidak henti-henti tidak menunjukkan tanda-tanda akan perlahan, dan Google baru sahaja melancarkan serangan terbarunya dalam perlumbaan teknologi berisiko tinggi ini. Syarikat itu baru-baru ini memperkenalkan Gemini 2.5, generasi baharu model AI-nya yang direka untuk menangani tugas kognitif yang canggih, termasuk penaakulan yang rumit dan cabaran pengekodan yang kompleks. Pendedahan ini bukan sekadar kemas kini tambahan; ia mewakili satu langkah maju yang signifikan, meletakkan Google dengan kukuh di barisan hadapan pembangunan AI dan secara langsung mencabar pesaing yang sedia ada. Pusat kepada pelancaran ini ialah varian Gemini 2.5 Pro Experimental, yang telah pun mencipta gelombang dengan merampas kedudukan teratas yang didambakan di papan pendahulu LMArena yang berpengaruh, penanda aras yang dihormati secara meluas untuk menilai prestasi model bahasa besar.
Menetapkan Penanda Aras Baharu: Prestasi dan Kehebatan Penaakulan
Kesan serta-merta Gemini 2.5 Pro Experimental jelas kelihatan dalam prestasi penanda arasnya. Mencapai kedudukan teratas di papan pendahulu LMArena adalah satu pencapaian yang ketara, menandakan keupayaan unggulnya dalam perbandingan langsung dengan model terkemuka lain. Tetapi penguasaannya melangkaui kedudukan tunggal ini. Google melaporkan bahawa model canggih ini juga mendahului dalam beberapa domain kritikal, termasuk penanda aras umum pengekodan, matematik, dan sains. Bidang-bidang ini adalah medan ujian penting untuk keupayaan AI memahami sistem yang kompleks, memanipulasi konsep abstrak, dan menghasilkan output yang tepat dan berfungsi. Kecemerlangan di sini menunjukkan tahap kedalaman analitikal dan kemahiran menyelesaikan masalah yang menolak sempadan keupayaan AI semasa.
Apa yang benar-benar membezakan Gemini 2.5, menurut ahli teknologi Google sendiri, ialah seni bina asasnya sebagai ‘model pemikiran’. Koray Kavukcuoglu, Ketua Pegawai Teknologi di Google DeepMind, menghuraikan konsep ini: ‘Model Gemini 2.5 adalah model pemikiran, mampu menaakul melalui pemikiran mereka sebelum bertindak balas, menghasilkan prestasi yang dipertingkatkan dan ketepatan yang lebih baik.’ Penerangan ini membayangkan penyimpangan daripada model yang mungkin bergantung terutamanya pada pengecaman corak atau pengambilan terus. Sebaliknya, Gemini 2.5 dicadangkan untuk terlibat dalam proses dalaman yang lebih terancang, serupa dengan pemikiran berstruktur, sebelum merumuskan responsnya. Langkah penaakulan dalaman ini membolehkannya bergerak melangkaui tugas klasifikasi atau ramalan mudah. Google menekankan bahawa model itu boleh menganalisis maklumat secara mendalam, membuat kesimpulan logik, dan yang penting, menggabungkan konteks dan nuansa ke dalam outputnya. Keupayaan untuk menimbang aspek berbeza sesuatu masalah dan memahami implikasi halus adalah penting untuk menangani kerumitan dunia sebenar yang menentang jawapan mudah.
Implikasi praktikal pendekatan ‘pemikiran’ ini terbukti dalam metrik prestasi perbandingan. Google menegaskan bahawa Gemini 2.5 menunjukkan prestasi unggul apabila diukur berbanding pesaing terkemuka seperti o3 mini dan GPT-4.5 OpenAI, DeepSeek-R1,Grok 3, dan Claude 3.7 Sonnet Anthropic merentasi pelbagai penanda aras yang mencabar. Keunggulan meluas merentasi pelbagai suite ujian ini menggariskan kepentingan peningkatan seni bina dan latihan yang dilaksanakan dalam lelaran terkini ini.
Mungkin salah satu demonstrasi penaakulan lanjutannya yang paling menarik ialah prestasinya pada penanda aras unik yang dikenali sebagai Humanity’s Last Exam. Set data ini, yang disusun rapi oleh ratusan pakar subjek, direka khusus untuk menguji had pengetahuan dan penaakulan manusia dan buatan. Ia membentangkan cabaran yang memerlukan pemahaman mendalam, pemikiran kritis, dan keupayaan untuk mensintesis maklumat merentasi pelbagai bidang. Pada ujian yang mencabar ini, Gemini 2.5 mencapai skor 18.8% di kalangan model yang beroperasi tanpa penggunaan alat luaran, hasil yang digambarkan oleh Google sebagai canggih. Walaupun peratusan itu mungkin kelihatan sederhana dalam istilah mutlak, kepentingannya terletak pada kesukaran penanda aras itu sendiri, menonjolkan kapasiti lanjutan model untuk penaakulan kompleks tanpa bantuan berbanding rakan sebayanya.
Di Sebalik Tabir: Seni Bina dan Latihan yang Dipertingkatkan
Lompatan dalam prestasi yang dijelmakan oleh Gemini 2.5 bukanlah satu kebetulan; ia adalah kemuncak usaha penyelidikan dan pembangunan yang berterusan dalam Google DeepMind. Syarikat itu secara eksplisit mengaitkan kemajuan ini dengan penerokaan jangka panjang yang bertujuan untuk menjadikan sistem AI lebih pintar dan mampu melakukan penaakulan yang canggih. ‘Untuk masa yang lama, kami telah meneroka cara menjadikan AI lebih pintar dan lebih mampu menaakul melalui teknik seperti pembelajaran pengukuhan dan gesaan rantaian pemikiran (chain-of-thought prompting),’ kata Google dalam pengumumannya. Teknik-teknik ini, walaupun berharga, nampaknya telah menjadi batu loncatan ke arah pendekatan yang lebih bersepadu yang direalisasikan dalam model terkini.
Google mengaitkan prestasi cemerlang Gemini 2.5 kepada gabungan yang kuat: ‘model asas yang dipertingkatkan dengan ketara’ digandingkan dengan teknik ‘pasca latihan yang diperbaiki’. Walaupun butiran khusus peningkatan ini kekal proprietari, implikasinya jelas. Seni bina asas model itu sendiri telah mengalami penambahbaikan yang besar, kemungkinan melibatkan skala, kecekapan, atau reka bentuk struktur novel. Sama pentingnya ialah proses penapisan yang berlaku selepas latihan berskala besar awal. Fasa pasca latihan ini sering melibatkan penalaan halus model pada tugas-tugas tertentu, menyelaraskannya dengan tingkah laku yang diingini (seperti membantu dan selamat), dan berpotensi menggabungkan teknik seperti pembelajaran pengukuhan daripada maklum balas manusia (RLHF) atau, mungkin, mekanisme penaakulan lanjutan yang dirujuk oleh Kavukcuoglu. Fokus dwi ini—memperbaiki kedua-dua enjin teras dan penentukuran seterusnya—membolehkan Gemini 2.5 mencapai apa yang digambarkan oleh Google sebagai ‘tahap prestasi baharu.’ Integrasi ‘keupayaan pemikiran’ ini tidak bertujuan sebagai ciri sekali sahaja tetapi sebagai hala tuju teras untuk pembangunan masa depan merentasi portfolio AI Google. Syarikat itu secara eksplisit menyatakan niatnya: ‘Melangkah ke hadapan, kami sedang membina keupayaan pemikiran ini secara langsung ke dalam semua model kami, supaya mereka boleh mengendalikan masalah yang lebih kompleks dan menyokong ejen yang lebih berkebolehan dan peka konteks.’
Memperluas Konteks dan Pemahaman Multimodal
Selain penaakulan tulen, satu lagi dimensi kritikal AI moden ialah keupayaannya untuk memproses dan memahami sejumlah besar maklumat, selalunya dibentangkan dalam pelbagai format. Gemini 2.5 membuat kemajuan yang signifikan dalam bidang ini, terutamanya mengenai tetingkap konteksnya—jumlah maklumat yang boleh dipertimbangkan oleh model secara serentak semasa menjana respons. Gemini 2.5 Pro yang baru dikeluarkan dihantar dengan tetingkap konteks 1 juta token yang mengagumkan. Untuk meletakkannya dalam perspektif, satu juta token boleh mewakili ratusan ribu perkataan, setara dengan beberapa novel panjang atau dokumentasi teknikal yang luas. Tetingkap yang luas ini membolehkan model mengekalkan koheren sepanjang interaksi yang sangat panjang, menganalisis keseluruhan pangkalan kod, atau memahami dokumen besar tanpa kehilangan jejak butiran awal.
Google tidak berhenti di situ; tetingkap konteks 2 juta token yang lebih besar dijadualkan untuk keluaran masa depan, memperluaskan lagi kapasiti model untuk pemahaman kontekstual yang mendalam. Yang penting, Google menegaskan bahawa tetingkap konteks yang diperluas ini tidak datang dengan kos penurunan prestasi. Sebaliknya, mereka mendakwa ‘prestasi kukuh yang bertambah baik berbanding generasi sebelumnya,’ menunjukkan bahawa model itu secara berkesan menggunakan konteks yang diperluas tanpa menjadi terharu atau kehilangan fokus.
Keupayaan untuk mengendalikan konteks yang luas ini digabungkan dengan kuat dengan keupayaan multimodal. Gemini 2.5 tidak terhad kepada teks; ia direka untuk memahami maklumat yang dibentangkan sebagai teks, audio, imej, video, dan juga keseluruhan repositori kod. Kepelbagaian ini membolehkan interaksi yang lebih kaya dan tugas yang lebih kompleks. Bayangkan memberi model tutorial video, rajah teknikal, dan coretan kod, dan memintanya untuk menjana dokumentasi atau mengenal pasti isu-isu berpotensi berdasarkan ketiga-tiga input. Pemahaman bersepadu merentasi jenis data yang berbeza ini adalah penting untuk membina aplikasi yang benar-benar pintar yang boleh berinteraksi dengan dunia dengan cara yang lebih seperti manusia. Keupayaan untuk memproses ‘repositori kod penuh’ amat ketara untuk aplikasi pembangunan perisian, membolehkan tugas seperti pemfaktoran semula berskala besar, pengesanan pepijat merentasi projek kompleks, atau memahami kebergantungan rumit dalam sistem perisian.
Fokus Pembangun dan Potensi Aplikasi
Google secara aktif menggalakkan pembangun dan perusahaan untuk meneroka keupayaan Gemini 2.5 Pro, menjadikannya boleh diakses serta-merta melalui Google AI Studio. Ketersediaan untuk pelanggan perusahaan melalui Vertex AI, platform AI terurus Google, dijangka tidak lama lagi. Strategi pelancaran ini mengutamakan penyerahan model ke tangan pembina yang boleh mula mencipta aplikasi dan aliran kerja novel.
Syarikat itu secara khusus menonjolkan kebolehan model untuk jenis tugas pembangunan tertentu. ‘2.5 Pro cemerlang dalam mencipta aplikasi web yang menarik secara visual dan aplikasi kod agentik, bersama dengan transformasi dan penyuntingan kod,’ catat Google. Penyebutan ‘aplikasi kod agentik’ amat menarik. Ini merujuk kepada sistem AI yang boleh bertindak lebih autonomi, mungkin memecahkan tugas pengekodan kompleks kepada langkah-langkah yang lebih kecil, menulis kod, mengujinya, dan bahkan menyahpepijatnya dengan kurang campur tangan manusia. Prestasi pada penanda aras SWE-Bench Verified, di mana Gemini 2.5 Pro mendapat skor 63.8% menggunakan persediaan ejen tersuai, memberi kepercayaan kepada dakwaan ini. SWE-Bench (Software Engineering Benchmark) secara khusus menguji keupayaan model untuk menyelesaikan isu GitHub dunia sebenar, menjadikan skor tinggi menunjukkan keupayaan bantuan pengekodan praktikal.
Bagi pembangun yang tidak sabar untuk memanfaatkan ciri-ciri canggih ini, model ini sedia untuk percubaan di Google AI Studio. Melangkah ke hadapan, Google merancang untuk memperkenalkan struktur harga dalam beberapa minggu akan datang untuk pengguna yang memerlukan had kadar yang lebih tinggi yang sesuai untuk persekitaran pengeluaran. Akses berperingkat ini membolehkan percubaan meluas pada mulanya, diikuti dengan pilihan penggunaan berskala untuk aplikasi komersial. Penekanan untuk membolehkan pembangun menunjukkan bahawa Google melihat Gemini 2.5 bukan sahaja sebagai pencapaian penyelidikan tetapi sebagai enjin yang kuat untuk generasi alat dan perkhidmatan berkuasa AI seterusnya.
Menempatkan Gemini 2.5 dalam Ekosistem AI Google
Pelancaran Gemini 2.5 tidak berlaku secara terpencil; ia adalah sebahagian daripada strategi AI yang lebih luas dan pelbagai aspek yang sedang berlaku di Google. Ia menyusul rapat selepas pelancaran Google Gemma 3, lelaran terkini dalam keluarga model berat terbuka syarikat itu. Walaupun model Gemini mewakili tawaran sumber tertutup tercanggih Google, keluarga Gemma menyediakan model yang kuat dan lebih mudah diakses untuk komuniti sumber terbuka dan penyelidik, memupuk inovasi yang lebih luas. Pembangunan selari kedua-dua model proprietari mewah dan alternatif berat terbuka menunjukkan pendekatan komprehensif Google terhadap landskap AI.
Tambahan pula, Google baru-baru ini meningkatkan model Gemini 2.0 Flashnya dengan memperkenalkan keupayaan penjanaan imej asli. Ciri ini mengintegrasikan pemahaman input multimodal (seperti gesaan teks) dengan penaakulan lanjutan dan pemprosesan bahasa semula jadi untuk menghasilkan visual berkualiti tinggi secara langsung dalam interaksi AI. Langkah ini mencerminkan perkembangan daripada pesaing dan menggarisbawahi kepentingan yang semakin meningkat bagi multimodaliti bersepadu, di mana AI boleh beralih dengan lancar antara memahami dan menjana teks, imej, kod, dan jenis data lain dalam satu konteks perbualan. Gemini 2.5, dengan pemahaman multimodal semulajadinya, dibina di atas asas ini, menawarkan platform yang lebih berkuasa untuk aplikasi yang menggabungkan pelbagai jenis maklumat.
Papan Catur Kompetitif: Pesaing Bertindak Balas
Kemajuan Google dengan Gemini 2.5 berlaku dalam persekitaran yang sangat kompetitif di mana pemain utama sentiasa bersaing untuk kepimpinan. Penanda aras yang dipetik oleh Google secara eksplisit meletakkan Gemini 2.5 menentang model dari OpenAI, Anthropic, dan lain-lain, menonjolkan sifat langsung persaingan ini.
OpenAI, pesaing utama, juga telah aktif, terutamanya melancarkan model GPT-4onya, yang juga menampilkan keupayaan multimodal yang mengagumkan, termasuk interaksi suara dan penglihatan masa nyata yang canggih, di samping ciri penjanaan imej bersepadu yang serupa konsepnya dengan yang ditambahkan pada Gemini Flash. Perlumbaan jelas sedang berjalan untuk mencipta AI yang bukan sahaja pintar dalam penaakulan berasaskan teks tetapi juga perseptif dan interaktif merentasi pelbagai modaliti.
Sementara itu, pemain penting lain, DeepSeek, menjadi tajuk utama serentak dengan pengumuman Google. Pada hari Isnin sebelum pendedahan Google, DeepSeek mengumumkan kemas kini kepada model AI tujuan amnya, yang ditetapkan sebagai DeepSeek-V3. Versi yang dikemas kini, ‘DeepSeek V3-0324’, mencapai perbezaan yang luar biasa: ia menduduki tempat tertinggi di kalangan semua model ‘bukan penaakulan’ pada penanda aras tertentu. Artificial Analysis, platform yang mengkhusus dalam penandaarasan model AI, mengulas mengenai kepentingan pencapaian ini: ‘Ini adalah kali pertama model berat terbuka menjadi model bukan penaakulan terkemuka, menandakan satu peristiwa penting untuk sumber terbuka.’ DeepSeek V3 mendapat mata tertinggi pada ‘Indeks Kecerdasan’ platform dalam kategori ini, mempamerkan kuasa dan daya saing model berat terbuka yang semakin meningkat, walaupun ia tidak dioptimumkan secara eksplisit untuk penaakulan kompleks berbilang langkah yang disasarkan oleh model seperti Gemini 2.5.
Menambah kepada intrik, laporan muncul, terutamanya dari Reuters, menunjukkan bahawa DeepSeek sedang mempercepatkan rancangannya. Syarikat itu berhasrat untuk mengeluarkan model utama seterusnya, yang berpotensi dinamakan R2, ‘seawal mungkin.’ Pada mulanya dirancang untuk awal Mei, garis masa mungkin kini lebih awal, menunjukkan DeepSeek tidak sabar untuk menentang langkah yang dibuat oleh Google dan OpenAI dan berpotensi memperkenalkan keupayaan penaakulan lanjutannya sendiri.
Kesibukan aktiviti dari Google, OpenAI, dan DeepSeek ini menggarisbawahi sifat dinamik dan berkembang pesat dalam bidang AI. Setiap keluaran utama menolak sempadan lebih jauh, mendorong pesaing untuk bertindak balas dengan pantas dengan inovasi mereka sendiri. Fokus pada penaakulan, multimodaliti, saiz tetingkap konteks, dan prestasi penanda aras menunjukkan medan pertempuran utama di mana masa depan AI sedang ditempa. Gemini 2.5 Google, dengan penekanannya pada ‘pemikiran,’ konteks yang luas, dan hasil penanda aras yang kukuh, mewakili langkah yang kuat dalam perlawanan catur teknologi yang berterusan ini, menjanjikan keupayaan yang dipertingkatkan untuk pengguna dan pembangun sambil serentak menaikkan taraf untuk pesaing. Bulan-bulan mendatang kemungkinan akan menyaksikan kemajuan pesat yang berterusan apabila gergasi teknologi ini menolak sempadan kecerdasan buatan semakin jauh.