Google: Haluan Baharu Penaakulan AI dengan Gemini 2.5 Pro

Perkembangan kecerdasan buatan (AI) yang pesat terus membentuk semula landskap teknologi, dan Google baru sahaja meletakkan satu cabaran baharu yang signifikan. Perkenalkan Gemini 2.5 Pro, model sulung daripada keluarga Gemini 2.5 generasi seterusnya syarikat itu. Ini bukan sekadar satu lagi kemas kini tambahan; Google meletakkan enjin penaakulan multimodal ini sebagai kuasa yang hebat, mendakwa prestasi unggul berbanding pesaing sedia ada dari OpenAI, Anthropic, dan DeepSeek, terutamanya dalam arena pengekodan, matematik, dan penyelesaian masalah saintifik yang mencabar. Pengumuman ini bukan sahaja menandakan lonjakan dalam keupayaan tetapi juga penambahbaikan strategik dalam cara Google mendekati dan menjenamakan sistem AI tercanggihnya.

Evolusi ke Arah Penaakulan Semula Jadi

Ditengah-tengah Gemini 2.5 Pro terletak kapasiti yang dipertingkatkan untuk penaakulan (reasoning). Istilah ini, dalam konteks AI, menandakan model yang direka untuk bergerak melangkaui pemadanan corak mudah atau pengambilan maklumat. AI penaakulan sebenar bertujuan untuk meniru proses pemikiran seperti manusia yang lebih dipertimbangkan. Ia melibatkan penilaian teliti konteks pertanyaan, memecahkan masalah kompleks kepada langkah-langkah yang boleh diurus, memproses butiran rumit secara metodik, dan bahkan melakukan semakan konsistensi dalaman atau pengesahan fakta sebelum memberikan respons. Matlamatnya adalah untuk mencapai bukan sahaja teks yang kedengaran munasabah, tetapi output yang logik dan tepat.

Walau bagaimanapun, usaha untuk keupayaan penaakulan yang lebih mendalam ini datang dengan kos. Proses kognitif yang canggih sedemikian memerlukan kuasa pengkomputeran yang jauh lebih besar berbanding model generatif yang lebih mudah. Melatih sistem ini memerlukan sumber yang intensif, dan menjalankannya menanggung perbelanjaan operasi yang lebih tinggi. Pertukaran antara keupayaan dan kos ini adalah cabaran utama dalam pembangunan AI termaju.

Menariknya, Google nampaknya secara halus mengalihkan strategi penjenamaannya di sekitar keupayaan teras ini. Apabila syarikat itu memperkenalkan siri Gemini 1.5, ia termasuk model yang secara khusus ditetapkan dengan label ‘Thinking’, seperti Gemini 1.0 Ultra yang lebih awal atau variasi konseptual yang berpotensi membayangkan penaakulan yang dipertingkatkan. Walau bagaimanapun, dengan pelancaran Gemini 2.5 Pro, nama ‘Thinking’ yang eksplisit ini nampaknya semakin pudar.

Menurut komunikasi Google sendiri mengenai keluaran 2.5, ini bukanlah pengabaian penaakulan tetapi sebaliknya penyepaduannya sebagai ciri asas merentas semua model akan datang dalam keluarga ini. Penaakulan tidak lagi dipersembahkan sebagai ciri premium yang berasingan tetapi sebagai bahagian yang wujud dalam seni bina. Ini menunjukkan pergerakan ke arah rangka kerja AI yang lebih bersatu di mana kebolehan kognitif lanjutan dijangka menjadi fungsi asas, bukannya penambahbaikan terpencil yang memerlukan penjenamaan yang berbeza. Ia membayangkan kematangan teknologi, di mana pemprosesan canggih menjadi standard, bukan pengecualian. Peralihan strategik ini boleh menyelaraskan portfolio AI Google dan menetapkan penanda aras baharu untuk apa yang pengguna dan pembangun harus jangkakan daripada model bahasa besar (LLM) terkini.

Peningkatan Kejuruteraan dan Dominasi Penanda Aras

Apakah yang menggerakkan tahap prestasi baharu ini? Google mengaitkan kehebatan Gemini 2.5 Pro kepada gabungan faktor: ‘model asas yang dipertingkatkan dengan ketara’ (significantly enhanced base model) digabungkan dengan teknik ‘pasca latihan yang diperbaiki’ (improved post-training). Walaupun inovasi seni bina khusus kekal proprietari, implikasinya jelas: penambahbaikan asas telah dibuat pada rangkaian neural teras, diperhalusi lagi oleh proses penalaan canggih selepas latihan berskala besar awal. Pendekatan dwi ini bertujuan untuk meningkatkan kedua-dua pengetahuan mentah model dan keupayaannya untuk menggunakan pengetahuan itu secara bijak.

Buktinya, seperti kata pepatah, ada pada puding – atau dalam dunia AI, penanda aras. Google pantas menonjolkan kedudukan Gemini 2.5 Pro, terutamanya kedudukannya yang didakwa di puncak papan pendahulu LMArena. Platform ini adalah arena yang diiktiraf, walaupun sentiasa berkembang, di mana LLM utama diadu antara satu sama lain merentasi pelbagai tugas, selalunya menggunakan perbandingan buta, bersemuka yang diadili oleh manusia. Menduduki tempat teratas papan pendahulu sedemikian, walaupun secara sementara, adalah tuntutan penting dalam ruang AI yang sangat kompetitif.

Meneliti penanda aras penaakulan akademik khusus seterusnya menerangkan kekuatan model:

  • Matematik (AIME 2025): Gemini 2.5 Pro mencapai skor yang mengagumkan sebanyak 86.7% pada penanda aras pertandingan matematik yang mencabar ini. American Invitational Mathematics Examination (AIME) terkenal dengan masalah kompleksnya yang memerlukan penaakulan logik mendalam dan wawasan matematik, biasanya ditujukan kepada pelajar sekolah menengah. Kecemerlangan di sini menunjukkan keupayaan yang mantap untuk pemikiran matematik abstrak.
  • Sains (GPQA diamond): Dalam bidang jawapan soalan saintifik peringkat siswazah, yang diwakili oleh penanda aras GPQA diamond, model itu mendapat skor 84.0%. Ujian ini menyiasat pemahaman merentasi pelbagai disiplin saintifik, menuntut bukan sahaja ingatan fakta tetapi keupayaan untuk mensintesis maklumat dan menaakul melalui senario saintifik yang kompleks.
  • Pengetahuan Luas (Humanity’s Last Exam): Pada penilaian komprehensif ini, yang merangkumi beribu-ribu soalan meliputi matematik, sains, dan kemanusiaan, Gemini 2.5 Pro dilaporkan mendahului dengan skor 18.8%. Walaupun peratusan itu mungkin kelihatan rendah, keluasan dan kesukaran penanda aras ini bermakna walaupun pendahuluan tambahan adalah penting, menunjukkan asas pengetahuan yang menyeluruh dan keupayaan penaakulan yang serba boleh.

Keputusan ini melukiskan gambaran AI yang cemerlang dalam domain berstruktur, logik, dan intensif pengetahuan. Fokus pada penanda aras akademik menggarisbawahi cita-cita Google untuk mencipta model yang mampu menangani cabaran intelektual yang kompleks, bergerak melangkaui kefasihan perbualan semata-mata.

Menavigasi Nuansa Penjanaan Kod

Walaupun Gemini 2.5 Pro bersinar dalam penaakulan akademik, prestasinya dalam domain pembangunan perisian yang sama pentingnya memberikan gambaran yang lebih kompleks. Penanda aras dalam bidang ini menilai keupayaan AI untuk memahami keperluan pengaturcaraan, menulis kod berfungsi, menyahpepijat ralat, dan juga mengubah suai pangkalan kod sedia ada.

Google melaporkan keputusan yang kukuh pada tugas pengekodan khusus:

  • Penyuntingan Kod (Aider Polyglot): Model ini mendapat skor 68.6% pada penanda aras ini, yang memberi tumpuan kepada keupayaan untuk menyunting kod merentasi pelbagai bahasa pengaturcaraan. Skor ini dilaporkan mengatasi kebanyakan model terkemuka lain, menunjukkan kecekapan dalam memahami dan memanipulasi struktur kod sedia ada – kemahiran penting untuk aliran kerja pembangunan perisian praktikal.

Walau bagaimanapun, prestasinya tidak dominan secara seragam:

  • Tugas Pengaturcaraan Lebih Luas (SWE-bench Verified): Pada penanda aras ini, yang menilai keupayaan untuk menyelesaikan isu GitHub dunia sebenar, Gemini 2.5 Pro mendapat skor 63.8%. Walaupun masih skor yang dihormati, Google mengakui ini meletakkannya di tempat kedua, terutamanya di belakang Claude 3.5 Sonnet dari Anthropic (pada masa perbandingan). Ini menunjukkan bahawa walaupun mahir dalam tugas pengekodan tertentu seperti penyuntingan, ia mungkin menghadapi persaingan yang lebih sengit dalam cabaran yang lebih holistik untuk menyelesaikan masalah kejuruteraan perisian dunia sebenar yang kompleks dari awal hingga akhir.

Walaupun prestasi bercampur-baur ini pada ujian piawai, Google menekankan keupayaan kreatif praktikal model dalam pengekodan. Mereka menegaskan bahawa Gemini 2.5 Pro ‘cemerlang dalam mencipta aplikasi web yang menarik secara visual dan aplikasi kod agentik’ (‘excels at creating visually compelling web apps and agentic code applications.’). Aplikasi agentik merujuk kepada sistem di mana AI boleh mengambil tindakan, merancang langkah, dan melaksanakan tugas secara autonomi atau separa autonomi. Untuk menggambarkan ini, Google menonjolkan satu contoh di mana model itu didakwa menjana permainan video berfungsi berdasarkan hanya satu gesaan peringkat tinggi. Anekdot ini, walaupun bukan penanda aras piawai, menunjukkan potensi kekuatan dalam menterjemahkan idea kreatif kepada kod berfungsi, terutamanya untuk aplikasi interaktif dan autonomi. Percanggahan antara skor penanda aras dan kehebatan kreatif yang didakwa menonjolkan cabaran berterusan untuk menangkap spektrum penuh keupayaan pengekodan AI melalui ujian piawai sahaja. Utiliti dunia sebenar selalunya melibatkan gabungan ketepatan logik, penyelesaian masalah kreatif, dan reka bentuk seni bina yang mungkin tidak dicakupi sepenuhnya oleh penanda aras.

Potensi Besar Tetingkap Konteks yang Luas

Salah satu ciri yang paling menarik bagi Gemini 2.5 Pro ialah tetingkap konteks (context window) yang besar: satu juta token. Dalam istilah model bahasa besar, ‘token’ ialah unit teks, secara kasarnya bersamaan dengan kira-kira tiga perempat perkataan dalam bahasa Inggeris. Oleh itu, tetingkap konteks satu juta token bermakna model boleh memproses dan menyimpan dalam ‘memori kerja’nya sejumlah maklumat yang setara dengan kira-kira 750,000 perkataan.

Untuk meletakkannya dalam perspektif, itu kira-kira panjang gabungan enam buku pertama dalam siri Harry Potter. Ia jauh mengatasi tetingkap konteks banyak model generasi sebelumnya, yang selalunya terhad kepada puluhan ribu atau mungkin beberapa ratus ribu token.

Pengembangan besar dalam kapasiti konteks ini mempunyai implikasi yang mendalam:

  • Analisis Dokumen Mendalam: Perniagaan dan penyelidik boleh memasukkan keseluruhan laporan panjang, beberapa kertas penyelidikan, dokumen undang-undang yang luas, atau bahkan pangkalan kod penuh ke dalam model dalam satu gesaan. AI kemudiannya boleh menganalisis, meringkaskan, menyoal, atau merujuk silang maklumat merentasi keseluruhan konteks yang disediakan tanpa kehilangan jejak butiran awal.
  • Perbualan Lanjutan: Ia membolehkan perbualan yang lebih panjang dan lebih koheren di mana AI mengingati butiran dan nuansa dari interaksi yang jauh lebih awal. Ini penting untuk sesi penyelesaian masalah yang kompleks, penulisan kolaboratif, atau aplikasi tunjuk ajar yang diperibadikan.
  • Mengikuti Arahan Kompleks: Pengguna boleh memberikan arahan berbilang langkah yang sangat terperinci atau sejumlah besar maklumat latar belakang untuk tugas seperti menulis, mengekod, atau merancang, dan model boleh mengekalkan kesetiaan kepada keseluruhan permintaan.
  • Pemahaman Multimedia (Implisit): Sebagai model multimodal, tetingkap konteks yang besar ini kemungkinan besar juga terpakai kepada gabungan teks, imej, dan berpotensi data audio atau video, membolehkan analisis canggih input media campuran yang kaya.

Tambahan pula, Google telah pun memberi isyarat hasratnya untuk menolak sempadan ini lebih jauh, menyatakan rancangan untuk meningkatkan ambang tetingkap konteks kepada dua juta token dalam masa terdekat. Menggandakan kapasiti yang sudah besar ini akan membuka lebih banyak kemungkinan, berpotensi membolehkan model memproses keseluruhan buku, pangkalan pengetahuan korporat yang luas, atau keperluan projek yang sangat kompleks dalam satu masa. Pengembangan konteks yang tidak henti-henti ini adalah medan pertempuran utama dalam pembangunan AI, kerana ia secara langsung memberi kesan kepada kerumitan dan skala tugas yang boleh dikendalikan oleh model dengan berkesan.

Akses, Ketersediaan, dan Arena Persaingan

Google menjadikan Gemini 2.5 Pro boleh diakses melalui beberapa saluran, memenuhi segmen pengguna yang berbeza:

  • Pengguna: Model ini kini tersedia melalui perkhidmatan langganan Gemini Advanced. Ini biasanya melibatkan yuran bulanan (sekitar $20 pada masa pengumuman) dan menyediakan akses kepada model AI Google yang paling berkebolehan yang disepadukan ke dalam pelbagai produk Google dan antara muka web/aplikasi kendiri.
  • Pembangun dan Perusahaan: Bagi mereka yang ingin membina aplikasi atau menyepadukan model ke dalam sistem mereka sendiri, Gemini 2.5 Pro boleh diakses melalui Google AI Studio, alat berasaskan web untuk prototaip dan menjalankan gesaan.
  • Integrasi Platform Awan: Melangkah ke hadapan, Google merancang untuk menjadikan model itu tersedia di Vertex AI, platform pembelajaran mesin komprehensifnya di Google Cloud. Integrasi ini akan menawarkan alat yang lebih mantap untuk penyesuaian, penggunaan, pengurusan, dan penskalaan untuk aplikasi gred perusahaan.

Syarikat itu juga menunjukkan bahawa butiran harga, kemungkinan berperingkat berdasarkan jumlah penggunaan dan potensi had kadar yang berbeza (permintaan seminit), akan diperkenalkan tidak lama lagi, terutamanya untuk tawaran Vertex AI. Pendekatan berperingkat ini adalah amalan standard, membolehkan tahap akses yang berbeza berdasarkan keperluan pengkomputeran dan bajet.

Strategi pelancaran dan keupayaan meletakkan Gemini 2.5 Pro secara langsung dalam persaingan dengan model sempadan lain seperti siri GPT-4 OpenAI (termasuk GPT-4o) dan keluarga Claude 3 Anthropic (termasuk Claude 3.5 Sonnet yang baru diumumkan). Setiap model mempunyai kekuatan dan kelemahan tersendiri merentasi pelbagai penanda aras dan tugas dunia sebenar. Penekanan pada penaakulan, tetingkap konteks yang besar, dan kemenangan penanda aras khusus yang ditonjolkan oleh Google adalah pembeza strategik dalam perlumbaan berisiko tinggi ini. Integrasi ke dalam ekosistem sedia ada Google (Search, Workspace, Cloud) juga memberikan kelebihan pengedaran yang signifikan. Apabila model berkuasa ini menjadi lebih mudah diakses, persaingan sudah pasti akan mendorong inovasi selanjutnya, menolak sempadan apa yang boleh dicapai oleh AI merentasi sains, perniagaan, kreativiti, dan kehidupan seharian. Ujian sebenar, di luar penanda aras, adalah sejauh mana keberkesanan pembangun dan pengguna dapat memanfaatkan keupayaan penaakulan dan kontekstual lanjutan ini untuk menyelesaikan masalah dunia sebenar dan mencipta aplikasi baharu.