Google Cetus Peringkat AI Seterusnya dengan Model Penaakulan | ms

Evolusi kecerdasan buatan yang tidak henti-henti telah mengambil satu lagi lonjakan penting ke hadapan. Google, sebuah syarikat gergasi yang sentiasa unggul dalam arena teknologi, telah secara rasmi memperkenalkan inovasi terbarunya: Gemini 2.5. Ini bukan sekadar kemas kini tambahan; ia mewakili keluarga baharu model AI yang direka bentuk dengan keupayaan teras yang meniru aspek asas kognisi manusia – keupayaan untuk berhenti seketika, merenung, dan menaakul sebelum memberikan jawapan. Proses ‘berfikir’ yang disengajakan ini menandakan peralihan penting daripada respons segera, kadangkala kurang dipertimbangkan, yang menjadi ciri generasi AI terdahulu.

Memperkenalkan Gemini 2.5 Pro Experimental: Peneraju AI yang Bertimbang Rasa

Menerajui generasi baharu ini ialah Gemini 2.5 Pro Experimental. Google meletakkan model penaakulan multimodal ini bukan sahaja sebagai penambahbaikan, tetapi berpotensi sebagai ciptaannya yang paling pintar setakat ini. Akses kepada teknologi canggih ini dilancarkan secara strategik. Pembangun boleh mula memanfaatkan keupayaannya serta-merta melalui Google AI Studio, platform khusus syarikat untuk penerokaan AI dan pembinaan aplikasi. Pada masa yang sama, pelanggan perkhidmatan AI premium Google, Gemini Advanced – yang membawa yuran bulanan $20 – akan mendapati kuasa penaakulan yang dipertingkatkan disepadukan ke dalam pengalaman aplikasi Gemini mereka.

Pelancaran awal ini menandakan hala tuju strategik yang lebih luas untuk Google. Syarikat itu secara eksplisit menyatakan bahawa semua model AI masa depan yang muncul dari makmalnya akan menggabungkan keupayaan penaakulan lanjutan ini. Ia adalah satu pengisytiharan bahawa AI yang ‘berfikir’ bukan sekadar ciri, tetapi prinsip asas yang Google berhasrat untuk membina masa depan AI-nya. Komitmen ini menekankan kepentingan yang dirasakan untuk bergerak melangkaui pengecaman corak dan penjanaan teks kebarangkalian ke arah sistem yang mempamerkan kemahiran analisis dan penyelesaian masalah yang lebih mantap.

Pencarian Penaakulan Buatan di Seluruh Industri

Langkah Google tidak berlaku dalam vakum. Pendedahan Gemini 2.5 adalah serangan terkini dalam perlumbaan teknologi yang semakin meningkat yang berpusat pada pemberian keupayaan penaakulan kepada AI. Perlumbaan khusus ini boleh dikatakan bermula pada September 2024, apabila OpenAI memperkenalkan o1, model perintisnya yang direka bentuk secara eksplisit untuk tugas penaakulan yang kompleks. Sejak itu, landskap persaingan telah bertambah sengit dengan pantas.

Pemain utama di seluruh dunia telah berebut untuk membangunkan dan menggunakan pesaing mereka sendiri:

Anthropic, terkenal dengan tumpuannya pada keselamatan AI dan siri model Claude-nya.
DeepSeek, makmal AI yang bercita-cita tinggi berasal dari China, membuat kemajuan ketara dalam prestasi model.
xAI, usaha niaga Elon Musk yang bertujuan untuk memahami sifat sebenar alam semesta melalui AI.
Dan kini, Google, memanfaatkan sumbernya yang luas dan kepakaran penyelidikan yang mendalam dengan keluarga Gemini 2.5.

Konsep teras di sebalik model penaakulan ini melibatkan pertukaran. Mereka sengaja menggunakan sumber pengkomputeran dan masa tambahan berbanding rakan sejawat mereka yang bertindak balas lebih pantas. ‘Jeda’ ini membolehkan AI terlibat dalam proses dalaman yang lebih kompleks. Ini mungkin termasuk:

Menyahbina gesaan kompleks: Memecahkan soalan atau arahan yang rumit kepada sub-masalah yang lebih kecil dan boleh diurus.
Menyemak fakta pengetahuan dalaman: Mengesahkan maklumat terhadap data latihannya atau sumber luaran yang berpotensi (jika didayakan).
Menilai pelbagai laluan penyelesaian yang berpotensi: Meneroka barisan penaakulan yang berbeza sebelum memilih yang paling logik atau tepat.
Penyelesaian masalah langkah demi langkah: Bekerja secara metodik melalui urutan logik, terutamanya penting untuk cabaran matematik dan pengekodan.

Pendekatan yang disengajakan ini telah menghasilkan keputusan yang mengagumkan, terutamanya dalam domain yang menuntut ketepatan dan ketegasan logik.

Mengapa Penaakulan Penting: Daripada Pakar Matematik kepada Ejen Autonomi

Pelaburan dalam keupayaan penaakulan didorong oleh faedah ketara yang diperhatikan merentasi pelbagai tugas yang mencabar. Model AI yang dilengkapi dengan teknik ini telah menunjukkan prestasi yang jauh lebih baik dalam bidang yang secara tradisinya mencabar model bahasa, seperti:

Matematik: Menyelesaikan persamaan kompleks, membuktikan teorem, dan memahami konsep matematik abstrak.
Pengekodan dan Pembangunan Perisian: Menjana kod yang lebih dipercayai, menyahpepijat program kompleks, memahami pangkalan kod yang rumit, dan juga mereka bentuk seni bina perisian.

Keupayaan untuk menaakul masalah langkah demi langkah, mengenal pasti kesilapan logik, dan mengesahkan penyelesaian menjadikan model ini alat yang berkuasa untuk pembangun, jurutera, dan saintis.

Di luar aplikasi segera ini, ramai pakar dalam sektor teknologi melihat model penaakulan sebagai batu loncatan kritikal ke arah matlamat yang lebih bercita-cita tinggi: ejen AI. Ini dibayangkan sebagai sistem autonomi yang mampu memahami objektif, merancang tindakan berbilang langkah, dan melaksanakan tugas dengan pengawasan manusia yang minimum. Bayangkan ejen AI yang mampu mengurus jadual anda, menempah perjalanan, menjalankan penyelidikan kompleks, atau bahkan mengurus saluran paip penggunaan perisian secara autonomi. Kapasiti untuk penaakulan, perancangan, dan pembetulan diri yang mantap adalah asas untuk merealisasikan visi ini.

Walau bagaimanapun, keupayaan yang dipertingkatkan ini datang dengan kos literal. Peningkatan permintaan pengkomputeran diterjemahkan secara langsung kepada perbelanjaan operasi yang lebih tinggi. Menjalankan model penaakulan memerlukan perkakasan yang lebih berkuasa dan menggunakan lebih banyak tenaga, menjadikannya secara semula jadi lebih mahal untuk dikendalikan dan, akibatnya, berpotensi lebih mahal untuk pengguna akhir atau pembangun yang mengintegrasikannya melalui API. Faktor ekonomi ini berkemungkinan akan mempengaruhi penggunaannya, berpotensi menyimpannya untuk tugas bernilai tinggi di mana ketepatan dan kebolehpercayaan yang dipertingkatkan mewajarkan perbelanjaan tambahan.

Langkah Strategik Google: Meningkatkan Keturunan Gemini

Walaupun Google sebelum ini telah meneroka model yang menggabungkan masa ‘berfikir’, seperti versi awal Gemini yang dikeluarkan pada bulan Disember, keluarga Gemini 2.5 mewakili usaha yang jauh lebih bersepadu dan signifikan secara strategik. Pelancaran ini jelas bertujuan untuk mencabar kelebihan yang dirasakan oleh pesaing, terutamanya siri ‘o’ OpenAI, yang telah mendapat perhatian yang signifikan untuk kehebatan penaakulannya.

Google menyokong Gemini 2.5 Pro dengan tuntutan prestasi yang berani. Syarikat itu menegaskan bahawa model baharu ini bukan sahaja mengatasi model AI peringkat teratasnya sebelum ini tetapi juga bersaing dengan baik berbanding model terkemuka daripada pesaing pada beberapa penanda aras standard industri. Fokus reka bentuk, menurut Google, ditujukan terutamanya untuk cemerlang dalam dua bidang utama:

Penciptaan Aplikasi Web yang Menarik Secara Visual: Mencadangkan keupayaan yang melangkaui penjanaan teks ke dalam pemahaman dan pelaksanaan prinsip reka bentuk antara muka pengguna dan logik pembangunan bahagian hadapan.
Aplikasi Pengekodan Agentik: Mengukuhkan idea bahawa model ini dibina untuk tugas yang memerlukan perancangan, penggunaan alat, dan penyelesaian masalah yang kompleks dalam domain pembangunan perisian.

Tuntutan ini meletakkan Gemini 2.5 Pro sebagai alat serba boleh yang ditujukan tepat kepada pembangun dan pencipta yang menolak sempadan aplikasi AI.

Menanda Aras Kuasa Otak: Bagaimana Gemini 2.5 Pro Bersaing

Prestasi dalam alam AI sering diukur melalui ujian piawai, atau penanda aras, yang direka untuk menyiasat keupayaan tertentu. Google telah mengeluarkan data yang membandingkan Gemini 2.5 Pro Experimental dengan pesaingnya pada beberapa penilaian utama:

Aider Polyglot: Penanda aras ini secara khusus mengukur keupayaan model untuk menyunting kod sedia ada merentasi pelbagai bahasa pengaturcaraan. Ia adalah ujian praktikal yang mencerminkan aliran kerja pembangun dunia sebenar. Pada ujian ini, Google melaporkan bahawa Gemini 2.5 Pro mencapai skor 68.6%. Angka ini, menurut Google, meletakkannya di hadapan model teratas dari OpenAI, Anthropic, dan DeepSeek dalam tugas penyuntingan kod khusus ini. Ini menunjukkan keupayaan yang kuat dalam memahami dan mengubah suai pangkalan kod yang kompleks.
SWE-bench Verified: Satu lagi penanda aras penting yang tertumpu pada pembangunan perisian, SWE-bench menilai keupayaan untuk menyelesaikan isu GitHub dunia sebenar, pada asasnya menguji penyelesaian masalah praktikal dalam kejuruteraan perisian. Di sini, keputusannya memberikan gambaran yang lebih bernuansa. Gemini 2.5 Pro mendapat skor 63.8%. Walaupun ini mengatasi o3-mini OpenAI dan model R1 DeepSeek, ia ketinggalan berbanding Claude 3.7 Sonnet Anthropic, yang mendahului penanda aras khusus ini dengan skor 70.3%. Ini menonjolkan sifat kompetitif bidang ini, di mana model yang berbeza mungkin cemerlang pada aspek yang berbeza bagi tugas kompleks seperti pembangunan perisian.
Humanity’s Last Exam (HLE): Ini adalah penanda aras multimodal yang mencabar, bermakna ia menguji keupayaan AI untuk memahami dan menaakul merentasi pelbagai jenis data (teks, imej, dll.). Ia terdiri daripada beribu-ribu soalan sumber khalayak yang merangkumi matematik, kemanusiaan, dan sains semula jadi, yang direka bentuk untuk menjadi sukar bagi kedua-dua manusia dan AI. Google menyatakan bahawa Gemini 2.5 Pro mencapai skor 18.8% pada HLE. Walaupun peratusan ini mungkin kelihatan rendah secara mutlak, Google menunjukkan bahawa ia mewakili prestasi yang kukuh, mengatasi kebanyakan model perdana saingan pada ujian yang terkenal sukar dan luas ini. Kejayaan di sini menunjukkan keupayaan penaakulan dan penyepaduan pengetahuan yang lebih umum.

Keputusan penanda aras ini, walaupun dibentangkan secara terpilih oleh Google, memberikan titik data yang berharga. Mereka mencadangkan Gemini 2.5 Pro adalah model yang sangat kompetitif, terutamanya kuat dalam penyuntingan kod dan penaakulan multimodal umum, sambil mengakui bidang di mana pesaing seperti Anthropic kini mempunyai kelebihan (tugas kejuruteraan perisian tertentu). Ia menekankan idea bahawa tidak semestinya ada satu model ‘terbaik’, tetapi sebaliknya model dengan kekuatan dan kelemahan yang berbeza-beza bergantung pada aplikasi tertentu.

Memperluas Horizon: Tetingkap Konteks yang Luas

Di luar kuasa penaakulan mentah, satu lagi ciri utama Gemini 2.5 Pro ialah tetingkap konteksnya yang besar. Sebagai permulaan, model ini dihantar dengan keupayaan untuk memproses 1 juta token dalam satu input. Token ialah unit asas data (seperti perkataan atau bahagian perkataan) yang diproses oleh model AI. Tetingkap 1 juta token diterjemahkan secara kasar kepada keupayaan untuk menelan dan mempertimbangkan kira-kira 750,000 perkataan sekaligus.

Untuk meletakkannya dalam perspektif:

Kapasiti ini melebihi jumlah keseluruhan perkataan trilogi ‘Lord of The Rings’ J.R.R. Tolkien.
Ia membolehkan model menganalisis repositori kod yang luas, dokumen undang-undang yang panjang, kertas penyelidikan yang panjang, atau keseluruhan buku tanpa kehilangan jejak maklumat yang dibentangkan sebelum ini.

Tetingkap konteks yang besar ini membuka kemungkinan baharu. Model boleh mengekalkan koheren dan merujuk maklumat merentasi interaksi atau dokumen yang sangat panjang, membolehkan analisis, ringkasan, dan jawapan soalan yang lebih kompleks ke atas set data yang besar.

Tambahan pula, Google telah pun memberi isyarat bahawa ini hanyalah titik permulaan. Syarikat itu merancang untuk menggandakan kapasiti ini tidak lama lagi, membolehkan Gemini 2.5 Pro menyokong input sehingga 2 juta token. Pengembangan berterusan keupayaan pengendalian konteks ini adalah trend kritikal, membolehkan AI menangani tugas yang semakin kompleks dan padat maklumat yang sebelum ini tidak dapat diselesaikan. Ia menggerakkan AI lebih jauh daripada bot soal jawab mudah ke arah menjadi rakan kongsi analisis yang berkuasa yang mampu mensintesis sejumlah besar maklumat.

Pandangan ke Hadapan: Harga dan Pembangunan Masa Depan

Walaupun spesifikasi teknikal dan prestasi penanda aras menarik, penggunaan praktikal sering bergantung pada kebolehcapaian dan kos. Pada masa ini, Google belum mengeluarkan harga Antara Muka Pengaturcaraan Aplikasi (API) untuk Gemini 2.5 Pro. Maklumat ini penting untuk pembangun dan perniagaan yang merancang untuk mengintegrasikan model ke dalam aplikasi dan perkhidmatan mereka sendiri. Google telah menyatakan bahawa butiran mengenai struktur harga akan dikongsi dalam beberapa minggu akan datang.

Pelancaran Gemini 2.5 Pro Experimental menandakan permulaan bab baharu untuk usaha AI Google. Sebagai peserta pertama dalam keluarga Gemini 2.5, ia menetapkan pentas untuk model masa depan yang mungkin menggabungkan keupayaan penaakulan yang serupa, berpotensi disesuaikan untuk skala, kos, atau modaliti tertentu yang berbeza. Tumpuan pada penaakulan, ditambah dengan tetingkap konteks yang berkembang, jelas menandakan cita-cita Google untuk kekal di barisan hadapan dalam bidang kecerdasan buatan yang pesat membangun, menyediakan alat yang mampu bukan sahaja menjana kandungan, tetapi terlibat dalam proses pemikiran yang lebih mendalam, lebih seperti manusia. Persaingan sudah pasti akan bertindak balas, memastikan bahawa perlumbaan ke arah AI yang lebih pintar dan berkebolehan berterusan pada kadar yang sangat pantas.

dikemaskinikan pada 2025-03-26

# Google # Gemini # Agent