Gemini 2.5: Kecerdasan Luar Biasa | id

Di I/O 2025, Google mengungkap serangkaian pembaruan inovatif untuk seri model Gemini 2.5, bersama dengan fitur eksperimental inovatif yang dikenal sebagai Deep Think, yang dirancang untuk meningkatkan kemampuan penalaran model 2.5 Pro. Kemajuan ini menandai lompatan signifikan ke depan dalam bidang kecerdasan buatan, menawarkan kepada pengembang dan pengguna tingkat kinerja, efisiensi, dan fleksibilitas yang belum pernah terjadi sebelumnya.

Model Gemini 2.5 Pro telah mendapatkan pujian luas dari para pengembang sebagai solusi utama untuk tugas pengkodean, sementara model 2.5 Flash akan menerima peningkatan substansial. Selain itu, Google memperkenalkan berbagai kemampuan baru di seluruh modelnya, termasuk Deep Think, mode penalaran tingkat lanjut eksperimental yang secara khusus disesuaikan untuk model 2.5 Pro.

Dalam pengumuman sebelumnya, Google mengungkap Gemini 2.5 Pro, modelnya yang paling cerdas hingga saat ini, dan mempercepat rilis pembaruan I/O-nya untuk memberdayakan para pengembang dalam membuat aplikasi web yang luar biasa. Hari ini, perusahaan berbagi penyempurnaan lebih lanjut untuk seri model Gemini 2.5, yang membanggakan pencapaian luar biasa:

Gemini 2.5 Pro telah melampaui semua harapan, menunjukkan kinerja luar biasa pada tolok ukur akademik. Sekarang memegang posisi teratas di papan peringkat WebDev Arena dan LMArena, memperkuat statusnya sebagai model terkemuka dunia untuk bantuan pengkodean dan pembelajaran.
Fitur-fitur baru sedang diintegrasikan ke dalam 2.5 Pro dan 2.5 Flash, termasuk output audio asli untuk pengalaman percakapan yang lebih alami dan menarik, langkah-langkah keamanan tingkat lanjut, dan integrasi kemampuan penggunaan komputer Proyek Mariner. Model 2.5 Pro akan ditingkatkan lebih lanjut dengan Deep Think, mode eksperimental yang dirancang untuk meningkatkan penalaran untuk masalah matematika dan pengkodean yang rumit.
Google tetap berkomitmen untuk meningkatkan pengalaman pengembang melalui penggabungan ringkasan pemikiran di Gemini API dan Vertex AI. Ringkasan ini menawarkan transparansi yang lebih tinggi, anggaran berpikir yang diperluas untuk 2.5 Pro untuk memastikan kontrol yang lebih besar, dan dukungan untuk alat MCP di Gemini API dan SDK untuk akses ke berbagai alat sumber terbuka yang lebih luas.
Model 2.5 Flash sekarang dapat diakses secara universal di dalam aplikasi Gemini. Versi yang diperbarui akan segera tersedia di Google AI Studio untuk pengembang dan di Vertex AI untuk perusahaan, yang dijadwalkan pada awal Juni, dengan 2.5 Pro menyusul segera setelahnya.

Kemajuan luar biasa ini adalah hasil dari dedikasi tanpa henti dari tim Google, yang berkomitmen untuk terus meningkatkan teknologinya dan menerapkannya dengan cara yang aman dan bertanggung jawab.

Mengungkap Kinerja Superior 2.5 Pro

Model 2.5 Pro baru-baru ini diperbarui untuk memberdayakan para pengembang dalam menciptakan aplikasi web yang lebih interaktif dan kaya fitur. Umpan balik positif yang diterima dari pengguna dan pengembang sangat diapresiasi, dan peningkatan berkelanjutan akan terus diimplementasikan berdasarkan masukan pengguna.

Selain kinerjanya yang luar biasa pada tolok ukur akademik, iterasi terbaru 2.5 Pro telah merebut posisi teratas di papan peringkat pengkodean populer, WebDev Arena, dengan skor ELO yang mengesankan sebesar 1415. Ia juga memimpin di semua papan peringkat LMArena, yang mengevaluasi preferensi manusia berdasarkan berbagai kriteria. Selain itu, dilengkapi dengan jendela konteks 1 juta token, 2.5 Pro memberikan kinerja canggih dalam pemahaman konteks panjang dan video.

Dengan mengintegrasikan LearnLM, keluarga model yang dikembangkan bekerja sama dengan para ahli pendidikan, 2.5 Pro telah menjadi model terkemuka untuk pembelajaran. Dalam perbandingan langsung yang mengevaluasi pedagogi dan efektivitasnya, para pendidik dan ahli lebih menyukai Gemini 2.5 Pro daripada model lain di berbagai skenario. Ia juga melampaui model-model teratas di kelima prinsip ilmu pembelajaran, yang digunakan untuk membangun sistem AI untuk pembelajaran. Ini menyoroti efektivitasnya dalam konteks pendidikan, menawarkan strategi pengajaran yang disesuaikan dan efektif.

Deep Think: Mendorong Batas Penalaran

Google secara aktif mengeksplorasi batas kemampuan kognitif Gemini dan mulai bereksperimen dengan mode penalaran tingkat lanjut yang disebut Deep Think. Mode inovatif ini menggunakan teknik penelitian mutakhir, yang memungkinkan model untuk mengevaluasi berbagai hipotesis sebelum merumuskan respons. Pendekatan ini meningkatkan proses pengambilan keputusan, memungkinkan hasil yang lebih canggih dan bernuansa dalam situasi yang kompleks.

Gemini 2.5 Pro Deep Think mencapai skor yang mengesankan pada USAMO 2025, yang secara luas diakui sebagai salah satu tolok ukur matematika yang paling menantang. Ia juga unggul di LiveCodeBench, tolok ukur yang menuntut untuk pengkodean tingkat kompetisi, dan meraih skor 84,0% pada MMMU, yang menilai penalaran multimodal. Hasil ini menggarisbawahi kinerja luar biasa Deep Think dalam menangani tugas-tugas kompleks, menunjukkan masa depan yang menjanjikan untuk pemecahan masalah AI tingkat lanjut.

Mengingat bahwa 2.5 Pro Deep Think mendorong batas dari apa yang mungkin, Google meluangkan waktu tambahan untuk melakukan evaluasi keselamatan yang menyeluruh dan meminta masukan lebih lanjut dari para ahli keselamatan. Perusahaan juga akan memberi penguji tertentu akses ke Gemini API untuk mengumpulkan umpan balik sebelum membuatnya tersedia secara luas. Pendekatan yang hati-hati dan disengaja ini bertujuan untuk memastikan penerapan teknologi AI tingkat lanjut yang bertanggung jawab.

Memperkenalkan 2.5 Flash yang Ditingkatkan

Model 2.5 Flash, yang dikenal karena efisiensi dan efektivitas biayanya, telah disempurnakan di berbagai dimensi. Ia telah menunjukkan peningkatan di seluruh tolok ukur penting untuk penalaran, multimodalitas, penanganan kode, dan konteks panjang, sambil secara bersamaan menjadi lebih efisien, menggunakan antara 20-30% lebih sedikit token dalam evaluasi. Ini menyoroti kinerja yang dioptimalkan dan manajemen sumber dayanya.

5 Flash baru saat ini tersedia untuk pratinjau di Google AI Studio untuk pengembang, di Vertex AI untuk aplikasi perusahaan, dan di aplikasi Gemini untuk pengguna umum. Dijadwalkan untuk ketersediaan umum pada awal Juni, sehingga dapat diakses untuk lingkungan produksi.

Kemampuan Baru Gemini 2.5

Peningkatan pada Output Audio Asli dan Live API

Live API memperkenalkan versi pratinjau input audio-visual dan dialog output audio asli, yang memungkinkan pengguna untuk menciptakan pengalaman percakapan dengan Gemini yang lebih alami dan ekspresif. Fitur ini memungkinkan aplikasi yang lebih menarik dan interaktif. Kemampuan AI untuk menghasilkan respons audio yang nyata secara signifikan meningkatkan interaksi pengguna dengan menciptakan cara berkomunikasi yang lebih intuitif.

Live API memberdayakan pengguna untuk mengarahkan nada, aksen, dan gaya berbicara model. Misalnya, model dapat diinstruksikan untuk mengadopsi suara dramatis saat menceritakan sebuah cerita. Ia juga mendukung penggunaan alat, yang memungkinkannya untuk melakukan pencarian atas nama pengguna. Fleksibilitas dalam kontrol suara dan akses ke alat eksternal membuat model ini sangat serbaguna dan berharga di berbagai skenario aplikasi.

Pengguna dapat bereksperimen dengan berbagai fitur awal, termasuk:

Dialog Afektif: Model mendeteksi emosi dalam suara pengguna dan meresponsnya dengan tepat. Fungsionalitas ini menambahkan lapisan kecerdasan emosional ke AI, membuat interaksi lebih personal.
Audio Proaktif: Model mengabaikan percakapan latar belakang dan tahu kapan harus merespons, meminimalkan gangguan dan meningkatkan kejelasan. Fitur ini meningkatkan kualitas interaksi, memungkinkan komunikasi yang lebih efisien dan fokus.
Berpikir di Live API: Model memanfaatkan kemampuan berpikir Gemini untuk mendukung tugas-tugas yang lebih kompleks. Hal ini memungkinkan analisis dan pertimbangan yang lebih dalam saat menangani tugas-tugas kompleks, membuatnya sangat berharga dalam bidang yang membutuhkan solusi yang tepat dan mendalam.

Google juga merilis pratinjau baru untuk fungsionalitas text-to-speech di 2.5 Pro dan 2.5 Flash. Ini memberikan dukungan pertama dari jenisnya untuk beberapa speaker, memungkinkan text-to-speech dengan dua suara melalui output audio asli. Fitur ini sangat berharga untuk menciptakan narasi dan dialog yang menarik dalam aplikasi multimedia.

Seperti dialog Audio Asli, text-to-speech ekspresif dan dapat menangkap nuansa halus seperti bisikan. Ia mendukung lebih dari 24 bahasa dan beralih di antara mereka dengan lancar, menjadikannya alat yang serbaguna untuk komunikasi global. Kehalusan dalam penggunaan bahasa ini memperkaya pengalaman pengguna, memfasilitasi proses komunikasi yang lebih bernuansa dan personal.

Kemampuan text-to-speech ini akan tersedia nanti hari ini di Gemini API.

Antarmuka Komputer yang Ditingkatkan

Google memperkenalkan kemampuan penggunaan komputer Proyek Mariner ke dalam Gemini API dan Vertex AI. Perusahaan-perusahaan yang berpikiran maju seperti Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company, dan Cartwheel sedang menjajaki potensinya. Google menantikan peluncuran yang lebih luas bagi para pengembang untuk bereksperimen dengan kemampuan ini musim panas ini, membuka jalan bagi proyek dan solusi inovatif. Kemampuan untuk mengintegrasikan model AI secara langsung dengan antarmuka komputer mengarah pada solusi alur kerja yang lebih efisien dan produktif di berbagai industri.

Langkah-langkah Keamanan yang Unggul

Google telah secara signifikan memperkuat perlindungannya terhadap ancaman keamanan, seperti injeksi prompt tidak langsung. Ini melibatkan penyematan instruksi berbahaya ke dalam data yang diambil oleh model AI. Pendekatan keamanan baru Google telah secara substansial meningkatkan tingkat perlindungan Gemini terhadap serangan injeksi prompt tidak langsung selama penggunaan alat, menjadikan Gemini 2.5 keluarga modelnya yang paling aman hingga saat ini. Keamanan yang ditingkatkan ini menjamin pengguna pengalaman yang aman dan andal saat mengadopsi solusi berbasis AI.

Pengalaman Pengembang yang Ditingkatkan

Ringkasan Pemikiran

Baik 2.5 Pro maupun Flash sekarang akan menyertakan ringkasan pemikiran di Gemini API dan di Vertex AI. Ringkasan ini mengambil pikiran mentah model dan mengaturnya ke dalam format yang jelas dengan header, detail utama, dan informasi tentang tindakan model, seperti saat mereka menggunakan alat. Dengan menawarkan wawasan tentang proses analitis AI, ringkasan pemikiran membantu dalam memahami dan men-debug masalah dalam sistem AI, meningkatkan efisiensi dan desain sistem.

Dengan format yang lebih terstruktur dan efisien pada proses berpikir model, pengembang dan pengguna akan merasa interaksi dengan model Gemini lebih mudah dipahami dan di-debug.

Anggaran Berpikir

Google meluncurkan 2.5 Flash dengan anggaran berpikir untuk memberi para pengembang kontrol yang lebih besar atas biaya dengan menyeimbangkan latensi dan kualitas. Kemampuan ini sekarang diperluas ke 2.5 Pro, memberi Anda opsi penyetelan yang lebih baik. Dengan mengontrol token yang digunakan dan mengoptimalkan sumber daya, para pengembang dapat mencapai keseimbangan yang tepat antara biaya komputasi dan efektivitas solusi, membuat implementasi AI menjadi ekonomis dan efisien.

Ini memungkinkan kontrol penuh atas jumlah token yang digunakan model untuk berpikir sebelum merespons, atau bahkan untuk mematikan kemampuan berpikirnya.

Gemini 2.5 Pro dengan anggaran akan tersedia secara umum untuk penggunaan produksi yang stabil dalam beberapa minggu mendatang, bersama dengan model yang tersedia secara umum.

Dukungan untuk Alat MCP

Google telah menambahkan dukungan SDK asli untuk definisi Model Context Protocol (MCP) di Gemini API untuk integrasi yang lebih mudah dengan alat sumber terbuka. Metode penyebaran yang berbeda, seperti server MCP dan alat yang dihosting, dieksplorasi untuk memudahkan pengguna membangun aplikasi agentik. Ini meningkatkan lingkungan pengembangan AI melalui berbagai opsi yang lebih luas untuk integrasi alat dan kolaborasi pada proyek.

Inovasi berkelanjutan adalah kunci dalam komitmen berkelanjutan untuk meningkatkan model dan pengalaman pengembang, membuatnya lebih efisien, berkinerja, dan responsif terhadap umpan balik pengembang. Tingkatkan keluasan dan kedalaman penelitian mendasar untuk mendorong batas kemampuan Gemini. Ada lebih banyak lagi yang akan datang di masa depan.

diperbarui pada 2025-05-22

# Google # Gemini # AGI