Mengungkap Gemini: Keluarga AI Generatif Google Generasi Berikutnya
Gemini adalah langkah ambisius Google ke dalam generasi model AI berikutnya. Dikembangkan melalui upaya kolaboratif DeepMind dan Google Research, laboratorium penelitian AI terkemuka Google, Gemini bukanlah entitas tunggal melainkan keluarga model, yang masing-masing dirancang untuk tugas dan tingkat kinerja tertentu. Keluarga ini meliputi:
- Gemini Ultra: Model terberat dalam keluarga, dirancang untuk tugas yang sangat kompleks yang membutuhkan daya komputasi substansial. (Saat ini tidak tersedia)
- Gemini Pro: Model yang kuat, lebih kecil dari Ultra, tetapi mampu menangani berbagai tugas. Gemini 2.0 Pro, iterasi terbaru, saat ini menjadi andalan Google.
- Gemini Flash: Versi Pro yang disederhanakan dan ‘disuling’, memprioritaskan kecepatan dan efisiensi.
- Gemini Flash-Lite: Versi Gemini Flash yang sedikit dikurangi dan lebih cepat.
- Gemini Flash Thinking: Model yang menampilkan kemampuan ‘penalaran’.
- Gemini Nano: Terdiri dari dua model ringkas, Nano-1 dan Nano-2 yang sedikit lebih kuat, direkayasa untuk operasi offline pada perangkat.
Karakteristik yang menentukan dari semua model Gemini adalah multimodalitas inherennya. Tidak seperti model yang dilatih hanya pada data teks, seperti LaMDA Google, model Gemini mahir dalam memproses dan menganalisis beragam jenis data. Mereka telah dilatih pada dataset besar yang mencakup audio, gambar, video, basis kode, dan teks publik, berpemilik, dan berlisensi dalam berbagai bahasa.
Sifat multimodal ini memungkinkan Gemini untuk melampaui keterbatasan model khusus teks. Sementara LaMDA terbatas pada input dan output berbasis teks, model Gemini, khususnya versi Flash dan Pro yang lebih baru, dapat secara native menghasilkan gambar dan audio di samping teks.
Namun, implikasi etis dan hukum dari pelatihan model AI pada data yang tersedia untuk umum, seringkali tanpa persetujuan eksplisit dari pemilik data, tetap menjadi masalah yang kompleks. Meskipun Google menawarkan kebijakan ganti rugi AI untuk melindungi pelanggan Google Cloud tertentu dari potensi tuntutan hukum, kebijakan ini memiliki batasan. Pengguna, terutama mereka yang berniat menggunakan Gemini untuk tujuan komersial, harus berhati-hati.
Aplikasi Gemini vs. Model Gemini: Memahami Perbedaannya
Sangat penting untuk membedakan antara model Gemini dan aplikasi Gemini yang tersedia di platform web dan seluler (sebelumnya dikenal sebagai Bard).
Aplikasi Gemini berfungsi sebagai klien, terhubung ke berbagai model Gemini dan menyajikan antarmuka yang ramah pengguna, seperti chatbot. Mereka berfungsi sebagai ujung depan untuk berinteraksi dengan kemampuan AI generatif Google.
Pada perangkat Android, aplikasi Gemini menggantikan aplikasi Google Assistant. Di iOS, aplikasi Google dan Google Search bertindak sebagai klien Gemini.
Pengguna Android dapat menggunakan overlay Gemini untuk mengajukan pertanyaan tentang konten yang ditampilkan di layar mereka, seperti video YouTube. Overlay ini dipicu dengan menekan dan menahan tombol daya smartphone yang didukung atau dengan menggunakan perintah suara ‘Hey Google.’
Aplikasi Gemini serbaguna, menerima gambar, perintah suara, dan teks sebagai input. Mereka dapat memproses file seperti PDF, baik yang diunggah secara langsung atau diimpor dari Google Drive, dan menghasilkan gambar. Percakapan yang dimulai dengan aplikasi Gemini di ponsel disinkronkan dengan mulus dengan Gemini di web, asalkan pengguna masuk ke Akun Google yang sama.
Gemini Advanced: Membuka Fitur AI Premium
Aplikasi Gemini bukanlah satu-satunya pintu gerbang untuk memanfaatkan kekuatan model Gemini. Google secara progresif mengintegrasikan fitur-fitur yang didukung Gemini ke dalam aplikasi dan layanan intinya, termasuk Gmail dan Google Docs.
Untuk memanfaatkan sepenuhnya kemampuan ini, pengguna biasanya memerlukan Google One AI Premium Plan. Paket ini, secara teknis merupakan komponen dari Google One, berharga $20 per bulan dan memberikan akses ke Gemini dalam aplikasi Google Workspace seperti Docs, Maps, Slides, Sheets, Drive, dan Meet. Ini juga membuka ‘Gemini Advanced,’ yang menyediakan akses ke model Gemini Google yang lebih canggih dalam aplikasi Gemini.
Pengguna Gemini Advanced menikmati manfaat tambahan, seperti akses prioritas ke fitur dan model baru, kemampuan untuk mengeksekusi dan memodifikasi kode Python secara langsung di dalam Gemini, dan batas yang diperluas untuk NotebookLM, alat Google untuk mengubah PDF menjadi podcast yang dihasilkan AI. Tambahan terbaru untuk Gemini Advanced adalah fitur memori yang menyimpan preferensi pengguna dan memungkinkan Gemini untuk mereferensikan percakapan sebelumnya, memberikan konteks untuk interaksi saat ini.
Salah satu fitur paling menarik yang eksklusif untuk Gemini Advanced adalah ‘Deep Research.’ Fitur ini memanfaatkan model Gemini dengan kemampuan penalaran yang ditingkatkan untuk menghasilkan ringkasan terperinci. Menanggapi prompt, seperti ‘Bagaimana saya harus mendesain ulang dapur saya?’, Deep Research merumuskan rencana penelitian multi-langkah, menjelajahi web, dan menyusun jawaban yang komprehensif.
Di dalam Gmail, Gemini berada di panel samping, yang mampu menyusun email dan meringkas utas pesan. Panel serupa muncul di Docs, membantu penulisan konten, penyempurnaan, dan curah pendapat. Di Slides, Gemini menghasilkan slide dan gambar khusus. Di Google Sheets, ini membantu dalam pelacakan data, pengorganisasian, dan pembuatan formula.
Kehadiran Gemini meluas ke Google Maps, di mana ia mengumpulkan ulasan tentang bisnis lokal dan menawarkan rekomendasi, seperti saran rencana perjalanan untuk mengunjungi kota asing. Kemampuan chatbot juga mencakup Drive, di mana ia dapat meringkas file dan folder dan memberikan informasi singkat tentang proyek.
Gemini baru-baru ini diintegrasikan ke dalam browser Chrome Google sebagai alat tulis AI. Alat ini dapat digunakan untuk membuat konten yang sama sekali baru atau menulis ulang teks yang ada, dengan mempertimbangkan konteks halaman web saat ini untuk memberikan rekomendasi yang disesuaikan.
Di luar aplikasi inti ini, jejak Gemini dapat ditemukan di produk database Google, alat keamanan cloud, dan platform pengembangan aplikasi (termasuk Firebase dan Project IDX). Ini juga mendukung fitur dalam aplikasi seperti Google Photos (kueri pencarian bahasa alami), YouTube (curah pendapat ide video), dan Meet (terjemahan teks).
Code Assist (sebelumnya Duet AI for Developers), rangkaian alat bertenaga AI Google untuk penyelesaian dan pembuatan kode, mengandalkan Gemini untuk tugas-tugas yang intensif secara komputasi. Demikian pula, produk keamanan Google, seperti Gemini in Threat Intelligence, menggunakan Gemini untuk menganalisis kode yang berpotensi berbahaya dan memfasilitasi pencarian bahasa alami untuk ancaman dan indikator kompromi.
Ekstensi dan Gems Gemini: Menyesuaikan Pengalaman AI
Pengguna Gemini Advanced memiliki kemampuan untuk membuat ‘Gems,’ chatbot khusus yang didukung oleh model Gemini, dapat diakses di platform desktop dan seluler. Gems dapat dihasilkan dari deskripsi bahasa alami, seperti ‘Anda adalah pelatih lari saya. Beri saya rencana lari harian,’ dan dapat dibagikan dengan pengguna lain atau dirahasiakan.
Aplikasi Gemini dapat berintegrasi dengan berbagai layanan Google melalui ‘ekstensi Gemini.’ Ekstensi ini memungkinkan Gemini untuk berinteraksi dengan Drive, Gmail, YouTube, dan layanan lainnya, memungkinkannya untuk menanggapi pertanyaan seperti ‘Bisakah Anda meringkas tiga email terakhir saya?’
Gemini Live: Terlibat dalam Percakapan Suara yang Mendalam
‘Gemini Live’ menawarkan pengalaman yang imersif, memungkinkan pengguna untuk terlibat dalam percakapan suara terperinci dengan Gemini. Fitur ini tersedia dalam aplikasi Gemini di perangkat seluler dan di Pixel Buds Pro 2, di mana ia dapat diakses bahkan ketika ponsel terkunci.
Dengan Gemini Live, pengguna dapat menyela Gemini saat berbicara untuk mengajukan pertanyaan klarifikasi, dan chatbot beradaptasi dengan pola bicara secara real-time. Live juga dirancang untuk berfungsi sebagai pelatih virtual, membantu persiapan acara, curah pendapat, dan tugas lainnya. Misalnya, Live dapat menyarankan keterampilan untuk disorot selama wawancara kerja dan memberikan tips berbicara di depan umum.
Gemini untuk Remaja: Pengalaman AI yang Disesuaikan untuk Siswa
Google menyediakan pengalaman Gemini khusus yang dirancang untuk siswa remaja.
Versi Gemini yang berfokus pada remaja ini menggabungkan ‘kebijakan dan perlindungan tambahan,’ termasuk proses orientasi yang disesuaikan dan panduan literasi AI. Terlepas dari modifikasi ini, ia sangat mirip dengan pengalaman Gemini standar, termasuk fitur ‘periksa ulang’ yang memverifikasi keakuratan respons Gemini dengan mereferensikan silang informasi di web.
Menjelajahi Kemampuan Model Gemini
Sifat multimodal dari model Gemini memberdayakan mereka untuk melakukan berbagai tugas, mulai dari transkripsi ucapan hingga teks gambar dan video real-time. Banyak dari kemampuan ini telah dimasukkan ke dalam produk Google, dengan kemajuan lebih lanjut yang dijanjikan dalam waktu dekat.
Namun, penting untuk mengakui bahwa Google, seperti para pesaingnya, belum sepenuhnya mengatasi beberapa tantangan yang melekat terkait dengan teknologi AI generatif, seperti bias yang dikodekan dan kecenderungan untuk membuat informasi (halusinasi). Keterbatasan ini harus dipertimbangkan ketika mengevaluasi penggunaan Gemini, terutama untuk aplikasi kritis.
Kehebatan Gemini Pro
Google menegaskan bahwa model Pro terbarunya, Gemini 2.0 Pro, mewakili penawaran paling canggih untuk pengkodean dan penanganan prompt yang kompleks. 2.0 Pro melampaui pendahulunya, Gemini 1.5 Pro, dalam tolok ukur yang menilai pemrograman, penalaran, matematika, dan akurasi faktual.
Dalam platform Vertex AI Google, pengembang dapat menyesuaikan Gemini Pro untuk konteks dan kasus penggunaan tertentu melalui penyetelan halus atau ‘grounding.’ Misalnya, Pro (bersama dengan model Gemini lainnya) dapat diinstruksikan untuk menggunakan data dari penyedia pihak ketiga seperti Moody’s, Thomson Reuters, ZoomInfo, dan MSCI, atau untuk mengambil informasi dari dataset perusahaan atau Google Search alih-alih basis pengetahuan yang lebih luas. Gemini Pro juga dapat dihubungkan ke API pihak ketiga eksternal untuk melakukan tindakan tertentu, seperti mengotomatiskan alur kerja back-office.
Platform AI Studio Google menyediakan templat untuk membuat prompt obrolan terstruktur dengan Pro. Pengembang dapat mengontrol rentang kreatif model, memberikan contoh untuk memandu nada dan gaya, dan menyempurnakan pengaturan keamanan Pro.
Gemini Flash: Efisiensi Ringan dan Kemampuan Penalaran Gemini Flash Thinking
Gemini 2.0 Flash, mampu menggunakan Google search dan API eksternal lainnya. Meskipun lebih kecil, ia mengungguli beberapa model 1.5 yang lebih besar pada tolok ukur yang mengukur pengkodean dan analisis gambar. Sebagai turunan dari Gemini Pro, Flash dirancang untuk efisiensi, menargetkan tugas AI generatif yang sempit dan berfrekuensi tinggi.
Google menyoroti kesesuaian Flash untuk aplikasi seperti peringkasan, aplikasi obrolan, teks gambar dan video, dan ekstraksi data dari dokumen dan tabel yang panjang. Sementara itu, Gemini 2.0 Flash-Lite, iterasi Flash yang lebih ringkas, melampaui Gemini 1.5 Flash dalam kinerja sambil mempertahankan harga dan kecepatan yang sama, menurut Google.
Pada bulan Desember tahun sebelumnya, Google memperkenalkan varian ‘berpikir’ dari Gemini 2.0 Flash, yang diberkahi dengan kemampuan ‘penalaran’. Model AI ini membutuhkan waktu beberapa detik untuk bekerja mundur melalui masalah sebelum memberikan jawaban, yang berpotensi meningkatkan keandalannya.
Gemini Nano: Kekuatan AI di Perangkat
Gemini Nano adalah versi Gemini yang sangat ringkas, yang dirancang untuk beroperasi langsung pada perangkat yang kompatibel, menghilangkan kebutuhan untuk mengirim tugas ke server jarak jauh. Saat ini, Nano mendukung beberapa fitur pada Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9, dan Samsung Galaxy S24, termasuk Summarize in Recorder dan Smart Reply in Gboard.
Aplikasi Recorder, yang memungkinkan pengguna untuk merekam dan mentranskripsikan audio, menggabungkan fitur peringkasan bertenaga Gemini untuk percakapan yang direkam, wawancara, presentasi, dan cuplikan audio lainnya. Ringkasan ini dihasilkan bahkan tanpa koneksi jaringan, dan untuk kepentingan privasi, tidak ada data yang meninggalkan perangkat pengguna selama proses tersebut.
Nano juga menemukan tempatnya di Gboard, pengganti keyboard Google, di mana ia mendukung Smart Reply. Fitur ini menyarankan respons dalam aplikasi perpesanan seperti WhatsApp, menyederhanakan percakapan.
Iterasi Android di masa depan dijadwalkan untuk memanfaatkan Nano untuk memperingatkan pengguna tentang potensi penipuan selama panggilan telepon. Aplikasi cuaca baru di ponsel Pixel menggunakan Gemini Nano untuk menghasilkan laporan cuaca yang dipersonalisasi. Selain itu, TalkBack, layanan aksesibilitas Google, menggunakan Nano untuk membuat deskripsi aural objek bagi pengguna dengan gangguan penglihatan.
Gemini Ultra: Menunggu Kembalinya
Gemini Ultra relatif absen dari sorotan dalam beberapa bulan terakhir. Model ini saat ini tidak tersedia dalam aplikasi Gemini, juga tidak terdaftar di halaman harga API Gemini Google. Namun, ini tidak menutup kemungkinan Google memperkenalkan kembali Ultra di masa mendatang.
Struktur Harga untuk Model Gemini
Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash, dan 2.0 Flash-Lite dapat diakses melalui Gemini API Google untuk mengembangkan aplikasi dan layanan. Mereka beroperasi berdasarkan bayar sesuai pemakaian. Harga dasar, tidak termasuk add-on, per 22 Februari 2025, adalah sebagai berikut:
- Gemini 1.5 Pro: $1,25 per 1 juta token input (untuk prompt hingga 128K token) atau $2,50 per 1 juta token input (untuk prompt lebih dari 128K token); $5 per 1 juta token output (untuk prompt hingga 128K token) atau $10 per 1 juta token output (untuk prompt lebih dari 128K token)
- Gemini 1.5 Flash: 7,5 sen per 1 juta token input (untuk prompt hingga 128K token), 15 sen per 1 juta token input (untuk prompt lebih dari 128K token), 30 sen per 1 juta token output (untuk prompt hingga 128K token), 60 sen per 1 juta token output (untuk prompt lebih dari 128K token)
- Gemini 2.0 Flash: 10 sen per 1 juta token input, 40 sen per 1 juta token output. Untuk audio, 70 sen per 1 juta token input.
- Gemini 2.0 Flash-Lite: 7,5 sen per 1 juta token input, 30 sen per 1 juta token output.
Token mewakili unit data mentah yang dibagi lagi, seperti suku kata ‘fan,’ ‘tas,’ dan ‘tic’ dalam kata ‘fantastic.’ Satu juta token kira-kira setara dengan 750.000 kata. ‘Input’ mengacu pada token yang dimasukkan ke dalam model, sedangkan ‘output’ menunjukkan token yang dihasilkan oleh model.
Harga untuk 2.0 Pro belum diumumkan, dan Nano tetap dalam akses awal.
Potensi Kedatangan Gemini di iPhone
Prospek integrasi Gemini dengan iPhone adalah kemungkinan yang jelas.
Apple telah mengindikasikan bahwa mereka sedang dalam diskusi untuk berpotensi menggunakan Gemini dan model pihak ketiga lainnya untuk berbagai fitur dalam rangkaian Apple Intelligence-nya. Setelah presentasi utama di WWDC2024, SVP Apple Craig Federighi mengkonfirmasi rencana untuk berkolaborasi dengan model, termasuk Gemini, tetapi menahan diri untuk tidak membocorkan rincian lebih lanjut.