Membongkar Gemini: Keluarga AI Generasi Seterusnya Google
Gemini adalah usaha bercita-cita tinggi Google ke dalam generasi model AI yang seterusnya. Dibangunkan melalui usaha sama DeepMind dan Google Research, makmal penyelidikan AI terkemuka Google, Gemini bukanlah entiti monolitik melainkan keluarga model, masing-masing disesuaikan untuk tugas dan tahap prestasi tertentu. Keluarga ini termasuk:
- Gemini Ultra: Model terberat keluarga, direka untuk tugas yang sangat kompleks yang memerlukan kuasa pengkomputeran yang besar. (Ketika ini tiada)
- Gemini Pro: Model yang teguh, lebih kecil daripada Ultra, tetapi mampu mengendalikan pelbagai tugas. Gemini 2.0 Pro, lelaran terkini, kini berdiri sebagai perdana Google.
- Gemini Flash: Versi Pro yang diperkemas, ‘disuling’, mengutamakan kelajuan dan kecekapan.
- Gemini Flash-Lite: Versi Gemini Flash yang dikurangkan sedikit dan lebih pantas.
- Gemini Flash Thinking: Model yang mempamerkan kebolehan ‘penaakulan’.
- Gemini Nano: Terdiri daripada dua model padat, Nano-1 dan Nano-2 yang lebih berkuasa sedikit, direka untuk operasi luar talian pada peranti.
Ciri yang menentukan semua model Gemini ialah multimodaliti yang wujud. Tidak seperti model yang dilatih semata-mata pada data teks, seperti LaMDA Google, model Gemini mahir dalam memproses dan menganalisis pelbagai jenis data. Mereka telah dilatih pada set data yang luas merangkumi audio, imej, video, pangkalan kod dan teks awam, proprietari dan berlesen dalam pelbagai bahasa.
Sifat multimodal ini membolehkan Gemini mengatasi had model teks sahaja. Walaupun LaMDA terhad kepada input dan output berasaskan teks, model Gemini, terutamanya versi Flash dan Pro yang lebih baharu, boleh menjana imej dan audio secara asli bersama-sama teks.
Walau bagaimanapun, implikasi etika dan undang-undang melatih model AI pada data yang tersedia secara umum, selalunya tanpa persetujuan jelas pemilik data, kekal sebagai isu yang kompleks. Walaupun Google menawarkan polisi indemnifikasi AI untuk melindungi pelanggan Google Cloud tertentu daripada potensi tindakan undang-undang, polisi ini mempunyai had. Pengguna, terutamanya mereka yang berhasrat untuk menggunakan Gemini untuk tujuan komersial, harus berhati-hati.
Aplikasi Gemini lwn. Model Gemini: Memahami Perbezaan
Adalah penting untuk membezakan antara model Gemini dan aplikasi Gemini yang tersedia pada platform web dan mudah alih (dahulunya dikenali sebagai Bard).
Aplikasi Gemini berfungsi sebagai klien, menyambung kepada pelbagai model Gemini dan mempersembahkan antara muka mesra pengguna, seperti chatbot. Ia berfungsi sebagai bahagian hadapan untuk berinteraksi dengan keupayaan AI generatif Google.
Pada peranti Android, aplikasi Gemini menggantikan aplikasi Google Assistant. Pada iOS, aplikasi Google dan Google Search bertindak sebagai klien Gemini.
Pengguna Android boleh menggunakan tindanan Gemini untuk bertanya soalan tentang kandungan yang dipaparkan pada skrin mereka, seperti video YouTube. Tindanan ini dicetuskan dengan menekan dan menahan butang kuasa telefon pintar yang disokong atau dengan menggunakan arahan suara ‘Hey Google.’
Aplikasi Gemini adalah serba boleh, menerima imej, arahan suara dan teks sebagai input. Ia boleh memproses fail seperti PDF, sama ada dimuat naik terus atau diimport daripada Google Drive, dan menjana imej. Perbualan yang dimulakan dengan aplikasi Gemini pada mudah alih disegerakkan dengan lancar dengan Gemini di web, dengan syarat pengguna log masuk ke Akaun Google yang sama.
Gemini Advanced: Membuka Ciri AI Premium
Aplikasi Gemini bukanlah satu-satunya pintu masuk untuk memanfaatkan kuasa model Gemini. Google sedang giat menyepadukan ciri berkuasa Gemini ke dalam aplikasi dan perkhidmatan terasnya, termasuk Gmail dan Google Docs.
Untuk memanfaatkan sepenuhnya keupayaan ini, pengguna biasanya memerlukan Pelan Google One AI Premium. Pelan ini, secara teknikalnya merupakan komponen Google One, berharga $20 sebulan dan memberikan akses kepada Gemini dalam aplikasi Google Workspace seperti Docs, Maps, Slides, Sheets, Drive dan Meet. Ia juga membuka kunci ‘Gemini Advanced,’ memberikan akses kepada model Gemini Google yang lebih canggih dalam aplikasi Gemini.
Pengguna Gemini Advanced menikmati faedah tambahan, seperti akses keutamaan kepada ciri dan model baharu, keupayaan untuk melaksanakan dan mengubah suai kod Python secara terus dalam Gemini, dan had yang diperluaskan untuk NotebookLM, alat Google untuk mengubah PDF menjadi podcast yang dijana AI. Penambahan terbaharu kepada Gemini Advanced ialah ciri memori yang menyimpan pilihan pengguna dan membolehkan Gemini merujuk perbualan lalu, menyediakan konteks untuk interaksi semasa.
Salah satu ciri paling menarik yang eksklusif untuk Gemini Advanced ialah ‘Deep Research.’ Ciri ini memanfaatkan model Gemini dengan keupayaan penaakulan yang dipertingkatkan untuk menjana taklimat terperinci. Sebagai tindak balas kepada gesaan, seperti ‘Bagaimanakah saya harus mereka bentuk semula dapur saya?’, Deep Research merumuskan pelan penyelidikan berbilang langkah, menjelajahi web dan menyusun jawapan yang komprehensif.
Dalam Gmail, Gemini berada dalam panel sisi, mampu mengarang e-mel dan meringkaskan urutan mesej. Panel yang serupa muncul dalam Docs, membantu dengan penulisan kandungan, penghalusan dan sumbang saran. Dalam Slides, Gemini menjana slaid dan imej tersuai. Dalam Google Sheets, ia membantu dalam penjejakan data, organisasi dan penciptaan formula.
Kehadiran Gemini meluas ke Google Maps, di mana ia mengagregatkan ulasan tentang perniagaan tempatan dan menawarkan cadangan, seperti cadangan jadual perjalanan untuk melawat bandar asing. Keupayaan chatbot juga merangkumi Drive, di mana ia boleh meringkaskan fail dan folder dan menyediakan maklumat ringkas tentang projek.
Gemini baru-baru ini telah disepadukan ke dalam pelayar Chrome Google sebagai alat penulisan AI. Alat ini boleh digunakan untuk mencipta kandungan baharu sepenuhnya atau menulis semula teks sedia ada, mengambil kira konteks halaman web semasa untuk memberikan cadangan yang disesuaikan.
Di luar aplikasi teras ini, kesan Gemini boleh didapati dalam produk pangkalan data Google, alat keselamatan awan dan platform pembangunan aplikasi (termasuk Firebase dan Project IDX). Ia juga memperkasakan ciri dalam aplikasi seperti Google Photos (pertanyaan carian bahasa semula jadi), YouTube (sumbang saran idea video) dan Meet (terjemahan kapsyen).
Code Assist (dahulunya Duet AI for Developers), suite alat berkuasa AI Google untuk pelengkapan dan penjanaan kod, bergantung pada Gemini untuk tugas intensif pengiraan. Begitu juga, produk keselamatan Google, seperti Gemini dalam Threat Intelligence, menggunakan Gemini untuk menganalisis kod yang berpotensi berniat jahat dan memudahkan carian bahasa semula jadi untuk ancaman dan penunjuk kompromi.
Sambungan Gemini dan Gems: Menyesuaikan Pengalaman AI
Pengguna Gemini Advanced mempunyai keupayaan untuk mencipta ‘Gems,’ chatbot tersuai yang dikuasakan oleh model Gemini, boleh diakses pada kedua-dua platform desktop dan mudah alih. Gems boleh dijana daripada penerangan bahasa semula jadi, seperti ‘Anda jurulatih larian saya. Beri saya pelan larian harian,’ dan boleh dikongsi dengan pengguna lain atau dirahsiakan.
Aplikasi Gemini boleh disepadukan dengan pelbagai perkhidmatan Google melalui ‘sambungan Gemini.’ Sambungan ini membolehkan Gemini berinteraksi dengan Drive, Gmail, YouTube dan perkhidmatan lain, membolehkannya menjawab pertanyaan seperti ‘Bolehkah anda meringkaskan tiga e-mel terakhir saya?’
Gemini Live: Terlibat dalam Perbualan Suara yang Mendalam
‘Gemini Live’ menawarkan pengalaman yang mengasyikkan, membolehkan pengguna terlibat dalam perbualan suara terperinci dengan Gemini. Ciri ini tersedia dalam aplikasi Gemini pada peranti mudah alih dan pada Pixel Buds Pro 2, di mana ia boleh diakses walaupun telefon dikunci.
Dengan Gemini Live, pengguna boleh mengganggu Gemini semasa ia bercakap untuk bertanya soalan penjelasan, dan chatbot menyesuaikan diri dengan corak pertuturan dalam masa nyata. Live juga direka untuk berfungsi sebagai jurulatih maya, membantu dengan persediaan acara, sumbang saran dan tugas lain. Sebagai contoh, Live boleh mencadangkan kemahiran untuk diserlahkan semasa temu duga kerja dan memberikan petua pengucapan awam.
Gemini untuk Remaja: Pengalaman AI yang Disesuaikan untuk Pelajar
Google menyediakan pengalaman Gemini khusus yang disesuaikan untuk pelajar remaja.
Versi Gemini yang memfokuskan remaja ini menggabungkan ‘dasar dan perlindungan tambahan,’ termasuk proses onboarding tersuai dan panduan literasi AI. Selain daripada pengubahsuaian ini, ia sangat menyerupai pengalaman Gemini standard, termasuk ciri ‘semak dua kali’ yang mengesahkan ketepatan respons Gemini dengan merujuk silang maklumat di web.
Meneroka Keupayaan Model Gemini
Sifat multimodal model Gemini memperkasakannya untuk melaksanakan pelbagai tugas, daripada transkripsi pertuturan kepada kapsyen imej dan video masa nyata. Kebanyakan keupayaan ini telah pun dimasukkan ke dalam produk Google, dengan kemajuan selanjutnya dijanjikan dalam masa terdekat.
Walau bagaimanapun, adalah penting untuk mengakui bahawa Google, seperti pesaingnya, tidak menangani sepenuhnya beberapa cabaran yang wujud yang berkaitan dengan teknologi AI generatif, seperti berat sebelah yang dikodkan dan kecenderungan untuk mereka-reka maklumat (halusinasi). Had ini harus dipertimbangkan apabila menilai penggunaan Gemini, terutamanya untuk aplikasi kritikal.
Kehebatan Gemini Pro
Google menegaskan bahawa model Pro terbaharunya, Gemini 2.0 Pro, mewakili tawarannya yang paling maju untuk pengekodan dan mengendalikan gesaan yang kompleks. 2.0 Pro mengatasi pendahulunya, Gemini 1.5 Pro, dalam penanda aras yang menilai pengaturcaraan, penaakulan, matematik dan ketepatan fakta.
Dalam platform Vertex AI Google, pembangun boleh menyesuaikan Gemini Pro untuk konteks dan kes penggunaan tertentu melalui penalaan halus atau ‘grounding.’ Sebagai contoh, Pro (bersama-sama dengan model Gemini lain) boleh diarahkan untuk menggunakan data daripada pembekal pihak ketiga seperti Moody’s, Thomson Reuters, ZoomInfo dan MSCI, atau untuk mendapatkan maklumat daripada set data korporat atau Google Search dan bukannya pangkalan pengetahuannya yang lebih luas. Gemini Pro juga boleh disambungkan ke API pihak ketiga luaran untuk melaksanakan tindakan tertentu, seperti mengautomasikan aliran kerja pejabat belakang.
Platform AI Studio Google menyediakan templat untuk mencipta gesaan sembang berstruktur dengan Pro. Pembangun boleh mengawal julat kreatif model, memberikan contoh untuk membimbing nada dan gaya, dan memperhalusi tetapan keselamatan Pro.
Gemini Flash: Kecekapan Ringan dan Keupayaan Penaakulan Gemini Flash Thinking
Gemini 2.0 Flash, mampu menggunakan carian Google dan API luaran yang lain. Walaupun ia lebih kecil, ia mengatasi beberapa model 1.5 yang lebih besar pada penanda aras yang mengukur pengekodan dan analisis imej. Sebagai terbitan Gemini Pro, Flash direka untuk kecekapan, menyasarkan tugas AI generatif yang sempit dan berfrekuensi tinggi.
Google menyerlahkan kesesuaian Flash untuk aplikasi seperti peringkasan, aplikasi sembang, kapsyen imej dan video, dan pengekstrakan data daripada dokumen dan jadual yang panjang. Sementara itu, Gemini 2.0 Flash-Lite, lelaran Flash yang lebih padat, mengatasi Gemini 1.5 Flash dalam prestasi sambil mengekalkan harga dan kelajuan yang sama, menurut Google.
Pada bulan Disember tahun sebelumnya, Google memperkenalkan varian ‘berfikir’ Gemini 2.0 Flash, yang dikurniakan keupayaan ‘penaakulan’. Model AI ini mengambil masa beberapa saat untuk menyelesaikan masalah secara terbalik sebelum memberikan jawapan, yang berpotensi meningkatkan kebolehpercayaannya.
Gemini Nano: Kuasa AI Pada Peranti
Gemini Nano ialah versi Gemini yang sangat padat, direka untuk beroperasi secara terus pada peranti yang serasi, menghapuskan keperluan untuk menghantar tugas ke pelayan jauh. Pada masa ini, Nano memperkasakan beberapa ciri pada Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 dan Samsung Galaxy S24, termasuk Summarize in Recorder dan Smart Reply dalam Gboard.
Aplikasi Recorder, yang membolehkan pengguna merakam dan mentranskripsi audio, menggabungkan ciri ringkasan berkuasa Gemini untuk perbualan yang dirakam, temu bual, pembentangan dan coretan audio lain. Ringkasan ini dijana walaupun tanpa sambungan rangkaian, dan demi privasi, tiada data meninggalkan peranti pengguna semasa proses tersebut.
Nano juga menemui tempatnya dalam Gboard, penggantian papan kekunci Google, di mana ia memperkasakan Smart Reply. Ciri ini mencadangkan respons dalam aplikasi pemesejan seperti WhatsApp, memperkemas perbualan.
Lelaran Android masa hadapan dijadualkan untuk memanfaatkan Nano untuk memaklumkan pengguna tentang potensi penipuan semasa panggilan telefon. Aplikasi cuaca baharu pada telefon Pixel menggunakan Gemini Nano untuk menjana laporan cuaca yang diperibadikan. Selain itu, TalkBack, perkhidmatan kebolehaksesan Google, menggunakan Nano untuk mencipta penerangan aural objek untuk pengguna yang cacat penglihatan.
Gemini Ultra: Menunggu Kepulangannya
Gemini Ultra agak tidak hadir dalam perhatian sejak beberapa bulan kebelakangan ini. Model itu kini tidak tersedia dalam aplikasi Gemini, dan ia juga tidak disenaraikan pada halaman harga API Gemini Google. Walau bagaimanapun, ini tidak menghalang kemungkinan Google memperkenalkan semula Ultra pada masa hadapan.
Struktur Harga untuk Model Gemini
Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash dan 2.0 Flash-Lite boleh diakses melalui API Gemini Google untuk membangunkan aplikasi dan perkhidmatan. Ia beroperasi secara bayar semasa anda pergi. Harga asas, tidak termasuk tambahan, setakat 22 Februari 2025, adalah seperti berikut:
- Gemini 1.5 Pro: $1.25 setiap 1 juta token input (untuk gesaan sehingga 128K token) atau $2.50 setiap 1 juta token input (untuk gesaan lebih panjang daripada 128K token); $5 setiap 1 juta token output (untuk gesaan sehingga 128K token) atau $10 setiap 1 juta token output (untuk gesaan lebih panjang daripada 128K token)
- Gemini 1.5 Flash: 7.5 sen setiap 1 juta token input (untuk gesaan sehingga 128K token), 15 sen setiap 1 juta token input (untuk gesaan lebih panjang daripada 128K token), 30 sen setiap 1 juta token output (untuk gesaan sehingga 128K token), 60 sen setiap 1 juta token output (untuk gesaan lebih panjang daripada 128K token)
- Gemini 2.0 Flash: 10 sen setiap 1 juta token input, 40 sen setiap 1 juta token output. Untuk audio, 70 sen setiap 1 juta token input.
- Gemini 2.0 Flash-Lite: 7.5 sen setiap 1 juta token input, 30 sen setiap 1 juta token output.
Token mewakili unit data mentah yang dibahagikan, seperti suku kata ‘fan,’ ‘tas,’ dan ‘tic’ dalam perkataan ‘fantastic.’ Satu juta token adalah kira-kira bersamaan dengan 750,000 perkataan. ‘Input’ merujuk kepada token yang dimasukkan ke dalam model, manakala ‘output’ menandakan token yang dijana oleh model.
Harga untuk 2.0 Pro masih belum diumumkan, dan Nano kekal dalam akses awal.
Potensi Ketibaan Gemini pada iPhone
Prospek penyepaduan Gemini dengan iPhone adalah kemungkinan yang berbeza.
Apple telah menunjukkan bahawa ia sedang berbincang untuk berpotensi menggunakan Gemini dan model pihak ketiga yang lain untuk pelbagai ciri dalam suite Apple Intelligence. Berikutan pembentangan ucaptama di WWDC 2024, SVP Apple Craig Federighi mengesahkan rancangan untuk bekerjasama dengan model, termasuk Gemini, tetapi enggan mendedahkan butiran lanjut.