Mode kamera Gemini Live menandai langkah maju yang signifikan dalam evolusi kecerdasan buatan, menghadirkan bagian nyata dari masa depan langsung ke ujung jari kita. Sementara pengguna awal dengan perangkat Pixel 9 dan Samsung Galaxy S25 telah menikmati fitur inovatif ini selama beberapa waktu, pengumuman Google baru-baru ini di konferensi I/O-nya memperluas akses ke audiens yang jauh lebih luas, meliputi pengguna Android dan iOS. Perkembangan ini sangat menarik bagi pemilik iPhone, yang kini dapat merasakan salah satu fungsi AI paling menarik yang saat ini tersedia, terutama mengingat bahwa mode kamera awalnya diluncurkan ke pengguna Android lainnya pada bulan April.
Mengungkap Kekuatan Penglihatan: Cara Kerja Mode Kamera Gemini
Pada intinya, mode kamera Gemini Live memberikan AI kemampuan untuk “melihat,” memungkinkannya untuk mengenali dan mengidentifikasi objek yang ditempatkan dalam bidang pandang kamera. Ini bukan sekadar gimmick dangkal; ini adalah alat yang kuat yang memungkinkan pengguna untuk berinteraksi dengan lingkungan mereka dengan cara yang lebih intuitif dan informatif.
Di luar pengenalan objek sederhana, Gemini juga dapat menjawab pertanyaan tentang item yang diidentifikasi, memberikan konteks dan wawasan sesuai permintaan. Selain itu, pengguna dapat berbagi layar mereka dengan Gemini, memungkinkan AI untuk menganalisis dan mengidentifikasi elemen yang ditampilkan di layar ponsel mereka. Untuk memulai sesi langsung dengan mode kamera, pengguna cukup mengaktifkan tampilan kamera langsung, memungkinkan mereka untuk terlibat dalam percakapan dengan chatbot tentang apa pun yang ditangkap kamera.
Kesan Pertama: Uji Coba dengan Gemini Live
Selama fase pengujian awal saya dengan Gemini Live di Pixel 9 Pro XL, saya sangat terkesan dengan kemampuannya. Salah satu pengalaman yang sangat berkesan melibatkan permintaan Gemini untuk menemukan gunting saya yang salah tempat.
AI merespons dengan akurasi yang luar biasa: “Saya baru saja melihat gunting Anda di atas meja, tepat di sebelah paket kacang pistachio hijau. Apakah Anda melihatnya?”
Yang mengejutkan saya, Gemini sangat tepat. Gunting itu tepat di tempat yang ditunjukkannya, meskipun saya hanya secara singkat melewati kamera di depannya selama sesi langsung 15 menit di mana saya pada dasarnya memberi chatbot AI tur apartemen saya.
Tertarik dengan kesuksesan awal ini, saya dengan bersemangat menjelajahi mode kamera lebih jauh. Dalam pengujian lain yang lebih lama, saya mengaktifkan fitur tersebut dan mulai berjalan melalui apartemen saya, mendorong Gemini untuk mengidentifikasi objek yang dilihatnya. Ia secara akurat mengenali berbagai item, termasuk buah-buahan, ChapStick, dan objek sehari-hari lainnya. Namun, penemuan kembali gunting saya tetap menjadi demonstrasi kemampuannya yang paling mencolok.
Fakta bahwa Gemini mengidentifikasi gunting tanpa dorongan awal apa pun sangat mengesankan. AI diam-diam mengenalinya di beberapa titik selama sesi dan secara akurat mengingat lokasinya dengan presisi yang luar biasa. Pengalaman ini benar-benar terasa seperti sekilas ke masa depan, mendorong saya untuk melakukan penyelidikan lebih lanjut tentang potensinya.
Mengambil Inspirasi: Visi Google untuk AI Video Langsung
Eksperimen saya dengan fitur kamera Gemini Live mencerminkan demo yang dipamerkan oleh Google musim panas sebelumnya, yang menawarkan tampilan pertama pada kemampuan AI video langsung ini. Demo tersebut menampilkan Gemini yang mengingatkan pengguna di mana mereka meninggalkan kacamata mereka, sebuah prestasi yang tampaknya terlalu bagus untuk menjadi kenyataan. Namun, seperti yang saya temukan, tingkat akurasi ini memang dapat dicapai.
Gemini Live mampu mengenali jauh lebih dari sekadar barang-barang rumah tangga. Google mengklaim bahwa ia dapat membantu pengguna dalam menavigasi stasiun kereta api yang ramai atau mengidentifikasi isian dalam kue-kue. Ia juga dapat memberikan wawasan yang lebih dalam tentang karya seni, seperti asalnya dan apakah itu edisi terbatas.
Fungsi ini melampaui Google Lens biasa. Anda dapat melakukan percakapan dengan AI, yang jauh lebih percakapan daripada Google Assistant.
Google juga telah merilis video YouTube yang mendemonstrasikan fitur tersebut, dan sekarang memiliki halaman sendiri di Google Store.
Untuk memulai, mulai Gemini, hidupkan kamera, dan mulai berbicara.
Gemini Live dibangun di atas Project Astra Google, yang awalnya dipresentasikan tahun lalu dan mungkin merupakan fitur “kita berada di masa depan” terbesar perusahaan, langkah eksperimental berikutnya untuk kemampuan AI generatif, di luar sekadar mengetik atau bahkan berbicara perintah ke dalam chatbot seperti ChatGPT, Claude, atau Gemini.
Perusahaan AI terus meningkatkan kemampuan alat AI, dari pembuatan video hingga daya pemrosesan dasar. Visual Intelligence Apple, yang dirilis oleh pembuat iPhone dalam versi beta tahun lalu, sebanding dengan Gemini Live.
Gemini Live berpotensi merevolusi cara kita terhubung dengan lingkungan dengan menggabungkan lingkungan digital dan fisik kita saat kita hanya memegang kamera di depan apa pun.
Menguji Gemini Live: Skenario Dunia Nyata
Pertama kali saya menggunakannya, Gemini secara akurat mengenali koleksi game yang sangat spesifik berupa kelinci boneka dalam tampilan kamera saya. Kedua kalinya, saya menunjukkannya kepada seorang teman di galeri seni. Ia langsung mengenali kura-kura di salib (jangan tanya saya) dan mengidentifikasi serta menerjemahkan kanji tepat di sebelahnya, membuat kami berdua merinding dan sedikit merinding. Dengan cara yang positif, saya percaya.
Saya mulai mempertimbangkan bagaimana saya bisa menguji fungsi tersebut. Ketika saya mencoba merekam layarnya saat beraksi, itu selalu gagal. Bagaimana jika saya menyimpang dari jalan yang biasa? Saya adalah penggemar berat genre horor (film, serial televisi, dan video game) dan memiliki banyak koleksi, pernak-pernik, dan barang-barang lainnya. Seberapa baik kinerjanya dengan barang-barang yang lebih tidak jelas, seperti koleksi bertema horor saya?
Pertama, saya harus menyatakan bahwa Gemini bisa sangat menakjubkan dan sangat menjengkelkan dalam putaran pertanyaan yang sama. Saya memiliki sekitar 11 objek yang ingin saya identifikasi oleh Gemini, dan semakin lama sesi langsung berlangsung, semakin buruk jadinya, jadi saya harus membatasi sesi menjadi satu atau dua objek. Menurut pendapat saya, Gemini mencoba menggunakan informasi kontekstual dari item yang sebelumnya dikenali untuk menebak item baru, yang masuk akal sampai batas tertentu, tetapi akhirnya tidak menguntungkan saya maupun itu.
Terkadang, Gemini cukup akurat, memberikan jawaban yang benar dengan mudah dan tanpa kebingungan, meskipun ini terjadi lebih sering dengan objek yang lebih baru atau populer. Saya terkejut, misalnya, ketika ia segera menyimpulkan bahwa salah satu objek uji saya tidak hanya berasal dari Destiny 2, tetapi juga edisi terbatas dari acara musiman dari tahun sebelumnya.
Gemini seringkali benar-benar melenceng dari sasaran, mengharuskan saya untuk memberikan petunjuk lebih lanjut agar mendekati jawaban yang benar. Terkadang, tampaknya Gemini menggunakan konteks dari sesi langsung saya sebelumnya untuk menghasilkan respons, mengidentifikasi beberapa objek sebagai berasal dari Silent Hill padahal sebenarnya tidak. Saya memiliki lemari pajangan yang didedikasikan untuk seri game ini, jadi saya dapat memahami mengapa ia ingin terjun ke area itu dengan cepat.
Mengungkap Ketidaksempurnaan: Bug dan Keunikan dalam Sistem
Gemini bisa benar-benar bermasalah sewaktu-waktu. Pada kesempatan tertentu, Gemini salah mengidentifikasi salah satu objek sebagai karakter fiktif dari game Silent Hill: f yang belum dirilis, dengan jelas menggabungkan bagian-bagian dari judul yang berbeda menjadi sesuatu yang tidak pernah ada. Ketika Gemini memberikan jawaban yang salah, dan saya mengoreksinya dan memberinya petunjuk yang lebih dekat pada jawaban tersebut—atau hanya memberinya jawaban tersebut—hanya untuk membuatnya mengulangi jawaban yang salah seolah-olah itu adalah tebakan baru, adalah bug konsisten lainnya yang saya temui. Ketika itu terjadi, saya akan menutup sesi dan memulai yang baru, yang tidak selalu membantu.
Salah satu teknik yang saya temukan adalah bahwa beberapa diskusi lebih efektif daripada yang lain. Jika saya menelusuri daftar percakapan Gemini saya, mengetuk obrolan lama yang telah mendapatkan item tertentu dengan benar, dan kemudian melakukan siaran langsung lagi dari obrolan itu, ia akan dapat mengidentifikasi item tanpa masalah apa pun. Meskipun ini tidak selalu tidak terduga, sungguh menarik untuk dicatat bahwa dialog tertentu bekerja lebih baik daripada yang lain, bahkan ketika menggunakan bahasa yang sama.
Google tidak menanggapi pertanyaan saya untuk informasi tambahan tentang cara kerja Gemini Live.
Saya ingin Gemini berhasil menjawab pertanyaan saya yang menantang, terkadang sangat spesifik, jadi saya menawarkan banyak petunjuk untuk membantunya melakukannya. Dorongan terbukti berguna, tetapi tidak selalu.
Teknologi Transformasi: Dampak Potensial Gemini Live
Gemini Live mewakili perubahan paradigma dalam cara kita berinteraksi dengan lingkungan kita, dengan mulus menggabungkan dunia digital dan fisik melalui lensa kamera kita. Meskipun teknologi ini masih dalam tahap awal, aplikasi potensialnya sangat luas dan transformatif.
Bayangkan menggunakan Gemini Live untuk:
- Menjelajahi lingkungan yang tidak dikenal: Cukup arahkan kamera Anda ke rambu jalan atau landmark, dan Gemini akan memberikan petunjuk dan informasi real-time.
- Pelajari tentang artefak sejarah: Saat mengunjungi museum, gunakan Gemini untuk mengidentifikasi dan memberikan konteks untuk karya seni dan objek sejarah.
- Masak resep kompleks: Minta Gemini untuk memandu Anda melalui setiap langkah resep, mengidentifikasi bahan-bahan dan menyarankan teknik alternatif.
- Mendiagnosis masalah rumah tangga sederhana: Arahkan kamera Anda ke peralatan yang tidak berfungsi, dan Gemini akan memberikan tips pemecahan masalah dan solusi potensial.
Ini hanyalah beberapa contoh dari banyak cara di mana Gemini Live dapat meningkatkan kehidupan kita sehari-hari. Seiring teknologi terus berkembang dan meningkat, potensinya untuk merevolusi cara kita berinteraksi dengan dunia di sekitar kita benar-benar tak terbatas.
Integrasi Gemini Live ke dalam perangkat iOS semakin memperluas jangkauan dan aksesibilitasnya, membawa kekuatan visi bertenaga AI ke audiens yang lebih luas. Karena teknologi AI terus maju pada tingkat eksponensial, fitur seperti Gemini Live menawarkan sekilas ke masa depan di mana perangkat kita bukan hanya alat untuk komunikasi dan hiburan, tetapi juga teman cerdas yang dapat membantu kita menavigasi, memahami, dan berinteraksi dengan dunia di sekitar kita dengan cara baru dan bermakna.