De komst van de cameramodus van Gemini Live markeert een belangrijke stap voorwaarts in de evolutie van kunstmatige intelligentie, en brengt een tastbaar stukje van de toekomst rechtstreeks binnen handbereik. Hoewel vroege gebruikers met Pixel 9- en Samsung Galaxy S25-apparaten al enige tijd van deze innovatieve functie hebben genoten, breidt de recente aankondiging van Google op zijn I/O-conferentie de toegang uit naar een veel breder publiek, waaronder zowel Android- als iOS-gebruikers. Deze ontwikkeling is vooral opwindend voor iPhone-bezitters, die nu een van de meest boeiende AI-functionaliteiten kunnen ervaren die momenteel beschikbaar zijn, vooral gezien het feit dat de cameramodus in april al werd uitgerold naar andere Android-gebruikers.
Onthulling van de kracht van het zicht: hoe de cameramodus van Gemini werkt
In de kern geeft de cameramodus van Gemini Live de AI de mogelijkheid om te “zien”, waardoor hij objecten kan herkennen en identificeren die zich binnen het gezichtsveld van de camera bevinden. Dit is niet zomaar een oppervlakkige gimmick; het is een krachtig hulpmiddel waarmee gebruikers op een meer intuïtieve en informatieve manier met hun omgeving kunnen communiceren.
Naast eenvoudige objectherkenning kan Gemini ook vragen over de geïdentificeerde items beantwoorden en naar behoefte context en inzichten bieden. Bovendien kunnen gebruikers hun scherm delen met Gemini, waardoor de AI elementen die op het scherm van hun telefoon worden weergegeven, kan analyseren en identificeren. Om een live sessie met de cameramodus te starten, schakelen gebruikers eenvoudig de live cameraweergave in, waardoor ze een gesprek kunnen voeren met de chatbot over alles wat de camera vastlegt.
Eerste indrukken: een testrit met Gemini Live
Tijdens mijn eerste testfase met Gemini Live op een Pixel 9 Pro XL was ik erg onder de indruk van zijn mogelijkheden. Een bijzonder memorabele ervaring was het vragen aan Gemini om mijn zoekgeraakte schaar te vinden.
De AI antwoordde met opmerkelijke nauwkeurigheid: "Ik heb uw schaar net op de tafel gespot, direct naast de groene verpakking pistachenoten. Ziet u ze?"
Tot mijn verbazing had Gemini gelijk. De schaar lag precies waar het aangaf, ondanks het feit dat ik de camera slechts kort voorbij had laten komen tijdens een live sessie van 15 minuten waarin ik de AI-chatbot in feite een rondleiding door mijn appartement gaf.
Geïntrigeerd door dit eerste succes, verkende ik de cameramodus gretig verder. In een andere, meer uitgebreide test activeerde ik de functie en begon ik door mijn appartement te lopen, waarbij ik Gemini aanmoedigde om de objecten te identificeren die hij zag. Het herkende nauwkeurig verschillende items, waaronder fruit, ChapStick en andere alledaagse voorwerpen. De herontdekking van mijn schaar bleef echter de meest opvallende demonstratie van zijn capaciteiten.
Het feit dat Gemini de schaar identificeerde zonder enige voorafgaande aanwijzing was bijzonder indrukwekkend. De AI had ze op een gegeven moment tijdens de sessie in stilte herkend en hun locatie met opmerkelijke precisie nauwkeurig opgeroepen. Deze ervaring voelde echt als een blik in de toekomst, wat me ertoe aanzette verder onderzoek te doen naar het potentieel ervan.
Inspiratie opdoen: Google’s visie op live video AI
Mijn experimenten met de camerafunctie van Gemini Live weerspiegelden de demo die Google de vorige zomer presenteerde, die een eerste blik bood op deze live video AI-mogelijkheden. De demo liet Gemini zien die de gebruiker eraan herinnerde waar ze hun bril hadden achtergelaten, een schijnbaar te mooi om waar te zijn prestatie. Zoals ik echter ontdekte, was dit niveau van nauwkeurigheid inderdaad haalbaar.
Gemini Live is in staat om veel meer te herkennen dan alleen huishoudelijke artikelen. Google beweert dat het gebruikers kan helpen bij het navigeren door drukke treinstations of het identificeren van de vullingen in gebak. Het kan ook diepere inzichten bieden in kunstwerken, zoals de oorsprong en of het een gelimiteerde editie is.
Deze functionaliteit gaat verder dan die van een gewone Google Lens. Je kunt een gesprek voeren met de AI, wat veel spraakzamer is dan Google Assistant.
Google heeft ook een YouTube-video uitgebracht waarin de functie wordt gedemonstreerd, en deze heeft nu een eigen pagina in de Google Store.
Om te beginnen start je Gemini, schakel je de camera in en begin je te praten.
Gemini Live bouwt voort op Google’s Project Astra, dat vorig jaar voor het eerst werd gepresenteerd en misschien wel de grootste functie van het bedrijf is die “we zijn in de toekomst”, een experimentele volgende stap voor generatieve AI-mogelijkheden, verder dan simpelweg typen of zelfs het spreken van prompts in een chatbot zoals ChatGPT, Claude of Gemini.
AI-bedrijven verbeteren voortdurend de mogelijkheden van AI-tools, van videocreatie tot basisverwerkingskracht. Apple’s Visual Intelligence, die de iPhone-maker vorig jaar in bèta uitbracht, is vergelijkbaar met Gemini Live.
Gemini Live heeft het potentieel om een revolutie teweeg te brengen in de manier waarop we verbinding maken met de omgeving door onze digitale en natuurkundige omgevingen samen te voegen terwijl we simpelweg de camera voor alles houden.
Gemini Live op de proef stellen: real-world scenario’s
De eerste keer dat ik het gebruikte, herkende Gemini nauwkeurig een zeer specifiek gaming-verzamelobject van een knuffelkonijn in het zicht van mijn camera. De tweede keer liet ik het zien aan een vriend in een kunstgalerie. Het herkende onmiddellijk de schildpad op een kruis (vraag me niet) en identificeerde en vertaalde de kanji ernaast, waardoor we allebei kippenvel kregen en ons een beetje griezelig voelden. Op een positieve manier, geloof ik.
Ik begon te overwegen hoe ik de functie zou kunnen stresstesten. Toen ik probeerde het in actie op te nemen, mislukte het voortdurend. Wat als ik afdwaalde van het gebruikelijke pad? Ik ben een groot fan van het horrorgenre (films, televisieseries en videospellen) en bezit een overvloed aan verzamelobjecten, snuisterijen en andere items. Hoe goed zou het presteren met meer obscure items, zoals mijn horror-thema verzamelobjecten?
Ten eerste moet ik vermelden dat Gemini zowel ongelooflijk geweldig als ongelooflijk irritant kan zijn in dezelfde vragenronde. Ik had ongeveer 11 objecten die ik door Gemini wilde laten identificeren, en hoe langer de live sessie duurde, hoe erger het werd, dus ik moest sessies beperken tot één of twee objecten. Naar mijn mening probeerde Gemini contextuele informatie van eerder herkende items te gebruiken om nieuwe te raden, wat tot op zekere hoogte logisch is, maar uiteindelijk noch mij, noch het ten goede kwam.
Soms was Gemini behoorlijk nauwkeurig en gaf hij gemakkelijk en zonder verwarring de juiste antwoorden, hoewel dit vaker gebeurde met meer recente of populaire objecten. Ik was bijvoorbeeld verrast toen het onmiddellijk afleidde dat een van mijn testobjecten niet alleen van Destiny 2 was, maar ook een gelimiteerde editie van een seizoensevenement van het voorgaande jaar.
Gemini zat er vaak volledig naast, waardoor ik verdere hints moest geven om in de buurt van het juiste antwoord te komen. Soms leek het alsof Gemini context gebruikte van mijn eerdere live sessies om reacties te genereren, waarbij meerdere objecten werden geïdentificeerd als afkomstig uit Silent Hill terwijl ze dat niet waren. Ik heb een vitrine gewijd aan de gamereeks, dus ik kan begrijpen waarom het snel in dat gebied zou willen duiken.
Onthulling van imperfecties: bugs en eigenaardigheden in het systeem
Gemini kan soms volledig bugged zijn. Af en toe identificeerde Gemini een van de objecten verkeerd als een fictief personage uit de niet-uitgebrachte Silent Hill: f game, waarbij duidelijk delen van verschillende titels werden gecombineerd tot iets dat nooit heeft bestaan. Wanneer Gemini een onjuist antwoord gaf en ik het corrigeerde en een betere hint gaf naar het antwoord - of het antwoord gewoon gaf - om het vervolgens het onjuiste antwoord te horen herhalen alsof het een nieuwe gok was, was de andere consistente bug die ik tegenkwam. Wanneer dat gebeurde, sloot ik de sessie en begon ik een nieuwe, wat niet altijd nuttig was.
Een techniek die ik ontdekte, was dat sommige gesprekken effectiever waren dan andere. Als ik door mijn Gemini-gesprekslijst bladerde, een oude chat aanraakte die een bepaald item correct had gekregen en vervolgens vanuit die chat weer live ging, kon het de items zonder problemen identificeren. Hoewel dit niet altijd onverwacht is, was het intrigerend om op te merken dat bepaalde dialogen beter presteerden dan andere, zelfs bij het gebruik van dezelfde taal.
Google heeft niet gereageerd op mijn vragen om aanvullende informatie over hoe Gemini Live werkt.
Ik wilde graag dat Gemini mijn uitdagende, soms zeer specifieke vragen succesvol zou beantwoorden, dus ik gaf veel hints om hen daarbij te helpen. De hints bleken nuttig, maar niet altijd.
Een transformatieve technologie: de potentiële impact van Gemini Live
Gemini Live vertegenwoordigt een paradigmaverschuiving in de manier waarop we omgaan met onze omgeving, waarbij de digitale en fysieke werelden naadloos worden samengevoegd door de lens van onze camera’s. Hoewel de technologie zich nog in de beginfase bevindt, zijn de potentiële toepassingen ervan enorm en transformatief.
Stel je voor dat je Gemini Live gebruikt om:
- Navigeren door onbekende omgevingen: Richt je camera eenvoudigweg op straatnaamborden of herkenningspunten en Gemini biedt real-time routebeschrijvingen en informatie.
- Meer te weten komen over historische artefacten: Gebruik Gemini tijdens het bezoeken van een museum om kunstwerken en historische objecten te identificeren en context te bieden.
- Complexe recepten koken: Vraag Gemini om je door elke stap van een recept te leiden, ingrediënten te identificeren en alternatieve technieken voor te stellen.
- Eenvoudige huishoudelijke problemen diagnosticeren: Richt je camera op een defect apparaat en Gemini biedt tips voor probleemoplossing en mogelijke oplossingen.
Dit zijn slechts enkele voorbeelden van de talloze manieren waarop Gemini Live ons dagelijks leven kan verbeteren. Naarmate de technologie zich blijft ontwikkelen en verbeteren, is het potentieel om een revolutie teweeg te brengen in de manier waarop we omgaan met de wereld om ons heen werkelijk onbeperkt.
De integratie van Gemini Live in iOS-apparaten breidt het bereik en de toegankelijkheid verder uit, waardoor de kracht van AI-aangedreven vision naar een breder publiek wordt gebracht. Naarmate de AI-technologie zich in een exponentieel tempo blijft ontwikkelen, bieden functies zoals Gemini Live een blik op een toekomst waarin onze apparaten niet alleen hulpmiddelen zijn voor communicatie en entertainment, maar ook intelligente metgezellen die ons kunnen helpen navigeren, begrijpen en communiceren met de wereld om ons heen op nieuwe en betekenisvolle manieren.