Google Gemini: AI-krachtpatser

Unveiling Gemini: Google’s Next-Gen AI Family

Gemini is Google’s ambitieuze stap in de volgende generatie AI-modellen. Ontwikkeld door de samenwerking van DeepMind en Google Research, Google’s toonaangevende AI-onderzoekslaboratoria, is Gemini niet één geheel, maar eerder een familie van modellen, elk op maat gemaakt voor specifieke taken en prestatieniveaus. Deze familie omvat:

  • Gemini Ultra: De zwaargewicht van de familie, ontworpen voor zeer complexe taken die aanzienlijke rekenkracht vereisen. (Momenteel niet beschikbaar)
  • Gemini Pro: Een robuust model, kleiner dan Ultra, maar in staat om een breed scala aan taken aan te kunnen. Gemini 2.0 Pro, de nieuwste iteratie, is momenteel het vlaggenschip van Google.
  • Gemini Flash: Een gestroomlijnde, ‘gedistilleerde’ versie van Pro, die prioriteit geeft aan snelheid en efficiëntie.
  • Gemini Flash-Lite: Een iets kleinere en snellere versie van Gemini Flash.
  • Gemini Flash Thinking: Een model dat ‘redeneer’-mogelijkheden toont.
  • Gemini Nano: Bestaande uit twee compacte modellen, Nano-1 en de iets krachtigere Nano-2, ontworpen voor offline gebruik op apparaten.

Een bepalend kenmerk van alle Gemini-modellen is hun inherente multimodaliteit. In tegenstelling tot modellen die uitsluitend zijn getraind op tekstgegevens, zoals Google’s LaMDA, zijn de Gemini-modellen bedreven in het verwerken en analyseren van diverse gegevenstypen. Ze zijn getraind op een enorme dataset die openbare, bedrijfseigen en gelicentieerde audio, afbeeldingen, video’s, codebases en tekst in meerdere talen omvat.

Deze multimodale aard stelt Gemini in staat om de beperkingen van modellen die alleen tekst gebruiken te overstijgen. Terwijl LaMDA beperkt is tot op tekst gebaseerde invoer en uitvoer, kunnen Gemini-modellen, met name de nieuwere versies van Flash en Pro, native afbeeldingen en audio genereren naast tekst.

De ethische en juridische implicaties van het trainen van AI-modellen op openbaar beschikbare gegevens, vaak zonder de expliciete toestemming van de data-eigenaren, blijven echter een complexe kwestie. Hoewel Google een AI-vrijwaringsbeleid aanbiedt om bepaalde Google Cloud-klanten te beschermen tegen mogelijke rechtszaken, heeft dit beleid beperkingen. Gebruikers, vooral degenen die van plan zijn Gemini voor commerciële doeleinden te gebruiken, moeten voorzichtig zijn.

Gemini Apps vs. Gemini Models: Understanding the Distinction

Het is cruciaal om onderscheid te maken tussen de Gemini-modellen en de Gemini-apps die beschikbaar zijn op web- en mobiele platforms (voorheen bekend als Bard).

De Gemini-apps functioneren als clients, die verbinding maken met verschillende Gemini-modellen en een gebruiksvriendelijke, chatbot-achtige interface presenteren. Ze dienen als de front-end voor interactie met de generatieve AI-mogelijkheden van Google.

Op Android-apparaten vervangt de Gemini-app de Google Assistent-app. Op iOS fungeren de Google- en Google Search-apps als de Gemini-clients.

Android-gebruikers kunnen een Gemini-overlay oproepen om vragen te stellen over inhoud die op hun scherm wordt weergegeven, zoals een YouTube-video. Deze overlay wordt geactiveerd door de aan/uit-knop van een ondersteunde smartphone ingedrukt te houden of door het spraakcommando ‘Hey Google’ te gebruiken.

De Gemini-apps zijn veelzijdig en accepteren afbeeldingen, spraakopdrachten en tekst als invoer. Ze kunnen bestanden zoals PDF’s verwerken, die rechtstreeks zijn geüpload of geïmporteerd vanuit Google Drive, en afbeeldingen genereren. Gesprekken die zijn gestart met Gemini-apps op mobiel worden naadloos gesynchroniseerd met Gemini op het web, mits de gebruiker is ingelogd op hetzelfde Google-account.

Gemini Advanced: Unlocking Premium AI Features

De Gemini-apps zijn niet de enige toegangspoort tot het benutten van de kracht van Gemini-modellen. Google integreert geleidelijk Gemini-aangedreven functies in zijn kernapplicaties en -services, waaronder Gmail en Google Docs.

Om deze mogelijkheden volledig te benutten, hebben gebruikers doorgaans het Google One AI Premium Plan nodig. Dit plan, technisch gezien een onderdeel van Google One, kost $20 per maand en geeft toegang tot Gemini binnen Google Workspace-applicaties zoals Docs, Maps, Slides, Sheets, Drive en Meet. Het ontgrendelt ook ‘Gemini Advanced’, dat toegang biedt tot Google’s meer geavanceerde Gemini-modellen binnen de Gemini-apps.

Gemini Advanced-gebruikers genieten van extra voordelen, zoals prioritaire toegang tot nieuwe functies en modellen, de mogelijkheid om Python-code rechtstreeks binnen Gemini uit te voeren en aan te passen, en uitgebreide limieten voor NotebookLM, Google’s tool voor het transformeren van PDF’s in door AI gegenereerde podcasts. Een recente toevoeging aan Gemini Advanced is een geheugenfunctie die gebruikersvoorkeuren opslaat en Gemini in staat stelt te verwijzen naar eerdere gesprekken, waardoor context wordt geboden voor huidige interacties.

Een van de meest aantrekkelijke functies die exclusief zijn voor Gemini Advanced is ‘Deep Research’. Deze functie maakt gebruik van Gemini-modellen met verbeterde redeneermogelijkheden om gedetailleerde briefings te genereren. In reactie op een prompt, zoals ‘Hoe moet ik mijn keuken herontwerpen?’, formuleert Deep Research een meerstaps onderzoeksplan, doorzoekt het web en stelt een uitgebreid antwoord samen.

Binnen Gmail bevindt Gemini zich in een zijpaneel, dat in staat is om e-mails op te stellen en berichtenthreads samen te vatten. Een vergelijkbaar paneel verschijnt in Docs, dat helpt bij het schrijven, verfijnen en brainstormen van inhoud. In Slides genereert Gemini dia’s en aangepaste afbeeldingen. In Google Sheets helpt het bij het bijhouden, organiseren en maken van formules voor gegevens.

Gemini’s aanwezigheid strekt zich uit tot Google Maps, waar het beoordelingen over lokale bedrijven verzamelt en aanbevelingen doet, zoals suggesties voor een reisroute voor een bezoek aan een buitenlandse stad. De mogelijkheden van de chatbot omvatten ook Drive, waar het bestanden en mappen kan samenvatten en beknopte informatie over projecten kan verstrekken.

Gemini is onlangs geïntegreerd in Google’s Chrome-browser als een AI-schrijftool. Deze tool kan worden gebruikt om geheel nieuwe inhoud te creëren of bestaande tekst te herschrijven, rekening houdend met de context van de huidige webpagina om op maat gemaakte aanbevelingen te geven.

Naast deze kernapplicaties zijn er sporen van Gemini te vinden in Google’s databaseproducten, cloudbeveiligingstools en app-ontwikkelingsplatforms (waaronder Firebase en Project IDX). Het ondersteunt ook functies in apps zoals Google Photos (zoeken in natuurlijke taal), YouTube (brainstormen over video-ideeën) en Meet (vertaling van ondertitels).

Code Assist (voorheen Duet AI for Developers), Google’s suite van AI-aangedreven tools voor het aanvullen en genereren van code, vertrouwt op Gemini voor rekenintensieve taken. Evenzo gebruiken Google’s beveiligingsproducten, zoals Gemini in Threat Intelligence, Gemini om potentieel schadelijke code te analyseren en zoekopdrachten in natuurlijke taal naar bedreigingen en indicatoren van compromittering te vergemakkelijken.

Gemini Extensions and Gems: Tailoring the AI Experience

Gemini Advanced-gebruikers hebben de mogelijkheid om ‘Gems’ te maken, aangepaste chatbots die worden aangedreven door Gemini-modellen, toegankelijk op zowel desktop- als mobiele platforms. Gems kunnen worden gegenereerd op basis van beschrijvingen in natuurlijke taal, zoals ‘Je bent mijn hardloopcoach. Geef me een dagelijks hardloopschema’, en kunnen worden gedeeld met andere gebruikers of privé worden gehouden.

De Gemini-apps kunnen integreren met verschillende Google-services via ‘Gemini-extensies’. Deze extensies stellen Gemini in staat om te communiceren met Drive, Gmail, YouTube en andere services, waardoor het kan reageren op vragen als ‘Kun je mijn laatste drie e-mails samenvatten?’.

Gemini Live: Engaging in In-Depth Voice Conversations

‘Gemini Live’ biedt een meeslepende ervaring, waardoor gebruikers gedetailleerde spraakgesprekken met Gemini kunnen voeren. Deze functie is beschikbaar binnen de Gemini-apps op mobiele apparaten en op de Pixel Buds Pro 2, waar deze zelfs kan worden geopend wanneer de telefoon is vergrendeld.

Met Gemini Live kunnen gebruikers Gemini onderbreken terwijl het spreekt om verduidelijkende vragen te stellen, en de chatbot past zich in realtime aan spraakpatronen aan. Live is ook ontworpen om te functioneren als een virtuele coach, die helpt bij de voorbereiding van evenementen, brainstormen en andere taken. Live kan bijvoorbeeld vaardigheden voorstellen om te benadrukken tijdens een sollicitatiegesprek en tips geven voor spreken in het openbaar.

Gemini for Teens: A Tailored AI Experience for Students

Google biedt een gespecialiseerde Gemini-ervaring die is afgestemd op tienerstudenten.

Deze op tieners gerichte versie van Gemini bevat ‘aanvullende beleidsregels en waarborgen’, waaronder een aangepast onboardingproces en een AI-geletterdheidsgids. Afgezien van deze wijzigingen lijkt het sterk op de standaard Gemini-ervaring, inclusief de ‘dubbelcheck’-functie die de nauwkeurigheid van Gemini’s antwoorden verifieert door informatie op het web te vergelijken.

Exploring the Capabilities of the Gemini Models

De multimodale aard van de Gemini-modellen stelt ze in staat om een breed scala aan taken uit te voeren, variërend van spraaktranscriptie tot realtime beeld- en videobeschrijving. Veel van deze mogelijkheden zijn al geïntegreerd in Google’s producten, met verdere verbeteringen beloofd in de nabije toekomst.

Het is echter belangrijk om te erkennen dat Google, net als zijn concurrenten, enkele van de inherente uitdagingen die gepaard gaan met generatieve AI-technologie, zoals ingebouwde vooroordelen en de neiging om informatie te verzinnen (hallucinaties), nog niet volledig heeft aangepakt. Met deze beperkingen moet rekening worden gehouden bij het evalueren van het gebruik van Gemini, met name voor kritieke toepassingen.

Gemini Pro’s Prowess

Google beweert dat zijn nieuwste Pro-model, Gemini 2.0 Pro, zijn meest geavanceerde aanbod vertegenwoordigt voor codering en het verwerken van complexe prompts. 2.0 Pro overtreft zijn voorganger, Gemini 1.5 Pro, in benchmarks die programmeren, redeneren, wiskunde en feitelijke nauwkeurigheid beoordelen.

Binnen Google’s Vertex AI-platform kunnen ontwikkelaars Gemini Pro aanpassen voor specifieke contexten en use cases door middel van fine-tuning of ‘grounding’. Pro (samen met andere Gemini-modellen) kan bijvoorbeeld worden geïnstrueerd om gegevens van externe providers zoals Moody’s, Thomson Reuters, ZoomInfo en MSCI te gebruiken, of om informatie te halen uit bedrijfsdatasets of Google Search in plaats van uit zijn bredere kennisbasis. Gemini Pro kan ook worden verbonden met externe, third-party API’s om specifieke acties uit te voeren, zoals het automatiseren van back-office workflows.

Google’s AI Studio-platform biedt sjablonen voor het maken van gestructureerde chatprompts met Pro. Ontwikkelaars kunnen het creatieve bereik van het model regelen, voorbeelden geven om toon en stijl te sturen en de veiligheidsinstellingen van Pro verfijnen.

Gemini Flash: Lightweight Efficiency and Gemini Flash Thinking’s Reasoning Abilities

Gemini 2.0 Flash, is in staat om Google search en andere externe API’s te gebruiken. Hoewel het kleiner is, presteert het beter dan sommige van de grotere 1.5-modellen op benchmarks die codering en beeldanalyse meten. Als een afgeleide van Gemini Pro, is Flash ontworpen voor efficiëntie, gericht op smalle, hoogfrequente generatieve AI-taken.

Google benadrukt de geschiktheid van Flash voor toepassingen zoals samenvatting, chat-applicaties, beeld- en videobeschrijving en gegevensextractie uit lange documenten en tabellen. Ondertussen overtreft Gemini 2.0 Flash-Lite, een compactere iteratie van Flash, Gemini 1.5 Flash in prestaties, terwijl het dezelfde prijs en snelheid behoudt, volgens Google.

In december van vorig jaar introduceerde Google een ‘denkende’ variant van Gemini 2.0 Flash, begiftigd met ‘redeneer’-mogelijkheden. Dit AI-model neemt een paar seconden de tijd om achteruit te werken door een probleem voordat het een antwoord geeft, wat mogelijk de betrouwbaarheid verbetert.

Gemini Nano: On-Device AI Power

Gemini Nano is een opmerkelijk compacte versie van Gemini, ontworpen om rechtstreeks op compatibele apparaten te werken, waardoor het niet nodig is om taken naar een externe server te sturen. Momenteel ondersteunt Nano verschillende functies op de Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 en Samsung Galaxy S24, waaronder Summarize in Recorder en Smart Reply in Gboard.

De Recorder-app, waarmee gebruikers audio kunnen opnemen en transcriberen, bevat een door Gemini aangedreven samenvattingsfunctie voor opgenomen gesprekken, interviews, presentaties en andere audiofragmenten. Deze samenvattingen worden gegenereerd, zelfs zonder netwerkverbinding, en in het belang van de privacy verlaat geen data het apparaat van de gebruiker tijdens het proces.

Nano vindt ook zijn plaats in Gboard, Google’s toetsenbordvervanger, waar het Smart Reply aandrijft. Deze functie suggereert reacties in berichten-apps zoals WhatsApp, waardoor gesprekken worden gestroomlijnd.

Een toekomstige iteratie van Android is gepland om Nano te gebruiken om gebruikers te waarschuwen voor potentiële oplichting tijdens telefoongesprekken. De nieuwe weer-app op Pixel-telefoons maakt gebruik van Gemini Nano om gepersonaliseerde weerberichten te genereren. Bovendien gebruikt TalkBack, Google’s toegankelijkheidsservice, Nano om auditieve beschrijvingen van objecten te maken voor gebruikers met een visuele beperking.

Gemini Ultra: Awaiting its Return

Gemini Ultra is de afgelopen maanden relatief afwezig geweest in de schijnwerpers. Het model is momenteel niet beschikbaar binnen de Gemini-apps, noch wordt het vermeld op de Gemini API-prijslijst van Google. Dit sluit echter niet uit dat Google Ultra in de toekomst opnieuw introduceert.

Pricing Structure for the Gemini Models

Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash en 2.0 Flash-Lite zijn toegankelijk via Google’s Gemini API voor het ontwikkelen van applicaties en services. Ze werken op basis van pay-as-you-go. De basisprijzen, exclusief add-ons, vanaf 22 februari 2025, zijn als volgt:

  • Gemini 1.5 Pro: $1.25 per 1 miljoen invoertokens (voor prompts tot 128K tokens) of $2.50 per 1 miljoen invoertokens (voor prompts langer dan 128K tokens); $5 per 1 miljoen uitvoertokens (voor prompts tot 128K tokens) of $10 per 1 miljoen uitvoertokens (voor prompts langer dan 128K tokens)
  • Gemini 1.5 Flash: 7.5 cent per 1 miljoen invoertokens (voor prompts tot 128K tokens), 15 cent per 1 miljoen invoertokens (voor prompts langer dan 128K tokens), 30 cent per 1 miljoen uitvoertokens (voor prompts tot 128K tokens), 60 cent per 1 miljoen uitvoertokens (voor prompts langer dan 128K tokens)
  • Gemini 2.0 Flash: 10 cent per 1 miljoen invoertokens, 40 cent per 1 miljoen uitvoertokens. Voor audio, 70 cent per 1 miljoen invoertokens.
  • Gemini 2.0 Flash-Lite: 7.5 cent per 1 miljoen invoertokens, 30 cent per 1 miljoen uitvoertokens.

Tokens vertegenwoordigen onderverdeelde eenheden van ruwe data, zoals de lettergrepen ‘fan’, ‘tas’ en ‘tic’ in het woord’fantastisch’. Een miljoen tokens komt ongeveer overeen met 750.000 woorden. ‘Invoer’ verwijst naar tokens die in het model worden ingevoerd, terwijl ‘uitvoer’ tokens aanduidt die door het model worden gegenereerd.

De prijzen voor 2.0 Pro moeten nog worden aangekondigd en Nano blijft in early access.

Gemini’s Potential Arrival on the iPhone

Het vooruitzicht van Gemini’s integratie met iPhones is een duidelijke mogelijkheid.

Apple heeft aangegeven dat het in gesprek is om mogelijk Gemini en andere modellen van derden te gebruiken voor verschillende functies binnen zijn Apple Intelligence-suite. Na een keynote-presentatie op WWDC 2024 bevestigde Apple SVP Craig Federighi plannen om samen te werken met modellen, waaronder Gemini, maar onthield zich van het vrijgeven van verdere details.