Een nieuw tijdperk van beeldmanipulatie
In tegenstelling tot veel bestaande AI-beeldtools die zich primair richten op het genereren van volledig nieuwe afbeeldingen, onderscheidt Gemini 2.0 Flash zich door zijn vermogen om bestaande foto’s te begrijpen en te wijzigen. Dit systeem begrijpt de inhoud van een foto zo goed dat het specifieke wijzigingen kan aanbrengen op basis van conversationele instructies, terwijl de essentie van de originele afbeelding behouden blijft.
Deze opmerkelijke prestatie wordt bereikt door de van nature multimodale aard van Gemini 2.0. Het verwerkt naadloos zowel tekst als afbeeldingen tegelijkertijd. Het model zet afbeeldingen op ingenieuze wijze om in ‘tokens’ – dezelfde fundamentele eenheden die het gebruikt voor tekstverwerking. Hierdoor kan het visuele inhoud manipuleren met dezelfde neurale paden die het gebruikt om taal te begrijpen. Deze uniforme aanpak elimineert de noodzaak voor afzonderlijke, gespecialiseerde modellen om verschillende mediatypen te verwerken, waardoor het hele proces wordt gestroomlijnd.
‘Gemini 2.0 Flash maakt gebruik van multimodale input, verbeterde redenering en natuurlijk taalbegrip om afbeeldingen te creëren’, aldus Google in zijn officiële aankondiging. ‘Stel je voor dat je Gemini 2.0 Flash gebruikt om een verhaal te vertellen, en het illustreert het met afbeeldingen, waarbij de consistentie in personages en omgevingen behouden blijft. Geef feedback en het model past het verhaal aan of wijzigt de stijl van de tekeningen.’
Deze aanpak onderscheidt Google van concurrenten zoals OpenAI. Hoewel ChatGPT afbeeldingen kan genereren met Dall-E 3 en kan itereren op zijn creaties met behulp van natuurlijk taalbegrip, vertrouwt het op een afzonderlijk AI-model om dit te bereiken. In wezen orkestreert ChatGPT een complexe wisselwerking tussen GPT-V voor visie, GPT-4o voor taal en Dall-E 3 voor het genereren van afbeeldingen. OpenAI verwacht echter een enkel, allesomvattend model te bereiken met de toekomstige GPT-5.
Een parallel concept bestaat in het open-source domein met OmniGen, ontwikkeld door onderzoekers van de Beijing Academy of Artificial Intelligence. De makers ervan stellen zich voor ‘het genereren van een verscheidenheid aan afbeeldingen rechtstreeks via willekeurig multimodale instructies, zonder de noodzaak van extra plug-ins of bewerkingen, vergelijkbaar met hoe GPT functioneert in taalgeneratie.’
OmniGen beschikt over mogelijkheden zoals objectwijziging, het samenvoegen van scènes en esthetische aanpassingen. Het is echter aanzienlijk minder gebruiksvriendelijk dan de nieuwe Gemini, werkt met lagere resoluties, vereist ingewikkeldere opdrachten en mist uiteindelijk de pure kracht van Google’s aanbod. Desalniettemin biedt het een aantrekkelijk open-source alternatief voor bepaalde gebruikers.
Gemini 2.0 Flash in de praktijk testen
Om de mogelijkheden en beperkingen van Gemini 2.0 Flash echt te begrijpen, is een reeks praktische tests uitgevoerd, waarbij verschillende bewerkingsscenario’s zijn onderzocht. De resultaten tonen zowel indrukwekkende sterke punten als enkele gebieden voor potentiële verbetering.
Realistische onderwerpen met precisie wijzigen
Het model vertoont een opmerkelijke coherentie bij het wijzigen van realistische onderwerpen. In een zelfportrettest leverde een verzoek om spierdefinitie toe te voegen bijvoorbeeld het gewenste resultaat op. Hoewel er kleine gezichtswijzigingen optraden, bleef de algehele herkenbaarheid behouden.
Cruciaal is dat andere elementen in de foto grotendeels onaangeroerd bleven, wat het vermogen van de AI aantoont om zich uitsluitend te concentreren op de gespecificeerde wijziging. Deze gerichte bewerkingsmogelijkheid staat in schril contrast met typische generatieve benaderingen die vaak hele afbeeldingen reconstrueren, waardoor mogelijk ongewenste wijzigingen worden geïntroduceerd.
Het is ook belangrijk om de ingebouwde beveiligingen van het model op te merken. Het weigert consequent om foto’s van kinderen te bewerken en vermijdt het verwerken van inhoud die verband houdt met naaktheid, wat Google’s toewijding aan verantwoorde AI-ontwikkeling weerspiegelt. Voor gebruikers die meer gewaagde beeldmanipulaties willen verkennen, is OmniGen wellicht een geschiktere optie.
Stijltransformaties beheersen
Gemini 2.0 Flash toont een opmerkelijk talent voor stijlconversies. Een verzoek om een foto van Donald Trump te transformeren in de stijl van Japanse manga leverde na een paar pogingen een succesvolle herinterpretatie op.
Het model kan vakkundig een breed spectrum aan stijloverdrachten aan, waarbij foto’s worden omgezet in tekeningen, olieverfschilderijen of vrijwel elke denkbare artistieke stijl. Gebruikers kunnen de resultaten verfijnen door de temperatuurinstellingen aan te passen en verschillende filters in en uit te schakelen. Het is echter vermeldenswaard dat hogere temperatuurinstellingen de neiging hebben om transformaties te produceren die minder trouw zijn aan de originele afbeelding.
Een opmerkelijke beperking komt naar voren bij het aanvragen van stijlen die verband houden met specifieke artiesten. Tests met de stijlen van Leonardo Da Vinci, Michelangelo, Botticelli of Van Gogh resulteerden erin dat de AI daadwerkelijke schilderijen van deze meesters reproduceerde, in plaats van hun kenmerkende technieken toe te passen op de bronafbeelding.
Met wat verfijning van de prompt en een paar iteraties kan een bruikbaar, zij het middelmatig, resultaat worden bereikt. Over het algemeen is het effectiever om de gewenste kunststijl te vragen in plaats van de specifieke artiest.
De kunst van elementmanipulatie
Voor praktische bewerkingstaken blinkt Gemini 2.0 Flash echt uit. Het verwerkt vakkundig inpainting en objectmanipulatie, waarbij specifieke objecten op verzoek naadloos worden verwijderd of nieuwe elementen aan een compositie worden toegevoegd. In één test werd de AI gevraagd om een basketbal te vervangen door een gigantische rubberen kip, wat een humoristisch maar contextueel passend resultaat opleverde.
Hoewel er af en toe kleine wijzigingen aan onderwerpen kunnen optreden, zijn deze doorgaans eenvoudig te corrigeren met standaard digitale bewerkingstools in een kwestie van seconden.
Misschien wel het meest controversieel is dat het model een bekwaamheid toont in het verwijderen van auteursrechtelijke beschermingen – een functie die veel discussie heeft losgemaakt op platforms zoals X. Toen Gemini een afbeelding met watermerken kreeg en de opdracht kreeg om alle letters, logo’s en watermerken te verwijderen, genereerde het een schone afbeelding die vrijwel niet te onderscheiden was van het origineel zonder watermerk.
Navigeren door perspectiefveranderingen
Een van de technisch meest indrukwekkende aspecten van Gemini is het vermogen om het perspectief te veranderen – een prestatie waar reguliere diffusiemodellen doorgaans moeite mee hebben. De AI kan een scène vanuit verschillende hoeken opnieuw voorstellen, hoewel de resultaten in wezen nieuwe creaties zijn in plaats van precieze transformaties van het origineel.
Hoewel perspectiefverschuivingen geen vlekkeloze resultaten opleveren – het model conceptualiseert immers de hele afbeelding vanuit een nieuw gezichtspunt – vertegenwoordigen ze een aanzienlijke vooruitgang in het begrip van de AI van driedimensionale ruimte op basis van tweedimensionale inputs.
De juiste formulering is cruciaal bij het instrueren van het model om achtergronden te manipuleren. Het heeft vaak de neiging om de hele foto te wijzigen, wat resulteert in een drastisch andere compositie.
In één test werd Gemini bijvoorbeeld gevraagd om de achtergrond van een foto te veranderen, waarbij een zittende robot in Egypte werd geplaatst in plaats van op de oorspronkelijke locatie. De instructie vermeldde expliciet dat het onderwerp niet mocht worden gewijzigd. Het model had echter moeite om deze specifieke taak nauwkeurig uit te voeren en leverde in plaats daarvan een volledig nieuwe compositie met de piramides, met een staande robot, maar niet als het primaire focuspunt.
Een andere waargenomen beperking is dat hoewel het model meerdere keren op één afbeelding kan itereren, de kwaliteit van de details de neiging heeft af te nemen bij elke opeenvolgende iteratie. Daarom is het essentieel om rekening te houden met mogelijke kwaliteitsvermindering bij het uitvoeren van uitgebreide bewerkingen.
Dit experimentele model is momenteel toegankelijk voor ontwikkelaars via Google AI Studio en de Gemini API in alle ondersteunde regio’s. Het is ook beschikbaar op Hugging Face voor gebruikers die hun informatie liever niet met Google delen.
Concluderend lijkt dit nieuwe aanbod van Google een verborgen juweeltje te zijn, net als NotebookLM. Het bereikt iets dat andere modellen niet kunnen, en het doet dit met een goed niveau van bekwaamheid, maar het blijft relatief onder de radar. Het is ongetwijfeld de moeite waard om te verkennen voor gebruikers die willen experimenteren met het potentieel van generatieve AI in beeldbewerking en onderweg wat creatief plezier willen hebben. De mogelijkheid om de gewenste wijzigingen eenvoudig in gewone taal te beschrijven, opent een wereld van mogelijkheden voor zowel casual gebruikers als professionals, en markeert een belangrijke stap voorwaarts in de democratisering van beeldmanipulatie. Deze technologie heeft het potentieel om de manier waarop we omgaan met visuele inhoud te veranderen, waardoor geavanceerde bewerkingstechnieken toegankelijk worden voor iedereen, ongeacht hun technische vaardigheden. De implicaties zijn enorm, variërend van persoonlijke fotoverbeteringen tot professionele ontwerpworkflows, en zelfs tot het creëren van geheel nieuwe vormen van visuele kunst. Naarmate de technologie zich verder ontwikkelt, zal het fascinerend zijn om getuige te zijn van de impact ervan op het creatieve landschap.