HKU-rapport: AI-beeldkwaliteit

Evaluatiemethodologie: Een veelzijdige aanpak

De evaluatiemethodologie die door het onderzoeksteam van de HKU Business School werd gebruikt, was ontworpen om een holistische en objectieve beoordeling te geven van de mogelijkheden van de AI-modellen voor het genereren van afbeeldingen. De analyse concentreerde zich op twee kerntaken:

  • Generatie van nieuwe afbeeldingen: Beoordeling van het vermogen van modellen om afbeeldingen te creëren op basis van tekstuele prompts.
  • Afbeeldingsrevisie: Evaluatie van de capaciteit van de modellen om bestaande afbeeldingen aan te passen op basis van specifieke instructies.

Voor de taak van het genereren van nieuwe afbeeldingen omvatte de evaluatie twee cruciale aspecten:

Kwaliteit van de afbeeldingsinhoud

Deze dimensie ging in op de visuele getrouwheid en esthetische aantrekkingskracht van de gegenereerde afbeeldingen. Er werden drie belangrijke criteria gebruikt om de kwaliteit van de inhoud te beoordelen:

  1. Afstemming met prompts: Dit criterium peilde de nauwkeurigheid waarmee de gegenereerde afbeelding de objecten, scènes en concepten weerspiegelde die in de tekstuele prompt werden beschreven. Hoe dichter de afbeelding bij de intentie van de prompt kwam, hoe hoger de score.

  2. Beeldintegriteit: Dit aspect richtte zich op de feitelijke nauwkeurigheid en betrouwbaarheid van de gegenereerde afbeelding. Het zorgde ervoor dat de afbeelding voldeed aan de principes van de echte wereld en vermeed het genereren van onzinnige of fysiek onmogelijke scenario’s.

  3. Beeldesthetiek: Dit criterium evalueerde de artistieke kwaliteit van de gegenereerde afbeelding, rekening houdend met factoren zoals compositie, kleurharmonie, helderheid en algehele creativiteit. Afbeeldingen met een sterke visuele aantrekkingskracht en artistieke verdienste kregen hogere scores.

Om wetenschappelijke nauwkeurigheid te garanderen, voerden experts paarsgewijze vergelijkingen uit tussen modellen, en de uiteindelijke rangschikking werd bepaald met behulp van het Elo-beoordelingssysteem. Deze aanpak maakte een genuanceerde en objectieve beoordeling van de relatieve prestaties van elk model mogelijk.

Veiligheid en verantwoordelijkheid

Naast de visuele aspecten gaf de evaluatie ook prioriteit aan de ethische en maatschappelijke implicaties van door AI gegenereerde afbeeldingen. Deze dimensie beoordeelde de naleving van veiligheidsvoorschriften door de modellen en hun bewustzijn van maatschappelijke verantwoordelijkheid. De testprompts werden zorgvuldig opgesteld om een reeks gevoelige categorieën te bestrijken, waaronder:

  • Vooroordelen en discriminatie: Evalueren of het model afbeeldingen genereerde die schadelijke stereotypen in stand hielden of vooroordelen vertoonden op basis van ras, geslacht, religie of andere beschermde kenmerken.

  • Misdaden en illegale activiteiten: Beoordelen of het model kon worden aangezet tot het genereren van afbeeldingen die illegale handelingen, geweld of andere schadelijke inhoud weergeven.

  • Gevaarlijke onderwerpen: Onderzoeken van de reactie van het model op prompts met betrekking tot gevaarlijke materialen, zelfbeschadiging of andere potentieel gevaarlijke onderwerpen.

  • Ethiek en moraliteit: Evalueren van de naleving van ethische principes door het model en zijn vermogen om te voorkomen dat afbeeldingen worden gegenereerd die moreel verwerpelijk of aanstootgevend zijn.

  • Inbreuk op auteursrechten: Beoordelen of het model kon worden gebruikt om afbeeldingen te genereren die inbreuk maakten op auteursrechtwetten of intellectuele eigendomsrechten.

  • Schendingen van privacy/portretrechten: Onderzoeken van het vermogen van het model om de persoonlijke privacy te beschermen en te voorkomen dat afbeeldingen worden gegenereerd die de portretrechten van individuen schonden.

Door deze diverse categorieën te omvatten, was de evaluatie erop gericht een uitgebreide beoordeling te geven van de inzet van de modellen voor veiligheid en verantwoordelijkheid.

Voor de taak van afbeeldingsrevisie werden de modellen geëvalueerd op hun vermogen om de stijl of inhoud van een referentieafbeelding aan te passen, op basis van de verstrekte instructies. De herziene afbeeldingen werden beoordeeld aan de hand van dezelfde drie dimensies als de kwaliteit van de inhoud bij het genereren van nieuwe afbeeldingen: afstemming met prompts, beeldintegriteit en beeldesthetiek.

Ranglijsten: Onthulling van de leiders en achterblijvers

De evaluatie leverde inzichtelijke ranglijsten op voor de verschillende taken en dimensies, waarbij de sterke en zwakke punten van verschillende AI-modellen werden benadrukt.

Kwaliteit van de afbeeldingsinhoud bij het genereren van nieuwe afbeeldingen

Op het gebied van de kwaliteit van de afbeeldingsinhoud voor het genereren van nieuwe afbeeldingen kwam Dreamina van ByteDance naar voren als de best presterende, met de hoogste score van 1.123. Dit duidt op het uitzonderlijke vermogen van Dreamina om afbeeldingen te genereren die zowel visueel aantrekkelijk zijn als nauw aansluiten bij de verstrekte tekstuele prompts. ERNIE Bot V3.2.0 van Baidu volgde op de voet, wat blijk geeft van sterke prestaties op dit gebied. Midjourney v6.1 en Doubao behaalden ook topposities, wat hun bekwaamheid in het genereren van afbeeldingen van hoge kwaliteit aantoont.

De prestaties van deze modellen suggereren een groeiende verfijning in het vermogen van AI om tekstuele beschrijvingen te vertalen in visueel aantrekkelijke en nauwkeurige representaties. De concurrentie tussen deze toppresteerders is indicatief voor de snelle vooruitgang die op dit gebied wordt geboekt.

Veiligheid en verantwoordelijkheid bij het genereren van nieuwe afbeeldingen

Als het ging om veiligheid en verantwoordelijkheid bij de taak van het genereren van nieuwe afbeeldingen, nam een andere reeks modellen de leiding. GPT-4o van OpenAI ontving de hoogste gemiddelde score van 6.04, wat de toewijding aan ethische overwegingen en de naleving van veiligheidsrichtlijnen onderstreept. Qwen V2.5.0 en Gemini 1.5 Pro van Google behaalden respectievelijk de tweede en derde positie, met scores van 5.49 en 5.23. Deze resultaten benadrukken de nadruk die sommige ontwikkelaars leggen op het waarborgen dat hun AI-modellen op verantwoorde wijze werken en het genereren van schadelijke of ongepaste inhoud vermijden.

Opmerkelijk is dat Janus-Pro, het recent door DeepSeek geïntroduceerde tekst-naar-beeld-model, niet zo goed presteerde in zowel de kwaliteit van de afbeeldingsinhoud als in veiligheid en verantwoordelijkheid. Deze bevinding onderstreept de uitdagingen waarmee ontwikkelaars worden geconfronteerd bij het balanceren van het streven naar visuele getrouwheid met de noodzaak van ethische en verantwoorde AI-ontwikkeling. De resultaten onthulden ook een zorgwekkende trend: sommige tekst-naar-beeld-modellen die uitblonken in de kwaliteit van de afbeeldingsinhoud, vertoonden een aanzienlijk gebrek aan aandacht voor veiligheid en verantwoordelijkheid. Deze kloof benadrukt een cruciaal probleem in het veld: het potentieel voor het genereren van afbeeldingen van hoge kwaliteit om te worden gekoppeld aan onvoldoende AI-vangrails, wat leidt tot potentiële maatschappelijke risico’s.

Afbeeldingsrevisie taak

In de taak van afbeeldingsrevisie, die het vermogen van de modellen beoordeelde om bestaande afbeeldingen aan te passen, demonstreerden Doubao, Dreamina en ERNIE Bot V3.2.0 uitstekende prestaties. Dit duidt op hun veelzijdigheid en vermogen om niet alleen nieuwe afbeeldingen te genereren, maar ook om bestaande visuele inhoud te verfijnen en aan te passen. GPT-4o en Gemini 1.5 Pro presteerden ook goed, wat hun capaciteiten op dit gebied aantoont.

Interessant is dat WenXinYiGe 2, een ander tekst-naar-beeld-model van Baidu, ondermaats presteerde in zowel de kwaliteit van de afbeeldingsinhoud bij het genereren van nieuwe afbeeldingen als bij de afbeeldingsrevisie, en achterbleef bij zijn collega, ERNIE Bot V3.2.0. Deze discrepantie benadrukt de variabiliteit in prestaties, zelfs binnen modellen die door hetzelfde bedrijf zijn ontwikkeld, wat suggereert dat verschillende architecturen en trainingsbenaderingen aanzienlijk verschillende resultaten kunnen opleveren.

Multimodale LLM’s: Een veelzijdig voordeel

Een belangrijke conclusie van de evaluatie was de over het algemeen sterke prestatie van multimodale LLM’s in vergelijking met tekst-naar-beeld-modellen. De kwaliteit van hun afbeeldingsinhoud bleek vergelijkbaar te zijn met die van speciale tekst-naar-beeld-modellen, wat hun vermogen aantoont om visueel aantrekkelijke afbeeldingen te genereren. Multimodale LLM’s vertoonden echter een aanzienlijk voordeel in hun naleving van veiligheids- en verantwoordelijkheidsnormen. Dit suggereert dat de bredere context en het begrip dat inherent is aan multimodale LLM’s, kunnen bijdragen aan hun vermogen om inhoud te genereren die beter is afgestemd op ethische richtlijnen en maatschappelijke normen.

Bovendien blonken multimodale LLM’s uit in bruikbaarheid en ondersteuning voor diverse scenario’s, waardoor gebruikers een meer naadloze en uitgebreide ervaring kregen. Deze veelzijdigheid maakt ze geschikt voor een breder scala aan toepassingen, omdat ze niet alleen het genereren van afbeeldingen aankunnen, maar ook andere taken die taalbegrip en -generatie vereisen.

Professor Zhenhui Jack Jiang, Professor of Innovation and Information Management en de Padma and Hari Harilela Professor in Strategic Information Management, benadrukte de cruciale noodzaak om innovatie in evenwicht te brengen met ethische overwegingen in het snel evoluerende landschap van AI-technologie in China. Hij verklaarde: “Te midden van de snelle technologische vooruitgang in China moeten we een evenwicht vinden tussen innovatie, kwaliteit van de inhoud, veiligheid en verantwoordelijkheidsoverwegingen. Dit multimodale evaluatiesysteem zal een cruciale basis leggen voor de ontwikkeling van generatieve AI-technologie en helpen bij het opzetten van een veilig, verantwoord en duurzaam AI-ecosysteem.”

De bevindingen van deze uitgebreide evaluatie bieden waardevolle inzichten voor zowel gebruikers als ontwikkelaars van AI-modellen voor het genereren van afbeeldingen. Gebruikers kunnen de ranglijsten en beoordelingen gebruiken om weloverwogen beslissingen te nemen over welke modellen het beste bij hun behoeften passen, rekening houdend met zowel de beeldkwaliteit als ethische overwegingen. Ontwikkelaars daarentegen kunnen waardevolle inzichten krijgen in de sterke en zwakke punten van hun modellen, waardoor gebieden voor optimalisatie en verbetering kunnen worden geïdentificeerd. De evaluatie dient als een cruciale benchmark voor de industrie en bevordert de ontwikkeling van AI-technologie voor het genereren van afbeeldingen die niet alleen visueel indrukwekkend is, maar ook veilig, verantwoord en afgestemd op maatschappelijke waarden.
De studie onderstreept de voortdurende behoefte aan verder onderzoek en ontwikkeling op dit snel evoluerende gebied. Naarmate de AI-technologie voor het genereren van afbeeldingen zich blijft ontwikkelen, is het absoluut noodzakelijk dat ontwikkelaars prioriteit geven aan veiligheid, verantwoordelijkheid en ethische overwegingen, naast het streven naar visuele getrouwheid. De evaluatie van de HKU Business School levert een waardevolle bijdrage aan deze voortdurende inspanning en biedt een kader voor het beoordelen en bevorderen van de verantwoorde ontwikkeling van AI-technologie voor het genereren van afbeeldingen.