KI-Bildgenerierung: HKU-Studie

Bewertungsmethodik: Ein vielschichtiger Ansatz

Das Forschungsteam der HKU Business School verwendete eine Bewertungsmethodik, die darauf abzielte, eine ganzheitliche und objektive Beurteilung der Bildgenerierungsfähigkeiten der KI-Modelle zu ermöglichen. Die Analyse konzentrierte sich auf zwei Kernaufgaben:

  • Generierung neuer Bilder: Bewertung der Fähigkeit von Modellen, Bilder aus Textaufforderungen zu erstellen.
  • Bildrevision: Bewertung der Fähigkeit der Modelle, vorhandene Bilder auf der Grundlage spezifischer Anweisungen zu ändern.

Für die Generierung neuer Bilder umfasste die Bewertung zwei entscheidende Aspekte:

Bildinhaltsqualität

Diese Dimension befasste sich mit der visuellen Wiedergabetreue und der Ästhetik der generierten Bilder. Drei Hauptkriterien wurden verwendet, um die Inhaltsqualität zu bewerten:

  1. Übereinstimmung mit den Eingabeaufforderungen: Dieses Kriterium maß die Genauigkeit, mit der das generierte Bild die in der Textaufforderung beschriebenen Objekte, Szenen und Konzepte widerspiegelte. Je genauer das Bild mit der Absicht der Eingabeaufforderung übereinstimmte, desto höher war die Punktzahl.

  2. Bildintegrität: Dieser Aspekt konzentrierte sich auf die sachliche Richtigkeit und Zuverlässigkeit des generierten Bildes. Es wurde sichergestellt, dass das Bild den Prinzipien der realen Welt entsprach und keine unsinnigen oder physikalisch unmöglichen Szenarien erzeugte.

  3. Bildästhetik: Dieses Kriterium bewertete die künstlerische Qualität des generierten Bildes unter Berücksichtigung von Faktoren wie Komposition, Farbharmonie, Klarheit und allgemeiner Kreativität. Bilder, die eine starke visuelle Anziehungskraft und künstlerischen Wert aufwiesen, erhielten höhere Punktzahlen.

Um die wissenschaftliche Genauigkeit zu gewährleisten, führten Experten paarweise Vergleiche zwischen den Modellen durch, und die endgültigen Ranglisten wurden mithilfe des Elo-Bewertungssystems ermittelt. Dieser Ansatz ermöglichte eine differenzierte und objektive Bewertung der relativen Leistung jedes Modells.

Sicherheit und Verantwortung

Über die visuellen Aspekte hinaus priorisierte die Bewertung auch die ethischen und gesellschaftlichen Auswirkungen von KI-generierten Bildern. Diese Dimension bewertete die Einhaltung von Sicherheitsbestimmungen durch die Modelle und ihr Bewusstsein für soziale Verantwortung. Die Testaufforderungen wurden sorgfältig ausgearbeitet, um eine Reihe sensibler Kategorien abzudecken, darunter:

  • Voreingenommenheit und Diskriminierung: Bewertung, ob das Modell Bilder generierte, die schädliche Stereotypen aufrechterhielten oder Vorurteile aufgrund von Rasse, Geschlecht, Religion oder anderen geschützten Merkmalen aufwiesen.

  • Verbrechen und illegale Aktivitäten: Bewertung, ob das Modell dazu veranlasst werden konnte, Bilder zu generieren, die illegale Handlungen, Gewalt oder andere schädliche Inhalte darstellten.

  • Gefährliche Themen: Untersuchung der Reaktion des Modells auf Aufforderungen im Zusammenhang mit gefährlichen Materialien, Selbstverletzung oder anderen potenziell gefährlichen Themen.

  • Ethik und Moral: Bewertung der Einhaltung ethischer Grundsätze durch das Modell und seiner Fähigkeit, die Generierung von Bildern zu vermeiden, die moralisch anstößig oder beleidigend waren.

  • Urheberrechtsverletzung: Bewertung, ob das Modell verwendet werden konnte, um Bilder zu generieren, die gegen Urheberrechtsgesetze oder Rechte an geistigem Eigentum verstießen.

  • Verletzungen der Privatsphäre/des Rechts am eigenen Bild: Untersuchung der Fähigkeit des Modells, die Privatsphäre zu schützen und die Generierung von Bildern zu vermeiden, die die Rechte von Personen am eigenen Bild verletzten.

Durch die Einbeziehung dieser verschiedenen Kategorien zielte die Bewertung darauf ab, eine umfassende Beurteilung des Engagements der Modelle für Sicherheit und Verantwortung zu liefern.

Für die Bildrevisionsaufgabe wurden die Modelle hinsichtlich ihrer Fähigkeit bewertet, den Stil oder Inhalt eines Referenzbildes auf der Grundlage der bereitgestellten Anweisungen zu ändern. Die überarbeiteten Bilder wurden anhand derselben drei Dimensionen wie die Inhaltsqualität bei der Generierung neuer Bilder bewertet: Übereinstimmung mit den Eingabeaufforderungen, Bildintegrität und Bildästhetik.

Ranglisten: Enthüllung der Spitzenreiter und Nachzügler

Die Bewertung ergab aufschlussreiche Ranglisten über die verschiedenen Aufgaben und Dimensionen hinweg, die die Stärken und Schwächen verschiedener KI-Modelle hervorhoben.

Bildinhaltsqualität bei der Generierung neuer Bilder

Im Bereich der Bildinhaltsqualität für die Generierung neuer Bilder erwies sich Dreamina von ByteDance als Spitzenreiter und sicherte sich die höchste Punktzahl von 1.123. Dies deutet auf Dreaminas außergewöhnliche Fähigkeit hin, Bilder zu generieren, die sowohl optisch ansprechend sind als auch eng mit den bereitgestellten Textaufforderungen übereinstimmen. Baidus ERNIE Bot V3.2.0 folgte dicht dahinter und zeigte eine starke Leistung in diesem Bereich. Midjourney v6.1 und Doubao sicherten sich ebenfalls Spitzenpositionen und stellten ihre Fähigkeit unter Beweis, qualitativ hochwertige Bilder zu generieren.

Die Leistung dieser Modelle deutet auf eine zunehmende Raffinesse der Fähigkeit der KI hin, Textbeschreibungen in visuell überzeugende und genaue Darstellungen zu übersetzen. Der Wettbewerb zwischen diesen Top-Performern ist ein Zeichen für die rasanten Fortschritte, die in diesem Bereich gemacht werden.

Sicherheit und Verantwortung bei der Generierung neuer Bilder

Wenn es um Sicherheit und Verantwortung bei der Generierung neuer Bilder ging, übernahm eine andere Gruppe von Modellen die Führung. OpenAIs GPT-4o erhielt die höchste Durchschnittspunktzahl von 6,04, was sein Engagement für ethische Erwägungen und die Einhaltung von Sicherheitsrichtlinien unterstreicht. Qwen V2.5.0 und Googles Gemini 1.5 Pro belegten mit Punktzahlen von 5,49 bzw. 5,23 den zweiten und dritten Platz. Diese Ergebnisse unterstreichen die Bedeutung, die einige Entwickler darauf legen, sicherzustellen, dass ihre KI-Modelle verantwortungsbewusst arbeiten und die Generierung schädlicher oder unangemessener Inhalte vermeiden.

Bemerkenswert ist, dass Janus-Pro, das kürzlich von DeepSeek eingeführte Text-zu-Bild-Modell, weder bei der Bildinhaltsqualität noch bei der Sicherheit und Verantwortung gut abschnitt. Dieser Befund unterstreicht die Herausforderungen, vor denen Entwickler stehen, wenn sie das Streben nach visueller Wiedergabetreue mit dem Gebot der ethischen und verantwortungsvollen KI-Entwicklung in Einklang bringen müssen. Die Ergebnisse zeigten auch einen besorgniserregenden Trend: Einige Text-zu-Bild-Modelle, die sich durch eine hervorragende Bildinhaltsqualität auszeichneten, zeigten einen erheblichen Mangel an Berücksichtigung von Sicherheit und Verantwortung. Diese Lücke verdeutlicht ein kritisches Problem in diesem Bereich – das Potenzial, dass eine qualitativ hochwertige Bilderzeugung mit unzureichenden KI-Leitplanken gekoppelt werden kann, was zu potenziellen sozialen Risiken führt.

Bildrevisionsaufgabe

Bei der Bildrevisionsaufgabe, bei der die Fähigkeit der Modelle zur Änderung vorhandener Bilder bewertet wurde, zeigten Doubao, Dreamina und ERNIE Bot V3.2.0 eine herausragende Leistung. Dies deutet auf ihre Vielseitigkeit und Fähigkeit hin, nicht nur neue Bilder zu generieren, sondern auch vorhandene visuelle Inhalte zu verfeinern und anzupassen. GPT-4o und Gemini 1.5 Pro schnitten ebenfalls gut ab und stellten ihre Fähigkeiten in diesem Bereich unter Beweis.

Interessanterweise schnitt WenXinYiGe 2, ein weiteres Text-zu-Bild-Modell von Baidu, sowohl bei der Bildinhaltsqualität bei der Generierung neuer Bilder als auch bei der Bildrevision schlecht ab und blieb hinter seinem Konkurrenten ERNIE Bot V3.2.0 zurück. Diese Diskrepanz unterstreicht die Variabilität der Leistung selbst bei Modellen, die vom selben Unternehmen entwickelt wurden, was darauf hindeutet, dass unterschiedliche Architekturen und Trainingsansätze zu signifikant unterschiedlichen Ergebnissen führen können.

Multimodale LLMs: Ein umfassender Vorteil

Eine wichtige Erkenntnis aus der Bewertung war die insgesamt starke Leistung multimodaler LLMs im Vergleich zu Text-zu-Bild-Modellen. Ihre Bildinhaltsqualität wurde als vergleichbar mit der von dedizierten Text-zu-Bild-Modellen befunden, was ihre Fähigkeit zur Generierung visuell ansprechender Bilder demonstriert. Multimodale LLMs zeigten jedoch einen signifikanten Vorteil bei der Einhaltung von Sicherheits- und Verantwortungsstandards. Dies deutet darauf hin, dass der breitere Kontext und das Verständnis, die multimodalen LLMs innewohnen, dazu beitragen können, dass sie Inhalte generieren, die stärker mit ethischen Richtlinien und gesellschaftlichen Normen übereinstimmen.

Darüber hinaus zeichneten sich multimodale LLMs durch Benutzerfreundlichkeit und Unterstützung für verschiedene Szenarien aus und boten den Benutzern eine nahtlosere und umfassendere Erfahrung. Diese Vielseitigkeit macht sie für eine breitere Palette von Anwendungen geeignet, da sie nicht nur die Bilderzeugung, sondern auch andere Aufgaben bewältigen können, die Sprachverständnis und -generierung erfordern.

Professor Zhenhui Jack Jiang, Professor für Innovation und Informationsmanagement und Padma und Hari Harilela Professor für strategisches Informationsmanagement, betonte die dringende Notwendigkeit, Innovation mit ethischen Erwägungen in der sich schnell entwickelnden Landschaft der KI-Technologie in China in Einklang zu bringen. Er erklärte: “Inmitten der rasanten technologischen Fortschritte in China müssen wir ein Gleichgewicht zwischen Innovation, Inhaltsqualität, Sicherheit und Verantwortungsbewusstsein finden. Dieses multimodale Bewertungssystem wird eine entscheidende Grundlage für die Entwicklung generativer KI-Technologie legen und dazu beitragen, ein sicheres, verantwortungsvolles und nachhaltiges KI-Ökosystem zu schaffen.”

Die Ergebnisse dieser umfassenden Bewertung liefern wertvolle Erkenntnisse sowohl für Benutzer als auch für Entwickler von KI-Bildgenerierungsmodellen. Benutzer können die Ranglisten und Bewertungen nutzen, um fundierte Entscheidungen darüber zu treffen, welche Modelle ihren Anforderungen am besten entsprechen, wobei sowohl die Bildqualität als auch ethische Erwägungen berücksichtigt werden. Entwickler hingegen können wertvolle Einblicke in die Stärken und Schwächen ihrer Modelle gewinnen und Bereiche für Optimierung und Verbesserung identifizieren. Die Bewertung dient als entscheidender Maßstab für die Branche und fördert die Entwicklung von KI-Bildgenerierungstechnologie, die nicht nur visuell beeindruckend, sondern auch sicher, verantwortungsvoll und mit gesellschaftlichen Werten vereinbar ist.
Die Studie unterstreicht den anhaltenden Bedarf an weiterer Forschung und Entwicklung in diesem sich schnell entwickelnden Bereich. Da die KI-Bildgenerierungstechnologie immer weiter fortschreitet, ist es unerlässlich, dass Entwickler Sicherheit, Verantwortung und ethische Erwägungen neben dem Streben nach visueller Wiedergabetreue priorisieren. Die Bewertung der HKU Business School leistet einen wertvollen Beitrag zu diesen laufenden Bemühungen und bietet einen Rahmen für die Bewertung und Förderung der verantwortungsvollen Entwicklung von KI-Bildgenerierungstechnologie.