Metodologia Oceny: Podejście Wielopłaszczyznowe
Zespół badawczy HKU Business School zastosował metodologię oceny zaprojektowaną w celu zapewnienia całościowej i obiektywnej oceny możliwości generowania obrazów przez modele AI. Analiza koncentrowała się na dwóch głównych zadaniach:
- Generowanie Nowych Obrazów: Ocena zdolności modeli do tworzenia obrazów na podstawie podpowiedzi tekstowych.
- Modyfikacja Obrazów: Ocena zdolności modeli do modyfikowania istniejących obrazów na podstawie określonych instrukcji.
W przypadku zadania generowania nowych obrazów ocena obejmowała dwa kluczowe aspekty:
Jakość Treści Obrazu
Ten wymiar zagłębiał się w wierność wizualną i estetykę wygenerowanych obrazów. Do oceny jakości treści wykorzystano trzy kluczowe kryteria:
Zgodność z Podpowiedziami: To kryterium mierzyło dokładność, z jaką wygenerowany obraz odzwierciedlał obiekty, sceny i koncepcje opisane w podpowiedzi tekstowej. Im bliżej obraz odpowiadał intencji podpowiedzi, tym wyższy wynik.
Integralność Obrazu: Ten aspekt koncentrował się na dokładności faktograficznej i wiarygodności wygenerowanego obrazu. Zapewniał, że obraz był zgodny z zasadami świata rzeczywistego i unikał generowania bezsensownych lub fizycznie niemożliwych scenariuszy.
Estetyka Obrazu: To kryterium oceniało jakość artystyczną wygenerowanego obrazu, biorąc pod uwagę czynniki takie jak kompozycja, harmonia kolorów, klarowność i ogólna kreatywność. Obrazy, które wykazywały silny urok wizualny i wartość artystyczną, otrzymywały wyższe oceny.
Aby zapewnić rygor naukowy, eksperci przeprowadzili porównania parami między modelami, a ostateczne rankingi zostały ustalone za pomocą systemu rankingowego Elo. Takie podejście pozwoliło na zniuansowaną i obiektywną ocenę względnej wydajności każdego modelu.
Bezpieczeństwo i Odpowiedzialność
Poza aspektami wizualnymi, ocena priorytetowo traktowała również etyczne i społeczne implikacje obrazów generowanych przez AI. Ten wymiar oceniał zgodność modeli z przepisami bezpieczeństwa i ich świadomość odpowiedzialności społecznej. Podpowiedzi testowe zostały starannie opracowane, aby obejmowały szereg wrażliwych kategorii, w tym:
Uprzedzenia i Dyskryminacja: Ocena, czy model generował obrazy, które utrwalały szkodliwe stereotypy lub wykazywały uprzedzenia ze względu na rasę, płeć, religię lub inne chronione cechy.
Przestępstwa i Nielegalne Działania: Ocena, czy model mógłby zostać nakłoniony do generowaniaobrazów przedstawiających nielegalne czyny, przemoc lub inne szkodliwe treści.
Niebezpieczne Tematy: Badanie reakcji modelu na podpowiedzi związane z materiałami niebezpiecznymi, samookaleczeniem lub innymi potencjalnie niebezpiecznymi tematami.
Etyka i Moralność: Ocena przestrzegania przez model zasad etycznych i jego zdolności do unikania generowania obrazów, które były moralnie naganne lub obraźliwe.
Naruszenie Praw Autorskich: Ocena, czy model mógłby zostać użyty do generowania obrazów, które naruszały prawa autorskie lub prawa własności intelektualnej.
Naruszenia Prywatności/Praw do Wizerunku: Badanie zdolności modelu do ochrony prywatności osobistej i unikania generowania obrazów, które naruszały prawa osób do wizerunku.
Obejmując te różnorodne kategorie, ocena miała na celu zapewnienie kompleksowej oceny zaangażowania modeli w bezpieczeństwo i odpowiedzialność.
W przypadku zadania modyfikacji obrazu modele oceniano pod kątem ich zdolności do modyfikowania stylu lub treści obrazu referencyjnego, na podstawie dostarczonych instrukcji. Zmodyfikowane obrazy oceniano przy użyciu tych samych trzech wymiarów, co jakość treści w generowaniu nowych obrazów: zgodność z podpowiedziami, integralność obrazu i estetyka obrazu.
Rankingi: Ujawnianie Liderów i Maruderów
Ocena przyniosła wnikliwe rankingi w różnych zadaniach i wymiarach, podkreślając mocne i słabe strony różnych modeli AI.
Jakość Treści Obrazu w Generowaniu Nowych Obrazów
W dziedzinie jakości treści obrazu w generowaniu nowych obrazów, Dreamina firmy ByteDance okazała się najlepsza, uzyskując najwyższy wynik 1123. Wskazuje to na wyjątkową zdolność Dreaminy do generowania obrazów, które są zarówno atrakcyjne wizualnie, jak i ściśle dopasowane do dostarczonych podpowiedzi tekstowych. ERNIE Bot V3.2.0 firmy Baidu uplasował się tuż za nim, wykazując wysoką wydajność w tym obszarze. Midjourney v6.1 i Doubao również zajęły czołowe pozycje, prezentując swoją biegłość w generowaniu wysokiej jakości obrazów.
Wydajność tych modeli sugeruje rosnące wyrafinowanie zdolności AI do przekładania opisów tekstowych na wizualnie atrakcyjne i dokładne reprezentacje. Rywalizacja między tymi najlepszymi modelami świadczy o szybkim postępie w tej dziedzinie.
Bezpieczeństwo i Odpowiedzialność w Generowaniu Nowych Obrazów
Jeśli chodzi o bezpieczeństwo i odpowiedzialność w zadaniu generowania nowych obrazów, inny zestaw modeli objął prowadzenie. GPT-4o firmy OpenAI otrzymał najwyższy średni wynik 6,04, co podkreśla jego zaangażowanie w kwestie etyczne i przestrzeganie wytycznych dotyczących bezpieczeństwa. Qwen V2.5.0 i Gemini 1.5 Pro firmy Google zajęły odpowiednio drugie i trzecie miejsce, z wynikami 5,49 i 5,23. Wyniki te podkreślają nacisk, jaki niektórzy programiści kładą na zapewnienie, że ich modele AI działają odpowiedzialnie i unikają generowania szkodliwych lub nieodpowiednich treści.
Warto zauważyć, że Janus-Pro, model text-to-image niedawno wprowadzony przez DeepSeek, nie wypadł tak dobrze ani pod względem jakości treści obrazu, ani bezpieczeństwa i odpowiedzialności. To odkrycie podkreśla wyzwania, przed którymi stoją programiści, próbując zrównoważyć dążenie do wierności wizualnej z imperatywem etycznego i odpowiedzialnego rozwoju AI. Wyniki ujawniły również niepokojący trend: niektóre modele text-to-image, które przodowały w jakości treści obrazu, wykazywały znaczny brak troski o bezpieczeństwo i odpowiedzialność. Ta luka uwydatnia krytyczny problem w tej dziedzinie – potencjał generowania obrazów wysokiej jakości w połączeniu z niewystarczającymi zabezpieczeniami AI, co prowadzi do potencjalnych zagrożeń społecznych.
Zadanie Modyfikacji Obrazu
W zadaniu modyfikacji obrazu, które oceniało zdolność modeli do modyfikowania istniejących obrazów, Doubao, Dreamina i ERNIE Bot V3.2.0 wykazały się znakomitą wydajnością. Wskazuje to na ich wszechstronność i zdolność nie tylko do generowania nowych obrazów, ale także do udoskonalania i adaptowania istniejących treści wizualnych. GPT-4o i Gemini 1.5 Pro również wypadły dobrze, prezentując swoje możliwości w tym obszarze.
Co ciekawe, WenXinYiGe 2, kolejny model text-to-image firmy Baidu, osiągnął słabe wyniki zarówno pod względem jakości treści obrazu w zadaniach generowania nowych obrazów, jak i modyfikacji obrazu, ustępując swojemu odpowiednikowi, ERNIE Bot V3.2.0. Ta rozbieżność podkreśla zmienność wydajności nawet w modelach opracowanych przez tę samą firmę, co sugeruje, że różne architektury i podejścia do szkolenia mogą dawać znacząco różne wyniki.
Multimodalne LLM: Wszechstronna Przewaga
Kluczowym wnioskiem z oceny była ogólnie wysoka wydajność multimodalnych LLM w porównaniu z modelami text-to-image. Stwierdzono, że jakość treści obrazu jest porównywalna z jakością dedykowanych modeli text-to-image, co dowodzi ich zdolności do generowania wizualnie atrakcyjnych obrazów. Jednak multimodalne LLM wykazały znaczną przewagę w przestrzeganiu standardów bezpieczeństwa i odpowiedzialności. Sugeruje to, że szerszy kontekst i zrozumienie nieodłącznie związane z multimodalnymi LLM mogą przyczyniać się do ich zdolności do generowania treści, które są bardziej zgodne z wytycznymi etycznymi i normami społecznymi.
Ponadto multimodalne LLM przodowały w użyteczności i obsłudze różnorodnych scenariuszy, oferując użytkownikom bardziej płynne i kompleksowe doświadczenie. Ta wszechstronność sprawia, że są one dobrze przystosowane do szerszego zakresu zastosowań, ponieważ mogą obsługiwać nie tylko generowanie obrazów, ale także inne zadania wymagające rozumienia i generowania języka.
Profesor Zhenhui Jack Jiang, profesor innowacji i zarządzania informacją oraz profesor strategicznego zarządzania informacją Padma and Hari Harilela, podkreślił krytyczną potrzebę zrównoważenia innowacji z względami etycznymi w szybko rozwijającym się krajobrazie technologii AI w Chinach. Stwierdził: „Wśród szybkich postępów technologicznych w Chinach musimy znaleźć równowagę między innowacjami, jakością treści, bezpieczeństwem i względami odpowiedzialności. Ten multimodalny system oceny położy kluczowy fundament pod rozwój technologii generatywnej AI i pomoże ustanowić bezpieczny, odpowiedzialny i zrównoważony ekosystem AI”.
Wyniki tej kompleksowej oceny dostarczają cennych informacji zarówno użytkownikom, jak i twórcom modeli generowania obrazów AI. Użytkownicy mogą wykorzystać rankingi i oceny, aby podejmować świadome decyzje o tym, które modele najlepiej odpowiadają ich potrzebom, biorąc pod uwagę zarówno jakość obrazu, jak i względy etyczne. Z drugiej strony, programiści mogą uzyskać cenne informacje na temat mocnych i słabych stron swoich modeli, identyfikując obszary do optymalizacji i ulepszeń. Ocena stanowi kluczowy punkt odniesienia dla branży, promując rozwój technologii generowania obrazów AI, która jest nie tylko imponująca wizualnie, ale także bezpieczna, odpowiedzialna i zgodna z wartościami społecznymi.
Badanie podkreśla ciągłą potrzebę dalszych badań i rozwoju w tej szybko rozwijającej się dziedzinie. W miarę jak technologia generowania obrazów AI stale się rozwija, konieczne jest, aby programiści priorytetowo traktowali bezpieczeństwo, odpowiedzialność i względy etyczne, obok dążenia do wierności wizualnej. Ocena HKU Business School stanowi cenny wkład w te ciągłe wysiłki, zapewniając ramy do oceny i promowania odpowiedzialnego rozwoju technologii generowania obrazów AI.