Методология на оценката: Многостранен подход
Методологията за оценка, използвана от изследователския екип на HKU Business School, е проектирана да предостави цялостна и обективна оценка на възможностите за генериране на изображения на AI моделите. Анализът се съсредоточава върху две основни задачи:
- Генериране на нови изображения: Оценка на способността на моделите да създават изображения от текстови подкани.
- Ревизия на изображения: Оценка на способността на моделите да модифицират съществуващи изображения въз основа на конкретни инструкции.
За задачата за генериране на нови изображения оценката обхваща два ключови аспекта:
Качество на съдържанието на изображението
Това измерение се задълбочава във визуалната вярност и естетическата привлекателност на генерираните изображения. Използвани са три ключови критерия за оценка на качеството на съдържанието:
Съответствие с подканите: Този критерий измерва точността, с която генерираното изображение отразява обектите, сцените и концепциите, описани в текстовата подкана. Колкото по-близо е изображението до намерението на подканата, толкова по-висок е резултатът.
Цялост на изображението: Този аспект се фокусира върху фактическата точност и надеждност на генерираното изображение. Той гарантира, че изображението се придържа към принципите на реалния свят и избягва генерирането на безсмислени или физически невъзможни сценарии.
Естетика на изображението: Този критерий оценява художественото качество на генерираното изображение, като се вземат предвид фактори като композиция, цветова хармония, яснота и цялостно творчество. Изображенията, които показват силна визуална привлекателност и художествени достойнства, получават по-високи оценки.
За да се гарантира научна строгост, експертите провеждат сравнения по двойки между моделите, а крайните класации се определят с помощта на рейтинговата система Elo. Този подход позволява нюансирана и обективна оценка на относителното представяне на всеки модел.
Безопасност и отговорност
Освен визуалните аспекти, оценката също така дава приоритет на етичните и обществените последици от генерираните от AI изображения. Това измерение оценява съответствието на моделите с разпоредбите за безопасност и тяхната осведоменост за социалната отговорност. Тестовите подкани са внимателно изработени, за да обхванат редица чувствителни категории, включително:
Пристрастия и дискриминация: Оценка дали моделът генерира изображения, които увековечават вредни стереотипи или проявяват пристрастия въз основа на раса, пол, религия или други защитени характеристики.
Престъпления и незаконни дейности: Оценка дали моделът може да бъде подканен да генерира изображения, изобразяващи незаконни действия, насилие или друго вредно съдържание.
Опасни теми: Проучване на реакцията на модела на подкани, свързани с опасни материали, самонараняване или други потенциално опасни теми.
Етика и морал: Оценка на придържането на модела към етичните принципи и способността му да избягва генерирането на изображения, които са морално неприемливи или обидни.
Нарушаване на авторски права: Оценка дали моделът може да се използва за генериране на изображения, които нарушават законите за авторското право или правата върху интелектуалната собственост.
Нарушения на поверителността/правата върху портрета: Проучване на способността на модела да защитава личната поверителност и да избягва генерирането на изображения, които нарушават правата върху портрета на лицата.
Чрез обхващането на тези разнообразни категории, оценката има за цел да предостави цялостна оценка на ангажимента на моделите към безопасността и отговорността.
За задачата за ревизия на изображенията моделите са оценени по способността им да модифицират стила или съдържанието на референтно изображение въз основа на предоставените инструкции. Ревизираните изображения са оценени, като се използват същите три измерения като качеството на съдържанието при генерирането на нови изображения: съответствие с подканите, цялост на изображението и естетика на изображението.
Класации: Разкриване на лидерите и изоставащите
Оценката даде проницателни класации в различните задачи и измерения, подчертавайки силните и слабите страни на различните AI модели.
Качество на съдържанието на изображението при генериране на нови изображения
В областта на качеството на съдържанието на изображението за генериране на нови изображения, Dreamina на ByteDance се очертава като най-добре представящият се, осигурявайки най-висок резултат от 1123. Това показва изключителната способност на Dreamina да генерира изображения, които са едновременно визуално привлекателни и тясно съобразени с предоставените текстови подкани. ERNIE Bot V3.2.0 на Baidu следва плътно, демонстрирайки силно представяне в тази област. Midjourney v6.1 и Doubao също си осигуриха челни позиции, показвайки уменията си в генерирането на висококачествени изображения.
Представянето на тези модели предполага нарастваща изтънченост в способността на AI да превежда текстови описания във визуално завладяващи и точни представяния. Конкуренцията между тези най-добре представящи се е показателна за бързия напредък, постигнат в тази област.
Безопасност и отговорност при генериране на нови изображения
Що се отнася до безопасността и отговорността в задачата за генериране на нови изображения, различен набор от модели пое лидерството. GPT-4o на OpenAI получи най-висок среден резултат от 6.04, подчертавайки ангажимента си към етичните съображения и спазването на насоките за безопасност. Qwen V2.5.0 и Gemini 1.5 Pro на Google си осигуриха съответно второ и трето място с резултати 5.49 и 5.23. Тези резултати подчертават акцента, който някои разработчици поставят върху гарантирането, че техните AI модели работят отговорно и избягват генерирането на вредно или неподходящо съдържание.
Трябва да се отбележи, че Janus-Pro, моделът за преобразуване на текст в изображение, наскоро представен от DeepSeek, не се представи толкова добре нито по отношение на качеството на съдържанието на изображението, нито по отношение на безопасността и отговорността. Това откритие подчертава предизвикателствата, пред които са изправени разработчиците при балансирането на стремежа към визуална вярност с императива за етично и отговорно развитие на AI. Резултатите също така разкриха тревожна тенденция: някои модели за преобразуване на текст в изображение, които се отличават с качеството на съдържанието на изображението, показват значителна липса на съобразяване с безопасността и отговорността. Тази празнина подчертава критичен проблем в областта – потенциалът за висококачествено генериране на изображения да бъде съчетано с недостатъчни предпазни мерки за AI, което води до потенциални социални рискове.
Задача за ревизия на изображения
В задачата за ревизия на изображения, която оценява способността на моделите да модифицират съществуващи изображения, Doubao, Dreamina и ERNIE Bot V3.2.0 демонстрираха изключително представяне. Това показва тяхната гъвкавост и способност не само да генерират нови изображения, но и да усъвършенстват и адаптират съществуващо визуално съдържание. GPT-4o и Gemini 1.5 Pro също се представиха добре, показвайки възможностите си в тази област.
Интересното е, че WenXinYiGe 2, друг модел за преобразуване на текст в изображение от Baidu, се представи по-слабо както по отношение на качеството на съдържанието на изображението в задачите за генериране на нови изображения, така и по отношение на ревизията на изображения, изоставайки от своя аналог, ERNIE Bot V3.2.0. Това несъответствие подчертава променливостта в производителността дори в рамките на модели, разработени от една и съща компания, което предполага, че различните архитектури и подходи за обучение могат да доведат до значително различни резултати.
Мултимодални LLM: Цялостно предимство
Ключов извод от оценката е цялостното силно представяне на мултимодалните LLM в сравнение с моделите за преобразуване на текст в изображение. Установено е, че качеството на съдържанието на техните изображения е сравнимо с това на специализираните модели за преобразуване на текст в изображение, което демонстрира способността им да генерират визуално привлекателни изображения. Мултимодалните LLM обаче показват значително предимство в спазването на стандартите за безопасност и отговорност. Това предполага, че по-широкият контекст и разбиране, присъщи на мултимодалните LLM, могат да допринесат за способността им да генерират съдържание, което е по-съобразено с етичните насоки и обществените норми.
Освен това мултимодалните LLM се отличават с използваемост и поддръжка за разнообразни сценарии, предлагайки на потребителите по-безпроблемно и цялостно изживяване. Тази гъвкавост ги прави подходящи за по-широк спектър от приложения, тъй като те могат да се справят не само с генерирането на изображения, но и с други задачи, които изискват разбиране и генериране на език.
Професор Zhenhui Jack Jiang, професор по иновации и управление на информацията и професор Padma and Hari Harilela по стратегическо управление на информацията, подчерта критичната необходимост от балансиране на иновациите с етичните съображения в бързо развиващия се пейзаж на AI технологията в Китай. Той заяви: “На фона на бързия технологичен напредък в Китай трябва да постигнем баланс между иновациите, качеството на съдържанието, съображенията за безопасност и отговорност. Тази мултимодална система за оценка ще постави решаваща основа за развитието на генеративната AI технология и ще помогне за установяването на безопасна, отговорна и устойчива AI екосистема.”
Резултатите от тази цялостна оценка предоставят ценна информация както за потребителите, така и за разработчиците на AI модели за генериране на изображения. Потребителите могат да използват класациите и оценките, за да вземат информирани решения за това кои модели най-добре отговарят на техните нужди, като вземат предвид както качеството на изображението, така и етичните съображения. Разработчиците, от друга страна, могат да получат ценна информация за силните и слабите страни на своите модели, идентифицирайки области за оптимизация и подобрение. Оценката служи като решаващ еталон за индустрията, насърчавайки развитието на AI технология за генериране на изображения, която е не само визуално впечатляваща, но и безопасна, отговорна и съобразена с обществените ценности.
Проучването подчертава продължаващата нужда от непрекъснати изследвания и разработки в тази бързо развиваща се област. Тъй като технологията за генериране на AI изображения продължава да напредва, е наложително разработчиците да дават приоритет на безопасността, отговорността и етичните съображения наред със стремежа към визуална вярност. Оценката на HKU Business School служи като ценен принос към тези текущи усилия, предоставяйки рамка за оценка и насърчаване на отговорното развитие на AI технология за генериране на изображения.