Методология оценки: многогранный подход
Группа исследователей из HKU Business School разработала методологию оценки, призванную обеспечить целостную и объективную оценку возможностей генерации изображений ИИ-моделями. Анализ был сосредоточен на двух основных задачах:
- Генерация новых изображений: Оценка способности моделей создавать изображения на основе текстовых подсказок.
- Редактирование изображений: Оценка способности моделей изменять существующие изображения на основе конкретных инструкций.
Для задачи генерации новых изображений оценка охватывала два важнейших аспекта:
Качество содержания изображения
Этот аспект был посвящен визуальной точности и эстетической привлекательности сгенерированных изображений. Для оценки качества контента использовались три ключевых критерия:
Соответствие подсказкам: Этот критерий оценивал точность, с которой сгенерированное изображение отражало объекты, сцены и концепции, описанные в текстовой подсказке. Чем ближе изображение соответствовало замыслу подсказки, тем выше был балл.
Целостность изображения: Этот аспект был посвящен фактической точности и надежности сгенерированного изображения. Он гарантировал, что изображение соответствует принципам реального мира и избегает создания бессмысленных или физически невозможных сценариев.
Эстетика изображения: Этот критерий оценивал художественное качество сгенерированного изображения, учитывая такие факторы, как композиция, цветовая гармония, четкость и общая креативность. Изображения, обладающие сильной визуальной привлекательностью и художественными достоинствами, получали более высокие баллы.
Для обеспечения научной строгости эксперты проводили попарные сравнения между моделями, а окончательный рейтинг определялся с использованием системы рейтинга Эло. Этот подход позволил провести детальную и объективную оценку относительной производительности каждой модели.
Безопасность и ответственность
Помимо визуальных аспектов, в оценке также приоритетное внимание уделялось этическим и социальным последствиям изображений, сгенерированных ИИ. Этот аспект оценивал соответствие моделей нормам безопасности и их осведомленность о социальной ответственности. Тестовые подсказки были тщательно разработаны, чтобы охватить ряд чувствительных категорий, в том числе:
Предвзятость и дискриминация: Оценка того, генерировала ли модель изображения, увековечивающие вредные стереотипы или демонстрирующие предвзятость по признаку расы, пола, религии или других защищаемых характеристик.
Преступления и незаконная деятельность: Оценка того, можно ли было побудить модель генерировать изображения, изображающие незаконные действия, насилие или другой вредоносный контент.
Опасные темы: Изучение реакции модели на подсказки, связанные с опасными материалами, самоповреждением или другими потенциально опасными темами.
Этика и мораль: Оценка приверженности модели этическим принципам и ее способности избегать создания изображений, которые были морально неприемлемыми или оскорбительными.
Нарушение авторских прав: Оценка того, можно ли было использовать модель для создания изображений, нарушающих законы об авторском праве или права интеллектуальной собственности.
Нарушения конфиденциальности/прав на изображение: Изучение способности модели защищать личную конфиденциальность и избегать создания изображений, нарушающих права людей на изображение.
Охватывая эти разнообразные категории, оценка была направлена на обеспечение всесторонней оценки приверженности моделей безопасности и ответственности.
Для задачи редактирования изображений модели оценивались по их способности изменять стиль или содержание эталонного изображения на основе предоставленных инструкций. Отредактированные изображения оценивались по тем же трем параметрам, что и качество контента при создании новых изображений: соответствие подсказкам, целостность изображения и эстетика изображения.
Рейтинги: выявление лидеров и отстающих
Оценка дала представление о рейтингах по различным задачам и параметрам, выявив сильные и слабые стороны различных ИИ-моделей.
Качество содержания изображения при создании новых изображений
В области качества содержания изображения при создании новых изображений Dreamina от ByteDance стала лучшей, набрав наивысший балл 1123. Это свидетельствует об исключительной способности Dreamina создавать изображения, которые одновременно визуально привлекательны и точно соответствуют предоставленным текстовым подсказкам. ERNIE Bot V3.2.0 от Baidu следовал за ним, демонстрируя высокие результаты в этой области. Midjourney v6.1 и Doubao также заняли лидирующие позиции, продемонстрировав свое мастерство в создании высококачественных изображений.
Производительность этих моделей свидетельствует о растущей изощренности способности ИИ преобразовывать текстовые описания в визуально убедительные и точные представления. Конкуренция между этими лидерами свидетельствует о быстрых достижениях в этой области.
Безопасность и ответственность при создании новых изображений
Когда дело дошло до безопасности и ответственности в задаче создания новых изображений, лидерство взяли на себя другие модели. GPT-4o от OpenAI получил самый высокий средний балл 6,04, что подчеркивает его приверженность этическим соображениям и соблюдению правил безопасности. Qwen V2.5.0 и Gemini 1.5 Pro от Google заняли второе и третье места соответственно, набрав 5,49 и 5,23 балла. Эти результаты подчеркивают то внимание, которое некоторые разработчики уделяют обеспечению ответственной работы своих ИИ-моделей и предотвращению создания вредоносного или неуместного контента.
Примечательно, что Janus-Pro, модель преобразования текста в изображение, недавно представленная DeepSeek, не показала столь же высоких результатов ни в качестве содержания изображения, ни в безопасности и ответственности. Этот вывод подчеркивает проблемы, с которыми сталкиваются разработчики, пытаясь сбалансировать стремление к визуальной точности с необходимостью этичной и ответственной разработки ИИ. Результаты также выявили тревожную тенденцию: некоторые модели преобразования текста в изображение, преуспевшие в качестве содержания изображения, продемонстрировали значительное отсутствие внимания к безопасности и ответственности. Этот пробел подчеркивает критическую проблему в этой области – потенциальную возможность сочетания высококачественной генерации изображений с недостаточными средствами защиты ИИ, что приводит к потенциальным социальным рискам.
Задача редактирования изображений
В задаче редактирования изображений, которая оценивала способность моделей изменять существующие изображения, Doubao, Dreamina и ERNIE Bot V3.2.0 продемонстрировали выдающиеся результаты. Это свидетельствует об их универсальности и способности не только создавать новые изображения, но и совершенствовать и адаптировать существующий визуальный контент. GPT-4o и Gemini 1.5 Pro также показали хорошие результаты, продемонстрировав свои возможности в этой области.
Интересно, что WenXinYiGe 2, еще одна модель преобразования текста в изображение от Baidu, показала низкие результаты как в качестве содержания изображения при создании новых изображений, так и в редактировании изображений, уступив своему аналогу ERNIE Bot V3.2.0. Это несоответствие подчеркивает изменчивость производительности даже в моделях, разработанных одной и той же компанией, предполагая, что различные архитектуры и подходы к обучению могут давать существенно разные результаты.
Мультимодальные LLM: всестороннее преимущество
Ключевым выводом из оценки стала в целом высокая производительность мультимодальных LLM по сравнению с моделями преобразования текста в изображение. Было установлено, что качество содержания их изображений сравнимо с качеством специализированных моделей преобразования текста в изображение, что свидетельствует об их способности создавать визуально привлекательные изображения. Однако мультимодальные LLM продемонстрировали значительное преимущество в соблюдении стандартов безопасности и ответственности. Это говорит о том, что более широкий контекст и понимание, присущие мультимодальным LLM, могут способствовать их способности создавать контент, который в большей степени соответствует этическим принципам и социальным нормам.
Кроме того, мультимодальные LLM преуспели в удобстве использования и поддержке различных сценариев, предлагая пользователям более плавный и комплексный опыт. Эта универсальность делает их хорошо подходящими для более широкого спектра приложений, поскольку они могут обрабатывать не только генерацию изображений, но и другие задачи, требующие понимания и генерации языка.
Профессор Чжэньхуэй Джек Цзян, профессор инноваций и управления информацией и профессор Стратегического управления информацией Padma and Hari Harilela, подчеркнул острую необходимость сбалансировать инновации с этическими соображениями в быстро развивающейся области технологий ИИ в Китае. Он заявил: «В условиях стремительного технологического прогресса в Китае мы должны найти баланс между инновациями, качеством контента, безопасностью и ответственностью. Эта мультимодальная система оценки заложит прочную основу для развития технологии генеративного ИИ и поможет создать безопасную, ответственную и устойчивую экосистему ИИ».
Результаты этой всесторонней оценки предоставляют ценную информацию как для пользователей, так и для разработчиков моделей генерации изображений ИИ. Пользователи могут использовать рейтинги и оценки, чтобы принимать обоснованные решения о том, какие модели лучше всего соответствуют их потребностям, учитывая как качество изображения, так и этические соображения. Разработчики, с другой стороны, могут получить ценную информацию о сильных и слабых сторонах своих моделей, выявляя области для оптимизации и улучшения. Оценка служит важным ориентиром для отрасли, способствуя развитию технологии генерации изображений ИИ, которая не только визуально впечатляет, но и безопасна, ответственна и соответствует социальным ценностям.
Исследование подчеркивает сохраняющуюся необходимость в продолжении исследований и разработок в этой быстро развивающейся области. По мере того как технология генерации изображений ИИ продолжает развиваться, крайне важно, чтобы разработчики уделяли первоочередное внимание безопасности, ответственности и этическим соображениям наряду со стремлением к визуальной точности. Оценка HKU Business School является ценным вкладом в эти продолжающиеся усилия, предоставляя основу для оценки и содействия ответственному развитию технологии генерации изображений ИИ.