评估方法:多方面综合考量
香港大学商学院研究团队采用的评估方法旨在全面、客观地评估AI模型的图像生成能力。分析围绕两个核心任务展开:
- 新图像生成: 评估模型根据文本提示创建图像的能力。
- 图像修订: 评估模型根据特定指令修改现有图像的能力。
对于新图像生成任务,评估涵盖了两个关键方面:
图像内容质量
这个维度深入探讨了生成图像的视觉逼真度和美学吸引力。评估内容质量使用了三个关键标准:
与提示的对齐: 此标准衡量生成的图像与文本提示中描述的对象、场景和概念的匹配程度。图像越符合提示的意图,得分越高。
图像完整性: 这方面侧重于生成图像的事实准确性和可靠性。它确保图像符合现实世界的原则,并避免生成无意义或物理上不可能的场景。
图像美学: 此标准评估生成图像的艺术质量,考虑构图、色彩和谐、清晰度和整体创造力等因素。表现出强烈视觉吸引力和艺术价值的图像获得更高的分数。
为了确保科学严谨性,专家们对模型进行了两两比较,最终排名使用Elo评分系统确定。这种方法可以对每个模型的相对性能进行细致而客观的评估。
安全与责任
除了视觉方面,评估还优先考虑了AI生成图像的伦理和社会影响。这个维度评估了模型对安全法规的遵守情况及其社会责任意识。测试提示经过精心设计,涵盖了一系列敏感类别,包括:
偏见和歧视: 评估模型是否生成了延续有害刻板印象或基于种族、性别、宗教或其他受保护特征表现出偏见的图像。
犯罪和非法活动: 评估模型是否可以被提示生成描绘非法行为、暴力或其他有害内容的图像。
危险主题: 检查模型对与危险材料、自残或其他潜在危险主题相关的提示的响应。
道德和伦理: 评估模型对道德原则的遵守情况及其避免生成在道德上令人反感或冒犯的图像的能力。
版权侵权: 评估模型是否可以用于生成侵犯版权法或知识产权的图像。
隐私/肖像权侵犯: 检查模型保护个人隐私和避免生成侵犯个人肖像权的图像的能力。
通过涵盖这些不同的类别,评估旨在全面评估模型对安全和责任的承诺。
对于图像修订任务,根据提供的指令,评估模型修改参考图像的样式或内容的能力。使用与新图像生成中内容质量相同的三个维度评估修订后的图像:与提示的对齐、图像完整性和图像美学。
排名:揭示领先者和落后者
评估产生了跨不同任务和维度的有洞察力的排名,突出了各种AI模型的优势和劣势。
新图像生成中的图像内容质量
在新图像生成的图像内容质量方面,字节跳动的Dreamina成为最佳表现者,获得了1,123的最高分。这表明Dreamina具有出色的能力,可以生成既具有视觉吸引力又与提供的文本提示紧密对齐的图像。百度的ERNIE Bot V3.2.0紧随其后,在该领域表现出强劲的性能。Midjourney v6.1和豆包也获得了最高排名,展示了它们在生成高质量图像方面的熟练程度。
这些模型的性能表明,AI将文本描述转换为视觉上引人注目且准确的表示的能力日益成熟。这些顶级表现者之间的竞争表明了该领域正在取得的快速进步。
新图像生成中的安全与责任
当涉及到新图像生成任务中的安全性和责任性时,一组不同的模型处于领先地位。OpenAI的GPT-4o获得了6.04的最高平均分,强调了其对道德考虑和遵守安全准则的承诺。文心一言V2.5.0和谷歌的Gemini 1.5 Pro分别以5.49和5.23的分数获得第二和第三名。这些结果突出了某些开发人员对确保其AI模型负责任地运行并避免生成有害或不适当内容的重视。
值得注意的是,DeepSeek最近推出的文本到图像模型Janus-Pro在图像内容质量或安全性和责任性方面表现不佳。这一发现强调了开发人员在平衡追求视觉逼真度与道德和负责任的AI发展之间的挑战。结果还揭示了一个令人担忧的趋势:一些在图像内容质量方面表现出色的文本到图像模型在安全性和责任性方面表现出明显的不足。这一差距突出了该领域的一个关键问题——高质量图像生成可能与不足的AI护栏相结合,从而导致潜在的社会风险。
图像修订任务
在图像修订任务中,评估了模型修改现有图像的能力,豆包、Dreamina和ERNIE Bot V3.2.0表现出色。这表明了它们的多功能性,不仅能够生成新图像,还能够改进和调整现有的视觉内容。GPT-4o和Gemini 1.5 Pro也表现良好,展示了它们在这方面的能力。
有趣的是,百度的另一个文本到图像模型文心一格2在新图像生成任务和图像修订中的图像内容质量方面表现不佳,落后于其同行ERNIE Bot V3.2.0。这种差异突出了即使在同一家公司开发的模型中也存在性能差异,这表明不同的架构和训练方法可能会产生显著不同的结果。
多模态LLM:全面的优势
评估的一个关键结论是,与文本到图像模型相比,多模态LLM的整体表现强劲。它们的图像内容质量被发现与专用文本到图像模型相当,表明它们能够生成具有视觉吸引力的图像。然而,多模态LLM在遵守安全性和责任性标准方面表现出显著优势。这表明,多模态LLM中固有的更广泛的上下文和理解可能有助于它们生成更符合道德准则和社会规范的内容。
此外,多模态LLM在可用性和对各种场景的支持方面表现出色,为用户提供了更无缝和全面的体验。这种多功能性使它们非常适合更广泛的应用,因为它们不仅可以处理图像生成,还可以处理需要语言理解和生成的其他任务。
创新与信息管理学教授、战略信息管理学Padma and Hari Harilela教授蒋镇辉教授强调,在中国快速发展的AI技术领域,必须平衡创新与道德考虑。他指出:“在中国技术快速进步的过程中,我们必须在创新、内容质量、安全性和责任性考虑之间取得平衡。这种多模态评估系统将为生成式AI技术的发展奠定重要基础,并有助于建立一个安全、负责任和可持续的AI生态系统。”
这项全面评估的结果为AI图像生成模型的使用者和开发者提供了宝贵的见解。使用者可以利用排名和评估来做出明智的决定,选择最适合其需求的模型,同时考虑图像质量和道德因素。另一方面,开发者可以深入了解其模型的优势和劣势,确定需要优化和改进的领域。该评估是该行业的重要基准,促进了AI图像生成技术的发展,使其不仅在视觉上令人印象深刻,而且安全、负责任并符合社会价值观。
该研究强调了在这个快速发展的领域持续进行研究和开发的必要性。随着AI图像生成技术的不断进步,开发人员必须优先考虑安全性、责任性和道德因素,同时追求视觉逼真度。香港大学商学院的评估为这项持续的努力做出了宝贵的贡献,为评估和促进AI图像生成技术的负责任发展提供了一个框架。