香港大学、AI画像生成モデル評価報告

評価方法:多角的なアプローチ

HKU Business Schoolの研究チームが採用した評価方法は、AIモデルの画像生成能力を包括的かつ客観的に評価するように設計されました。分析は、2つの中核的なタスクを中心に行われました。

  • 新規画像生成: テキストプロンプトから画像を生成するモデルの能力を評価します。
  • 画像修正: 特定の指示に基づいて既存の画像を修正するモデルの能力を評価します。

新規画像生成タスクでは、評価は2つの重要な側面を網羅しました。

画像コンテンツの品質

この側面では、生成された画像の視覚的な忠実度と美的魅力を詳しく調査しました。コンテンツの品質を評価するために、3つの主要な基準が使用されました。

  1. プロンプトとの整合性: 生成された画像が、テキストプロンプトに記述されたオブジェクト、シーン、および概念をどの程度正確に反映しているかを測定しました。画像がプロンプトの意図と一致するほど、スコアが高くなります。

  2. 画像の完全性: この側面は、生成された画像の事実の正確性と信頼性に焦点を当てました。画像が現実世界の原則に準拠し、無意味なシナリオや物理的に不可能なシナリオを生成しないようにしました。

  3. 画像の美学: この基準は、構成、色の調和、明瞭さ、全体的な創造性などの要素を考慮して、生成された画像の芸術的品質を評価しました。強い視覚的魅力と芸術的メリットを示す画像は、より高いスコアを受け取りました。

科学的な厳密さを確保するために、専門家がモデル間のペア比較を実施し、最終的なランキングはEloレーティングシステムを使用して決定されました。このアプローチにより、各モデルの相対的なパフォーマンスを微妙かつ客観的に評価することができました。

安全性と責任

視覚的な側面に加えて、評価ではAI生成画像の倫理的および社会的影響も優先されました。この側面では、モデルの安全規制への準拠と社会的責任の認識を評価しました。テストプロンプトは、以下を含むさまざまな機密カテゴリをカバーするように慎重に作成されました。

  • バイアスと差別: モデルが有害な固定観念を永続させたり、人種、性別、宗教、またはその他の保護された特性に基づくバイアスを示したりする画像を生成するかどうかを評価します。

  • 犯罪と違法行為: モデルが違法行為、暴力、またはその他の有害なコンテンツを描写する画像を生成するように促される可能性があるかどうかを評価します。

  • 危険なトピック: 危険物、自傷行為、またはその他の潜在的に危険な主題に関連するプロンプトに対するモデルの応答を調べます。

  • 倫理と道徳: モデルの倫理原則への準拠と、道徳的に問題がある、または不快な画像を生成しないようにする能力を評価します。

  • 著作権侵害: モデルが著作権法または知的財産権を侵害する画像を生成するために使用される可能性があるかどうかを評価します。

  • プライバシー/肖像権の侵害: モデルが個人のプライバシーを保護し、個人の肖像権を侵害する画像を生成しないようにする能力を調べます。

これらの多様なカテゴリを網羅することにより、評価はモデルの安全性と責任への取り組みを包括的に評価することを目的としました。

画像修正タスクでは、モデルは、提供された指示に基づいて、参照画像のスタイルまたはコンテンツを変更する能力について評価されました。修正された画像は、新規画像生成におけるコンテンツ品質と同じ3つの側面(プロンプトとの整合性、画像の完全性、画像の美学)を使用して評価されました。

ランキング:リーダーと遅れをとるものを明らかにする

評価により、さまざまなタスクと側面で洞察に満ちたランキングが得られ、さまざまなAIモデルの長所と短所が浮き彫りになりました。

新規画像生成における画像コンテンツの品質

新規画像生成における画像コンテンツの品質の分野では、ByteDanceのDreaminaが最高のパフォーマーとして浮上し、1,123の最高スコアを獲得しました。これは、Dreaminaが視覚的に魅力的で、提供されたテキストプロンプトと密接に整合する画像を生成する並外れた能力を示しています。BaiduのERNIE Bot V3.2.0が僅差で続き、この分野で強力なパフォーマンスを示しました。Midjourney v6.1とDoubaoも上位を確保し、高品質の画像を生成する能力を示しました。

これらのモデルのパフォーマンスは、AIがテキスト記述を視覚的に説得力のある正確な表現に変換する能力がますます洗練されていることを示唆しています。これらのトップパフォーマー間の競争は、この分野で急速な進歩が見られていることを示しています。

新規画像生成における安全性と責任

新規画像生成タスクにおける安全性と責任に関しては、異なるモデルのセットがリードしました。OpenAIのGPT-4oは、6.04の最高平均スコアを受け取り、倫理的考慮事項への取り組みと安全ガイドラインの順守を強調しました。Qwen V2.5.0とGoogleのGemini 1.5 Proは、それぞれ5.49と5.23のスコアで2位と3位を確保しました。これらの結果は、一部の開発者がAIモデルが責任を持って動作し、有害または不適切なコンテンツを生成しないようにすることに重点を置いていることを強調しています。

注目すべきことに、DeepSeekが最近導入したテキスト画像変換モデルであるJanus-Proは、画像コンテンツの品質または安全性と責任のいずれにおいても、それほど優れたパフォーマンスを示しませんでした。この発見は、開発者が視覚的な忠実度の追求と倫理的で責任あるAI開発の必要性のバランスを取る際に直面する課題を浮き彫りにしています。結果はまた、懸念すべき傾向を明らかにしました。画像コンテンツの品質に優れた一部のテキスト画像変換モデルは、安全性と責任に対する配慮が著しく欠けていました。このギャップは、この分野における重要な問題、つまり、高品質の画像生成が不十分なAIガードレールと組み合わされる可能性があり、潜在的な社会的リスクにつながる可能性を浮き彫りにしています。

画像修正タスク

既存の画像を修正するモデルの能力を評価する画像修正タスクでは、Doubao、Dreamina、およびERNIE Bot V3.2.0が優れたパフォーマンスを示しました。これは、新しい画像を生成するだけでなく、既存の視覚コンテンツを改良および適応させる能力も備えていることを示しています。GPT-4oとGemini 1.5 Proも優れたパフォーマンスを示し、この分野での能力を示しました。

興味深いことに、Baiduの別のテキスト画像変換モデルであるWenXinYiGe 2は、新規画像生成タスクにおける画像コンテンツの品質と画像修正の両方でパフォーマンスが低く、同社のERNIE Bot V3.2.0に及ばなかった。この不一致は、同じ会社によって開発されたモデル内でもパフォーマンスにばらつきがあることを浮き彫りにしており、異なるアーキテクチャとトレーニングアプローチが大幅に異なる結果をもたらす可能性があることを示唆しています。

マルチモーダルLLM:総合的な優位性

評価からの重要なポイントは、テキスト画像変換モデルと比較したマルチモーダルLLMの全体的な強力なパフォーマンスでした。その画像コンテンツの品質は、専用のテキスト画像変換モデルの品質に匹敵することがわかり、視覚的に魅力的な画像を生成する能力を示しています。ただし、マルチモーダルLLMは、安全性と責任の基準の順守において大きな利点を示しました。これは、マルチモーダルLLMに固有のより広いコンテキストと理解が、倫理ガイドラインと社会的規範により整合したコンテンツを生成する能力に貢献する可能性があることを示唆しています。

さらに、マルチモーダルLLMは、使いやすさと多様なシナリオのサポートに優れており、ユーザーによりシームレスで包括的なエクスペリエンスを提供します。この汎用性により、画像生成だけでなく、言語理解と生成を必要とする他のタスクも処理できるため、幅広いアプリケーションに適しています。

イノベーションおよび情報管理の教授であり、戦略的情報管理のPadma and Hari Harilela ProfessorであるZhenhui Jack Jiang教授は、中国で急速に進化するAI技術の状況において、イノベーションと倫理的考慮事項のバランスを取る必要性が重要であると強調しました。彼は、「中国の急速な技術進歩の中で、イノベーション、コンテンツの品質、安全性、および責任の考慮事項のバランスを取る必要があります。このマルチモーダル評価システムは、生成AI技術の開発のための重要な基盤を築き、安全で責任があり、持続可能なAIエコシステムの確立に役立ちます。」と述べました。

この包括的な評価の結果は、AI画像生成モデルのユーザーと開発者の両方に貴重な洞察を提供します。ユーザーは、ランキングと評価を活用して、画像品質と倫理的考慮事項の両方を考慮して、どのモデルがニーズに最も適しているかについて情報に基づいた決定を下すことができます。一方、開発者は、モデルの長所と短所に関する貴重な洞察を得て、最適化と改善の領域を特定できます。この評価は、業界にとって重要なベンチマークとして機能し、視覚的に印象的であるだけでなく、安全で責任があり、社会的価値観に沿ったAI画像生成技術の開発を促進します。
この研究は、この急速に進化する分野における継続的な研究開発の必要性を強調しています。AI画像生成技術が進化し続けるにつれて、開発者は視覚的な忠実度の追求とともに、安全性、責任、および倫理的考慮事項を優先することが不可欠です。HKU Business Schoolの評価は、この継続的な取り組みに貴重な貢献をしており、AI画像生成技術の責任ある開発を評価および促進するためのフレームワークを提供しています。