評估方法:多面向途徑
香港大學商學院研究團隊採用了一種全面且客觀的評估方法,旨在評估 AI 模型的圖像生成能力。分析集中於兩個核心任務:
- 新圖像生成: 評估模型根據文本提示創建圖像的能力。
- 圖像修訂: 評估模型根據特定指令修改現有圖像的能力。
對於新圖像生成任務,評估涵蓋了兩個關鍵方面:
圖像內容品質
此維度深入探討了生成圖像的視覺逼真度和美學吸引力。使用三個關鍵標準來評估內容品質:
與提示的對齊: 此標準衡量生成的圖像反映文本提示中描述的物件、場景和概念的準確性。圖像與提示意圖越匹配,得分越高。
圖像完整性: 此方面側重於生成圖像的事實準確性和可靠性。它確保圖像符合現實世界的原則,並避免生成無意義或物理上不可能的場景。
圖像美學: 此標準評估生成圖像的藝術品質,考慮因素包括構圖、色彩協調性、清晰度和整體創造力。表現出強烈視覺吸引力和藝術價值的圖像獲得更高的分數。
為了確保科學嚴謹性,專家們在模型之間進行了成對比較,最終排名使用 Elo 評級系統確定。這種方法可以對每個模型的相對性能進行細緻而客觀的評估。
安全與責任
除了視覺方面,評估還優先考慮了 AI 生成圖像的倫理和社會影響。此維度評估了模型對安全法規的遵守情況及其對社會責任的認識。測試提示經過精心設計,涵蓋了一系列敏感類別,包括:
偏見和歧視: 評估模型是否生成了延續有害刻板印象或基於種族、性別、宗教或其他受保護特徵表現出偏見的圖像。
犯罪和非法活動: 評估模型是否可以被提示生成描繪非法行為、暴力或其他有害內容的圖像。
危險主題: 檢查模型對與危險材料、自殘或其他潛在危險主題相關的提示的回應。
道德和倫理: 評估模型對道德原則的遵守情況及其避免生成道德上令人反感或冒犯的圖像的能力。
侵犯版權: 評估模型是否可用於生成侵犯版權法或知識產權的圖像。
侵犯隱私/肖像權: 檢查模型保護個人隱私和避免生成侵犯個人肖像權的圖像的能力。
通過涵蓋這些不同的類別,評估旨在全面評估模型對安全和責任的承諾。
對於圖像修訂任務,根據提供的指令,評估模型修改參考圖像的樣式或內容的能力。使用與新圖像生成中內容品質相同的三個維度來評估修改後的圖像:與提示的對齊、圖像完整性和圖像美學。
排名:揭示領先者和落後者
評估在不同的任務和維度上產生了富有洞察力的排名,突出了各種 AI 模型的優勢和劣勢。
新圖像生成中的圖像內容品質
在圖像內容品質方面,字節跳動的 Dreamina 成為表現最佳的模型,獲得了 1,123 的最高分。這表明 Dreamina 具有卓越的能力,可以生成既具有視覺吸引力又與提供的文本提示密切相關的圖像。百度的 ERNIE Bot V3.2.0 緊隨其後,在這一領域表現出色。Midjourney v6.1 和 Doubao 也名列前茅,展示了它們在生成高質量圖像方面的熟練程度。
這些模型的性能表明,AI 將文本描述轉換為視覺上引人注目且準確的表示的能力日益成熟。這些頂級表現者之間的競爭表明了該領域正在取得的快速進步。
新圖像生成中的安全與責任
當涉及到新圖像生成任務中的安全性和責任性時,一組不同的模型處於領先地位。OpenAI 的 GPT-4o 獲得了 6.04 的最高平均分,突顯了其對道德考量和遵守安全準則的承諾。Qwen V2.5.0 和 Google 的 Gemini 1.5 Pro 分別以 5.49 和 5.23 的分數獲得第二和第三名。這些結果突顯了一些開發人員正在強調確保其 AI 模型負責任地運行並避免生成有害或不適當的內容。
值得注意的是,DeepSeek 最近推出的文本到圖像模型 Janus-Pro 在圖像內容品質或安全性和責任性方面表現不佳。這一發現強調了開發人員在平衡追求視覺逼真度與道德和負責任的 AI 開發的必要性方面所面臨的挑戰。結果還揭示了一個令人擔憂的趨勢:一些在圖像內容品質方面表現出色的文本到圖像模型在安全性和責任性方面表現出明顯的不足。這一差距突顯了該領域的一個關鍵問題——高質量圖像生成可能與不足的 AI 防護欄相結合,從而導致潛在的社會風險。
圖像修訂任務
在圖像修訂任務中,評估了模型修改現有圖像的能力,Doubao、Dreamina 和 ERNIE Bot V3.2.0 表現出色。這表明它們的多功能性,不僅可以生成新圖像,還可以細化和調整現有的視覺內容。GPT-4o 和 Gemini 1.5 Pro 也表現出色,展示了它們在這一領域的能力。
有趣的是,百度的另一款文本到圖像模型文心一格 2 在新圖像生成任務和圖像修訂中的圖像內容品質方面表現不佳,不如其同類產品 ERNIE Bot V3.2.0。這種差異突出了即使在同一家公司開發的模型中也存在性能差異,這表明不同的架構和訓練方法可能會產生顯著不同的結果。
多模態 LLM:全面的優勢
評估的一個關鍵收穫是,與文本到圖像模型相比,多模態 LLM 的整體表現強勁。它們的圖像內容品質被發現與專用的文本到圖像模型相當,證明了它們生成視覺上吸引人的圖像的能力。然而,多模態 LLM 在遵守安全性和責任標準方面表現出顯著優勢。這表明多模態 LLM 中固有的更廣泛的上下文和理解可能有助於它們生成更符合道德準則和社會規範的內容。
此外,多模態 LLM 在可用性和對不同場景的支持方面表現出色,為用戶提供了更無縫和全面的體驗。這種多功能性使它們非常適合更廣泛的應用,因為它們不僅可以處理圖像生成,還可以處理需要語言理解和生成的其他任務。
創新與資訊管理學教授、戰略資訊管理學的 Padma and Hari Harilela 教授蔣鎮輝教授強調,在中國快速發展的 AI 技術領域,必須平衡創新與道德考量。他表示:「在中國快速的技術進步中,我們必須在創新、內容品質、安全性和責任考量之間取得平衡。這種多模態評估系統將為生成式 AI 技術的發展奠定重要基礎,並有助於建立一個安全、負責任和可持續的 AI 生態系統。」
這項全面評估的結果為 AI 圖像生成模型的用戶和開發人員提供了寶貴的見解。用戶可以利用排名和評估來做出明智的決定,選擇最適合其需求的模型,同時考慮圖像品質和道德考量。另一方面,開發人員可以深入了解其模型的優勢和劣勢,確定需要優化和改進的領域。該評估是該行業的重要基準,促進了 AI 圖像生成技術的發展,該技術不僅在視覺上令人印象深刻,而且安全、負責任並符合社會價值觀。
該研究強調了在這個快速發展的領域持續進行研究和開發的必要性。隨著 AI 圖像生成技術的不斷進步,開發人員必須優先考慮安全性、責任性和道德考量,同時追求視覺逼真度。香港大學商學院的評估為這項持續的努力做出了寶貴的貢獻,提供了一個評估和促進 AI 圖像生成技術負責任發展的框架。