AI圖像生成大對決:誰是霸主?

AI驅動的圖像生成領域正經歷一場蓬勃發展的活動,眾多公司和組織爭奪霸主地位。每家開發商都自豪地吹噓其獨特 AI 模型的卓越能力,導致複雜的局面,辨別真確的性能變得極具挑戰。GenAI Image Showdown 應運而生,這是一個精心策劃的平台,旨在為炒作提供清晰度。該網站提供各種圖像生成 AI 的並排比較,所有 AI 都響應完全相同的提示。這允許立即,視覺評估每個 AI 將指令忠實地轉換為引人注目的圖像的能力。

普魯士士兵和金屬環:文字解釋的測試

為了說明該平台的有效性,請考慮提示:「兩名頭戴尖刺頭盔的普魯士士兵面對面站立,玩著互相將金屬環投向對方頭盔尖刺的遊戲。」這個看似異想天開的場景作為六個突出的圖像生成 AI 的試金石:

  • 黑森林實驗室的 FLUX.1 [dev]
  • Google 的 Gemini 2.0 Flash
  • 騰訊的 Hunyuan Image 2.0
  • Google 的 Imagen 3 和 Imagen 4(由於性能差異可忽略不計而分組)
  • Midjourney 的 Midjourney V7
  • OpenAI 的 4o Image Generation

結果令人大開眼界。六個 AI 中只有三個 – FLUX.1 [dev]Imagen 3 和 Imagen 4,以及 4o Image Generation – 成功生成了符合提示的特定細節的圖像。其他的雖然可能產生了視覺上有趣的圖像,但未能準確捕捉到請求的本質。這突顯了一個關鍵區別:原始圖像質量並不是成功的圖像生成 AI 的唯一決定因素;精確解釋和執行複雜指令的能力同樣至關重要。

星形形狀:評估幾何精度

該實驗擴展到複雜場景之外,包括更簡單、更幾何集中的提示。其中一個提示是:「一張有九個角的星星的數字插圖。」這個看似簡單的任務對某些 AI 來說卻出奇地具有挑戰性。只有 FLUX.1 [dev]Midjourney V74o Image Generation 設法生成了準確描繪九角星的圖像。這些失敗突顯了 AI 在處理特定幾何要求時所面臨的困難,即使在看似簡單的場景中也是如此。生成 看起來 像星星的東西很容易,但生成一個符合具有 九個角 的特定屬性的星星要困難得多。這對於生成精確的技術或科學圖表可能很重要。

顏色和半透明的立方體:深入了解渲染能力

下一個挑戰採取了一個高度詳細的提示形式,旨在測試 AI 的渲染能力:「一張光線追蹤的圖像,包含五個彩色立方體。紅色立方體堆疊在藍色立方體之上。藍色立方體堆疊在綠色立方體之上。綠色立方體堆疊在紫色立方體之上。紫色立方體堆疊在黃色立方體之上。也就是說,從上到下,順序是紅色、藍色、綠色、紫色、黄色。這些立方體是部分半透明的,由玻璃製成。」

這個提示不僅需要準確的顏色表示和堆疊順序,還需要對光線追蹤和半透明玻璃的視覺特性有細緻的理解。結果總體上是積極的,除了 Midjourney V7 之外的所有 AI 都成功生成了符合指定標準的圖像。這證明了 AI 在渲染真實和視覺上複雜的對象方面的日益成熟,特別是在複製光和材料特性的效果方面。控制這些效果的能力對於產品設計、建築可視化以及其他需要照片般逼真圖像的領域至關重要。同樣,Midjourney 無法成功渲染此提示突顯了工具之間的差異,某些工具更適合某些任務。

導航迷宮:評估邏輯推理

邏輯推理能力是 AI 性能的另一個關鍵方面。為了測試這種能力,AI 被指示生成一個迷宮,同時顯示穿過迷宮的正確路線。這項任務要求 AI 不僅要創建一個視覺上合理的迷宮,還要理解和表示解決方案路徑。令人印象深刻的是,只有 4o Image Generation 成功生成了正確且連貫的輸出。這表明某些 AI 模型開始表現出一種空間推理形式,能夠理解和表示視覺環境中的複雜關係。這種能力的潛在應用非常廣泛,從生成交互式地圖和遊戲到協助設計複雜的系統。

質數謎題:揭示數字理解的極限

雖然 AI 取得了顯著的進步,但它並非沒有局限性。這在提示中得到了清楚的展示:「一個由 20 個質數組成的 20 面骰子,從最小的質數開始。」這項任務要求 AI 不僅要生成一個視覺上準確的 20 面骰子,還要正確地識別骰子的各面並排列前 20 個質數。令人失望的是,所有圖像生成 AI 都未能產生令人滿意的結果。這種失敗突顯了 AI 在將精確的數字信息整合到視覺表示中方面持續面臨的挑戰。雖然 AI 可以生成令人驚嘆的視覺圖像,但它常常難以處理需要深入了解數學概念及其準確轉換為視覺背景的任務。

判決:對 AI 圖像生成器進行排名

GenAI Image Showdown 彙編了總共 12 項測試的結果,全面概述了每個 AI 在一系列任務中的表現。根據準確率,AI 的排名如下:

  1. 4o Image Generation
  2. Imagen 3 和 Imagen 4
  3. FLUX.1 [dev]
  4. Gemini 2.0 Flash
  5. Hunyuan Image 2.0
  6. Midjourney V7

此排名為尋求選擇最適合其特定需求的 AI 的用戶提供了寶貴的見解。但是,重要的是要注意,每個 AI 都有其自身的優點和缺點,最佳選擇可能因手頭的具體任務而異。例如,如果用戶正在尋找 AI 來生成美觀的藝術品以用於社交媒體,那麼 Midjourney 可能仍然是可取的工具,儘管它未能成功完成上述某些任務。

這項研究的影響也遠不僅僅限於簡單的圖像生成。這些 AI 工具有可能徹底改變從市場營銷到工程的各個行業。營銷人員現在可以創建尚未存在的產品的照片般逼真圖像,從而可以與潛在客戶進行有效的 A/B 測試。同樣,工程師可以快速可視化和迭代複雜的設計理念,而無需等待昂貴的原型。

最終,GenAI Image Showdown 是導航 AI 圖像生成複雜且快速發展的格局的寶貴資源。通過提供不同 AI 模型的清晰和客觀的比較,它可以幫助用戶做出明智的決策並充分利用這種變革性技術的潛力。隨著 AI 的不斷發展,像 GenAI Image Showdown 這樣的平台將繼續在揭開該技術的神秘面紗並確保所有人都能獲得其好處方面發揮關鍵作用。雖然 AI 可以生成新穎的圖像,但它容易受到其訓練數據中存在的社會偏見的影響。因此,AI 生成的圖像很可能會延續社會刻板印象。

AI 圖像生成目前的局限性也意味著 AI 生成的圖像很容易被濫用。例如,它們可能被用來傳播錯誤信息,或製作露骨的深度偽造品。隨著技術的發展,此類惡意攻擊的複雜性也將隨之提高,因此必須實施足夠的保障措施以最大程度地減少危害。