AI图像生成大比拼:谁是霸主?

人工智能驱动的图像生成领域正经历着蓬勃发展,众多公司和机构都在竞相争夺霸主地位。每个开发者都自豪地宣扬其独特的 AI 模型的卓越能力,导致了一个复杂的局面,辨别真正的性能成为一项挑战。GenAI Image Showdown 应运而生,这是一个经过精心策划的平台,旨在为炒作浪潮提供清晰度。该网站提供了各种图像生成 AI 的并排比较,所有 AI 都响应完全相同的提示。这允许立即对每个 AI 将指令忠实地转化为引人注目的图像的能力进行视觉评估。

普鲁士士兵和金属环:字面解释测试

为了说明该平台的有效性,请考虑以下提示:“两个戴着尖刺头盔的普鲁士士兵面对面,玩着将金属环扔向对方头盔尖刺的游戏。”这个看似异想天开的场景充当了六个主要图像生成 AI 的试金石:

  • Black Forest Labs’ FLUX.1 [dev]
  • Google’s Gemini 2.0 Flash
  • 腾讯的 Hunyuan Image 2.0
  • Google 的 Imagen 3 和 Imagen 4(由于性能差异可忽略不计而分组)
  • Midjourney’s Midjourney V7
  • OpenAI 的 4o Image Generation

结果令人惊讶。在六个 AI 中,只有三个——FLUX.1 [dev]Imagen 3 和 Imagen 4 以及 4o Image Generation——成功生成了符合提示的特定细节的图像。其他的,虽然可能产生视觉上有趣的图像,但未能准确地捕捉到请求的本质。这突出了一个关键的区别:原始图像质量不是成功的图像生成 AI 的唯一决定因素;精确解释和执行复杂指令的能力同样重要。

星形形状:评估几何精度

该实验从复杂的场景扩展到更简单、更侧重于几何形状的提示。其中一个提示是:“一个九角星的数字插图。”对于某些 AI 来说,这项看似简单的任务被证明非常具有挑战性。只有 FLUX.1 [dev]Midjourney V74o Image Generation 设法生成了准确描绘九角星的图像。这些失败突显了 AI 在处理特定几何要求时面临的困难,即使在看似简单的场景中也是如此。生成 看起来 像星星的东西很容易,但生成一个符合具有 九个角 的特定属性的星星要困难得多。这对于生成精确的技术或科学图表可能很重要。

色彩和半透明立方体:深入了解渲染能力

下一个挑战采取了高度详细的提示的形式,旨在测试 AI 的渲染能力:“一个光线追踪图像,包含五个彩色立方体。红色立方体堆叠在蓝色立方体之上。蓝色立方体堆叠在绿色立方体之上。绿色立方体堆叠在紫色立方体之上。紫色立方体堆叠在黄色立方体之上。也就是说,从上到下,顺序是红色、蓝色、绿色、紫色、黄色。立方体是部分半透明的,由玻璃制成。”

该提示不仅要求准确的颜色表示和堆叠顺序,还要求对光线追踪和半透明玻璃的视觉特性有细致的理解。结果总体上是积极的,除了 Midjourney V7 之外,所有 AI 都成功生成了满足指定标准的图像。这表明 AI 在渲染逼真且视觉上复杂的对象(尤其是在复制光和材料特性的效果方面)方面的日益成熟。控制这些效果的能力对于产品设计、建筑可视化以及其他需要照片般逼真图像的领域至关重要。同样,Midjourney 未能成功渲染此提示突显了工具之间的差异,某些工具更适合某些任务。

导航迷宫:评估逻辑推理

逻辑推理能力是 AI 性能的另一个关键方面。为了测试这种能力,指示 AI 生成一个迷宫,同时显示通过迷宫的正确路线。这项任务要求 AI 不仅要创建一个视觉上合理的迷宫,还要理解和表示解决方案路径。令人印象深刻的是,只有 4o Image Generation 成功生成了正确且连贯的输出。这表明某些 AI 模型开始表现出一种空间推理形式,能够理解和表示视觉环境中的复杂关系。这种能力的潜在应用非常广泛,从生成交互式地图和游戏到协助复杂系统的设计。

质数难题:揭示数字理解的局限性

虽然 AI 取得了显著的进步,但它并非没有局限性。这一点的明确证明来自提示:“一个由 20 个质数组成的 20 面骰子,从最小的质数开始。”这项任务要求 AI 不仅要生成视觉上准确的 20 面骰子,还要正确识别并将前 20 个质数排列在其面上。令人失望的是,所有图像生成 AI 都未能生成令人满意的结果。这种失败突显了 AI 在将精确的数字信息集成到视觉表示中时面临的持续挑战。虽然 AI 可以生成视觉上令人惊叹的图像,但它通常难以完成需要深入理解数学概念及其在视觉环境中的准确转换的任务。

结论:对 AI 图像生成器进行排名

GenAI Image Showdown 汇编了总共 12 项测试的结果,提供了对每个 AI 在一系列任务中的性能的全面概述。根据准确率,AI 的排名如下:

  1. 4o Image Generation
  2. Imagen 3 和 Imagen 4
  3. FLUX.1 [dev]
  4. Gemini 2.0 Flash
  5. Hunyuan Image 2.0
  6. Midjourney V7

此排名为寻求选择最适合其特定需求的 AI 的用户提供了宝贵的见解。但是,重要的是要注意,每个 AI 都有其自身的优势和劣势,并且最佳选择可能因手头的具体任务而异。例如,如果用户正在寻找 AI 来生成用于社交媒体的美观艺术品,那么 Midjourney 可能仍然是一个更可取的工具,尽管它未能成功完成上述某些任务。

这项研究的意义也超出了简单的图像生成。这些 AI 工具有可能彻底改变从营销到工程的各个行业。营销人员现在可以创建尚未存在的产品的照片般逼真的图像,从而可以与潜在客户进行有效的 A/B 测试。同样,工程师可以快速可视化和迭代复杂的设计理念,而无需等待昂贵的原型。

最终,GenAI Image Showdown 是一个有价值的资源,用于驾驭 AI 图像生成这个复杂且快速发展的领域。通过提供不同 AI 模型的清晰客观的比较,它使用户能够做出明智的决策并充分利用这项变革性技术的潜力。随着 AI 的不断发展,GenAI Image Showdown 等平台将继续在揭开技术神秘面纱并确保所有人都能获得其好处方面发挥关键作用。虽然 AI 可以生成新颖的图像,但它很容易继承其训练数据中存在的社会偏见。因此,AI 生成的图像可能会永久存在社会刻板印象。

当前 AI 图像生成技术的局限性也意味着 AI 生成的图像容易被滥用。例如,它们可能被用于传播错误信息,或生成性暗示的深度伪造。随着技术的不断发展,此类恶意攻击的复杂性也将随之提高,因此必须强制执行适当的安全措施,以最大程度地减少危害。