人工智能驱动的图像编辑领域正在迅速发展,谷歌和 OpenAI 等科技巨头不断突破可能的界限。最近,Google Gemini 推出了一项新的图像编辑功能,承诺用户能够在保持原始图像完整性的同时,对图像进行特定的修改。这一功能与 ChatGPT 的图像编辑能力正面交锋,后者也允许用户使用文本提示来修改图像。
虽然 ChatGPT 提供了用于精确编辑的选择工具,但 Gemini 强调其能够在不大幅改变整体图像的情况下进行请求的更改。这就提出了一个重要的问题:当提示进行修改时,这些 AI 模型在多大程度上真正坚持原始图像?
为了调查这一点,我进行了一项非正式测试,让 Gemini 和 ChatGPT 在一系列图像编辑挑战中相互竞争。目标是评估它们在仅进行请求的更改方面的准确性和效率,而不会无意中更改图像的其他方面。
实验设置:巴黎咖啡馆场景
为了确保公平的竞争环境,我首先使用 ChatGPT 生成了一张基本图像。图像描绘了一位女士在巴黎一家户外咖啡馆享用咖啡,身穿时尚外套和太阳镜。这作为后续编辑提示的基础,可以对两个 AI 模型进行直接比较。
从这个起点开始,我让 Gemini 和 ChatGPT 都经历了三个不同的编辑提示,仔细评估每个平台在执行请求的修改同时,如何有效地保留原始图像。
第一轮:服装更换
第一个挑战相对简单:我指示两个 AI 聊天机器人"将她的服装换成充满活力的休闲夏装,并摘掉太阳镜"。
Gemini 和 ChatGPT 都成功地完成了提示,为这位女士提供了一件新的夏装,并摘掉了她的太阳镜。然而,仔细观察显示了它们方法上的细微但显着的差异。
Gemini 展示了坚持原始图像的卓越能力。这些变化主要限于服装和眼镜,对其他元素的改动很小。
另一方面,ChatGPT 引入了几个额外的修改。她的表情、发型以及杯子、盘子和桌子的大小都进行了细微的调整。虽然这些变化并不剧烈,但它们表现出了一种超出提示范围而偏离原始图像的趋势。
此外,Gemini 在处理请求方面被证明明显更快。它在大约 20 到 30 秒内完成了编辑,而 ChatGPT 虽然拥有强大的引擎,却花费了几分钟来生成修改后的图像。
第二轮:添加犬类伙伴
在第二轮中,我决定在场景中引入另一个角色:吉娃娃。我提示两个 AI 聊天机器人"在她旁边添加一只吉娃娃,深情地仰望着她"。
ChatGPT 通过将一只可爱的幼犬放在这位女士的腿上做出了回应。然而,该图像还包括许多意想不到的变化。这位女士的头发变长了,她的笑容扩大了,她的碎花裙也发生了微妙的改变。背景中的面包车也神秘地消失了。
Gemini 再次擅长保留原始图像的完整性。它成功地在这位女士旁边添加了一只吉娃娃,保持了场景的整体连续性。虽然 Gemini 对狗的渲染可能缺乏 ChatGPT 的一些真实感,但它在进行请求的更改而不引入无关的修改方面的能力值得称赞。
第三轮:巴黎地标
在最后一轮中,我旨在将一个典型的巴黎元素融入到图像中:埃菲尔铁塔。我要求 Gemini 和 ChatGPT "将埃菲尔铁塔突出地放置在背景中"。
这项任务要求 AI 模型无缝地集成一个重要的建筑元素,调整背景,并保持适当的比例和透视。
Gemini 策略性地移除了这位女士左侧的一栋建筑,为埃菲尔铁塔创造了空间。塔看起来有点小,但似乎并没有完全格格不入。重要的是,图像的其余部分与原始图像保持一致。
然而,ChatGPT 的尝试失败了。埃菲尔铁塔呈现为一个形状奇特、微型的创作,与现有的背景格格不入。这位女士的连衣裙和头发再次发生了变化,狗似乎也变瘦了。由此产生的图像感觉脱节,并且明显偏离了原始图像。
结论:Gemini 的精确优势
这些测试的结果突出了 Gemini 和 ChatGPT 的图像编辑能力之间的明显区别。Gemini 始终表现出卓越的进行有针对性的更改同时,保留原始图像完整性的能力。它的编辑速度快、准确,并且在很大程度上仅限于所请求的特定修改。
ChatGPT 虽然能够生成高质量的图像,但表现出引入意外修改的趋势,超出提示范围而偏离原始图像。这通常导致图像感觉不一致且不那么有凝聚力。
但是,重要的是要注意,ChatGPT 提供了一个突出显示工具,允许用户选择特定的编辑区域,这可能会提高其精度。此工具需要额外的时间和精力,但对于获得更有针对性的结果可能是必需的。
图像质量考虑因素
虽然 Gemini 在精度和速度方面表现出色,但 ChatGPT 通常会生成具有更高整体质量的图像。但是,此优势取决于 ChatGPT 首次准确解释和执行编辑提示的能力。如果需要多次迭代才能达到所需的结果,则 Gemini 提供的节省时间可能超过 ChatGPT 的卓越图像质量。
最终想法
在人工智能驱动的图像编辑领域,Google Gemini 和 ChatGPT 都提供了独特的优势和劣势。Gemini 以其速度、准确性和坚持原始图像的能力而脱颖而出。另一方面,ChatGPT 拥有更高的整体图像质量,但可能需要更多的耐心和精度才能实现有针对性的编辑。
最终,Gemini 和 ChatGPT 之间的选择取决于用户的特定需求和优先级。对于快速和精确的编辑,Gemini 成为明显的赢家。但是,对于那些优先考虑图像质量并且愿意投入更多时间和精力的人来说,ChatGPT 仍然是一个可行的选择。
随着 AI 技术的不断发展,Gemini 和 ChatGPT 可能会继续提高其图像编辑能力,从而模糊它们各自的优势和劣势之间的界限。人工智能驱动的图像编辑的未来有望成为一个令人兴奋和变革性的旅程,使用户能够以前所未有的轻松和精确度来创建和修改图像。
扩展 Gemini 的优势
Gemini 保持原始图像完整性的能力源于其复杂的算法,这些算法旨在最大程度地减少意外的修改。这对于希望进行特定更改而不破坏图像的整体美感或构图的用户来说尤其重要。
此外,Gemini 的速度优势允许快速实验和迭代。用户可以快速测试不同的编辑提示并评估结果,而不必等待几分钟才能处理每次修改。这可以显着简化创意工作流程,并使用户能够探索更广泛的可能性。
深入了解 ChatGPT 的功能
尽管 ChatGPT 倾向于引入意外的更改,但其图像编辑功能不容忽视。其强大的引擎和复杂的算法使其能够生成具有卓越细节和真实感的图像。这对于从头开始创建图像或对现有图像进行重大更改的用户来说尤其有价值。
此外,ChatGPT 的突出显示工具提供了 Gemini 中没有的控制程度。通过选择特定的编辑区域,用户可以精确地定位他们的修改并最大程度地减少意外更改的风险。但是,这种方法需要更多的时间和精力,可能不适合那些正在寻找快速而简单的编辑的用户。
AI 图像编辑的未来
AI 驱动的图像编辑领域仍处于早期阶段,未来发展和创新潜力巨大。随着 AI 算法变得越来越复杂,我们可以期望看到在精度、速度和图像质量方面有更大的改进。
一个有希望的发展领域是将 AI 图像编辑工具与其他创意应用程序集成。这将允许用户将 AI 生成的图像无缝地融入到他们现有的工作流程中,从而增强他们创建引人注目的视觉内容的能力。
另一个令人兴奋的可能性是开发针对特定行业和应用程序量身定制的 AI 驱动的图像编辑工具。例如,可以开发 AI 工具来帮助摄影师修饰肖像,或者帮助建筑师创建逼真的建筑物渲染图。
随着 AI 技术的不断发展,AI 驱动的图像编辑很可能成为创意专业人士和日常用户不可或缺的工具。