图像处理的新纪元
Google 最近推出了 Gemini AI 的强大新版本,悄然改变了我们与图像交互和修改图像的方式。这个名为 Gemini 2.0 Flash 的实验版本,超越了单纯的图像生成,为用户提供了前所未有的能力:使用自然的、日常的语言来编辑照片。不再需要具备复杂照片编辑软件的专业技术知识——现在,任何人都可以通过简单的文本命令来修改图像。
与许多现有的 AI 图像工具主要专注于从头开始生成全新图像不同,Gemini 2.0 Flash 的独特之处在于它能够理解和修改现有照片。该系统对照片内容的理解非常透彻,可以根据对话指令进行特定的修改,同时保留原始图像的本质。
这一非凡的成就得益于 Gemini 2.0 原生的多模态特性。它可以同时无缝处理文本和图像。该模型巧妙地将图像转换为’tokens’——与其用于文本处理的基本单位相同。这使得它能够使用与理解语言相同的神经通路来处理视觉内容。这种统一的方法消除了对处理不同媒体类型的单独、专用模型的需求,从而简化了整个过程。
Google 在其官方公告中表示:’Gemini 2.0 Flash 利用多模态输入、增强的推理和自然语言理解来创建图像。想象一下,使用 Gemini 2.0 Flash 来讲述一个故事,它会用图片来说明,保持角色和设置的一致性。提供反馈,模型将调整故事或修改其绘图风格。’
这种方法使 Google 与 OpenAI 等竞争对手区分开来。虽然 ChatGPT 可以使用 Dall-E 3 生成图像,并根据自然语言理解对其创作进行迭代,但它依赖于一个单独的 AI 模型来实现这一点。本质上,ChatGPT 精心策划了 GPT-V(视觉)、GPT-4o(语言)和 Dall-E 3(图像生成)之间复杂的相互作用。然而,OpenAI 预计将在未来的 GPT-5 中实现一个单一的、包罗万象的模型。
北京智源人工智能研究院的研究人员开发的 OmniGen 在开源领域存在一个类似的概念。其创建者设想’通过任意多模态指令直接生成各种图像,无需额外的插件或操作,类似于 GPT 在语言生成中的功能。’
OmniGen 具有对象更改、场景合并和美学调整等功能。然而,与新的 Gemini 相比,它的用户友好性要差得多,运行分辨率较低,需要更复杂的命令,并且最终缺乏 Google 产品的强大功能。尽管如此,对于某些用户来说,它提供了一个引人注目的开源替代方案。
Gemini 2.0 Flash 实测
为了真正掌握 Gemini 2.0 Flash 的功能和局限性,进行了一系列实际测试,探索了各种编辑场景。结果显示出令人印象深刻的优势和一些有待改进的领域。
精确修改现实主体
当处理修改现实主体时,该模型表现出卓越的连贯性。例如,在自拍测试中,增加肌肉清晰度的请求产生了预期的结果。虽然发生了轻微的面部变化,但整体的可识别性得到了保持。
至关重要的是,照片中的其他元素基本上没有受到影响,这表明 AI 能够仅专注于指定的修改。这种有针对性的编辑能力与典型的生成方法形成鲜明对比,后者通常会重建整个图像,可能会引入不必要的更改。
同样重要的是要注意模型的内置安全措施。它始终拒绝编辑儿童照片,并避免处理任何与裸露相关的内容,这反映了 Google 对负责任的 AI 开发的承诺。对于希望探索更具风险的图像处理的用户,OmniGen 可能是一个更合适的选择。
掌握风格转换
Gemini 2.0 Flash 在风格转换方面表现出非凡的能力。将唐纳德·特朗普的照片转换成日本漫画风格的请求,在几次尝试后成功实现了重新构想。
该模型熟练地处理各种风格转换,将照片转换为素描、油画或几乎任何可以想象的艺术风格。用户可以通过调整温度设置和切换各种滤镜来微调结果。然而,值得注意的是,较高的温度设置往往会产生不太忠实于原始图像的转换。
当请求与特定艺术家相关的风格时,会出现一个明显的局限性。涉及达芬奇、米开朗基罗、波提切利或梵高风格的测试导致 AI 复制了这些大师的实际画作,而不是将他们独特的技术应用于源图像。
通过一些提示的改进和几次迭代,可以获得可用的,尽管平庸的结果。通常,提示所需的艺术风格而不是特定的艺术家更有效。
元素操控的艺术
对于实际的编辑任务,Gemini 2.0 Flash 表现出色。它可以熟练地处理图像修复和对象操作,根据请求无缝删除特定对象或向构图中添加新元素。在一项测试中,AI 被提示用一只巨大的橡皮鸡代替篮球,产生了幽默但符合上下文的结果。
虽然偶尔可能会发生对主体的轻微改动,但这些通常可以在几秒钟内使用标准数字编辑工具轻松纠正。
也许最具争议的是,该模型展示了去除版权保护的能力——这一功能在 X 等平台上引发了广泛的讨论。当呈现包含水印的图像并指示删除所有字母、徽标和水印时,Gemini 生成了一个干净的图像,几乎与未加水印的原始图像无法区分。
驾驭视角变化
Gemini 最具技术含量的方面之一是它改变视角的能力——这是主流扩散模型通常难以实现的功能。AI 可以从不同角度重新构想场景,尽管结果本质上是新的创作,而不是原始图像的精确转换。
虽然视角转换不会产生完美的结果——毕竟,模型是从一个全新的视角来概念化整个图像——但它们代表了 AI 基于二维输入理解三维空间的重大进步。
在指示模型处理背景时,正确的措辞至关重要。它通常倾向于修改整个图片,导致构图发生巨大变化。
例如,在一项测试中,Gemini 被要求更改照片的背景,将一个坐着的机器人放在埃及,而不是它原来的位置。该指令明确指出不要更改主体。然而,该模型难以准确处理此特定任务,而是提供了一个全新的构图,以金字塔为特色,一个站立的机器人,但不是主要焦点。
另一个观察到的限制是,虽然模型可以对单个图像进行多次迭代,但细节的质量往往会随着每次连续迭代而降低。因此,在执行大量编辑时,必须注意潜在的质量下降。
这个实验模型目前可通过 Google AI Studio 和 Gemini API 在所有支持的地区向开发者提供。它也可以在 Hugging Face 上使用,供不想与 Google 共享其信息的用户使用。
总之,Google 的这项新产品似乎是一颗隐藏的宝石,就像 NotebookLM 一样。它实现了其他模型无法实现的功能,并且具有良好的熟练程度,但它仍然相对不为人知。对于那些想要尝试生成式 AI 在图像编辑中的潜力并在此过程中获得一些创意乐趣的用户来说,这无疑值得探索。只需用简单的语言描述所需的更改,就为普通用户和专业人士打开了一个充满可能性的世界,标志着图像处理民主化的重要一步。这项技术有可能重塑我们与视觉内容交互的方式,使每个人都能使用高级编辑技术,无论他们的技术技能如何。其影响是巨大的,从个人照片增强到专业设计工作流程,甚至到创造全新形式的视觉艺术。随着技术的不断发展,见证它对创意领域的影响将是一件令人着迷的事情。