Step1X-Edit是由StepFun开发的开源图像编辑模型,达到了最先进(SOTA)的性能。该模型拥有190亿参数(7B MLLM + 12B DiT),在三个关键领域表现出色:精确的语义分析、一致的身份保持和高精度的区域级控制。它支持11种常见的图像编辑任务,包括文本替换、风格迁移、材质转换和人像修饰。Step1X-Edit旨在准确理解、修改并有效地保留细节。
Step1X-Edit的核心能力
Step1X-Edit集成了多模态大型语言模型(MLLM)和扩散模型,从而在开源框架内显著提高了编辑精度和图像保真度。在新发布的GEdit-Bench图像编辑基准测试中,Step1X-Edit在语义一致性、图像质量和总分方面优于现有的开源模型,与GPT-4o和Gemini 2.0 Flash的性能相媲美。
语义精确分析
该模型支持以自然语言描述的复杂指令组合。这些指令不需要模板,使该模型灵活且能够处理多轮、多任务编辑需求。它还支持图像中文本的识别、替换和重建。
- 支持复杂的自然语言描述
- 不需要固定模板
- 能够进行多轮、多任务编辑
- 识别、替换和重建图像中的文本
身份一致性维护
该模型在编辑后始终如一地保留面部特征、姿势和身份特征。这适用于具有高一致性要求的场景,例如虚拟人、电子商务模型和社交媒体图像。
- 维护面部特征
- 保留姿势
- 保留身份特征
- 非常适合虚拟人、电子商务模型和社交媒体
高精度区域控制
该模型支持对特定区域中的文本、材质、颜色和其他元素进行有针对性的编辑。它保持统一的图像风格,并提供更精确的控制。
- 在特定区域进行有针对性的编辑
- 控制文本、材质和颜色
- 保持统一的图像风格
- 提供更精确的控制
架构创新
Step1X-Edit采用了MLLM(多模态LLM)+扩散的解耦架构,分别处理自然语言理解和高保真图像生成。与现有的图像编辑模型相比,这种架构在指令泛化能力和图像可控性方面具有优势。
MLLM模块
MLLM模块负责处理自然语言指令和图像内容。它具有多模态语义理解能力,可以将复杂的编辑需求解析为潜在的控制信号。
- 处理自然语言指令
- 处理图像内容
- 多模态语义理解
- 解析复杂的编辑需求
扩散模块
扩散模块用作图像生成器(图像解码器),基于MLLM生成的潜在信号完成图像的重建或局部修改。这确保了图像细节的保留和风格的一致性。
- 图像生成器(图像解码器)
- 重建图像
- 局部修改图像
- 保留图像细节和风格
这种结构解决了传统管道模型中单独的“理解”和“生成”问题。这使模型在执行复杂的编辑指令时具有更高的准确性和控制力。
训练数据
为了支持范围广泛的复杂图像编辑任务,Step1X-Edit构建了行业领先的图像编辑训练数据集。它生成了2000万个图像-文本指令三元组,最终保留了超过100万个高质量样本。数据涵盖11个核心任务类型,包括频繁请求的功能,如文本替换、动作生成、风格迁移和背景调整。任务类型均匀分布,指令语言自然而真实。
- 行业领先的训练数据集
- 2000万个图像-文本指令三元组
- 100万个高质量样本
- 11个核心任务类型
- 均匀分布的任务类型
性能评估
Step1X-Edit在图像编辑的11个子任务中始终保持高质量的输出。其能力均衡,并且几乎在所有任务维度上都保持领先地位,证明了其强大的通用性和平衡性。
GEdit-Bench基准
模型评估使用自主开发的GEdit-Bench基准。与手动合成的任务集合不同,此基准来自真实的社区编辑请求,更接近产品需求。
- 自主开发的基准
- 真实的社区编辑请求
- 更接近产品需求
Step1X-Edit在GEdit-Bench的三个核心指标中显著领先于现有的开源模型。其性能接近GPT-4o,实现了语言理解和图像重建之间的理想平衡。
能力详解
Step1X-Edit不仅仅是改变图像;它还在于真正理解编辑背后的意图,精确地执行它们,并保护原始图像的完整性。核心能力——语义精度、身份一致性和高精度区域控制——旨在满足现代图像编辑的细微需求。
语义精确分析深入探讨
Step1X-Edit的语义精确分析超越了简单的关键词识别。它深入研究自然语言描述的上下文,理解复杂的指令组合。与依赖于刚性模板的系统不同,Step1X-Edit可以解释自由形式的语言,使其高度适应各种编辑场景。它可以无缝地处理多轮和多任务编辑,理解连续指令之间的关系,从而产生连贯的结果。
考虑以下示例:用户想要更改图像中标志上的文本,然后更改标志的颜色以匹配不同的主题。Step1X-Edit不仅仅替换文本和更改颜色;它理解该标志是一个单一对象,并确保文本和颜色更改彼此一致并且与整体图像一致。此外,该模型可以识别和重建图像中的文本,即使它被部分遮挡或扭曲。此功能对于编辑扫描文档或带有叠加文本的图像特别有用。
身份一致性维护解析
在图像中的主体需要保持可识别性(尽管经过修改)的情况下,保持身份一致性至关重要。这在虚拟人应用、电子商务建模和社交媒体内容创建中尤其重要。Step1X-Edit确保面部特征、姿势和独特的身份特征在整个编辑过程中得到保留。
例如,如果用户想要更改图像中虚拟模型的服装,Step1X-Edit会维护模型的面部特征、发型和身体比例,从而确保编辑后的图像仍然准确地代表原始模型。同样,在电子商务中,模型展示产品时,模型的面貌必须在不同的图像中保持一致,以避免混淆客户。
高精度区域控制增强
高精度区域控制使用户能够对图像的特定区域进行有针对性的编辑,而不会影响场景的其余部分。此功能对于需要精细调整的任务至关重要,例如更改服装的颜色、更改对象的纹理或将特定元素添加到特定区域。Step1X-Edit允许用户选择特定区域并以显着的精度应用编辑,从而确保更改与现有图像无缝融合。
想象一个场景,用户想要更改照片中汽车的颜色,但保持反射和阴影不变。Step1X-Edit可以隔离汽车,更改其颜色,并保留原始的照明效果,从而创建逼真且具有视觉吸引力的结果。该模型还确保图像的整体风格和美感保持一致,防止编辑后的区域看起来不协调。
解码架构:MLLM + 扩散
Step1X-Edit的解耦架构结合了多模态大型语言模型(MLLM)和扩散模型,标志着图像编辑技术的重大进步。这种设计允许分工,其中自然语言理解和高保真图像生成由针对各自任务优化的独立模块处理。
深入了解MLLM模块
MLLM模块充当系统的大脑,负责理解和解释自然语言指令和图像内容。它具有先进的多模态语义理解能力,使其能够将复杂的编辑需求分解为可操作的潜在控制信号。此过程涉及分析指令的语言结构,识别要修改的关键元素,并理解图像不同部分之间的关系。
MLLM模块使用复杂的算法将编辑指令映射到扩散模块可以理解的表示形式。此表示形式以保留指令的语义含义的方式编码所需的更改,并确保生成的编辑与用户的意图一致。例如,如果用户要求“在背景中添加日落”,则MLLM模块会识别背景区域,识别日落的概念,并生成一个控制信号,指示扩散模块在指定区域中创建逼真的日落。
阐明扩散模块
扩散模块充当艺术家,采用MLLM模块生成的潜在控制信号,并使用它们以高保真度重建或修改图像。此模块采用称为扩散的过程,该过程涉及逐渐向图像添加噪声,然后学习反转此过程以生成新图像或修改现有图像。扩散模块在庞大的图像数据集上进行训练,从而可以生成逼真且具有视觉吸引力的结果。
扩散模块确保修改后的图像保持原始图像的细节、纹理和照明效果,从而使更改与现有内容无缝融合。它还可以调整编辑的风格以匹配图像的整体美感,从而创建连贯且和谐的结果。例如,如果用户想要“使图像看起来像一幅画”,则扩散模块可以应用艺术滤镜和纹理将图像转换为令人信服的绘画,同时保留原始构图和内容。
协同作用:解耦的力量
Step1X-Edit的解耦架构解决了传统图像编辑模型的基本局限性,在传统图像编辑模型中,“理解”和“生成”通常相互交织,并且没有针对其各自的任务进行优化。通过将这些功能分离到不同的模块中,Step1X-Edit在执行复杂的编辑指令时实现了更高的准确性和控制力。MLLM模块可以专注于准确地解释用户的意图,而扩散模块可以专注于生成满足指定要求的高质量图像。
MLLM模块和扩散模块之间的这种协同作用使Step1X-Edit能够以显着的精度和一致性处理范围广泛的编辑任务。无论是对图像进行细微调整还是执行复杂的转换,Step1X-Edit都可以提供视觉上吸引人且语义准确的结果。解耦架构还使模型更具模块化和更易于更新,从而使开发人员可以不断提高其性能和功能。
数据集工程:性能的基础
为了支持Step1X-Edit可以处理的各种复杂图像编辑任务,开发人员构建了行业领先的图像编辑训练数据集。此数据集包含大量的图像-文本指令三元组,用于训练模型以理解和执行范围广泛的编辑命令。该数据集包括2000万个三元组,其中超过100万个是经过精心策划以确保准确性和一致性的高质量样本。
这些数据涵盖11个核心任务类型,包括频繁请求的功能,例如文本替换、操作生成、样式传输和背景调整。这些任务类型均匀分布在整个数据集中,确保模型接收均衡的训练,并且可以在各种编辑场景中表现良好。数据集中使用的指令语言自然且逼真,反映了人们在请求图像编辑时进行交流的方式。
该数据集还包括复杂和细微的编辑指令的示例,例如“使图像看起来更复古”或“为场景添加戏剧感”。这些指令要求模型理解抽象概念并以创造性和视觉吸引力的方式将其应用于图像。数据集的多样性和丰富性是Step1X-Edit性能的关键因素,使其能够以卓越的准确性和多功能性处理范围广泛的编辑任务。
基准测试卓越性:GEdit-Bench
为了严格评估Step1X-Edit的性能,开发人员创建了一个名为GEdit-Bench的自开发基准。此基准旨在全面评估模型在各种图像编辑场景中的功能。与手动合成的任务集合不同,GEdit-Bench的任务来自真实的社区编辑请求,使其成为衡量模型在实际应用中性能的更现实和相关的指标。
GEdit-Bench中的任务涵盖范围广泛的编辑操作,包括文本替换、对象删除、样式传输和背景调整。该基准还包括要求模型理解和执行复杂且细微的指令的任务,例如“使图像看起来更专业”或“为场景添加温暖感”。GEdit-Bench提供了对模型在实际场景中的性能的更准确和可靠的评估。
Step1X-Edit在GEdit-Bench上取得了显着成果,在所有三个核心指标中都超过了现有的开源模型:语义一致性、图像质量和总体得分。该模型的性能接近GPT-4o的性能,证明了其在语言理解和图像重建之间实现理想平衡的能力。
总而言之,Step1X-Edit代表了开源图像编辑技术的重大进步。其解耦架构、庞大的训练数据集和严格的基准测试使其成为适用于范围广泛的编辑任务的强大且通用的工具。无论您是专业的摄影师、社交媒体爱好者,还是只是想增强图像的人,Step1X-Edit都可以帮助您以卓越的准确性和轻松性实现您的目标。