Step1X-Edit:突破性的開源圖像編輯模型

StepFun 開發的開源圖像編輯模型 Step1X-Edit 已經發布,實現了最先進 (SOTA) 的效能。該模型擁有 190 億參數 (7B MLLM + 12B DiT),在三個關鍵領域表現出色:精確的語義分析、一致的身分保持和高精度的區域級控制。它支持 11 種常見的圖像編輯任務,包括文本替換、風格遷移、材質轉換和人像修飾。 Step1X-Edit 旨在準確理解、修改並有效地保留細節。

Step1X-Edit 的核心能力

Step1X-Edit 整合了多模態大型語言模型 (MLLM) 和擴散模型 (Diffusion models),從而在開源框架內顯著提高了編輯準確性和圖像保真度。在最新發布的 GEdit-Bench 圖像編輯基準測試中,Step1X-Edit 在語義一致性、圖像質量和總體分數方面均優於現有的開源模型,效能可與 GPT-4o 和 Gemini 2.0 Flash 相媲美。

語義精確分析

該模型支持以自然語言描述的複雜指令組合。這些指令不需要模板,使得模型靈活並能夠處理多輪、多任務的編輯需求。它還支持圖像中文字的識別、替換和重建。

  • 支持複雜的自然語言描述
  • 無需固定模板
  • 能夠進行多輪、多任務編輯
  • 識別、替換和重建圖像中的文字

身分一致性維護

該模型在編輯後始終如一地保留面部特徵、姿勢和身分特徵。這適用於對一致性要求高的場景,例如虛擬人物、電子商務模型和社交媒體圖像。

  • 保持面部特徵
  • 保留姿勢
  • 保留身分特徵
  • 非常適合虛擬人物、電子商務模型和社交媒體

高精度區域控制

該模型支持對特定區域中的文本、材質、顏色和其他元素進行有針對性的編輯。它保持統一的圖像風格並提供更精確的控制。

  • 在特定區域進行有針對性的編輯
  • 控制文本、材質和顏色
  • 保持統一的圖像風格
  • 提供更精確的控制

架構創新

Step1X-Edit 採用 MLLM (多模態 LLM) + 擴散的分離架構,分別處理自然語言理解和高保真圖像生成。與現有的圖像編輯模型相比,這種架構在指令泛化能力和圖像可控性方面具有優勢。

MLLM 模組

MLLM 模組負責處理自然語言指令和圖像內容。它具有多模態語義理解能力,可以將複雜的編輯需求解析為潛在的控制信號。

  • 處理自然語言指令
  • 處理圖像內容
  • 多模態語義理解
  • 解析複雜的編輯需求

擴散模組

擴散模組充當圖像生成器 (Image Decoder),根據 MLLM 生成的潛在信號完成圖像的重建或局部修改。這確保了圖像細節的保留和風格的一致性。

  • 圖像生成器 (Image Decoder)
  • 重建圖像
  • 局部修改圖像
  • 保留圖像細節和風格

這種結構解決了傳統 pipeline 模型中“理解”和“生成”分離的問題。這使得模型在執行複雜的編輯指令時具有更高的準確性和控制力。

訓練數據

為了支持範圍廣泛的複雜圖像編輯任務,Step1X-Edit 構建了行業領先的圖像編輯訓練數據集。它生成了 2000 萬個圖像-文本指令三元組,並最終保留了超過 100 萬個高質量樣本。數據涵蓋 11 個核心任務類型,包括常見的請求功能,例如文本替換、動作生成、風格遷移和背景調整。任務類型分佈均勻,指令語言自然且真實。

  • 行業領先的訓練數據集
  • 2000 萬個圖像-文本指令三元組
  • 100 萬個高質量樣本
  • 11 個核心任務類型
  • 任務類型分佈均勻

效能評估

Step1X-Edit 在圖像編輯的 11 個子任務中始終保持高質量的輸出。它的能力非常均衡,並且在幾乎所有任務維度上都保持領先地位,展現了其強大的多功能性和平衡性。

GEdit-Bench 基準測試

模型評估使用自行開發的 GEdit-Bench 基準測試。與手動合成的任務集合不同,此基準測試來自真實的社群編輯請求,更貼近產品需求。

  • 自行開發的基準測試
  • 真實的社群編輯請求
  • 更貼近產品需求

Step1X-Edit 在 GEdit-Bench 的三個核心指標上顯著領先於現有的開源模型。它的表現接近 GPT-4o,在語言理解和圖像重建之間取得了理想的平衡。

功能的詳細檢查

Step1X-Edit 不僅僅是改變圖像,更重要的是真正理解編輯背後的意圖,以精確的方式執行編輯,並保障原始圖像的完整性。其核心功能——語義精確性、身分一致性和高精度區域控制——旨在滿足現代圖像編輯的細緻需求。

深入探討語義精確分析

Step1X-Edit 的語義精確分析超越了簡單的關鍵字識別。它深入研究自然語言描述的上下文,理解複雜的指令組合。與依賴於固定模板的系統不同,Step1X-Edit 可以解釋自由形式的語言,使其高度適應各種編輯場景。它可以無縫處理多輪和多任務編輯,理解連續指令之間的關係,從而產生連貫的結果。

考慮以下示例:用戶想要更改圖像中標誌上的文本,然後更改標誌的顏色以匹配不同的主題。Step1X-Edit 不僅僅替換文本並更改顏色,它還理解該標誌是一個單一對象,並確保文本和顏色的更改彼此一致並且與整體圖像一致。此外,該模型可以識別和重建圖像中的文本,即使文本被部分遮擋或扭曲。此功能對於編輯掃描的文檔或帶有疊加文本的圖像特別有用。

身分一致性維護說明

在圖像中的對象需要保持可識別性的情況下,保持身分一致性至關重要。這在虛擬人物應用、電子商務建模和社交媒體內容創建中尤為重要。Step1X-Edit 確保在整個編輯過程中保留面部特徵、姿勢和獨特的身分特徵。

例如,如果用戶想要更改圖像中虛擬模型的服裝,Step1X-Edit 會保持該模型的面部特徵、髮型和身體比例,確保編輯後的圖像仍然準確地代表原始模型。同樣,在電子商務中,模型展示產品時,模型的外觀必須在不同的圖像中保持一致,以避免混淆客戶。

高精度區域控制增強功能

高精度區域控制使用戶能夠對圖像的特定區域進行有針對性的編輯,而不會影響場景的其餘部分。此功能對於需要進行精細調整的任務至關重要,例如更改服裝的顏色、改變對象的紋理或將特定元素添加到特定區域。Step1X-Edit 允許用戶選擇特定區域並以驚人的精度應用編輯,確保更改與現有圖像無縫融合。

想像一下這樣一種情況:用戶想要更改照片中汽車的顏色,但保持反射和陰影不變。Step1X-Edit 可以隔離汽車,更改其顏色,並保留原始的照明效果,從而創建逼真且具有視覺吸引力的結果。該模型還確保圖像的整體風格和美感保持一致,防止編輯後的區域看起來不合適。

解碼架構:MLLM + 擴散

Step1X-Edit 的分離架構,結合了多模態大型語言模型 (MLLM) 和擴散模型,標誌著圖像編輯技術的重大進步。這種設計允許分工,其中自然語言理解和高保真圖像生成由針對其各自任務優化的單獨模組處理。

深入研究 MLLM 模組

MLLM 模組充當系統的大腦,負責理解和解釋自然語言指令和圖像內容。它具有先進的多模態語義理解能力,使其能夠將複雜的編輯需求分解為可操作的潛在控制信號。此過程涉及分析指令的語言結構,識別要修改的關鍵元素,並理解圖像不同部分之間的關係。

MLLM 模組使用複雜的算法將編輯指令映射到擴散模組可以理解的表示形式。這種表示形式以保留指令的語義含義的方式編碼所需的更改,並確保生成的編輯與用戶的意圖一致。例如,如果用戶要求「在背景中添加日落」,則 MLLM 模組會識別背景區域,識別日落的概念,並生成一個控制信號,指示擴散模組在指定區域中創建逼真的日落。

闡明擴散模組

擴散模組充當藝術家,獲取 MLLM 模組生成的潛在控制信號,並使用它們以高保真度重建或修改圖像。此模組採用一種稱為擴散的過程,該過程涉及逐漸向圖像添加噪點,然後學習反轉此過程以生成新圖像或修改現有圖像。擴散模組在龐大的圖像數據集上進行訓練,使其能夠生成逼真且具有視覺吸引力的結果。

擴散模組確保修改後的圖像保持原始圖像的細節、紋理和照明效果,使更改與現有內容無縫融合。它還可以調整編輯的風格以匹配圖像的整體美感,從而創建連貫且和諧的結果。例如,如果用戶想要「使圖像看起來像一幅畫」,則擴散模組可以應用藝術濾鏡和紋理將圖像轉換為令人信服的繪畫,同時保留原始構圖和內容。

協同作用:分離的力量

Step1X-Edit 的分離架構解決了傳統圖像編輯模型的一個基本限制,在傳統圖像編輯模型中,「理解」和「生成」通常相互交織,並且沒有針對其各自的任務進行優化。通過將這些功能分離為不同的模組,Step1X-Edit 在執行複雜的編輯指令時實現了更高的準確性和控制力。MLLM 模組可以專注於準確地解釋用戶的意圖,而擴散模組可以專注於生成滿足指定要求的高質量圖像。

MLLM 和擴散模組之間的這種協同作用使 Step1X-Edit 能夠以驚人的精度和一致性處理範圍廣泛的編輯任務。無論是對圖像進行細微的調整還是執行複雜的轉換,Step1X-Edit 都可以提供既具有視覺吸引力又在語義上準確的結果。分離架構還使模型更具模塊化且更易於更新,從而使開發人員能夠不斷提高其性能和功能。

數據集工程:性能的基礎

為了支持 Step1X-Edit 可以處理的各種複雜的圖像編輯任務,開發人員構建了行業領先的圖像編輯訓練數據集。此數據集包含大量圖像-文本指令三元組,這些三元組用於訓練模型以理解和執行範圍廣泛的編輯命令。數據集包括 2000 萬個三元組,其中超過 100 萬個是高質量樣本,這些樣本經過精心策劃以確保準確性和一致性。

數據涵蓋 11 個核心任務類型,包括常見的請求功能,例如文本替換、動作生成、風格遷移和背景調整。這些任務類型在整個數據集中均勻分佈,確保模型接受均衡的訓練,並且可以在各種編輯場景中表現良好。數據集中使用的指令語言自然且真實,反映了人們在請求圖像編輯時的交流方式。

數據集還包括複雜和細微的編輯指令示例,例如「使圖像看起來更復古」或「為場景添加戲劇感」。這些指令要求模型理解抽象概念並以創造性和具有視覺吸引力的方式將其應用於圖像。數據集的多樣性和豐富性是 Step1X-Edit 性能的關鍵因素,使其能夠以驚人的準確性和多功能性處理範圍廣泛的編輯任務。

基準測試卓越性:GEdit-Bench

為了嚴格評估 Step1X-Edit 的性能,開發人員創建了一個自行開發的基準測試,稱為 GEdit-Bench。此基準測試旨在全面評估模型在各種圖像編輯場景中的功能。與手動合成的任務集合不同,GEdit-Bench 的任務來自真實的社群編輯請求,使其成為在實際應用中更真實和相關的模型性能衡量標準。

GEdit-Bench 中的任務涵蓋範圍廣泛的編輯操作,包括文本替換、對象移除、風格遷移和背景調整。該基準測試還包括需要模型理解和執行複雜和細微指令的任務,例如「使圖像看起來更專業」或「為場景添加溫暖感」。GEdit-Bench 提供了模型在實際場景中性能的更準確和可靠的評估。

Step1X-Edit 在 GEdit-Bench 上取得了顯著的結果,在所有三個核心指標上都超過了現有的開源模型:語義一致性、圖像質量和總體得分。該模型的性能接近 GPT-4o,證明了它在語言理解和圖像重建之間實現理想平衡的能力。

總之,Step1X-Edit 代表了開源圖像編輯技術的重大進步。其分離架構、龐大的訓練數據集和嚴格的基準測試使其成為適用於範圍廣泛的編輯任務的強大且多功能的工具。無論您是專業攝影師、社交媒體愛好者,還是僅僅是想要增強圖像的人,Step1X-Edit 都可以幫助您以驚人的準確性和輕鬆性實現您的目標。