Step1X-Edit:画期的なオープンソース画像編集モデル
StepFunが開発したオープンソースの画像編集モデル、Step1X-Editが公開され、最先端(SOTA)の性能を達成しました。このモデルは、190億のパラメータ(7B MLLM + 12B DiT)を誇り、3つの主要な領域で優れています。それは、正確な意味解析、一貫したアイデンティティの保持、そして高精度の領域レベルの制御です。テキストの置換、スタイルの転送、素材の変換、ポートレートの修正など、頻繁に使用される11種類の画像編集タスクをサポートしています。Step1X-Editは、理解し、正確に修正し、効果的に詳細を保持するように設計されています。
Step1X-Editの核となる能力
Step1X-Editは、マルチモーダル大規模言語モデル(MLLM)と拡散モデルを統合し、オープンソースフレームワーク内での編集精度と画像の忠実度を大幅に向上させます。新しくリリースされたGEdit-Bench画像編集ベンチマークでは、Step1X-Editは、意味の一貫性、画質、および総合スコアにおいて既存のオープンソースモデルを凌駕し、GPT-4oおよびGemini 2.0 Flashの性能に匹敵します。
意味精度の分析
このモデルは、自然言語で記述された指示の複雑な組み合わせをサポートします。これらの指示はテンプレートを必要としないため、モデルは柔軟性があり、複数ターン、マルチタスク編集のニーズに対応できます。また、画像内のテキストの識別、置換、再構築もサポートしています。
- 複雑な自然言語記述をサポート
- 固定テンプレートは不要
- 複数ターン、マルチタスク編集が可能
- 画像内のテキストを識別、置換、再構築
アイデンティティの一貫性維持
このモデルは、編集後も顔の特徴、ポーズ、およびアイデンティティの特性を一貫して保持します。これは、バーチャルヒューマン、Eコマースモデル、ソーシャルメディア画像など、高い一貫性が求められるシナリオに適しています。
- 顔の特徴を維持
- ポーズを保持
- アイデンティティの特性を保持
- バーチャルヒューマン、Eコマースモデル、ソーシャルメディアに最適
高精度な領域制御
このモデルは、特定の領域におけるテキスト、素材、色、およびその他の要素のターゲットを絞った編集をサポートします。統一された画像スタイルを維持し、より正確な制御を提供します。
- 特定の領域でのターゲットを絞った編集
- テキスト、素材、色を制御
- 統一された画像スタイルを維持
- より正確な制御を提供
アーキテクチャの革新
Step1X-Editは、MLLM(マルチモーダルLLM)+拡散の分離されたアーキテクチャを採用しており、自然言語の理解と高忠実度の画像生成を個別に処理します。既存の画像編集モデルと比較して、このアーキテクチャは、指示の一般化能力と画像の制御可能性において優位性があります。
MLLMモジュール
MLLMモジュールは、自然言語の指示と画像コンテンツを処理する役割を担っています。マルチモーダルな意味理解能力を備えており、複雑な編集要件を潜在的な制御信号に解析できます。
- 自然言語の指示を処理
- 画像コンテンツを処理
- マルチモーダルな意味理解
- 複雑な編集要件を解析
拡散モジュール
拡散モジュールは、画像ジェネレーター(画像デコーダー)として機能し、MLLMによって生成された潜在的な信号に基づいて、画像の再構築またはローカルな変更を完了します。これにより、画像の詳細の保持とスタイルの一貫性が保証されます。
- 画像ジェネレーター(画像デコーダー)
- 画像を再構築
- 画像をローカルに変更
- 画像の詳細とスタイルを保持
この構造は、従来のパイプラインモデルにおける「理解」と「生成」の分離の問題に対処します。これにより、モデルは複雑な編集指示を実行する際に、より高い精度と制御を持つことができます。
トレーニングデータ
幅広い複雑な画像編集タスクをサポートするために、Step1X-Editは業界をリードする画像編集トレーニングデータセットを構築しました。2000万の画像とテキストの指示のトリプレットを生成し、最終的に100万を超える高品質なサンプルを保持します。データは、テキストの置換、アクションの生成、スタイルの転送、背景の調整など、頻繁に要求される機能を含む11のコアタスクタイプをカバーしています。タスクタイプは均等に分散されており、指示言語は自然で現実的です。
- 業界をリードするトレーニングデータセット
- 2000万の画像とテキストの指示のトリプレット
- 100万の高品質なサンプル
- 11のコアタスクタイプ
- 均等に分散されたタスクタイプ
パフォーマンス評価
Step1X-Editは、画像編集の11のサブタスクにおいて、一貫して高品質の出力を維持しています。その機能はバランスが取れており、ほぼすべてのタスクディメンションで最前線にあり、その強力な汎用性と均衡を示しています。
GEdit-Benchベンチマーク
モデル評価では、自己開発のGEdit-Benchベンチマークを使用します。手動で合成されたタスクコレクションとは異なり、このベンチマークは実際のコミュニティ編集リクエストから来ており、製品ニーズに近いです。
- 自己開発ベンチマーク
- 実際のコミュニティ編集リクエスト
- 製品ニーズに近い
Step1X-Editは、GEdit-Benchの3つのコア指標において、既存のオープンソースモデルを大幅にリードしています。GPT-4oに近いパフォーマンスを発揮し、言語理解と画像再構築の間で理想的なバランスを実現しています。
能力の詳細な検討
Step1X-Editは、単に画像を改変するだけではありません。それは編集の背後にある意図を真に理解し、それを正確に実行し、元の画像の完全性を保護することです。意味の精度、アイデンティティの一貫性、および高精度の領域制御というコア機能は、現代の画像編集の微妙な要求に対応するように設計されています。
深層における意味の精度分析
Step1X-Editの意味の精度分析は、単純なキーワード認識を超えています。自然言語記述のコンテキストを掘り下げ、指示の複雑な組み合わせを理解します。厳格なテンプレートに依存するシステムとは異なり、Step1X-Editは自由形式の言語を解釈できるため、さまざまな編集シナリオに高度に適応できます。それは、連続する指示間の関係を理解して一貫性のある結果を生み出す、複数ターンおよびマルチタスク編集をシームレスに処理します。
この例を考えてみてください。ユーザーは、画像内のサインのテキストを変更し、次にサインの色を変更して別のテーマに合わせたいと考えています。Step1X-Editはテキストを置き換えて色を変更するだけでなく、サインが単一のオブジェクトであることを理解し、テキストと色の変更が互いに、そして画像全体と一貫性があることを保証します。さらに、モデルは、部分的に不明瞭または歪んでいる場合でも、画像内のテキストを識別して再構築できます。この機能は、スキャンされたドキュメントやテキストがオーバーレイされた画像を編集する場合に特に役立ちます。
アイデンティティの一貫性維持の説明
アイデンティティの一貫性を維持することは、画像内の被写体が変更されても認識可能な状態を維持する必要があるシナリオで重要です。これは、バーチャルヒューマンアプリケーション、Eコマースモデリング、およびソーシャルメディアコンテンツの作成で特に重要です。Step1X-Editは、編集プロセス全体を通じて、顔の特徴、ポーズ、および一意のアイデンティティの特性が保持されることを保証します。
たとえば、ユーザーが画像内のバーチャルモデルの服装を変更したい場合、Step1X-Editはモデルの顔の特徴、ヘアスタイル、および体のプロポーションを維持し、編集された画像が元のモデルを正確に表していることを保証します。同様に、モデルが製品を紹介するEコマースでは、顧客を混乱させないように、モデルの外観が異なる画像間で一貫している必要があります。
高精度の領域制御の強化
高精度の領域制御により、ユーザーはシーンの残りの部分に影響を与えることなく、画像の特定の領域に対してターゲットを絞った編集を行うことができます。この機能は、衣服の色の変更、オブジェクトのテクスチャの変更、特定の領域への特定の要素の追加など、細かく調整が必要なタスクに不可欠です。Step1X-Editを使用すると、ユーザーは特定の領域を選択し、驚くほど正確に編集を適用できるため、変更が既存の画像とシームレスにブレンドされます。
ユーザーが写真の車の色を変更したいが、反射と影をそのままにしておきたいシナリオを想像してみてください。Step1X-Editは車を分離し、色を変更し、元の照明効果を保持して、リアルで視覚的に魅力的な結果を作成できます。モデルはまた、画像の全体的なスタイルと美観の一貫性を保証し、編集された領域が見当違いに見えないようにします。
アーキテクチャの解読:MLLM +拡散
マルチモーダル大規模言語モデル(MLLM)と拡散モデルを組み合わせたStep1X-Editの分離されたアーキテクチャは、画像編集技術の大きな進歩を示しています。この設計により、自然言語の理解と高忠実度の画像生成が、それぞれのタスクに最適化された個別のモジュールによって処理される分業が可能になります。
MLLMモジュールへの深い掘り下げ
MLLMモジュールはシステムの頭脳として機能し、自然言語の指示と画像コンテンツの両方を理解して解釈する役割を担っています。高度なマルチモーダル意味理解能力を備えており、複雑な編集要件を実行可能な潜在的な制御信号に分解できます。このプロセスには、指示の言語構造の分析、変更する主要な要素の識別、および画像のさまざまな部分間の関係の理解が含まれます。
MLLMモジュールは、洗練されたアルゴリズムを使用して、編集指示を拡散モジュールが理解できる表現にマッピングします。この表現は、指示の意味を保持し、結果として得られる編集がユーザーの意図と一致するように、必要な変更をエンコードします。たとえば、ユーザーが「背景に夕日を追加する」ように要求した場合、MLLMモジュールは背景領域を識別し、夕日の概念を認識し、指定された領域にリアルな夕日を作成するように拡散モジュールに指示する制御信号を生成します。
拡散モジュールの解明
拡散モジュールはアーティストとして機能し、MLLMモジュールによって生成された潜在的な制御信号を取得し、それらを使用して画像を高い忠実度で再構築または変更します。このモジュールは、拡散と呼ばれるプロセスを採用しています。これには、徐々に画像をノイズに追加し、次にこのプロセスを反転させて新しい画像を生成したり、既存の画像を修正したりすることを学習することが含まれます。拡散モジュールは、膨大な画像のデータセットでトレーニングされているため、リアルで視覚的に魅力的な結果を生成できます。
拡散モジュールは、変更された画像が元の画像の詳細、テクスチャ、および照明効果を維持し、変更を既存のコンテンツとシームレスにブレンドすることを保証します。また、編集のスタイルを画像の全体的な美観に合わせて調整し、一貫性のある調和のとれた結果を作成することもできます。たとえば、ユーザーが「画像を絵のように見せる」ように要求した場合、拡散モジュールは芸術的なフィルターとテクスチャを適用して、元の構成とコンテンツを保持しながら、画像を説得力のある絵画に変えることができます。
シナジー:分離の力
Step1X-Editの分離されたアーキテクチャは、従来の画像編集モデルの基本的な制限に対処しています。そこでは、「理解」と「生成」がしばしば絡み合っており、それぞれのタスクに最適化されていません。これらの機能を個別のモジュールに分離することにより、Step1X-Editは、複雑な編集指示を実行する際に、より高い精度と制御を実現します。MLLMモジュールはユーザーの意図を正確に解釈することに集中でき、拡散モジュールは指定された要件を満たす高品質の画像を生成することに集中できます。
MLLMモジュールと拡散モジュールの間のこの相乗効果により、Step1X-Editは幅広い編集タスクを驚くほどの精度と一貫性で処理できます。画像を微妙に調整する場合でも、複雑な変換を実行する場合でも、Step1X-Editは視覚的に魅力的で意味的に正確な結果を提供できます。分離されたアーキテクチャにより、モデルはよりモジュール式になり、更新が容易になり、開発者はそのパフォーマンスと機能を継続的に改善できます。
データセットエンジニアリング:パフォーマンスの基礎
Step1X-Editが処理できる多様で複雑な画像編集タスクをサポートするために、開発者は業界をリードする画像編集トレーニングデータセットを構築しました。このデータセットは、画像編集コマンドを理解して実行するようにモデルをトレーニングするために使用される、画像とテキストの指示のトリプレットの膨大なコレクションで構成されています。データセットには2000万のトリプレットが含まれており、そのうち100万を超える高品質のサンプルが、精度と一貫性を確保するために慎重にキュレーションされています。
データは、テキストの置換、アクションの生成、スタイルの転送、背景の調整など、頻繁に要求される機能を含む11のコアタスクタイプをカバーしています。これらのタスクタイプは、データセット全体に均等に分散されているため、モデルはバランスの取れたトレーニングを受け、さまざまな編集シナリオでうまく機能します。データセットで使用される指示言語は自然で現実的であり、画像編集を要求するときに人々がコミュニケーションする方法を反映しています。
データセットには、「画像をもっとヴィンテージに見せる」や「シーンにドラマの感覚を加える」など、複雑でニュアンスのある編集指示の例も含まれています。これらの指示では、モデルは抽象的な概念を理解し、それらを創造的で視覚的に魅力的な方法で画像に適用する必要があります。データセットの多様性と豊富さは、Step1X-Editのパフォーマンスにおいて重要な要素であり、幅広い編集タスクを驚くほどの精度と汎用性で処理できるようにします。
ベンチマークの卓越性:GEdit-Bench
Step1X-Editのパフォーマンスを厳密に評価するために、開発者はGEdit-Benchと呼ばれる自己開発ベンチマークを作成しました。このベンチマークは、さまざまな画像編集シナリオにおけるモデルの機能を包括的に評価するように設計されています。手動で合成されたタスクコレクションとは異なり、GEdit-Benchは実際のコミュニティ編集リクエストからタスクを抽出し、実際のアプリケーションにおけるモデルのパフォーマンスをより現実的かつ関連性の高い測定基準にします。
GEdit-Benchのタスクは、テキストの置換、オブジェクトの削除、スタイルの転送、背景の調整など、幅広い編集操作をカバーしています。ベンチマークには、「画像をもっとプロフェッショナルに見せる」または「シーンに暖かさを加える」など、モデルが複雑でニュアンスのある指示を理解して実行する必要があるタスクも含まれています。GEdit-Benchは、実際のシナリオにおけるモデルのパフォーマンスをより正確かつ信頼性の高い評価を提供します。
Step1X-Editは、GEdit-Benchで驚くべき結果を達成しており、意味の一貫性、画質、および全体的なスコアという3つのコア指標すべてで既存のオープンソースモデルを上回っています。モデルのパフォーマンスはGPT-4oのパフォーマンスに近く、言語理解と画像再構築の間で理想的なバランスを実現する能力を示しています。
結論として、Step1X-Editは、オープンソースの画像編集技術における大きな進歩を表しています。その分離されたアーキテクチャ、膨大なトレーニングデータセット、および厳格なベンチマークにより、幅広い編集タスクに対応できる強力で汎用性の高いツールとなっています。プロの写真家、ソーシャルメディア愛好家、または単に画像を強化したいと考えている人であろうと、Step1X-Editは、驚くほどの精度と容易さで目標を達成するのに役立ちます。