Step1X-Edit: Bahnbrechendes Open-Source Modell

Step1X-Edit, ein von StepFun entwickeltes Open-Source-Bildbearbeitungsmodell, wurde veröffentlicht und erzielt modernste (SOTA) Leistung. Dieses Modell, das mit 19 Milliarden Parametern (7B MLLM + 12B DiT) aufwartet, zeichnet sich in drei Schlüsselbereichen aus: präzise semantische Analyse, konsistente Identitätswahrung und hochpräzise Steuerung auf Regionalebene. Es unterstützt 11 Arten von häufigen Bildbearbeitungsaufgaben, darunter Textersetzung, Stilübertragung, Materialtransformation und Porträtretusche. Step1X-Edit wurde entwickelt, um Details effektiv zu verstehen, präzise zu modifizieren und zu erhalten.

Kernfunktionen von Step1X-Edit

Step1X-Edit integriert multimodale Large Language Models (MLLM) und Diffusionsmodelle, was zu erheblichen Verbesserungen der Bearbeitungsgenauigkeit und Bildtreue innerhalb des Open-Source-Frameworks führt. Im neu veröffentlichten GEdit-Bench-Bildbearbeitungsbenchmark übertrifft Step1X-Edit bestehende Open-Source-Modelle in Bezug auf semantische Konsistenz, Bildqualität und Gesamtpunktzahl und erreicht die Leistung von GPT-4o und Gemini 2.0 Flash.

Semantische Präzisionsanalyse

Das Modell unterstützt komplexe Kombinationen von Anweisungen, die in natürlicher Sprache beschrieben werden. Diese Anweisungen erfordern keine Vorlage, was das Modell flexibel macht und in die Lage versetzt, mehrstufige Bearbeitungsanforderungen mit mehreren Aufgaben zu bewältigen. Es unterstützt auch die Identifizierung, den Austausch und die Rekonstruktion von Text in Bildern.

  • Unterstützt komplexe Beschreibungen in natürlicher Sprache
  • Keine festen Vorlagen erforderlich
  • Fähig zur mehrstufigen Bearbeitung mit mehreren Aufgaben
  • Identifiziert, ersetzt und rekonstruiert Text in Bildern

Aufrechterhaltung der Identitätskonsistenz

Das Modell behält nach der Bearbeitung stets die Gesichtszüge, Posen und Identitätsmerkmale bei. Dies eignet sich für Szenarien mit hohen Konsistenzerfordernissen, wie z. B. virtuelle Menschen, E-Commerce-Modelle und Social-Media-Bilder.

  • Bewahrt die Gesichtszüge
  • Bewahrt Posen
  • Behält die Identitätsmerkmale bei
  • Ideal für virtuelle Menschen, E-Commerce-Modelle und soziale Medien

Hochpräzise regionale Steuerung

Das Modell unterstützt die gezielte Bearbeitung von Text, Materialien, Farben und anderen Elementen in bestimmten Bereichen. Es behält einen einheitlichen Bildstil bei und bietet eine präzisere Steuerung.

  • Gezielte Bearbeitung in bestimmten Bereichen
  • Steuert Text, Materialien und Farben
  • Behält einen einheitlichen Bildstil bei
  • Bietet eine präzisere Steuerung

Architektonische Innovationen

Step1X-Edit verwendet eine entkoppelte Architektur aus MLLM (Multimodal LLM) + Diffusion, die die Verarbeitung von natürlicher Sprache und die hochauflösende Bildgenerierung separat verarbeitet. Im Vergleich zu bestehenden Bildbearbeitungsmodellen bietet diese Architektur Vorteile in Bezug auf die Verallgemeinerungsfähigkeit von Anweisungen und die Bildsteuerbarkeit.

MLLM-Modul

Das MLLM-Modul ist für die Verarbeitung von Anweisungen in natürlicher Sprache und Bildinhalten verantwortlich. Es verfügt über multimodale semantische Verständnismerkmale, die komplexe Bearbeitungsanforderungen in latente Steuersignale umwandeln können.

  • Verarbeitet Anweisungen in natürlicher Sprache
  • Verarbeitet Bildinhalte
  • Multimodales semantisches Verständnis
  • Analysiert komplexe Bearbeitungsanforderungen

Diffusionsmodul

Das Diffusionsmodul dient als Bildgenerator (Image Decoder) und vervollständigt die Rekonstruktion oder lokale Modifizierung von Bildern auf der Grundlage der vom MLLM generierten latenten Signale. Dies gewährleistet die Erhaltung von Bilddetails und die Konsistenz des Stils.

  • Bildgenerator (Image Decoder)
  • Rekonstruiert Bilder
  • Modifiziert Bilder lokal
  • Bewahrt Bilddetails und -stil

Diese Struktur behebt das Problem der getrennten ‘Verständnis’ und ‘Generierung’ in traditionellen Pipeline-Modellen. Dies ermöglicht dem Modell eine höhere Genauigkeit und Kontrolle bei der Ausführung komplexer Bearbeitungsanweisungen.

Trainingsdaten

Um ein breites Spektrum komplexer Bildbearbeitungsaufgaben zu unterstützen, hat Step1X-Edit einen branchenführenden Trainingsdatensatz für die Bildbearbeitung erstellt. Es generiert 20 Millionen Bild-Text-Anweisungstriplets und behält letztendlich mehr als 1 Million hochwertige Stichproben. Die Daten decken 11 Kernaufgabentypen ab, darunter häufig angeforderte Funktionen wie Textersetzung, Aktionsgenerierung, Stilübertragung und Hintergrundanpassung. Die Aufgabentypen sind gleichmäßig verteilt, und die Anweisungssprache ist natürlich und realistisch.

  • Branchenführender Trainingsdatensatz
  • 20 Millionen Bild-Text-Anweisungstriplets
  • 1 Million hochwertige Stichproben
  • 11 Kernaufgabentypen
  • Gleichmäßig verteilte Aufgabentypen

Leistungsbewertung

Step1X-Edit behält in den 11 Teilaufgaben der Bildbearbeitung stets eine hohe Ausgabequalität bei. Seine Fähigkeiten sind gut ausgewogen, und es bleibt in fast allen Aufgabendimensionen an der Spitze, was seine starke Vielseitigkeit und Ausgewogenheit demonstriert.

GEdit-Bench Benchmark

Die Modellbewertung verwendet einen selbst entwickelten GEdit-Bench-Benchmark. Im Gegensatz zu manuell synthetisierten Aufgabensammlungen stammen diese Benchmarks aus echten Community-Bearbeitungsanfragen, die näher an den Produktanforderungen liegen.

  • Selbst entwickelter Benchmark
  • Echte Community-Bearbeitungsanfragen
  • Näher an den Produktanforderungen

Step1X-Edit führt bestehende Open-Source-Modelle in den drei Kernindikatoren von GEdit-Bench deutlich an. Es schneidet fast so gut ab wie GPT-4o und erzielt ein ideales Gleichgewicht zwischen Sprachverständnis und Bildrekonstruktion.

Detaillierte Untersuchung der Fähigkeiten

Bei Step1X-Edit geht es nicht nur darum, Bilder zu verändern, sondern darum, die Absicht hinter den Bearbeitungen wirklich zu verstehen, sie präzise auszuführen und die Integrität des Originalbilds zu schützen. Die Kernfunktionen - semantische Präzision, Identitätskonsistenz und hochpräzise regionale Steuerung - sind darauf ausgelegt, die differenzierten Anforderungen der modernen Bildbearbeitung zu erfüllen.

Semantische Präzisionsanalyse im Detail

Die semantische Präzisionsanalyse von Step1X-Edit geht über die einfache Keyword-Erkennung hinaus. Sie befasst sich mit dem Kontext von Beschreibungen in natürlicher Sprache und versteht komplexe Kombinationen von Anweisungen. Im Gegensatz zu Systemen, die auf starre Vorlagen angewiesen sind, kann Step1X-Edit Freiformsprache interpretieren, wodurch es sich in hohem Maße an verschiedene Bearbeitungsszenarien anpassen lässt. Es verarbeitet mehrstufige und Multi-Task-Bearbeitungen nahtlos und versteht die Beziehungen zwischen aufeinanderfolgenden Anweisungen, um kohärente Ergebnisse zu erzielen.

Betrachten Sie dieses Beispiel: Ein Benutzer möchte den Text auf einem Schild in einem Bild ändern und dann die Farbe des Schilds an ein anderes Thema anpassen. Step1X-Edit ersetzt nicht nur den Text und ändert die Farbe, sondern versteht auch, dass das Schild ein einzelnes Objekt ist, und stellt sicher, dass die Text- und Farbänderungen miteinander und dem Gesamtbild übereinstimmen. Darüber hinaus kann das Modell Text in Bildern identifizieren und rekonstruieren, selbst wenn er teilweise verdeckt oder verzerrt ist. Diese Funktion ist besonders nützlich für die Bearbeitung gescannter Dokumente oder Bilder mit überlagertem Text.

Erläuterung der Aufrechterhaltung der Identitätskonsistenz

Die Aufrechterhaltung der Identitätskonsistenz ist in Szenarien von entscheidender Bedeutung, in denen die Subjekte in Bildern trotz Änderungen erkennbar bleiben müssen. Dies ist besonders wichtig in virtuellen menschlichen Anwendungen, im E-Commerce-Modellbau und bei der Erstellung von Inhalten für soziale Medien. Step1X-Edit stellt sicher, dass Gesichtszüge, Posen und eindeutige Identitätsmerkmale während des gesamten Bearbeitungsprozesses erhalten bleiben.

Wenn ein Benutzer beispielsweise das Outfit eines virtuellen Modells in einem Bild ändern möchte, behält Step1X-Edit die Gesichtszüge, die Frisur und die Körperproportionen des Modells bei, um sicherzustellen, dass das bearbeitete Bild das Originalmodell weiterhin korrekt darstellt. In ähnlicher Weise muss im E-Commerce, wo Modelle Produkte präsentieren, das Erscheinungsbild des Modells über verschiedene Bilder hinweg konsistent bleiben, um zu vermeiden, dass Kunden verwirrt werden.

Hochpräzise regionale Steuerung erweitert

Die hochpräzise regionale Steuerung ermöglicht es Benutzern, gezielte Änderungen an bestimmten Bereichen eines Bildes vorzunehmen, ohne den Rest der Szene zu beeinträchtigen. Diese Funktion ist unerlässlich für Aufgaben, die eine feinkörnige Anpassung erfordern, z. B. das Ändern der Farbe eines Kleidungsstücks, das Ändern der Textur eines Objekts oder das Hinzufügen bestimmter Elemente zu einem bestimmten Bereich. Mit Step1X-Edit können Benutzer bestimmte Bereiche auswählen und Bearbeitungen mit bemerkenswerter Präzision vornehmen, um sicherzustellen, dass sich die Änderungen nahtlos in das vorhandene Bild einfügen.

Stellen Sie sich ein Szenario vor, in dem ein Benutzer die Farbe eines Autos auf einem Foto ändern, aber die Reflexionen und Schatten intakt lassen möchte. Step1X-Edit kann das Auto isolieren, seine Farbe ändern und die ursprünglichen Lichteffekte beibehalten, wodurch ein realistisches und optisch ansprechendes Ergebnis entsteht. Das Modell stellt außerdem sicher, dass der Gesamtstil und die Ästhetik des Bildes konsistent bleiben, um zu verhindern, dass die bearbeiteten Bereiche fehl am Platz wirken.

Dekodierung der Architektur: MLLM + Diffusion

Die entkoppelte Architektur von Step1X-Edit, die Multimodale Large Language Models (MLLM) und Diffusionsmodelle kombiniert, stellt einen bedeutenden Fortschritt in der Bildbearbeitungstechnologie dar. Dieses Design ermöglicht eine Aufteilung der Arbeit, bei der das Verständnis natürlicher Sprache und die hochauflösende Bildgenerierung von separaten Modulen verarbeitet werden, die für ihre jeweiligen Aufgaben optimiert sind.

Tiefer Einblick in das MLLM-Modul

Das MLLM-Modul dient als Gehirn des Systems und ist für das Verstehen und Interpretieren von Anweisungen in natürlicher Sprache sowie von Bildinhalten verantwortlich. Es verfügt über fortschrittliche multimodale semantische Verständnismerkmale, die es ihm ermöglichen, komplexe Bearbeitungsanforderungen in umsetzbare latente Steuersignale zu zerlegen. Dieser Prozess umfasst die Analyse der sprachlichen Struktur der Anweisungen, die Identifizierung der wichtigsten zu ändernden Elemente und das Verstehen der Beziehungen zwischen verschiedenen Teilen des Bildes.

Das MLLM-Modul verwendet ausgefeilte Algorithmen, um die Bearbeitungsanweisungen einer Darstellung zuzuordnen, die das Diffusionsmodul verstehen kann. Diese Darstellung codiert die gewünschten Änderungen so, dass die semantische Bedeutung der Anweisungen erhalten bleibt und sichergestellt wird, dass die resultierenden Bearbeitungen mit der Absicht des Benutzers übereinstimmen. Wenn ein Benutzer beispielsweise darum bittet, ‘dem Hintergrund einen Sonnenuntergang hinzuzufügen’, identifiziert das MLLM-Modul den Hintergrundbereich, erkennt das Konzept eines Sonnenuntergangs und generiert ein Steuersignal, das das Diffusionsmodul anweist, einen realistischen Sonnenuntergang in dem angegebenen Bereich zu erstellen.

Erläuterung des Diffusionsmoduls

Das Diffusionsmodul fungiert als Künstler, der die vom MLLM-Modul generierten latenten Steuersignale verwendet und sie verwendet, um das Bild mit hoher Wiedergabetreue zu rekonstruieren oder zu modifizieren. Dieses Modul verwendet einen Prozess, der als Diffusion bezeichnet wird, bei dem dem Bild nach und nach Rauschen hinzugefügt und dann gelernt wird, diesen Prozess umzukehren, um neue Bilder zu erzeugen oder vorhandene zu modifizieren. Das Diffusionsmodul wird mit einem riesigen Datensatz von Bildern trainiert, sodass es realistische und optisch ansprechende Ergebnisse erzeugen kann.

Das Diffusionsmodul stellt sicher, dass das geänderte Bild die Details, Texturen und Lichteffekte des Originalbilds beibehält und die Änderungen nahtlos in den vorhandenen Inhalt einfügt. Es kann auch den Stil der Bearbeitungen an die Gesamtästhetik des Bildes anpassen und so ein kohärentes und harmonisches Ergebnis erzielen. Wenn ein Benutzer beispielsweise ‘das Bild wie ein Gemälde aussehen lassen’ möchte, kann das Diffusionsmodul künstlerische Filter und Texturen anwenden, um das Bild in ein überzeugendes Gemälde zu verwandeln, während die ursprüngliche Komposition und der ursprüngliche Inhalt erhalten bleiben.

Synergie: Die Kraft der Entkopplung

Die entkoppelte Architektur von Step1X-Edit behebt eine grundlegende Einschränkung traditioneller Bildbearbeitungsmodelle, bei denen ‘Verständnis’ und ‘Generierung’ oft miteinander verflochten und nicht für ihre jeweiligen Aufgaben optimiert sind. Durch die Trennung dieser Funktionen in separate Module erzielt Step1X-Edit eine höhere Genauigkeit und Kontrolle bei der Ausführung komplexer Bearbeitungsanweisungen. Das MLLM-Modul kann sich auf die genaue Interpretation der Absicht des Benutzers konzentrieren, während sich das Diffusionsmodul auf die Generierung hochwertiger Bilder konzentrieren kann, die die angegebenen Anforderungen erfüllen.

Diese Synergie zwischen den MLLM- und Diffusionsmodulen ermöglicht es Step1X-Edit, eine breite Palette von Bearbeitungsaufgaben mit bemerkenswerter Präzision und Konsistenz zu bewältigen. Egal, ob es sich um subtile Anpassungen an einem Bild oder um komplexe Transformationen handelt, Step1X-Edit kann Ergebnisse liefern, die sowohl optisch ansprechend als auch semantisch korrekt sind. Die entkoppelte Architektur macht das Modell auch modularer und einfacher zu aktualisieren, sodass Entwickler seine Leistung und Fähigkeiten kontinuierlich verbessern können.

Datensatz-Engineering: Die Grundlage für Leistung

Um die vielfältigen und komplexen Bildbearbeitungsaufgaben zu unterstützen, die Step1X-Edit bewältigen kann, erstellten die Entwickler einen branchenführenden Trainingsdatensatz für die Bildbearbeitung. Dieser Datensatz umfasst eine riesige Sammlung von Bild-Text-Anweisungstriplets, die verwendet werden, um das Modell darin zu schulen, eine breite Palette vonBearbeitungsbefehlen zu verstehen und auszuführen. Der Datensatz umfasst 20 Millionen Triplets, von denen mehr als 1 Million hochwertige Stichproben sind, die sorgfältig kuratiert wurden, um Genauigkeit und Konsistenz zu gewährleisten.

Die Daten decken 11 Kernaufgabentypen ab, darunter häufig angeforderte Funktionen wie Textersetzung, Aktionsgenerierung, Stilübertragung und Hintergrundanpassung. Diese Aufgabentypen sind gleichmäßig über den gesamten Datensatz verteilt, um sicherzustellen, dass das Modell ein ausgewogenes Training erhält und in verschiedenen Bearbeitungsszenarien gute Leistungen erbringen kann. Die im Datensatz verwendete Anweisungssprache ist natürlich und realistisch und spiegelt die Art und Weise wider, wie Menschen kommunizieren, wenn sie Bildbearbeitungen anfordern.

Der Datensatz enthält auch Beispiele für komplexe und differenzierte Bearbeitungsanweisungen, wie z. B. ‘das Bild älter aussehen lassen’ oder ‘der Szene ein Gefühl von Dramatik verleihen’. Diese Anweisungen erfordern, dass das Modell abstrakte Konzepte versteht und sie auf kreative und optisch ansprechende Weise auf das Bild anwendet. Die Vielfalt und der Reichtum des Datensatzes sind entscheidende Faktoren für die Leistung von Step1X-Edit, die es ihm ermöglichen, eine breite Palette von Bearbeitungsaufgaben mit bemerkenswerter Genauigkeit und Vielseitigkeit zu bewältigen.

Benchmarking-Exzellenz: GEdit-Bench

Um die Leistung von Step1X-Edit rigoros zu bewerten, erstellten die Entwickler einen selbst entwickelten Benchmark namens GEdit-Bench. Dieser Benchmark wurde entwickelt, um eine umfassende Bewertung der Fähigkeiten des Modells in verschiedenen Bildbearbeitungsszenarien zu ermöglichen. Im Gegensatz zu manuell synthetisierten Aufgabensammlungen bezieht GEdit-Bench seine Aufgaben aus echten Community-Bearbeitungsanfragen, was es zu einer realistischeren und relevanteren Messung der Leistung des Modells in realen Anwendungen macht.

Die Aufgaben in GEdit-Bench decken eine breite Palette von Bearbeitungsvorgängen ab, darunter Textersetzung, Objektentfernung, Stilübertragung und Hintergrundanpassung. Der Benchmark umfasst auch Aufgaben, die erfordern, dass das Modell komplexe und differenzierte Anweisungen versteht und ausführt, wie z. B. ‘das Bild professioneller aussehen lassen’ oder ‘der Szene ein Gefühl von Wärme verleihen’. GEdit-Bench bietet eine genauere und zuverlässigere Bewertung der Leistung des Modells in realen Szenarien.

Step1X-Edit hat bei GEdit-Bench bemerkenswerte Ergebnisse erzielt und bestehende Open-Source-Modelle in allen drei Kernindikatoren übertroffen: semantische Konsistenz, Bildqualität und Gesamtpunktzahl. Die Leistung des Modells liegt nahe der von GPT-4o und demonstriert seine Fähigkeit, ein ideales Gleichgewicht zwischen Sprachverständnis und Bildrekonstruktion zu erreichen.

Zusammenfassend lässt sich sagen, dass Step1X-Edit einen bedeutenden Fortschritt in der Open-Source-Bildbearbeitungstechnologie darstellt. Seine entkoppelte Architektur, der riesige Trainingsdatensatz und das rigorose Benchmarking machen es zu einem leistungsstarken und vielseitigen Werkzeug für eine breite Palette von Bearbeitungsaufgaben. Egal, ob Sie ein professioneller Fotograf, ein Social-Media-Enthusiast oder einfach nur jemand sind, der seine Bilder verbessern möchte, Step1X-Edit kann Ihnen helfen, Ihre Ziele mit bemerkenswerter Genauigkeit und Leichtigkeit zu erreichen.