Step1X-Edit: Model Edycji Obrazów Open-Source

Step1X-Edit: Przełomowy Model Open-Source do Edycji Obrazów

Step1X-Edit, model open-source do edycji obrazów opracowany przez StepFun, został udostępniony, osiągając najlepsze wyniki (SOTA). Ten model, posiadający 19 miliardów parametrów (7B MLLM + 12B DiT), wyróżnia się w trzech kluczowych obszarach: precyzyjnej analizie semantycznej, spójnym zachowaniu tożsamości i wysokoprecyzyjnej kontroli na poziomie regionów. Obsługuje 11 typów często wykonywanych zadań edycji obrazów, w tym zamianę tekstu, transfer stylu, transformację materiałów i retusz portretów. Step1X-Edit został zaprojektowany, aby dokładnie rozumieć, modyfikować i skutecznie zachowywać szczegóły.

Kluczowe Możliwości Step1X-Edit

Step1X-Edit integruje multimodalne duże modele językowe (MLLM) i modele dyfuzyjne, co prowadzi do znacznej poprawy dokładności edycji i wierności obrazu w ramach open-source. W nowo opublikowanym benchmarku edycji obrazów GEdit-Bench, Step1X-Edit przewyższa istniejące modele open-source pod względem spójności semantycznej, jakości obrazu i ogólnego wyniku, rywalizując z wydajnością GPT-4o i Gemini 2.0 Flash.

Precyzyjna Analiza Semantyczna

Model obsługuje złożone kombinacje instrukcji opisanych w języku naturalnym. Instrukcje te nie wymagają szablonu, dzięki czemu model jest elastyczny i jest w stanie obsłużyć wieloetapowe, wielozadaniowe potrzeby edycji. Obsługuje również identyfikację, zamianę i rekonstrukcję tekstu na obrazach.

  • Obsługuje złożone opisy w języku naturalnym
  • Nie wymaga stałych szablonów
  • Zdolny do wieloetapowej, wielozadaniowej edycji
  • Identyfikuje, zamienia i rekonstruuje tekst na obrazach

Utrzymanie Spójności Tożsamości

Model konsekwentnie zachowuje rysy twarzy, pozy i cechy charakterystyczne tożsamości po edycji. Jest to odpowiednie do scenariuszy o wysokich wymaganiach dotyczących spójności, takich jak wirtualni ludzie, modele e-commerce i obrazy w mediach społecznościowych.

  • Utrzymuje rysy twarzy
  • Zachowuje pozy
  • Zachowuje cechy charakterystyczne tożsamości
  • Idealny dla wirtualnych ludzi, modeli e-commerce i mediów społecznościowych

Wysokoprecyzyjna Kontrola Regionalna

Model obsługuje ukierunkowaną edycję tekstu, materiałów, kolorów i innych elementów w określonych obszarach. Utrzymuje jednolity styl obrazu i oferuje bardziej precyzyjną kontrolę.

  • Ukierunkowana edycja w określonych obszarach
  • Kontroluje tekst, materiały i kolory
  • Utrzymuje jednolity styl obrazu
  • Oferuje bardziej precyzyjną kontrolę

Innowacje Architektoniczne

Step1X-Edit wykorzystuje rozproszoną architekturę MLLM (Multimodal LLM) + Diffusion, która oddzielnie obsługuje rozumienie języka naturalnego i generowanie obrazów o wysokiej wierności. W porównaniu z istniejącymi modelami edycji obrazów, ta architektura ma zalety w zakresie możliwości uogólniania instrukcji i sterowalności obrazami.

Moduł MLLM

Moduł MLLM odpowiada za przetwarzanie instrukcji w języku naturalnym i treści obrazu. Posiada multimodalne możliwości rozumienia semantycznego, które mogą analizować złożone wymagania edycji na utajone sygnały sterujące.

  • Przetwarza instrukcje w języku naturalnym
  • Obsługuje treść obrazu
  • Multimodalne rozumienie semantyczne
  • Analizuje złożone wymagania edycji

Moduł Dyfuzyjny

Moduł Dyfuzyjny służy jako generator obrazów (dekoder obrazów), realizując rekonstrukcję lub lokalną modyfikację obrazów na podstawie utajonych sygnałów generowanych przez MLLM. Zapewnia to zachowanie szczegółów obrazu i spójność stylu.

  • Generator obrazów (dekoder obrazów)
  • Rekonstruuje obrazy
  • Modyfikuje obrazy lokalnie
  • Zachowuje szczegóły obrazu i styl

Ta struktura rozwiązuje problem oddzielnego ‘rozumienia’ i ‘generowania’ w tradycyjnych modelach potokowych. Umożliwia to modelowi większą dokładność i kontrolę podczas wykonywania złożonych instrukcji edycji.

Dane Treningowe

Aby obsługiwać szeroki zakres złożonych zadań edycji obrazów, Step1X-Edit zbudował wiodący w branży zbiór danych treningowych do edycji obrazów. Generuje 20 milionów trojaczków instrukcji obraz-tekst i ostatecznie zachowuje ponad 1 milion wysokiej jakości próbek. Dane obejmują 11 podstawowych typów zadań, w tym często żądane funkcje, takie jak zamiana tekstu, generowanie akcji, transfer stylu i regulacja tła. Typy zadań są równomiernie rozłożone, a język instrukcji jest naturalny i realistyczny.

  • Wiodący w branży zbiór danych treningowych
  • 20 milionów trojaczków instrukcji obraz-tekst
  • 1 milion wysokiej jakości próbek
  • 11 podstawowych typów zadań
  • Równomiernie rozłożone typy zadań

Ocena Wydajności

Step1X-Edit konsekwentnie utrzymuje wysoką jakość wyjściową w 11 podzadań edycji obrazów. Jego możliwości są dobrze wyważone i pozostaje w czołówce prawie we wszystkich wymiarach zadań, demonstrując jego silną wszechstronność i równowagę.

Benchmark GEdit-Bench

Ocena modelu wykorzystuje opracowany samodzielnie benchmark GEdit-Bench. W przeciwieństwie do ręcznie syntetyzowanych kolekcji zadań, ten benchmark pochodzi z rzeczywistych próśb o edycję społeczności, które są bliższe potrzebom produktu.

  • Opracowany samodzielnie benchmark
  • Rzeczywiste prośby o edycję społeczności
  • Bliższe potrzebom produktu

Step1X-Edit znacznie wyprzedza istniejące modele open-source w trzech podstawowych wskaźnikach GEdit-Bench. Działa zbliżonym do GPT-4o, osiągając idealną równowagę między rozumieniem języka a rekonstrukcją obrazu.

Szczegółowe Badanie Możliwości

Step1X-Edit to nie tylko zmiana obrazów; chodzi o autentyczne zrozumienie intencji stojącej za edycjami, wykonywanie ich z precyzją i ochronę integralności oryginalnego obrazu. Podstawowe możliwości - precyzja semantyczna, spójność tożsamości i wysokoprecyzyjna kontrola regionu - zostały zaprojektowane w celu zaspokojenia zniuansowanych wymagań współczesnej edycji obrazów.

Dogłębna Analiza Precyzji Semantycznej

Analiza precyzji semantycznej Step1X-Edit wykracza poza proste rozpoznawanie słów kluczowych. Zagłębia się w kontekst opisów w języku naturalnym, rozumiejąc złożone kombinacje instrukcji. W przeciwieństwie do systemów, które polegają na sztywnych szablonach, Step1X-Edit może interpretować język w dowolnej formie, co czyni go bardzo adaptowalnym do różnych scenariuszy edycji. Bezproblemowo obsługuje wieloetapową i wielozadaniową edycję, rozumiejąc relacje między kolejnymi instrukcjami, aby uzyskać spójne wyniki.

Rozważmy następujący przykład: użytkownik chce zmienić tekst na znaku na obrazie, a następnie zmienić kolor znaku, aby pasował do innego motywu. Step1X-Edit nie tylko zastępuje tekst i zmienia kolor; rozumie, że znak jest pojedynczym obiektem i zapewnia, że zmiany tekstu i koloru są spójne ze sobą i z całym obrazem. Ponadto model może identyfikować i rekonstruować tekst na obrazach, nawet jeśli jest częściowo zasłonięty lub zniekształcony. Ta funkcja jest szczególnie przydatna do edycji zeskanowanych dokumentów lub obrazów z nałożonym tekstem.

Wyjaśnienie Utrzymania Spójności Tożsamości

Utrzymanie spójności tożsamości ma kluczowe znaczenie w scenariuszach, w których osoby na obrazach muszą pozostać rozpoznawalne pomimo zmian. Jest to szczególnie ważne w aplikacjach wirtualnych ludzi, modelowaniu e-commerce i tworzeniu treści w mediach społecznościowych. Step1X-Edit zapewnia, że rysy twarzy, pozy i unikalne cechy charakterystyczne tożsamości są zachowywane przez cały proces edycji.

Na przykład, jeśli użytkownik chce zmienić strój wirtualnego modelu na obrazie, Step1X-Edit zachowuje rysy twarzy, fryzurę i proporcje ciała modelu, zapewniając, że edytowany obraz nadal dokładnie reprezentuje oryginalny model. Podobnie, w e-commerce, gdzie modele prezentują produkty, wygląd modelu musi pozostać spójny na różnych obrazach, aby uniknąć wprowadzania klientów w błąd.

Ulepszona Wysokoprecyzyjna Kontrola Regionalna

Wysokoprecyzyjna kontrola regionalna umożliwia użytkownikom dokonywanie ukierunkowanych zmian w określonych obszarach obrazu bez wpływu na resztę sceny. Ta funkcja jest niezbędna do zadań, które wymagają precyzyjnych regulacji, takich jak zmiana koloru ubrania, zmiana tekstury obiektu lub dodawanie określonych elementów do określonego regionu. Step1X-Edit pozwala użytkownikom wybierać określone regiony i stosować edycje z niezwykłą precyzją, zapewniając, że zmiany płynnie wtapiają się w istniejący obraz.

Wyobraź sobie scenariusz, w którym użytkownik chce zmienić kolor samochodu na zdjęciu, ale zachować nienaruszone odbicia i cienie. Step1X-Edit może odizolować samochód, zmienić jego kolor i zachować oryginalne efekty świetlne, tworząc realistyczny i atrakcyjny wizualnie wynik. Model zapewnia również, że ogólny styl i estetyka obrazu pozostają spójne, zapobiegając wyglądaniu edytowanych obszarów nie na miejscu.

Dekodowanie Architektury: MLLM + Dyfuzja

Rozproszona architektura Step1X-Edit, łącząca multimodalne duże modele językowe (MLLM) i modele dyfuzyjne, stanowi znaczący postęp w technologii edycji obrazów. Ta konstrukcja umożliwia podział pracy, w którym rozumienie języka naturalnego i generowanie obrazów o wysokiej wierności są obsługiwane przez oddzielne moduły zoptymalizowane pod kątem ich odpowiednich zadań.

Głębokie Zanurzenie w Moduł MLLM

Moduł MLLM służy jako mózg systemu, odpowiadając za zrozumienie i interpretację zarówno instrukcji w języku naturalnym, jak i treści obrazu. Posiada zaawansowane multimodalne możliwości rozumienia semantycznego, umożliwiając mu analizę złożonych wymagań edycji na możliwe do wykonania utajone sygnały sterujące. Proces ten obejmuje analizę struktury językowej instrukcji, identyfikację kluczowych elementów do zmodyfikowania i zrozumienie relacji między różnymi częściami obrazu.

Moduł MLLM wykorzystuje zaawansowane algorytmy do mapowania instrukcji edycji na reprezentację zrozumiałą dla modułu dyfuzyjnego. Reprezentacja ta koduje pożądane zmiany w sposób, który zachowuje semantyczne znaczenie instrukcji i zapewnia, że wynikające z tego zmiany są zgodne z intencjami użytkownika. Na przykład, jeśli użytkownik poprosi o ‘dodanie zachodu słońca do tła’, moduł MLLM identyfikuje region tła, rozpoznaje koncepcję zachodu słońca i generuje sygnał sterujący, który instruuje moduł dyfuzyjny do utworzenia realistycznego zachodu słońca w określonym obszarze.

Objaśnianie Modułu Dyfuzyjnego

Moduł dyfuzyjny działa jak artysta, pobierając utajone sygnały sterujące generowane przez moduł MLLM i wykorzystując je do rekonstrukcji lub modyfikacji obrazu z wysoką wiernością. Moduł ten wykorzystuje proces zwany dyfuzją, który polega na stopniowym dodawaniu szumu do obrazu, a następnie uczeniu się odwracania tego procesu w celu generowania nowych obrazów lub modyfikowania istniejących. Moduł dyfuzyjny jest szkolony na ogromnym zbiorze danych obrazów, co pozwala mu generować realistyczne i atrakcyjne wizualnie wyniki.

Moduł dyfuzyjny zapewnia, że zmodyfikowany obraz zachowuje szczegóły, tekstury i efekty świetlne oryginalnego obrazu, płynnie mieszając zmiany z istniejącą treścią. Może również dostosować styl edycji, aby pasował do ogólnej estetyki obrazu, tworząc spójny i harmonijny wynik. Na przykład, jeśli użytkownik chce ‘sprawić, aby obraz wyglądał jak obraz’, moduł dyfuzyjny może zastosować artystyczne filtry i tekstury, aby przekształcić obraz w przekonujący obraz, zachowując jednocześnie oryginalną kompozycję i treść.

Synergia: Moc Rozdzielenia

Rozproszona architektura Step1X-Edit rozwiązuje fundamentalne ograniczenie tradycyjnych modeli edycji obrazów, w których ‘rozumienie’ i ‘generowanie’ są często ze sobą powiązane i nie są zoptymalizowane pod kątem ich odpowiednich zadań. Oddzielając te funkcje na odrębne moduły, Step1X-Edit osiąga większą dokładność i kontrolę podczas wykonywania złożonych instrukcji edycji. Moduł MLLM może skupić się na dokładnej interpretacji intencji użytkownika, podczas gdy moduł dyfuzyjny może skoncentrować się na generowaniu wysokiej jakości obrazów, które spełniają określone wymagania.

Ta synergia między modułami MLLM i dyfuzyjnym umożliwia Step1X-Edit obsługę szerokiego zakresu zadań edycji z niezwykłą precyzją i spójnością. Niezależnie od tego, czy chodzi o dokonywanie subtelnych regulacji obrazu, czy wykonywanie złożonych transformacji, Step1X-Edit może dostarczyć wyniki, które są zarówno atrakcyjne wizualnie, jak i semantycznie dokładne. Rozproszona architektura sprawia również, że model jest bardziej modułowy i łatwiejszy do aktualizacji, co pozwala programistom na ciągłe ulepszanie jego wydajności i możliwości.

Inżynieria Zestawu Danych: Fundament Wydajności

Aby wspierać różnorodne i złożone zadania edycji obrazów, które Step1X-Edit może obsługiwać, programiści zbudowali wiodący w branży zestaw danych treningowych do edycji obrazów. Zestaw danych składa się z ogromnej kolekcji trojaczków instrukcji obraz-tekst, które są używane do uczenia modelu rozumienia i wykonywania szerokiego zakresu poleceń edycji. Zestaw danych zawiera 20 milionów trojaczków, z których ponad 1 milion to próbki wysokiej jakości, które zostały starannie dobrane, aby zapewnić dokładność i spójność.

Dane obejmują 11 podstawowych typów zadań, obejmujących często żądane funkcje, takie jak zamiana tekstu, generowanie akcji, transfer stylu i regulacja tła. Te typy zadań są równomiernie rozłożone w całym zestawie danych, zapewniając, że model otrzymuje zrównoważone szkolenie i może dobrze działać w różnych scenariuszach edycji. Język instrukcji używany w zestawie danych jest naturalny i realistyczny, odzwierciedlając sposób, w jaki ludzie komunikują się, prosząc o edycje obrazów.

Zestaw danych zawiera również przykłady złożonych i zniuansowanych instrukcji edycji, takich jak ‘spraw, aby obraz wyglądał bardziej vintage’ lub ‘dodaj poczucie dramatyzmu do sceny’. Instrukcje te wymagają od modelu zrozumienia abstrakcyjnych koncepcji i zastosowania ich do obrazu w kreatywny i atrakcyjny wizualnie sposób. Różnorodność i bogactwo zestawu danych są kluczowymi czynnikami wpływającymi na wydajność Step1X-Edit, umożliwiając mu obsługę szerokiego zakresu zadań edycji z niezwykłą dokładnością i wszechstronnością.

Benchmarkowanie Doskonałości: GEdit-Bench

Aby rygorystycznie ocenić wydajność Step1X-Edit, programiści stworzyli samodzielnie opracowany benchmark o nazwie GEdit-Bench. Benchmark ten ma na celu zapewnienie kompleksowej oceny możliwości modelu w różnych scenariuszach edycji obrazów. W przeciwieństwie do ręcznie syntetyzowanych kolekcji zadań, GEdit-Bench czerpie swoje zadania z rzeczywistych próśb o edycję społeczności, co czyni go bardziej realistyczną i istotną miarą wydajności modelu w rzeczywistych zastosowaniach.

Zadania w GEdit-Bench obejmują szeroki zakres operacji edycji, w tym zamianę tekstu, usuwanie obiektów, transfer stylu i regulację tła. Benchmark zawiera również zadania, które wymagają od modelu zrozumienia i wykonania złożonych i zniuansowanych instrukcji, takich jak ‘spraw, aby obraz wyglądał bardziej profesjonalnie’ lub ‘dodaj poczucie ciepła do sceny’. GEdit-Bench zapewnia dokładniejszą i bardziej niezawodną ocenę wydajności modelu w rzeczywistych scenariuszach.

Step1X-Edit osiągnął niezwykłe wyniki na GEdit-Bench, przewyższając istniejące modele open-source we wszystkich trzech podstawowych wskaźnikach: spójność semantyczna, jakość obrazu i ogólny wynik. Wydajność modelu jest zbliżona do GPT-4o, co demonstruje jego zdolność do osiągnięcia idealnej równowagi między rozumieniem języka a rekonstrukcją obrazu.

Podsumowując, Step1X-Edit stanowi znaczący postęp w technologii edycji obrazów open-source. Jego rozproszona architektura, ogromny zestaw danych treningowych i rygorystyczne benchmarkowanie sprawiają, że jest to potężne i wszechstronne narzędzie do szerokiego zakresu zadań edycji. Niezależnie od tego, czy jesteś profesjonalnym fotografem, entuzjastą mediów społecznościowych, czy po prostu kimś, kto chce ulepszyć swoje obrazy, Step1X-Edit może pomóc Ci osiągnąć Twoje cele z niezwykłą dokładnością i łatwością.