Step1X-Edit: Açık Kaynaklı Görüntü Düzenleme Modeli

StepFun tarafından geliştirilen açık kaynaklı görüntü düzenleme modeli Step1X-Edit yayınlandı ve son teknoloji (SOTA) performansına ulaştı. 19 milyar parametreye (7B MLLM + 12B DiT) sahip olan bu model, üç temel alanda öne çıkıyor: hassas semantik analiz, tutarlı kimlik koruma ve yüksek hassasiyetli bölgesel kontrol. Metin değiştirme, stil transferi, malzeme dönüştürme ve portre rötuşlama dahil olmak üzere 11 tür sık kullanılan görüntü düzenleme görevini destekler. Step1X-Edit, ayrıntıları etkili bir şekilde anlamak, doğru bir şekilde değiştirmek ve korumak için tasarlanmıştır.

Step1X-Edit’in Temel Yetenekleri

Step1X-Edit, Çok Modlu Büyük Dil Modellerini (MLLM) ve Difüzyon modellerini entegre ederek açık kaynak çerçevesinde düzenleme doğruluğunda ve görüntü doğruluğunda önemli iyileştirmelere yol açar. Yeni yayınlanan GEdit-Bench görüntü düzenleme kıyaslama testinde Step1X-Edit, semantik tutarlılık, görüntü kalitesi ve genel puan açısından mevcut açık kaynak modellerini geride bırakarak GPT-4o ve Gemini 2.0 Flash’ın performansına rakip oluyor.

Semantik Hassasiyet Analizi

Model, doğal dilde açıklanan karmaşık talimat kombinasyonlarını destekler. Bu talimatlar bir şablon gerektirmez, bu da modeli esnek kılar ve çok turlu, çok görevli düzenleme ihtiyaçlarını karşılayabilir hale getirir. Ayrıca görüntülerdeki metnin tanımlanmasını, değiştirilmesini ve yeniden yapılandırılmasını da destekler.

  • Karmaşık doğal dil açıklamalarını destekler
  • Sabit şablonlar gerekmez
  • Çok turlu, çok görevli düzenleme yeteneğine sahiptir
  • Görüntülerdeki metni tanımlar, değiştirir ve yeniden yapılandırır

Kimlik Tutarlılığı Bakımı

Model, düzenlemeden sonra yüz özelliklerini, pozları ve kimlik özelliklerini tutarlı bir şekilde korur. Bu, sanal insanlar, e-ticaret modelleri ve sosyal medya görüntüleri gibi yüksek tutarlılık gereksinimleri olan senaryolar için uygundur.

  • Yüz özelliklerini korur
  • Pozları korur
  • Kimlik özelliklerini korur
  • Sanal insanlar, e-ticaret modelleri ve sosyal medya için idealdir

Yüksek Hassasiyetli Bölgesel Kontrol

Model, belirli alanlardaki metin, malzeme, renk ve diğer öğelerin hedeflenen düzenlenmesini destekler. Birleşik bir görüntü stili sağlar ve daha hassas kontrol sunar.

  • Belirli alanlarda hedeflenen düzenleme
  • Metni, malzemeleri ve renkleri kontrol eder
  • Birleşik bir görüntü stili sağlar
  • Daha hassas kontrol sunar

Mimari Yenilikler

Step1X-Edit, doğal dil anlayışını ve yüksek kaliteli görüntü oluşturmayı ayrı ayrı ele alan, MLLM (Çok Modlu LLM) + Difüzyonun ayrıştırılmış bir mimarisini kullanır. Mevcut görüntü düzenleme modelleriyle karşılaştırıldığında, bu mimari talimat genelleme yeteneği ve görüntü kontrol edilebilirliği açısından avantajlara sahiptir.

MLLM Modülü

MLLM modülü, doğal dil talimatlarını ve görüntü içeriğini işlemeden sorumludur. Karmaşık düzenleme gereksinimlerini örtük kontrol sinyallerine ayrıştırabilen çok modlu semantik anlama yeteneklerine sahiptir.

  • Doğal dil talimatlarını işler
  • Görüntü içeriğini işler
  • Çok modlu semantik anlama
  • Karmaşık düzenleme gereksinimlerini ayrıştırır

Difüzyon Modülü

Difüzyon modülü, MLLM tarafından oluşturulan örtük sinyallere dayalı olarak görüntülerin yeniden yapılandırılmasını veya yerel olarak değiştirilmesini tamamlayan bir görüntü oluşturucu (Görüntü Kod Çözücü) olarak hizmet eder. Bu, görüntü ayrıntılarının korunmasını ve stilin tutarlılığını sağlar.

  • Görüntü oluşturucu (Görüntü Kod Çözücü)
  • Görüntüleri yeniden yapılandırır
  • Görüntüleri yerel olarak değiştirir
  • Görüntü ayrıntılarını ve stilini korur

Bu yapı, geleneksel boru hattı modellerindeki ayrı ‘anlama’ ve ‘oluşturma’ sorununu çözer. Bu, modelin karmaşık düzenleme talimatlarını yürütürken daha yüksek doğruluk ve kontrole sahip olmasını sağlar.

Eğitim Verisi

Çok çeşitli karmaşık görüntü düzenleme görevlerini desteklemek için Step1X-Edit, sektör lideri bir görüntü düzenleme eğitim veri kümesi oluşturdu. 20 milyon görüntü-metin talimat üçlüsü oluşturur ve sonuçta 1 milyondan fazla yüksek kaliteli örneği tutar. Veriler, metin değiştirme, eylem oluşturma, stil transferi ve arka plan ayarlaması gibi sıkça talep edilen özellikler de dahil olmak üzere 11 temel görev türünü kapsar. Görev türleri eşit olarak dağıtılır ve talimat dili doğal ve gerçekçidir.

  • Sektör lideri eğitim veri kümesi
  • 20 milyon görüntü-metin talimat üçlüsü
  • 1 milyon yüksek kaliteli örnek
  • 11 temel görev türü
  • Eşit olarak dağıtılmış görev türleri

Performans Değerlendirmesi

Step1X-Edit, görüntü düzenlemenin 11 alt görevinde sürekli olarak yüksek kaliteli çıktı sağlar. Yetenekleri dengelidir ve güçlü çok yönlülüğünü ve dengesini göstererek neredeyse tüm görev boyutlarında ön sıralarda yer almaya devam etmektedir.

GEdit-Bench Kıyaslama Testi

Model değerlendirmesi, kendi geliştirdiği bir GEdit-Bench kıyaslama testi kullanır. Manuel olarak sentezlenmiş görev koleksiyonlarının aksine, bu kıyaslama testi, ürün ihtiyaçlarına daha yakın olan gerçek topluluk düzenleme isteklerinden gelir.

  • Kendi geliştirilen kıyaslama testi
  • Gerçek topluluk düzenleme istekleri
  • Ürün ihtiyaçlarına daha yakın

Step1X-Edit, GEdit-Bench’in üç temel göstergesinde mevcut açık kaynak modellerine önemli ölçüde liderlik etmektedir. Dil anlayışı ve görüntü yeniden yapılandırması arasında ideal bir denge sağlayarak GPT-4o’ya yakın bir performans sergiliyor.

Yeteneklerin Ayrıntılı İncelenmesi

Step1X-Edit sadece görüntüleri değiştirmekle ilgili değil; düzenlemelerin arkasındaki niyeti gerçekten anlamak, bunları hassasiyetle yürütmek ve orijinal görüntünün bütünlüğünü korumakla ilgilidir. Temel yetenekler—semantik hassasiyet, kimlik tutarlılığı ve yüksek hassasiyetli bölgesel kontrol—modern görüntü düzenlemenin nüanslı taleplerini karşılamak için tasarlanmıştır.

Semantik Hassasiyet Analizinde Derinlemesine İnceleme

Step1X-Edit’in semantik hassasiyet analizi, basit anahtar kelime tanımayı aşar. Doğal dil açıklamalarının bağlamını inceler, karmaşık talimat kombinasyonlarını anlar. Katı şablonlara dayanan sistemlerin aksine, Step1X-Edit serbest biçimli dili yorumlayabilir ve bu da onu çeşitli düzenleme senaryolarına son derece uyarlanabilir hale getirir. Ardışık talimatlar arasındaki ilişkileri anlayarak tutarlı sonuçlar üretmek için çok turlu ve çok görevli düzenlemeyi sorunsuz bir şekilde ele alır.

Şu örneği düşünün: Bir kullanıcı bir görüntüdeki bir işaretteki metni değiştirmek ve ardından işaretin rengini farklı bir temayla eşleşecek şekilde değiştirmek istiyor. Step1X-Edit sadece metni değiştirmek ve rengi değiştirmekle kalmaz; işaretin tek bir nesne olduğunu anlar ve metin ve renk değişikliklerinin birbirleriyle ve genel görüntüyle tutarlı olmasını sağlar. Dahası, model görüntü içindeki metni, kısmen gizlenmiş veya bozuk olsa bile tanımlayabilir ve yeniden yapılandırabilir. Bu yetenek, özellikle taranmış belgeleri veya üzerine metin bindirilmiş görüntüleri düzenlemek için kullanışlıdır.

Kimlik Tutarlılığı Bakımının Açıklanması

Görüntülerdeki konuların değişikliklere rağmen tanınabilir kalması gereken senaryolarda kimlik tutarlılığının korunması çok önemlidir. Bu, özellikle sanal insan uygulamalarında, e-ticaret modellemesinde ve sosyal medya içeriği oluşturmada önemlidir. Step1X-Edit, düzenleme süreci boyunca yüz özelliklerinin, pozların ve benzersiz kimlik özelliklerinin korunmasını sağlar.

Örneğin, bir kullanıcı bir görüntüdeki sanal bir modelin kıyafetini değiştirmek isterse, Step1X-Edit modelin yüz özelliklerini, saç stilini ve vücut oranlarını koruyarak, düzenlenen görüntünün hala orijinal modeli doğru bir şekilde temsil etmesini sağlar. Benzer şekilde, modellerin ürünleri sergilediği e-ticarette, müşterilerin kafasını karıştırmamak için modelin görünümü farklı görüntülerde tutarlı kalmalıdır.

Yüksek Hassasiyetli Bölgesel Kontrolün Geliştirilmesi

Yüksek hassasiyetli bölgesel kontrol, kullanıcıların bir görüntünün belirli alanlarında sahnenin geri kalanını etkilemeden hedeflenen düzenlemeler yapmalarını sağlar. Bu yetenek, bir giysinin rengini değiştirmek, bir nesnenin dokusunu değiştirmek veya belirli bir bölgeye belirli öğeler eklemek gibi ince ayarlar gerektiren görevler için gereklidir. Step1X-Edit, kullanıcıların belirli bölgeleri seçmelerine ve düzenlemeleri olağanüstü bir hassasiyetle uygulamalarına olanak tanıyarak, değişikliklerin mevcut görüntüyle sorunsuz bir şekilde karışmasını sağlar.

Bir kullanıcının bir fotoğraftaki bir arabanın rengini değiştirmek istediği, ancak yansımaları ve gölgeleri bozulmadan tuttuğu bir senaryo hayal edin. Step1X-Edit arabayı izole edebilir, rengini değiştirebilir ve orijinal aydınlatma efektlerini koruyarak gerçekçi ve görsel olarak çekici bir sonuç oluşturabilir. Model ayrıca, düzenlenen alanların yerinden görünmesini önleyerek görüntünün genel stilinin ve estetiğinin tutarlı kalmasını sağlar.

Mimarinin Kodunu Çözme: MLLM + Difüzyon

Çok Modlu Büyük Dil Modellerini (MLLM) ve Difüzyon modellerini birleştiren Step1X-Edit’in ayrıştırılmış mimarisi, görüntü düzenleme teknolojisinde önemli bir ilerlemeyi işaret ediyor. Bu tasarım, doğal dil anlayışının ve yüksek kaliteli görüntü oluşturmanın kendi görevleri için optimize edilmiş ayrı modüller tarafından ele alındığı bir iş bölümüne olanak tanır.

MLLM Modülüne Derinlemesine Dalış

MLLM modülü, sistemin beyni olarak hizmet eder ve hem doğal dil talimatlarını hem de görüntü içeriğini anlamaktan ve yorumlamaktan sorumludur. Karmaşık düzenleme gereksinimlerini uygulanabilir örtük kontrol sinyallerine ayırmasını sağlayan gelişmiş çok modlu semantik anlama yeteneklerine sahiptir. Bu işlem, talimatların dilbilgisel yapısını analiz etmeyi, değiştirilecek temel öğeleri belirlemeyi ve görüntünün farklı bölümleri arasındaki ilişkileri anlamayı içerir.

MLLM modülü, düzenleme talimatlarını Difüzyon modülünün anlayabileceği bir temsile eşlemek için gelişmiş algoritmalar kullanır. Bu gösterim, talimatların semantik anlamını koruyacak ve ortaya çıkan düzenlemelerin kullanıcının niyetiyle uyumlu olmasını sağlayacak şekilde istenen değişiklikleri kodlar. Örneğin, bir kullanıcı ‘arka plana bir gün batımı ekle’ derse, MLLM modülü arka plan bölgesini tanımlar, bir gün batımı kavramını tanır ve Difüzyon modülüne belirtilen alanda gerçekçi bir gün batımı oluşturması talimatını veren bir kontrol sinyali oluşturur.

Difüzyon Modülünün Aydınlatılması

Difüzyon modülü, MLLM modülü tarafından oluşturulan örtük kontrol sinyallerini alan ve bunları kullanarak görüntüyü yüksek doğrulukla yeniden yapılandıran veya değiştiren sanatçı gibi davranır. Bu modül, görüntüye kademeli olarak gürültü eklemeyi ve ardından yeni görüntüler oluşturmak veya mevcut olanları değiştirmek için bu işlemi tersine çevirmeyi öğrenmeyi içeren difüzyon adı verilen bir işlem kullanır. Difüzyon modülü, çok sayıda görüntü veri kümesi üzerinde eğitilir ve bu da gerçekçi ve görsel olarak çekici sonuçlar üretmesine olanak tanır.

Difüzyon modülü, değiştirilen görüntünün orijinal görüntünün ayrıntılarını, dokularını ve aydınlatma efektlerini korumasını sağlayarak değişiklikleri mevcut içerikle sorunsuz bir şekilde harmanlar. Ayrıca, düzenlemelerin stilini görüntünün genel estetiğiyle eşleşecek şekilde uyarlayarak tutarlı ve uyumlu bir sonuç oluşturabilir. Örneğin, bir kullanıcı ‘görüntüyü bir tablo gibi göster’ derse, Difüzyon modülü görüntüyü ikna edici bir tabloya dönüştürmek için sanatsal filtreler ve dokular uygulayabilir, ancak orijinal kompozisyonu ve içeriği koruyabilir.

Sinerji: Ayrıştırmanın Gücü

Step1X-Edit’in ayrıştırılmış mimarisi, ‘anlama’ ve ‘oluşturma’nın genellikle iç içe olduğu ve kendi görevleri için optimize edilmediği geleneksel görüntü düzenleme modellerinin temel bir sınırlamasını ele alır. Bu işlevleri ayrı modüllere ayırarak, Step1X-Edit karmaşık düzenleme talimatlarını yürütürken daha yüksek doğruluk ve kontrol sağlar. MLLM modülü, kullanıcının niyetini doğru bir şekilde yorumlamaya odaklanabilirken, Difüzyon modülü belirtilen gereksinimleri karşılayan yüksek kaliteli görüntüler oluşturmaya konsantre olabilir.

MLLM ve Difüzyon modülleri arasındaki bu sinerji, Step1X-Edit’in çok çeşitli düzenleme görevlerini olağanüstü bir hassasiyet ve tutarlılıkla ele almasını sağlar. Bir görüntüde ince ayarlamalar yapmak veya karmaşık dönüşümler gerçekleştirmek olsun, Step1X-Edit hem görsel olarak çekici hem de semantik olarak doğru sonuçlar sunabilir. Ayrıştırılmış mimari ayrıca modeli daha modüler ve güncellemeyi kolaylaştırır, bu da geliştiricilerin performansını ve yeteneklerini sürekli olarak iyileştirmelerini sağlar.

Veri Kümesi Mühendisliği: Performansın Temeli

Step1X-Edit’in ele alabildiği çeşitli ve karmaşık görüntü düzenleme görevlerini desteklemek için geliştiriciler, sektör lideri bir görüntü düzenleme eğitim veri kümesi oluşturdu. Bu veri kümesi, modelin çok çeşitli düzenleme komutlarını anlaması ve yürütmesi için eğitmek için kullanılan geniş bir görüntü-metin talimat üçlüsü koleksiyonundan oluşur. Veri kümesi 20 milyon üçlü içerir ve bunların 1 milyondan fazlası doğruluk ve tutarlılığı sağlamak için özenle seçilmiş yüksek kaliteli örneklerdir.

Veriler, metin değiştirme, eylem oluşturma, stil aktarımı ve arka plan ayarlaması gibi sıkça talep edilen özellikleri kapsayan 11 temel görev türünü kapsar. Bu görev türleri, modelin dengeli bir eğitim almasını ve çeşitli düzenleme senaryolarında iyi performans göstermesini sağlayarak veri kümesi boyunca eşit olarak dağıtılır. Veri kümesinde kullanılan talimat dili doğal ve gerçekçidir ve insanların görüntü düzenlemeleri isterken iletişim kurma şeklini yansıtır.

Veri kümesi ayrıca ‘görüntüyü daha eski göster’ veya ‘sahneye bir drama duygusu ekle’ gibi karmaşık ve nüanslı düzenleme talimatlarının örneklerini içerir. Bu talimatlar, modelin soyut kavramları anlamasını ve bunları görüntüye yaratıcı ve görsel olarak çekici bir şekilde uygulamasını gerektirir. Veri kümesinin çeşitliliği ve zenginliği, Step1X-Edit’in performansında, çok çeşitli düzenleme görevlerini olağanüstü bir doğruluk ve çok yönlülükle ele almasını sağlayan önemli faktörlerdir.

Kıyaslama Mükemmelliği: GEdit-Bench

Step1X-Edit’in performansını titizlikle değerlendirmek için geliştiriciler, GEdit-Bench adlı kendi geliştirdiği bir kıyaslama testi oluşturdu. Bu kıyaslama testi, modelin çeşitli görüntü düzenleme senaryolarındaki yeteneklerinin kapsamlı bir değerlendirmesini sağlamak için tasarlanmıştır. Manuel olarak sentezlenmiş görev koleksiyonlarının aksine, GEdit-Bench görevlerini gerçek topluluk düzenleme isteklerinden alır ve bu da onu modelin gerçek dünya uygulamalarındaki performansının daha gerçekçi ve alakalı bir ölçüsü yapar.

GEdit-Bench’teki görevler, metin değiştirme, nesne kaldırma, stil aktarımı ve arka plan ayarlaması dahil olmak üzere çok çeşitli düzenleme işlemlerini kapsar. Kıyaslama testi ayrıca modelin ‘görüntüyü daha profesyonel göster’ veya ‘sahneye bir sıcaklık duygusu ekle’ gibi karmaşık ve nüanslı talimatları anlamasını ve yürütmesini gerektiren görevler içerir. GEdit-Bench, modelin gerçek dünya senaryolarındaki performansının daha doğru ve güvenilir bir değerlendirmesini sağlar.

Step1X-Edit, GEdit-Bench’te olağanüstü sonuçlar elde etti ve mevcut açık kaynak modellerini üç temel göstergede aştı: semantik tutarlılık, görüntü kalitesi ve genel puan. Modelin performansı, dil anlayışı ve görüntü yeniden yapılandırması arasında ideal bir denge sağlama yeteneğini göstererek GPT-4o’nunkine yakındır.

Sonuç olarak, Step1X-Edit, açık kaynaklı görüntü düzenleme teknolojisinde önemli bir ilerlemeyi temsil ediyor. Ayrıştırılmış mimarisi, geniş eğitim veri kümesi ve titiz kıyaslama, onu çok çeşitli düzenleme görevleri için güçlü ve çok yönlü bir araç haline getiriyor. İster profesyonel bir fotoğrafçı, ister sosyal medya meraklısı, isterse de sadece görüntülerini geliştirmek isteyen biri olun, Step1X-Edit hedeflerinize olağanüstü bir doğruluk ve kolaylıkla ulaşmanıza yardımcı olabilir.