Step1X-Edit: Model Edit Gambar Open-Source

Kemampuan Inti Step1X-Edit

Step1X-Edit mengintegrasikan Multimodal Large Language Models (MLLM) dan model Difusi, yang mengarah pada peningkatan signifikan dalam akurasi pengeditan dan fidelitas gambar dalam kerangka open-source. Dalam tolok ukur pengeditan gambar GEdit-Bench yang baru dirilis, Step1X-Edit mengungguli model open-source yang ada dalam konsistensi semantik, kualitas gambar, dan skor keseluruhan, menyaingi kinerja GPT-4o dan Gemini 2.0 Flash.

Analisis Presisi Semantik

Model ini mendukung kombinasi instruksi kompleks yang dijelaskan dalam bahasa alami. Instruksi ini tidak memerlukan templat, membuat model fleksibel dan mampu menangani kebutuhan pengeditan multi-giliran dan multi-tugas. Ini juga mendukung identifikasi, penggantian, dan rekonstruksi teks dalam gambar.

  • Mendukung deskripsi bahasa alami yang kompleks
  • Tidak diperlukan templat tetap
  • Mampu melakukan pengeditan multi-giliran, multi-tugas
  • Mengidentifikasi, mengganti, dan merekonstruksi teks dalam gambar

Pemeliharaan Konsistensi Identitas

Model ini secara konsisten mempertahankan fitur wajah, pose, dan karakteristik identitas setelah diedit. Ini cocok untuk skenario dengan persyaratan konsistensi tinggi, seperti manusia virtual, model e-commerce, dan gambar media sosial.

  • Mempertahankan fitur wajah
  • Mempertahankan pose
  • Mempertahankan karakteristik identitas
  • Ideal untuk manusia virtual, model e-commerce, dan media sosial

Kontrol Regional Presisi Tinggi

Model ini mendukung pengeditan yang ditargetkan pada teks, materi, warna, dan elemen lain di area tertentu. Ini mempertahankan gaya gambar yang terpadu dan menawarkan kontrol yang lebih tepat.

  • Pengeditan yang ditargetkan di area tertentu
  • Mengontrol teks, materi, dan warna
  • Mempertahankan gaya gambar yang terpadu
  • Menawarkan kontrol yang lebih tepat

Inovasi Arsitektur

Step1X-Edit menggunakan arsitektur MLLM (Multimodal LLM) + Difusi yang dipisahkan, yang secara terpisah menangani pemahaman bahasa alami dan pembuatan gambar dengan fidelitas tinggi. Dibandingkan dengan model pengeditan gambar yang ada, arsitektur ini memiliki keunggulan dalam kemampuan generalisasi instruksi dan kemampuan pengendalian gambar.

Modul MLLM

Modul MLLM bertanggung jawab untuk memproses instruksi bahasa alami dan konten gambar. Ini memiliki kemampuan pemahaman semantik multimodal, yang dapat menguraikan persyaratan pengeditan yang kompleks menjadi sinyal kontrol laten.

  • Memproses instruksi bahasa alami
  • Menangani konten gambar
  • Pemahaman semantik multimodal
  • Menguraikan persyaratan pengeditan yang kompleks

Modul Difusi

Modul Difusi berfungsi sebagai generator gambar (Image Decoder), menyelesaikan rekonstruksi atau modifikasi lokal gambar berdasarkan sinyal laten yang dihasilkan oleh MLLM. Ini memastikan pelestarian detail gambar dan konsistensi gaya.

  • Generator gambar (Image Decoder)
  • Merekonstruksi gambar
  • Memodifikasi gambar secara lokal
  • Mempertahankan detail dan gaya gambar

Struktur ini mengatasi masalah “pemahaman” dan “generasi” yang terpisah dalam model pipeline tradisional. Ini memungkinkan model untuk memiliki akurasi dan kontrol yang lebih tinggi saat menjalankan instruksi pengeditan yang kompleks.

Data Pelatihan

Untuk mendukung berbagai tugas pengeditan gambar yang kompleks, Step1X-Edit telah membangun dataset pelatihan pengeditan gambar terkemuka di industri. Ini menghasilkan 20 juta triplet instruksi gambar-teks dan pada akhirnya mempertahankan lebih dari 1 juta sampel berkualitas tinggi. Data mencakup 11 jenis tugas inti, termasuk fitur yang sering diminta seperti penggantian teks, pembuatan tindakan, transfer gaya, dan penyesuaian latar belakang. Jenis tugas didistribusikan secara merata, dan bahasa instruksi alami dan realistis.

  • Dataset pelatihan terkemuka di industri
  • 20 juta triplet instruksi gambar-teks
  • 1 juta sampel berkualitas tinggi
  • 11 jenis tugas inti
  • Jenis tugas didistribusikan secara merata

Evaluasi Kinerja

Step1X-Edit secara konsisten mempertahankan output berkualitas tinggi dalam 11 sub-tugas pengeditan gambar. Kemampuannya seimbang, dan tetap menjadi yang terdepan di hampir semua dimensi tugas, menunjukkan keserbagunaan dan keseimbangannya yang kuat.

Tolok Ukur GEdit-Bench

Evaluasi model menggunakan tolok ukur GEdit-Bench yang dikembangkan sendiri. Tidak seperti koleksi tugas yang disintesis secara manual, tolok ukur ini berasal dari permintaan pengeditan komunitas yang nyata, yang lebih dekat dengan kebutuhan produk.

  • Tolok ukur yang dikembangkan sendiri
  • Permintaan pengeditan komunitas yang nyata
  • Lebih dekat dengan kebutuhan produk

Step1X-Edit secara signifikan memimpin model open-source yang ada dalam tiga indikator inti GEdit-Bench. Ini berkinerja mendekati GPT-4o, mencapai keseimbangan ideal antara pemahaman bahasa dan rekonstruksi gambar.

Pemeriksaan Kemampuan Terperinci

Step1X-Edit bukan hanya tentang mengubah gambar; ini tentang benar-benar memahami maksud di balik pengeditan, mengeksekusinya dengan presisi, dan menjaga integritas gambar asli. Kemampuan inti—presisi semantik, konsistensi identitas, dan kontrol regional presisi tinggi—dirancang untuk mengatasi tuntutan bernuansa dari pengeditan gambar modern.

Analisis Presisi Semantik secara Mendalam

Analisis presisi semantik Step1X-Edit melampaui pengenalan kata kunci sederhana. Ia menggali konteks deskripsi bahasa alami, memahami kombinasi instruksi yang kompleks. Tidak seperti sistem yang bergantung pada templat yang kaku, Step1X-Edit dapat menafsirkan bahasa bentuk bebas, membuatnya sangat mudah beradaptasi dengan berbagai skenario pengeditan. Ia menangani pengeditan multi-giliran dan multi-tugas dengan mulus, memahami hubungan antara instruksi berturut-turut untuk menghasilkan hasil yang koheren.

Pertimbangkan contoh ini: Seorang pengguna ingin mengubah teks pada tanda dalam gambar dan kemudian mengubah warna tanda agar sesuai dengan tema yang berbeda. Step1X-Edit tidak hanya mengganti teks dan mengubah warna; ia memahami bahwa tanda adalah objek tunggal dan memastikan bahwa perubahan teks dan warna konsisten satu sama lain dan keseluruhan gambar. Selain itu, model dapat mengidentifikasi dan merekonstruksi teks dalam gambar, bahkan jika sebagian terhalang atau terdistorsi. Kemampuan ini sangat berguna untuk mengedit dokumen yang dipindai atau gambar dengan teks yang ditumpangkan.

Konsistensi Identitas Dijelaskan

Mempertahankan konsistensi identitas sangat penting dalam skenario di mana subjek dalam gambar harus tetap dapat dikenali meskipun ada perubahan. Ini sangat penting dalam aplikasi manusia virtual, pemodelan e-commerce, dan pembuatan konten media sosial. Step1X-Edit memastikan bahwa fitur wajah, pose, dan karakteristik identitas unik dipertahankan selama proses pengeditan.

Misalnya, jika pengguna ingin mengubah pakaian model virtual dalam gambar, Step1X-Edit mempertahankan fitur wajah, gaya rambut, dan proporsi tubuh model, memastikan bahwa gambar yang diedit masih secara akurat mewakili model aslinya. Demikian pula, dalam e-commerce, di mana model memamerkan produk, penampilan model harus tetap konsisten di berbagai gambar untuk menghindari kebingungan pelanggan.

Kontrol Regional Presisi Tinggi yang Ditingkatkan

Kontrol regional presisi tinggi memungkinkan pengguna untuk membuat pengeditan yang ditargetkan ke area tertentu dari gambar tanpa memengaruhi bagian lain dari pemandangan. Kemampuan ini penting untuk tugas-tugas yang memerlukan penyesuaian halus, seperti mengubah warna pakaian, mengubah tekstur objek, atau menambahkan elemen tertentu ke wilayah tertentu. Step1X-Edit memungkinkan pengguna untuk memilih wilayah tertentu dan menerapkan pengeditan dengan presisi yang luar biasa, memastikan bahwa perubahan berbaur dengan mulus dengan gambar yang ada.

Bayangkan sebuah skenario di mana seorang pengguna ingin mengubah warna mobil dalam foto tetapi tetap mempertahankan pantulan dan bayangan. Step1X-Edit dapat mengisolasi mobil, mengubah warnanya, dan mempertahankan efek pencahayaan asli, menciptakan hasil yang realistis dan menarik secara visual. Model juga memastikan bahwa gaya dan estetika keseluruhan gambar tetap konsisten, mencegah area yang diedit terlihat tidak pada tempatnya.

Membongkar Arsitektur: MLLM + Difusi

Arsitektur Step1X-Edit yang dipisahkan, menggabungkan Multimodal Large Language Models (MLLM) dan model Difusi, menandai kemajuan signifikan dalam teknologi pengeditan gambar. Desain ini memungkinkan pembagian kerja di mana pemahaman bahasa alami dan pembuatan gambar dengan fidelitas tinggi ditangani oleh modul terpisah yang dioptimalkan untuk tugas masing-masing.

Menyelami Modul MLLM

Modul MLLM berfungsi sebagai otak sistem, bertanggung jawab untuk memahami dan menafsirkan baik instruksi bahasa alami maupun konten gambar. Ia memiliki kemampuan pemahaman semantik multimodal yang canggih, memungkinkannya untuk membedah persyaratan pengeditan yang kompleks menjadi sinyal kontrol laten yang dapat ditindaklanjuti. Proses ini melibatkan analisis struktur linguistik instruksi, mengidentifikasi elemen kunci yang akan dimodifikasi, dan memahami hubungan antara bagian-bagian gambar yang berbeda.

Modul MLLM menggunakan algoritma canggih untuk memetakan instruksi pengeditan ke representasi yang dapat dipahami oleh modul Difusi. Representasi ini menyandikan perubahan yang diinginkan dengan cara yang mempertahankan makna semantik instruksi dan memastikan bahwa pengeditan yang dihasilkan selaras dengan maksud pengguna. Misalnya, jika seorang pengguna meminta untuk ‘menambahkan matahari terbenam ke latar belakang,’ modul MLLM mengidentifikasi wilayah latar belakang, mengenali konsep matahari terbenam, dan menghasilkan sinyal kontrol yang menginstruksikan modul Difusi untuk membuat matahari terbenam yang realistis di area yang ditentukan.

Menjelaskan Modul Difusi

Modul Difusi bertindak sebagai seniman, mengambil sinyal kontrol laten yang dihasilkan oleh modul MLLM dan menggunakannya untuk merekonstruksi atau memodifikasi gambar dengan fidelitas tinggi. Modul ini menggunakan proses yang disebut difusi, yang melibatkan secara bertahap menambahkan noise ke gambar dan kemudian belajar untuk membalikkan proses ini untuk menghasilkan gambar baru atau memodifikasi yang sudah ada. Modul Difusi dilatih pada dataset gambar yang luas, memungkinkannya untuk menghasilkan hasil yang realistis dan menarik secara visual.

Modul Difusi memastikan bahwa gambar yang dimodifikasi mempertahankan detail, tekstur, dan efek pencahayaan gambar asli, memadukan perubahan dengan mulus dengan konten yang ada. Ia juga dapat menyesuaikan gaya pengeditan agar sesuai dengan estetika keseluruhan gambar, menciptakan hasil yang koheren dan harmonis. Misalnya, jika seorang pengguna ingin ‘membuat gambar terlihat seperti lukisan,’ modul Difusi dapat menerapkan filter dan tekstur artistik untuk mengubah gambar menjadi lukisan yang meyakinkan, sambil tetap mempertahankan komposisi dan konten asli.

Sinergi: Kekuatan Pemisahan

Arsitektur Step1X-Edit yang dipisahkan mengatasi keterbatasan mendasar dari model pengeditan gambar tradisional, di mana ‘pemahaman’ dan ‘generasi’ sering kali terjalin dan tidak dioptimalkan untuk tugas masing-masing. Dengan memisahkan fungsi-fungsi ini ke dalam modul yang berbeda, Step1X-Edit mencapai akurasi dan kontrol yang lebih tinggi saat menjalankan instruksi pengeditan yang kompleks. Modul MLLM dapat fokus pada penafsiran yang akurat atas maksud pengguna, sementara modul Difusi dapat berkonsentrasi pada menghasilkan gambar berkualitas tinggi yang memenuhi persyaratan yang ditentukan.

Sinergi antara modul MLLM dan Difusi ini memungkinkan Step1X-Edit untuk menangani berbagai tugas pengeditan dengan presisi dan konsistensi yang luar biasa. Baik itu membuat penyesuaian halus pada gambar atau melakukan transformasi yang kompleks, Step1X-Edit dapat memberikan hasil yang menarik secara visual dan akurat secara semantik. Arsitektur yang dipisahkan juga membuat model lebih modular dan lebih mudah diperbarui, memungkinkan pengembang untuk terus meningkatkan kinerja dan kemampuannya.

Rekayasa Dataset: Fondasi Kinerja

Untuk mendukung tugas pengeditan gambar yang beragam dan kompleks yang dapat ditangani oleh Step1X-Edit, para pengembang membangun dataset pelatihan pengeditan gambar terkemuka di industri. Dataset ini terdiri dari koleksi besar triplet instruksi gambar-teks, yang digunakan untuk melatih model untuk memahami dan menjalankan berbagai perintah pengeditan. Dataset mencakup 20 juta triplet, di mana lebih dari 1 juta adalah sampel berkualitas tinggi yang telah dikurasi dengan cermat untuk memastikan akurasi dan konsistensi.

Data mencakup 11 jenis tugas inti, meliputi fitur yang sering diminta seperti penggantian teks, pembuatan tindakan, transfer gaya, dan penyesuaian latar belakang. Jenis tugas ini didistribusikan secara merata di seluruh dataset, memastikan bahwa model menerima pelatihan yang seimbang dan dapat berkinerja baik di berbagai skenario pengeditan. Bahasa instruksi yang digunakan dalam dataset alami dan realistis, mencerminkan cara orang berkomunikasi saat meminta pengeditan gambar.

Dataset juga mencakup contoh instruksi pengeditan yang kompleks dan bernuansa, seperti ‘membuat gambar terlihat lebih vintage’ atau ‘menambahkan kesan dramatis ke pemandangan.’ Instruksi ini mengharuskan model untuk memahami konsep abstrak dan menerapkannya pada gambar dengan cara yang kreatif dan menarik secara visual. Keragaman dan kekayaan dataset merupakan faktor penting dalam kinerja Step1X-Edit, memungkinkannya untuk menangani berbagai tugas pengeditan dengan akurasi dan keserbagunaan yang luar biasa.

Tolok Ukur Keunggulan: GEdit-Bench

Untuk mengevaluasi secara ketat kinerja Step1X-Edit, para pengembang membuat tolok ukur yang dikembangkan sendiri yang disebut GEdit-Bench. Tolok ukur ini dirancang untuk memberikan penilaian komprehensif atas kemampuan model dalam berbagai skenario pengeditan gambar. Tidak seperti koleksi tugas yang disintesis secara manual, GEdit-Bench mengambil tugas-tugasnya dari permintaan pengeditan komunitas yang nyata, menjadikannya ukuran kinerja model yang lebih realistis dan relevan dalam aplikasi dunia nyata.

Tugas-tugas dalam GEdit-Bench mencakup berbagai operasi pengeditan, termasuk penggantian teks, penghapusan objek, transfer gaya, dan penyesuaian latar belakang. Tolok ukur ini juga mencakup tugas-tugas yang mengharuskan model untuk memahami dan menjalankan instruksi yang kompleks dan bernuansa, seperti ‘membuat gambar terlihat lebih profesional’ atau ‘menambahkan kesan hangat ke pemandangan.’ GEdit-Bench memberikan penilaian kinerja model yang lebih akurat dan andal dalam skenario dunia nyata.

Step1X-Edit telah mencapai hasil yang luar biasa di GEdit-Bench, melampaui model open-source yang ada dalam ketiga indikator inti: konsistensi semantik, kualitas gambar, dan skor keseluruhan. Kinerja model mendekati kinerja GPT-4o, menunjukkan kemampuannya untuk mencapai keseimbangan ideal antara pemahaman bahasa dan rekonstruksi gambar.

Sebagai kesimpulan, Step1X-Edit mewakili kemajuan signifikan dalam teknologi pengeditan gambar open-source. Arsitektur yang dipisahkan, dataset pelatihan yang luas, dan tolok ukur yang ketat menjadikannya alat yang ampuh dan serbaguna untuk berbagai tugas pengeditan. Apakah Anda seorang fotografer profesional, penggemar media sosial, atau hanya seseorang yang ingin meningkatkan gambar mereka, Step1X-Edit dapat membantu Anda mencapai tujuan Anda dengan akurasi dan kemudahan yang luar biasa.