Step1X-Edit: Model Suntingan Imej Sumber Terbuka

Keupayaan Teras Step1X-Edit

Step1X-Edit, model suntingan imej sumber terbuka yang dibangunkan oleh StepFun, telah dilancarkan, mencapai prestasi terkini (SOTA). Model ini, yang mempunyai 19 bilion parameter (7B MLLM + 12B DiT), cemerlang dalam tiga bidang utama: analisis semantik yang tepat, pemeliharaan identiti yang konsisten, dan kawalan peringkat wilayah berketepatan tinggi. Ia menyokong 11 jenis tugas suntingan imej yang kerap, termasuk penggantian teks, pemindahan gaya, transformasi bahan, dan pengubahsuaian potret. Step1X-Edit direka untuk memahami, mengubah suai dengan tepat, dan mengekalkan butiran dengan berkesan.

Step1X-Edit mengintegrasikan Model Bahasa Besar Multimodal (MLLM) dan model Difusi, yang membawa kepada peningkatan ketara dalam ketepatan suntingan dan kesetiaan imej dalam rangka kerja sumber terbuka. Dalam penanda aras suntingan imej GEdit-Bench yang baru dikeluarkan, Step1X-Edit mengatasi model sumber terbuka yang sedia ada dalam konsistensi semantik, kualiti imej, dan skor keseluruhan, menyaingi prestasi GPT-4o dan Gemini 2.0 Flash.

Analisis Ketepatan Semantik

Model ini menyokong gabungan arahan kompleks yang diterangkan dalam bahasa semula jadi. Arahan ini tidak memerlukan templat, menjadikan model fleksibel dan mampu mengendalikan keperluan suntingan berbilang giliran dan berbilang tugas. Ia juga menyokong pengenalpastian, penggantian, dan pembinaan semula teks dalam imej.

  • Menyokong penerangan bahasa semula jadi yang kompleks
  • Tidak memerlukan templat tetap
  • Mampu melakukan suntingan berbilang giliran dan berbilang tugas
  • Mengenal pasti, menggantikan, dan membina semula teks dalam imej

Penyelenggaraan Konsistensi Identiti

Model ini secara konsisten mengekalkan ciri-ciri wajah, pose, dan ciri-ciri identiti selepas suntingan. Ini sesuai untuk senario dengan keperluan konsistensi yang tinggi, seperti manusia maya, model e-dagang, dan imej media sosial.

  • Mengekalkan ciri-ciri wajah
  • Mengekalkan pose
  • Mengekalkan ciri-ciri identiti
  • Sesuai untuk manusia maya, model e-dagang, dan media sosial

Kawalan Serantau Berketepatan Tinggi

Model ini menyokong suntingan yang disasarkan pada teks, bahan, warna, dan elemen lain di kawasan tertentu. Ia mengekalkan gaya imej yang bersatu dan menawarkan kawalan yang lebih tepat.

  • Suntingan yang disasarkan di kawasan tertentu
  • Mengawal teks, bahan, dan warna
  • Mengekalkan gaya imej yang bersatu
  • Menawarkan kawalan yang lebih tepat

Inovasi Seni Bina

Step1X-Edit menggunakan seni bina MLLM (Multimodal LLM) + Difusi yang dipisahkan, yang secara berasingan mengendalikan pemahaman bahasa semula jadi dan penjanaan imej kesetiaan tinggi. Berbanding dengan model suntingan imej sedia ada, seni bina ini mempunyai kelebihan dalam keupayaan generalisasi arahan dan kebolehkawalan imej.

Modul MLLM

Modul MLLM bertanggungjawab untuk memproses arahan bahasa semula jadi dan kandungan imej. Ia mempunyai keupayaan pemahaman semantik multimodal, yang boleh menghuraikan keperluan suntingan yang kompleks ke dalam isyarat kawalan laten.

  • Memproses arahan bahasa semula jadi
  • Mengendalikan kandungan imej
  • Pemahaman semantik multimodal
  • Menghuraikan keperluan suntingan yang kompleks

Modul Difusi

Modul Difusi berfungsi sebagai penjana imej (Penyahkod Imej), melengkapkan pembinaan semula atau pengubahsuaian tempatan imej berdasarkan isyarat laten yang dihasilkan oleh MLLM. Ini memastikan pemeliharaan butiran imej dan konsistensi gaya.

  • Penjana imej (Penyahkod Imej)
  • Membina semula imej
  • Mengubah suai imej secara tempatan
  • Mengekalkan butiran dan gaya imej

Struktur ini menangani isu ‘pemahaman’ dan ‘penjanaan’ yang berasingan dalam model saluran paip tradisional. Ini membolehkan model mempunyai ketepatan dan kawalan yang lebih tinggi apabila melaksanakan arahan suntingan yang kompleks.

Data Latihan

Untuk menyokong pelbagai tugas suntingan imej yang kompleks, Step1X-Edit telah membina set data latihan suntingan imej yang terkemuka dalam industri. Ia menjana 20 juta rangkap tiga arahan teks imej dan akhirnya mengekalkan lebih daripada 1 juta sampel berkualiti tinggi. Data meliputi 11 jenis tugas teras, termasuk ciri-ciri yang kerap diminta seperti penggantian teks, penjanaan tindakan, pemindahan gaya, dan pelarasan latar belakang. Jenis tugas diedarkan secara sama rata, dan bahasa arahan adalah semula jadi dan realistik.

  • Set data latihan yang terkemuka dalam industri
  • 20 juta rangkap tiga arahan teks imej
  • 1 juta sampel berkualiti tinggi
  • 11 jenis tugas teras
  • Jenis tugas diedarkan secara sama rata

Penilaian Prestasi

Step1X-Edit secara konsisten mengekalkan output berkualiti tinggi dalam 11 sub-tugas suntingan imej. Keupayaannya adalah seimbang, dan ia kekal di barisan hadapan dalam hampir semua dimensi tugas, menunjukkan kepelbagaian dan keseimbangan yang kuat.

Penanda Aras GEdit-Bench

Penilaian model menggunakan penanda aras GEdit-Bench yang dibangunkan sendiri. Tidak seperti koleksi tugas yang disintesis secara manual, penanda aras ini berasal daripada permintaan suntingan komuniti sebenar, yang lebih dekat dengan keperluan produk.

  • Penanda aras yang dibangunkan sendiri
  • Permintaan suntingan komuniti sebenar
  • Lebih dekat dengan keperluan produk

Step1X-Edit secara ketara mendahului model sumber terbuka yang sedia ada dalam tiga penunjuk teras GEdit-Bench. Ia berprestasi hampir dengan GPT-4o, mencapai keseimbangan ideal antara pemahaman bahasa dan pembinaan semula imej.

Pemeriksaan Terperinci Keupayaan

Step1X-Edit bukan sekadar mengubah imej; ia adalah tentang benar-benar memahami niat di sebalik suntingan, melaksanakannya dengan ketepatan, dan melindungi integriti imej asal. Keupayaan teras—ketepatan semantik, konsistensi identiti, dan kawalan serantau berketepatan tinggi—direka untuk menangani tuntutan suntingan imej moden yang bernuansa.

Analisis Ketepatan Semantik Secara Mendalam

Analisis ketepatan semantik Step1X-Edit melangkaui pengecaman kata kunci yang mudah. Ia menyelidiki konteks penerangan bahasa semula jadi, memahami gabungan arahan yang kompleks. Tidak seperti sistem yang bergantung pada templat tegar, Step1X-Edit boleh mentafsir bahasa bentuk bebas, menjadikannya sangat mudah menyesuaikan diri dengan pelbagai senario suntingan. Ia mengendalikan suntingan berbilang giliran dan berbilang tugas dengan lancar, memahami hubungan antara arahan berturut-turut untuk menghasilkan hasil yang koheren.

Pertimbangkan contoh ini: Pengguna mahu menukar teks pada papan tanda dalam imej dan kemudian mengubah warna papan tanda agar sesuai dengan tema yang berbeza. Step1X-Edit bukan sahaja menggantikan teks dan menukar warna; ia memahami bahawa papan tanda adalah objek tunggal dan memastikan bahawa perubahan teks dan warna adalah konsisten antara satu sama lain dan imej keseluruhan. Tambahan pula, model ini boleh mengenal pasti dan membina semula teks dalam imej, walaupun ia sebahagiannya terlindung atau herot. Keupayaan ini amat berguna untuk menyunting dokumen atau imej yang diimbas dengan teks yang ditindih.

Penyelenggaraan Konsistensi Identiti Dijelaskan

Mengekalkan konsistensi identiti adalah penting dalam senario di mana subjek dalam imej perlu kekal boleh dikenali walaupun terdapat perubahan. Ini amat penting dalam aplikasi manusia maya, pemodelan e-dagang, dan penciptaan kandungan media sosial. Step1X-Edit memastikan bahawa ciri-ciri wajah, pose, dan ciri-ciri identiti yang unik dikekalkan sepanjang proses suntingan.

Contohnya, jika pengguna mahu menukar pakaian model maya dalam imej, Step1X-Edit mengekalkan ciri-ciri wajah, gaya rambut, dan perkadaran badan model, memastikan bahawa imej yang disunting masih mewakili model asal dengan tepat. Begitu juga, dalam e-dagang, di mana model mempamerkan produk, penampilan model mesti kekal konsisten merentasi imej yang berbeza untuk mengelakkan kekeliruan pelanggan.

Kawalan Serantau Berketepatan Tinggi Dipertingkatkan

Kawalan serantau berketepatan tinggi membolehkan pengguna membuat suntingan yang disasarkan pada kawasan tertentu imej tanpa menjejaskan seluruh adegan. Keupayaan ini penting untuk tugas yang memerlukan pelarasan halus, seperti menukar warna pakaian, mengubah tekstur objek, atau menambah elemen khusus pada wilayah tertentu. Step1X-Edit membolehkan pengguna memilih wilayah tertentu dan menggunakan suntingan dengan ketepatan yang luar biasa, memastikan bahawa perubahan sebati dengan lancar dengan imej sedia ada.

Bayangkan senario di mana pengguna mahu menukar warna kereta dalam foto tetapi mengekalkan pantulan dan bayang-bayang utuh. Step1X-Edit boleh mengasingkan kereta, menukar warnanya, dan mengekalkan kesan pencahayaan asal, mewujudkan hasil yang realistik dan menarik secara visual. Model ini juga memastikan bahawa gaya dan estetika keseluruhan imej kekal konsisten, menghalang kawasan yang disunting daripada kelihatan tidak sesuai.

Menyahkod Seni Bina: MLLM + Difusi

Seni bina Step1X-Edit yang dipisahkan, menggabungkan Model Bahasa Besar Multimodal (MLLM) dan model Difusi, menandakan kemajuan ketara dalam teknologi suntingan imej. Reka bentuk ini membolehkan pembahagian kerja di mana pemahaman bahasa semula jadi dan penjanaan imej kesetiaan tinggi dikendalikan oleh modul berasingan yang dioptimumkan untuk tugas masing-masing.

Selami Modul MLLM

Modul MLLM berfungsi sebagai otak sistem, bertanggungjawab untuk memahami dan mentafsir kedua-dua arahan bahasa semula jadi dan kandungan imej. Ia memiliki keupayaan pemahaman semantik multimodal yang canggih, membolehkannya membedah keperluan suntingan yang kompleks kepada isyarat kawalan laten yang boleh diambil tindakan. Proses ini melibatkan analisis struktur linguistik arahan, mengenal pasti elemen utama untuk diubah suai, dan memahami hubungan antara bahagian yang berbeza dalam imej.

Modul MLLM menggunakan algoritma canggih untuk memetakan arahan suntingan kepada perwakilan yang boleh difahami oleh modul Difusi. Perwakilan ini mengekod perubahan yang diingini dengan cara yang mengekalkan makna semantik arahan dan memastikan bahawa suntingan yang terhasil sejajar dengan niat pengguna. Contohnya, jika pengguna meminta untuk ‘menambah matahari terbenam ke latar belakang,’ modul MLLM mengenal pasti wilayah latar belakang, mengenali konsep matahari terbenam, dan menjana isyarat kawalan yang mengarahkan modul Difusi untuk mencipta matahari terbenam yang realistik di kawasan yang ditentukan.

Menjelaskan Modul Difusi

Modul Difusi bertindak sebagai artis, mengambil isyarat kawalan laten yang dihasilkan oleh modul MLLM dan menggunakannya untuk membina semula atau mengubah suai imej dengan kesetiaan tinggi. Modul ini menggunakan proses yang dipanggil penyebaran, yang melibatkan penambahan bunyi secara beransur-ansur pada imej dan kemudian belajar untuk membalikkan proses ini untuk menjana imej baharu atau mengubah suai imej sedia ada. Modul Difusi dilatih pada set data imej yang luas, membolehkannya menjana hasil yang realistik dan menarik secara visual.

Modul Difusi memastikan bahawa imej yang diubah suai mengekalkan butiran, tekstur, dan kesan pencahayaan imej asal, sebati perubahan dengan lancar dengan kandungan sedia ada. Ia juga boleh menyesuaikan gaya suntingan agar sepadan dengan estetika keseluruhan imej, mewujudkan hasil yang koheren dan harmoni. Contohnya, jika pengguna mahu ‘menjadikan imej kelihatan seperti lukisan,’ modul Difusi boleh menggunakan penapis dan tekstur artistik untuk mengubah imej menjadi lukisan yang meyakinkan, sambil mengekalkan komposisi dan kandungan asal.

Sinergi: Kuasa Pemisahan

Seni bina Step1X-Edit yang dipisahkan menangani batasan asas model suntingan imej tradisional, di mana ‘pemahaman’ dan ‘penjanaan’ sering terjalin dan tidak dioptimumkan untuk tugas masing-masing. Dengan memisahkan fungsi ini ke dalam modul yang berbeza, Step1X-Edit mencapai ketepatan dan kawalan yang lebih tinggi apabila melaksanakan arahan suntingan yang kompleks. Modul MLLM boleh memberi tumpuan kepada mentafsir dengan tepat niat pengguna, manakala modul Difusi boleh menumpukan pada menjana imej berkualiti tinggi yang memenuhi keperluan yang ditentukan.

Sinergi antara modul MLLM dan Difusi ini membolehkan Step1X-Edit mengendalikan pelbagai tugas suntingan dengan ketepatan dan konsistensi yang luar biasa. Sama ada membuat pelarasan halus pada imej atau melakukan transformasi yang kompleks, Step1X-Edit boleh memberikan hasil yang menarik secara visual dan tepat secara semantik. Seni bina yang dipisahkan juga menjadikan model lebih modular dan lebih mudah untuk dikemas kini, membolehkan pembangun terus meningkatkan prestasi dan keupayaannya.

Kejuruteraan Set Data: Asas Prestasi

Untuk menyokong tugas suntingan imej yang pelbagai dan kompleks yang boleh dikendalikan oleh Step1X-Edit, pembangun membina set data latihan suntingan imej yang terkemuka dalam industri. Set data ini terdiri daripada koleksi rangkap tiga arahan teks imej yang luas, yang digunakan untuk melatih model untuk memahami dan melaksanakan pelbagai perintah suntingan. Set data merangkumi 20 juta rangkap tiga, yang mana lebih daripada 1 juta adalah sampel berkualiti tinggi yang telah dipilih susun dengan teliti untuk memastikan ketepatan dan konsistensi.

Data meliputi 11 jenis tugas teras, yang merangkumi ciri-ciri yang kerap diminta seperti penggantian teks, penjanaan tindakan, pemindahan gaya, dan pelarasan latar belakang. Jenis tugas ini diedarkan secara sama rata ke seluruh set data, memastikan bahawa model menerima latihan yang seimbang dan boleh berprestasi baik merentasi pelbagai senario suntingan. Bahasa arahan yang digunakan dalam set data adalah semula jadi dan realistik, yang mencerminkan cara orang berkomunikasi apabila meminta suntingan imej.

Set data juga termasuk contoh arahan suntingan yang kompleks dan bernuansa, seperti ‘menjadikan imej kelihatan lebih vintaj’ atau ‘menambah rasa drama pada adegan.’ Arahan ini memerlukan model untuk memahami konsep abstrak dan menggunakannya pada imej dengan cara yang kreatif dan menarik secara visual. Kepelbagaian dan kekayaan set data merupakan faktor penting dalam prestasi Step1X-Edit, membolehkannya mengendalikan pelbagai tugas suntingan dengan ketepatan dan kepelbagaian yang luar biasa.

Kecemerlangan Penanda Aras: GEdit-Bench

Untuk menilai dengan teliti prestasi Step1X-Edit, pembangun mencipta penanda aras yang dibangunkan sendiri yang dipanggil GEdit-Bench. Penanda aras ini direka untuk memberikan penilaian menyeluruh tentang keupayaan model dalam pelbagai senario suntingan imej. Tidak seperti koleksi tugas yang disintesis secara manual, GEdit-Bench memperoleh tugasnya daripada permintaan suntingan komuniti sebenar, menjadikannya ukuran yang lebih realistik dan relevan tentang prestasi model dalam aplikasi dunia sebenar.

Tugas dalam GEdit-Bench meliputi pelbagai operasi suntingan, termasuk penggantian teks, penyingkiran objek, pemindahan gaya, dan pelarasan latar belakang. Penanda aras juga termasuk tugas yang memerlukan model untuk memahami dan melaksanakan arahan yang kompleks dan bernuansa, seperti ‘menjadikan imej kelihatan lebih profesional’ atau ‘menambah rasa kehangatan pada adegan.’ GEdit-Bench memberikan penilaian yang lebih tepat dan boleh dipercayai tentang prestasi model dalam senario dunia sebenar.

Step1X-Edit telah mencapai hasil yang luar biasa di GEdit-Bench, mengatasi model sumber terbuka yang sedia ada dalam ketiga-tiga penunjuk teras: konsistensi semantik, kualiti imej, dan skor keseluruhan. Prestasi model hampir dengan GPT-4o, menunjukkan keupayaannya untuk mencapai keseimbangan ideal antara pemahaman bahasa dan pembinaan semula imej.

Kesimpulannya, Step1X-Edit mewakili kemajuan ketara dalam teknologi suntingan imej sumber terbuka. Seni binanya yang dipisahkan, set data latihan yang luas, dan penanda arasan yang ketat menjadikannya alat yang berkuasa dan serba boleh untuk pelbagai tugas suntingan. Sama ada anda seorang jurugambar profesional, peminat media sosial, atau hanya seseorang yang mahu meningkatkan imej mereka, Step1X-Edit boleh membantu anda mencapai matlamat anda dengan ketepatan dan kemudahan yang luar biasa.