Step1X-Edit ची मुख्य क्षमता
Step1X-Edit मल्टीमॉडल लार्ज लँग्वेज मॉडेल (MLLM) आणि डिफ्यूजन मॉडेल एकत्रित करते, ज्यामुळे ओपन-सोर्स फ्रेमवर्कमध्ये संपादन अचूकता आणि इमेज फिडेलिटीमध्ये लक्षणीय सुधारणा होते. नव्याने रिलीज झालेल्या GEdit-Bench इमेज एडिटिंग बेंचमार्क मध्ये, Step1X-Edit ने सिमेंटिक सातत्य, इमेज गुणवत्ता आणि एकूण स्कोअरमध्ये विद्यमान ओपन-सोर्स मॉडेल्सला मागे टाकले आहे, जे GPT-4o आणि Gemini 2.0 Flash च्या कामगिरीला टक्कर देते.
सिमेंटिक अचूकता विश्लेषण
हे मॉडेल नैसर्गिक भाषेत वर्णन केलेल्या सूचनांच्या जटिल संयोजनांना समर्थन देते. या सूचनांना टेम्पलेटची आवश्यकता नाही, ज्यामुळे मॉडेल लवचिक बनते आणि मल्टी-टर्न, मल्टी-टास्क एडिटिंग गरजा हाताळण्यास सक्षम होते. हे प्रतिमांमधील मजकूर ओळखणे, बदलणे आणि पुनर्रचना करण्यास देखील समर्थन देते.
- जटिल नैसर्गिक भाषा वर्णनांना समर्थन देते
- निश्चित टेम्पलेटची आवश्यकता नाही
- मल्टी-टर्न, मल्टी-टास्क एडिटिंग करण्यास सक्षम
- प्रतिमांमधील मजकूर ओळखते, बदलते आणि पुनर्रचना करते
ओळख सातत्य राखणे
हे मॉडेल संपादनानंतर चेहऱ्यावरील वैशिष्ट्ये, हावभाव आणि ओळखीची वैशिष्ट्ये सातत्याने जपते. हे व्हर्च्युअल ह्यूमन, ई-कॉमर्स मॉडेल्स आणि सोशल मीडिया इमेज यांसारख्या उच्च सातत्य आवश्यकता असलेल्या परिस्थितींसाठी योग्य आहे.
- चेहऱ्यावरील वैशिष्ट्ये राखते
- हावभाव जपते
- ओळखीची वैशिष्ट्ये टिकवून ठेवते
- व्हर्च्युअल ह्यूमन, ई-कॉमर्स मॉडेल्स आणि सोशल मीडियासाठी आदर्श
उच्च-परिशुद्धता प्रादेशिक नियंत्रण
हे मॉडेल विशिष्ट क्षेत्रांमधील मजकूर, साहित्य, रंग आणि इतर घटकांच्या लक्ष्यित संपादनास समर्थन देते. हे एकसंध इमेज शैली राखते आणि अधिक अचूक नियंत्रण देते.
- विशिष्ट क्षेत्रांमध्ये लक्ष्यित संपादन
- मजकूर, साहित्य आणि रंग नियंत्रित करते
- एकसंध इमेज शैली राखते
- अधिक अचूक नियंत्रण देते
आर्किटेक्चरल नवोपक्रम
Step1X-Edit MLLM (मल्टीमॉडल LLM) + डिफ्यूजनचे डीकपल्ड आर्किटेक्चर वापरते, जे नैसर्गिक भाषेचे आकलन आणि उच्च-निष्ठा इमेज जनरेशन स्वतंत्रपणे हाताळते. विद्यमान इमेज एडिटिंग मॉडेल्सच्या तुलनेत, या आर्किटेक्चरमध्ये सूचना सामान्यीकरण क्षमता आणि इमेज नियंत्रणीयतेमध्ये फायदे आहेत.
MLLM मॉड्यूल
MLLM मॉड्यूल नैसर्गिक भाषेतील सूचना आणि इमेज सामग्रीवर प्रक्रिया करण्यासाठी जबाबदार आहे. यात मल्टीमॉडल सिमेंटिक आकलन क्षमता आहे, जी जटिल संपादन आवश्यकतांना सुप्त नियंत्रण सिग्नलमध्ये रूपांतरित करू शकते.
- नैसर्गिक भाषेतील सूचनांवर प्रक्रिया करते
- इमेज सामग्री हाताळते
- मल्टीमॉडल सिमेंटिक आकलन
- जटिल संपादन आवश्यकतांचे विश्लेषण करते
डिफ्यूजन मॉड्यूल
डिफ्यूजन मॉड्यूल इमेज जनरेटर (इमेज डिकोडर) म्हणून काम करते, MLLM द्वारे व्युत्पन्न केलेल्या सुप्त सिग्नलवर आधारित प्रतिमांचे पुनर्गठन किंवा स्थानिक बदल पूर्ण करते. हे इमेज तपशील जतन करणे आणि शैलीची सुसंगतता सुनिश्चित करते.
- इमेज जनरेटर (इमेज डिकोडर)
- प्रतिमांचे पुनर्गठन करते
- स्थानिक पातळीवर प्रतिमांमध्ये बदल करते
- इमेज तपशील आणि शैली जतन करते
ही रचना पारंपरिक पाइपलाइन मॉडेल्समधील स्वतंत्र ‘आकलन’ आणि ‘जनरेशन’ चा मुद्दा संबोधित करते. यामुळे मॉडेलला जटिल संपादन सूचना अंमलात आणताना उच्च अचूकता आणि नियंत्रण मिळते.
प्रशिक्षण डेटा
जटिल इमेज एडिटिंग कार्यांच्या विस्तृत श्रेणीला समर्थन देण्यासाठी, Step1X-Edit ने उद्योग-अग्रणी इमेज एडिटिंग प्रशिक्षण डेटासेट तयार केला आहे. हे 20 दशलक्ष इमेज-टेक्स्ट इंस्ट्रक्शन ट्रिपलेट्स तयार करते आणि अखेरीस 1 दशलక్ష उच्च-गुणवत्तेचे नमुने ठेवते. डेटामध्ये मजकूर बदलणे, कृती निर्माण करणे, शैली हस्तांतरण आणि पार्श्वभूमी समायोजन यासारख्या वारंवार विनंती केलेल्या वैशिष्ट्यांसह 11 मुख्य कार्य प्रकारांचा समावेश आहे. कार्यांचे प्रकार समान रीतीने वितरीत केले जातात आणि सूचना भाषा नैसर्गिक आणि वास्तववादी आहे.
- उद्योग-अग्रणी प्रशिक्षण डेटासेट
- 20 दशलక్ష इमेज-टेक्स्ट इंस्ट्रक्शन ट्रिपलेट्स
- 1 दशलక్ష उच्च-गुणवत्तेचे नमुने
- 11 मुख्य कार्य प्रकार
- समान रीतीने वितरीत केलेले कार्य प्रकार
कार्यप्रदर्शन मूल्यांकन
Step1X-Edit इमेज एडिटिंगच्या 11 उप-कार्यांमध्ये सातत्याने उच्च-गुणवत्तेचे आउटपुट राखते. त्याची क्षमता संतुलित आहे आणि ते जवळजवळ सर्व कार्य आयामांमध्ये आघाडीवर आहे, जे त्याची मजबूत अष्टपैलुत्व आणि समतोल दर्शवते.
GEdit-Bench बेंचमार्क
मॉडेल मूल्यांकनासाठी स्व-विकसित GEdit-Bench बेंचमार्क वापरला जातो. व्यक्तिचलितरित्या संश्लेषित केलेल्या कार्य संग्रहांपेक्षा वेगळे, हा बेंचमार्क वास्तविक समुदाय संपादन विनंत्यांमधून येतो, जे उत्पादन गरजेच्या अधिक जवळ आहे.
- स्व-विकसित बेंचमार्क
- वास्तविक समुदाय संपादन विनंत्या
- उत्पादन गरजेच्या अधिक जवळ
Step1X-Edit GEdit-Bench च्या तीन मुख्य निर्देशकांमध्ये विद्यमान ओपन-सोर्स मॉडेल्सपेक्षा लक्षणीयरीत्या पुढे आहे. हे GPT-4o च्या जवळपास कार्य करते, भाषेचे आकलन आणि इमेज पुनर्रचना यांच्यात एक आदर्श संतुलन साधते.
क्षमतांचे तपशीलवार परीक्षण
Step1X-Edit केवळ प्रतिमांमध्ये बदल करण्याबद्दल नाही; तर संपादनांमागील हेतू खऱ्या अर्थाने समजून घेणे, अचूकतेने अंमलात आणणे आणि मूळ प्रतिमेची अखंडता जतन करणे आहे. मुख्य क्षमता - सिमेंटिक अचूकता, ओळख सातत्य आणि उच्च-परिशुद्धता प्रादेशिक नियंत्रण - आधुनिक इमेज एडिटिंगच्या सूक्ष्म मागण्या पूर्ण करण्यासाठी डिझाइन केलेले आहेत.
सिमेंटिक अचूकता विश्लेषणाची सखोलता
Step1X-Edit चे सिमेंटिक अचूकता विश्लेषण केवळ साध्या कीवर्ड ओळखीच्या पलीकडे जाते. हे नैसर्गिक भाषेतील वर्णनांच्या संदर्भात खोलवर जाते, सूचनांच्या जटिल संयोजनांना समजून घेते. कठोर टेम्पलेट्सवर अवलंबून असलेल्या सिस्टीमच्या विपरीत, Step1X-Edit मुक्त-स्वरूपातील भाषेचा अर्थ लावू शकते, ज्यामुळे ते विविध संपादन परिस्थितींमध्ये अत्यंत अनुकूल होते. हे मल्टी-टर्न आणि मल्टी-टास्क एडिटिंग अखंडपणे हाताळते, सुसंगत परिणाम तयार करण्यासाठी क्रमिक सूचनांमधील संबंध समजून घेते.
हे उदाहरण विचारात घ्या: एका वापरकर्त्याला प्रतिमेतील एका बोर्डवरील मजकूर बदलायचा आहे आणि नंतर बोर्डचा रंग एका वेगळ्या थीमशी जुळवण्यासाठी बदलायचा आहे. Step1X-Edit केवळ मजकूर बदलत नाही आणि रंग बदलत नाही; तर बोर्ड ही एकच वस्तू आहे हे समजून घेते आणि मजकूर आणि रंगातील बदल एकमेकांशी आणि संपूर्ण प्रतिमेशी सुसंगत आहेत याची खात्री करते. याव्यतिरिक्त, मॉडेल प्रतिमांमधील मजकूर ओळखू आणि पुनर्रचना करू शकते, जरी तो अंशतः अस्पष्ट किंवा विकृत असला तरीही. ही क्षमता विशेषत: स्कॅन केलेल्या कागदपत्रांचे किंवा आच्छादित मजकूर असलेल्या प्रतिमांचे संपादन करण्यासाठी उपयुक्त आहे.
ओळख सातत्य देखभालीचे स्पष्टीकरण
प्रतिमांमध्ये बदल केल्यानंतरही विषय ओळखण्यायोग्य राहणे आवश्यक असलेल्या परिस्थितीत ओळख सातत्य राखणे महत्वाचे आहे. हे विशेषतः व्हर्च्युअल ह्यूमन ॲप्लिकेशन्स, ई-कॉमर्स मॉडेलिंग आणि सोशल मीडिया सामग्री निर्मितीमध्ये महत्वाचे आहे. Step1X-Edit हे सुनिश्चित करते की चेहऱ्यावरील वैशिष्ट्ये, हावभाव आणि अद्वितीय ओळख वैशिष्ट्ये संपादन प्रक्रियेदरम्यान जतन केली जातील.
उदाहरणार्थ, जर एखाद्या वापरकर्त्याला प्रतिमेतील व्हर्च्युअल मॉडेलचा पोशाख बदलायचा असेल, तर Step1X-Edit मॉडेलची चेहऱ्यावरील वैशिष्ट्ये, केशरचना आणि शरीराचे प्रमाण राखते, हे सुनिश्चित करते की संपादित केलेली प्रतिमा मूळ मॉडेलचे अचूकपणे प्रतिनिधित्व करते. त्याचप्रमाणे, ई-कॉमर्समध्ये, जिथे मॉडेल उत्पादने दर्शवतात, तेथे ग्राहकांना गोंधळ होऊ नये म्हणून मॉडेलचा देखावा वेगवेगळ्या प्रतिमांमध्ये सुसंगत असणे आवश्यक आहे.
उच्च-परिशुद्धता प्रादेशिक नियंत्रण वर्धित
उच्च-परिशुद्धता प्रादेशिक नियंत्रण वापरकर्त्यांना दृश्याच्या उर्वरित भागावर परिणाम न करता प्रतिमेच्या विशिष्ट क्षेत्रांमध्ये लक्ष्यित संपादन करण्यास सक्षम करते. ही क्षमता अशा कार्यांसाठी आवश्यक आहे ज्यांना बारीक-बारीक समायोजनांची आवश्यकता असते, जसे की कपड्यांचा रंग बदलणे, वस्तूची रचना बदलणे किंवा विशिष्ट प्रदेशात विशिष्ट घटक जोडणे. Step1X-Edit वापरकर्त्यांना विशिष्ट क्षेत्रे निवडण्याची आणि उल्लेखनीय अचूकतेने संपादन लागू करण्याची परवानगी देते, हे सुनिश्चित करते की बदल विद्यमान प्रतिमेशी अखंडपणे मिसळतात.
अशी कल्पना करा की एका वापरकर्त्याला फोटोमधील कारचा रंग बदलायचा आहे, परंतु प्रतिबिंब आणि सावल्या अक्षत ठेवायच्या आहेत. Step1X-Edit कारला वेगळे करू शकते, तिचा रंग बदलू शकते आणि मूळ प्रकाश प्रभाव जतन करू शकते, ज्यामुळे एक वास्तववादी आणि दृश्यास्पद परिणाम मिळतो. मॉडेल हे देखील सुनिश्चित करते की प्रतिमेची एकूण शैली आणि सौंदर्यशास्त्र सुसंगत राहतील, संपादित केलेले क्षेत्र विसंगत दिसत नाहीत.
आर्किटेक्चर डीकोडिंग: MLLM + डिफ्यूजन
Step1X-Edit चे डीकपल्ड आर्किटेक्चर, मल्टीमॉडल लार्ज लँग्वेज मॉडेल (MLLM) आणि डिफ्यूजन मॉडेल्स एकत्र करून, इमेज एडिटिंग तंत्रज्ञानामध्ये एक महत्त्वपूर्ण प्रगती दर्शवते. हे डिझाइन श्रम विभागणीस अनुमती देते जिथे नैसर्गिक भाषेचे आकलन आणि उच्च-निष्ठा इमेज जनरेशन स्वतंत्र मॉड्यूल्सद्वारे हाताळले जातात जे त्यांच्या संबंधित कार्यांसाठी अनुकूलित केलेले असतात.
MLLM मॉड्यूलमध्ये सखोल जा
MLLM मॉड्यूल सिस्टीमच्या मेंदूचे काम करते, नैसर्गिक भाषेतील सूचना आणि इमेज सामग्री समजून घेण्यासाठी आणि त्यांचा अर्थ लावण्यासाठी जबाबदार असते. यात प्रगत मल्टीमॉडल सिमेंटिक आकलन क्षमता आहे, ज्यामुळे ते जटिल संपादन आवश्यकतांना कृती करण्यायोग्य सुप्त नियंत्रण सिग्नलमध्ये रूपांतरित करण्यास सक्षम होते. या प्रक्रियेमध्ये सूचनांच्या भाषिक संरचनेचे विश्लेषण करणे, सुधारित केले जाणारे मुख्य घटक ओळखणे आणि प्रतिमेच्या वेगवेगळ्या भागांमधील संबंध समजून घेणे समाविष्ट आहे.
MLLM मॉड्यूल संपादन सूचनांना अशा प्रतिनिधित्वामध्ये मॅप करण्यासाठी अत्याधुनिक अल्गोरिदम वापरते जे डिफ्यूजन मॉड्यूल समजू शकते. हे प्रतिनिधित्व सूचनांचा सिमेंटिक अर्थ जतन करते आणि परिणामी संपादन वापरकर्त्याच्या हेतूशी जुळतात याची खात्री करते. उदाहरणार्थ, जर एखाद्या वापरकर्त्याने “पार्श्वभूमीमध्ये सूर्यास्त जोडा” असे करण्यास सांगितले, तर MLLM मॉड्यूल पार्श्वभूमी क्षेत्र ओळखते, सूर्यास्ताची संकल्पना ओळखते आणि एक नियंत्रण सिग्नल व्युत्पन्न करते जे डिफ्यूजन मॉड्यूलला निर्दिष्ट क्षेत्रात वास्तववादी सूर्यास्त तयार करण्यास सूचना देते.
डिफ्यूजन मॉड्यूलचे स्पष्टीकरण
डिफ्यूजन मॉड्यूल कलाकाराचे काम करते, MLLM मॉड्यूलद्वारे व्युत्पन्न केलेले सुप्त नियंत्रण सिग्नल घेते आणि उच्च निष्ठेने प्रतिमांचे पुनर्गठन किंवा सुधारणा करण्यासाठी त्यांचा वापर करते. हे मॉड्यूल डिफ्यूजन नावाची प्रक्रिया वापरते, ज्यामध्ये हळूहळू प्रतिमेत आवाज जोडणे आणि नंतर नवीन प्रतिमा व्युत्पन्न करण्यासाठी किंवा विद्यमान प्रतिमा सुधारण्यासाठी ही प्रक्रिया उलटणे शिकणे समाविष्ट आहे. डिफ्यूजन मॉड्यूलला प्रतिमांच्या विस्तृत डेटासेटवर प्रशिक्षित केले जाते, ज्यामुळे ते वास्तववादी आणि दृश्यास्पद परिणाम व्युत्पन्न करण्यास सक्षम होते.
डिफ्यूजन मॉड्यूल हे सुनिश्चित करते की सुधारित प्रतिमा मूळ प्रतिमेचे तपशील, टेक्सचर आणि प्रकाश प्रभाव जतन करते, विद्यमान सामग्रीमध्ये बदल अखंडपणे मिसळतात. हे संपादनची शैली प्रतिमेच्या एकूण सौंदर्याशी जुळवून घेऊ शकते, एक सुसंगत आणि सामंजस्यपूर्ण परिणाम तयार करते. उदाहरणार्थ, जर एखाद्या वापरकर्त्याला “प्रतिमा चित्रासारखी बनवा” असे करण्यास सांगितले, तर डिफ्यूजन मॉड्यूल मूळ रचना आणि सामग्री जतन करताना प्रतिमेला एका आकर्षक चित्रात रूपांतरित करण्यासाठी कलात्मक फिल्टर आणि टेक्सचर लागू करू शकते.
समन्वय: डीकपलिंगची शक्ती
Step1X-Edit चे डीकपल्ड आर्किटेक्चर पारंपरिक इमेज एडिटिंग मॉडेल्सच्या मूलभूत मर्यादेला संबोधित करते, जिथे ‘समज’ आणि ‘उत्पादन’ हे बहुतेक वेळा एकमेकांशी जोडलेले असतात आणि त्यांच्या संबंधित कार्यांसाठी अनुकूलित केलेले नसतात. या कार्यांना वेगळ्या मॉड्यूल्समध्ये विभाजित करून, Step1X-Edit जटिल संपादन सूचना अंमलात आणताना उच्च अचूकता आणि नियंत्रण मिळवते. MLLM मॉड्यूल वापरकर्त्याचा हेतू अचूकपणे समजून घेण्यावर लक्ष केंद्रित करू शकते, तर डिफ्यूजन मॉड्यूल निर्दिष्ट आवश्यकता पूर्ण करणार्या उच्च-गुणवत्तेच्या प्रतिमा व्युत्पन्न करण्यावर लक्ष केंद्रित करू शकते.
MLLM आणि डिफ्यूजन मॉड्यूल्समधील हा समन्वय Step1X-Edit ला उल्लेखनीय अचूकता आणि सातत्याने संपादनाची विस्तृत श्रेणी हाताळण्यास सक्षम करतो. प्रतिमेमध्ये सूक्ष्म समायोजन करणे असो किंवा जटिल रूपांतरण करणे असो, Step1X-Edit दृश्यदृष्ट्या आकर्षक आणि सिमेंटिकदृष्ट्या अचूक असलेले परिणाम देऊ शकते. डीकपल्ड आर्किटेक्चर मॉडेलला अधिक मॉड्यूलर आणि अद्यतनित करणे सोपे करते, ज्यामुळे विकासकांना त्याचे कार्यप्रदर्शन आणि क्षमता सतत सुधारता येतात.
डेटासेट इंजिनीअरिंग: कार्यक्षमतेचा आधार
Step1X-Edit हाताळू शकणार्या विविध आणि जटिल इमेज एडिटिंग कार्यांना समर्थन देण्यासाठी, विकासकांनी उद्योग-अग्रणी इमेज एडिटिंग प्रशिक्षण डेटासेट तयार केला. या डेटासेटमध्ये इमेज-टेक्स्ट इंस्ट्रक्शन ट्रिपलेट्सचा विस्तृत संग्रह आहे, ज्याचा उपयोग मॉडेलला विस्तृत संपादन आदेश समजून घेण्यासाठी आणि अंमलात आणण्यासाठी प्रशिक्षित करण्यासाठी केला जातो. डेटासेटमध्ये 20 दशलक्ष ट्रिपलेट्स आहेत, ज्यापैकी 1 दशलक्षाहून अधिक उच्च-गुणवत्तेचे नमुने आहेत जे अचूकता आणि सुसंगतता सुनिश्चित करण्यासाठी काळजीपूर्वक निवडले गेले आहेत.
डेटा 11 मुख्य कार्य प्रकारांना कव्हर करतो, ज्यात मजकूर बदलणे, ऑब्जेक्ट काढणे, शैली हस्तांतरण आणि पार्श्वभूमी समायोजन यासारख्या वारंवार विनंती केलेल्या वैशिष्ट्यांचा समावेश आहे. हे कार्य प्रकार संपूर्ण डेटासेटमध्ये समान रीतीने वितरीत केले जातात, हे सुनिश्चित करतात की मॉडेलला संतुलित प्रशिक्षण मिळेल आणि ते विविध संपादन परिस्थितींमध्ये चांगले कार्य करू शकेल. डेटासेटमध्ये वापरलेली सूचना भाषा नैसर्गिक आणि वास्तववादी आहे, जी प्रतिमा संपादन करण्याची विनंती करताना लोक ज्या प्रकारे संवाद साधतात त्याचे प्रतिबिंब आहे.
डेटासेटमध्ये जटिल आणि सूक्ष्म संपादन सूचनांची उदाहरणे देखील समाविष्ट आहेत, जसे की “प्रतिमा अधिक जुनी (vintage) बनवा” किंवा “दृश्यात नाट्यमयता (drama) आणा.” या सूचनांसाठी मॉडेलला अमूर्त संकल्पना समजून घेणे आणि त्या प्रतिमेवर सर्जनशील आणि दृश्यास्पद पद्धतीने लागू करणे आवश्यक आहे. डेटासेटमधील विविधता आणि समृद्धता Step1X-Edit च्या कार्यक्षमतेतील महत्त्वपूर्ण घटक आहेत, ज्यामुळे ते उल्लेखनीय अचूकता आणि अष्टपैलुत्वाने संपादन कार्यांची विस्तृत श्रेणी हाताळण्यास सक्षम आहे.
बेंचमार्किंग उत्कृष्टता: GEdit-Bench
Step1X-Edit च्या कार्यक्षमतेचे कठोरपणे मूल्यांकन करण्यासाठी, विकासकांनी GEdit-Bench नावाचे स्व-विकसित बेंचमार्क तयार केले. हे बेंचमार्क विविध इमेज एडिटिंग परिस्थितींमध्ये मॉडेलच्या क्षमतेचे सर्वसमावेशक मूल्यांकन करण्यासाठी डिझाइन केलेले आहे. व्यक्तिचलितपणे संश्लेषित केलेल्या कार्य संग्रहांपेक्षा वेगळे, GEdit-Bench वास्तविक समुदाय संपादन विनंत्यांमधून त्याची कार्ये काढतो, ज्यामुळे ते वास्तविक-जगात ॲप्लिकेशन्समध्ये मॉडेलच्या कार्यक्षमतेचे अधिक वास्तववादी आणि संबंधित उपाय बनते.
GEdit-Bench मधील कार्यांमध्ये मजकूर बदलणे, ऑब्जेक्ट काढणे, शैली हस्तांतरण आणि पार्श्वभूमी समायोजन यासह संपादन कार्यांची विस्तृत श्रेणी समाविष्ट आहे. बेंचमार्क मध्ये अशी कार्ये देखील समाविष्ट आहेत ज्यासाठी मॉडेलला जटिल आणि सूक्ष्म सूचना समजून घेणे आणि अंमलात आणणे आवश्यक आहे, जसे की “प्रतिमा अधिक व्यावसायिक (professional) बनवा” किंवा “दृश्यात उष्णता (warmth) आणा.” GEdit-Bench वास्तविक-जगात परिस्थितींमध्ये मॉडेलच्या कार्यक्षमतेचे अधिक अचूक आणि विश्वसनीय मूल्यांकन प्रदान करते.
Step1X-Edit ने GEdit-Bench वर उल्लेखनीय परिणाम प्राप्त केले आहेत, विद्यमान ओपन-सोर्स मॉडेल्सला तीन मुख्य निर्देशकांमध्ये मागे टाकले आहे: सिमेंटिक सुसंगतता, इमेज गुणवत्ता आणि एकूण स्कोअर. मॉडेलचे कार्यप्रदर्शन GPT-4o च्या जवळपास आहे, जे भाषा आकलन आणि इमेज पुनर्रचना यांच्यात एक आदर्श संतुलन साधण्याची क्षमता दर्शवते.
शेवटी, Step1X-Edit ओपन-सोर्स इमेज एडिटिंग तंत्रज्ञानामध्ये एक महत्त्वपूर्ण प्रगती दर्शवते. त्याचे डीकपल्ड आर्किटेक्चर, विस्तृत प्रशिक्षण डेटासेट आणि कठोर बेंचमार्किंग हे संपादन कार्यांच्या विस्तृत श्रेणीसाठी एक शक्तिशाली आणि अष्टपैलू साधन बनवते. आपण व्यावसायिक छायाचित्रकार असाल, सोशल मीडिया उत्साही असाल किंवा फक्त आपल्या प्रतिमा वाढवू इच्छित असाल, Step1X-Edit आपल्याला उल्लेखनीय अचूकता आणि सुलभतेने आपले ध्येय साध्य करण्यात मदत करू शकते.