Step1X-Edit: एक अभूतपूर्व ओपन-सोर्स इमेज एडिटिंग मॉडल

StepFun द्वारा विकसित Step1X-Edit, एक ओपन-सोर्स इमेज एडिटिंग मॉडल जारी किया गया है, जो अत्याधुनिक (SOTA) प्रदर्शन प्राप्त कर रहा है। यह मॉडल, जिसमें 19 बिलियन पैरामीटर (7B MLLM + 12B DiT) हैं, तीन प्रमुख क्षेत्रों में उत्कृष्टता प्राप्त करता है: सटीक सिमेंटिक विश्लेषण, सुसंगत पहचान संरक्षण और उच्च-सटीक क्षेत्र-स्तरीय नियंत्रण। यह टेक्स्ट रिप्लेसमेंट, स्टाइल ट्रांसफर, मटेरियल ट्रांसफॉर्मेशन और पोर्ट्रेट रीटचिंग सहित 11 प्रकार के लगातार इमेज एडिटिंग कार्यों का समर्थन करता है। Step1X-Edit को सटीक रूप से समझने, संशोधित करने और विवरणों को प्रभावी ढंग से संरक्षित करने के लिए डिज़ाइन किया गया है।

Step1X-Edit की मुख्य क्षमताएं

Step1X-Edit मल्टीमॉडल लार्ज लैंग्वेज मॉडल (MLLM) और डिफ्यूजन मॉडल को एकीकृत करता है, जिससे ओपन-सोर्स फ्रेमवर्क के भीतर एडिटिंग सटीकता और इमेज फिडेलिटी में महत्वपूर्ण सुधार होता है। नए जारी किए गए GEdit-Bench इमेज एडिटिंग बेंचमार्क में, Step1X-Edit सिमेंटिक कंसिस्टेंसी, इमेज क्वालिटी और समग्र स्कोर में मौजूदा ओपन-सोर्स मॉडल से बेहतर प्रदर्शन करता है, जो GPT-4o और Gemini 2.0 Flash के प्रदर्शन के बराबर है।

सिमेंटिक प्रेसिजन एनालिसिस

यह मॉडल प्राकृतिक भाषा में वर्णित निर्देशों के जटिल संयोजनों का समर्थन करता है। इन निर्देशों को किसी टेम्पलेट की आवश्यकता नहीं होती है, जिससे मॉडल लचीला हो जाता है और मल्टी-टर्न, मल्टी-टास्क एडिटिंग आवश्यकताओं को संभालने में सक्षम होता है। यह छवियों में टेक्स्ट की पहचान, प्रतिस्थापन और पुनर्निर्माण का भी समर्थन करता है।

  • जटिल प्राकृतिक भाषा विवरणों का समर्थन करता है
  • किसी निश्चित टेम्पलेट की आवश्यकता नहीं है
  • मल्टी-टर्न, मल्टी-टास्क एडिटिंग में सक्षम
  • छवियों में टेक्स्ट की पहचान, प्रतिस्थापन और पुनर्निर्माण करता है

पहचान कंसिस्टेंसी रखरखाव

मॉडल एडिटिंग के बाद चेहरे की विशेषताओं, मुद्राओं और पहचान विशेषताओं को लगातार बनाए रखता है। यह उच्च स्थिरता आवश्यकताओं वाले परिदृश्यों के लिए उपयुक्त है, जैसे कि वर्चुअल ह्यूमन, ई-कॉमर्स मॉडल और सोशल मीडिया चित्र।

  • चेहरे की विशेषताओं को बनाए रखता है
  • मुद्राओं को संरक्षित करता है
  • पहचान विशेषताओं को बरकरार रखता है
  • वर्चुअल ह्यूमन, ई-कॉमर्स मॉडल और सोशल मीडिया के लिए आदर्श

उच्च-सटीक क्षेत्रीय नियंत्रण

मॉडल विशिष्ट क्षेत्रों में टेक्स्ट, मटेरियल, रंगों और अन्य तत्वों के लक्षित एडिटिंग का समर्थन करता है। यह एक एकीकृत इमेज स्टाइल बनाए रखता है और अधिक सटीक नियंत्रण प्रदान करता है।

  • विशिष्ट क्षेत्रों में लक्षित एडिटिंग
  • टेक्स्ट, मटेरियल और रंगों को नियंत्रित करता है
  • एक एकीकृत इमेज स्टाइल बनाए रखता है
  • अधिक सटीक नियंत्रण प्रदान करता है

आर्किटेक्चरल इनोवेशन

Step1X-Edit MLLM (मल्टीमॉडल LLM) + डिफ्यूजन के एक डीकपल्ड आर्किटेक्चर को नियोजित करता है, जो प्राकृतिक भाषा की समझ और उच्च-निष्ठा इमेज जनरेशन को अलग-अलग संभालता है। मौजूदा इमेज एडिटिंग मॉडल की तुलना में, इस आर्किटेक्चर में निर्देश सामान्यीकरण क्षमता और इमेज नियंत्रणीयता में फायदे हैं।

MLLM मॉड्यूल

MLLM मॉड्यूल प्राकृतिक भाषा के निर्देशों और इमेज सामग्री को संसाधित करने के लिए जिम्मेदार है। इसमें मल्टीमॉडल सिमेंटिक समझ क्षमताएं हैं, जो जटिल एडिटिंग आवश्यकताओं को अव्यक्त नियंत्रण संकेतों में पार्स कर सकती हैं।

  • प्राकृतिक भाषा के निर्देशों को संसाधित करता है
  • इमेज सामग्री को संभालता है
  • मल्टीमॉडल सिमेंटिक समझ
  • जटिल एडिटिंग आवश्यकताओं को पार्स करता है

डिफ्यूजन मॉड्यूल

डिफ्यूजन मॉड्यूल एक इमेज जनरेटर (इमेज डिकोडर) के रूप में कार्य करता है, जो MLLM द्वारा उत्पन्न अव्यक्त संकेतों के आधार पर छवियों के पुनर्निर्माण या स्थानीय संशोधन को पूरा करता है। यह इमेज विवरणों के संरक्षण और स्टाइल की स्थिरता सुनिश्चित करता है।

  • इमेज जनरेटर (इमेज डिकोडर)
  • छवियों का पुनर्निर्माण करता है
  • स्थानीय रूप से छवियों को संशोधित करता है
  • इमेज विवरणों और स्टाइल को संरक्षित करता है

यह संरचना पारंपरिक पाइपलाइन मॉडल में अलग ‘समझ’ और ‘जनरेशन’ के मुद्दे को संबोधित करती है। यह मॉडल को जटिल एडिटिंग निर्देशों को निष्पादित करते समय उच्च सटीकता और नियंत्रण रखने में सक्षम बनाता है।

प्रशिक्षण डेटा

जटिल इमेज एडिटिंग कार्यों की एक विस्तृत श्रृंखला का समर्थन करने के लिए, Step1X-Edit ने एक उद्योग-अग्रणी इमेज एडिटिंग प्रशिक्षण डेटासेट बनाया है। यह 20 मिलियन इमेज-टेक्स्ट निर्देश ट्रिपलेट उत्पन्न करता है और अंततः 1 मिलियन से अधिक उच्च-गुणवत्ता वाले नमूनों को बरकरार रखता है। डेटा में 11 मुख्य कार्य प्रकार शामिल हैं, जिनमें टेक्स्ट रिप्लेसमेंट, एक्शन जनरेशन, स्टाइल ट्रांसफर और बैकग्राउंड एडजस्टमेंट जैसी अक्सर अनुरोध की जाने वाली विशेषताएं शामिल हैं। कार्य प्रकार समान रूप से वितरित किए जाते हैं, और निर्देश भाषा प्राकृतिक और यथार्थवादी है।

  • उद्योग-अग्रणी प्रशिक्षण डेटासेट
  • 20 मिलियन इमेज-टेक्स्ट निर्देश ट्रिपलेट
  • 1 मिलियन उच्च-गुणवत्ता वाले नमूने
  • 11 मुख्य कार्य प्रकार
  • समान रूप से वितरित कार्य प्रकार

प्रदर्शन मूल्यांकन

Step1X-Edit लगातार इमेज एडिटिंग के 11 उप-कार्यों में उच्च-गुणवत्ता वाले आउटपुट को बनाए रखता है। इसकी क्षमताएं अच्छी तरह से संतुलित हैं, और यह लगभग सभी कार्य आयामों में सबसे आगे है, जो इसकी मजबूत बहुमुखी प्रतिभा और संतुलन को दर्शाता है।

GEdit-Bench बेंचमार्क

मॉडल मूल्यांकन एक स्व-विकसित GEdit-Bench बेंचमार्क का उपयोग करता है। मैन्युअल रूप से संश्लेषित कार्य संग्रहों के विपरीत, यह बेंचमार्क वास्तविक समुदाय एडिटिंग अनुरोधों से आता है, जो उत्पाद की जरूरतों के करीब हैं।

  • स्व-विकसित बेंचमार्क
  • वास्तविक समुदाय एडिटिंग अनुरोध
  • उत्पाद की जरूरतों के करीब

Step1X-Edit GEdit-Bench के तीन मुख्य संकेतकों में मौजूदा ओपन-सोर्स मॉडल का महत्वपूर्ण रूप से नेतृत्व करता है। यह GPT-4o के करीब प्रदर्शन करता है, भाषा की समझ और इमेज पुनर्निर्माण के बीच एक आदर्श संतुलन प्राप्त करता है।

क्षमताओं की विस्तृत जांच

Step1X-Edit सिर्फ छवियों को बदलने के बारे में नहीं है; यह वास्तव में संपादन के पीछे के इरादे को समझने, उन्हें सटीकता के साथ निष्पादित करने और मूल छवि की अखंडता की रक्षा करने के बारे में है। मुख्य क्षमताएं - सिमेंटिक प्रेसिजन, पहचान कंसिस्टेंसी और उच्च-सटीक क्षेत्र नियंत्रण - आधुनिक इमेज एडिटिंग की सूक्ष्म मांगों को संबोधित करने के लिए डिज़ाइन किए गए हैं।

गहराई से सिमेंटिक प्रेसिजन एनालिसिस

Step1X-Edit का सिमेंटिक प्रेसिजन एनालिसिस सरल कीवर्ड पहचान से परे जाता है। यह प्राकृतिक भाषा विवरणों के संदर्भ में गहराई से उतरता है, निर्देशों के जटिल संयोजनों को समझता है। उन प्रणालियों के विपरीत जो कठोर टेम्पलेट्स पर निर्भर करती हैं, Step1X-Edit मुक्त-रूप भाषा की व्याख्या कर सकती है, जिससे यह विभिन्न एडिटिंग परिदृश्यों के लिए अत्यधिक अनुकूल हो जाती है। यह मल्टी-टर्न और मल्टी-टास्क एडिटिंग को मूल रूप से संभालता है, सुसंगत परिणाम उत्पन्न करने के लिए क्रमिक निर्देशों के बीच संबंधों को समझता है।

इस उदाहरण पर विचार करें: एक उपयोगकर्ता किसी छवि में एक साइन पर टेक्स्ट बदलना चाहता है और फिर एक अलग थीम से मेल खाने के लिए साइन का रंग बदलना चाहता है। Step1X-Edit केवल टेक्स्ट को प्रतिस्थापित नहीं करता है और रंग नहीं बदलता है; यह समझता है कि साइन एक एकल वस्तु है और यह सुनिश्चित करता है कि टेक्स्ट और रंग परिवर्तन एक दूसरे और समग्र छविके अनुरूप हों। इसके अलावा, मॉडल छवियों के भीतर टेक्स्ट की पहचान और पुनर्निर्माण कर सकता है, भले ही वह आंशिक रूप से अस्पष्ट या विकृत हो। यह क्षमता स्कैन किए गए दस्तावेजों या ओवरलेड टेक्स्ट वाली छवियों को संपादित करने के लिए विशेष रूप से उपयोगी है।

पहचान कंसिस्टेंसी रखरखाव समझाया गया

पहचान कंसिस्टेंसी बनाए रखना उन परिदृश्यों में महत्वपूर्ण है जहां छवियों में विषयों को परिवर्तनों के बावजूद पहचानने योग्य रहने की आवश्यकता होती है। यह वर्चुअल ह्यूमन अनुप्रयोगों, ई-कॉमर्स मॉडलिंग और सोशल मीडिया सामग्री निर्माण में विशेष रूप से महत्वपूर्ण है। Step1X-Edit यह सुनिश्चित करता है कि चेहरे की विशेषताओं, मुद्राओं और अद्वितीय पहचान विशेषताओं को पूरी एडिटिंग प्रक्रिया के दौरान संरक्षित किया जाए।

उदाहरण के लिए, यदि कोई उपयोगकर्ता किसी छवि में एक वर्चुअल मॉडल की पोशाक को बदलना चाहता है, तो Step1X-Edit मॉडल की चेहरे की विशेषताओं, केश विन्यास और शरीर के अनुपात को बनाए रखता है, यह सुनिश्चित करता है कि संपादित छवि अभी भी मूल मॉडल का सटीक प्रतिनिधित्व करती है। इसी तरह, ई-कॉमर्स में, जहां मॉडल उत्पादों का प्रदर्शन करते हैं, ग्राहकों को भ्रमित करने से बचने के लिए मॉडल की उपस्थिति विभिन्न छवियों में सुसंगत रहनी चाहिए।

उच्च-सटीक क्षेत्रीय नियंत्रण बढ़ाया गया

उच्च-सटीक क्षेत्रीय नियंत्रण उपयोगकर्ताओं को दृश्य के बाकी हिस्सों को प्रभावित किए बिना छवि के विशिष्ट क्षेत्रों में लक्षित संपादन करने में सक्षम बनाता है। यह क्षमता उन कार्यों के लिए आवश्यक है जिनके लिए ठीक-ठाक समायोजन की आवश्यकता होती है, जैसे कि किसी परिधान का रंग बदलना, किसी वस्तु की बनावट को बदलना या किसी विशेष क्षेत्र में विशिष्ट तत्वों को जोड़ना। Step1X-Edit उपयोगकर्ताओं को विशिष्ट क्षेत्रों का चयन करने और उल्लेखनीय सटीकता के साथ संपादन लागू करने की अनुमति देता है, यह सुनिश्चित करता है कि परिवर्तन मौजूदा छवि के साथ मूल रूप से मिश्रित हों।

एक ऐसे परिदृश्य की कल्पना करें जहां एक उपयोगकर्ता एक तस्वीर में एक कार का रंग बदलना चाहता है लेकिन प्रतिबिंबों और छाया को बरकरार रखना चाहता है। Step1X-Edit कार को अलग कर सकता है, उसका रंग बदल सकता है और मूल प्रकाश प्रभावों को संरक्षित कर सकता है, जिससे एक यथार्थवादी और देखने में आकर्षक परिणाम बनता है। मॉडल यह भी सुनिश्चित करता है कि छवि की समग्र शैली और सौंदर्यशास्त्र सुसंगत रहे, जिससे संपादित क्षेत्रों को जगह से बाहर दिखने से रोका जा सके।

आर्किटेक्चर को डिकोड करना: MLLM + डिफ्यूजन

मल्टीमॉडल लार्ज लैंग्वेज मॉडल (MLLM) और डिफ्यूजन मॉडल के संयोजन से Step1X-Edit का डीकपल्ड आर्किटेक्चर इमेज एडिटिंग तकनीक में एक महत्वपूर्ण उन्नति का प्रतीक है। यह डिज़ाइन श्रम विभाजन की अनुमति देता है जहां प्राकृतिक भाषा की समझ और उच्च-निष्ठा इमेज जनरेशन को अलग-अलग मॉड्यूल द्वारा संभाला जाता है जो उनके संबंधित कार्यों के लिए अनुकूलित होते हैं।

MLLM मॉड्यूल में डीप डाइव

MLLM मॉड्यूल सिस्टम के मस्तिष्क के रूप में कार्य करता है, जो प्राकृतिक भाषा के निर्देशों और इमेज सामग्री दोनों को समझने और व्याख्या करने के लिए जिम्मेदार है। इसमें उन्नत मल्टीमॉडल सिमेंटिक समझ क्षमताएं हैं, जो जटिल एडिटिंग आवश्यकताओं को कार्रवाई योग्य अव्यक्त नियंत्रण संकेतों में विभाजित करने में सक्षम हैं। इस प्रक्रिया में निर्देशों की भाषाई संरचना का विश्लेषण करना, संशोधित किए जाने वाले प्रमुख तत्वों की पहचान करना और छवि के विभिन्न हिस्सों के बीच संबंधों को समझना शामिल है।

MLLM मॉड्यूल संपादन निर्देशों को एक ऐसे प्रतिनिधित्व के लिए मैप करने के लिए परिष्कृत एल्गोरिदम का उपयोग करता है जिसे डिफ्यूजन मॉड्यूल समझ सकता है। यह प्रतिनिधित्व निर्देशों के सिमेंटिक अर्थ को संरक्षित करने के तरीके से वांछित परिवर्तनों को एन्कोड करता है और यह सुनिश्चित करता है कि परिणामी संपादन उपयोगकर्ता के इरादे के साथ संरेखित हों। उदाहरण के लिए, यदि कोई उपयोगकर्ता ‘पृष्ठभूमि में एक सूर्यास्त जोड़ें’ करने के लिए कहता है, तो MLLM मॉड्यूल पृष्ठभूमि क्षेत्र की पहचान करता है, सूर्यास्त की अवधारणा को पहचानता है, और एक नियंत्रण संकेत उत्पन्न करता है जो डिफ्यूजन मॉड्यूल को निर्दिष्ट क्षेत्र में एक यथार्थवादी सूर्यास्त बनाने का निर्देश देता है।

डिफ्यूजन मॉड्यूल को स्पष्ट करना

डिफ्यूजन मॉड्यूल कलाकार के रूप में कार्य करता है, MLLM मॉड्यूल द्वारा उत्पन्न अव्यक्त नियंत्रण संकेतों को लेता है और उनका उपयोग उच्च निष्ठा के साथ छवि को पुनर्निर्माण या संशोधित करने के लिए करता है। यह मॉड्यूल डिफ्यूजन नामक एक प्रक्रिया को नियोजित करता है, जिसमें धीरे-धीरे छवि में शोर जोड़ना और फिर नई छवियों को उत्पन्न करने या मौजूदा छवियों को संशोधित करने के लिए इस प्रक्रिया को उलटने के लिए सीखना शामिल है। डिफ्यूजन मॉड्यूल को छवियों के एक विशाल डेटासेट पर प्रशिक्षित किया जाता है, जिससे यह यथार्थवादी और देखने में आकर्षक परिणाम उत्पन्न कर सकता है।

डिफ्यूजन मॉड्यूल यह सुनिश्चित करता है कि संशोधित छवि मूल छवि के विवरण, बनावट और प्रकाश प्रभावों को बनाए रखे, मौजूदा सामग्री के साथ परिवर्तनों को मूल रूप से मिश्रित करे। यह छवि के समग्र सौंदर्यशास्त्र से मेल खाने के लिए संपादन की शैली को भी अनुकूलित कर सकता है, जिससे एक सुसंगत और सामंजस्यपूर्ण परिणाम बन सकता है। उदाहरण के लिए, यदि कोई उपयोगकर्ता ‘छवि को एक पेंटिंग की तरह दिखाएं’ करना चाहता है, तो डिफ्यूजन मॉड्यूल कलात्मक फिल्टर और बनावट लागू कर सकता है ताकि छवि को एक ठोस पेंटिंग में बदला जा सके, जबकि मूल रचना और सामग्री को संरक्षित किया जा सके।

तालमेल: डीकपलिंग की शक्ति

Step1X-Edit का डीकपल्ड आर्किटेक्चर पारंपरिक इमेज एडिटिंग मॉडल की एक मौलिक सीमा को संबोधित करता है, जहां ‘समझ’ और ‘जनरेशन’ अक्सर आपस में जुड़े होते हैं और उनके संबंधित कार्यों के लिए अनुकूलित नहीं होते हैं। इन कार्यों को अलग-अलग मॉड्यूल में अलग करके, Step1X-Edit जटिल एडिटिंग निर्देशों को निष्पादित करते समय उच्च सटीकता और नियंत्रण प्राप्त करता है। MLLM मॉड्यूल उपयोगकर्ता के इरादे की सटीक व्याख्या करने पर ध्यान केंद्रित कर सकता है, जबकि डिफ्यूजन मॉड्यूल उच्च-गुणवत्ता वाली छवियां उत्पन्न करने पर ध्यान केंद्रित कर सकता है जो निर्दिष्ट आवश्यकताओं को पूरा करती हैं।

MLLM और डिफ्यूजन मॉड्यूल के बीच यह तालमेल Step1X-Edit को उल्लेखनीय सटीकता और स्थिरता के साथ संपादन कार्यों की एक विस्तृत श्रृंखला को संभालने में सक्षम बनाता है। चाहे वह किसी छवि में सूक्ष्म समायोजन कर रहा हो या जटिल परिवर्तन कर रहा हो, Step1X-Edit ऐसे परिणाम दे सकता है जो देखने में आकर्षक और सिमेंटिक रूप से सटीक दोनों हैं। डीकपल्ड आर्किटेक्चर मॉडल को अधिक मॉड्यूलर और अपडेट करने में आसान बनाता है, जिससे डेवलपर्स को इसके प्रदर्शन और क्षमताओं को लगातार बेहतर बनाने की अनुमति मिलती है।

डेटासेट इंजीनियरिंग: प्रदर्शन की नींव

विविध और जटिल इमेज एडिटिंग कार्यों का समर्थन करने के लिए जिन्हें Step1X-Edit संभाल सकता है, डेवलपर्स ने एक उद्योग-अग्रणी इमेज एडिटिंग प्रशिक्षण डेटासेट बनाया। इस डेटासेट में इमेज-टेक्स्ट निर्देश ट्रिपलेट का एक विशाल संग्रह शामिल है, जिसका उपयोग मॉडल को संपादन कमांड की एक विस्तृत श्रृंखला को समझने और निष्पादित करने के लिए प्रशिक्षित करने के लिए किया जाता है। डेटासेट में 20 मिलियन ट्रिपलेट शामिल हैं, जिनमें से 1 मिलियन से अधिक उच्च-गुणवत्ता वाले नमूने हैं जिन्हें सटीकता और स्थिरता सुनिश्चित करने के लिए सावधानीपूर्वक क्यूरेट किया गया है।

डेटा में 11 मुख्य कार्य प्रकार शामिल हैं, जिनमें टेक्स्ट रिप्लेसमेंट, एक्शन जनरेशन, स्टाइल ट्रांसफर और बैकग्राउंड एडजस्टमेंट जैसी अक्सर अनुरोध की जाने वाली विशेषताएं शामिल हैं। इन कार्य प्रकारों को पूरे डेटासेट में समान रूप से वितरित किया जाता है, जिससे यह सुनिश्चित होता है कि मॉडल को संतुलित प्रशिक्षण प्राप्त हो और वह विभिन्न संपादन परिदृश्यों में अच्छा प्रदर्शन कर सके। डेटासेट में उपयोग की जाने वाली निर्देश भाषा प्राकृतिक और यथार्थवादी है, जो छवियों के संपादन का अनुरोध करते समय लोगों के संवाद करने के तरीके को दर्शाती है।

डेटासेट में जटिल और सूक्ष्म संपादन निर्देशों के उदाहरण भी शामिल हैं, जैसे ‘छवि को और अधिक विंटेज दिखाएं’ या ‘दृश्य में नाटक की भावना जोड़ें’। इन निर्देशों के लिए मॉडल को अमूर्त अवधारणाओं को समझने और उन्हें रचनात्मक और देखने में आकर्षक तरीके से छवि पर लागू करने की आवश्यकता होती है। डेटासेट की विविधता और समृद्धि Step1X-Edit के प्रदर्शन में महत्वपूर्ण कारक हैं, जो इसे उल्लेखनीय सटीकता और बहुमुखी प्रतिभा के साथ संपादन कार्यों की एक विस्तृत श्रृंखला को संभालने में सक्षम बनाते हैं।

बेंचमार्किंग उत्कृष्टता: GEdit-Bench

Step1X-Edit के प्रदर्शन का कड़ाई से मूल्यांकन करने के लिए, डेवलपर्स ने GEdit-Bench नामक एक स्व-विकसित बेंचमार्क बनाया। इस बेंचमार्क को विभिन्न इमेज एडिटिंग परिदृश्यों में मॉडल की क्षमताओं का व्यापक मूल्यांकन प्रदान करने के लिए डिज़ाइन किया गया है। मैन्युअल रूप से संश्लेषित कार्य संग्रहों के विपरीत, GEdit-Bench वास्तविक समुदाय एडिटिंग अनुरोधों से अपने कार्यों को खींचता है, जिससे यह वास्तविक दुनिया के अनुप्रयोगों में मॉडल के प्रदर्शन का अधिक यथार्थवादी और प्रासंगिक माप बन जाता है।

GEdit-Bench में कार्य संपादन कार्यों की एक विस्तृत श्रृंखला को कवर करते हैं, जिसमें टेक्स्ट रिप्लेसमेंट, ऑब्जेक्ट रिमूवल, स्टाइल ट्रांसफर और बैकग्राउंड एडजस्टमेंट शामिल हैं। बेंचमार्क में ऐसे कार्य भी शामिल हैं जिनके लिए मॉडल को जटिल और सूक्ष्म निर्देशों को समझने और निष्पादित करने की आवश्यकता होती है, जैसे ‘छवि को और अधिक पेशेवर बनाएं’ या ‘दृश्य में गर्मी की भावना जोड़ें’। GEdit-Bench वास्तविक दुनिया के परिदृश्यों में मॉडल के प्रदर्शन का अधिक सटीक और विश्वसनीय मूल्यांकन प्रदान करता है।

Step1X-Edit ने GEdit-Bench पर उल्लेखनीय परिणाम प्राप्त किए हैं, जो सभी तीन मुख्य संकेतकों में मौजूदा ओपन-सोर्स मॉडल से आगे निकल गया है: सिमेंटिक कंसिस्टेंसी, इमेज क्वालिटी और समग्र स्कोर। मॉडल का प्रदर्शन GPT-4o के करीब है, जो भाषा की समझ और इमेज पुनर्निर्माण के बीच एक आदर्श संतुलन प्राप्त करने की अपनी क्षमता का प्रदर्शन करता है।

निष्कर्ष में, Step1X-Edit ओपन-सोर्स इमेज एडिटिंग तकनीक में एक महत्वपूर्ण उन्नति का प्रतिनिधित्व करता है। इसका डीकपल्ड आर्किटेक्चर, विशाल प्रशिक्षण डेटासेट और कठोर बेंचमार्किंग इसे संपादन कार्यों की एक विस्तृत श्रृंखला के लिए एक शक्तिशाली और बहुमुखी उपकरण बनाते हैं। चाहे आप एक पेशेवर फोटोग्राफर हों, सोशल मीडिया उत्साही हों, या बस कोई व्यक्ति जो अपनी छवियों को बढ़ाना चाहता है, Step1X-Edit आपको उल्लेखनीय सटीकता और आसानी के साथ अपने लक्ष्यों को प्राप्त करने में मदद कर सकता है।