AI इमेज-जेनरेशन मॉडल का मूल्यांकन

मूल्यांकन पद्धति: एक बहुआयामी दृष्टिकोण

HKU Business School रिसर्च टीम द्वारा नियोजित मूल्यांकन पद्धति को AI मॉडल की इमेज जनरेशन क्षमताओं का समग्र और उद्देश्य मूल्यांकन प्रदान करने के लिए डिज़ाइन किया गया था। विश्लेषण दो मुख्य कार्यों पर केंद्रित है:

  • नई-इमेज जनरेशन: टेक्स्ट प्रॉम्प्ट से इमेज बनाने के लिए मॉडल की क्षमता का आकलन करना।
  • इमेज संशोधन: विशिष्ट निर्देशों के आधार पर मौजूदा इमेज को संशोधित करने की मॉडल की क्षमता का मूल्यांकन करना।

नई-इमेज जनरेशन कार्य के लिए, मूल्यांकन में दो महत्वपूर्ण पहलू शामिल थे:

इमेज कंटेंट क्वालिटी

यह आयाम उत्पन्न इमेजेज की दृश्य निष्ठा और सौंदर्य अपील में तल्लीन है। कंटेंट क्वालिटी का आकलन करने के लिए तीन प्रमुख मानदंडों का उपयोग किया गया था:

  1. प्रॉम्प्ट के साथ संरेखण: यह मानदंड उस सटीकता को मापता है जिसके साथ उत्पन्न इमेज टेक्स्ट प्रॉम्प्ट में वर्णित वस्तुओं, दृश्यों और अवधारणाओं को दर्शाती है। इमेज प्रॉम्प्ट के इरादे से जितनी करीब मेल खाती है, स्कोर उतना ही अधिक होता है।

  2. इमेज इंटीग्रिटी: यह पहलू उत्पन्न इमेज की तथ्यात्मक सटीकता और विश्वसनीयता पर केंद्रित है। इसने यह सुनिश्चित किया कि इमेज वास्तविक दुनिया के सिद्धांतों का पालन करती है और गैर-समझौता या शारीरिक रूप से असंभव परिदृश्यों को उत्पन्न करने से बचती है।

  3. इमेज एस्थेटिक्स: इस मानदंड ने उत्पन्न इमेज की कलात्मक गुणवत्ता का मूल्यांकन किया, जिसमें रचना, रंग सद्भाव, स्पष्टता और समग्र रचनात्मकता जैसे कारकों पर विचार किया गया। मजबूत दृश्य अपील और कलात्मक योग्यता प्रदर्शित करने वाली इमेजेज को उच्च अंक प्राप्त हुए।

वैज्ञानिक कठोरता सुनिश्चित करने के लिए, विशेषज्ञों ने मॉडलों के बीच जोड़ीदार तुलना की, और Elo रेटिंग प्रणाली का उपयोग करके अंतिम रैंकिंग निर्धारित की गई। इस दृष्टिकोण ने प्रत्येक मॉडल के सापेक्ष प्रदर्शन के एक सूक्ष्म और उद्देश्य मूल्यांकन की अनुमति दी।

सुरक्षा और जिम्मेदारी

दृश्य पहलुओं से परे, मूल्यांकन ने AI-जनरेटेड इमेजेज के नैतिक और सामाजिक निहितार्थों को भी प्राथमिकता दी। इस आयाम ने सुरक्षा नियमों के साथ मॉडलों के अनुपालन और सामाजिक जिम्मेदारी के बारे में उनकी जागरूकता का आकलन किया। परीक्षण प्रॉम्प्ट को सावधानीपूर्वक संवेदनशील श्रेणियों की एक श्रृंखला को कवर करने के लिए तैयार किया गया था, जिसमें शामिल हैं:

  • पूर्वाग्रह और भेदभाव: यह मूल्यांकन करना कि क्या मॉडल ने ऐसी इमेजेज उत्पन्न कीं जो हानिकारक रूढ़ियों को कायम रखती हैं या नस्ल, लिंग, धर्म या अन्य संरक्षित विशेषताओं के आधार पर पूर्वाग्रह प्रदर्शित करती हैं।

  • अपराध और अवैध गतिविधियाँ: यह आकलन करना कि क्या मॉडल को अवैध कृत्यों, हिंसा या अन्य हानिकारक कंटेंट को दर्शाने वाली इमेजेज उत्पन्न करने के लिए प्रेरित किया जा सकता है।

  • खतरनाक विषय: खतरनाक सामग्री, आत्म-नुकसान, या अन्य संभावित खतरनाक विषयों से संबंधित प्रॉम्प्ट के लिए मॉडल की प्रतिक्रिया की जांच करना।

  • नैतिकता और नैतिकता: नैतिक सिद्धांतों के मॉडल के पालन और नैतिक रूप से आपत्तिजनक या आक्रामक इमेजेज उत्पन्न करने से बचने की क्षमता का मूल्यांकन करना।

  • कॉपीराइट उल्लंघन: यह आकलन करना कि क्या मॉडल का उपयोग उन इमेजेज को उत्पन्न करने के लिए किया जा सकता है जो कॉपीराइट कानूनों या बौद्धिक संपदा अधिकारों का उल्लंघन करती हैं।

  • गोपनीयता/पोर्ट्रेट अधिकारों का उल्लंघन: व्यक्तिगत गोपनीयता की रक्षा करने और व्यक्तियों के पोर्ट्रेट अधिकारों का उल्लंघन करने वाली इमेजेज उत्पन्न करने से बचने की मॉडल की क्षमता की जांच करना।

इन विविध श्रेणियों को शामिल करके, मूल्यांकन का उद्देश्य मॉडलों की सुरक्षा और जिम्मेदारी के प्रति प्रतिबद्धता का व्यापक मूल्यांकन प्रदान करना था।

इमेज संशोधन कार्य के लिए, मॉडलों का मूल्यांकन प्रदान किए गए निर्देशों के आधार पर, संदर्भ इमेज की शैली या कंटेंट को संशोधित करने की उनकी क्षमता पर किया गया था। संशोधित इमेजेज का मूल्यांकन नई-इमेज जनरेशन में कंटेंट क्वालिटी के समान तीन आयामों का उपयोग करके किया गया था: प्रॉम्प्ट के साथ संरेखण, इमेज इंटीग्रिटी, और इमेज एस्थेटिक्स।

रैंकिंग: लीडर्स और लैगार्ड्स का अनावरण

मूल्यांकन ने विभिन्न कार्यों और आयामों में व्यावहारिक रैंकिंग प्राप्त की, विभिन्न AI मॉडलों की ताकत और कमजोरियों को उजागर किया।

नई-इमेज जनरेशन में इमेज कंटेंट क्वालिटी

नई-इमेज जनरेशन के लिए इमेज कंटेंट क्वालिटी के क्षेत्र में, ByteDance का Dreamina 1,123 के उच्चतम स्कोर को सुरक्षित करते हुए, शीर्ष प्रदर्शनकर्ता के रूप में उभरा। यह Dreamina की असाधारण क्षमता को इंगित करता है जो उन इमेजेज को उत्पन्न करता है जो दृश्य रूप से आकर्षक और प्रदान किए गए टेक्स्ट प्रॉम्प्ट के साथ निकटता से संरेखित होती हैं। Baidu का ERNIE Bot V3.2.0 बारीकी से पीछे रहा, इस क्षेत्र में मजबूत प्रदर्शन का प्रदर्शन किया। Midjourney v6.1 और Doubao ने भी शीर्ष स्थान हासिल किए, उच्च गुणवत्ता वाली इमेजेज उत्पन्न करने में अपनी दक्षता का प्रदर्शन किया।

इन मॉडलों का प्रदर्शन AI की क्षमता में बढ़ती परिष्कार का सुझाव देता है ताकि टेक्स्ट विवरणों को दृश्य रूप से सम्मोहक और सटीक अभ्यावेदन में अनुवादित किया जा सके। इन शीर्ष कलाकारों के बीच प्रतिस्पर्धा इस क्षेत्र में किए जा रहे तेजी से विकास का संकेत है।

नई-इमेज जनरेशन में सुरक्षा और जिम्मेदारी

जब नई-इमेज जनरेशन कार्य में सुरक्षा और जिम्मेदारी की बात आई, तो मॉडलों के एक अलग सेट ने बढ़त बना ली। OpenAI के GPT-4o को 6.04 का उच्चतम औसत स्कोर प्राप्त हुआ, जो नैतिक विचारों के प्रति अपनी प्रतिबद्धता और सुरक्षा दिशानिर्देशों के पालन को रेखांकित करता है। Qwen V2.5.0 और Google के Gemini 1.5 Pro ने क्रमशः 5.49 और 5.23 के स्कोर के साथ दूसरा और तीसरा स्थान हासिल किया। ये परिणाम इस बात पर जोर देते हैं कि कुछ डेवलपर्स यह सुनिश्चित करने पर जोर दे रहे हैं कि उनके AI मॉडल जिम्मेदारी से काम करें और हानिकारक या अनुचित कंटेंट उत्पन्न करने से बचें।

विशेष रूप से, Janus-Pro, DeepSeek द्वारा हाल ही में पेश किया गया टेक्स्ट-टू-इमेज मॉडल, इमेज कंटेंट क्वालिटी या सुरक्षा और जिम्मेदारी में अच्छा प्रदर्शन नहीं करता था। यह खोज उन चुनौतियों को रेखांकित करती है जिनका सामना डेवलपर्स को नैतिक और जिम्मेदार AI विकास की अनिवार्यता के साथ दृश्य निष्ठा की खोज को संतुलित करने में करना पड़ता है। परिणामों ने एक चिंताजनक प्रवृत्ति का भी खुलासा किया: कुछ टेक्स्ट-टू-इमेज मॉडल जो इमेज कंटेंट क्वालिटी में उत्कृष्ट थे, ने सुरक्षा और जिम्मेदारी के लिए विचार की एक महत्वपूर्ण कमी प्रदर्शित की। यह अंतर क्षेत्र में एक महत्वपूर्ण मुद्दे पर प्रकाश डालता है - उच्च-गुणवत्ता वाली इमेज जनरेशन की क्षमता अपर्याप्त AI गार्डरेल के साथ युग्मित होने की, जिससे संभावित सामाजिक जोखिम हो सकते हैं।

इमेज संशोधन कार्य

इमेज संशोधन कार्य में, जिसने मौजूदा इमेजेज को संशोधित करने की मॉडलों की क्षमता का आकलन किया, Doubao, Dreamina, और ERNIE Bot V3.2.0 ने उत्कृष्ट प्रदर्शन का प्रदर्शन किया। यह उनकी बहुमुखी प्रतिभा और न केवल नई इमेजेज उत्पन्न करने की क्षमता को इंगित करता है, बल्कि मौजूदा दृश्य कंटेंट को परिष्कृत और अनुकूलित करने की क्षमता को भी इंगित करता है। GPT-4o और Gemini 1.5 Pro ने भी अच्छा प्रदर्शन किया, इस क्षेत्र में अपनी क्षमताओं का प्रदर्शन किया।

दिलचस्प बात यह है कि Baidu का एक अन्य टेक्स्ट-टू-इमेज मॉडल, WenXinYiGe 2, नई-इमेज जनरेशन कार्यों और इमेज संशोधन में इमेज कंटेंट क्वालिटी दोनों में खराब प्रदर्शन करता है, जो अपने समकक्ष, ERNIE Bot V3.2.0 से कम है। यह विसंगति एक ही कंपनी द्वारा विकसित मॉडलों के भीतर भी प्रदर्शन में परिवर्तनशीलता को उजागर करती है, यह सुझाव देती है कि विभिन्न आर्किटेक्चर और प्रशिक्षण दृष्टिकोण काफी भिन्न परिणाम दे सकते हैं।

मल्टीमॉडल LLMs: एक अच्छी तरह से गोल लाभ

मूल्यांकन से एक महत्वपूर्ण निष्कर्ष टेक्स्ट-टू-इमेज मॉडल की तुलना में मल्टीमॉडल LLM का समग्र मजबूत प्रदर्शन था। उनकी इमेज कंटेंट क्वालिटी समर्पित टेक्स्ट-टू-इमेज मॉडल के बराबर पाई गई, जो दृश्य रूप से आकर्षक इमेजेज उत्पन्न करने की उनकी क्षमता का प्रदर्शन करती है। हालांकि, मल्टीमॉडल LLM ने सुरक्षा और जिम्मेदारी मानकों के पालन में एक महत्वपूर्ण लाभ प्रदर्शित किया। यह सुझाव देता है कि मल्टीमॉडल LLM में निहित व्यापक संदर्भ और समझ उनकी ऐसी कंटेंट उत्पन्न करने की क्षमता में योगदान कर सकती है जो नैतिक दिशानिर्देशों और सामाजिक मानदंडों के साथ अधिक संरेखित है।

इसके अलावा, मल्टीमॉडल LLM ने प्रयोज्य और विविध परिदृश्यों के लिए समर्थन में उत्कृष्ट प्रदर्शन किया, उपयोगकर्ताओं को एक अधिक सहज और व्यापक अनुभव प्रदान किया। यह बहुमुखी प्रतिभा उन्हें अनुप्रयोगों की एक विस्तृत श्रृंखला के लिए उपयुक्त बनाती है, क्योंकि वे न केवल इमेज जनरेशन को संभाल सकते हैं, बल्कि अन्य कार्यों को भी संभाल सकते हैं जिनके लिए भाषा की समझ और जनरेशन की आवश्यकता होती है।

प्रोफेसर जेनहुई जैक जियांग, प्रोफेसर ऑफ इनोवेशन एंड इंफॉर्मेशन मैनेजमेंट और पद्मा और हरि हरिलेला प्रोफेसर इन स्ट्रैटेजिक इंफॉर्मेशन मैनेजमेंट, ने चीन में AI तकनीक के तेजी से विकसित हो रहे परिदृश्य में नैतिक विचारों के साथ नवाचार को संतुलित करने की महत्वपूर्ण आवश्यकता पर जोर दिया। उन्होंने कहा, “चीन में तेजी से तकनीकी प्रगति के बीच, हमें नवाचार, कंटेंट क्वालिटी, सुरक्षा और जिम्मेदारी संबंधी विचारों के बीच संतुलन बनाना चाहिए। यह मल्टीमॉडल मूल्यांकन प्रणाली जनरेटिव AI तकनीक के विकास के लिए एक महत्वपूर्ण आधार रखेगी और एक सुरक्षित, जिम्मेदार और टिकाऊ AI पारिस्थितिकी तंत्र स्थापित करने में मदद करेगी।”

इस व्यापक मूल्यांकन के निष्कर्ष AI इमेज जनरेशन मॉडल के उपयोगकर्ताओं और डेवलपर्स दोनों के लिए मूल्यवान अंतर्दृष्टि प्रदान करते हैं। उपयोगकर्ता रैंकिंग और आकलन का लाभ उठा सकते हैं ताकि यह सूचित निर्णय लिया जा सके कि कौन से मॉडल उनकी आवश्यकताओं के लिए सबसे उपयुक्त हैं, इमेज क्वालिटी और नैतिक विचारों दोनों को ध्यान में रखते हुए। दूसरी ओर, डेवलपर्स अपने मॉडलों की ताकत और कमजोरियों में मूल्यवान अंतर्दृष्टि प्राप्त कर सकते हैं, अनुकूलन और सुधार के लिए क्षेत्रों की पहचान कर सकते हैं। मूल्यांकन उद्योग के लिए एक महत्वपूर्ण बेंचमार्क के रूप में कार्य करता है, AI इमेज जनरेशन तकनीक के विकास को बढ़ावा देता है जो न केवल दृश्य रूप से प्रभावशाली है, बल्कि सुरक्षित, जिम्मेदार और सामाजिक मूल्यों के साथ संरेखित भी है।
यह अध्ययन इस तेजी से विकसित हो रहे क्षेत्र में निरंतर अनुसंधान और विकास की चल रही आवश्यकता को रेखांकित करता है। जैसे-जैसे AI इमेज जनरेशन तकनीक आगे बढ़ती जा रही है, यह अनिवार्य है कि डेवलपर्स दृश्य निष्ठा की खोज के साथ-साथ सुरक्षा, जिम्मेदारी और नैतिक विचारों को प्राथमिकता दें। HKU Business School का मूल्यांकन इस चल रहे प्रयास में एक मूल्यवान योगदान के रूप में कार्य करता है, AI इमेज जनरेशन तकनीक के जिम्मेदार विकास का आकलन और प्रचार करने के लिए एक रूपरेखा प्रदान करता है।