AI मॉडेल्सच्या प्रतिमा-निर्मिती क्षमतेवर अहवाल

मूल्यांकन पद्धती: एक बहुआयामी दृष्टीकोन

HKU बिझनेस स्कूल संशोधन कार्यसंघाने वापरलेली मूल्यांकन पद्धती AI मॉडेल्सच्या प्रतिमा-निर्मिती क्षमतांचे सर्वांगीण आणि वस्तुनिष्ठ मूल्यमापन करण्यासाठी तयार केली गेली होती. हे विश्लेषण दोन मुख्य कार्यांवर केंद्रित होते:

  • नवीन-प्रतिमा निर्मिती: मॉडेलची मजकूर प्रॉम्प्ट्समधून प्रतिमा तयार करण्याची क्षमता तपासणे.
  • प्रतिमा सुधारणा: विशिष्ट सूचनांवर आधारित विद्यमान प्रतिमा सुधारण्याची मॉडेलची क्षमता तपासणे.

नवीन-प्रतिमा निर्मिती कार्यासाठी, मूल्यांकनामध्ये दोन महत्त्वपूर्ण पैलू समाविष्ट होते:

प्रतिमा सामग्री गुणवत्ता

हा आयाम निर्माण केलेल्या प्रतिमांच्या दृश्यात्मक सत्यता आणि सौंदर्यात्मक आकर्षणावर लक्ष केंद्रित करतो. सामग्रीची गुणवत्ता तपासण्यासाठी तीन मुख्य निकष वापरले गेले:

  1. प्रॉम्प्ट्सशी जुळणी: हा निकष मजकूर प्रॉम्प्टमध्ये वर्णन केलेल्या वस्तू, दृश्ये आणि संकल्पनांशी निर्माण केलेली प्रतिमा किती जुळते हे तपासतो. प्रतिमा प्रॉम्प्टच्या हेतूशी जितकी जास्त जुळेल, तितका उच्च स्कोअर मिळेल.

  2. प्रतिमा अखंडता: हा पैलू निर्माण केलेल्या प्रतिमेची तथ्यात्मक अचूकता आणि विश्वासार्हता यावर लक्ष केंद्रित करतो. प्रतिमा वास्तविक-जगाच्या तत्त्वांचे पालन करते आणि अर्थहीन किंवा शारीरिकदृष्ट्या अशक्य परिस्थिती निर्माण करणे टाळते याची तपासणी केली जाते.

  3. प्रतिमा सौंदर्यशास्त्र: हा निकष निर्माण केलेल्या प्रतिमेची कलात्मक गुणवत्ता तपासतो, ज्यामध्ये रचना, रंग सुसंवाद, स्पष्टता आणि एकूण सर्जनशीलता यासारख्या घटकांचा विचार केला जातो. उच्च दृश्यात्मक आकर्षण आणि कलात्मक गुण असलेल्या प्रतिमांना उच्च स्कोअर प्राप्त झाले.

वैज्ञानिक कठोरता सुनिश्चित करण्यासाठी, तज्ञांनी मॉडेल्समध्ये जोडीने तुलना केली आणि Elo रेटिंग प्रणाली वापरून अंतिम क्रमवारी निश्चित केली गेली. या दृष्टिकोनामुळे प्रत्येक मॉडेलच्या सापेक्ष कामगिरीचे सूक्ष्म आणि वस्तुनिष्ठ मूल्यमापन करणे शक्य झाले.

सुरक्षितता आणि जबाबदारी

दृश्यात्मक पैलूंच्या पलीकडे, मूल्यांकनाने AI-निर्मित प्रतिमांच्या नैतिक आणि सामाजिक परिणामांना देखील प्राधान्य दिले. या आयामाने मॉडेल्सची सुरक्षितता नियमांचे पालन आणि सामाजिक जबाबदारीची जाणीव तपासली. चाचणी प्रॉम्प्ट्स काळजीपूर्वक तयार केले गेले होते, ज्यामध्ये खालील गोष्टींचा समावेश होता:

  • पक्षपात आणि भेदभाव: मॉडेलने वंश, लिंग, धर्म किंवा इतर संरक्षित वैशिष्ट्यांवर आधारित हानिकारक रूढी किंवा पक्षपात दर्शविणाऱ्या प्रतिमा तयार केल्या आहेत का, याचे मूल्यांकन करणे.

  • गुन्हे आणि बेकायदेशीर क्रियाकलाप: मॉडेलला बेकायदेशीर कृत्ये, हिंसा किंवा इतर हानिकारक सामग्री दर्शविणाऱ्या प्रतिमा तयार करण्यास प्रवृत्त केले जाऊ शकते का, याचे मूल्यांकन करणे.

  • धोकादायक विषय: धोकादायक साहित्य, स्वतःला इजा पोहोचवणे किंवा इतर संभाव्य धोकादायक विषयांशी संबंधित प्रॉम्प्ट्सला मॉडेलचा प्रतिसाद तपासणे.

  • नीतिमत्ता आणि नैतिकता: मॉडेलचे नैतिक तत्त्वांचे पालन आणि नैतिकदृष्ट्या आक्षेपार्ह किंवा अपमानकारक प्रतिमा तयार करणे टाळण्याची क्षमता तपासणे.

  • कॉपीराइट उल्लंघन: मॉडेलचा वापर कॉपीराइट कायदे किंवा बौद्धिक संपदा अधिकारांचे उल्लंघन करणाऱ्या प्रतिमा तयार करण्यासाठी केला जाऊ शकतो का, याचे मूल्यांकन करणे.

  • गोपनीयता/व्यक्तिचित्र अधिकारांचे उल्लंघन: मॉडेलची वैयक्तिक गोपनीयता राखण्याची आणि व्यक्तींच्या व्यक्तिचित्र अधिकारांचे उल्लंघन करणाऱ्या प्रतिमा तयार करणे टाळण्याची क्षमता तपासणे.

या विविध श्रेणींचा समावेश करून, मूल्यांकनाचा उद्देश मॉडेल्सच्या सुरक्षितता आणि जबाबदारीच्या वचनबद्धतेचे सर्वसमावेशक मूल्यमापन करणे हा होता.

प्रतिमा सुधारणा कार्यासाठी, मॉडेल्सना दिलेल्या सूचनांवर आधारित संदर्भ प्रतिमेची शैली किंवा सामग्री सुधारण्याच्या क्षमतेवर मूल्यांकन केले गेले. सुधारित प्रतिमा नवीन-प्रतिमा निर्मितीमधील सामग्री गुणवत्तेप्रमाणेच तीन आयामांचा वापर करून तपासल्या गेल्या: प्रॉम्प्ट्सशी जुळणी, प्रतिमा अखंडता आणि प्रतिमा सौंदर्यशास्त्र.

क्रमवारी: आघाडीवर आणि मागे राहिलेले

मूल्यांकनाने विविध कार्ये आणि आयामांमध्ये महत्त्वपूर्ण क्रमवारी दर्शविली, ज्यामुळे विविध AI मॉडेल्सची बलस्थाने आणि कमतरता दिसून आली.

नवीन-प्रतिमा निर्मितीमध्ये प्रतिमा सामग्री गुणवत्ता

नवीन-प्रतिमा निर्मितीसाठी प्रतिमा सामग्री गुणवत्तेच्या क्षेत्रात, ByteDance चे Dreamina 1,123 च्या सर्वोच्च स्कोअरसह शीर्षस्थानी राहिले. हे Dreamina ची दृश्यात्मक आकर्षक आणि दिलेल्या मजकूर प्रॉम्प्ट्सशी जुळणारी प्रतिमा तयार करण्याची अपवादात्मक क्षमता दर्शवते. Baidu चे ERNIE Bot V3.2.0 देखील या क्षेत्रात चांगली कामगिरी करत आहे. Midjourney v6.1 आणि Doubao यांनी देखील उच्च स्थान मिळवले, जे उच्च-गुणवत्तेच्या प्रतिमा तयार करण्यात त्यांची प्रवीणता दर्शवतात.

या मॉडेल्सची कामगिरी AI च्या मजकूर वर्णनांचे दृश्यात्मक आकर्षक आणि अचूक प्रतिनिधित्वांमध्ये रूपांतरित करण्याच्या क्षमतेमध्ये वाढणारी कुशलता दर्शवते. या शीर्ष कामगिरी करणाऱ्या मॉडेल्समधील स्पर्धा या क्षेत्रात होत असलेल्या जलद प्रगतीचे सूचक आहे.

नवीन-प्रतिमा निर्मितीमध्ये सुरक्षितता आणि जबाबदारी

जेव्हा नवीन-प्रतिमा निर्मिती कार्यात सुरक्षितता आणि जबाबदारीचा विचार केला जातो, तेव्हा OpenAI च्या GPT-4o ने 6.04 च्या सरासरी स्कोअरसह आघाडी घेतली, जे नैतिक विचारांचे पालन आणि सुरक्षितता मार्गदर्शक तत्त्वांचे पालन दर्शवते. Qwen V2.5.0 आणि Google च्या Gemini 1.5 Pro ने अनुक्रमे 5.49 आणि 5.23 स्कोअरसह दुसरे आणि तिसरे स्थान मिळवले. हे परिणाम दर्शवतात की काही डेव्हलपर्स त्यांच्या AI मॉडेल्सना जबाबदारीने कार्य करण्यासाठी आणि हानिकारक किंवा अयोग्य सामग्री तयार करणे टाळण्यासाठी महत्त्व देत आहेत.

विशेष म्हणजे, DeepSeek ने अलीकडेच सादर केलेले टेक्स्ट-टू-इमेज मॉडेल Janus-Pro ने प्रतिमा सामग्री गुणवत्ता किंवा सुरक्षितता आणि जबाबदारी या दोन्हीमध्ये चांगली कामगिरी केली नाही. हे निष्कर्ष डेव्हलपर्सना दृश्यात्मक सत्यता आणि नैतिक आणि जबाबदार AI विकासाच्या आवश्यकतेमध्ये संतुलन राखण्यात येणाऱ्या आव्हानांना अधोरेखित करतात.

परिणामांनी एक चिंताजनक कल देखील दर्शविला: प्रतिमा सामग्री गुणवत्तेमध्ये उत्कृष्ट असलेल्या काही टेक्स्ट-टू-इमेज मॉडेल्समध्ये सुरक्षितता आणि जबाबदारीचा अभाव दिसून आला. ही तफावत क्षेत्रातील एक गंभीर समस्या दर्शवते - उच्च-गुणवत्तेच्या प्रतिमा निर्मितीमध्ये अपुरे AI सुरक्षा उपाय, ज्यामुळे संभाव्य सामाजिक धोके निर्माण होऊ शकतात.

प्रतिमा सुधारणा कार्य

प्रतिमा सुधारणा कार्यात, ज्यामध्ये मॉडेल्सची विद्यमान प्रतिमा सुधारण्याची क्षमता तपासली गेली, Doubao, Dreamina आणि ERNIE Bot V3.2.0 यांनी उत्कृष्ट कामगिरी दर्शविली. हे त्यांची बहुमुखी प्रतिभा दर्शवते आणि केवळ नवीन प्रतिमा तयार करण्याचीच नव्हे तर विद्यमान दृश्यात्मक सामग्री सुधारण्याची आणि जुळवून घेण्याची क्षमता देखील दर्शवते. GPT-4o आणि Gemini 1.5 Pro ने देखील या क्षेत्रात चांगली कामगिरी केली.

विशेष म्हणजे, Baidu चे दुसरे टेक्स्ट-टू-इमेज मॉडेल, WenXinYiGe 2, नवीन-प्रतिमा निर्मिती कार्ये आणि प्रतिमा सुधारणेमध्ये प्रतिमा सामग्री गुणवत्तेमध्ये कमी पडले,जे त्याचे समवयस्क, ERNIE Bot V3.2.0 पेक्षा कमी आहे. हे विसंगती एकाच कंपनीने विकसित केलेल्या मॉडेल्समध्ये देखील कार्यक्षमतेतील फरक दर्शवते, हे सूचित करते की भिन्न आर्किटेक्चर आणि प्रशिक्षण दृष्टिकोन लक्षणीय भिन्न परिणाम देऊ शकतात.

मल्टीमॉडल LLMs: एक सर्वांगीण फायदा

मूल्यांकनातील एक महत्त्वाचा निष्कर्ष म्हणजे टेक्स्ट-टू-इमेज मॉडेल्सच्या तुलनेत मल्टीमॉडल LLMs ची एकूणच चांगली कामगिरी. त्यांची प्रतिमा सामग्री गुणवत्ता समर्पित टेक्स्ट-टू-इमेज मॉडेल्सच्या तुलनेत असल्याचे आढळले, जे त्यांची दृश्यात्मक आकर्षक प्रतिमा तयार करण्याची क्षमता दर्शवते. तथापि, मल्टीमॉडल LLMs ने सुरक्षितता आणि जबाबदारी मानकांचे पालन करण्यात महत्त्वपूर्ण फायदा दर्शविला. हे सूचित करते की मल्टीमॉडल LLMs मधील व्यापक संदर्भ आणि समज त्यांच्या नैतिक मार्गदर्शक तत्त्वे आणि सामाजिक नियमांशी अधिक जुळणारी सामग्री तयार करण्याच्या क्षमतेमध्ये योगदान देऊ शकते.

शिवाय, मल्टीमॉडल LLMs ने विविध परिस्थितींसाठी उपयोगिता आणि समर्थनामध्ये उत्कृष्ट कामगिरी केली, ज्यामुळे वापरकर्त्यांना अधिक अखंड आणि सर्वसमावेशक अनुभव मिळाला. ही बहुमुखी प्रतिभा त्यांना विस्तृत अनुप्रयोगांसाठी योग्य बनवते, कारण ते केवळ प्रतिमा निर्मितीच नव्हे तर भाषा समज आणि निर्मिती आवश्यक असलेल्या इतर कार्यांना देखील हाताळू शकतात.

प्राध्यापक झेनहुई जॅक जियांग, प्रोफेसर ऑफ इनोव्हेशन अँड इन्फॉर्मेशन मॅनेजमेंट आणि पद्मा आणि हरी हरिलेला प्रोफेसर इन स्ट्रॅटेजिक इन्फॉर्मेशन मॅनेजमेंट, यांनी चीनमधील AI तंत्रज्ञानाच्या वेगाने विकसित होणाऱ्या क्षेत्रात नावीन्यपूर्ण आणि नैतिक विचारांमध्ये संतुलन राखण्याच्या गंभीर गरजेवर जोर दिला. ते म्हणाले, “चीनमधील जलद तांत्रिक प्रगतीमध्ये, आपण नावीन्यपूर्णता, सामग्रीची गुणवत्ता, सुरक्षितता आणि जबाबदारी विचारांमध्ये संतुलन राखले पाहिजे. ही मल्टीमॉडल मूल्यांकन प्रणाली जनरेटिव्ह AI तंत्रज्ञानाच्या विकासासाठी एक महत्त्वपूर्ण पाया घालेल आणि सुरक्षित, जबाबदार आणि टिकाऊ AI इकोसिस्टम स्थापित करण्यात मदत करेल.”

या सर्वसमावेशक मूल्यांकनाचे निष्कर्ष AI प्रतिमा निर्मिती मॉडेल्सच्या वापरकर्त्यांसाठी आणि डेव्हलपर्ससाठी मौल्यवान माहिती प्रदान करतात. वापरकर्ते त्यांच्या गरजांसाठी कोणती मॉडेल्स सर्वोत्तम आहेत हे ठरवण्यासाठी क्रमवारी आणि मूल्यांकनांचा लाभ घेऊ शकतात, प्रतिमा गुणवत्ता आणि नैतिक विचार दोन्ही विचारात घेऊन. दुसरीकडे, डेव्हलपर्स त्यांच्या मॉडेल्सची बलस्थाने आणि कमतरता जाणून घेऊ शकतात, सुधारणेसाठी क्षेत्र ओळखू शकतात. हे मूल्यांकन उद्योगासाठी एक महत्त्वपूर्ण बेंचमार्क म्हणून काम करते, AI प्रतिमा निर्मिती तंत्रज्ञानाचा विकास करण्यास प्रोत्साहन देते जे केवळ दृश्यात्मकदृष्ट्या प्रभावी नाही तर सुरक्षित, जबाबदार आणि सामाजिक मूल्यांशी सुसंगत देखील आहे.

हे अभ्यास या वेगाने विकसित होणाऱ्या क्षेत्रात सतत संशोधन आणि विकासाची गरज अधोरेखित करते. AI प्रतिमा निर्मिती तंत्रज्ञान जसजसे पुढे जात आहे, तसतसे डेव्हलपर्सनी दृश्यात्मक सत्यतेसोबतच सुरक्षितता, जबाबदारी आणि नैतिक विचारांना प्राधान्य देणे आवश्यक आहे. HKU बिझनेस स्कूलचे मूल्यांकन या चालू असलेल्या प्रयत्नांमध्ये एक मौल्यवान योगदान आहे, जे AI प्रतिमा निर्मिती तंत्रज्ञानाच्या जबाबदार विकासाचे मूल्यांकन आणि प्रोत्साहन देण्यासाठी एक फ्रेमवर्क प्रदान करते.