गुगलची AI: साध्या शब्दांत फोटो एडिटिंग

इमेज मॅनिप्युलेशनचे एक नवीन युग

बर्‍याच विद्यमान AI इमेज साधनांप्रमाणे, जे प्रामुख्याने सुरवातीपासून पूर्णपणे नवीन प्रतिमा तयार करण्यावर लक्ष केंद्रित करतात, Gemini 2.0 Flash विद्यमान फोटोंना समजून घेण्याच्या आणि त्यात सुधारणा करण्याच्या क्षमतेद्वारे स्वतःला वेगळे करते. ही प्रणाली एखाद्या फोटोमधील आशय इतका चांगल्या प्रकारे समजून घेते की ती संभाषणात्मक सूचनांवर आधारित विशिष्ट बदल करू शकते, आणि मूळ प्रतिमेचे सार जतन करू शकते.

हे उल्लेखनीय कार्य Gemini 2.0 च्या मुळात मल्टीमॉडल स्वरूपामुळे साध्य झाले आहे. ते एकाच वेळी मजकूर आणि प्रतिमा दोन्हीवर प्रक्रिया करते. हे मॉडेल प्रतिमांना ‘टोकन्स’ मध्ये रूपांतरित करते - जे मूलभूत एकक ते मजकूर प्रक्रियेसाठी वापरते. हे त्याला भाषेला समजून घेण्यासाठी वापरल्या जाणार्‍या त्याच न्यूरल मार्गांचा वापर करून व्हिज्युअल सामग्रीमध्ये फेरफार करण्यास अनुमती देते. हा एकत्रित दृष्टीकोन विविध मीडिया प्रकारांसाठी स्वतंत्र, विशेष मॉडेलची आवश्यकता दूर करतो, संपूर्ण प्रक्रिया सुलभ करतो.

“Gemini 2.0 Flash मल्टीमॉडल इनपुट, वर्धित तर्क आणि नैसर्गिक भाषा आकलन वापरून प्रतिमा तयार करते,” गुगलने आपल्या अधिकृत घोषणेमध्ये सांगितले. “कल्पना करा की Gemini 2.0 Flash वापरून एखादी कथा सांगणे, आणि ते चित्रांसह त्याचे वर्णन करते, पात्रांमध्ये आणि सेटिंग्जमध्ये सातत्य राखते. प्रतिक्रिया द्या, आणि मॉडेल कथा बदलेल किंवा त्याच्या रेखाचित्रांची शैली सुधारेल.”

हा दृष्टिकोन गुगलला OpenAI सारख्या प्रतिस्पर्धकांपेक्षा वेगळे करतो. ChatGPT जरी Dall-E 3 वापरून प्रतिमा तयार करू शकत असेल आणि नैसर्गिक भाषेला समजून घेऊन त्याच्या निर्मितीवर पुनरावृत्ती करू शकत असेल, तरीही ते हे साध्य करण्यासाठी एका वेगळ्या AI मॉडेलवर अवलंबून असते. थोडक्यात, ChatGPT व्हिजनसाठी GPT-V, भाषेसाठी GPT-4o आणि प्रतिमा निर्मितीसाठी Dall-E 3 यांच्यामध्ये एक जटिल परस्परसंवाद साधते. तथापि, OpenAI भविष्यातील GPT-5 सह एकच, सर्वसमावेशक मॉडेल साध्य करण्याची अपेक्षा करते.

Beijing Academy of Artificial Intelligence च्या संशोधकांनी विकसित केलेल्या OmniGen सह ओपन-सोर्स क्षेत्रात एक समांतर संकल्पना अस्तित्वात आहे. त्याचे निर्माते “अतिरिक्त प्लगइन्स किंवा ऑपरेशन्सची आवश्यकता न ठेवता, भाषेच्या निर्मितीमध्ये GPT कसे कार्य करते त्याप्रमाणे, विविध प्रकारच्या प्रतिमा थेट अनियंत्रितपणे मल्टीमॉडल सूचनांद्वारे तयार करण्याची” कल्पना करतात.

OmniGen ऑब्जेक्ट फेरफार, दृश्य विलीनीकरण आणि सौंदर्यात्मक समायोजन यासारख्या क्षमतांचा अभिमान बाळगते. तथापि, ते नवीन Gemini पेक्षा लक्षणीयरीत्या कमी वापरकर्ता-अनुकूल आहे, कमी रिझोल्यूशनसह कार्य करते, अधिक क्लिष्ट आदेशांची मागणी करते आणि शेवटी गुगलच्या ऑफरच्या सामर्थ्याचा अभाव आहे. तरीही, ते विशिष्ट वापरकर्त्यांसाठी एक आकर्षक ओपन-सोर्स पर्याय सादर करते.

Gemini 2.0 Flash ची चाचणी

Gemini 2.0 Flash च्या क्षमता आणि मर्यादा खरोखर समजून घेण्यासाठी, विविध एडिटिंग परिस्थितींचा शोध घेऊन, अनेक व्यावहारिक चाचण्या घेण्यात आल्या. परिणाम प्रभावी सामर्थ्ये आणि सुधारणेसाठी काही संभाव्य क्षेत्रे दर्शवतात.

वास्तववादी विषयांमध्ये अचूकतेने बदल करणे

मॉडेल वास्तविक विषयांमध्ये बदल करताना उल्लेखनीय सुसंगतता दर्शवते. उदाहरणार्थ, एका सेल्फ-पोर्ट्रेट चाचणीमध्ये, स्नायूंची व्याख्या (muscle definition) जोडण्याची विनंती केल्यास इच्छित परिणाम मिळाला. चेहऱ्यावरील किरकोळ बदल झाले असले तरी, एकूण ओळखण्यायोग्यता कायम राहिली.

महत्त्वाचे म्हणजे, फोटोमधील इतर घटक मोठ्या प्रमाणात अस्पर्शित राहिले, जे AI ची केवळ निर्दिष्ट केलेल्या बदलावर लक्ष केंद्रित करण्याची क्षमता दर्शवते. हे लक्ष्यित एडिटिंग क्षमता विशिष्ट जनरेटिव्ह दृष्टिकोनांशी तीव्रपणे विरोधाभासी आहे जे अनेकदा संपूर्ण प्रतिमांची पुनर्रचना करतात, संभाव्यत: अनपेक्षित बदल सादर करतात.

मॉडेलची अंगभूत सुरक्षा देखील लक्षात घेणे महत्त्वाचे आहे. ते सातत्याने मुलांचे फोटो एडिट करण्यास नकार देते आणि नग्नतेशी संबंधित कोणतीही सामग्री हाताळणे टाळते, जे गुगलच्या जबाबदार AI विकासासाठी वचनबद्धतेचे प्रतिबिंब दर्शवते. अधिक धाडसी प्रतिमा हाताळणी एक्सप्लोर करू पाहणाऱ्या वापरकर्त्यांसाठी, OmniGen अधिक योग्य पर्याय असू शकतो.

शैली परिवर्तनांमध्ये प्राविण्य

Gemini 2.0 Flash शैली रूपांतरणांसाठी एक उल्लेखनीय योग्यता दर्शवते. डोनाल्ड ट्रम्प यांच्या छायाचित्राला जपानी मंगाच्या शैलीमध्ये रूपांतरित करण्याची विनंती काही प्रयत्नांनंतर यशस्वी झाली.

मॉडेल शैली हस्तांतरणाचे विस्तृत स्पेक्ट्रम कुशलतेने हाताळते, फोटोंना रेखाचित्रे, तैलचित्रे किंवा अक्षरशः कोणत्याही कलात्मक शैलीमध्ये रूपांतरित करते. वापरकर्ते तापमान सेटिंग्ज समायोजित करून आणि विविध फिल्टर टॉगल करून परिणामांमध्ये सूक्ष्म बदल करू शकतात. तथापि, हे लक्षात घेण्यासारखे आहे की उच्च तापमान सेटिंग्ज मूळ प्रतिमेशी कमी विश्वासू असलेले रूपांतर तयार करतात.

विशिष्ट कलाकारांशी संबंधित शैलींची विनंती करताना एक उल्लेखनीय मर्यादा दिसून येते. लिओनार्डो दा विंची, मायकल एन्जोलो, बोथिसेली किंवा व्हॅन गॉग यांच्या शैलींचा समावेश असलेल्या चाचण्यांमध्ये AI ने या कलाकारांनी केलेल्या वास्तविक पेंटिंग्जची पुनरुत्पादन केले, त्याऐवजी त्यांच्या विशिष्ट तंत्रांचा स्त्रोत प्रतिमेवर वापर केला नाही.

काही प्रॉम्प्ट रिफाइनमेंट आणि काही पुनरावृत्तीसह, एक वापरण्यायोग्य, जरी सामान्य असले तरी, परिणाम साध्य केला जाऊ शकतो. साधारणपणे, विशिष्ट कलाकाराऐवजी इच्छित कला शैलीला प्रॉम्प्ट करणे अधिक प्रभावी आहे.

घटक हाताळणीची कला

व्यावहारिक एडिटिंग कार्यांसाठी, Gemini 2.0 Flash खरोखर उत्कृष्ट आहे. ते इनपेंटिंग आणि ऑब्जेक्ट मॅनिप्युलेशन कुशलतेने हाताळते, विनंती केल्यावर विशिष्ट वस्तू अखंडपणे काढून टाकते किंवा रचनेत नवीन घटक जोडते. एका चाचणीमध्ये, AI ला बास्केटबॉलला एका मोठ्या रबरी कोंबडीने बदलण्यास सांगितले होते, ज्यामुळे एक विनोदी परंतु संदर्भाला योग्य असा परिणाम मिळाला.

विषयांमध्ये किरकोळ बदल कधीकधी होऊ शकतात, परंतु हे सामान्यत: प्रमाणित डिजिटल एडिटिंग साधनांसह काही सेकंदात सहजपणे सुधारले जाऊ शकतात.

कदाचित सर्वात वादग्रस्तपणे, मॉडेल कॉपीराइट संरक्षण काढून टाकण्याची क्षमता दर्शवते - एक वैशिष्ट्य ज्याने X सारख्या प्लॅटफॉर्मवर बरीच चर्चा सुरू केली आहे. वॉटरमार्क असलेली प्रतिमा सादर केल्यावर आणि सर्व अक्षरे, लोगो आणि वॉटरमार्क काढून टाकण्याची सूचना दिल्यावर, Gemini ने एक स्वच्छ प्रतिमा तयार केली जी अक्षरशः वॉटरमार्क नसलेल्या मूळ प्रतिमेसारखीच होती.

दृष्टिकोन बदलांमध्ये नेव्हिगेट करणे

Gemini चे सर्वात तांत्रिकदृष्ट्या प्रभावी पैलूंपैकी एक म्हणजे दृष्टिकोन बदलण्याची क्षमता - एक असे कार्य जे मुख्य प्रवाहातील डिफ्यूजन मॉडेल सहसा संघर्ष करतात. AI वेगवेगळ्या कोनातून दृश्याची पुनर्कल्पना करू शकते, जरी परिणाम मूळच्या अचूक रूपांतरणाऐवजी नवीन निर्मिती असतात.

दृष्टिकोन बदल निर्दोष परिणाम देत नसले तरी - मॉडेल, शेवटी, संपूर्ण प्रतिमेची नवीन दृष्टिकोनातून कल्पना करत आहे - ते द्विमितीय इनपुटवर आधारित त्रिमितीय जागेच्या AI च्या आकलनातील महत्त्वपूर्ण प्रगती दर्शवतात.

मॉडेलला पार्श्वभूमीमध्ये फेरफार करण्याची सूचना देताना योग्य वाक्यरचना महत्त्वपूर्ण आहे. ते अनेकदा संपूर्ण चित्र बदलण्याचा प्रयत्न करते, परिणामी एक अत्यंत भिन्न रचना तयार होते.

उदाहरणार्थ, एका चाचणीमध्ये, Gemini ला एका फोटोची पार्श्वभूमी बदलण्यास सांगितले होते, एका बसलेल्या रोबोटला त्याच्या मूळ स्थानाऐवजी इजिप्तमध्ये ठेवून. सूचनांनी स्पष्टपणे सांगितले की विषयामध्ये बदल करू नये. तथापि, मॉडेलला हे विशिष्ट कार्य अचूकपणे हाताळण्यास त्रास झाला, त्याऐवजी पिरॅमिडसह पूर्णपणे नवीन रचना प्रदान केली, ज्यामध्ये एक रोबोट उभा होता, परंतु प्राथमिक लक्ष म्हणून नाही.

आणखी एक निरीक्षण केलेली मर्यादा अशी आहे की मॉडेल एका प्रतिमेवर अनेक वेळा पुनरावृत्ती करू शकते, परंतु प्रत्येक पुढील पुनरावृत्तीसह तपशीलांची गुणवत्ता कमी होते. म्हणून, विस्तृत संपादने करताना संभाव्य गुणवत्तेच्या ऱ्हासाची जाणीव ठेवणे आवश्यक आहे.

हे प्रायोगिक मॉडेल सध्या Google AI Studio आणि Gemini API द्वारे सर्व समर्थित क्षेत्रांमध्ये विकासकांसाठी प्रवेशयोग्य आहे. जे वापरकर्ते त्यांची माहिती गुगलसोबत शेअर करू इच्छित नाहीत त्यांच्यासाठी ते Hugging Face वर देखील उपलब्ध आहे.

शेवटी, गुगलची ही नवीन ऑफर NotebookLM प्रमाणेच एक लपलेले रत्न असल्याचे दिसते. ते इतर मॉडेल करू शकत नाहीत असे काहीतरी साध्य करते आणि ते चांगल्या पातळीवरील प्रवीणतेसह करते, तरीही ते तुलनेने रडारच्या खाली राहते. जे वापरकर्ते इमेज एडिटिंगमध्ये जनरेटिव्ह AI ची क्षमता वापरून पाहू इच्छितात आणि त्यासोबत काही सर्जनशील मजा करू इच्छितात त्यांच्यासाठी हे निःसंशयपणे एक्सप्लोर करण्यासारखे आहे. साध्या भाषेत इच्छित बदलांचे वर्णन करण्याची क्षमता सामान्य वापरकर्ते आणि व्यावसायिक दोघांसाठीही शक्यतांचे एक जग उघडते, जे इमेज मॅनिप्युलेशनच्या लोकशाहीकरणामध्ये एक महत्त्वपूर्ण पाऊल आहे. या तंत्रज्ञानामध्ये आपण व्हिज्युअल सामग्रीशी कसा संवाद साधतो, प्रगत एडिटिंग तंत्रे प्रत्येकासाठी, त्यांच्या तांत्रिक कौशल्यांची पर्वा न करता, प्रवेशयोग्य बनवण्याची क्षमता आहे. याचे परिणाम वैयक्तिक फोटो सुधारणेपासून ते व्यावसायिक डिझाइन वर्कफ्लोपर्यंत आणि अगदी व्हिज्युअल आर्टच्या पूर्णपणे नवीन प्रकारांच्या निर्मितीपर्यंत विस्तृत आहेत. जसजसे तंत्रज्ञान विकसित होत जाईल, तसतसे त्याचा सर्जनशील लँडस्केपवर होणारा परिणाम पाहणे आकर्षक असेल.