इमेज मैनिपुलेशन का एक नया युग
कई मौजूदा AI इमेज टूल के विपरीत जो मुख्य रूप से स्क्रैच से पूरी तरह से नई छवियां बनाने पर ध्यान केंद्रित करते हैं, Gemini 2.0 Flash मौजूदा तस्वीरों को समझने और संशोधित करने की अपनी क्षमता के माध्यम से खुद को अलग करता है। यह प्रणाली एक तस्वीर की सामग्री को इतनी अच्छी तरह से समझती है कि यह संवादात्मक निर्देशों के आधार पर विशिष्ट परिवर्तन कर सकती है, जबकि मूल छवि के सार को संरक्षित करती है।
यह उल्लेखनीय उपलब्धि Gemini 2.0 की स्वाभाविक रूप से बहुआयामी प्रकृति के माध्यम से प्राप्त की जाती है। यह टेक्स्ट और इमेज दोनों को एक साथ संसाधित करता है। मॉडल कुशलता से छवियों को “टोकन” में परिवर्तित करता है - वही मौलिक इकाइयाँ जो वह टेक्स्ट प्रोसेसिंग के लिए नियोजित करता है। यह इसे दृश्य सामग्री में हेरफेर करने की अनुमति देता है, उसी तंत्रिका पथ का उपयोग करके जो वह भाषा को समझने के लिए उपयोग करता है। यह एकीकृत दृष्टिकोण विभिन्न मीडिया प्रकारों को संभालने के लिए अलग, विशिष्ट मॉडल की आवश्यकता को समाप्त करता है, जिससे पूरी प्रक्रिया सुव्यवस्थित होती है।
Google ने अपनी आधिकारिक घोषणा में कहा, “Gemini 2.0 Flash मल्टीमॉडल इनपुट, उन्नत तर्क और प्राकृतिक भाषा समझ का लाभ उठाकर छवियां बनाता है।” “कल्पना कीजिए कि Gemini 2.0 Flash का उपयोग करके एक कहानी बताई जा रही है, और यह चित्रों के साथ इसे चित्रित करता है, पात्रों और सेटिंग्स में निरंतरता बनाए रखता है। प्रतिक्रिया प्रदान करें, और मॉडल कहानी को अनुकूलित करेगा या अपने चित्रों की शैली को संशोधित करेगा।”
यह दृष्टिकोण Google को OpenAI जैसे प्रतिस्पर्धियों से अलग करता है। जबकि ChatGPT, Dall-E 3 का उपयोग करके छवियां उत्पन्न कर सकता है और प्राकृतिक भाषा को समझने वाली अपनी रचनाओं पर पुनरावृति कर सकता है, यह इसे प्राप्त करने के लिए एक अलग AI मॉडल पर निर्भर करता है। संक्षेप में, ChatGPT विज़न के लिए GPT-V, भाषा के लिए GPT-4o और इमेज जनरेशन के लिए Dall-E 3 के बीच एक जटिल परस्पर क्रिया का आयोजन करता है। हालाँकि, OpenAI भविष्य के GPT-5 के साथ एक एकल, सर्वव्यापी मॉडल प्राप्त करने की आशा करता है।
बीजिंग एकेडमी ऑफ आर्टिफिशियल इंटेलिजेंस के शोधकर्ताओं द्वारा विकसित OmniGen के साथ ओपन-सोर्स क्षेत्र में एक समानांतर अवधारणा मौजूद है। इसके निर्माता “भाषा पीढ़ी में GPT के कार्य करने के समान, अतिरिक्त प्लगइन्स या संचालन की आवश्यकता के बिना, मनमाने ढंग से बहुआयामी निर्देशों के माध्यम से सीधे विभिन्न प्रकार की छवियां उत्पन्न करने” की कल्पना करते हैं।
OmniGen ऑब्जेक्ट परिवर्तन, दृश्य विलय और सौंदर्य समायोजन जैसी क्षमताओं का दावा करता है। हालाँकि, यह नए Gemini की तुलना में काफी कम उपयोगकर्ता के अनुकूल है, कम रिज़ॉल्यूशन के साथ काम करता है, अधिक जटिल कमांड की मांग करता है, और अंततः Google की पेशकश की सरासर शक्ति का अभाव है। फिर भी, यह कुछ उपयोगकर्ताओं के लिए एक आकर्षक ओपन-सोर्स विकल्प प्रस्तुत करता है।
Gemini 2.0 Flash का परीक्षण
Gemini 2.0 Flash की क्षमताओं और सीमाओं को सही मायने में समझने के लिए, विभिन्न संपादन परिदृश्यों की खोज करते हुए, व्यावहारिक परीक्षणों की एक श्रृंखला आयोजित की गई। परिणाम प्रभावशाली ताकत और संभावित सुधार के लिए कुछ क्षेत्रों दोनों को प्रदर्शित करते हैं।
सटीकता के साथ यथार्थवादी विषयों को संशोधित करना
मॉडल यथार्थवादी विषयों को संशोधित करने के काम में उल्लेखनीय सामंजस्य प्रदर्शित करता है। उदाहरण के लिए, एक स्व-चित्र परीक्षण में, मांसपेशियों की परिभाषा जोड़ने के अनुरोध ने वांछित परिणाम दिया। जबकि मामूली चेहरे में परिवर्तन हुए, समग्र पहचान बनी रही।
महत्वपूर्ण रूप से, तस्वीर के भीतर अन्य तत्व काफी हद तक अछूते रहे, जो AI की केवल निर्दिष्ट संशोधन पर ध्यान केंद्रित करने की क्षमता को प्रदर्शित करता है। यह लक्षित संपादन क्षमता विशिष्ट जनरेटिव दृष्टिकोणों के साथ तेजी से विपरीत है जो अक्सर पूरी छवियों का पुनर्निर्माण करते हैं, संभावित रूप से अवांछित परिवर्तन पेश करते हैं।
मॉडल के अंतर्निहित सुरक्षा उपायों पर ध्यान देना भी महत्वपूर्ण है। यह लगातार बच्चों की तस्वीरों को संपादित करने से इनकार करता है और नग्नता से संबंधित किसी भी सामग्री को संभालने से बचता है, जो जिम्मेदार AI विकास के लिए Google की प्रतिबद्धता को दर्शाता है। अधिक जोखिम भरी छवि जोड़तोड़ का पता लगाने के इच्छुक उपयोगकर्ताओं के लिए, OmniGen अधिक उपयुक्त विकल्प हो सकता है।
स्टाइल ट्रांसफॉर्मेशन में महारत हासिल करना
Gemini 2.0 Flash स्टाइल रूपांतरण के लिए एक उल्लेखनीय योग्यता प्रदर्शित करता है। डोनाल्ड ट्रम्प की एक तस्वीर को जापानी मंगा की शैली में बदलने के अनुरोध ने कुछ प्रयासों के बाद एक सफल पुनर्कल्पना की।
मॉडल कुशलता से स्टाइल ट्रांसफर के एक व्यापक स्पेक्ट्रम को संभालता है, तस्वीरों को ड्रॉइंग, ऑइल पेंटिंग या वस्तुतः किसी भी कलात्मक शैली में परिवर्तित करता है। उपयोगकर्ता तापमान सेटिंग्स को समायोजित करके और विभिन्न फ़िल्टर को टॉगल करके परिणामों को ठीक कर सकते हैं। हालाँकि, यह ध्यान देने योग्य है कि उच्च तापमान सेटिंग्स ऐसे रूपांतरण उत्पन्न करते हैं जो मूल छवि के प्रति कम वफादार होते हैं।
विशिष्ट कलाकारों से जुड़ी शैलियों का अनुरोध करते समय एक उल्लेखनीय सीमा सामने आती है। लियोनार्डो दा विंची, माइकल एंजेलो, बोथिसेली, या वान गाग की शैलियों से जुड़े परीक्षणों के परिणामस्वरूप AI ने इन आकाओं द्वारा वास्तविक चित्रों को पुन: पेश किया, बजाय स्रोत छवि पर उनकी विशिष्ट तकनीकों को लागू करने के।
कुछ शीघ्र शोधन और कुछ पुनरावृत्तियों के साथ, एक प्रयोग करने योग्य, यद्यपि औसत दर्जे का परिणाम प्राप्त किया जा सकता है। आम तौर पर, विशिष्ट कलाकार के बजाय वांछित कला शैली को बढ़ावा देना अधिक प्रभावी होता है।
तत्व हेरफेर की कला
व्यावहारिक संपादन कार्यों के लिए, Gemini 2.0 Flash वास्तव में उत्कृष्ट है। यह इनपेंटिंग और ऑब्जेक्ट मैनिपुलेशन को कुशलता से संभालता है, अनुरोध पर विशिष्ट वस्तुओं को मूल रूप से हटाता है या एक रचना में नए तत्व जोड़ता है। एक परीक्षण में, AI को एक बास्केटबॉल को एक विशाल रबर चिकन के साथ बदलने के लिए प्रेरित किया गया था, जो एक विनोदी लेकिन प्रासंगिक रूप से उपयुक्त परिणाम प्रदान करता है।
जबकि विषयों में कभी-कभी मामूली परिवर्तन हो सकते हैं, ये आम तौर पर सेकंड के मामले में मानक डिजिटल संपादन टूल के साथ आसानी से सुधारने योग्य होते हैं।
शायद सबसे विवादास्पद रूप से, मॉडल कॉपीराइट सुरक्षा को हटाने में दक्षता प्रदर्शित करता है - एक ऐसी सुविधा जिसने X जैसे प्लेटफार्मों पर काफी चर्चा छेड़ दी है। जब वॉटरमार्क वाली एक छवि प्रस्तुत की जाती है और सभी अक्षरों, लोगो और वॉटरमार्क को खत्म करने का निर्देश दिया जाता है, तो जेमिनी ने एक साफ छवि उत्पन्न की जो वस्तुतः बिना वॉटरमार्क वाले मूल से अप्रभेद्य थी।
परिप्रेक्ष्य परिवर्तनों को नेविगेट करना
Gemini के सबसे तकनीकी रूप से प्रभावशाली पहलुओं में से एक परिप्रेक्ष्य को बदलने की इसकी क्षमता है - एक ऐसा कारनामा जिसके साथ मुख्यधारा के प्रसार मॉडल आमतौर पर संघर्ष करते हैं। AI विभिन्न कोणों से एक दृश्य की पुनर्कल्पना कर सकता है, हालांकि परिणाम मूल के सटीक परिवर्तन के बजाय अनिवार्य रूप से नई रचनाएं हैं।
जबकि परिप्रेक्ष्य बदलाव निर्दोष परिणाम नहीं देते हैं - मॉडल, आखिरकार, एक नए दृष्टिकोण से पूरी छवि की अवधारणा कर रहा है - वे दो-आयामी इनपुट के आधार पर त्रि-आयामी स्थान की AI की समझ में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करते हैं।
मॉडल को पृष्ठभूमि में हेरफेर करने का निर्देश देते समय उचित वाक्यांश महत्वपूर्ण है। यह अक्सर पूरी तस्वीर को संशोधित करता है, जिसके परिणामस्वरूप एक काफी अलग रचना होती है।
उदाहरण के लिए, एक परीक्षण में, Gemini को एक तस्वीर की पृष्ठभूमि बदलने के लिए कहा गया था, एक बैठे रोबोट को उसके मूल स्थान के बजाय मिस्र में रखा गया था। निर्देश में स्पष्ट रूप से विषय को बदलने के लिए नहीं कहा गया था। हालाँकि, मॉडल ने इस विशिष्ट कार्य को सटीक रूप से संभालने के लिए संघर्ष किया, इसके बजाय पिरामिड की विशेषता वाली एक पूरी तरह से नई रचना प्रदान की, जिसमें एक रोबोट खड़ा था, लेकिन प्राथमिक फोकस के रूप में नहीं।
एक और देखी गई सीमा यह है कि जबकि मॉडल एक ही छवि पर कई बार पुनरावृति कर सकता है, प्रत्येक क्रमिक पुनरावृत्ति के साथ विवरण की गुणवत्ता कम हो जाती है। इसलिए, व्यापक संपादन करते समय संभावित गुणवत्ता में गिरावट के प्रति सचेत रहना आवश्यक है।
यह प्रायोगिक मॉडल वर्तमान में Google AI Studio और Gemini API के माध्यम से सभी समर्थित क्षेत्रों में डेवलपर्स के लिए सुलभ है। यह उन उपयोगकर्ताओं के लिए Hugging Face पर भी उपलब्ध है जो Google के साथ अपनी जानकारी साझा नहीं करना पसंद करते हैं।
निष्कर्ष में, Google की ओर से यह नई पेशकश NotebookLM की तरह ही एक छिपा हुआ रत्न प्रतीत होती है। यह कुछ ऐसा हासिल करता है जो अन्य मॉडल नहीं कर सकते, और यह दक्षता के एक अच्छे स्तर के साथ ऐसा करता है, फिर भी यह अपेक्षाकृत रडार के नीचे रहता है। यह निस्संदेह उन उपयोगकर्ताओं के लिए खोज के लायक है जो छवि संपादन में जनरेटिव AI की क्षमता के साथ प्रयोग करना चाहते हैं और रास्ते में कुछ रचनात्मक मज़ा लेना चाहते हैं। सादे भाषा में वांछित परिवर्तनों का वर्णन करने की क्षमता आकस्मिक उपयोगकर्ताओं और पेशेवरों दोनों के लिए संभावनाओं की दुनिया खोलती है, जो छवि हेरफेर के लोकतंत्रीकरण में एक महत्वपूर्ण कदम आगे बढ़ाती है। इस तकनीक में दृश्य सामग्री के साथ हमारे इंटरेक्ट करने के तरीके को फिर से आकार देने की क्षमता है, जिससे उन्नत संपादन तकनीक सभी के लिए सुलभ हो जाती है, चाहे उनके तकनीकी कौशल कुछ भी हों। निहितार्थ विशाल हैं, व्यक्तिगत फोटो संवर्द्धन से लेकर पेशेवर डिजाइन वर्कफ़्लो तक, और यहां तक कि दृश्य कला के पूरी तरह से नए रूपों के निर्माण तक। जैसे-जैसे तकनीक विकसित होती जा रही है, रचनात्मक परिदृश्य पर इसके प्रभाव को देखना आकर्षक होगा।