எளிய உரை கட்டளைகளுடன் கூகிளின் AI பட எடிட்டிங் | ta

பட கையாளுதலின் ஒரு புதிய சகாப்தம்

தற்போதுள்ள பல AI பட கருவிகள் புதிதாக படங்களை உருவாக்குவதில் கவனம் செலுத்துகின்றன, ஆனால் Gemini 2.0 Flash ஏற்கனவே உள்ள புகைப்படங்களை புரிந்து கொண்டு மாற்றியமைக்கும் திறனில் வேறுபடுகிறது. இந்த அமைப்பு ஒரு புகைப்படத்தின் உள்ளடக்கத்தை நன்கு புரிந்துகொள்கிறது, உரையாடல் வழிமுறைகளின் அடிப்படையில் குறிப்பிட்ட மாற்றங்களைச் செய்ய முடியும், அதே நேரத்தில் அசல் படத்தின் சாராம்சத்தைப் பாதுகாக்கிறது.

இது Gemini 2.0’வின் இயல்பான மல்டிமோடல் தன்மையால் சாத்தியமாகிறது. இது உரை மற்றும் படங்கள் இரண்டையும் ஒரே நேரத்தில் செயலாக்குகிறது. இந்த மாதிரி படங்களை ‘டோக்கன்களாக’ மாற்றுகிறது - உரை செயலாக்கத்திற்கு பயன்படுத்தும் அதே அடிப்படை அலகுகள். இது மொழி புரிதலுக்கு பயன்படுத்தும் அதே நியூரல் பாதைகளைப் பயன்படுத்தி காட்சி உள்ளடக்கத்தைக் கையாள அனுமதிக்கிறது. இந்த ஒருங்கிணைந்த அணுகுமுறை வெவ்வேறு ஊடக வகைகளைக் கையாள தனித்தனி, சிறப்பு மாதிரிகளின் தேவையை நீக்குகிறது, முழு செயல்முறையையும் நெறிப்படுத்துகிறது.

“Gemini 2.0 Flash மல்டிமோடல் உள்ளீடு, மேம்பட்ட பகுத்தறிவு மற்றும் இயற்கை மொழி புரிதலைப் பயன்படுத்தி படங்களை உருவாக்குகிறது,” என்று கூகிள் தனது அதிகாரப்பூர்வ அறிவிப்பில் தெரிவித்துள்ளது. “Gemini 2.0 Flash ஐப் பயன்படுத்தி ஒரு கதையைச் சொல்வதாக கற்பனை செய்து பாருங்கள், அது படங்களுடன் விளக்குகிறது, கதாபாத்திரங்கள் மற்றும் அமைப்புகளில் நிலைத்தன்மையை பராமரிக்கிறது. கருத்தை வழங்கவும், மாதிரி கதையை மாற்றியமைக்கும் அல்லது அதன் வரைபடங்களின் பாணியை மாற்றும்.”

இந்த அணுகுமுறை கூகிளை OpenAI போன்ற போட்டியாளர்களிடமிருந்து வேறுபடுத்துகிறது. ChatGPT ஆனது Dall-E 3 ஐப் பயன்படுத்தி படங்களை உருவாக்கவும், இயற்கை மொழியைப் புரிந்துகொண்டு அதன் படைப்புகளைத் தொடரவும் முடியும் அதே வேளையில், இதை அடைய இது ஒரு தனி AI மாதிரியை நம்பியுள்ளது. சாராம்சத்தில், ChatGPT ஆனது பார்வைக்கு GPT-V, மொழிக்கு GPT-4o மற்றும் பட உருவாக்கத்திற்கு Dall-E 3 ஆகியவற்றுக்கு இடையேயான ஒரு சிக்கலான இடைவெளியை இயக்குகிறது. இருப்பினும், OpenAI எதிர்கால GPT-5 உடன் ஒரு ஒற்றை, அனைத்தையும் உள்ளடக்கிய மாதிரியை அடைய எதிர்பார்க்கிறது.

பீஜிங் அகாடமி ஆஃப் ஆர்ட்டிஃபிஷியல் இன்டலிஜென்ஸில் உள்ள ஆராய்ச்சியாளர்களால் உருவாக்கப்பட்ட OmniGen உடன் திறந்த மூல மண்டலத்தில் ஒரு இணையான கருத்து உள்ளது. அதன் படைப்பாளிகள் “கூடுதல் செருகுநிரல்கள் அல்லது செயல்பாடுகள் தேவையில்லாமல், மொழி உருவாக்கத்தில் GPT செயல்படுவதைப் போலவே, தன்னிச்சையான மல்டிமோடல் வழிமுறைகள் மூலம் நேரடியாக பல்வேறு படங்களை உருவாக்குவதை” கற்பனை செய்கிறார்கள்.

OmniGen பொருள் மாற்றம், காட்சி ஒன்றிணைத்தல் மற்றும் அழகியல் சரிசெய்தல் போன்ற திறன்களைக் கொண்டுள்ளது. இருப்பினும், இது புதிய Gemini ஐ விட கணிசமாக குறைவான பயனர் நட்பு, குறைந்த தெளிவுத்திறன்களுடன் செயல்படுகிறது, மேலும் சிக்கலான கட்டளைகளைக் கோருகிறது, இறுதியில் கூகிளின் வழங்கலின் முழுமையான சக்தி இல்லை. ஆயினும்கூட, இது சில பயனர்களுக்கு ஒரு கட்டாய திறந்த மூல மாற்றீட்டை வழங்குகிறது.

Gemini 2.0 Flash ஐ சோதித்தல்

Gemini 2.0 Flash இன் திறன்கள் மற்றும் வரம்புகளை உண்மையிலேயே புரிந்துகொள்ள, பல்வேறு எடிட்டிங் காட்சிகளை ஆராய்ந்து, தொடர்ச்சியான நடைமுறை சோதனைகள் நடத்தப்பட்டன. முடிவுகள் ஈர்க்கக்கூடிய பலம் மற்றும் சாத்தியமான முன்னேற்றத்திற்கான சில பகுதிகளைக் காட்டுகின்றன.

துல்லியத்துடன் யதார்த்தமான பாடங்களை மாற்றுதல்

யதார்த்தமான பாடங்களை மாற்றியமைக்கும் போது மாதிரி குறிப்பிடத்தக்க ஒத்திசைவைக் காட்டுகிறது. உதாரணமாக, ஒரு சுய உருவப்பட சோதனையில், தசை வரையறையைச் சேர்க்கும் கோரிக்கை விரும்பிய முடிவை அளித்தது. சிறிய முக மாற்றங்கள் ஏற்பட்டாலும், ஒட்டுமொத்த அங்கீகாரம் பராமரிக்கப்பட்டது.

முக்கியமாக, புகைப்படத்தில் உள்ள மற்ற கூறுகள் பெரும்பாலும் தொடப்படாமல் இருந்தன, AI குறிப்பிட்ட மாற்றத்தில் மட்டுமே கவனம் செலுத்தும் திறனை நிரூபிக்கிறது. இந்த இலக்கு எடிட்டிங் திறன், முழு படங்களையும் அடிக்கடி புனரமைக்கும் வழக்கமான உருவாக்க அணுகுமுறைகளுக்கு முற்றிலும் மாறுபட்டது, இது தேவையற்ற மாற்றங்களை அறிமுகப்படுத்தக்கூடும்.

மாதிரியின் உள்ளமைக்கப்பட்ட பாதுகாப்புகளையும் கவனத்தில் கொள்ள வேண்டியது அவசியம். இது குழந்தைகளின் புகைப்படங்களைத் திருத்துவதை தொடர்ந்து மறுக்கிறது மற்றும் நிர்வாணம் தொடர்பான எந்தவொரு உள்ளடக்கத்தையும் கையாளுவதைத் தவிர்க்கிறது, இது பொறுப்பான AI மேம்பாட்டிற்கான கூகிளின் உறுதிப்பாட்டை பிரதிபலிக்கிறது. மேலும் ஆபாசமான பட கையாளுதல்களை ஆராய விரும்பும் பயனர்களுக்கு, OmniGen மிகவும் பொருத்தமான விருப்பமாக இருக்கலாம்.

மாஸ்டரிங் ஸ்டைல் டிரான்ஸ்ஃபர்மேஷன்ஸ்

Gemini 2.0 Flash பாணி மாற்றங்களுக்கு ஒரு குறிப்பிடத்தக்க திறமையைக் காட்டுகிறது. டொனால்ட் டிரம்பின் புகைப்படத்தை ஜப்பானிய மங்கா பாணிக்கு மாற்றுவதற்கான கோரிக்கை, சில முயற்சிகளுக்குப் பிறகு வெற்றிகரமான மறுவடிவமைப்பை அளித்தது.

மாதிரி பரந்த அளவிலான பாணி பரிமாற்றங்களை திறமையாக கையாளுகிறது, புகைப்படங்களை வரைபடங்கள், எண்ணெய் ஓவியங்கள் அல்லது கற்பனை செய்யக்கூடிய எந்த கலை பாணியாகவும் மாற்றுகிறது. வெப்பநிலை அமைப்புகளை சரிசெய்வதன் மூலமும், பல்வேறு வடிப்பான்களை மாற்றுவதன் மூலமும் பயனர்கள் முடிவுகளை நன்றாக மாற்றியமைக்கலாம். இருப்பினும், அதிக வெப்பநிலை அமைப்புகள் அசல் படத்திற்கு குறைவான உண்மையான மாற்றங்களை உருவாக்குகின்றன என்பதைக் கவனத்தில் கொள்ள வேண்டும்.

குறிப்பிட்ட கலைஞர்களுடன் தொடர்புடைய பாணிகளைக் கோரும்போது ஒரு குறிப்பிடத்தக்க வரம்பு வெளிப்படுகிறது. லியோனார்டோ டா வின்சி, மைக்கேலேஞ்சலோ, போட்டிசெல்லி அல்லது வான் கோக் ஆகியோரின் பாணிகளை உள்ளடக்கிய சோதனைகள், AI அவர்களின் தனித்துவமான நுட்பங்களை மூலப் படத்திற்குப் பயன்படுத்துவதற்குப் பதிலாக, இந்த எஜமானர்களின் உண்மையான ஓவியங்களை மறுஉருவாக்கம் செய்தது.

சில உடனடி சுத்திகரிப்பு மற்றும் சில மறு செய்கைகளுடன், பயன்படுத்தக்கூடிய, சுமாரான முடிவை அடைய முடியும். பொதுவாக, குறிப்பிட்ட கலைஞரை விட விரும்பிய கலை பாணியை தூண்டுவது மிகவும் பயனுள்ளதாக இருக்கும்.

உறுப்பு கையாளுதலின் கலை

நடைமுறை எடிட்டிங் பணிகளுக்கு, Gemini 2.0 Flash உண்மையிலேயே சிறந்து விளங்குகிறது. இது இன் பெயிண்டிங் மற்றும் ஆப்ஜெக்ட் கையாளுதலை திறமையாக கையாளுகிறது, கோரிக்கையின் பேரில் குறிப்பிட்ட பொருட்களை தடையின்றி நீக்குகிறது அல்லது ஒரு கலவைக்கு புதிய கூறுகளை சேர்க்கிறது. ஒரு சோதனையில், AI ஒரு கூடைப்பந்தை ஒரு பெரிய ரப்பர் கோழியுடன் மாற்றுமாறு தூண்டப்பட்டது, இது நகைச்சுவையான ஆனால் சூழ்நிலைக்கு பொருத்தமான விளைவை அளித்தது.

பாடங்களில் அவ்வப்போது சிறிய மாற்றங்கள் ஏற்படலாம் என்றாலும், இவை பொதுவாக சில நொடிகளில் நிலையான டிஜிட்டல் எடிட்டிங் கருவிகள் மூலம் எளிதில் சரிசெய்யக்கூடியவை.

ஒருவேளை மிகவும் சர்ச்சைக்குரிய வகையில், மாதிரி பதிப்புரிமை பாதுகாப்புகளை அகற்றுவதில் ஒரு திறமையை நிரூபிக்கிறது - இது X போன்ற தளங்களில் கணிசமான விவாதத்தைத் தூண்டியுள்ளது. வாட்டர்மார்க்ஸ் கொண்ட ஒரு படம் வழங்கப்பட்டு, அனைத்து எழுத்துக்கள், லோகோக்கள் மற்றும் வாட்டர்மார்க்ஸ் ஆகியவற்றை அகற்றுமாறு அறிவுறுத்தப்பட்டபோது, ஜெமினி வாட்டர்மார்க்ஸ் இல்லாத அசலில் இருந்து கிட்டத்தட்ட பிரித்தறிய முடியாத ஒரு சுத்தமான படத்தை உருவாக்கியது.

நேவிகேட்டிங் பெர்ஸ்பெக்டிவ் சேஞ்சஸ்

Gemini-யின் மிகவும் தொழில்நுட்ப ரீதியாக ஈர்க்கக்கூடிய அம்சங்களில் ஒன்று, முன்னோக்கை மாற்றும் திறன் ஆகும் - இது முக்கிய ஸ்ட்ரீம் டிஃப்யூஷன் மாடல்கள் பொதுவாக போராடும் ஒரு சாதனை. AI ஒரு காட்சியை வெவ்வேறு கோணங்களில் இருந்து மறுவடிவமைக்க முடியும், இருப்பினும் முடிவுகள் அசல் துல்லியமான மாற்றங்களை விட புதிய படைப்புகள் ஆகும்.

முன்னோக்கு மாற்றங்கள் குறைபாடற்ற முடிவுகளை அளிக்கவில்லை என்றாலும் - மாதிரி, எல்லாவற்றிற்கும் மேலாக, முழு படத்தையும் ஒரு புதிய கண்ணோட்டத்தில் கருத்தியல் செய்கிறது - அவை இரு பரிமாண உள்ளீடுகளின் அடிப்படையில் முப்பரிமாண இடத்தைப் பற்றிய AI இன் புரிதலில் ஒரு குறிப்பிடத்தக்க முன்னேற்றத்தைக் குறிக்கின்றன.

பின்னணியைக் கையாள மாதிரியை அறிவுறுத்தும் போது சரியான சொற்றொடர் முக்கியமானது. இது பெரும்பாலும் முழு படத்தையும் மாற்றியமைக்கிறது, இதன் விளைவாக முற்றிலும் மாறுபட்ட கலவை ஏற்படுகிறது.

உதாரணமாக, ஒரு சோதனையில், ஜெமினியிடம் ஒரு புகைப்படத்தின் பின்னணியை மாற்றுமாறு கேட்கப்பட்டது, உட்கார்ந்த ரோபோவை அதன் அசல் இருப்பிடத்திற்கு பதிலாக எகிப்தில் வைக்கவும். இந்த அறிவுறுத்தல் பாடத்தை மாற்ற வேண்டாம் என்று வெளிப்படையாகக் கூறியது. இருப்பினும், மாதிரி இந்த குறிப்பிட்ட பணியை துல்லியமாக கையாள போராடியது, அதற்கு பதிலாக பிரமிடுகளைக் கொண்ட ஒரு புதிய கலவையை வழங்கியது, ஒரு ரோபோ நிற்பது, ஆனால் முதன்மை மையமாக இல்லை.

கவனிக்கப்பட்ட மற்றொரு வரம்பு என்னவென்றால், மாதிரி ஒரு படத்தில் பல முறை மீண்டும் செய்ய முடியும் என்றாலும், ஒவ்வொரு அடுத்தடுத்த மறு செய்கையிலும் விவரங்களின் தரம் குறைகிறது. எனவே, விரிவான எடிட்டிங் செய்யும் போது சாத்தியமான தரச் சரிவை நினைவில் கொள்வது அவசியம்.

இந்த சோதனை மாதிரி தற்போது Google AI Studio மற்றும் Gemini API மூலம் டெவலப்பர்களுக்கு அனைத்து ஆதரவு பகுதிகளிலும் அணுகக்கூடியது. கூகிள் உடன் தங்கள் தகவலைப் பகிர விரும்பாத பயனர்களுக்கு இது Hugging Face இல் கிடைக்கிறது.

முடிவில், கூகிளின் இந்த புதிய வழங்கல் நோட்புக் எல்எம் போன்ற ஒரு மறைக்கப்பட்ட ரத்தினமாகத் தெரிகிறது. மற்ற மாதிரிகளால் செய்ய முடியாத ஒன்றை இது சாதிக்கிறது, மேலும் அது ஒரு நல்ல அளவிலான திறமையுடன் செய்கிறது, ஆனாலும் அது ஒப்பீட்டளவில் ரேடாரின் கீழ் உள்ளது. பட எடிட்டிங்கில் ஜெனரேட்டிவ் AI இன் திறனை சோதிக்க விரும்பும் மற்றும் வழியில் சில ஆக்கப்பூர்வமான வேடிக்கைகளை விரும்பும் பயனர்களுக்கு இது சந்தேகத்திற்கு இடமின்றி ஆராயத்தக்கது. விரும்பிய மாற்றங்களை எளிய மொழியில் விவரிக்கும் திறன் சாதாரண பயனர்கள் மற்றும் தொழில் வல்லுநர்கள் இருவருக்கும் சாத்தியக்கூறுகளின் உலகத்தைத் திறக்கிறது, இது பட கையாளுதலின் ஜனநாயகமயமாக்கலில் ஒரு குறிப்பிடத்தக்க படியை குறிக்கிறது. இந்த தொழில்நுட்பம் காட்சி உள்ளடக்கத்துடன் நாம் தொடர்பு கொள்ளும் விதத்தை மறுவடிவமைக்கும் ஆற்றலைக் கொண்டுள்ளது, மேம்பட்ட எடிட்டிங் நுட்பங்களை அனைவருக்கும் அணுகக்கூடியதாக ஆக்குகிறது, அவர்களின் தொழில்நுட்ப திறன்களைப் பொருட்படுத்தாமல். தனிப்பட்ட புகைப்பட மேம்பாடுகள் முதல் தொழில்முறை வடிவமைப்பு பணிப்பாய்வுகள் வரை, முற்றிலும் புதிய காட்சி கலை வடிவங்களை உருவாக்குவது வரை இதன் தாக்கங்கள் பரந்தவை. தொழில்நுட்பம் தொடர்ந்து வளர்ச்சியடைந்து வருவதால், ஆக்கப்பூர்வமான நிலப்பரப்பில் அதன் தாக்கத்தை காண்பது கவர்ச்சிகரமானதாக இருக்கும்.

புதுப்பிக்கப்பட்டது ௨௦௨௫-௦௩-௨௧

# Google # Gemini # AIGC