ইমেজ ম্যানিপুলেশনের একটি নতুন যুগ
বিদ্যমান অনেক AI ইমেজ টুল প্রাথমিকভাবে স্ক্র্যাচ থেকে সম্পূর্ণ নতুন ছবি তৈরি করার উপর ফোকাস করে, Gemini 2.0 Flash নিজেকে আলাদা করে তোলে বিদ্যমান ফটোগ্রাফগুলি বোঝার এবং পরিবর্তন করার ক্ষমতার মাধ্যমে। এই সিস্টেমটি একটি ফটোর বিষয়বস্তু এত ভালোভাবে বোঝে যে এটি কথোপকথনমূলক নির্দেশের উপর ভিত্তি করে নির্দিষ্ট পরিবর্তন করতে পারে, সবই মূল চিত্রের সারমর্ম সংরক্ষণ করার সময়।
এই অসাধারণ কৃতিত্ব Gemini 2.0-এর অন্তর্নিহিত মাল্টিমোডাল প্রকৃতির মাধ্যমে অর্জিত হয়েছে। এটি নির্বিঘ্নে টেক্সট এবং ইমেজ উভয়ই একসাথে প্রক্রিয়া করে। মডেলটি চতুরতার সাথে চিত্রগুলিকে ‘টোকেন’-এ রূপান্তর করে - একই মৌলিক একক যা এটি টেক্সট প্রক্রিয়াকরণের জন্য নিযুক্ত করে। এটি এটিকে ভিজ্যুয়াল বিষয়বস্তুকে ম্যানিপুলেট করার অনুমতি দেয় সেই একই নিউরাল পথ ব্যবহার করে যা এটি ভাষা বোঝার জন্য ব্যবহার করে। এই ইউনিফাইড পদ্ধতি বিভিন্ন মিডিয়া প্রকারগুলি পরিচালনা করার জন্য পৃথক, বিশেষ মডেলগুলির প্রয়োজনীয়তা দূর করে, সমগ্র প্রক্রিয়াটিকে স্ট্রিমলাইন করে।
Google তার অফিসিয়াল ঘোষণায় বলেছে, ‘Gemini 2.0 Flash মাল্টিমোডাল ইনপুট, উন্নত যুক্তি এবং প্রাকৃতিক ভাষা বোঝার ক্ষমতা ব্যবহার করে ছবি তৈরি করে।’ ‘কল্পনা করুন Gemini 2.0 Flash ব্যবহার করে একটি গল্প বলছেন, এবং এটি ছবি দিয়ে এটিকে চিত্রিত করছে, অক্ষর এবং সেটিংসে ধারাবাহিকতা বজায় রেখে। প্রতিক্রিয়া প্রদান করুন, এবং মডেলটি গল্পটিকে অভিযোজিত করবে বা এর অঙ্কনের শৈলী পরিবর্তন করবে।’
এই পদ্ধতি Google-কে OpenAI-এর মতো প্রতিযোগীদের থেকে আলাদা করে। যদিও ChatGPT, Dall-E 3 ব্যবহার করে ছবি তৈরি করতে পারে এবং প্রাকৃতিক ভাষা বোঝার মাধ্যমে তার সৃষ্টিকে পুনরাবৃত্তি করতে পারে, এটি অর্জনের জন্য একটি পৃথক AI মডেলের উপর নির্ভর করে। সংক্ষেপে, ChatGPT ভিশনের জন্য GPT-V, ভাষার জন্য GPT-4o এবং ইমেজ জেনারেশনের জন্য Dall-E 3-এর মধ্যে একটি জটিল আন্তঃপ্লে পরিচালনা করে। OpenAI, যাইহোক, ভবিষ্যতের GPT-5 এর সাথে একটি একক, সর্বব্যাপী মডেল অর্জনের প্রত্যাশা করে।
বেইজিং একাডেমি অফ আর্টিফিশিয়াল ইন্টেলিজেন্স-এর গবেষকদের দ্বারা তৈরি OmniGen-এর সাথে ওপেন-সোর্স ক্ষেত্রে একটি সমান্তরাল ধারণা বিদ্যমান। এর নির্মাতারা ‘অতিরিক্ত প্লাগইন বা অপারেশনের প্রয়োজন ছাড়াই, নির্বিচারে মাল্টিমোডাল নির্দেশের মাধ্যমে সরাসরি বিভিন্ন ধরণের ছবি তৈরি করার কল্পনা করেছেন, যেভাবে GPT ভাষা তৈরিতে কাজ করে।’
OmniGen অবজেক্ট পরিবর্তন, দৃশ্য মার্জিং এবং নান্দনিক সমন্বয়ের মতো ক্ষমতা নিয়ে গর্ব করে। যাইহোক, এটি নতুন Gemini-এর তুলনায় উল্লেখযোগ্যভাবে কম ব্যবহারকারী-বান্ধব, নিম্ন রেজোলিউশনে কাজ করে, আরও জটিল কমান্ডের দাবি রাখে এবং শেষ পর্যন্ত Google-এর অফারটির নিছক শক্তির অভাব রয়েছে৷ তবুও, এটি নির্দিষ্ট ব্যবহারকারীদের জন্য একটি আকর্ষক ওপেন-সোর্স বিকল্প উপস্থাপন করে।
Gemini 2.0 Flash-এর পরীক্ষা
Gemini 2.0 Flash-এর ক্ষমতা এবং সীমাবদ্ধতাগুলি সত্যিকার অর্থে বোঝার জন্য, বিভিন্ন সম্পাদনার পরিস্থিতি অন্বেষণ করে একাধিক ব্যবহারিক পরীক্ষা করা হয়েছিল। ফলাফলগুলি চিত্তাকর্ষক শক্তি এবং সম্ভাব্য উন্নতির জন্য কিছু ক্ষেত্র প্রদর্শন করে।
যথার্থতার সাথে বাস্তবসম্মত বিষয় পরিবর্তন করা
মডেলটি বাস্তবসম্মত বিষয়গুলি পরিবর্তন করার জন্য অসাধারণ সমন্বয় প্রদর্শন করে। উদাহরণস্বরূপ, একটি সেল্ফ-পোর্ট্রেট পরীক্ষায়, পেশী সংজ্ঞা যুক্ত করার অনুরোধে কাঙ্ক্ষিত ফলাফল পাওয়া গেছে। যদিও ছোটখাটো মুখের পরিবর্তন ঘটেছে, সামগ্রিক স্বীকৃতি বজায় ছিল।
গুরুত্বপূর্ণভাবে, ফটোর মধ্যে থাকা অন্যান্য উপাদানগুলি অনেকাংশে অপরিবর্তিত ছিল, যা AI-এর শুধুমাত্র নির্দিষ্ট পরিবর্তনের উপর ফোকাস করার ক্ষমতা প্রদর্শন করে। এই টার্গেটেড এডিটিং ক্ষমতা সাধারণ জেনারেটিভ পদ্ধতির সাথে তীব্রভাবে বিপরীত, যা প্রায়শই সম্পূর্ণ ছবি পুনর্গঠন করে, সম্ভাব্য অবাঞ্ছিত পরিবর্তনগুলি প্রবর্তন করে।
মডেলের অন্তর্নির্মিত সুরক্ষাও লক্ষ করা গুরুত্বপূর্ণ। এটি ধারাবাহিকভাবে শিশুদের ছবি সম্পাদনা করতে অস্বীকার করে এবং নগ্নতা সম্পর্কিত যেকোনো বিষয়বস্তু পরিচালনা করা এড়িয়ে যায়, যা দায়িত্বশীল AI বিকাশে Google-এর প্রতিশ্রুতির প্রতিফলন করে। যে ব্যবহারকারীরা আরও ঝুঁকিপূর্ণ ইমেজ ম্যানিপুলেশন অন্বেষণ করতে চান, তাদের জন্য OmniGen আরও উপযুক্ত বিকল্প হতে পারে।
স্টাইল পরিবর্তনে দক্ষতা
Gemini 2.0 Flash স্টাইল রূপান্তরের ক্ষেত্রে একটি অসাধারণ দক্ষতা প্রদর্শন করে। জাপানিজ মাঙ্গার (Japanese manga) স্টাইলে ডোনাল্ড ট্রাম্পের একটি ছবিকে রূপান্তর করার অনুরোধ কয়েকটি প্রচেষ্টার পর একটি সফল পুনঃকল্পনা প্রদান করে।
মডেলটি দক্ষতার সাথে স্টাইল স্থানান্তরের একটি বিস্তৃত বর্ণালী পরিচালনা করে, ফটোগুলিকে অঙ্কন, তেল রঙে বা কার্যত কল্পনাযোগ্য যেকোনো শৈল্পিক শৈলীতে রূপান্তর করে। ব্যবহারকারীরা তাপমাত্রার সেটিংস সামঞ্জস্য করে এবং বিভিন্ন ফিল্টার টগল করে ফলাফলগুলিকে সূক্ষ্ম-সুর করতে পারেন। যাইহোক, এটি লক্ষণীয় যে উচ্চতর তাপমাত্রার সেটিংস এমন রূপান্তর তৈরি করে যা মূল চিত্রের প্রতি কম বিশ্বস্ত।
নির্দিষ্ট শিল্পীদের সাথে যুক্ত শৈলীর অনুরোধ করার সময় একটি উল্লেখযোগ্য সীমাবদ্ধতা দেখা দেয়। লিওনার্দো দা ভিঞ্চি, মাইকেলেঞ্জেলো, বোটিসেলি বা ভ্যান গঘের শৈলী জড়িত পরীক্ষায় AI এই মাস্টারদের প্রকৃত পেইন্টিংগুলি পুনরুত্পাদন করার পরিবর্তে উৎস চিত্রে তাদের স্বতন্ত্র কৌশলগুলি প্রয়োগ করে।
কিছু প্রম্পট পরিমার্জন এবং কয়েকটি পুনরাবৃত্তির সাথে, একটি ব্যবহারযোগ্য, যদিও মাঝারি, ফলাফল অর্জন করা যেতে পারে। সাধারণত, নির্দিষ্ট শিল্পীর পরিবর্তে কাঙ্ক্ষিত শিল্পের শৈলীকে প্রম্পট করা আরও কার্যকর।
উপাদান ম্যানিপুলেশনের শিল্প
ব্যবহারিক সম্পাদনার কাজগুলির জন্য, Gemini 2.0 Flash সত্যিই சிறந்து விளங்கு- (sri-lanthu viLangku - excelled) করে। এটি দক্ষতার সাথে ইনপেইন্টিং এবং অবজেক্ট ম্যানিপুলেশন পরিচালনা করে, অনুরোধের ভিত্তিতে নির্দিষ্ট অবজেক্টগুলিকে নির্বিঘ্নে সরিয়ে দেয় বা একটি কম্পোজিশনে নতুন উপাদান যুক্ত করে। একটি পরীক্ষায়, AI-কে একটি বাস্কেটবলকে একটি বিশাল রাবারের মুরগি দিয়ে প্রতিস্থাপন করার জন্য অনুরোধ করা হয়েছিল, যা একটি হাস্যকর কিন্তু প্রাসঙ্গিকভাবে উপযুক্ত ফলাফল প্রদান করে।
যদিও বিষয়গুলিতে মাঝে মাঝে ছোটখাটো পরিবর্তন ঘটতে পারে, তবে এগুলি সাধারণত কয়েক সেকেন্ডের মধ্যে স্ট্যান্ডার্ড ডিজিটাল এডিটিং সরঞ্জামগুলির সাহায্যে সহজেই সংশোধনযোগ্য।
সম্ভবত সবচেয়ে বিতর্কিতভাবে, মডেলটি কপিরাইট সুরক্ষা অপসারণে একটি দক্ষতা প্রদর্শন করে - এমন একটি বৈশিষ্ট্য যা X-এর মতো প্ল্যাটফর্মগুলিতে যথেষ্ট আলোচনার জন্ম দিয়েছে। যখন ওয়াটারমার্কযুক্ত একটি চিত্র উপস্থাপন করা হয় এবং সমস্ত অক্ষর, লোগো এবং ওয়াটারমার্কগুলি সরানোর নির্দেশ দেওয়া হয়, তখন Gemini একটি পরিষ্কার চিত্র তৈরি করে যা কার্যত ওয়াটারমার্কবিহীন মূল থেকে আলাদা করা যায় না।
পার্সপেক্টিভ পরিবর্তন
Gemini-র সবচেয়ে প্রযুক্তিগতভাবে চিত্তাকর্ষক দিকগুলির মধ্যে একটি হল এর দৃষ্টিকোণ পরিবর্তন করার ক্ষমতা – এমন একটি কীর্তি যা মূলধারার ডিফিউশন মডেলগুলি সাধারণত করতে পারে না। AI বিভিন্ন কোণ থেকে একটি দৃশ্যের পুনঃকল্পনা করতে পারে, যদিও ফলাফলগুলি মূলের সুনির্দিষ্ট রূপান্তরের পরিবর্তে মূলত নতুন সৃষ্টি।
যদিও দৃষ্টিকোণ পরিবর্তনগুলি নিখুঁত ফলাফল দেয় না – মডেলটি, সর্বোপরি, একটি নতুন দৃষ্টিকোণ থেকে সম্পূর্ণ চিত্রটির ধারণা দিচ্ছে – তারা দ্বি-মাত্রিক ইনপুটগুলির উপর ভিত্তি করে ত্রিমাত্রিক স্থানের AI-এর বোধগম্যতার ক্ষেত্রে একটি উল্লেখযোগ্য অগ্রগতি উপস্থাপন করে।
মডেলটিকে ব্যাকগ্রাউন্ড ম্যানিপুলেট করার নির্দেশ দেওয়ার সময় সঠিক শব্দচয়ন অত্যন্ত গুরুত্বপূর্ণ। এটি প্রায়শই পুরো ছবিটি পরিবর্তন করে, যার ফলে একটি আমূল ভিন্ন কম্পোজিশন হয়।
উদাহরণস্বরূপ, একটি পরীক্ষায়, Gemini-কে একটি ছবির ব্যাকগ্রাউন্ড পরিবর্তন করতে বলা হয়েছিল, একটি বসা রোবটকে তার মূল অবস্থানের পরিবর্তে মিশরে স্থাপন করতে। নির্দেশে স্পষ্টভাবে বলা হয়েছিল যে বিষয় পরিবর্তন না করতে। যাইহোক, মডেলটি এই নির্দিষ্ট কাজটি সঠিকভাবে পরিচালনা করতে সংগ্রাম করে, পরিবর্তে পিরামিড সমন্বিত একটি সম্পূর্ণ নতুন কম্পোজিশন প্রদান করে, যেখানে একটি রোবট দাঁড়িয়ে আছে, কিন্তু প্রাথমিক ফোকাস হিসাবে নয়।
আরেকটি পরিলক্ষিত সীমাবদ্ধতা হল যে মডেলটি একটি একক চিত্রের উপর একাধিকবার পুনরাবৃত্তি করতে পারে, প্রতিটি ধারাবাহিক পুনরাবৃত্তির সাথে বিশদের গুণমান হ্রাস পায়। অতএব, ব্যাপক সম্পাদনা করার সময় সম্ভাব্য গুণমান হ্রাসের বিষয়ে সচেতন হওয়া অপরিহার্য।
এই পরীক্ষামূলক মডেলটি বর্তমানে Google AI Studio এবং Gemini API-এর মাধ্যমে সমস্ত সমর্থিত অঞ্চল জুড়ে ডেভেলপারদের কাছে অ্যাক্সেসযোগ্য। এটি Hugging Face-এ এমন ব্যবহারকারীদের জন্যও উপলব্ধ যারা Google-এর সাথে তাদের তথ্য শেয়ার করতে পছন্দ করেন না।
উপসংহারে, Google-এর এই নতুন অফারটি NotebookLM-এর মতোই একটি লুকানো রত্ন বলে মনে হচ্ছে। এটি এমন কিছু অর্জন করে যা অন্যান্য মডেলগুলি পারে না, এবং এটি একটি ভাল স্তরের দক্ষতার সাথে করে, তবুও এটি তুলনামূলকভাবে রাডারের নীচে রয়ে গেছে। যারা ইমেজ এডিটিং-এ জেনারেটিভ AI-এর সম্ভাবনা নিয়ে পরীক্ষা করতে চান এবং সেই পথে কিছু সৃজনশীল মজা করতে চান তাদের জন্য এটি নিঃসন্দেহে অন্বেষণ করার মতো। সাধারণ ভাষায় কাঙ্খিত পরিবর্তনগুলি বর্ণনা করার ক্ষমতা নৈমিত্তিক ব্যবহারকারী এবং পেশাদার উভয়ের জন্যই সম্ভাবনার একটি জগত খুলে দেয়, যা ইমেজ ম্যানিপুলেশনের গণতন্ত্রীকরণের ক্ষেত্রে একটি উল্লেখযোগ্য পদক্ষেপ চিহ্নিত করে। এই প্রযুক্তির ভিজ্যুয়াল বিষয়বস্তুর সাথে আমাদের মিথস্ক্রিয়াকে পুনর্নির্মাণ করার ক্ষমতা রয়েছে, উন্নত সম্পাদনা কৌশলগুলিকে প্রত্যেকের কাছে অ্যাক্সেসযোগ্য করে তোলে, তাদের প্রযুক্তিগত দক্ষতা নির্বিশেষে। এর প্রভাবগুলি ব্যক্তিগত ফটো বর্ধিতকরণ থেকে পেশাদার ডিজাইন ওয়ার্কফ্লো এবং এমনকি সম্পূর্ণ নতুন ধরণের ভিজ্যুয়াল আর্ট তৈরি করা পর্যন্ত বিস্তৃত। প্রযুক্তি বিকশিত হওয়ার সাথে সাথে, সৃজনশীল দৃশ্যের উপর এর প্রভাব প্রত্যক্ষ করা আকর্ষণীয় হবে।