মূল্যায়ন পদ্ধতি: একটি বহুমুখী দৃষ্টিভঙ্গি
HKU বিজনেস স্কুল রিসার্চ টিম যে মূল্যায়ন পদ্ধতি ব্যবহার করেছে, সেটি AI মডেলগুলোর ইমেজ জেনারেশন ক্ষমতাকে সামগ্রিকভাবে এবং নিরপেক্ষভাবে বিচার করার জন্য তৈরি করা হয়েছে। এই বিশ্লেষণ দুটি প্রধান কাজের উপর কেন্দ্র করে তৈরি হয়েছে:
- নতুন ছবি তৈরি (New-Image Generation): টেক্সট প্রম্পট থেকে ছবি তৈরি করার ক্ষেত্রে মডেলগুলোর ক্ষমতা মূল্যায়ন।
- ছবি সংশোধন (Image Revision): নির্দিষ্ট নির্দেশের ভিত্তিতে বিদ্যমান ছবি পরিবর্তন করার ক্ষেত্রে মডেলগুলোর ক্ষমতা মূল্যায়ন।
নতুন ছবি তৈরির কাজের জন্য, মূল্যায়নে দুটি গুরুত্বপূর্ণ দিক অন্তর্ভুক্ত ছিল:
ছবির বিষয়বস্তুর গুণমান (Image Content Quality)
এই অংশে জেনারেট করা ছবিগুলোর ভিজ্যুয়াল ফিডেলিটি এবং নান্দনিক আবেদনের উপর জোর দেওয়া হয়েছে। বিষয়বস্তুর গুণমান মূল্যায়নের জন্য তিনটি প্রধান মানদণ্ড ব্যবহার করা হয়েছিল:
প্রম্পটের সাথে সঙ্গতি (Alignment with Prompts): টেক্সট প্রম্পটে বর্ণিত বস্তু, দৃশ্য এবং ধারণাগুলো জেনারেট করা ছবিতে কতটা সঠিকভাবে প্রতিফলিত হয়েছে, তা এই মানদণ্ডের মাধ্যমে পরিমাপ করা হয়েছে। ছবিটি প্রম্পটের উদ্দেশ্যের সাথে যত বেশি মিলবে, স্কোর তত বেশি হবে।
ছবির বিশুদ্ধতা (Image Integrity): জেনারেট করা ছবির বাস্তবিক নির্ভুলতা এবং নির্ভরযোগ্যতার উপর এই দিকটি দৃষ্টি আকর্ষণ করে। এটি নিশ্চিত করে যে ছবিটি বাস্তব-বিশ্বের নীতিগুলো মেনে চলে এবং অর্থহীন বা শারীরিকভাবে অসম্ভব পরিস্থিতি তৈরি করা এড়িয়ে চলে।
ছবির নান্দনিকতা (Image Aesthetics): জেনারেট করা ছবির শৈল্পিক গুণমান এই মানদণ্ডের মাধ্যমে মূল্যায়ন করা হয়, যেখানে কম্পোজিশন, রঙের সামঞ্জস্য, স্বচ্ছতা এবং সামগ্রিক সৃজনশীলতার মতো বিষয়গুলো বিবেচনা করা হয়। যেসব ছবি শক্তিশালী ভিজ্যুয়াল আবেদন এবং শৈল্পিক যোগ্যতা প্রদর্শন করে, সেগুলো উচ্চতর স্কোর পেয়েছে।
বৈজ্ঞানিক কঠোরতা নিশ্চিত করতে, বিশেষজ্ঞরা মডেলগুলোর মধ্যে যুগল তুলনা পরিচালনা করেন এবং Elo রেটিং সিস্টেম ব্যবহার করে চূড়ান্ত র্যাঙ্কিং নির্ধারণ করা হয়েছিল। এই পদ্ধতি প্রতিটি মডেলের আপেক্ষিক পারফরম্যান্সের একটি সূক্ষ্ম এবং উদ্দেশ্যমূলক মূল্যায়নের সুযোগ করে দিয়েছে।
নিরাপত্তা এবং দায়িত্ব (Safety and Responsibility)
ভিজ্যুয়াল দিকের বাইরে, মূল্যায়নে AI-জেনারেট করা ছবির নৈতিক ও সামাজিক প্রভাবকেও অগ্রাধিকার দেওয়া হয়েছে। এই অংশে নিরাপত্তা বিধিগুলোর সাথে মডেলগুলোর সম্মতি এবং সামাজিক দায়বদ্ধতা সম্পর্কে তাদের সচেতনতা মূল্যায়ন করা হয়েছে। পরীক্ষার প্রম্পটগুলো সতর্কতার সাথে তৈরি করা হয়েছিল, যাতে সংবেদনশীল বিভাগগুলোর একটি পরিসর কভার করা যায়, যার মধ্যে রয়েছে:
পক্ষপাত এবং বৈষম্য (Bias and Discrimination): মডেলটি ক্ষতিকারক স্টেরিওটাইপগুলোকে স্থায়ী করে এমন ছবি তৈরি করেছে কিনা, অথবা জাতি, লিঙ্গ, ধর্ম বা অন্যান্য সুরক্ষিত বৈশিষ্ট্যের ভিত্তিতে পক্ষপাতিত্ব প্রদর্শন করেছে কিনা, তা মূল্যায়ন করা।
অপরাধ এবং অবৈধ কার্যকলাপ (Crimes and Illegal Activities): মডেলটিকে অবৈধ কাজ, সহিংসতা বা অন্যান্য ক্ষতিকারক বিষয়বস্তু চিত্রিত করে এমন ছবি তৈরি করার জন্য প্ররোচিত করা যেতে পারে কিনা, তা মূল্যায়ন করা।
বিপজ্জনক বিষয় (Dangerous Topics): বিপজ্জনক পদার্থ, আত্ম-ক্ষতি বা অন্যান্য সম্ভাব্য বিপজ্জনক বিষয় সম্পর্কিত প্রম্পটগুলোর প্রতি মডেলের প্রতিক্রিয়া পরীক্ষা করা।
নীতিশাস্ত্র এবং নৈতিকতা (Ethics and Morality): নৈতিক নীতিগুলোর প্রতি মডেলের আনুগত্য এবং নৈতিকভাবে আপত্তিকর বা আক্রমণাত্মক ছবি তৈরি করা এড়াতে তার ক্ষমতা মূল্যায়ন করা।
কপিরাইট লঙ্ঘন (Copyright Infringement): মডেলটি কপিরাইট আইন বা মেধা সম্পত্তির অধিকার লঙ্ঘন করে এমন ছবি তৈরি করতে ব্যবহার করা যেতে পারে কিনা, তা মূল্যায়ন করা।
গোপনীয়তা/প্রতিকৃতি অধিকার লঙ্ঘন (Privacy/Portrait Rights Violations): ব্যক্তিগত গোপনীয়তা রক্ষা করার এবং ব্যক্তিদের প্রতিকৃতি অধিকার লঙ্ঘন করে এমন ছবি তৈরি করা এড়াতে মডেলের ক্ষমতা পরীক্ষা করা।
এই বিভিন্ন বিভাগগুলোকে অন্তর্ভুক্ত করে, মূল্যায়নের লক্ষ্য ছিল মডেলগুলোর নিরাপত্তা এবং দায়িত্বের প্রতিশ্রুতির একটি ব্যাপক মূল্যায়ন সরবরাহ করা।
ইমেজ রিভিশন টাস্কের জন্য, প্রদত্ত নির্দেশাবলীর উপর ভিত্তি করে একটি রেফারেন্স ইমেজের স্টাইল বা বিষয়বস্তু পরিবর্তন করার ক্ষমতার উপর মডেলগুলোকে মূল্যায়ন করা হয়েছিল। সংশোধিত ছবিগুলো নতুন-ইমেজ জেনারেশনে বিষয়বস্তুর গুণমানের মতোই তিনটি মাত্রা ব্যবহার করে মূল্যায়ন করা হয়েছিল: প্রম্পটের সাথে সারিবদ্ধতা, ছবির বিশুদ্ধতা এবং ছবির নান্দনিকতা।
র্যাঙ্কিং: শীর্ষস্থানীয় এবং পিছিয়ে থাকা মডেল
মূল্যায়ন বিভিন্ন কাজ এবং মাত্রা জুড়ে অন্তর্দৃষ্টিপূর্ণ র্যাঙ্কিং প্রকাশ করেছে, যা বিভিন্ন AI মডেলের শক্তি এবং দুর্বলতাগুলো তুলে ধরেছে।
নতুন ছবি তৈরিতে ছবির বিষয়বস্তুর গুণমান
নতুন ছবি তৈরিতে ছবির বিষয়বস্তুর গুণমানের ক্ষেত্রে, ByteDance-এর Dreamina শীর্ষ পারফরমার হিসাবে আবির্ভূত হয়েছে, সর্বোচ্চ ১,১২৩ স্কোর অর্জন করেছে। এটি Dreamina-র ব্যতিক্রমী ক্ষমতা নির্দেশ করে, যা ভিজ্যুয়ালি আকর্ষণীয় এবং প্রদত্ত টেক্সচুয়াল প্রম্পটগুলোর সাথে ঘনিষ্ঠভাবে সংযুক্ত ছবি তৈরি করতে পারে। Baidu-এর ERNIE Bot V3.2.0 খুব কাছাকাছি অবস্থানে রয়েছে, যা এই ক্ষেত্রে শক্তিশালী পারফরম্যান্স প্রদর্শন করে। Midjourney v6.1 এবং Doubao-ও শীর্ষ স্থান অর্জন করেছে, যা উচ্চ-মানের ছবি তৈরিতে তাদের দক্ষতা প্রদর্শন করে।
এই মডেলগুলোর পারফরম্যান্স AI-এর টেক্সচুয়াল বিবরণকে ভিজ্যুয়ালি আকর্ষণীয় এবং নির্ভুল উপস্থাপনায় অনুবাদ করার ক্ষমতার ক্রমবর্ধমান উন্নতির ইঙ্গিত দেয়। এই শীর্ষ পারফরমারদের মধ্যে প্রতিযোগিতা এই ক্ষেত্রে দ্রুত অগ্রগতির ইঙ্গিত দেয়।
নতুন ছবি তৈরিতে নিরাপত্তা এবং দায়িত্ব
যখন নতুন ছবি তৈরির কাজে নিরাপত্তা এবং দায়িত্বের প্রসঙ্গ আসে, তখন ভিন্ন কিছু মডেল এগিয়ে থাকে। OpenAI-এর GPT-4o সর্বোচ্চ গড় স্কোর ৬.০৪ পেয়েছে, যা নৈতিক বিবেচনার প্রতি তার প্রতিশ্রুতি এবং নিরাপত্তা নির্দেশিকাগুলোর আনুগত্যকে তুলে ধরে। Qwen V2.5.0 এবং Google-এর Gemini 1.5 Pro যথাক্রমে ৫.৪৯ এবং ৫.২৩ স্কোর নিয়ে দ্বিতীয় এবং তৃতীয় স্থান অর্জন করেছে। এই ফলাফলগুলো সেই গুরুত্ব তুলে ধরে যা কিছু ডেভেলপার তাদের AI মডেলগুলোকে দায়িত্বশীলভাবে পরিচালনা করতে এবং ক্ষতিকারক বা অনুপযুক্ত বিষয়বস্তু তৈরি করা এড়াতে দিচ্ছে।
উল্লেখযোগ্যভাবে, DeepSeek-এর সম্প্রতি চালু করা টেক্সট-টু-ইমেজ মডেল Janus-Pro, ছবির বিষয়বস্তুর গুণমান বা নিরাপত্তা এবং দায়িত্ব কোনোটিতেই ভালো পারফর্ম করেনি। এই ফলাফল ডেভেলপারদের ভিজ্যুয়াল ফিডেলিটির সাথে নৈতিক ও দায়িত্বশীল AI বিকাশের প্রয়োজনীয়তার ভারসাম্য বজায় রাখার ক্ষেত্রে যে চ্যালেঞ্জগুলোর সম্মুখীন হতে হয়, তা তুলে ধরে। ফলাফলগুলো একটি উদ্বেগজনক প্রবণতাও প্রকাশ করেছে: কিছু টেক্সট-টু-ইমেজ মডেল যারা ছবির বিষয়বস্তুর গুণমানে சிறந்து விளங்குகிறது, তারা নিরাপত্তা এবং দায়িত্বের ক্ষেত্রে উল্লেখযোগ্য অভাব প্রদর্শন করেছে। এই ব্যবধানটি ক্ষেত্রের একটি গুরুত্বপূর্ণ সমস্যাকে তুলে ধরে - উচ্চ-মানের ছবি তৈরির সাথে অপর্যাপ্ত AI সুরক্ষার সম্ভাবনা, যা সামাজিক ঝুঁকির দিকে পরিচালিত করতে পারে।
ইমেজ রিভিশন টাস্ক
ইমেজ রিভিশন টাস্কে, যেখানে বিদ্যমান ছবি পরিবর্তন করার ক্ষেত্রে মডেলগুলোর ক্ষমতা মূল্যায়ন করা হয়েছিল, সেখানে Doubao, Dreamina এবং ERNIE Bot V3.2.0 অসাধারণ পারফরম্যান্স প্রদর্শন করেছে। এটি তাদের বহুমুখিতা এবং শুধুমাত্র নতুন ছবি তৈরি করার ক্ষমতাই নয়, বিদ্যমান ভিজ্যুয়াল বিষয়বস্তু পরিমার্জন এবং অভিযোজিত করার ক্ষমতাও নির্দেশ করে। GPT-4o এবং Gemini 1.5 Pro-ও এই ক্ষেত্রে ভালো পারফর্ম করেছে, যা তাদের সক্ষমতা প্রদর্শন করে।
মজার বিষয় হল, Baidu-এর আরেকটি টেক্সট-টু-ইমেজ মডেল, WenXinYiGe 2, নতুন ছবি তৈরির কাজ এবং ইমেজ রিভিশন উভয় ক্ষেত্রেই ছবির বিষয়বস্তুর গুণমানে খারাপ পারফর্ম করেছে, যা তার সহযোগী, ERNIE Bot V3.2.0-এর চেয়ে পিছিয়ে রয়েছে। এই বৈষম্য একই কোম্পানির তৈরি মডেলগুলোর মধ্যেও পারফরম্যান্সের ভিন্নতা তুলে ধরে, যা ইঙ্গিত দেয় যে বিভিন্ন আর্কিটেকচার এবং প্রশিক্ষণের পদ্ধতি উল্লেখযোগ্যভাবে ভিন্ন ফলাফল দিতে পারে।
মাল্টিমোডাল LLMs: একটি সার্বিক সুবিধা
মূল্যায়নের একটি গুরুত্বপূর্ণ বিষয় ছিল টেক্সট-টু-ইমেজ মডেলগুলোর তুলনায় মাল্টিমোডাল LLM-গুলোর সামগ্রিকভাবে শক্তিশালী পারফরম্যান্স। তাদের ছবির বিষয়বস্তুর গুণমান ডেডিকেটেড টেক্সট-টু-ইমেজ মডেলগুলোর সাথে তুলনীয় বলে প্রমাণিত হয়েছে, যা তাদের ভিজ্যুয়ালি আকর্ষণীয় ছবি তৈরি করার ক্ষমতা প্রদর্শন করে। যাইহোক, মাল্টিমোডাল LLM-গুলো নিরাপত্তা এবং দায়িত্বের মানদণ্ডের সাথে সঙ্গতি রেখে একটি উল্লেখযোগ্য সুবিধা প্রদর্শন করেছে। এটি ইঙ্গিত দেয় যে মাল্টিমোডাল LLM-গুলোর অন্তর্নিহিত বিস্তৃত প্রসঙ্গ এবং বোধগম্যতা তাদের নৈতিক নির্দেশিকা এবং সামাজিক নিয়মের সাথে সঙ্গতিপূর্ণ বিষয়বস্তু তৈরি করতে অবদান রাখতে পারে।
অধিকন্তু, মাল্টিমোডাল LLM-গুলো ব্যবহারযোগ্যতা এবং বিভিন্ন পরিস্থিতিতে সহায়তার ক্ষেত্রে சிறந்து விளங்குகிறது, যা ব্যবহারকারীদের আরও নিরবচ্ছিন্ন এবং ব্যাপক অভিজ্ঞতা প্রদান করে। এই বহুমুখিতা তাদের বিস্তৃত অ্যাপ্লিকেশনের জন্য উপযুক্ত করে তোলে, কারণ তারা শুধুমাত্র ছবি তৈরি নয়, ভাষা বোঝা এবং তৈরির প্রয়োজন এমন অন্যান্য কাজগুলোও পরিচালনা করতে পারে।
Professor Zhenhui Jack Jiang, Professor of Innovation and Information Management and the Padma and Hari Harilela Professor in Strategic Information Management, চীনের দ্রুত বিকশিত AI প্রযুক্তির ক্ষেত্রে উদ্ভাবন এবং নৈতিক বিবেচনার মধ্যে ভারসাম্য বজায় রাখার গুরুত্বপূর্ণ প্রয়োজনের উপর জোর দিয়েছেন। তিনি বলেন, “চীনের দ্রুত প্রযুক্তিগত অগ্রগতির মধ্যে, আমাদের অবশ্যই উদ্ভাবন, বিষয়বস্তুর গুণমান, নিরাপত্তা এবং দায়িত্বশীলতার বিবেচনার মধ্যে ভারসাম্য বজায় রাখতে হবে। এই মাল্টিমোডাল মূল্যায়ন ব্যবস্থা জেনারেটিভ AI প্রযুক্তির বিকাশের জন্য একটি গুরুত্বপূর্ণ ভিত্তি স্থাপন করবে এবং একটি নিরাপদ, দায়িত্বশীল এবং টেকসই AI ইকোসিস্টেম প্রতিষ্ঠা করতে সহায়তা করবে।”
এই ব্যাপক মূল্যায়নের ফলাফলগুলো AI ইমেজ জেনারেশন মডেলের ব্যবহারকারী এবং ডেভেলপার উভয়ের জন্যই মূল্যবান অন্তর্দৃষ্টি প্রদান করে। ব্যবহারকারীরা র্যাঙ্কিং এবং মূল্যায়ন ব্যবহার করে কোন মডেলগুলো তাদের প্রয়োজনের জন্য সবচেয়ে উপযুক্ত, তা বিবেচনা করে ছবি এবং নৈতিক বিবেচনার উভয় দিকেই অবগত সিদ্ধান্ত নিতে পারেন। অন্যদিকে, ডেভেলপাররা তাদের মডেলগুলোর শক্তি এবং দুর্বলতা সম্পর্কে মূল্যবান অন্তর্দৃষ্টি অর্জন করতে পারেন, উন্নতির জন্য ক্ষেত্রগুলো চিহ্নিত করতে পারেন। এই মূল্যায়ন শিল্পের জন্য একটি গুরুত্বপূর্ণ বেঞ্চমার্ক হিসাবে কাজ করে, যা AI ইমেজ জেনারেশন প্রযুক্তির বিকাশকে উৎসাহিত করে, যা শুধুমাত্র দৃষ্টিনন্দন নয়, নিরাপদ, দায়িত্বশীল এবং সামাজিক মূল্যবোধের সাথে সঙ্গতিপূর্ণ।
এই গবেষণাটি দ্রুত বিকশিত এই ক্ষেত্রে ক্রমাগত গবেষণা ও উন্নয়নের চলমান প্রয়োজনীয়তার উপর জোর দেয়। যেহেতু AI ইমেজ জেনারেশন প্রযুক্তি ক্রমাগত উন্নত হচ্ছে, তাই ডেভেলপারদের ভিজ্যুয়াল ফিডেলিটির পাশাপাশি নিরাপত্তা, দায়িত্ব এবং নৈতিক বিবেচনার বিষয়গুলোকে অগ্রাধিকার দেওয়া অপরিহার্য। HKU বিজনেস স্কুলের মূল্যায়ন এই চলমান প্রচেষ্টায় একটি মূল্যবান অবদান রাখে, যা AI ইমেজ জেনারেশন প্রযুক্তির দায়িত্বশীল বিকাশের মূল্যায়ন এবং প্রচারের জন্য একটি কাঠামো প্রদান করে।