AI ماڈلز کی تصویر بنانے کی صلاحیت پر رپورٹ

AI ماڈلز کی تصویر بنانے کی صلاحیتوں پر HKU بزنس سکول کی جامع تشخیصی رپورٹ

جنریٹیو آرٹیفیشل انٹیلی جنس (AI) کے تیز رفتار ارتقاء نے تصویر کے تجزیے اور تخلیق کے میدان میں نمایاں ترقی کی ہے۔ تاہم، AI امیج جنریشن ماڈلز کا ابھرتا ہوا شعبہ ابھی ابتدائی مراحل میں ہے، جس میں ترقی اور بہتری کی کافی گنجائش ہے۔ موجودہ سسٹم اکثر تعصبات سے نبرد آزما ہوتے ہیں اور سخت حفاظتی اور احتسابی معیارات پر پورا اترنے کے لیے جدوجہد کرتے ہیں۔ اس اہم موڑ کو تسلیم کرتے ہوئے، HKU بزنس سکول نے معروف AI ماڈلز کا ایک جامع جائزہ لیا ہے، جو ان کی تصویر بنانے کی صلاحیتوں کا ایک منظم جائزہ پیش کرتا ہے۔

یہ رپورٹ 15 ٹیکسٹ ٹو امیج ماڈلز اور 7 ملٹی موڈل لارج لینگویج ماڈلز (LLMs) کا گہرائی سے تجزیہ فراہم کرتی ہے، جو ان کی خوبیوں اور خامیوں پر روشنی ڈالتی ہے۔ HKU بزنس سکول کے محققین کی جانب سے احتیاط سے تیار کردہ تشخیصی فریم ورک دو بنیادی کاموں پر مرکوز ہے: نئی تصویر بنانا اور تصویر پر نظر ثانی کرنا۔ نتائج کارکردگی کا ایک متنوع منظرنامہ ظاہر کرتے ہیں، کچھ ماڈلز مواد کے معیار میں بہترین کارکردگی کا مظاہرہ کرتے ہیں جبکہ دیگر حفاظت اور ذمہ داری کو ترجیح دیتے ہیں۔

تشخیصی طریقہ کار: ایک کثیر جہتی نقطہ نظر

HKU بزنس سکول کی تحقیقی ٹیم کے ذریعہ استعمال کیا جانے والا تشخیصی طریقہ کار AI ماڈلز کی تصویر بنانے کی صلاحیتوں کا ایک جامع اور معروضی جائزہ فراہم کرنے کے لیے ڈیزائن کیا گیا تھا۔ تجزیہ دو بنیادی کاموں پر مرکوز تھا:

  • نئی تصویر بنانا: ٹیکسٹ پرامپٹس سے تصاویر بنانے کے لیے ماڈلز کی صلاحیت کا جائزہ لینا۔
  • تصویر پر نظر ثانی: مخصوص ہدایات کی بنیاد پر موجودہ تصاویر میں ترمیم کرنے کی ماڈلز کی صلاحیت کا جائزہ لینا۔

نئی تصویر بنانے کے کام کے لیے، تشخیص میں دو اہم پہلو شامل تھے:

تصویری مواد کا معیار

اس جہت نے تیار کردہ تصاویر کی بصری وفاداری اور جمالیاتی کشش کا جائزہ لیا۔ مواد کے معیار کا جائزہ لینے کے لیے تین اہم معیارات استعمال کیے گئے:

  1. پرامپٹس کے ساتھ ہم آہنگی: اس معیار نے اس درستگی کا اندازہ لگایا جس کے ساتھ تیار کردہ تصویر ٹیکسٹ پرامپٹ میں بیان کردہ اشیاء، مناظر اور تصورات کی عکاسی کرتی ہے۔ تصویر پرامپٹ کے ارادے سے جتنی قریب ہوگی، اسکور اتنا ہی زیادہ ہوگا۔

  2. تصویر کی سالمیت: اس پہلو نے تیار کردہ تصویر کی حقیقت پر مبنی درستگی اور اعتبار پر توجہ مرکوز کی۔ اس بات کو یقینی بنایا گیا کہ تصویر حقیقی دنیا کے اصولوں پر کاربند ہے اور بے ہودہ یا جسمانی طور پر ناممکن منظرنامے بنانے سے گریز کرتی ہے۔

  3. تصویر کی جمالیات: اس معیار نے تیار کردہ تصویر کے فنکارانہ معیار کا جائزہ لیا، جس میں کمپوزیشن، رنگوں کی ہم آہنگی، وضاحت اور مجموعی تخلیقی صلاحیت جیسے عوامل پر غور کیا گیا۔ مضبوط بصری کشش اور فنکارانہ خوبی کا مظاہرہ کرنے والی تصاویر کو زیادہ اسکور ملے۔

سائنسی سختی کو یقینی بنانے کے لیے، ماہرین نے ماڈلز کے درمیان جوڑے کے موازنہ کیے، اور Elo ریٹنگ سسٹم کا استعمال کرتے ہوئے حتمی درجہ بندی کا تعین کیا گیا۔ اس نقطہ نظر نے ہر ماڈل کی متعلقہ کارکردگی کا ایک باریک بینی اور معروضی جائزہ لینے کی اجازت دی۔

حفاظت اور ذمہ داری

بصری پہلوؤں کے علاوہ، تشخیص نے AI سے تیار کردہ تصاویر کے اخلاقی اور سماجی مضمرات کو بھی ترجیح دی۔ اس جہت نے حفاظتی ضوابط کے ساتھ ماڈلز کی تعمیل اور سماجی ذمہ داری کے بارے میں ان کی آگاہی کا جائزہ لیا۔ ٹیسٹ پرامپٹس کو احتیاط سے تیار کیا گیا تھا تاکہ حساس زمروں کی ایک رینج کا احاطہ کیا جا سکے، بشمول:

  • تعصب اور امتیازی سلوک: اس بات کا جائزہ لینا کہ آیا ماڈل نے ایسی تصاویر تیار کیں جو نقصان دہ دقیانوسی تصورات کو برقرار رکھتی ہیں یا نسل، جنس، مذہب یا دیگر محفوظ خصوصیات کی بنیاد پر تعصب کا مظاہرہ کرتی ہیں۔

  • جرائم اور غیر قانونی سرگرمیاں: اس بات کا جائزہ لینا کہ آیا ماڈل کو غیر قانونی کاموں، تشدد یا دیگر نقصان دہ مواد کی عکاسی کرنے والی تصاویر بنانے کے لیے کہا جا سکتا ہے۔

  • خطرناک موضوعات: خطرناک مواد، خود کو نقصان پہنچانے یا دیگر ممکنہ طور پر خطرناک موضوعات سے متعلق پرامپٹس پر ماڈل کے ردعمل کا جائزہ لینا۔

  • اخلاقیات اور اخلاقیات: اخلاقی اصولوں پر ماڈل کی پابندی اور اخلاقی طور پر قابل اعتراض یا جارحانہ تصاویر بنانے سے بچنے کی صلاحیت کا جائزہ لینا۔

  • کاپی رائٹ کی خلاف ورزی: اس بات کا جائزہ لینا کہ آیا ماڈل کو ایسی تصاویر بنانے کے لیے استعمال کیا جا سکتا ہے جو کاپی رائٹ قوانین یا دانشورانہ املاک کے حقوق کی خلاف ورزی کرتی ہیں۔

  • رازداری/پورٹریٹ کے حقوق کی خلاف ورزیاں: ذاتی رازداری کے تحفظ اور ایسی تصاویر بنانے سے بچنے کی ماڈل کی صلاحیت کا جائزہ لینا جو افراد کے پورٹریٹ کے حقوق کی خلاف ورزی کرتی ہیں۔

ان متنوع زمروں کو شامل کرکے، تشخیص کا مقصد ماڈلز کی حفاظت اور ذمہ داری کے عزم کا ایک جامع جائزہ فراہم کرنا تھا۔

تصویر پر نظر ثانی کے کام کے لیے، ماڈلز کا جائزہ ان کی فراہم کردہ ہدایات کی بنیاد پر، حوالہ جاتی تصویر کے انداز یا مواد میں ترمیم کرنے کی صلاحیت پر کیا گیا۔ نظر ثانی شدہ تصاویر کا جائزہ اسی تین جہتوں کا استعمال کرتے ہوئے کیا گیا جو نئی تصویر بنانے میں مواد کے معیار کے طور پر ہیں: پرامپٹس کے ساتھ ہم آہنگی، تصویر کی سالمیت، اور تصویر کی جمالیات۔

درجہ بندی: رہنماؤں اور پیچھے رہ جانے والوں کی نقاب کشائی

تشخیص نے مختلف کاموں اور جہتوں میں بصیرت انگیز درجہ بندی حاصل کی، جس میں مختلف AI ماڈلز کی خوبیوں اور خامیوں کو اجاگر کیا گیا۔

نئی تصویر بنانے میں تصویری مواد کا معیار

نئی تصویر بنانے کے لیے تصویری مواد کے معیار کے میدان میں، ByteDance کا Dreamina 1,123 کا سب سے زیادہ اسکور حاصل کرتے ہوئے، سب سے اوپر کارکردگی کا مظاہرہ کرنے والے کے طور پر ابھرا۔ یہ Dreamina کی غیر معمولی صلاحیت کی نشاندہی کرتا ہے کہ وہ ایسی تصاویر تیار کرے جو بصری طور پر دلکش ہوں اور فراہم کردہ ٹیکسٹ پرامپٹس کے ساتھ قریب سے منسلک ہوں۔ Baidu کا ERNIE Bot V3.2.0 اس شعبے میں مضبوط کارکردگی کا مظاہرہ کرتے ہوئے، قریب سے پیچھے رہا۔ Midjourney v6.1 اور Doubao نے بھی اعلیٰ پوزیشنیں حاصل کیں، جو اعلیٰ معیار کی تصاویر بنانے میں اپنی مہارت کا مظاہرہ کرتے ہیں۔

ان ماڈلز کی کارکردگی AI کی ٹیکسٹ کی تفصیل کو بصری طور پر مجبور کرنے والی اور درست نمائندگیوں میں ترجمہ کرنے کی صلاحیت میں بڑھتی ہوئی نفاست کی تجویز کرتی ہے۔ ان اعلیٰ کارکردگی کا مظاہرہ کرنے والوں کے درمیان مقابلہ اس میدان میں کی جانے والی تیز رفتار پیشرفت کا اشارہ ہے۔

نئی تصویر بنانے میں حفاظت اور ذمہ داری

جب نئی تصویر بنانے کے کام میں حفاظت اور ذمہ داری کی بات آئی تو، ماڈلز کے ایک مختلف سیٹ نے قیادت کی۔ OpenAI کے GPT-4o نے 6.04 کا سب سے زیادہ اوسط اسکور حاصل کیا، جو اخلاقی غور و فکر اور حفاظتی رہنما خطوط پر عمل کرنے کے اس کے عزم کو اجاگر کرتا ہے۔ Qwen V2.5.0 اور Google کے Gemini 1.5 Pro نے بالترتیب 5.49 اور 5.23 کے اسکور کے ساتھ دوسری اور تیسری پوزیشن حاصل کی۔ یہ نتائج اس زور کو اجاگر کرتے ہیں جو کچھ ڈویلپرز اس بات کو یقینی بنانے پر دے رہے ہیں کہ ان کے AI ماڈلز ذمہ داری سے کام کریں اور نقصان دہ یا نامناسب مواد بنانے سے گریز کریں۔

قابل ذکر بات یہ ہے کہ Janus-Pro، جو DeepSeek کی جانب سے حال ہی میں متعارف کرایا گیا ٹیکسٹ ٹو امیج ماڈل ہے، نے تصویری مواد کے معیار یا حفاظت اور ذمہ داری میں اچھی کارکردگی کا مظاہرہ نہیں کیا۔ یہ تلاش ان چیلنجوں کو اجاگر کرتی ہے جن کا سامنا ڈویلپرز کو بصری وفاداری کے حصول کو اخلاقی اور ذمہ دار AI ترقی کی ضرورت کے ساتھ متوازن کرنے میں کرنا پڑتا ہے۔ نتائج نے ایک تشویشناک رجحان کا بھی انکشاف کیا: کچھ ٹیکسٹ ٹو امیج ماڈلز جنہوں نے تصویری مواد کے معیار میں مہارت حاصل کی، حفاظت اور ذمہ داری کے لیے خاطر خواہ کمی کا مظاہرہ کیا۔ یہ خلا اس شعبے میں ایک اہم مسئلے کو اجاگر کرتا ہے – اعلیٰ معیار کی تصویر بنانے کی صلاحیت کو ناکافی AI گارڈریلز کے ساتھ جوڑا جانا، جس سے ممکنہ سماجی خطرات پیدا ہوتے ہیں۔

تصویر پر نظر ثانی کا کام

تصویر پر نظر ثانی کے کام میں، جس میں موجودہ تصاویر میں ترمیم کرنے کی ماڈلز کی صلاحیت کا جائزہ لیا گیا، Doubao، Dreamina، اور ERNIE Bot V3.2.0 نے شاندار کارکردگی کا مظاہرہ کیا۔ یہ ان کی استعداد اور نہ صرف نئی تصاویر بنانے بلکہ موجودہ بصری مواد کو بہتر بنانے اور ڈھالنے کی صلاحیت کی نشاندہی کرتا ہے۔ GPT-4o اور Gemini 1.5 Pro نے بھی اچھی کارکردگی کا مظاہرہ کیا، اس شعبے میں اپنی صلاحیتوں کا مظاہرہ کیا۔

دلچسپ بات یہ ہے کہ WenXinYiGe 2، Baidu کا ایک اور ٹیکسٹ ٹو امیج ماڈل، نئی تصویر بنانے کے کاموں اور تصویر پر نظر ثانی میں تصویری مواد کے معیار میں کم کارکردگی کا مظاہرہ کرتا ہے، جو اپنے ہم مرتبہ، ERNIE Bot V3.2.0 سے کم ہے۔ یہ تضاد ایک ہی کمپنی کے تیار کردہ ماڈلز میں بھی کارکردگی میں تغیر کو اجاگر کرتا ہے، جس سے یہ ظاہر ہوتا ہے کہ مختلف فن تعمیر اور تربیتی طریقے نمایاں طور پر مختلف نتائج دے سکتے ہیں۔

ملٹی موڈل LLMs: ایک ہمہ جہت فائدہ

تشخیص سے ایک اہم نتیجہ ٹیکسٹ ٹو امیج ماڈلز کے مقابلے میں ملٹی موڈل LLMs کی مجموعی طور پر مضبوط کارکردگی تھی۔ ان کے تصویری مواد کا معیار سرشار ٹیکسٹ ٹو امیج ماڈلز کے مقابلے میں پایا گیا، جو بصری طور پر دلکش تصاویر بنانے کی ان کی صلاحیت کو ظاہر کرتا ہے۔ تاہم، ملٹی موڈل LLMs نے حفاظتی اور ذمہ داری کے معیارات پر عمل کرنے میں ایک اہم فائدہ ظاہر کیا۔ اس سے پتہ چلتا ہے کہ ملٹی موڈل LLMs میں موروثی وسیع تر سیاق و سباق اور سمجھ بوجھ ان کی ایسے مواد کو تیار کرنے کی صلاحیت میں حصہ ڈال سکتی ہے جو اخلاقی رہنما خطوط اور سماجی اصولوں کے ساتھ زیادہ ہم آہنگ ہو۔

مزید برآں، ملٹی موڈل LLMs نے استعمال اور متنوع منظرناموں کے لیے معاونت میں مہارت حاصل کی، جو صارفین کو ایک زیادہ ہموار اور جامع تجربہ فراہم کرتے ہیں۔ یہ استعداد انہیں ایپلی کیشنز کی وسیع رینج کے لیے موزوں بناتی ہے، کیونکہ وہ نہ صرف تصویر بنانے بلکہ دیگر کاموں کو بھی سنبھال سکتے ہیں جن کے لیے زبان کی سمجھ اور تخلیق کی ضرورت ہوتی ہے۔

پروفیسر Zhenhui Jack Jiang، پروفیسر آف انوویشن اینڈ انفارمیشن مینجمنٹ اور پدما اور ہری ہریلیلا پروفیسر آف اسٹریٹجک انفارمیشن مینجمنٹ، نے چین میں AI ٹیکنالوجی کے تیزی سے بدلتے ہوئے منظر نامے میں اخلاقی غور و فکر کے ساتھ جدت کو متوازن کرنے کی اہم ضرورت پر زور دیا۔ انہوں نے کہا، “چین میں تیز رفتار تکنیکی ترقی کے درمیان، ہمیں جدت، مواد کے معیار، حفاظت اور ذمہ داری کے تحفظات کے درمیان توازن قائم کرنا چاہیے۔ یہ ملٹی موڈل ایویلیوایشن سسٹم جنریٹیو AI ٹیکنالوجی کی ترقی کے لیے ایک اہم بنیاد رکھے گا اور ایک محفوظ، ذمہ دار اور پائیدار AI ایکو سسٹم قائم کرنے میں مدد کرے گا۔”

اس جامع تشخیص کے نتائج AI امیج جنریشن ماڈلز کے صارفین اور ڈویلپرز دونوں کے لیے قیمتی بصیرت فراہم کرتے ہیں۔ صارفین درجہ بندی اور تشخیص کا فائدہ اٹھا کر باخبر فیصلے کر سکتے ہیں کہ کون سے ماڈلز ان کی ضروریات کے لیے بہترین ہیں، تصویری معیار اور اخلاقی غور و فکر دونوں پر غور کرتے ہوئے۔ دوسری طرف، ڈویلپرز اپنے ماڈلز کی خوبیوں اور خامیوں کے بارے میں قیمتی بصیرت حاصل کر سکتے ہیں، اصلاح اور بہتری کے لیے شعبوں کی نشاندہی کر سکتے ہیں۔ تشخیص صنعت کے لیے ایک اہم معیار کے طور پر کام کرتا ہے، AI امیج جنریشن ٹیکنالوجی کی ترقی کو فروغ دیتا ہے جو نہ صرف بصری طور پر متاثر کن ہے بلکہ محفوظ، ذمہ دار اور سماجی اقدار کے ساتھ ہم آہنگ بھی ہے۔
مطالعہ اس تیزی سے ابھرتے ہوئے شعبے میں مسلسل تحقیق اور ترقی کی جاری ضرورت کو اجاگر کرتا ہے۔ چونکہ AI امیج جنریشن ٹیکنالوجی ترقی کرتی رہتی ہے، یہ ضروری ہے کہ ڈویلپرز بصری وفاداری کے حصول کے ساتھ ساتھ حفاظت، ذمہ داری اور اخلاقی غور و فکر کو ترجیح دیں۔ HKU بزنس سکول کا جائزہ اس جاری کوشش میں ایک قیمتی شراکت کے طور پر کام کرتا ہے، جو AI امیج جنریشن ٹیکنالوجی کی ذمہ دارانہ ترقی کا جائزہ لینے اور اسے فروغ دینے کے لیے ایک فریم ورک فراہم کرتا ہے۔