ارزیابی جامع مدل‌های هوش مصنوعی تولید تصویر

ارزیابی روش‌شناسی: رویکردی چندوجهی

تیم تحقیقاتی دانشکده بازرگانی HKU از یک روش ارزیابی چندوجهی برای سنجش جامع و عینی قابلیت‌های تولید تصویر مدل‌های هوش مصنوعی استفاده کرد. این تحلیل بر دو وظیفه اصلی متمرکز بود:

  • تولید تصویر جدید: ارزیابی توانایی مدل‌ها در ایجاد تصاویر از روی اعلان‌های متنی.
  • بازبینی تصویر: ارزیابی ظرفیت مدل‌ها برای اصلاح تصاویر موجود بر اساس دستورالعمل‌های خاص.

برای وظیفه تولید تصویر جدید، ارزیابی دو جنبه حیاتی را در بر می‌گرفت:

کیفیت محتوای تصویر

این بُعد به وفاداری بصری و جذابیت زیبایی‌شناختی تصاویر تولید شده می‌پردازد. سه معیار کلیدی برای ارزیابی کیفیت محتوا استفاده شد:

  1. همسویی با اعلان‌ها: این معیار دقت تطابق تصویر تولید شده با اشیاء، صحنه‌ها و مفاهیم شرح داده شده در اعلان متنی را می‌سنجد. هرچه تصویر با هدف اعلان مطابقت بیشتری داشته باشد، امتیاز بالاتری کسب می‌کند.

  2. یکپارچگی تصویر: این جنبه بر دقت واقعی و قابلیت اطمینان تصویر تولید شده تمرکز دارد. این معیار تضمین می‌کند که تصویر به اصول دنیای واقعی پایبند است و از تولید سناریوهای بی‌معنی یا غیرممکن از نظر فیزیکی اجتناب می‌کند.

  3. زیبایی‌شناسی تصویر: این معیار کیفیت هنری تصویر تولید شده را با در نظر گرفتن عواملی مانند ترکیب‌بندی، هماهنگی رنگ، وضوح و خلاقیت کلی ارزیابی می‌کند. تصاویری که جذابیت بصری قوی و شایستگی هنری از خود نشان می‌دهند، امتیاز بالاتری دریافت می‌کنند.

برای اطمینان از دقت علمی، کارشناسان مقایسه‌های زوجی بین مدل‌ها انجام دادند و رتبه‌بندی نهایی با استفاده از سیستم رتبه‌بندی Elo تعیین شد. این رویکرد امکان ارزیابی دقیق و عینی عملکرد نسبی هر مدل را فراهم کرد.

ایمنی و مسئولیت‌پذیری

فراتر از جنبه‌های بصری، ارزیابی همچنین پیامدهای اخلاقی و اجتماعی تصاویر تولید شده توسط هوش مصنوعی را در اولویت قرار داد. این بُعد انطباق مدل‌ها با مقررات ایمنی و آگاهی آن‌ها از مسئولیت اجتماعی را ارزیابی کرد. اعلان‌های آزمایشی به دقت طراحی شده بودند تا طیف وسیعی از دسته‌های حساس را پوشش دهند، از جمله:

  • تعصب و تبعیض: ارزیابی اینکه آیا مدل تصاویری تولید می‌کند که کلیشه‌های مضر را تداوم می‌بخشد یا بر اساس نژاد، جنسیت، مذهب یا سایر ویژگی‌های محافظت شده، تعصب نشان می‌دهد.

  • جنایات و فعالیت‌های غیرقانونی: ارزیابی اینکه آیا می‌توان مدل را برای تولید تصاویری که اعمال غیرقانونی، خشونت یا سایر محتوای مضر را به تصویر می‌کشند، تحریک کرد.

  • موضوعات خطرناک: بررسی پاسخ مدل به اعلان‌های مربوط به مواد خطرناک، خودآزاری یا سایر موضوعات بالقوه خطرناک.

  • اخلاق و اصول اخلاقی: ارزیابی پایبندی مدل به اصول اخلاقی و توانایی آن در اجتناب از تولید تصاویری که از نظر اخلاقی اعتراض‌آمیز یا توهین‌آمیز هستند.

  • نقض حق چاپ: ارزیابی اینکه آیا می‌توان از مدل برای تولید تصاویری که قوانین کپی رایت یا حقوق مالکیت معنوی را نقض می‌کنند، استفاده کرد.

  • نقض حریم خصوصی/حقوق چهره: بررسی توانایی مدل در محافظت از حریم خصوصی شخصی و اجتناب از تولید تصاویری که حقوق چهره افراد را نقض می‌کند.

با در برگرفتن این دسته‌های متنوع، هدف این ارزیابی ارائه یک ارزیابی جامع از تعهد مدل‌ها به ایمنی و مسئولیت‌پذیری بود.

برای وظیفه بازبینی تصویر، مدل‌ها بر اساس توانایی خود در تغییر سبک یا محتوای یک تصویر مرجع، بر اساس دستورالعمل‌های ارائه شده، ارزیابی شدند. تصاویر اصلاح شده با استفاده از همان سه بُعد کیفیت محتوا در تولید تصویر جدید ارزیابی شدند: همسویی با اعلان‌ها، یکپارچگی تصویر و زیبایی‌شناسی تصویر.

رتبه‌بندی‌ها: آشکارسازی پیشتازان و عقب‌ماندگان

این ارزیابی رتبه‌بندی‌های روشنگری را در وظایف و ابعاد مختلف ارائه داد و نقاط قوت و ضعف مدل‌های مختلف هوش مصنوعی را برجسته کرد.

کیفیت محتوای تصویر در تولید تصویر جدید

در حوزه کیفیت محتوای تصویر برای تولید تصویر جدید، Dreamina از ByteDance به عنوان بهترین عملکرد ظاهر شد و بالاترین امتیاز 1123 را کسب کرد. این نشان‌دهنده توانایی استثنایی Dreamina در تولید تصاویری است که هم از نظر بصری جذاب هستند و هم با اعلان‌های متنی ارائه شده مطابقت دارند. ERNIE Bot V3.2.0 از Baidu با فاصله کمی در رتبه بعدی قرار گرفت و عملکرد قوی‌ای را در این زمینه نشان داد. Midjourney v6.1 و Doubao نیز موقعیت‌های بالایی را به دست آوردند و مهارت خود را در تولید تصاویر با کیفیت بالا به نمایش گذاشتند.

عملکرد این مدل‌ها نشان‌دهنده پیچیدگی روزافزون توانایی هوش مصنوعی در ترجمه توصیفات متنی به بازنمایی‌های بصری قانع‌کننده و دقیق است. رقابت بین این بهترین عملکردها نشان‌دهنده پیشرفت‌های سریعی است که در این زمینه در حال انجام است.

ایمنی و مسئولیت‌پذیری در تولید تصویر جدید

هنگامی که صحبت از ایمنی و مسئولیت‌پذیری در وظیفه تولید تصویر جدید به میان آمد، مجموعه متفاوتی از مدل‌ها پیشتاز شدند. GPT-4o از OpenAI بالاترین امتیاز متوسط 6.04 را دریافت کرد که بر تعهد آن به ملاحظات اخلاقی و پایبندی به دستورالعمل‌های ایمنی تأکید می‌کند. Qwen V2.5.0 و Gemini 1.5 Pro از Google به ترتیب با امتیازهای 5.49 و 5.23 در جایگاه‌های دوم و سوم قرار گرفتند. این نتایج تأکیدی را که برخی از توسعه‌دهندگان بر تضمین عملکرد مسئولانه مدل‌های هوش مصنوعی خود و اجتناب از تولید محتوای مضر یا نامناسب دارند، برجسته می‌کند.

قابل توجه است که Janus-Pro، مدل تبدیل متن به تصویر که اخیراً توسط DeepSeek معرفی شده است، نه در کیفیت محتوای تصویر و نه در ایمنی و مسئولیت‌پذیری عملکرد خوبی نداشت. این یافته چالش‌هایی را که توسعه‌دهندگان در ایجاد تعادل بین پیگیری وفاداری بصری با ضرورت توسعه هوش مصنوعی اخلاقی و مسئولانه با آن مواجه هستند، برجسته می‌کند. نتایج همچنین یک روند نگران‌کننده را نشان داد: برخی از مدل‌های تبدیل متن به تصویر که در کیفیت محتوای تصویر برتری داشتند، فقدان توجه قابل توجهی به ایمنی و مسئولیت‌پذیری نشان دادند. این شکاف یک مسئله حیاتی در این زمینه را برجسته می‌کند – پتانسیل تولید تصویر با کیفیت بالا برای همراه شدن با حفاظ‌های ناکافی هوش مصنوعی، که منجر به خطرات اجتماعی بالقوه می‌شود.

وظیفه بازبینی تصویر

در وظیفه بازبینی تصویر، که توانایی مدل‌ها را در اصلاح تصاویر موجود ارزیابی می‌کرد، Doubao، Dreamina و ERNIE Bot V3.2.0 عملکرد فوق‌العاده‌ای از خود نشان دادند. این نشان‌دهنده تطبیق‌پذیری و توانایی آن‌ها نه تنها در تولید تصاویر جدید، بلکه در اصلاح و تطبیق محتوای بصری موجود است. GPT-4o و Gemini 1.5 Pro نیز عملکرد خوبی داشتند و قابلیت‌های خود را در این زمینه به نمایش گذاشتند.

جالب توجه است که WenXinYiGe 2، یکی دیگر از مدل‌های تبدیل متن به تصویر از Baidu، هم در کیفیت محتوای تصویر در وظایف تولید تصویر جدید و هم در بازبینی تصویر عملکرد ضعیفی داشت و از همتای خود، ERNIE Bot V3.2.0، عقب ماند. این اختلاف، تنوع عملکرد را حتی در مدل‌های توسعه‌یافته توسط یک شرکت نشان می‌دهد و بیانگر آن است که معماری‌ها و رویکردهای آموزشی متفاوت می‌توانند نتایج بسیار متفاوتی به همراه داشته باشند.

مدل‌های LLM چندوجهی: یک مزیت همه‌جانبه

یک نکته کلیدی از این ارزیابی، عملکرد کلی قوی مدل‌های LLM چندوجهی در مقایسه با مدل‌های تبدیل متن به تصویر بود. کیفیت محتوای تصویر آن‌ها با مدل‌های اختصاصی تبدیل متن به تصویر قابل مقایسه بود و توانایی آن‌ها را در تولید تصاویر بصری جذاب نشان می‌داد. با این حال، مدل‌های LLM چندوجهی مزیت قابل توجهی در پایبندی به استانداردهای ایمنی و مسئولیت‌پذیری نشان دادند. این نشان می‌دهد که زمینه و درک گسترده‌تر ذاتی در مدل‌های LLM چندوجهی ممکن است به توانایی آن‌ها در تولید محتوایی که با دستورالعمل‌های اخلاقی و هنجارهای اجتماعی همسو باشد، کمک کند.

علاوه بر این، مدل‌های LLM چندوجهی در قابلیت استفاده و پشتیبانی از سناریوهای مختلف برتری داشتند و تجربه‌ای یکپارچه‌تر و جامع‌تر را به کاربران ارائه می‌دادند. این تطبیق‌پذیری آن‌ها را برای طیف وسیع‌تری از کاربردها مناسب می‌کند، زیرا آن‌ها می‌توانند نه تنها تولید تصویر، بلکه سایر وظایفی را که نیاز به درک و تولید زبان دارند، انجام دهند.

پروفسور ژنهویی جک جیانگ، استاد مدیریت نوآوری و اطلاعات و استاد Padma and Hari Harilela در مدیریت استراتژیک اطلاعات، بر نیاز حیاتی به ایجاد تعادل بین نوآوری و ملاحظات اخلاقی در چشم‌انداز به سرعت در حال تحول فناوری هوش مصنوعی در چین تأکید کرد. وی اظهار داشت: “در میان پیشرفت‌های سریع فناوری در چین، ما باید بین نوآوری، کیفیت محتوا، ایمنی و ملاحظات مسئولیت‌پذیری تعادل برقرار کنیم. این سیستم ارزیابی چندوجهی، پایه‌ای اساسی برای توسعه فناوری هوش مصنوعی مولد ایجاد می‌کند و به ایجاد یک اکوسیستم هوش مصنوعی ایمن، مسئولانه و پایدار کمک می‌کند.”

یافته‌های این ارزیابی جامع، بینش‌های ارزشمندی را هم برای کاربران و هم برای توسعه‌دهندگان مدل‌های تولید تصویر هوش مصنوعی فراهم می‌کند. کاربران می‌توانند از رتبه‌بندی‌ها و ارزیابی‌ها برای تصمیم‌گیری آگاهانه در مورد اینکه کدام مدل‌ها به بهترین وجه با نیازهای آن‌ها مطابقت دارند، با در نظر گرفتن کیفیت تصویر و ملاحظات اخلاقی، استفاده کنند. از سوی دیگر، توسعه‌دهندگان می‌توانند بینش‌های ارزشمندی در مورد نقاط قوت و ضعف مدل‌های خود به دست آورند و زمینه‌های بهینه‌سازی و بهبود را شناسایی کنند. این ارزیابی به عنوان یک معیار حیاتی برای صنعت عمل می‌کند و توسعه فناوری تولید تصویر هوش مصنوعی را که نه تنها از نظر بصری چشمگیر است، بلکه ایمن، مسئولانه و همسو با ارزش‌های اجتماعی است، ترویج می‌کند.
این مطالعه بر نیاز مداوم به تحقیق و توسعه مستمر در این زمینه به سرعت در حال تحول تأکید می‌کند. با ادامه پیشرفت فناوری تولید تصویر هوش مصنوعی، ضروری است که توسعه‌دهندگان ایمنی، مسئولیت‌پذیری و ملاحظات اخلاقی را در کنار پیگیری وفاداری بصری در اولویت قرار دهند. ارزیابی دانشکده بازرگانی HKU به عنوان یک کمک ارزشمند به این تلاش مداوم عمل می‌کند و چارچوبی برای ارزیابی و ترویج توسعه مسئولانه فناوری تولید تصویر هوش مصنوعی ارائه می‌دهد.