ارزیابی روششناسی: رویکردی چندوجهی
تیم تحقیقاتی دانشکده بازرگانی HKU از یک روش ارزیابی چندوجهی برای سنجش جامع و عینی قابلیتهای تولید تصویر مدلهای هوش مصنوعی استفاده کرد. این تحلیل بر دو وظیفه اصلی متمرکز بود:
- تولید تصویر جدید: ارزیابی توانایی مدلها در ایجاد تصاویر از روی اعلانهای متنی.
- بازبینی تصویر: ارزیابی ظرفیت مدلها برای اصلاح تصاویر موجود بر اساس دستورالعملهای خاص.
برای وظیفه تولید تصویر جدید، ارزیابی دو جنبه حیاتی را در بر میگرفت:
کیفیت محتوای تصویر
این بُعد به وفاداری بصری و جذابیت زیباییشناختی تصاویر تولید شده میپردازد. سه معیار کلیدی برای ارزیابی کیفیت محتوا استفاده شد:
همسویی با اعلانها: این معیار دقت تطابق تصویر تولید شده با اشیاء، صحنهها و مفاهیم شرح داده شده در اعلان متنی را میسنجد. هرچه تصویر با هدف اعلان مطابقت بیشتری داشته باشد، امتیاز بالاتری کسب میکند.
یکپارچگی تصویر: این جنبه بر دقت واقعی و قابلیت اطمینان تصویر تولید شده تمرکز دارد. این معیار تضمین میکند که تصویر به اصول دنیای واقعی پایبند است و از تولید سناریوهای بیمعنی یا غیرممکن از نظر فیزیکی اجتناب میکند.
زیباییشناسی تصویر: این معیار کیفیت هنری تصویر تولید شده را با در نظر گرفتن عواملی مانند ترکیببندی، هماهنگی رنگ، وضوح و خلاقیت کلی ارزیابی میکند. تصاویری که جذابیت بصری قوی و شایستگی هنری از خود نشان میدهند، امتیاز بالاتری دریافت میکنند.
برای اطمینان از دقت علمی، کارشناسان مقایسههای زوجی بین مدلها انجام دادند و رتبهبندی نهایی با استفاده از سیستم رتبهبندی Elo تعیین شد. این رویکرد امکان ارزیابی دقیق و عینی عملکرد نسبی هر مدل را فراهم کرد.
ایمنی و مسئولیتپذیری
فراتر از جنبههای بصری، ارزیابی همچنین پیامدهای اخلاقی و اجتماعی تصاویر تولید شده توسط هوش مصنوعی را در اولویت قرار داد. این بُعد انطباق مدلها با مقررات ایمنی و آگاهی آنها از مسئولیت اجتماعی را ارزیابی کرد. اعلانهای آزمایشی به دقت طراحی شده بودند تا طیف وسیعی از دستههای حساس را پوشش دهند، از جمله:
تعصب و تبعیض: ارزیابی اینکه آیا مدل تصاویری تولید میکند که کلیشههای مضر را تداوم میبخشد یا بر اساس نژاد، جنسیت، مذهب یا سایر ویژگیهای محافظت شده، تعصب نشان میدهد.
جنایات و فعالیتهای غیرقانونی: ارزیابی اینکه آیا میتوان مدل را برای تولید تصاویری که اعمال غیرقانونی، خشونت یا سایر محتوای مضر را به تصویر میکشند، تحریک کرد.
موضوعات خطرناک: بررسی پاسخ مدل به اعلانهای مربوط به مواد خطرناک، خودآزاری یا سایر موضوعات بالقوه خطرناک.
اخلاق و اصول اخلاقی: ارزیابی پایبندی مدل به اصول اخلاقی و توانایی آن در اجتناب از تولید تصاویری که از نظر اخلاقی اعتراضآمیز یا توهینآمیز هستند.
نقض حق چاپ: ارزیابی اینکه آیا میتوان از مدل برای تولید تصاویری که قوانین کپی رایت یا حقوق مالکیت معنوی را نقض میکنند، استفاده کرد.
نقض حریم خصوصی/حقوق چهره: بررسی توانایی مدل در محافظت از حریم خصوصی شخصی و اجتناب از تولید تصاویری که حقوق چهره افراد را نقض میکند.
با در برگرفتن این دستههای متنوع، هدف این ارزیابی ارائه یک ارزیابی جامع از تعهد مدلها به ایمنی و مسئولیتپذیری بود.
برای وظیفه بازبینی تصویر، مدلها بر اساس توانایی خود در تغییر سبک یا محتوای یک تصویر مرجع، بر اساس دستورالعملهای ارائه شده، ارزیابی شدند. تصاویر اصلاح شده با استفاده از همان سه بُعد کیفیت محتوا در تولید تصویر جدید ارزیابی شدند: همسویی با اعلانها، یکپارچگی تصویر و زیباییشناسی تصویر.
رتبهبندیها: آشکارسازی پیشتازان و عقبماندگان
این ارزیابی رتبهبندیهای روشنگری را در وظایف و ابعاد مختلف ارائه داد و نقاط قوت و ضعف مدلهای مختلف هوش مصنوعی را برجسته کرد.
کیفیت محتوای تصویر در تولید تصویر جدید
در حوزه کیفیت محتوای تصویر برای تولید تصویر جدید، Dreamina از ByteDance به عنوان بهترین عملکرد ظاهر شد و بالاترین امتیاز 1123 را کسب کرد. این نشاندهنده توانایی استثنایی Dreamina در تولید تصاویری است که هم از نظر بصری جذاب هستند و هم با اعلانهای متنی ارائه شده مطابقت دارند. ERNIE Bot V3.2.0 از Baidu با فاصله کمی در رتبه بعدی قرار گرفت و عملکرد قویای را در این زمینه نشان داد. Midjourney v6.1 و Doubao نیز موقعیتهای بالایی را به دست آوردند و مهارت خود را در تولید تصاویر با کیفیت بالا به نمایش گذاشتند.
عملکرد این مدلها نشاندهنده پیچیدگی روزافزون توانایی هوش مصنوعی در ترجمه توصیفات متنی به بازنماییهای بصری قانعکننده و دقیق است. رقابت بین این بهترین عملکردها نشاندهنده پیشرفتهای سریعی است که در این زمینه در حال انجام است.
ایمنی و مسئولیتپذیری در تولید تصویر جدید
هنگامی که صحبت از ایمنی و مسئولیتپذیری در وظیفه تولید تصویر جدید به میان آمد، مجموعه متفاوتی از مدلها پیشتاز شدند. GPT-4o از OpenAI بالاترین امتیاز متوسط 6.04 را دریافت کرد که بر تعهد آن به ملاحظات اخلاقی و پایبندی به دستورالعملهای ایمنی تأکید میکند. Qwen V2.5.0 و Gemini 1.5 Pro از Google به ترتیب با امتیازهای 5.49 و 5.23 در جایگاههای دوم و سوم قرار گرفتند. این نتایج تأکیدی را که برخی از توسعهدهندگان بر تضمین عملکرد مسئولانه مدلهای هوش مصنوعی خود و اجتناب از تولید محتوای مضر یا نامناسب دارند، برجسته میکند.
قابل توجه است که Janus-Pro، مدل تبدیل متن به تصویر که اخیراً توسط DeepSeek معرفی شده است، نه در کیفیت محتوای تصویر و نه در ایمنی و مسئولیتپذیری عملکرد خوبی نداشت. این یافته چالشهایی را که توسعهدهندگان در ایجاد تعادل بین پیگیری وفاداری بصری با ضرورت توسعه هوش مصنوعی اخلاقی و مسئولانه با آن مواجه هستند، برجسته میکند. نتایج همچنین یک روند نگرانکننده را نشان داد: برخی از مدلهای تبدیل متن به تصویر که در کیفیت محتوای تصویر برتری داشتند، فقدان توجه قابل توجهی به ایمنی و مسئولیتپذیری نشان دادند. این شکاف یک مسئله حیاتی در این زمینه را برجسته میکند – پتانسیل تولید تصویر با کیفیت بالا برای همراه شدن با حفاظهای ناکافی هوش مصنوعی، که منجر به خطرات اجتماعی بالقوه میشود.
وظیفه بازبینی تصویر
در وظیفه بازبینی تصویر، که توانایی مدلها را در اصلاح تصاویر موجود ارزیابی میکرد، Doubao، Dreamina و ERNIE Bot V3.2.0 عملکرد فوقالعادهای از خود نشان دادند. این نشاندهنده تطبیقپذیری و توانایی آنها نه تنها در تولید تصاویر جدید، بلکه در اصلاح و تطبیق محتوای بصری موجود است. GPT-4o و Gemini 1.5 Pro نیز عملکرد خوبی داشتند و قابلیتهای خود را در این زمینه به نمایش گذاشتند.
جالب توجه است که WenXinYiGe 2، یکی دیگر از مدلهای تبدیل متن به تصویر از Baidu، هم در کیفیت محتوای تصویر در وظایف تولید تصویر جدید و هم در بازبینی تصویر عملکرد ضعیفی داشت و از همتای خود، ERNIE Bot V3.2.0، عقب ماند. این اختلاف، تنوع عملکرد را حتی در مدلهای توسعهیافته توسط یک شرکت نشان میدهد و بیانگر آن است که معماریها و رویکردهای آموزشی متفاوت میتوانند نتایج بسیار متفاوتی به همراه داشته باشند.
مدلهای LLM چندوجهی: یک مزیت همهجانبه
یک نکته کلیدی از این ارزیابی، عملکرد کلی قوی مدلهای LLM چندوجهی در مقایسه با مدلهای تبدیل متن به تصویر بود. کیفیت محتوای تصویر آنها با مدلهای اختصاصی تبدیل متن به تصویر قابل مقایسه بود و توانایی آنها را در تولید تصاویر بصری جذاب نشان میداد. با این حال، مدلهای LLM چندوجهی مزیت قابل توجهی در پایبندی به استانداردهای ایمنی و مسئولیتپذیری نشان دادند. این نشان میدهد که زمینه و درک گستردهتر ذاتی در مدلهای LLM چندوجهی ممکن است به توانایی آنها در تولید محتوایی که با دستورالعملهای اخلاقی و هنجارهای اجتماعی همسو باشد، کمک کند.
علاوه بر این، مدلهای LLM چندوجهی در قابلیت استفاده و پشتیبانی از سناریوهای مختلف برتری داشتند و تجربهای یکپارچهتر و جامعتر را به کاربران ارائه میدادند. این تطبیقپذیری آنها را برای طیف وسیعتری از کاربردها مناسب میکند، زیرا آنها میتوانند نه تنها تولید تصویر، بلکه سایر وظایفی را که نیاز به درک و تولید زبان دارند، انجام دهند.
پروفسور ژنهویی جک جیانگ، استاد مدیریت نوآوری و اطلاعات و استاد Padma and Hari Harilela در مدیریت استراتژیک اطلاعات، بر نیاز حیاتی به ایجاد تعادل بین نوآوری و ملاحظات اخلاقی در چشمانداز به سرعت در حال تحول فناوری هوش مصنوعی در چین تأکید کرد. وی اظهار داشت: “در میان پیشرفتهای سریع فناوری در چین، ما باید بین نوآوری، کیفیت محتوا، ایمنی و ملاحظات مسئولیتپذیری تعادل برقرار کنیم. این سیستم ارزیابی چندوجهی، پایهای اساسی برای توسعه فناوری هوش مصنوعی مولد ایجاد میکند و به ایجاد یک اکوسیستم هوش مصنوعی ایمن، مسئولانه و پایدار کمک میکند.”
یافتههای این ارزیابی جامع، بینشهای ارزشمندی را هم برای کاربران و هم برای توسعهدهندگان مدلهای تولید تصویر هوش مصنوعی فراهم میکند. کاربران میتوانند از رتبهبندیها و ارزیابیها برای تصمیمگیری آگاهانه در مورد اینکه کدام مدلها به بهترین وجه با نیازهای آنها مطابقت دارند، با در نظر گرفتن کیفیت تصویر و ملاحظات اخلاقی، استفاده کنند. از سوی دیگر، توسعهدهندگان میتوانند بینشهای ارزشمندی در مورد نقاط قوت و ضعف مدلهای خود به دست آورند و زمینههای بهینهسازی و بهبود را شناسایی کنند. این ارزیابی به عنوان یک معیار حیاتی برای صنعت عمل میکند و توسعه فناوری تولید تصویر هوش مصنوعی را که نه تنها از نظر بصری چشمگیر است، بلکه ایمن، مسئولانه و همسو با ارزشهای اجتماعی است، ترویج میکند.
این مطالعه بر نیاز مداوم به تحقیق و توسعه مستمر در این زمینه به سرعت در حال تحول تأکید میکند. با ادامه پیشرفت فناوری تولید تصویر هوش مصنوعی، ضروری است که توسعهدهندگان ایمنی، مسئولیتپذیری و ملاحظات اخلاقی را در کنار پیگیری وفاداری بصری در اولویت قرار دهند. ارزیابی دانشکده بازرگانی HKU به عنوان یک کمک ارزشمند به این تلاش مداوم عمل میکند و چارچوبی برای ارزیابی و ترویج توسعه مسئولانه فناوری تولید تصویر هوش مصنوعی ارائه میدهد.