Metodologi Penilaian: Pendekatan Pelbagai Aspek
Pasukan penyelidik HKU Business School menggunakan metodologi penilaian yang direka untuk memberikan penilaian yang holistik dan objektif terhadap keupayaan penjanaan imej model AI. Analisis ini tertumpu pada dua tugas utama:
- Penjanaan Imej Baharu: Menilai keupayaan model untuk mencipta imej daripada gesaan teks.
- Semakan Imej: Menilai kapasiti model untuk mengubah suai imej sedia ada berdasarkan arahan khusus.
Untuk tugas penjanaan imej baharu, penilaian merangkumi dua aspek penting:
Kualiti Kandungan Imej
Dimensi ini menyelidiki ketepatan visual dan daya tarikan estetik imej yang dihasilkan. Tiga kriteria utama digunakan untuk menilai kualiti kandungan:
Penjajaran dengan Gesaan: Kriteria ini mengukur ketepatan imej yang dihasilkan mencerminkan objek, pemandangan dan konsep yang diterangkan dalam gesaan teks. Semakin dekat imej itu sepadan dengan maksud gesaan, semakin tinggi skornya.
Integriti Imej: Aspek ini memfokuskan pada ketepatan fakta dan kebolehpercayaan imej yang dihasilkan. Ia memastikan bahawa imej itu mematuhi prinsip dunia sebenar dan mengelakkan penjanaan senario yang tidak masuk akal atau mustahil secara fizikal.
Estetika Imej: Kriteria ini menilai kualiti artistik imej yang dihasilkan, mempertimbangkan faktor seperti komposisi, harmoni warna, kejelasan dan kreativiti keseluruhan. Imej yang mempamerkan daya tarikan visual dan merit artistik yang kuat menerima skor yang lebih tinggi.
Untuk memastikan ketelitian saintifik, pakar menjalankan perbandingan berpasangan antara model, dan kedudukan akhir ditentukan menggunakan sistem penilaian Elo. Pendekatan ini membolehkan penilaian yang bernuansa dan objektif bagi prestasi relatif setiap model.
Keselamatan dan Tanggungjawab
Selain aspek visual, penilaian juga mengutamakan implikasi etika dan kemasyarakatan imej yang dijana AI. Dimensi ini menilai pematuhan model dengan peraturan keselamatan dan kesedaran mereka tentang tanggungjawab sosial. Gesaan ujian direka dengan teliti untuk merangkumi pelbagai kategori sensitif, termasuk:
Bias dan Diskriminasi: Menilai sama ada model menjana imej yang mengekalkan stereotaip berbahaya atau mempamerkan berat sebelah berdasarkan kaum, jantina, agama atau ciri-ciri terlindung yang lain.
Jenayah dan Aktiviti Haram: Menilai sama ada model boleh digesa untuk menjana imej yang menggambarkan perbuatan haram, keganasan atau kandungan berbahaya yang lain.
Topik Berbahaya: Memeriksa respons model terhadap gesaan yang berkaitan dengan bahan berbahaya, mencederakan diri atau subjek lain yang berpotensi berbahaya.
Etika dan Moral: Menilai pematuhan model kepada prinsip etika dan keupayaannya untuk mengelakkan penjanaan imej yang tidak bermoral atau menyinggung perasaan.
Pelanggaran Hak Cipta: Menilai sama ada model boleh digunakan untuk menjana imej yang melanggar undang-undang hak cipta atau hak harta intelek.
Pelanggaran Privasi/Hak Potret: Memeriksa keupayaan model untuk melindungi privasi peribadi dan mengelakkan penjanaan imej yang melanggar hak potret individu.
Dengan merangkumi kategori yang pelbagai ini, penilaian bertujuan untuk memberikan penilaian yang komprehensif tentang komitmen model terhadap keselamatan dan tanggungjawab.
Untuk tugas semakan imej, model dinilai berdasarkan keupayaan mereka untuk mengubah suai gaya atau kandungan imej rujukan, berdasarkan arahan yang diberikan. Imej yang disemak dinilai menggunakan tiga dimensi yang sama seperti kualiti kandungan dalam penjanaan imej baharu: penjajaran dengan gesaan, integriti imej dan estetika imej.
Kedudukan: Mendedahkan Peneraju dan yang Ketinggalan
Penilaian menghasilkan kedudukan yang mendalam merentas tugas dan dimensi yang berbeza, menonjolkan kekuatan dan kelemahan pelbagai model AI.
Kualiti Kandungan Imej dalam Penjanaan Imej Baharu
Dalam bidang kualiti kandungan imej untuk penjanaan imej baharu, Dreamina ByteDance muncul sebagai pemain terbaik, memperoleh skor tertinggi 1,123. Ini menunjukkan keupayaan luar biasa Dreamina untuk menjana imej yang menarik secara visual dan sejajar dengan gesaan teks yang diberikan. ERNIE Bot V3.2.0 Baidu mengikuti rapat di belakang, menunjukkan prestasi yang kukuh dalam bidang ini. Midjourney v6.1 dan Doubao juga memperoleh kedudukan teratas, mempamerkan kecekapan mereka dalam menjana imej berkualiti tinggi.
Prestasi model ini mencadangkan kecanggihan yang semakin meningkat dalam keupayaan AI untuk menterjemah perihalan teks ke dalam perwakilan visual yang menarik dan tepat. Persaingan antara pemain terbaik ini menunjukkan kemajuan pesat yang dicapai dalam bidang ini.
Keselamatan dan Tanggungjawab dalam Penjanaan Imej Baharu
Apabila ia berkaitan dengan keselamatan dan tanggungjawab dalam tugas penjanaan imej baharu, set model yang berbeza mendahului. GPT-4o OpenAI menerima skor purata tertinggi 6.04, menekankan komitmennya terhadap pertimbangan etika dan pematuhan kepada garis panduan keselamatan. Qwen V2.5.0 dan Gemini 1.5 Pro Google memperoleh kedudukan kedua dan ketiga, masing-masing, dengan skor 5.49 dan 5.23. Keputusan ini menyerlahkan penekanan yang diberikan oleh sesetengah pembangun untuk memastikan model AI mereka beroperasi secara bertanggungjawab dan mengelakkan penjanaan kandungan yang berbahaya atau tidak sesuai.
Terutama, Janus-Pro, model teks-ke-imej yang baru-baru ini diperkenalkan oleh DeepSeek, tidak menunjukkan prestasi yang baik dalam kualiti kandungan imej atau keselamatan dan tanggungjawab. Penemuan ini menekankan cabaran yang dihadapi oleh pembangun dalam mengimbangi usaha mengejar ketepatan visual dengan keperluan pembangunan AI yang beretika dan bertanggungjawab. Keputusan juga mendedahkan trend yang membimbangkan: sesetengah model teks-ke-imej yang cemerlang dalam kualiti kandungan imej mempamerkan kekurangan pertimbangan yang ketara untuk keselamatan dan tanggungjawab. Jurang ini menyerlahkan isu kritikal dalam bidang ini – potensi penjanaan imej berkualiti tinggi digandingkan dengan perlindungan AI yang tidak mencukupi, yang membawa kepada potensi risiko sosial.
Tugas Semakan Imej
Dalam tugas semakan imej, yang menilai keupayaan model untuk mengubah suai imej sedia ada, Doubao, Dreamina dan ERNIE Bot V3.2.0 menunjukkan prestasi yang cemerlang. Ini menunjukkan kepelbagaian dan keupayaan mereka bukan sahaja untuk menjana imej baharu tetapi juga untuk memperhalusi dan menyesuaikan kandungan visual sedia ada. GPT-4o dan Gemini 1.5 Pro juga menunjukkan prestasi yang baik, mempamerkan keupayaan mereka dalam bidang ini.
Menariknya, WenXinYiGe 2, satu lagi model teks-ke-imej daripada Baidu, berprestasi rendah dalam kedua-dua kualiti kandungan imej dalam tugas penjanaan imej baharu dan semakan imej, ketinggalan daripada rakannya, ERNIE Bot V3.2.0. Percanggahan ini menyerlahkan kepelbagaian dalam prestasi walaupun dalam model yang dibangunkan oleh syarikat yang sama, menunjukkan bahawa seni bina dan pendekatan latihan yang berbeza boleh menghasilkan keputusan yang berbeza dengan ketara.
LLM Multimodal: Kelebihan yang Menyeluruh
Perkara utama daripada penilaian ialah prestasi kukuh keseluruhan LLM multimodal berbanding model teks-ke-imej. Kualiti kandungan imej mereka didapati setanding dengan model teks-ke-imej khusus, menunjukkan keupayaan mereka untuk menjana imej yang menarik secara visual. Walau bagaimanapun, LLM multimodal mempamerkan kelebihan yang ketara dalam pematuhan mereka kepada piawaian keselamatan dan tanggungjawab. Ini menunjukkan bahawa konteks dan pemahaman yang lebih luas yang wujud dalam LLM multimodal boleh menyumbang kepada keupayaan mereka untuk menjana kandungan yang lebih sejajar dengan garis panduan etika dan norma masyarakat.
Tambahan pula, LLM multimodal cemerlang dalam kebolehgunaan dan sokongan untuk senario yang pelbagai, menawarkan pengguna pengalaman yang lebih lancar dan komprehensif. Kepelbagaian ini menjadikan mereka sesuai untuk pelbagai aplikasi yang lebih luas, kerana mereka boleh mengendalikan bukan sahaja penjanaan imej tetapi juga tugas lain yang memerlukan pemahaman dan penjanaan bahasa.
Profesor Zhenhui Jack Jiang, Profesor Inovasi dan Pengurusan Maklumat dan Profesor Padma dan Hari Harilela dalam Pengurusan Maklumat Strategik, menekankan keperluan kritikal untuk mengimbangi inovasi dengan pertimbangan etika dalam landskap teknologi AI yang berkembang pesat di China. Beliau menyatakan, “Di tengah-tengah kemajuan teknologi yang pesat di China, kita mesti mencapai keseimbangan antara inovasi, kualiti kandungan, keselamatan dan pertimbangan tanggungjawab. Sistem penilaian multimodal ini akan meletakkan asas penting untuk pembangunan teknologi AI generatif dan membantu mewujudkan ekosistem AI yang selamat, bertanggungjawab dan mampan.”
Penemuan penilaian komprehensif ini memberikan pandangan berharga untuk kedua-dua pengguna dan pembangun model penjanaan imej AI. Pengguna boleh memanfaatkan kedudukan dan penilaian untuk membuat keputusan termaklum tentang model mana yang paling sesuai dengan keperluan mereka, mempertimbangkan kedua-dua kualiti imej dan pertimbangan etika. Pembangun, sebaliknya, boleh memperoleh pandangan berharga tentang kekuatan dan kelemahan model mereka, mengenal pasti bidang untuk pengoptimuman dan penambahbaikan. Penilaian berfungsi sebagai penanda aras penting untuk industri, menggalakkan pembangunan teknologi penjanaan imej AI yang bukan sahaja mengagumkan secara visual tetapi juga selamat, bertanggungjawab dan sejajar dengan nilai masyarakat. Kajian ini menekankan keperluan berterusan untuk penyelidikan dan pembangunan berterusan dalam bidang yang berkembang pesat ini. Memandangkan teknologi penjanaan imej AI terus maju, adalah penting bagi pembangun untuk mengutamakan keselamatan, tanggungjawab dan pertimbangan etika di samping usaha mengejar ketepatan visual. Penilaian HKU Business School berfungsi sebagai sumbangan berharga kepada usaha berterusan ini, menyediakan rangka kerja untuk menilai dan menggalakkan pembangunan bertanggungjawab teknologi penjanaan imej AI.