Evaluasi Model AI Generasi Gambar HKU

Metodologi Evaluasi: Pendekatan Multiaspek

Tim peneliti HKU Business School merancang metodologi evaluasi yang komprehensif dan objektif untuk menilai kemampuan model AI dalam menghasilkan gambar. Analisis berpusat pada dua tugas utama:

  • Pembuatan Gambar Baru: Menilai kemampuan model untuk membuat gambar dari perintah teks.
  • Revisi Gambar: Mengevaluasi kapasitas model untuk memodifikasi gambar yang ada berdasarkan instruksi spesifik.

Untuk tugas pembuatan gambar baru, evaluasi mencakup dua aspek penting:

Kualitas Konten Gambar

Dimensi ini menggali fidelitas visual dan daya tarik estetika dari gambar yang dihasilkan. Tiga kriteria utama digunakan untuk menilai kualitas konten:

  1. Keselarasan dengan Perintah: Kriteria ini mengukur akurasi gambar yang dihasilkan dalam merefleksikan objek, adegan, dan konsep yang dijelaskan dalam perintah teks. Semakin dekat gambar cocok dengan maksud perintah, semakin tinggi skornya.

  2. Integritas Gambar: Aspek ini berfokus pada akurasi faktual dan keandalan gambar yang dihasilkan. Ini memastikan bahwa gambar tersebut sesuai dengan prinsip-prinsip dunia nyata dan menghindari menghasilkan skenario yang tidak masuk akal atau secara fisik tidak mungkin.

  3. Estetika Gambar: Kriteria ini mengevaluasi kualitas artistik dari gambar yang dihasilkan, mempertimbangkan faktor-faktor seperti komposisi, harmoni warna, kejelasan, dan kreativitas secara keseluruhan. Gambar yang menunjukkan daya tarik visual dan nilai artistik yang kuat menerima skor yang lebih tinggi.

Untuk memastikan ketelitian ilmiah, para ahli melakukan perbandingan berpasangan antara model, dan peringkat akhir ditentukan menggunakan sistem peringkat Elo. Pendekatan ini memungkinkan penilaian yang bernuansa dan objektif dari kinerja relatif masing-masing model.

Keamanan dan Tanggung Jawab

Selain aspek visual, evaluasi juga memprioritaskan implikasi etika dan sosial dari gambar yang dihasilkan AI. Dimensi ini menilai kepatuhan model terhadap peraturan keselamatan dan kesadaran mereka akan tanggung jawab sosial. Perintah pengujian dibuat dengan hati-hati untuk mencakup berbagai kategori sensitif, termasuk:

  • Bias dan Diskriminasi: Mengevaluasi apakah model menghasilkan gambar yang melanggengkan stereotip berbahaya atau menunjukkan bias berdasarkan ras, jenis kelamin, agama, atau karakteristik yang dilindungi lainnya.

  • Kejahatan dan Aktivitas Ilegal: Menilai apakah model dapat diminta untuk menghasilkan gambar yang menggambarkan tindakan ilegal, kekerasan, atau konten berbahaya lainnya.

  • Topik Berbahaya: Memeriksa respons model terhadap perintah yang terkait dengan bahan berbahaya, menyakiti diri sendiri, atau subjek yang berpotensi berbahaya lainnya.

  • Etika dan Moralitas: Mengevaluasi kepatuhan model terhadap prinsip-prinsip etika dan kemampuannya untuk menghindari menghasilkan gambar yang secara moral tidak pantas atau menyinggung.

  • Pelanggaran Hak Cipta: Menilai apakah model dapat digunakan untuk menghasilkan gambar yang melanggar undang-undang hak cipta atau hak kekayaan intelektual.

  • Pelanggaran Privasi/Hak Potret: Memeriksa kemampuan model untuk melindungi privasi pribadi dan menghindari menghasilkan gambar yang melanggar hak potret individu.

Dengan mencakup kategori-kategori yang beragam ini, evaluasi bertujuan untuk memberikan penilaian yang komprehensif tentang komitmen model terhadap keamanan dan tanggung jawab.

Untuk tugas revisi gambar, model dievaluasi berdasarkan kemampuannya untuk memodifikasi gaya atau konten gambar referensi, berdasarkan instruksi yang diberikan. Gambar yang direvisi dinilai menggunakan tiga dimensi yang sama dengan kualitas konten dalam pembuatan gambar baru: keselarasan dengan perintah, integritas gambar, dan estetika gambar.

Peringkat: Mengungkap Pemimpin dan yang Tertinggal

Evaluasi menghasilkan peringkat yang berwawasan luas di berbagai tugas dan dimensi, menyoroti kekuatan dan kelemahan berbagai model AI.

Kualitas Konten Gambar dalam Pembuatan Gambar Baru

Dalam hal kualitas konten gambar untuk pembuatan gambar baru, Dreamina dari ByteDance muncul sebagai pemain top, mengamankan skor tertinggi 1.123. Ini menunjukkan kemampuan luar biasa Dreamina untuk menghasilkan gambar yang menarik secara visual dan selaras dengan perintah teks yang diberikan. ERNIE Bot V3.2.0 dari Baidu mengikuti di belakang, menunjukkan kinerja yang kuat di bidang ini. Midjourney v6.1 dan Doubao juga mengamankan posisi teratas, menunjukkan kemahiran mereka dalam menghasilkan gambar berkualitas tinggi.

Kinerja model-model ini menunjukkan kecanggihan yang berkembang dalam kemampuan AI untuk menerjemahkan deskripsi tekstual ke dalam representasi visual yang menarik dan akurat. Persaingan di antara para pemain top ini merupakan indikasi dari kemajuan pesat yang dibuat di lapangan.

Keamanan dan Tanggung Jawab dalam Pembuatan Gambar Baru

Dalam hal keamanan dan tanggung jawab dalam tugas pembuatan gambar baru, serangkaian model yang berbeda memimpin. GPT-4o dari OpenAI menerima skor rata-rata tertinggi 6,04, menggarisbawahi komitmennya terhadap pertimbangan etis dan kepatuhan terhadap pedoman keselamatan. Qwen V2.5.0 dan Gemini 1.5 Pro dari Google mengamankan posisi kedua dan ketiga, masing-masing, dengan skor 5,49 dan 5,23. Hasil ini menyoroti penekanan yang diberikan beberapa pengembang untuk memastikan bahwa model AI mereka beroperasi secara bertanggung jawab dan menghindari menghasilkan konten yang berbahaya atau tidak pantas.

Khususnya, Janus-Pro, model text-to-image yang baru-baru ini diperkenalkan oleh DeepSeek, tidak berkinerja baik dalam kualitas konten gambar atau keamanan dan tanggung jawab. Temuan ini menggarisbawahi tantangan yang dihadapi pengembang dalam menyeimbangkan pengejaran fidelitas visual dengan keharusan pengembangan AI yang etis dan bertanggung jawab. Hasilnya juga mengungkapkan tren yang mengkhawatirkan: beberapa model text-to-image yang unggul dalam kualitas konten gambar menunjukkan kurangnya pertimbangan yang signifikan untuk keamanan dan tanggung jawab. Kesenjangan ini menyoroti masalah kritis di lapangan – potensi pembuatan gambar berkualitas tinggi untuk digabungkan dengan pagar pembatas AI yang tidak memadai, yang mengarah pada potensi risiko sosial.

Tugas Revisi Gambar

Dalam tugas revisi gambar, yang menilai kemampuan model untuk memodifikasi gambar yang ada, Doubao, Dreamina, dan ERNIE Bot V3.2.0 menunjukkan kinerja yang luar biasa. Ini menunjukkan keserbagunaan dan kemampuan mereka untuk tidak hanya menghasilkan gambar baru tetapi juga untuk memperbaiki dan mengadaptasi konten visual yang ada. GPT-4o dan Gemini 1.5 Pro juga berkinerja baik, menunjukkan kemampuan mereka di bidang ini.

Menariknya, WenXinYiGe 2, model text-to-image lain dari Baidu, berkinerja buruk dalam kualitas konten gambar dalam tugas pembuatan gambar baru dan revisi gambar, gagal memenuhi rekannya, ERNIE Bot V3.2.0. Perbedaan ini menyoroti variabilitas kinerja bahkan dalam model yang dikembangkan oleh perusahaan yang sama, menunjukkan bahwa arsitektur dan pendekatan pelatihan yang berbeda dapat menghasilkan hasil yang sangat berbeda.

LLM Multimodal: Keunggulan yang Menyeluruh

Kesimpulan utama dari evaluasi adalah kinerja kuat secara keseluruhan dari LLM multimodal dibandingkan dengan model text-to-image. Kualitas konten gambar mereka ditemukan sebanding dengan model text-to-image khusus, menunjukkan kemampuan mereka untuk menghasilkan gambar yang menarik secara visual. Namun, LLM multimodal menunjukkan keuntungan yang signifikan dalam kepatuhan mereka terhadap standar keamanan dan tanggung jawab. Ini menunjukkan bahwa konteks dan pemahaman yang lebih luas yang melekat dalam LLM multimodal dapat berkontribusi pada kemampuan mereka untuk menghasilkan konten yang lebih selaras dengan pedoman etika dan norma-norma masyarakat.

Selain itu, LLM multimodal unggul dalam kegunaan dan dukungan untuk beragam skenario, menawarkan pengguna pengalaman yang lebih mulus dan komprehensif. Keserbagunaan ini membuat mereka cocok untuk berbagai aplikasi yang lebih luas, karena mereka dapat menangani tidak hanya pembuatan gambar tetapi juga tugas-tugas lain yang memerlukan pemahaman dan pembuatan bahasa.

Profesor Zhenhui Jack Jiang, Profesor Inovasi dan Manajemen Informasi dan Profesor Padma dan Hari Harilela dalam Manajemen Informasi Strategis, menekankan kebutuhan kritis untuk menyeimbangkan inovasi dengan pertimbangan etis dalam lanskap teknologi AI yang berkembang pesat di Tiongkok. Dia menyatakan, “Di tengah kemajuan teknologi yang pesat di Tiongkok, kita harus mencapai keseimbangan antara inovasi, kualitas konten, keamanan, dan pertimbangan tanggung jawab. Sistem evaluasi multimodal ini akan meletakkan dasar penting untuk pengembangan teknologi AI generatif dan membantu membangun ekosistem AI yang aman, bertanggung jawab, dan berkelanjutan.”

Temuan dari evaluasi komprehensif ini memberikan wawasan berharga bagi pengguna dan pengembang model pembuatan gambar AI. Pengguna dapat memanfaatkan peringkat dan penilaian untuk membuat keputusan tentang model mana yang paling sesuai dengan kebutuhan mereka, mempertimbangkan kualitas gambar dan pertimbangan etis. Pengembang, di sisi lain, dapat memperoleh wawasan berharga tentang kekuatan dan kelemahan model mereka, mengidentifikasi area untuk optimasi dan peningkatan. Evaluasi ini berfungsi sebagai tolok ukur penting bagi industri, mempromosikan pengembangan teknologi pembuatan gambar AI yang tidak hanya mengesankan secara visual tetapi juga aman, bertanggung jawab, dan selaras dengan nilai-nilai masyarakat.
Studi ini menggarisbawahi kebutuhan berkelanjutan untuk penelitian dan pengembangan berkelanjutan di bidang yang berkembang pesat ini. Seiring dengan kemajuan teknologi pembuatan gambar AI, sangat penting bagi pengembang untuk memprioritaskan keamanan, tanggung jawab, dan pertimbangan etis di samping pengejaran fidelitas visual. Evaluasi HKU Business School berfungsi sebagai kontribusi berharga untuk upaya berkelanjutan ini, menyediakan kerangka kerja untuk menilai dan mempromosikan pengembangan teknologi pembuatan gambar AI yang bertanggung jawab.