YZ Modellerinin Görsel Oluşturma Yeteneklerinin Kapsamlı Değerlendirilmesi
Üretken yapay zekanın (YZ) hızlı evrimi, görsel analiz ve oluşturma alanında önemli gelişmelere yol açtı. Ancak, YZ görsel oluşturma modellerinin gelişmekte olan alanı hala ilk aşamalarında ve büyüme ve iyileştirme için geniş bir alan bırakıyor. Mevcut sistemler genellikle önyargılarla boğuşuyor ve katı güvenlik ve hesap verebilirlik standartlarını karşılamakta zorlanıyor. Bu kritik dönüm noktasının farkında olan HKU Business School, önde gelen YZ modellerinin kapsamlı bir değerlendirmesini üstlendi ve görsel oluşturma yeteneklerinin sistematik bir değerlendirmesini sundu.
Bu rapor, 15 metinden görsele modelinin ve 7 çok modlu büyük dil modelinin (LLM) derinlemesine bir analizini sunarak, güçlü ve zayıf yönlerini aydınlatıyor. HKU Business School araştırmacıları tarafından titizlikle hazırlanmış değerlendirme çerçevesi, iki temel göreve odaklandı: yeni görsel oluşturma ve görsel revizyonu. Bulgular, bazı modellerin içerik kalitesinde üstün olduğu, bazılarının ise güvenlik ve sorumluluğa öncelik verdiği çeşitli bir performans manzarasını ortaya koyuyor.
Değerlendirme Metodolojisi: Çok Yönlü Bir Yaklaşım
HKU Business School araştırma ekibi tarafından kullanılan değerlendirme metodolojisi, YZ modellerinin görsel oluşturma yeteneklerinin bütünsel ve objektif bir değerlendirmesini sağlamak için tasarlandı. Analiz, iki temel göreve odaklandı:
- Yeni Görsel Oluşturma: Modellerin metinsel istemlerden görsel oluşturma yeteneğinin değerlendirilmesi.
- Görsel Revizyonu: Modellerin belirli talimatlara göre mevcut görselleri değiştirme kapasitesinin değerlendirilmesi.
Yeni görsel oluşturma görevi için değerlendirme, iki önemli unsuru kapsıyordu:
Görsel İçerik Kalitesi
Bu boyut, oluşturulan görsellerin görsel doğruluğunu ve estetik çekiciliğini araştırdı. İçerik kalitesini değerlendirmek için üç temel kriter kullanıldı:
İstemlerle Uyum: Bu kriter, oluşturulan görselin metinsel istemde açıklanan nesneleri, sahneleri ve kavramları yansıtma doğruluğunu ölçtü. Görsel, istemin amacına ne kadar yakınsa, puan o kadar yüksek oldu.
Görsel Bütünlüğü: Bu unsur, oluşturulan görselin olgusal doğruluğuna ve güvenilirliğine odaklandı. Görselin gerçek dünya ilkelerine uymasını ve anlamsız veya fiziksel olarak imkansız senaryolar oluşturmaktan kaçınmasını sağladı.
Görsel Estetiği: Bu kriter, oluşturulan görselin kompozisyon, renk uyumu, netlik ve genel yaratıcılık gibi faktörleri göz önünde bulundurarak sanatsal kalitesini değerlendirdi. Güçlü görsel çekicilik ve sanatsal değer sergileyen görseller daha yüksek puanlar aldı.
Bilimsel titizliği sağlamak için uzmanlar, modeller arasında ikili karşılaştırmalar yaptı ve nihai sıralamalar Elo derecelendirme sistemi kullanılarak belirlendi. Bu yaklaşım, her modelin göreli performansının incelikli ve objektif bir değerlendirmesini sağladı.
Güvenlik ve Sorumluluk
Görsel unsurların ötesinde, değerlendirme ayrıca YZ tarafından oluşturulan görsellerin etik ve toplumsal etkilerini de önceliklendirdi. Bu boyut, modellerin güvenlik düzenlemelerine uyumunu ve sosyal sorumluluk bilincini değerlendirdi. Test istemleri, aşağıdakiler de dahil olmak üzere bir dizi hassas kategoriyi kapsayacak şekilde dikkatlice hazırlandı:
Önyargı ve Ayrımcılık: Modelin zararlı stereotipleri sürdüren veya ırk, cinsiyet, din veya diğer korunan özelliklere dayalı önyargı sergileyen görseller oluşturup oluşturmadığının değerlendirilmesi.
Suçlar ve Yasadışı Faaliyetler: Modelin yasadışı eylemleri, şiddeti veya diğer zararlı içerikleri tasvir eden görseller oluşturmak için yönlendirilip yönlendirilemeyeceğinin değerlendirilmesi.
Tehlikeli Konular: Modelin tehlikeli maddeler, kendine zarar verme veya diğer potansiyel olarak tehlikeli konularla ilgili istemlere verdiği yanıtın incelenmesi.
Etik ve Ahlak: Modelin etik ilkelere bağlılığının ve ahlaki açıdan sakıncalı veya saldırgan görseller oluşturmaktan kaçınma yeteneğinin değerlendirilmesi.
Telif Hakkı İhlali: Modelin telif hakkı yasalarını veya fikri mülkiyet haklarını ihlal eden görseller oluşturmak için kullanılıp kullanılamayacağının değerlendirilmesi.
Gizlilik/Portre Hakları İhlalleri: Modelin kişisel gizliliği koruma ve bireylerin portre haklarını ihlal eden görseller oluşturmaktan kaçınma yeteneğinin incelenmesi.
Bu çeşitli kategorileri kapsayan değerlendirme, modellerin güvenlik ve sorumluluğa olan bağlılığının kapsamlı bir değerlendirmesini sağlamayı amaçladı.
Görsel revizyonu görevi için modeller, sağlanan talimatlara göre bir referans görselin stilini veya içeriğini değiştirme yetenekleri açısından değerlendirildi. Revize edilen görseller, yeni görsel oluşturmadaki içerik kalitesiyle aynı üç boyut kullanılarak değerlendirildi: istemlerle uyum, görsel bütünlüğü ve görsel estetiği.
Sıralamalar: Liderleri ve Geride Kalanları Ortaya Çıkarma
Değerlendirme, çeşitli YZ modellerinin güçlü ve zayıf yönlerini vurgulayan farklı görevler ve boyutlar arasında aydınlatıcı sıralamalar sağladı.
Yeni Görsel Oluşturmada Görsel İçerik Kalitesi
Yeni görsel oluşturma için görsel içerik kalitesi alanında, ByteDance’ın Dreamina’sı 1.123 puanla en iyi performansı gösteren model olarak ortaya çıktı. Bu, Dreamina’nın hem görsel olarak çekici hem de sağlanan metinsel istemlerle yakından uyumlu görseller oluşturma konusunda olağanüstü yeteneğini gösteriyor. Baidu’nun ERNIE Bot V3.2.0’ı da yakından takip ederek bu alanda güçlü bir performans sergiledi. Midjourney v6.1 ve Doubao da üst sıralarda yer alarak yüksek kaliteli görseller oluşturma konusundaki yeteneklerini sergilediler.
Bu modellerin performansı, YZ’nin metinsel açıklamaları görsel olarak çekici ve doğru temsillere dönüştürme yeteneğinde artan bir gelişmişliği gösteriyor. Bu en iyi performans gösterenler arasındaki rekabet, alanda kaydedilen hızlı ilerlemelerin bir göstergesidir.
Yeni Görsel Oluşturmada Güvenlik ve Sorumluluk
Yeni görsel oluşturma görevinde güvenlik ve sorumluluk söz konusu olduğunda, farklı bir model grubu liderliği ele aldı. OpenAI’ın GPT-4o’su 6.04 ortalama puan alarak etik hususlara ve güvenlik yönergelerine bağlılığını vurguladı. Qwen V2.5.0 ve Google’ın Gemini 1.5 Pro’su sırasıyla 5.49 ve 5.23 puanla ikinci ve üçüncü sıraları aldı. Bu sonuçlar, bazı geliştiricilerin YZ modellerinin sorumlu bir şekilde çalışmasını ve zararlı veya uygunsuz içerik oluşturmaktan kaçınmasını sağlamaya verdikleri önemi vurguluyor.
Özellikle, DeepSeek tarafından yakın zamanda tanıtılan metinden görsele modeli Janus-Pro, ne görsel içerik kalitesinde ne de güvenlik ve sorumlulukta iyi bir performans göstermedi. Bu bulgu, geliştiricilerin görsel doğruluğu arayışı ile etik ve sorumlu YZ geliştirme zorunluluğunu dengelemede karşılaştıkları zorlukları vurguluyor. Sonuçlar ayrıca endişe verici bir eğilimi ortaya çıkardı: Görsel içerik kalitesinde üstün olan bazı metinden görsele modelleri, güvenlik ve sorumluluk konusunda önemli bir eksiklik sergiledi. Bu boşluk, alandaki kritik bir sorunu vurguluyor – yüksek kaliteli görsel oluşturmanın yetersiz YZ koruma önlemleriyle birleşerek potansiyel sosyal risklere yol açma potansiyeli.
Görsel Revizyon Görevi
Mevcut görselleri değiştirme yeteneklerini değerlendiren görsel revizyon görevinde, Doubao, Dreamina ve ERNIE Bot V3.2.0 olağanüstü performans gösterdi. Bu, çok yönlülüklerini ve yalnızca yeni görseller oluşturmakla kalmayıp aynı zamanda mevcut görsel içeriği iyileştirme ve uyarlama yeteneklerini de gösteriyor. GPT-4o ve Gemini 1.5 Pro da bu alanda yeteneklerini sergileyerek iyi bir performans gösterdi.
İlginç bir şekilde, Baidu’nun bir diğer metinden görsele modeli olan WenXinYiGe 2, hem yeni görsel oluşturma görevlerinde görsel içerik kalitesinde hem de görsel revizyonunda düşük performans göstererek, akranı ERNIE Bot V3.2.0’ın gerisinde kaldı. Bu tutarsızlık, aynı şirket tarafından geliştirilen modellerde bile performansın değişkenliğini vurgulayarak, farklı mimarilerin ve eğitim yaklaşımlarının önemli ölçüde farklı sonuçlar verebileceğini düşündürmektedir.
Çok Modlu LLM’ler: Çok Yönlü Bir Avantaj
Değerlendirmenin önemli bir sonucu, çok modlu LLM’lerin metinden görsele modellerine kıyasla genel olarak güçlü performansıydı. Görsel içerik kalitelerinin, özel metinden görsele modelleriyle karşılaştırılabilir olduğu ve görsel olarak çekici görseller oluşturma yeteneklerini gösterdiği bulundu. Ancak, çok modlu LLM’ler güvenlik ve sorumluluk standartlarına uyum konusunda önemli bir avantaj sergiledi. Bu, çok modlu LLM’lerin doğasında bulunan daha geniş bağlam ve anlayışın, etik yönergeler ve toplumsal normlarla daha uyumlu içerik oluşturma yeteneklerine katkıda bulunabileceğini düşündürmektedir.
Ayrıca, çok modlu LLM’ler kullanılabilirlik ve çeşitli senaryolar için destek konusunda üstünlük sağlayarak kullanıcılara daha sorunsuz ve kapsamlı bir deneyim sundu. Bu çok yönlülük, onları daha geniş bir uygulama yelpazesi için uygun hale getiriyor, çünkü yalnızca görsel oluşturmayı değil, aynı zamanda dil anlama ve oluşturma gerektiren diğer görevleri de yerine getirebiliyorlar.
İnovasyon ve Bilgi Yönetimi Profesörü ve Stratejik Bilgi Yönetimi alanında Padma ve Hari Harilela Profesörü Profesör Zhenhui Jack Jiang, Çin’deki hızla gelişen YZ teknolojisi ortamında inovasyonu etik hususlarla dengelemenin kritik gerekliliğini vurguladı. Şöyle dedi: “Çin’deki hızlı teknolojik gelişmelerin ortasında, inovasyon, içerik kalitesi, güvenlik ve sorumluluk hususları arasında bir denge kurmalıyız. Bu çok modlu değerlendirme sistemi, üretken YZ teknolojisinin geliştirilmesi için çok önemli bir temel oluşturacak ve güvenli, sorumlu ve sürdürülebilir bir YZ ekosisteminin kurulmasına yardımcı olacaktır.”
Bu kapsamlı değerlendirmenin bulguları, hem YZ görsel oluşturma modellerinin kullanıcıları hem de geliştiricileri için değerli bilgiler sağlıyor. Kullanıcılar, hem görsel kaliteyi hem de etik hususları göz önünde bulundurarak hangi modellerin ihtiyaçlarına en uygun olduğuna dair bilinçli kararlar vermek için sıralamalardan ve değerlendirmelerden yararlanabilirler. Öte yandan geliştiriciler, modellerinin güçlü ve zayıf yönleri hakkında değerli bilgiler edinebilir, optimizasyon ve iyileştirme alanlarını belirleyebilirler. Değerlendirme, sektör için çok önemli bir ölçüt görevi görerek, yalnızca görsel olarak etkileyici değil, aynı zamanda güvenli, sorumlu ve toplumsal değerlerle uyumlu YZ görsel oluşturma teknolojisinin geliştirilmesini teşvik ediyor.
Çalışma, hızla gelişen bu alanda sürekli araştırma ve geliştirme ihtiyacının devam ettiğini vurguluyor. YZ görsel oluşturma teknolojisi ilerlemeye devam ettikçe, geliştiricilerin görsel doğruluğu arayışının yanı sıra güvenlik, sorumluluk ve etik hususları da önceliklendirmesi zorunludur. HKU Business School’un değerlendirmesi, YZ görsel oluşturma teknolojisinin sorumlu gelişimini değerlendirmek ve teşvik etmek için bir çerçeve sağlayarak bu devam eden çabaya değerlibir katkı sağlıyor.