Mbinu ya Tathmini: Mtazamo wa Pande Nyingi
Timu ya utafiti ya HKU Business School ilitumia mbinu ya tathmini iliyoundwa kutoa tathmini kamili na yenye malengo ya uwezo wa miundo ya AI kuzalisha picha. Uchambuzi ulilenga kazi mbili kuu:
- Uzalishaji wa Picha Mpya: Kutathmini uwezo wa miundo kuzalisha picha kutoka kwa maelekezo ya maandishi.
- Marekebisho ya Picha: Kutathmini uwezo wa miundo kurekebisha picha zilizopo kulingana na maagizo maalum.
Kwa kazi ya uzalishaji wa picha mpya, tathmini ilijumuisha vipengele viwili muhimu:
Ubora wa Maudhui ya Picha
Kipengele hiki kilichunguza uaminifu wa kuona na mvuto wa urembo wa picha zilizozalishwa. Vigezo vitatu muhimu vilitumika kutathmini ubora wa maudhui:
Uwiano na Maelekezo: Kigezo hiki kilipima usahihi ambao picha iliyozalishwa iliakisi vitu, mandhari, na dhana zilizoelezewa katika maelekezo ya maandishi. Kadiri picha ilivyolingana na nia ya maelekezo, ndivyo alama ilivyokuwa ya juu.
Uadilifu wa Picha: Kipengele hiki kililenga usahihi wa ukweli na uaminifu wa picha iliyozalishwa. Ilichunguza kama picha ilizingatia kanuni za ulimwengu halisi na kuepuka kuzalisha matukio yasiyo na maana au yasiyowezekana kimwili.
Urembo wa Picha: Kigezo hiki kilitathmini ubora wa kisanii wa picha iliyozalishwa, kwa kuzingatia vipengele kama vile mpangilio, upatanisho wa rangi, uwazi, na ubunifu kwa ujumla. Picha zilizoonyesha mvuto mkubwa wa kuona na sifa za kisanii zilipata alama za juu.
Ili kuhakikisha usahihi wa kisayansi, wataalamu walifanya ulinganisho wa jozi kati ya miundo, na viwango vya mwisho viliamuliwa kwa kutumia mfumo wa ukadiriaji wa Elo. Mbinu hii iliruhusu tathmini ya kina na yenye malengo ya utendaji wa kila muundo.
Usalama na Uwajibikaji
Zaidi ya vipengele vya kuona, tathmini pia ilipa kipaumbele athari za kimaadili na kijamii za picha zinazozalishwa na AI. Kipengele hiki kilitathmini uzingatiaji wa miundo kwa kanuni za usalama na ufahamu wao wa uwajibikaji wa kijamii. Maelekezo ya majaribio yaliundwa kwa uangalifu ili kujumuisha aina mbalimbali za makundi nyeti, ikiwa ni pamoja na:
Upendeleo na Ubaguzi: Kutathmini kama muundo ulizalisha picha ambazo ziliendeleza dhana potofu au kuonyesha upendeleo kulingana na rangi, jinsia, dini, au sifa nyingine zinazolindwa.
Uhalifu na Shughuli Haramu: Kutathmini kama muundo ungeweza kuongozwa kuzalisha picha zinazoonyesha vitendo haramu, vurugu, au maudhui mengine hatari.
Mada Hatari: Kuchunguza majibu ya muundo kwa maelekezo yanayohusiana na vifaa vya hatari, kujidhuru, au mada nyingine zinazoweza kuwa hatari.
Maadili na Uadilifu: Kutathmini uzingatiaji wa muundo kwa kanuni za maadili na uwezo wake wa kuepuka kuzalisha picha ambazo zilikuwa za kupingwa kimaadili au za kukera.
Ukiukaji wa Hakimiliki: Kutathmini kama muundo ungeweza kutumika kuzalisha picha ambazo zilivunja sheria za hakimiliki au haki miliki.
Ukiukaji wa Haki za Faragha/Picha: Kuchunguza uwezo wa muundo kulinda faragha ya kibinafsi na kuepuka kuzalisha picha ambazo zilivunja haki za picha za watu binafsi.
Kwa kujumuisha makundi haya mbalimbali, tathmini ililenga kutoa tathmini kamili ya kujitolea kwa miundo kwa usalama na uwajibikaji.
Kwa kazi ya marekebisho ya picha, miundo ilitathminiwa juu ya uwezo wao wa kurekebisha mtindo au maudhui ya picha ya marejeleo, kulingana na maagizo yaliyotolewa. Picha zilizorekebishwa zilitathminiwa kwa kutumia vipimo vitatu sawa na ubora wa maudhui katika uzalishaji wa picha mpya: uwiano na maelekezo, uadilifu wa picha, na urembo wa picha.
Viwango: Kufunua Viongozi na Wanaobaki Nyuma
Tathmini ilitoa viwango vya ufahamu katika kazi na vipimo tofauti, ikionyesha uwezo na udhaifu wa miundo mbalimbali ya AI.
Ubora wa Maudhui ya Picha katika Uzalishaji wa Picha Mpya
Katika uwanja wa ubora wa maudhui ya picha kwa uzalishaji wa picha mpya, Dreamina ya ByteDance iliibuka kama mwigizaji bora, ikipata alama ya juu zaidi ya 1,123. Hii inaonyesha uwezo wa kipekee wa Dreamina kuzalisha picha ambazo ni za kuvutia na zinazolingana kwa karibu na maelekezo ya maandishi yaliyotolewa. ERNIE Bot V3.2.0 ya Baidu ilifuata kwa karibu, ikionyesha utendaji mzuri katika eneo hili. Midjourney v6.1 na Doubao pia zilipata nafasi za juu, zikionyesha ustadi wao katika kuzalisha picha za ubora wa juu.
Utendaji wa miundo hii unaonyesha kuongezeka kwa ustadi katika uwezo wa AI kutafsiri maelezo ya maandishi kuwa taswira za kuvutia na sahihi. Ushindani kati ya waigizaji hawa bora ni ishara ya maendeleo ya haraka yanayofanywa katika uwanja huu.
Usalama na Uwajibikaji katika Uzalishaji wa Picha Mpya
Linapokuja suala la usalama na uwajibikaji katika kazi ya uzalishaji wa picha mpya, seti tofauti ya miundo iliongoza. GPT-4o ya OpenAI ilipokea alama ya juu zaidi ya wastani ya 6.04, ikisisitiza kujitolea kwake kwa masuala ya kimaadili na uzingatiaji wa miongozo ya usalama. Qwen V2.5.0 na Gemini 1.5 Pro ya Google zilipata nafasi ya pili na ya tatu, mtawalia, kwa alama za 5.49 na 5.23. Matokeo haya yanaonyesha msisitizo ambao baadhi ya watengenezaji wanaweka katika kuhakikisha kuwa miundo yao ya AI inafanya kazi kwa uwajibikaji na kuepuka kuzalisha maudhui hatari au yasiyofaa.
Hasa, Janus-Pro, muundo wa ‘text-to-image’ ulioletwa hivi karibuni na DeepSeek, haukufanya vizuri katika ubora wa maudhui ya picha au usalama na uwajibikaji. Ugunduzi huu unasisitiza changamoto ambazo watengenezaji wanakabiliana nazo katika kusawazisha harakati za uaminifu wa kuona na umuhimu wa maendeleo ya AI ya kimaadili na ya kuwajibika. Matokeo pia yalifunua mwelekeo wa kutia wasiwasi: baadhi ya miundo ya ‘text-to-image’ ambayo ilifanya vizuri katika ubora wa maudhui ya picha ilionyesha ukosefu mkubwa wa kuzingatia usalama na uwajibikaji. Pengo hili linaonyesha suala muhimu katika uwanja huu - uwezekano wa uzalishaji wa picha wa ubora wa juu kuunganishwa na vizuizi duni vya AI, na kusababisha hatari za kijamii zinazowezekana.
Kazi ya Marekebisho ya Picha
Katika kazi ya marekebisho ya picha, ambayo ilitathmini uwezo wa miundo kurekebisha picha zilizopo, Doubao, Dreamina, na ERNIE Bot V3.2.0 zilionyesha utendaji bora. Hii inaonyesha uwezo wao mwingi na uwezo wa sio tu kuzalisha picha mpya bali pia kuboresha na kurekebisha maudhui ya kuona yaliyopo. GPT-4o na Gemini 1.5 Pro pia zilifanya vizuri, zikionyesha uwezo wao katika eneo hili.
Cha kufurahisha, WenXinYiGe 2, muundo mwingine wa ‘text-to-image’ kutoka Baidu, haukufanya vizuri katika ubora wa maudhui ya picha katika kazi za uzalishaji wa picha mpya na marekebisho ya picha, ukianguka nyuma ya mwenzake, ERNIE Bot V3.2.0. Tofauti hii inaonyesha utofauti katika utendaji hata ndani ya miundo iliyotengenezwa na kampuni moja, ikidokeza kuwa usanifu tofauti na mbinu za mafunzo zinaweza kutoa matokeo tofauti sana.
LLM za Multimodal: Faida Iliyo Kamili
Jambo muhimu kutoka kwa tathmini lilikuwa utendaji mzuri kwa ujumla wa LLM za multimodal ikilinganishwa na miundo ya ‘text-to-image’. Ubora wa maudhui yao ya picha ulipatikana kuwa sawa na ule wa miundo maalum ya ‘text-to-image’, ikionyesha uwezo wao wa kuzalisha picha za kuvutia. Hata hivyo, LLM za multimodal zilionyesha faida kubwa katika uzingatiaji wao wa viwango vya usalama na uwajibikaji. Hii inadokeza kuwa muktadha mpana na uelewa wa asili katika LLM za multimodal unaweza kuchangia uwezo wao wa kuzalisha maudhui ambayo yanalandana zaidi na miongozo ya kimaadili na kanuni za kijamii.
Zaidi ya hayo, LLM za multimodal zilifanya vizuri katika utumiaji na usaidizi kwa matukio mbalimbali, zikiwapa watumiaji uzoefu usio na mshono na wa kina. Uwezo huu mwingi unazifanya zifae kwa anuwai ya matumizi, kwani zinaweza kushughulikia sio tu uzalishaji wa picha bali pia kazi zingine zinazohitaji uelewa na uzalishaji wa lugha.
Profesa Zhenhui Jack Jiang, Profesa wa Ubunifu na Usimamizi wa Habari na Profesa wa Padma na Hari Harilela katika Usimamizi wa Habari wa Kimkakati, alisisitiza haja muhimu ya kusawazisha uvumbuzi na masuala ya kimaadili katika mazingira yanayoendelea kwa kasi ya teknolojia ya AI nchini China. Alisema, “Katikati ya maendeleo ya haraka ya teknolojia nchini China, lazima tupate usawa kati ya uvumbuzi, ubora wa maudhui, usalama, na masuala ya uwajibikaji. Mfumo huu wa tathmini ya multimodal utaweka msingi muhimu kwa maendeleo ya teknolojia ya uzalishaji ya AI na kusaidia kuanzisha mfumo salama, wa kuwajibika, na endelevu wa AI.”
Matokeo ya tathmini hii ya kina yanatoa maarifa muhimu kwa watumiaji na watengenezaji wa miundo ya uzalishaji wa picha ya AI. Watumiaji wanaweza kutumia viwango na tathmini kufanya maamuzi sahihi kuhusu ni miundo ipi inayofaa zaidi mahitaji yao, kwa kuzingatia ubora wa picha na masuala ya kimaadili. Watengenezaji, kwa upande mwingine, wanaweza kupata maarifa muhimu kuhusu uwezo na udhaifu wa miundo yao, wakitambua maeneo ya uboreshaji. Tathmini hii inatumika kama kigezo muhimu kwa tasnia, ikikuza maendeleo ya teknolojia ya uzalishaji wa picha ya AI ambayo sio tu ya kuvutia bali pia salama, ya kuwajibika, na inayolingana na maadili ya jamii.
Utafiti unasisitiza haja inayoendelea ya utafiti na maendeleo zaidi katika uwanja huu unaoendelea kwa kasi. Kadiri teknolojia ya uzalishaji wa picha ya AI inavyoendelea kuimarika, ni muhimu kwamba watengenezaji wape kipaumbele usalama, uwajibikaji, na masuala ya kimaadili pamoja na harakati za uaminifu wa kuona. Tathmini ya HKU Business School inatumika kama mchango muhimu kwa juhudi hii inayoendelea, ikitoa mfumo wa kutathmini na kukuza maendeleo ya kuwajibika ya teknolojia ya uzalishaji wa picha ya AI.