AI మోడల్స్ యొక్క ఇమేజ్-జెనరేషన్ సామర్థ్యాలపై సమగ్ర మూల్యాంకన నివేదికను HKU బిజినెస్ స్కూల్ విడుదల చేసింది
జెనరేటివ్ ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ (AI) యొక్క వేగవంతమైన పరిణామం ఇమేజ్ అనాలిసిస్ మరియు జనరేషన్ రంగంలో గణనీయమైన పురోగతిని సాధించింది. అయితే, AI ఇమేజ్ జనరేషన్ మోడల్స్ యొక్క అభివృద్ధి చెందుతున్న ఫీల్డ్ ఇంకా ప్రారంభ దశలోనే ఉంది, అభివృద్ధి మరియు శుద్ధీకరణకు తగినంత అవకాశం ఉంది. ప్రస్తుత వ్యవస్థలు తరచుగా పక్షపాతాలతో పోరాడుతాయి మరియు కఠినమైన భద్రత మరియు జవాబుదారీతనం బెంచ్మార్క్లను చేరుకోవడంలో కష్టపడతాయి. ఈ క్లిష్టమైన సందర్భాన్ని గుర్తించి, HKU బిజినెస్ స్కూల్ ప్రముఖ AI మోడల్స్ యొక్క సమగ్ర మూల్యాంకనాన్ని చేపట్టింది, వాటి ఇమేజ్ జనరేషన్ సామర్థ్యాల యొక్క క్రమబద్ధమైన అంచనాను అందిస్తుంది.
ఈ నివేదిక 15 టెక్స్ట్-టు-ఇమేజ్ మోడల్స్ మరియు 7 మల్టీమోడల్ లార్జ్ లాంగ్వేజ్ మోడల్స్ (LLMs) యొక్క లోతైన విశ్లేషణను అందిస్తుంది, వాటి బలాలు మరియు బలహీనతలపై వెలుగునిస్తుంది. HKU బిజినెస్ స్కూల్ పరిశోధకులచే సూక్ష్మంగా రూపొందించబడిన మూల్యాంకన ఫ్రేమ్వర్క్, రెండు ప్రాథమిక పనులపై దృష్టి సారించింది: కొత్త-ఇమేజ్ జనరేషన్ మరియు ఇమేజ్ రివిజన్. ఫలితాలు విభిన్న పనితీరు యొక్క ల్యాండ్స్కేప్ను వెల్లడిస్తాయి, కొన్ని నమూనాలు కంటెంట్ నాణ్యతలో రాణిస్తాయి, మరికొన్ని భద్రత మరియు బాధ్యతకు ప్రాధాన్యత ఇస్తాయి.
మూల్యాంకన పద్దతి: బహుముఖ విధానం
HKU బిజినెస్ స్కూల్ పరిశోధనా బృందం ఉపయోగించిన మూల్యాంకన పద్దతి AI మోడల్స్ యొక్క ఇమేజ్ జనరేషన్ సామర్థ్యాల యొక్క సంపూర్ణ మరియు లక్ష్య అంచనాను అందించడానికి రూపొందించబడింది. విశ్లేషణ రెండు ప్రధాన పనులపై కేంద్రీకృతమై ఉంది:
- కొత్త-ఇమేజ్ జనరేషన్: టెక్స్ట్యువల్ ప్రాంప్ట్ల నుండి చిత్రాలను సృష్టించే మోడల్స్ యొక్క సామర్థ్యాన్ని అంచనా వేయడం.
- ఇమేజ్ రివిజన్: నిర్దిష్ట సూచనల ఆధారంగా ఇప్పటికే ఉన్న చిత్రాలను సవరించడానికి మోడల్స్ యొక్క సామర్థ్యాన్ని విశ్లేషించడం.
కొత్త-ఇమేజ్ జనరేషన్ టాస్క్ కోసం, మూల్యాంకనం రెండు కీలకమైన అంశాలను కలిగి ఉంది:
ఇమేజ్ కంటెంట్ నాణ్యత
ఈ డైమెన్షన్ ఉత్పత్తి చేయబడిన చిత్రాల యొక్క దృశ్య విశ్వసనీయత మరియు సౌందర్య ఆకర్షణను పరిశీలించింది. కంటెంట్ నాణ్యతను అంచనా వేయడానికి మూడు కీలక ప్రమాణాలు ఉపయోగించబడ్డాయి:
ప్రాంప్ట్లతో అలైన్మెంట్: ఉత్పత్తి చేయబడిన చిత్రం టెక్స్ట్యువల్ ప్రాంప్ట్లో వివరించిన వస్తువులు, దృశ్యాలు మరియు భావనలను ఎంత ఖచ్చితంగా ప్రతిబింబిస్తుందో ఈ ప్రమాణం అంచనా వేసింది. చిత్రం ప్రాంప్ట్ యొక్క ఉద్దేశ్యానికి దగ్గరగా ఉంటే, స్కోర్ ఎక్కువగా ఉంటుంది.
ఇమేజ్ సమగ్రత: ఈ అంశం ఉత్పత్తి చేయబడిన చిత్రం యొక్క వాస్తవిక ఖచ్చితత్వం మరియు విశ్వసనీయతపై దృష్టి పెట్టింది. చిత్రం వాస్తవ-ప్రపంచ సూత్రాలకు కట్టుబడి ఉందని మరియు అర్ధంలేని లేదా భౌతికంగా అసాధ్యమైన దృశ్యాలను ఉత్పత్తి చేయకుండా నిరోధించిందని ఇది నిర్ధారించింది.
ఇమేజ్ సౌందర్యం: ఈ ప్రమాణం ఉత్పత్తి చేయబడిన చిత్రం యొక్క కళాత్మక నాణ్యతను విశ్లేషించింది, కూర్పు, రంగు సామరస్యం, స్పష్టత మరియు మొత్తం సృజనాత్మకత వంటి అంశాలను పరిగణనలోకి తీసుకుంటుంది. బలమైన దృశ్య ఆకర్షణ మరియు కళాత్మక యోగ్యతను ప్రదర్శించిన చిత్రాలు అధిక స్కోర్లను పొందాయి.
శాస్త్రీయ దృఢత్వాన్ని నిర్ధారించడానికి, నిపుణులు మోడల్స్ మధ్య జత పోలికలను నిర్వహించారు మరియు Elo రేటింగ్ సిస్టమ్ను ఉపయోగించి తుది ర్యాంకింగ్లు నిర్ణయించబడ్డాయి. ఈ విధానం ప్రతి మోడల్ యొక్క సాపేక్ష పనితీరు యొక్క సూక్ష్మ మరియు లక్ష్య అంచనాను అనుమతించింది.
భద్రత మరియు బాధ్యత
దృశ్య అంశాలకు మించి, మూల్యాంకనం AI-ఉత్పత్తి చేయబడిన చిత్రాల యొక్క నైతిక మరియు సామాజిక ప్రభావాలకు కూడా ప్రాధాన్యతనిచ్చింది. ఈ డైమెన్షన్ భద్రతా నిబంధనలకు మోడల్స్ యొక్క సమ్మతిని మరియు సామాజిక బాధ్యతపై వాటి అవగాహనను అంచనా వేసింది. పరీక్షా ప్రాంప్ట్లు కింది వాటితో సహా అనేక రకాల సున్నితమైన వర్గాలను కవర్ చేయడానికి జాగ్రత్తగా రూపొందించబడ్డాయి:
పక్షపాతం మరియు వివక్ష: జాతి, లింగం, మతం లేదా ఇతర రక్షిత లక్షణాల ఆధారంగా హానికరమైన మూసలను శాశ్వతం చేసే లేదా పక్షపాతాన్ని ప్రదర్శించే చిత్రాలను మోడల్ ఉత్పత్తి చేసిందా అని విశ్లేషించడం.
నేరాలు మరియు చట్టవిరుద్ధ కార్యకలాపాలు: చట్టవిరుద్ధమైన చర్యలు, హింస లేదా ఇతర హానికరమైన కంటెంట్ను వర్ణించే చిత్రాలను ఉత్పత్తి చేయడానికి మోడల్ను ప్రేరేపించవచ్చా అని అంచనా వేయడం.
ప్రమాదకరమైన అంశాలు: ప్రమాదకర పదార్థాలు, స్వీయ-హాని లేదా ఇతర ప్రమాదకరమైన విషయాలకు సంబంధించిన ప్రాంప్ట్లకు మోడల్ యొక్క ప్రతిస్పందనను పరిశీలించడం.
నైతికత మరియు నీతి: నైతిక సూత్రాలకు మోడల్ యొక్క కట్టుబడి ఉండటం మరియు నైతికంగా అభ్యంతరకరమైన లేదా అభ్యంతరకరమైన చిత్రాలను ఉత్పత్తి చేయకుండా నివారించే సామర్థ్యాన్ని విశ్లేషించడం.
కాపీరైట్ ఉల్లంఘన: కాపీరైట్ చట్టాలు లేదా మేధో సంపత్తి హక్కులను ఉల్లంఘించే చిత్రాలను ఉత్పత్తి చేయడానికి మోడల్ను ఉపయోగించవచ్చా అని అంచనా వేయడం.
గోప్యత/చిత్ర హక్కుల ఉల్లంఘనలు: వ్యక్తిగత గోప్యతను రక్షించే మోడల్ యొక్క సామర్థ్యాన్ని మరియు వ్యక్తుల చిత్ర హక్కులను ఉల్లంఘించే చిత్రాలను ఉత్పత్తి చేయకుండా నివారించడం.
ఈ విభిన్న వర్గాలను కలుపుకొని, మూల్యాంకనం భద్రత మరియు బాధ్యత పట్ల మోడల్స్ యొక్క నిబద్ధత యొక్క సమగ్ర అంచనాను అందించడం లక్ష్యంగా పెట్టుకుంది.
ఇమేజ్ రివిజన్ టాస్క్ కోసం, అందించిన సూచనల ఆధారంగా రిఫరెన్స్ ఇమేజ్ యొక్క శైలి లేదా కంటెంట్ను సవరించగల సామర్థ్యంపై మోడల్లు విశ్లేషించబడ్డాయి. సవరించిన చిత్రాలు కొత్త-ఇమేజ్ జనరేషన్లో కంటెంట్ నాణ్యత వలె అదే మూడు డైమెన్షన్లను ఉపయోగించి అంచనా వేయబడ్డాయి: ప్రాంప్ట్లతో అలైన్మెంట్, ఇమేజ్ సమగ్రత మరియు ఇమేజ్ సౌందర్యం.
ర్యాంకింగ్లు: లీడర్లు మరియు లాగార్డ్లను ఆవిష్కరించడం
మూల్యాంకనం విభిన్న పనులు మరియు డైమెన్షన్లలో తెలివైన ర్యాంకింగ్లను అందించింది, వివిధ AI మోడల్స్ యొక్క బలాలు మరియు బలహీనతలను హైలైట్ చేస్తుంది.
కొత్త-ఇమేజ్ జనరేషన్లో ఇమేజ్ కంటెంట్ నాణ్యత
కొత్త-ఇమేజ్ జనరేషన్ కోసం ఇమేజ్ కంటెంట్ నాణ్యత రంగంలో, ByteDance యొక్క Dreamina 1,123 అత్యధిక స్కోర్ను సాధించి, అగ్రస్థానంలో నిలిచింది. ఇది Dreamina యొక్క అసాధారణమైన సామర్థ్యాన్ని సూచిస్తుంది, ఇది దృశ్యపరంగా ఆకర్షణీయంగా మరియు అందించిన టెక్స్ట్యువల్ ప్రాంప్ట్లకు దగ్గరగా ఉండే చిత్రాలను ఉత్పత్తి చేస్తుంది. Baidu యొక్క ERNIE Bot V3.2.0 కూడా దగ్గరగా అనుసరించింది, ఈ ప్రాంతంలో బలమైన పనితీరును ప్రదర్శిస్తుంది. Midjourney v6.1 మరియు Doubao కూడా అగ్ర స్థానాలను పొందాయి, అధిక-నాణ్యత చిత్రాలను ఉత్పత్తి చేయడంలో వారి నైపుణ్యాన్ని ప్రదర్శిస్తాయి.
ఈ మోడల్స్ యొక్క పనితీరు AI యొక్క సామర్థ్యంలో పెరుగుతున్న అధునాతనతను సూచిస్తుంది, టెక్స్ట్యువల్ వివరణలను దృశ్యమానంగా బలవంతపు మరియు ఖచ్చితమైన ప్రతిరూపాలుగా అనువదిస్తుంది. ఈ అగ్రశ్రేణి ప్రదర్శనకారుల మధ్య పోటీ ఈ రంగంలో జరుగుతున్న వేగవంతమైన పురోగతికి సూచిక.
కొత్త-ఇమేజ్ జనరేషన్లో భద్రత మరియు బాధ్యత
కొత్త-ఇమేజ్ జనరేషన్ టాస్క్లో భద్రత మరియు బాధ్యత విషయానికి వస్తే, విభిన్నమైన మోడల్స్ సెట్ ముందంజలో ఉంది. OpenAI యొక్క GPT-4o 6.04 అత్యధిక సగటు స్కోర్ను పొందింది, నైతిక పరిగణనలకు దాని నిబద్ధతను మరియు భద్రతా మార్గదర్శకాలకు కట్టుబడి ఉండటాన్ని నొక్కి చెబుతుంది. Qwen V2.5.0 మరియు Google యొక్క Gemini 1.5 Pro వరుసగా 5.49 మరియు 5.23 స్కోర్లతో రెండవ మరియు మూడవ స్థానాలను పొందాయి. ఈ ఫలితాలు కొంతమంది డెవలపర్లు తమ AI మోడల్లు బాధ్యతాయుతంగా పనిచేస్తాయని మరియు హానికరమైన లేదా అనుచితమైన కంటెంట్ను ఉత్పత్తి చేయకుండా నిరోధిస్తాయని నిర్ధారించడానికి ఉంచుతున్న ప్రాధాన్యతను హైలైట్ చేస్తాయి.
ముఖ్యంగా, DeepSeek ఇటీవల పరిచయం చేసిన టెక్స్ట్-టు-ఇమేజ్ మోడల్ Janus-Pro, ఇమేజ్ కంటెంట్ నాణ్యత లేదా భద్రత మరియు బాధ్యత రెండింటిలోనూ బాగా పని చేయలేదు. ఈ అన్వేషణ డెవలపర్లు దృశ్య విశ్వసనీయతను కొనసాగించడంలో ఎదుర్కొంటున్న సవాళ్లను నొక్కి చెబుతుంది, నైతిక మరియు బాధ్యతాయుతమైన AI అభివృద్ధి యొక్క ఆవశ్యకతతో. ఫలితాలు ఆందోళన కలిగించే ధోరణిని కూడా వెల్లడించాయి: ఇమేజ్ కంటెంట్ నాణ్యతలో రాణించిన కొన్ని టెక్స్ట్-టు-ఇమేజ్ మోడల్లు భద్రత మరియు బాధ్యత పట్ల గణనీయమైన నిర్లక్ష్యాన్ని ప్రదర్శించాయి. ఈ అంతరం ఫీల్డ్లోని ఒక క్లిష్టమైన సమస్యను హైలైట్ చేస్తుంది - అధిక-నాణ్యత ఇమేజ్ జనరేషన్ తగినంత AI గార్డ్రైల్లతో జతచేయబడకపోవడం, ఇది సామాజిక ప్రమాదాలకు దారితీస్తుంది.
ఇమేజ్ రివిజన్ టాస్క్
ఇమేజ్ రివిజన్ టాస్క్లో, ఇప్పటికే ఉన్న చిత్రాలను సవరించగల మోడల్స్ యొక్క సామర్థ్యాన్ని అంచనా వేసింది, Doubao, Dreamina మరియు ERNIE Bot V3.2.0 అత్యుత్తమ పనితీరును ప్రదర్శించాయి. ఇది వారి బహుముఖ ప్రజ్ఞను మరియు కొత్త చిత్రాలను ఉత్పత్తి చేయడమే కాకుండా ఇప్పటికే ఉన్న దృశ్య కంటెంట్ను మెరుగుపరచడానికి మరియు అనుకూలించడానికి వారి సామర్థ్యాన్ని సూచిస్తుంది. GPT-4o మరియు Gemini 1.5 Pro కూడా బాగా పనిచేశాయి, ఈ ప్రాంతంలో వారి సామర్థ్యాలను ప్రదర్శిస్తాయి.
ఆసక్తికరంగా, Baidu నుండి మరొక టెక్స్ట్-టు-ఇమేజ్ మోడల్ అయిన WenXinYiGe 2, కొత్త-ఇమేజ్ జనరేషన్ టాస్క్లు మరియు ఇమేజ్ రివిజన్లో ఇమేజ్ కంటెంట్ నాణ్యత రెండింటిలోనూ తక్కువ పనితీరును కనబరిచింది, దాని సహచరుడు ERNIE Bot V3.2.0 కంటే తక్కువగా ఉంది. ఈ వ్యత్యాసం ఒకే కంపెనీ అభివృద్ధి చేసిన మోడల్స్లో కూడా పనితీరులో వైవిధ్యాన్ని హైలైట్ చేస్తుంది, విభిన్న నిర్మాణాలు మరియు శిక్షణా విధానాలు గణనీయంగా విభిన్న ఫలితాలను ఇవ్వగలవని సూచిస్తున్నాయి.
మల్టీమోడల్ LLMs: వెల్-రౌండెడ్ అడ్వాంటేజ్
మూల్యాంకనం నుండి ఒక ముఖ్యమైన టేకావే ఏమిటంటే, టెక్స్ట్-టు-ఇమేజ్ మోడల్స్తో పోలిస్తే మల్టీమోడల్ LLMs యొక్క మొత్తం బలమైన పనితీరు. వాటి ఇమేజ్ కంటెంట్ నాణ్యత అంకితమైన టెక్స్ట్-టు-ఇమేజ్ మోడల్స్తో పోల్చదగినదిగా కనుగొనబడింది, దృశ్యమానంగా ఆకర్షణీయమైన చిత్రాలను ఉత్పత్తి చేయగల సామర్థ్యాన్ని ప్రదర్శిస్తుంది. అయితే, మల్టీమోడల్ LLMs భద్రత మరియు బాధ్యత ప్రమాణాలకు కట్టుబడి ఉండటంలో గణనీయమైన ప్రయోజనాన్ని ప్రదర్శించాయి. మల్టీమోడల్ LLMsలో స్వాభావికమైన విస్తృత సందర్భం మరియు అవగాహన నైతిక మార్గదర్శకాలు మరియు సామాజిక నిబంధనలకు అనుగుణంగా ఉండే కంటెంట్ను ఉత్పత్తి చేయగల సామర్థ్యానికి దోహదం చేయవచ్చని ఇది సూచిస్తుంది.
అంతేకాకుండా, మల్టీమోడల్ LLMs వినియోగం మరియు విభిన్న దృశ్యాలకు మద్దతు ఇవ్వడంలో రాణించాయి, వినియోగదారులకు మరింత అతుకులు లేని మరియు సమగ్ర అనుభవాన్ని అందిస్తాయి. ఈ బహుముఖ ప్రజ్ఞ వాటిని విస్తృత శ్రేణి అనువర్తనాలకు బాగా సరిపోయేలా చేస్తుంది, ఎందుకంటే అవి ఇమేజ్ జనరేషన్ను మాత్రమే కాకుండా భాషా అవగాహన మరియు ఉత్పత్తి అవసరమయ్యే ఇతర పనులను కూడా నిర్వహించగలవు.
ప్రొఫెసర్ జెన్హుయ్ జాక్ జియాంగ్, ఇన్నోవేషన్ అండ్ ఇన్ఫర్మేషన్ మేనేజ్మెంట్ ప్రొఫెసర్ మరియు స్ట్రాటజిక్ ఇన్ఫర్మేషన్ మేనేజ్మెంట్లో పద్మ మరియు హరి హరిలేలా ప్రొఫెసర్, చైనాలో వేగంగా అభివృద్ధి చెందుతున్న AI టెక్నాలజీ ల్యాండ్స్కేప్లో నైతిక పరిగణనలతో ఆవిష్కరణను సమతుల్యం చేయవలసిన క్లిష్టమైన అవసరాన్ని నొక్కి చెప్పారు. అతను ఇలా అన్నాడు, “చైనాలో వేగవంతమైన సాంకేతిక పురోగతి మధ్య, మేము ఆవిష్కరణ, కంటెంట్ నాణ్యత, భద్రత మరియు బాధ్యత పరిగణనల మధ్య సమతుల్యతను సాధించాలి. ఈ మల్టీమోడల్ మూల్యాంకన వ్యవస్థ జెనరేటివ్ AI టెక్నాలజీ అభివృద్ధికి కీలకమైన పునాదిని వేస్తుంది మరియు సురక్షితమైన, బాధ్యతాయుతమైన మరియు స్థిరమైన AI పర్యావరణ వ్యవస్థను స్థాపించడానికి సహాయపడుతుంది.”
ఈ సమగ్ర మూల్యాంకనం యొక్క ఫలితాలు AI ఇమేజ్ జనరేషన్ మోడల్స్ యొక్క వినియోగదారులు మరియు డెవలపర్లు ఇద్దరికీ విలువైన అంతర్దృష్టులను అందిస్తాయి. వినియోగదారులు తమ అవసరాలకు ఏ మోడల్లు బాగా సరిపోతాయో సమాచారంతో కూడిన నిర్ణయాలు తీసుకోవడానికి ర్యాంకింగ్లు మరియు అంచనాలను ఉపయోగించుకోవచ్చు, ఇమేజ్ నాణ్యత మరియు నైతిక పరిగణనలు రెండింటినీ పరిగణనలోకి తీసుకుంటారు. మరోవైపు, డెవలపర్లు తమ మోడల్స్ యొక్క బలాలు మరియు బలహీనతలపై విలువైన అంతర్దృష్టులను పొందవచ్చు, ఆప్టిమైజేషన్ మరియు మెరుగుదల కోసం ప్రాంతాలను గుర్తించవచ్చు. మూల్యాంకనం పరిశ్రమకు కీలకమైన బెంచ్మార్క్గా పనిచేస్తుంది, దృశ్యమానంగా ఆకట్టుకునేది మాత్రమే కాకుండా సురక్షితమైన, బాధ్యతాయుతమైన మరియు సామాజిక విలువలకు అనుగుణంగా ఉండే AI ఇమేజ్ జనరేషన్ టెక్నాలజీ అభివృద్ధిని ప్రోత్సహిస్తుంది.
ఈ వేగంగా అభివృద్ధి చెందుతున్న ఫీల్డ్లో నిరంతర పరిశోధన మరియు అభివృద్ధి యొక్క కొనసాగుతున్న అవసరాన్ని ఈ అధ్యయనం నొక్కి చెబుతుంది. AI ఇమేజ్ జనరేషన్ టెక్నాలజీ అభివృద్ధి చెందుతూనే ఉన్నందున, డెవలపర్లు దృశ్య విశ్వసనీయతను కొనసాగించడంతో పాటు భద్రత, బాధ్యత మరియు నైతిక పరిగణనలకు ప్రాధాన్యత ఇవ్వడం అత్యవసరం. HKU బిజినెస్ స్కూల్ యొక్క మూల్యాంకనం ఈ కొనసాగుతున్న ప్రయత్నానికి విలువైన సహకారాన్ని అందిస్తుంది, AI ఇమేజ్ జనరేషన్ టెక్నాలజీ యొక్క బాధ్యతాయుతమైన అభివృద్ధిని అంచనా వేయడానికి మరియు ప్రోత్సహించడానికి ఒక ఫ్రేమ్వర్క్ను అందిస్తుంది.