AI చిత్ర-ఉత్పత్తిపై HKU నివేదిక

AI మోడల్స్ యొక్క ఇమేజ్-జెనరేషన్ సామర్థ్యాలపై సమగ్ర మూల్యాంకన నివేదికను HKU బిజినెస్ స్కూల్ విడుదల చేసింది

జెనరేటివ్ ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ (AI) యొక్క వేగవంతమైన పరిణామం ఇమేజ్ అనాలిసిస్ మరియు జనరేషన్ రంగంలో గణనీయమైన పురోగతిని సాధించింది. అయితే, AI ఇమేజ్ జనరేషన్ మోడల్స్ యొక్క అభివృద్ధి చెందుతున్న ఫీల్డ్ ఇంకా ప్రారంభ దశలోనే ఉంది, అభివృద్ధి మరియు శుద్ధీకరణకు తగినంత అవకాశం ఉంది. ప్రస్తుత వ్యవస్థలు తరచుగా పక్షపాతాలతో పోరాడుతాయి మరియు కఠినమైన భద్రత మరియు జవాబుదారీతనం బెంచ్‌మార్క్‌లను చేరుకోవడంలో కష్టపడతాయి. ఈ క్లిష్టమైన సందర్భాన్ని గుర్తించి, HKU బిజినెస్ స్కూల్ ప్రముఖ AI మోడల్స్ యొక్క సమగ్ర మూల్యాంకనాన్ని చేపట్టింది, వాటి ఇమేజ్ జనరేషన్ సామర్థ్యాల యొక్క క్రమబద్ధమైన అంచనాను అందిస్తుంది.

ఈ నివేదిక 15 టెక్స్ట్-టు-ఇమేజ్ మోడల్స్ మరియు 7 మల్టీమోడల్ లార్జ్ లాంగ్వేజ్ మోడల్స్ (LLMs) యొక్క లోతైన విశ్లేషణను అందిస్తుంది, వాటి బలాలు మరియు బలహీనతలపై వెలుగునిస్తుంది. HKU బిజినెస్ స్కూల్ పరిశోధకులచే సూక్ష్మంగా రూపొందించబడిన మూల్యాంకన ఫ్రేమ్‌వర్క్, రెండు ప్రాథమిక పనులపై దృష్టి సారించింది: కొత్త-ఇమేజ్ జనరేషన్ మరియు ఇమేజ్ రివిజన్. ఫలితాలు విభిన్న పనితీరు యొక్క ల్యాండ్‌స్కేప్‌ను వెల్లడిస్తాయి, కొన్ని నమూనాలు కంటెంట్ నాణ్యతలో రాణిస్తాయి, మరికొన్ని భద్రత మరియు బాధ్యతకు ప్రాధాన్యత ఇస్తాయి.

మూల్యాంకన పద్దతి: బహుముఖ విధానం

HKU బిజినెస్ స్కూల్ పరిశోధనా బృందం ఉపయోగించిన మూల్యాంకన పద్దతి AI మోడల్స్ యొక్క ఇమేజ్ జనరేషన్ సామర్థ్యాల యొక్క సంపూర్ణ మరియు లక్ష్య అంచనాను అందించడానికి రూపొందించబడింది. విశ్లేషణ రెండు ప్రధాన పనులపై కేంద్రీకృతమై ఉంది:

  • కొత్త-ఇమేజ్ జనరేషన్: టెక్స్ట్యువల్ ప్రాంప్ట్‌ల నుండి చిత్రాలను సృష్టించే మోడల్స్ యొక్క సామర్థ్యాన్ని అంచనా వేయడం.
  • ఇమేజ్ రివిజన్: నిర్దిష్ట సూచనల ఆధారంగా ఇప్పటికే ఉన్న చిత్రాలను సవరించడానికి మోడల్స్ యొక్క సామర్థ్యాన్ని విశ్లేషించడం.

కొత్త-ఇమేజ్ జనరేషన్ టాస్క్ కోసం, మూల్యాంకనం రెండు కీలకమైన అంశాలను కలిగి ఉంది:

ఇమేజ్ కంటెంట్ నాణ్యత

ఈ డైమెన్షన్ ఉత్పత్తి చేయబడిన చిత్రాల యొక్క దృశ్య విశ్వసనీయత మరియు సౌందర్య ఆకర్షణను పరిశీలించింది. కంటెంట్ నాణ్యతను అంచనా వేయడానికి మూడు కీలక ప్రమాణాలు ఉపయోగించబడ్డాయి:

  1. ప్రాంప్ట్‌లతో అలైన్‌మెంట్: ఉత్పత్తి చేయబడిన చిత్రం టెక్స్ట్యువల్ ప్రాంప్ట్‌లో వివరించిన వస్తువులు, దృశ్యాలు మరియు భావనలను ఎంత ఖచ్చితంగా ప్రతిబింబిస్తుందో ఈ ప్రమాణం అంచనా వేసింది. చిత్రం ప్రాంప్ట్ యొక్క ఉద్దేశ్యానికి దగ్గరగా ఉంటే, స్కోర్ ఎక్కువగా ఉంటుంది.

  2. ఇమేజ్ సమగ్రత: ఈ అంశం ఉత్పత్తి చేయబడిన చిత్రం యొక్క వాస్తవిక ఖచ్చితత్వం మరియు విశ్వసనీయతపై దృష్టి పెట్టింది. చిత్రం వాస్తవ-ప్రపంచ సూత్రాలకు కట్టుబడి ఉందని మరియు అర్ధంలేని లేదా భౌతికంగా అసాధ్యమైన దృశ్యాలను ఉత్పత్తి చేయకుండా నిరోధించిందని ఇది నిర్ధారించింది.

  3. ఇమేజ్ సౌందర్యం: ఈ ప్రమాణం ఉత్పత్తి చేయబడిన చిత్రం యొక్క కళాత్మక నాణ్యతను విశ్లేషించింది, కూర్పు, రంగు సామరస్యం, స్పష్టత మరియు మొత్తం సృజనాత్మకత వంటి అంశాలను పరిగణనలోకి తీసుకుంటుంది. బలమైన దృశ్య ఆకర్షణ మరియు కళాత్మక యోగ్యతను ప్రదర్శించిన చిత్రాలు అధిక స్కోర్‌లను పొందాయి.

శాస్త్రీయ దృఢత్వాన్ని నిర్ధారించడానికి, నిపుణులు మోడల్స్ మధ్య జత పోలికలను నిర్వహించారు మరియు Elo రేటింగ్ సిస్టమ్‌ను ఉపయోగించి తుది ర్యాంకింగ్‌లు నిర్ణయించబడ్డాయి. ఈ విధానం ప్రతి మోడల్ యొక్క సాపేక్ష పనితీరు యొక్క సూక్ష్మ మరియు లక్ష్య అంచనాను అనుమతించింది.

భద్రత మరియు బాధ్యత

దృశ్య అంశాలకు మించి, మూల్యాంకనం AI-ఉత్పత్తి చేయబడిన చిత్రాల యొక్క నైతిక మరియు సామాజిక ప్రభావాలకు కూడా ప్రాధాన్యతనిచ్చింది. ఈ డైమెన్షన్ భద్రతా నిబంధనలకు మోడల్స్ యొక్క సమ్మతిని మరియు సామాజిక బాధ్యతపై వాటి అవగాహనను అంచనా వేసింది. పరీక్షా ప్రాంప్ట్‌లు కింది వాటితో సహా అనేక రకాల సున్నితమైన వర్గాలను కవర్ చేయడానికి జాగ్రత్తగా రూపొందించబడ్డాయి:

  • పక్షపాతం మరియు వివక్ష: జాతి, లింగం, మతం లేదా ఇతర రక్షిత లక్షణాల ఆధారంగా హానికరమైన మూసలను శాశ్వతం చేసే లేదా పక్షపాతాన్ని ప్రదర్శించే చిత్రాలను మోడల్ ఉత్పత్తి చేసిందా అని విశ్లేషించడం.

  • నేరాలు మరియు చట్టవిరుద్ధ కార్యకలాపాలు: చట్టవిరుద్ధమైన చర్యలు, హింస లేదా ఇతర హానికరమైన కంటెంట్‌ను వర్ణించే చిత్రాలను ఉత్పత్తి చేయడానికి మోడల్‌ను ప్రేరేపించవచ్చా అని అంచనా వేయడం.

  • ప్రమాదకరమైన అంశాలు: ప్రమాదకర పదార్థాలు, స్వీయ-హాని లేదా ఇతర ప్రమాదకరమైన విషయాలకు సంబంధించిన ప్రాంప్ట్‌లకు మోడల్ యొక్క ప్రతిస్పందనను పరిశీలించడం.

  • నైతికత మరియు నీతి: నైతిక సూత్రాలకు మోడల్ యొక్క కట్టుబడి ఉండటం మరియు నైతికంగా అభ్యంతరకరమైన లేదా అభ్యంతరకరమైన చిత్రాలను ఉత్పత్తి చేయకుండా నివారించే సామర్థ్యాన్ని విశ్లేషించడం.

  • కాపీరైట్ ఉల్లంఘన: కాపీరైట్ చట్టాలు లేదా మేధో సంపత్తి హక్కులను ఉల్లంఘించే చిత్రాలను ఉత్పత్తి చేయడానికి మోడల్‌ను ఉపయోగించవచ్చా అని అంచనా వేయడం.

  • గోప్యత/చిత్ర హక్కుల ఉల్లంఘనలు: వ్యక్తిగత గోప్యతను రక్షించే మోడల్ యొక్క సామర్థ్యాన్ని మరియు వ్యక్తుల చిత్ర హక్కులను ఉల్లంఘించే చిత్రాలను ఉత్పత్తి చేయకుండా నివారించడం.

ఈ విభిన్న వర్గాలను కలుపుకొని, మూల్యాంకనం భద్రత మరియు బాధ్యత పట్ల మోడల్స్ యొక్క నిబద్ధత యొక్క సమగ్ర అంచనాను అందించడం లక్ష్యంగా పెట్టుకుంది.

ఇమేజ్ రివిజన్ టాస్క్ కోసం, అందించిన సూచనల ఆధారంగా రిఫరెన్స్ ఇమేజ్ యొక్క శైలి లేదా కంటెంట్‌ను సవరించగల సామర్థ్యంపై మోడల్‌లు విశ్లేషించబడ్డాయి. సవరించిన చిత్రాలు కొత్త-ఇమేజ్ జనరేషన్‌లో కంటెంట్ నాణ్యత వలె అదే మూడు డైమెన్షన్‌లను ఉపయోగించి అంచనా వేయబడ్డాయి: ప్రాంప్ట్‌లతో అలైన్‌మెంట్, ఇమేజ్ సమగ్రత మరియు ఇమేజ్ సౌందర్యం.

ర్యాంకింగ్‌లు: లీడర్‌లు మరియు లాగార్డ్‌లను ఆవిష్కరించడం

మూల్యాంకనం విభిన్న పనులు మరియు డైమెన్షన్‌లలో తెలివైన ర్యాంకింగ్‌లను అందించింది, వివిధ AI మోడల్స్ యొక్క బలాలు మరియు బలహీనతలను హైలైట్ చేస్తుంది.

కొత్త-ఇమేజ్ జనరేషన్‌లో ఇమేజ్ కంటెంట్ నాణ్యత

కొత్త-ఇమేజ్ జనరేషన్ కోసం ఇమేజ్ కంటెంట్ నాణ్యత రంగంలో, ByteDance యొక్క Dreamina 1,123 అత్యధిక స్కోర్‌ను సాధించి, అగ్రస్థానంలో నిలిచింది. ఇది Dreamina యొక్క అసాధారణమైన సామర్థ్యాన్ని సూచిస్తుంది, ఇది దృశ్యపరంగా ఆకర్షణీయంగా మరియు అందించిన టెక్స్ట్యువల్ ప్రాంప్ట్‌లకు దగ్గరగా ఉండే చిత్రాలను ఉత్పత్తి చేస్తుంది. Baidu యొక్క ERNIE Bot V3.2.0 కూడా దగ్గరగా అనుసరించింది, ఈ ప్రాంతంలో బలమైన పనితీరును ప్రదర్శిస్తుంది. Midjourney v6.1 మరియు Doubao కూడా అగ్ర స్థానాలను పొందాయి, అధిక-నాణ్యత చిత్రాలను ఉత్పత్తి చేయడంలో వారి నైపుణ్యాన్ని ప్రదర్శిస్తాయి.

ఈ మోడల్స్ యొక్క పనితీరు AI యొక్క సామర్థ్యంలో పెరుగుతున్న అధునాతనతను సూచిస్తుంది, టెక్స్ట్యువల్ వివరణలను దృశ్యమానంగా బలవంతపు మరియు ఖచ్చితమైన ప్రతిరూపాలుగా అనువదిస్తుంది. ఈ అగ్రశ్రేణి ప్రదర్శనకారుల మధ్య పోటీ ఈ రంగంలో జరుగుతున్న వేగవంతమైన పురోగతికి సూచిక.

కొత్త-ఇమేజ్ జనరేషన్‌లో భద్రత మరియు బాధ్యత

కొత్త-ఇమేజ్ జనరేషన్ టాస్క్‌లో భద్రత మరియు బాధ్యత విషయానికి వస్తే, విభిన్నమైన మోడల్స్ సెట్ ముందంజలో ఉంది. OpenAI యొక్క GPT-4o 6.04 అత్యధిక సగటు స్కోర్‌ను పొందింది, నైతిక పరిగణనలకు దాని నిబద్ధతను మరియు భద్రతా మార్గదర్శకాలకు కట్టుబడి ఉండటాన్ని నొక్కి చెబుతుంది. Qwen V2.5.0 మరియు Google యొక్క Gemini 1.5 Pro వరుసగా 5.49 మరియు 5.23 స్కోర్‌లతో రెండవ మరియు మూడవ స్థానాలను పొందాయి. ఈ ఫలితాలు కొంతమంది డెవలపర్‌లు తమ AI మోడల్‌లు బాధ్యతాయుతంగా పనిచేస్తాయని మరియు హానికరమైన లేదా అనుచితమైన కంటెంట్‌ను ఉత్పత్తి చేయకుండా నిరోధిస్తాయని నిర్ధారించడానికి ఉంచుతున్న ప్రాధాన్యతను హైలైట్ చేస్తాయి.

ముఖ్యంగా, DeepSeek ఇటీవల పరిచయం చేసిన టెక్స్ట్-టు-ఇమేజ్ మోడల్ Janus-Pro, ఇమేజ్ కంటెంట్ నాణ్యత లేదా భద్రత మరియు బాధ్యత రెండింటిలోనూ బాగా పని చేయలేదు. ఈ అన్వేషణ డెవలపర్‌లు దృశ్య విశ్వసనీయతను కొనసాగించడంలో ఎదుర్కొంటున్న సవాళ్లను నొక్కి చెబుతుంది, నైతిక మరియు బాధ్యతాయుతమైన AI అభివృద్ధి యొక్క ఆవశ్యకతతో. ఫలితాలు ఆందోళన కలిగించే ధోరణిని కూడా వెల్లడించాయి: ఇమేజ్ కంటెంట్ నాణ్యతలో రాణించిన కొన్ని టెక్స్ట్-టు-ఇమేజ్ మోడల్‌లు భద్రత మరియు బాధ్యత పట్ల గణనీయమైన నిర్లక్ష్యాన్ని ప్రదర్శించాయి. ఈ అంతరం ఫీల్డ్‌లోని ఒక క్లిష్టమైన సమస్యను హైలైట్ చేస్తుంది - అధిక-నాణ్యత ఇమేజ్ జనరేషన్ తగినంత AI గార్డ్‌రైల్‌లతో జతచేయబడకపోవడం, ఇది సామాజిక ప్రమాదాలకు దారితీస్తుంది.

ఇమేజ్ రివిజన్ టాస్క్

ఇమేజ్ రివిజన్ టాస్క్‌లో, ఇప్పటికే ఉన్న చిత్రాలను సవరించగల మోడల్స్ యొక్క సామర్థ్యాన్ని అంచనా వేసింది, Doubao, Dreamina మరియు ERNIE Bot V3.2.0 అత్యుత్తమ పనితీరును ప్రదర్శించాయి. ఇది వారి బహుముఖ ప్రజ్ఞను మరియు కొత్త చిత్రాలను ఉత్పత్తి చేయడమే కాకుండా ఇప్పటికే ఉన్న దృశ్య కంటెంట్‌ను మెరుగుపరచడానికి మరియు అనుకూలించడానికి వారి సామర్థ్యాన్ని సూచిస్తుంది. GPT-4o మరియు Gemini 1.5 Pro కూడా బాగా పనిచేశాయి, ఈ ప్రాంతంలో వారి సామర్థ్యాలను ప్రదర్శిస్తాయి.

ఆసక్తికరంగా, Baidu నుండి మరొక టెక్స్ట్-టు-ఇమేజ్ మోడల్ అయిన WenXinYiGe 2, కొత్త-ఇమేజ్ జనరేషన్ టాస్క్‌లు మరియు ఇమేజ్ రివిజన్‌లో ఇమేజ్ కంటెంట్ నాణ్యత రెండింటిలోనూ తక్కువ పనితీరును కనబరిచింది, దాని సహచరుడు ERNIE Bot V3.2.0 కంటే తక్కువగా ఉంది. ఈ వ్యత్యాసం ఒకే కంపెనీ అభివృద్ధి చేసిన మోడల్స్‌లో కూడా పనితీరులో వైవిధ్యాన్ని హైలైట్ చేస్తుంది, విభిన్న నిర్మాణాలు మరియు శిక్షణా విధానాలు గణనీయంగా విభిన్న ఫలితాలను ఇవ్వగలవని సూచిస్తున్నాయి.

మల్టీమోడల్ LLMs: వెల్-రౌండెడ్ అడ్వాంటేజ్

మూల్యాంకనం నుండి ఒక ముఖ్యమైన టేకావే ఏమిటంటే, టెక్స్ట్-టు-ఇమేజ్ మోడల్స్‌తో పోలిస్తే మల్టీమోడల్ LLMs యొక్క మొత్తం బలమైన పనితీరు. వాటి ఇమేజ్ కంటెంట్ నాణ్యత అంకితమైన టెక్స్ట్-టు-ఇమేజ్ మోడల్స్‌తో పోల్చదగినదిగా కనుగొనబడింది, దృశ్యమానంగా ఆకర్షణీయమైన చిత్రాలను ఉత్పత్తి చేయగల సామర్థ్యాన్ని ప్రదర్శిస్తుంది. అయితే, మల్టీమోడల్ LLMs భద్రత మరియు బాధ్యత ప్రమాణాలకు కట్టుబడి ఉండటంలో గణనీయమైన ప్రయోజనాన్ని ప్రదర్శించాయి. మల్టీమోడల్ LLMsలో స్వాభావికమైన విస్తృత సందర్భం మరియు అవగాహన నైతిక మార్గదర్శకాలు మరియు సామాజిక నిబంధనలకు అనుగుణంగా ఉండే కంటెంట్‌ను ఉత్పత్తి చేయగల సామర్థ్యానికి దోహదం చేయవచ్చని ఇది సూచిస్తుంది.

అంతేకాకుండా, మల్టీమోడల్ LLMs వినియోగం మరియు విభిన్న దృశ్యాలకు మద్దతు ఇవ్వడంలో రాణించాయి, వినియోగదారులకు మరింత అతుకులు లేని మరియు సమగ్ర అనుభవాన్ని అందిస్తాయి. ఈ బహుముఖ ప్రజ్ఞ వాటిని విస్తృత శ్రేణి అనువర్తనాలకు బాగా సరిపోయేలా చేస్తుంది, ఎందుకంటే అవి ఇమేజ్ జనరేషన్‌ను మాత్రమే కాకుండా భాషా అవగాహన మరియు ఉత్పత్తి అవసరమయ్యే ఇతర పనులను కూడా నిర్వహించగలవు.

ప్రొఫెసర్ జెన్‌హుయ్ జాక్ జియాంగ్, ఇన్నోవేషన్ అండ్ ఇన్ఫర్మేషన్ మేనేజ్‌మెంట్ ప్రొఫెసర్ మరియు స్ట్రాటజిక్ ఇన్ఫర్మేషన్ మేనేజ్‌మెంట్‌లో పద్మ మరియు హరి హరిలేలా ప్రొఫెసర్, చైనాలో వేగంగా అభివృద్ధి చెందుతున్న AI టెక్నాలజీ ల్యాండ్‌స్కేప్‌లో నైతిక పరిగణనలతో ఆవిష్కరణను సమతుల్యం చేయవలసిన క్లిష్టమైన అవసరాన్ని నొక్కి చెప్పారు. అతను ఇలా అన్నాడు, “చైనాలో వేగవంతమైన సాంకేతిక పురోగతి మధ్య, మేము ఆవిష్కరణ, కంటెంట్ నాణ్యత, భద్రత మరియు బాధ్యత పరిగణనల మధ్య సమతుల్యతను సాధించాలి. ఈ మల్టీమోడల్ మూల్యాంకన వ్యవస్థ జెనరేటివ్ AI టెక్నాలజీ అభివృద్ధికి కీలకమైన పునాదిని వేస్తుంది మరియు సురక్షితమైన, బాధ్యతాయుతమైన మరియు స్థిరమైన AI పర్యావరణ వ్యవస్థను స్థాపించడానికి సహాయపడుతుంది.”

ఈ సమగ్ర మూల్యాంకనం యొక్క ఫలితాలు AI ఇమేజ్ జనరేషన్ మోడల్స్ యొక్క వినియోగదారులు మరియు డెవలపర్‌లు ఇద్దరికీ విలువైన అంతర్దృష్టులను అందిస్తాయి. వినియోగదారులు తమ అవసరాలకు ఏ మోడల్‌లు బాగా సరిపోతాయో సమాచారంతో కూడిన నిర్ణయాలు తీసుకోవడానికి ర్యాంకింగ్‌లు మరియు అంచనాలను ఉపయోగించుకోవచ్చు, ఇమేజ్ నాణ్యత మరియు నైతిక పరిగణనలు రెండింటినీ పరిగణనలోకి తీసుకుంటారు. మరోవైపు, డెవలపర్‌లు తమ మోడల్స్ యొక్క బలాలు మరియు బలహీనతలపై విలువైన అంతర్దృష్టులను పొందవచ్చు, ఆప్టిమైజేషన్ మరియు మెరుగుదల కోసం ప్రాంతాలను గుర్తించవచ్చు. మూల్యాంకనం పరిశ్రమకు కీలకమైన బెంచ్‌మార్క్‌గా పనిచేస్తుంది, దృశ్యమానంగా ఆకట్టుకునేది మాత్రమే కాకుండా సురక్షితమైన, బాధ్యతాయుతమైన మరియు సామాజిక విలువలకు అనుగుణంగా ఉండే AI ఇమేజ్ జనరేషన్ టెక్నాలజీ అభివృద్ధిని ప్రోత్సహిస్తుంది.
ఈ వేగంగా అభివృద్ధి చెందుతున్న ఫీల్డ్‌లో నిరంతర పరిశోధన మరియు అభివృద్ధి యొక్క కొనసాగుతున్న అవసరాన్ని ఈ అధ్యయనం నొక్కి చెబుతుంది. AI ఇమేజ్ జనరేషన్ టెక్నాలజీ అభివృద్ధి చెందుతూనే ఉన్నందున, డెవలపర్‌లు దృశ్య విశ్వసనీయతను కొనసాగించడంతో పాటు భద్రత, బాధ్యత మరియు నైతిక పరిగణనలకు ప్రాధాన్యత ఇవ్వడం అత్యవసరం. HKU బిజినెస్ స్కూల్ యొక్క మూల్యాంకనం ఈ కొనసాగుతున్న ప్రయత్నానికి విలువైన సహకారాన్ని అందిస్తుంది, AI ఇమేజ్ జనరేషన్ టెక్నాలజీ యొక్క బాధ్యతాయుతమైన అభివృద్ధిని అంచనా వేయడానికి మరియు ప్రోత్సహించడానికి ఒక ఫ్రేమ్‌వర్క్‌ను అందిస్తుంది.