AI వీడియోలకు ఎందుకు అర్ధంకాదు?

చైనీస్ జెనరేటివ్ వీడియో మోడల్స్ పెరుగుదల

Tencent యొక్క Hunyuan వీడియో ఇప్పటికే అభిరుచి గల AI కమ్యూనిటీలో గణనీయమైన తరంగాలను సృష్టించింది. దీని ఓపెన్-సోర్స్ విడుదల పూర్తి-ప్రపంచ వీడియో డిఫ్యూజన్ మోడల్ వినియోగదారులను వారి నిర్దిష్ట అవసరాలకు అనుగుణంగా సాంకేతికతను రూపొందించడానికి అనుమతిస్తుంది.

దగ్గరగా అనుసరిస్తే, మరింత ఇటీవల విడుదలైన Alibaba యొక్క Wan 2.1. ఈ మోడల్ ప్రస్తుతం అందుబాటులో ఉన్న అత్యంత శక్తివంతమైన ఇమేజ్-టు-వీడియో Free and Open Source Software (FOSS) పరిష్కారాలలో ఒకటిగా నిలుస్తుంది మరియు ఇది ఇప్పుడు Wan LoRAs ద్వారా అనుకూలీకరణకు మద్దతు ఇస్తుంది.

ఈ పరిణామాలతో పాటు, మేము Alibaba యొక్క సమగ్ర VACE వీడియో సృష్టి మరియు ఎడిటింగ్ సూట్ విడుదల కోసం కూడా ఎదురుచూస్తున్నాము, ఇటీవలి మానవ-కేంద్రీకృత ఫౌండేషన్ మోడల్, SkyReels లభ్యతతో పాటు.

జెనరేటివ్ వీడియో AI పరిశోధన దృశ్యం సమానంగా పేలుడుగా ఉంది. ఇది ఇంకా మార్చి ప్రారంభంలో ఉంది, అయినప్పటికీ Arxiv యొక్క కంప్యూటర్ విజన్ విభాగానికి మంగళవారం సమర్పణలు (జెనరేటివ్ AI పేపర్ల కోసం ఒక కీలక కేంద్రం) దాదాపు 350 ఎంట్రీలను కలిగి ఉన్నాయి - ఇది సాధారణంగా కాన్ఫరెన్స్ సీజన్ గరిష్ట స్థాయికి చేరుకున్నప్పుడు కనిపించే సంఖ్య.

2022 వేసవిలో Stable Diffusion ప్రారంభించినప్పటి నుండి రెండు సంవత్సరాలు (మరియు తదనంతరం Dreambooth మరియు LoRA అనుకూలీకరణ పద్ధతుల అభివృద్ధి) ప్రధాన పురోగతులు సాపేక్షంగా లేకపోవడం ద్వారా వర్గీకరించబడ్డాయి. అయినప్పటికీ, గత కొన్ని వారాలు కొత్త విడుదలలు మరియు ఆవిష్కరణల ఉప్పెనను చూశాయి, ఇంత వేగంగా వస్తున్నాయి, పూర్తిగా సమాచారం ఇవ్వడం దాదాపు అసాధ్యం, ప్రతిదీ సమగ్రంగా కవర్ చేయనివ్వండి.

తాత్కాలిక స్థిరత్వాన్ని పరిష్కరించడం, కానీ కొత్త సవాళ్లు ఉద్భవించాయి

Hunyuan మరియు Wan 2.1 వంటి వీడియో డిఫ్యూజన్ మోడల్‌లు ఎట్టకేలకు తాత్కాలిక స్థిరత్వం యొక్క సమస్యను పరిష్కరించాయి. వందలాది పరిశోధనా కార్యక్రమాల నుండి సంవత్సరాల తరబడి విఫల ప్రయత్నాల తర్వాత, ఈ నమూనాలు కాలక్రమేణా స్థిరమైన మానవులు, పరిసరాలు మరియు వస్తువులను ఉత్పత్తి చేయడానికి సంబంధించిన సవాళ్లను చాలా వరకు పరిష్కరించాయి.

VFX స్టూడియోలు ఈ కొత్త చైనీస్ వీడియో మోడల్‌లను స్వీకరించడానికి సిబ్బందిని మరియు వనరులను చురుకుగా అంకితం చేస్తున్నాయనడంలో సందేహం లేదు. ఈ సిస్టమ్‌ల కోసం ControlNet-శైలి అనుబంధ మెకానిజమ్‌లు ప్రస్తుతం లేనప్పటికీ, ముఖం మార్పిడి వంటి ఒత్తిడితో కూడిన సవాళ్లను పరిష్కరించడం వారి తక్షణ లక్ష్యం.

ఊహించిన ఛానెల్‌ల ద్వారా కాకపోయినా, ఇంత ముఖ్యమైన అడ్డంకిని అధిగమించడం చాలా ఉపశమనం కలిగించి ఉండాలి.

అయితే, మిగిలిన సమస్యలలో, ఒకటి ప్రత్యేకంగా ముఖ్యమైనదిగా నిలుస్తుంది:

ప్రస్తుతం అందుబాటులో ఉన్న అన్ని టెక్స్ట్-టు-వీడియో మరియు ఇమేజ్-టు-వీడియో సిస్టమ్‌లు, వాణిజ్య క్లోజ్డ్-సోర్స్ మోడల్‌లతో సహా, భౌతిక-ధిక్కరించే తప్పిదాలను ఉత్పత్తి చేసే ధోరణిని కలిగి ఉన్నాయి. పై ఉదాహరణ ఎత్తుపైకి దొర్లుతున్న రాయిని చూపుతుంది, ఇది ప్రాంప్ట్ నుండి రూపొందించబడింది: ‘ఒక చిన్న రాయి నిటారుగా, రాతి కొండపైకి దొర్లుతుంది, మట్టిని మరియు చిన్న రాళ్లను స్థానభ్రంశం చేస్తుంది’.

AI వీడియోలు భౌతిక శాస్త్రాన్ని ఎందుకు తప్పుగా పొందుతాయి?

Alibaba మరియు UAE మధ్య ఇటీవల ప్రతిపాదించబడిన ఒక విద్యా సహకారంలో, మోడల్‌లు తాత్కాలిక క్రమంపై వారి అవగాహనకు ఆటంకం కలిగించే విధంగా నేర్చుకోవచ్చని సూచిస్తుంది. వీడియోలపై శిక్షణ ఇస్తున్నప్పుడు కూడా (ఇవి శిక్షణ కోసం సింగిల్-ఫ్రేమ్ సీక్వెన్స్‌లుగా విభజించబడ్డాయి), మోడల్‌లు “ముందు” మరియు “తర్వాత” చిత్రాల సరైన క్రమాన్ని అంతర్గతంగా గ్రహించకపోవచ్చు.

అయితే, అత్యంత ఆమోదయోగ్యమైన వివరణ ఏమిటంటే, ప్రశ్నలోని నమూనాలు డేటా వృద్ధి నిత్యకృత్యాలను ఉపయోగించాయి. ఈ నిత్యకృత్యాలు మోడల్‌ను ఫార్వర్డ్‌లు మరియు వెనుకబడిన మూల శిక్షణ క్లిప్‌కు బహిర్గతం చేయడాన్ని కలిగి ఉంటాయి, శిక్షణ డేటాను సమర్థవంతంగా రెట్టింపు చేస్తాయి.

దీనిని విచక్షణారహితంగా చేయకూడదని కొంతకాలంగా తెలుసు. కొన్ని కదలికలు రివర్స్‌లో పనిచేస్తుండగా, చాలా వరకు పనిచేయవు. UK యొక్క బ్రిస్టల్ విశ్వవిద్యాలయం నుండి 2019 అధ్యయనం ఒకే డేటాసెట్‌లోని సమానమైన, ఇన్వేరియంట్ మరియు తిరిగి మార్చలేని సోర్స్ డేటా వీడియో క్లిప్‌ల మధ్య తేడాను గుర్తించే పద్ధతిని అభివృద్ధి చేయడం లక్ష్యంగా పెట్టుకుంది. డేటా వృద్ధి నిత్యకృత్యాల నుండి తగని క్లిప్‌లను ఫిల్టర్ చేయడం లక్ష్యం.

ఆ పని యొక్క రచయితలు సమస్యను స్పష్టంగా వ్యక్తీకరించారు:

‘రివర్స్డ్ వీడియోల వాస్తవికత రివర్సల్ కళాఖండాలచే ద్రోహం చేయబడిందని మేము కనుగొన్నాము, సహజ ప్రపంచంలో సాధ్యం కాని దృశ్యం యొక్క అంశాలు. కొన్ని కళాఖండాలు సూక్ష్మంగా ఉంటాయి, మరికొన్ని గుర్తించడం సులభం, రివర్స్డ్ ‘త్రో’ చర్య వంటివి, ఇక్కడ విసిరిన వస్తువు ఆకస్మికంగా నేల నుండి పైకి లేస్తుంది.

‘మేము రెండు రకాల రివర్సల్ కళాఖండాలను గమనిస్తాము, భౌతికమైనవి, ప్రకృతి నియమాల ఉల్లంఘనలను ప్రదర్శిస్తాయి మరియు అసంభవమైనవి, సాధ్యమయ్యే కానీ అసంభవమైన దృష్టాంతాన్ని వర్ణిస్తాయి. ఇవి ప్రత్యేకమైనవి కావు, మరియు అనేక రివర్స్డ్ చర్యలు కాగితం ముక్కను విడదీయడం వంటి రెండు రకాల కళాఖండాలతో బాధపడతాయి.

‘భౌతిక కళాఖండాల ఉదాహరణలు: విలోమ గురుత్వాకర్షణ (ఉదా. ‘ఏదైనా పడేయడం’), వస్తువులపై ఆకస్మిక ప్రేరణలు (ఉదా. ‘పెన్ను తిప్పడం’) మరియు తిరిగి మార్చలేని స్థితి మార్పులు (ఉదా. ‘కొవ్వొత్తిని కాల్చడం’). అసంభవమైన కళాఖండానికి ఉదాహరణ: అల్మారా నుండి ఒక ప్లేట్ తీసుకొని, దానిని ఆరబెట్టడం మరియు ఆరబెట్టే రాక్‌పై ఉంచడం.

‘ఈ రకమైన డేటా పునర్వినియోగం శిక్షణ సమయంలో చాలా సాధారణం మరియు ప్రయోజనకరంగా ఉంటుంది - ఉదాహరణకు, మోడల్ దాని కేంద్ర సమన్వయం మరియు తర్కాన్ని కోల్పోకుండా తిప్పగలిగే లేదా తిప్పగలిగే చిత్రం లేదా వస్తువు యొక్క ఒక వీక్షణను మాత్రమే నేర్చుకోకుండా చూసుకోవడంలో.

‘ఇది నిజంగా సుష్టంగా ఉండే వస్తువులకు మాత్రమే పనిచేస్తుంది; మరియు ‘రివర్స్డ్’ వీడియో నుండి భౌతిక శాస్త్రాన్ని నేర్చుకోవడం రివర్స్డ్ వెర్షన్ ఫార్వర్డ్ వెర్షన్ వలె అర్ధవంతంగా ఉంటే మాత్రమే పనిచేస్తుంది.’

Hunyuan వీడియో మరియు Wan 2.1 వంటి సిస్టమ్‌లు శిక్షణ సమయంలో ఏకపక్ష “రివర్స్డ్” క్లిప్‌లను అనుమతించాయని మాకు ఖచ్చితమైన సాక్ష్యం లేదు (ఏ పరిశోధనా బృందం వారి డేటా వృద్ధి నిత్యకృత్యాల గురించి నిర్దిష్టంగా లేదు).

అయితే, అనేక నివేదికలను (మరియు నా స్వంత ఆచరణాత్మక అనుభవం) పరిగణనలోకి తీసుకుంటే, ఈ నమూనాలకు శక్తినిచ్చే హైపర్‌స్కేల్ డేటాసెట్‌లు నిజంగా రివర్స్‌లో సంభవించే కదలికలను కలిగి ఉన్న క్లిప్‌లను కలిగి ఉండవచ్చనేది ఏకైక సహేతుకమైన వివరణ.

ముందు పొందుపరిచిన ఉదాహరణ వీడియోలోని రాయి Wan 2.1ని ఉపయోగించి రూపొందించబడింది. వీడియో డిఫ్యూజన్ మోడల్‌లు భౌతిక శాస్త్రాన్ని ఎంత బాగా నిర్వహిస్తాయో పరిశోధించే కొత్త అధ్యయనంలో ఇది ఫీచర్ చేయబడింది.

ఈ ప్రాజెక్ట్ కోసం పరీక్షలలో, Wan 2.1 భౌతిక నియమాలకు స్థిరంగా కట్టుబడి ఉండే సామర్థ్యంలో కేవలం 22% స్కోరును సాధించింది.

ఆశ్చర్యకరంగా, పరీక్షించిన అన్ని సిస్టమ్‌లలో ఇది ఉత్తమ స్కోర్, ఇది వీడియో AI కోసం తదుపరి ప్రధాన అడ్డంకిని మేము గుర్తించి ఉండవచ్చని సూచిస్తుంది:

VideoPhy-2ని పరిచయం చేస్తున్నాము: భౌతిక కామన్సెన్స్ కోసం ఒక కొత్త బెంచ్‌మార్క్

కొత్త పని యొక్క రచయితలు VideoPhy అనే బెంచ్‌మార్కింగ్ సిస్టమ్‌ను అభివృద్ధి చేశారు, ఇప్పుడు దాని రెండవ పునరావృతంలో ఉంది. కోడ్ GitHubలో అందుబాటులో ఉంది.

పని యొక్క పరిధి ఇక్కడ సమగ్రంగా కవర్ చేయడానికి చాలా విస్తృతంగా ఉన్నప్పటికీ, దాని పద్దతిని మరియు భవిష్యత్ మోడల్-శిక్షణ సెషన్‌లను రివర్సల్ యొక్క ఈ వింత సందర్భాల నుండి దూరంగా నడిపించగల మెట్రిక్‌ను స్థాపించే దాని సామర్థ్యాన్ని పరిశీలిద్దాం.

UCLA మరియు Google రీసెర్చ్ నుండి ఆరుగురు పరిశోధకులు నిర్వహించిన ఈ అధ్యయనం, VideoPhy-2: వీడియో జనరేషన్‌లో సవాలుతో కూడిన యాక్షన్-సెంట్రిక్ ఫిజికల్ కామన్సెన్స్ ఎవాల్యుయేషన్. సమగ్రమైన ప్రాజెక్ట్ సైట్ కూడా అందుబాటులో ఉంది, GitHubలో కోడ్ మరియు డేటాసెట్‌లతో పాటు, మరియు Hugging Faceలో డేటాసెట్ వీక్షకుడు.

రచయితలు తాజా వెర్షన్, VideoPhy-2ని “వాస్తవ-ప్రపంచ చర్యల కోసం సవాలుతో కూడిన కామన్సెన్స్ ఎవాల్యుయేషన్ డేటాసెట్”గా వర్ణించారు. ఈ సేకరణ హులా-హూపింగ్, జిమ్నాస్టిక్స్ మరియు టెన్నిస్ వంటి విభిన్న భౌతిక కార్యకలాపాల పరిధిలో 197 చర్యలను కలిగి ఉంది, అలాగే ఒక వస్తువు విరిగే వరకు వంచడం వంటి వస్తువు పరస్పర చర్యలు.

ఈ విత్తన చర్యల నుండి 3840 ప్రాంప్ట్‌లను రూపొందించడానికి ఒక పెద్ద భాషా నమూనా (LLM) ఉపయోగించబడుతుంది. ఈ ప్రాంప్ట్‌లు పరీక్షించబడుతున్న వివిధ ఫ్రేమ్‌వర్క్‌లను ఉపయోగించి వీడియోలను సంశ్లేషణ చేయడానికి ఉపయోగించబడతాయి.

ప్రక్రియ అంతటా, రచయితలు AI-ఉత్పత్తి చేసిన వీడియోలు కట్టుబడి ఉండవలసిన “అభ్యర్థి” భౌతిక నియమాలు మరియు చట్టాల జాబితాను సంకలనం చేశారు, మూల్యాంకనం కోసం విజన్-లాంగ్వేజ్ మోడల్‌లను ఉపయోగించారు.

రచయితలు ఇలా పేర్కొన్నారు:

‘ఉదాహరణకు, టెన్నిస్ ఆడుతున్న క్రీడాకారుడి వీడియోలో, భౌతిక నియమం ఏమిటంటే, టెన్నిస్ బంతి గురుత్వాకర్షణ కింద పారాబొలిక్ పథాన్ని అనుసరించాలి. గోల్డ్-స్టాండర్డ్ తీర్పుల కోసం, మేము మానవ ఉల్లేఖకులను ప్రతి వీడియోను మొత్తం అర్థ సంశ్లేషణ మరియు భౌతిక కామన్సెన్స్ ఆధారంగా స్కోర్ చేయమని మరియు వివిధ భౌతిక నియమాలతో దాని సమ్మతిని గుర్తించమని అడుగుతాము.’

చర్యలను క్యూరేట్ చేయడం మరియు ప్రాంప్ట్‌లను రూపొందించడం

ప్రారంభంలో, పరిశోధకులు AI-ఉత్పత్తి చేసిన వీడియోలలో భౌతిక కామన్సెన్స్‌ను అంచనా వేయడానికి చర్యల సమితిని క్యూరేట్ చేశారు. వారు కైనటిక్స్, UCF-101 మరియు SSv2 డేటాసెట్‌ల నుండి 600 కంటే ఎక్కువ చర్యలతో ప్రారంభించారు, క్రీడలు, వస్తువు పరస్పర చర్యలు మరియు వాస్తవ-ప్రపంచ భౌతిక శాస్త్రాన్ని కలిగి ఉన్న కార్యకలాపాలపై దృష్టి సారించారు.

STEM-శిక్షణ పొందిన విద్యార్థి ఉల్లేఖకుల రెండు స్వతంత్ర సమూహాలు (కనీస అండర్గ్రాడ్యుయేట్ అర్హతతో) జాబితాను సమీక్షించి, ఫిల్టర్ చేశారు. వారు గురుత్వాకర్షణ, ఊపు మరియు స్థితిస్థాపకత వంటి సూత్రాలను పరీక్షించే చర్యలను ఎంచుకున్నారు, టైపింగ్, పిల్లిని పెంపుడు జంతువుగా చేసుకోవడం లేదా నమలడం వంటి తక్కువ-కదలిక పనులను తీసివేసారు.

నకిలీలను తొలగించడానికి Gemini-2.0-Flash-Expతో మరింత శుద్ధీకరణ తర్వాత, తుది డేటాసెట్‌లో 197 చర్యలు ఉన్నాయి. 54 వస్తువు పరస్పర చర్యలను కలిగి ఉన్నాయి మరియు 143 భౌతిక మరియు క్రీడా కార్యకలాపాలపై కేంద్రీకృతమై ఉన్నాయి:

రెండవ దశలో, పరిశోధకులు డేటాసెట్‌లోని ప్రతి చర్యకు 20 ప్రాంప్ట్‌లను రూపొందించడానికి Gemini-2.0-Flash-Expని ఉపయోగించారు, ఫలితంగా మొత్తం 3,940 ప్రాంప్ట్‌లు వచ్చాయి. ఉత్పత్తి ప్రక్రియ ఉత్పత్తి చేయబడిన వీడియోలో స్పష్టంగా సూచించబడే కనిపించే భౌతిక పరస్పర చర్యలపై దృష్టి సారించింది. ఇది భావోద్వేగాలు, ఇంద్రియ వివరాలు మరియు వియుక్త భాష వంటి దృశ్యమాన అంశాలను మినహాయించింది, కానీ విభిన్న పాత్రలు మరియు వస్తువులను పొందుపరిచింది.

ఉదాహరణకు, ‘విలుకాడు బాణం వేస్తాడు’ వంటి సరళమైన ప్రాంప్ట్‌కు బదులుగా, ‘విలుకాడు విల్లును పూర్తి ఉద్రిక్తతకు వెనుకకు లాగి, ఆపై బాణాన్ని విడుదల చేస్తాడు, అది నేరుగా ఎగురుతుంది మరియు కాగితపు లక్ష్యంపై బుల్‌సేను తాకుతుంది’ వంటి మరింత వివరణాత్మక సంస్కరణను ఉత్పత్తి చేయడానికి మోడల్ మార్గనిర్దేశం చేయబడింది.

ఆధునిక వీడియో మోడల్‌లు సుదీర్ఘ వివరణలను అర్థం చేసుకోగలవు కాబట్టి, పరిశోధకులు మిస్ట్రల్-నెమో-12B-ఇన్‌స్ట్రక్ట్ ప్రాంప్ట్ అప్‌సాంప్లర్‌ను ఉపయోగించి శీర్షికలను మరింత మెరుగుపరిచారు. ఇది అసలు అర్థాన్ని మార్చకుండా దృశ్య వివరాలను జోడించింది.

భౌతిక నియమాలను పొందడం మరియు సవాలు చేసే చర్యలను గుర్తించడం

మూడవ దశ కోసం, భౌతిక నియమాలు టెక్స్ట్ ప్రాంప్ట్‌ల నుండి కాకుండా ఉత్పత్తి చేయబడిన వీడియోల నుండి తీసుకోబడ్డాయి. ఎందుకంటే జెనరేటివ్ మోడల్‌లు కండిషన్డ్ టెక్స్ట్ ప్రాంప్ట్‌లకు కట్టుబడి ఉండటానికి కష్టపడతాయి.

వీడియోలు మొదట VideoPhy-2 ప్రాంప్ట్‌లను ఉపయోగించి సృష్టించబడ్డాయి, ఆపై కీలక వివరాలను సంగ్రహించడానికి Gemini-2.0-Flash-Expతో “అప్-క్యాప్షన్” చేయబడ్డాయి. మోడల్ ప్రతి వీడియోకు మూడు ఆశించిన భౌతిక నియమాలను ప్రతిపాదించింది. మానవ ఉల్లేఖకులు అదనపు సంభావ్య ఉల్లంఘనలను గుర్తించడం ద్వారా వీటిని సమీక్షించి, విస్తరించారు.

తరువాత, అత్యంత సవాలుతో కూడిన చర్యలను గుర్తించడానికి, పరిశోధకులు VideoPhy-2 డేటాసెట్ నుండి ప్రాంప్ట్‌లతో CogVideoX-5Bని ఉపయోగించి వీడియోలను రూపొందించారు. వారు ప్రాంప్ట్‌లు మరియు ప్రాథమిక భౌతిక కామన్సెన్స్ రెండింటినీ అనుసరించడంలో మోడల్ స్థిరంగా విఫలమైన 197 చర్యలలో 60ని ఎంచుకున్నారు.

ఈ చర్యలు డిస్కస్ త్రోయింగ్‌లో మొమెంటం బదిలీ, ఒక వస్తువు విరిగే వరకు వంచడం వంటి స్థితి మార్పులు, టైట్‌రోప్ వాకింగ్ వంటి బ్యాలెన్సింగ్ టాస్క్‌లు మరియు బ్యాక్-ఫ్లిప్‌లు, పోల్ వాల్టింగ్ మరియు పిజ్జా టాసింగ్ వంటి సంక్లిష్ట కదలికలను కలిగి ఉన్న భౌతిక-సమృద్ధ పరస్పర చర్యలను కలిగి ఉన్నాయి. ఉప-డేటాసెట్ యొక్క కష్టాన్ని పెంచడానికి మొత్తం 1,200 ప్రాంప్ట్‌లు ఎంచుకోబడ్డాయి.

VideoPhy-2 డేటాసెట్: సమగ్ర మూల్యాంకన వనరు

ఫలితంగా వచ్చిన డేటాసెట్‌లో 3,940 శీర్షికలు ఉన్నాయి - మునుపటి వెర్షన్ VideoPhy కంటే 5.72 రెట్లు ఎక్కువ. అసలు శీర్షికల సగటు పొడవు 16 టోకెన్‌లు, అప్‌సాంప్ల్ చేసిన శీర్షికలు వరుసగా 138 టోకెన్‌లను చేరుకుంటాయి - 1.88 రెట్లు మరియు 16.2 రెట్లు ఎక్కువ.

ఈ డేటాసెట్ బహుళ వీడియో ఉత్పత్తి నమూనాలలో అర్థ సంశ్లేషణ, భౌతిక కామన్సెన్స్ మరియు నియమ ఉల్లంఘనలను కవర్ చేసే 102,000 మానవ ఉల్లేఖనలను కూడా కలిగి ఉంది.

మూల్యాంకన ప్రమాణాలను నిర్వచించడం మరియు మానవ ఉల్లేఖనాలు

పరిశోధకులు అప్పుడు వీడియోలను అంచనా వేయడానికి స్పష్టమైన ప్రమాణాలను నిర్వచించారు. ప్రతి వీడియో దాని ఇన్‌పుట్ ప్రాంప్ట్‌తో ఎంత బాగా సరిపోతుందో మరియు ప్రాథమిక భౌతిక సూత్రాలను అనుసరించిందో అంచనా వేయడం ప్రధాన లక్ష్యం.

వీడియోలను కేవలం ప్రాధాన్యత ద్వారా ర్యాంక్ చేయడానికి బదులుగా, వారు నిర్దిష్ట విజయాలు మరియు వైఫల్యాలను సంగ్రహించడానికి రేటింగ్-ఆధారిత ఫీడ్‌బ్యాక్‌ను ఉపయోగించారు. మానవ ఉల్లేఖకులు వీడియోలను ఐదు-పాయింట్ల స్కేల్‌లో స్కోర్ చేశారు, మరింత వివరణాత్మక తీర్పులను అనుమతిస్తుంది. వీడియోలు వివిధ భౌతిక నియమాలు మరియు చట్టాలను అనుసరించాయో లేదో కూడా మూల్యాంకనం తనిఖీ చేసింది.

మానవ మూల్యాంకనం కోసం, 12 మంది ఉల్లేఖకుల సమూహం అమెజాన్ మెకానికల్ టర్క్ (AMT)పై ట్రయల్స్ నుండి ఎంపిక చేయబడింది మరియు వివరణాత్మక రిమోట్ సూచనలను స్వీకరించిన తర్వాత రేటింగ్‌లను అందించింది. న్యాయం కోసం, అర్థ సంశ్లేషణ మరియు భౌతిక కామన్సెన్స్ విడిగా అంచనా వేయబడ్డాయి (అసలు VideoPhy అధ్యయనంలో, అవి సంయుక్తంగా అంచనా వేయబడ్డాయి).

ఉల్లేఖకులు మొదట వీడియోలు వారి ఇన్‌పుట్ ప్రాంప్ట్‌లతో ఎంత బాగా సరిపోతాయో రేట్ చేశారు, ఆపై భౌతిక సంభావ్యతను విడిగా అంచనా వేశారు, నియమ ఉల్లంఘనలు మరియు మొత్తం వాస్తవికతను ఐదు-పాయింట్ల స్కేల్‌లో స్కోర్ చేశారు. మోడల్‌ల మధ్య సరసమైన పోలికను నిర్వహించడానికి అసలు ప్రాంప్ట్‌లు మాత్రమే చూపబడ్డాయి.

ఆటోమేటెడ్ ఎవాల్యుయేషన్: స్కేలబుల్ మోడల్ అసెస్‌మెంట్ వైపు

మానవ తీర్పు బంగారు ప్రమాణంగా మిగిలిపోయినప్పటికీ, ఇది ఖరీదైనది మరియు అనేక హెచ్చరికలతో వస్తుంది. అందువల్ల, వేగవంతమైన మరియు మరింత స్కేలబుల్ మోడల్ అసెస్‌మెంట్‌ల కోసం ఆటోమేటెడ్ ఎవాల్యుయేషన్ అవసరం.

పేపర్ యొక్క రచయితలు Gemini-2.0-Flash-Exp మరియు VideoScoreతో సహా అనేక వీడియో-లాంగ్వేజ్ మోడల్‌లను పరీక్షించారు, అర్థ ఖచ్చితత్వం మరియు “భౌతిక కామన్సెన్స్” కోసం వీడియోలను స్కోర్ చేసే సామర్థ్యంపై.

మోడల్‌లు మళ్లీ ప్రతి వీడియోను ఐదు-పాయింట్ల స్కేల్‌లో రేట్ చేశాయి. భౌతిక నియమాలు అనుసరించబడ్డాయా, ఉల్లంఘించబడ్డాయా లేదా అస్పష్టంగా ఉన్నాయా అని ప్రత్యేక వర్గీకరణ పని నిర్ణయించింది.

ప్రయోగాలు ఇప్పటికే ఉన్న వీడియో-లాంగ్వేజ్ మోడల్‌లు మానవ తీర్పులతో సరిపోలడానికి కష్టపడ్డాయని చూపించాయి, ప్రధానంగా బలహీనమైన భౌతిక తార్కికం మరియు ప్రాంప్ట్‌ల సంక్లిష్టత కారణంగా. ఆటోమేటెడ్ ఎవాల్యుయేషన్‌ను మెరుగుపరచడానికి, పరిశోధకులు VideoPhy-2-Autoevalని అభివృద్ధి చేశారు, ఇది 7B-పారామీటర్ మోడల్ మూడు వర్గాలలో మరింత ఖచ్చితమైన అంచనాలను అందించడానికి రూపొందించబడింది: అర్థ సంశ్లేషణ; భౌతిక కామన్సెన్స్; మరియు నియమ సమ్మతి. ఇది 50,000 మానవ ఉల్లేఖనాలను ఉపయోగించి VideoCon-Physics మోడల్‌పై ఫైన్-ట్యూన్ చేయబడింది*.

జెనరేటివ్ వీడియో సిస్టమ్‌లను పరీక్షించడం: తులనాత్మక విశ్లేషణ

ఈ సాధనాలతో, రచయితలు స్థానిక ఇన్‌స్టాలేషన్‌ల ద్వారా మరియు అవసరమైన చోట, వాణిజ్య APIల ద్వారా అనేక జెనరేటివ్ వీడియో సిస్టమ్‌లను పరీక్షించారు: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; మరియు Luma Ray.

Hunyuan వీడియో మరియు VideoCrafter2 77-టోకెన్ CLIP పరిమితుల కింద పనిచేస్తాయి మరియు నిర్దిష్ట పొడవు కంటే ఎక్కువ ప్రాంప్ట్‌లను అంగీకరించలేవు తప్ప, సాధ్యమైన చోట అప్‌సాంప్ల్ చేసిన శీర్షికలతో మోడల్‌లు ప్రాంప్ట్ చేయబడ్డాయి.

తక్కువ అవుట్‌పుట్ అంచనా వేయడం సులభం కాబట్టి, ఉత్పత్తి చేయబడిన వీడియోలు 6 సెకన్ల కంటే తక్కువగా ఉంచబడ్డాయి.

డ్రైవింగ్ డేటా VideoPhy-2 డేటాసెట్ నుండి వచ్చింది, ఇది బెంచ్‌మార్క్ మరియు శిక్షణ సెట్‌గా విభజించబడింది. Sora మరియు Ray2 మినహా ప్రతి మోడల్‌కు 590 వీడియోలు రూపొందించబడ్డాయి; ఖర్చు కారకం కారణంగా, ఈ వాటికి సమానమైన తక్కువ సంఖ్యలో వీడియోలు రూపొందించబడ్డాయి.

ప్రారంభ మూల్యాంకనం భౌతిక కార్యకలాపాలు/క్రీడలు (PA) మరియు వస్తువు పరస్పర చర్యలు (OI)తో వ్యవహరించింది మరియు సాధారణ డేటాసెట్ మరియు పైన పేర్కొన్న “కష్టతరమైన” ఉపసమితి రెండింటినీ పరీక్షించింది:

ఇక్కడ రచయితలు వ్యాఖ్యానించారు:

‘Wan2.1-14B, ఉత్తమ పనితీరు కనబరిచిన మోడల్ కూడా, మా డేటాసెట్ యొక్క పూర్తి మరియు కఠినమైన విభజనలపై వరుసగా 32.6% మరియు 21.9% మాత్రమే సాధిస్తుంది. ఇతర మోడల్‌లతో పోలిస్తే దీని సాపేక్షంగా బలమైన పనితీరు దాని మల్టీమోడల్ శిక్షణ డేటా యొక్క వైవిధ్యానికి కారణమని చెప్పవచ్చు, విస్తృత శ్రేణి చర్యలలో అధిక-నాణ్యత వీడియోలను సంరక్షించే బలమైన మోషన్ ఫిల్టరింగ్‌తో పాటు.

‘ఇంకా, Ray2 వంటి క్లోజ్డ్ మోడల్‌లు Wan2.1-14B మరియు CogVideoX-5B వంటి ఓపెన్ మోడల్‌ల కంటే అధ్వాన్నంగా పనిచేస్తాయని మేము గమనించాము. భౌతిక కామన్సెన్స్‌ను సంగ్రహించడంలో క్లోజ్డ్ మోడల్‌లు ఓపెన్ మోడల్‌ల కంటే తప్పనిసరిగా ఉన్నతంగా ఉండవని ఇది సూచిస్తుంది.

‘ముఖ్యంగా, Cosmos-Diffusion-7B కఠినమైన విభజనపై రెండవ-ఉత్తమ స్కోర్‌ను సాధిస్తుంది, చాలా పెద్ద HunyuanVideo-13B మోడల్‌ను కూడా అధిగమించింది. ఇది దాని శిక్షణ డేటాలో మానవ చర్యల యొక్క అధిక ప్రాతినిధ్యం, కృత్రిమంగా అందించబడిన అనుకరణలతో పాటు కారణం కావచ్చు.’

వీడియో మోడల్‌లు స్పోర్ట్స్ వంటి భౌతిక కార్యకలాపాలతో సరళమైన వస్తువు పరస్పర చర్యల కంటే ఎక్కువగా కష్టపడ్డాయని ఫలితాలు చూపించాయి. ఈ ప్రాంతంలో AI-ఉత్పత్తి చేసిన వీడియోలను మెరుగుపరచడానికి మెరుగైన డేటాసెట్‌లు అవసరమవుతాయని ఇది సూచిస్తుంది - ముఖ్యంగా టెన్నిస్, డిస్కస్, బేస్ బాల్ మరియు క్రికెట్ వంటి క్రీడల యొక్క అధిక-నాణ్యత ఫుటేజ్.

మోడల్ యొక్క భౌతిక సంభావ్యత సౌందర్యం మరియు కదలిక సున్నితత్వం వంటి ఇతర వీడియో నాణ్యత కొలమానాలతో పరస్పర సంబంధం కలిగి ఉందో లేదో కూడా అధ్యయనం పరిశీలించింది. ఫలితాలు బలమైన పరస్పర సంబంధాన్ని వెల్లడించలేదు, అంటే ఒక మోడల్ దృశ్యమానంగా ఆకర్షణీయంగా లేదా ద్రవ కదలికను ఉత్పత్తి చేయడం ద్వారా VideoPhy-2లో దాని పనితీరును మెరుగుపరచదు - దీనికి భౌతిక కామన్సెన్స్ గురించి లోతైన అవగాహన అవసరం.

గుణాత్మక ఉదాహరణలు: సవాళ్లను హైలైట్ చేయడం

పేపర్ సమృద్ధిగా గుణాత్మక ఉదాహరణలను అందించినప్పటికీ, PDFలో అందించిన కొన్ని స్టాటిక్ ఉదాహరణలు రచయితలు ప్రాజెక్ట్ సైట్‌లో అందించే విస్తృతమైన వీడియో-ఆధారిత ఉదాహరణలకు సంబంధించినవిగా కనిపిస్తాయి. అందువల్ల, మేము స్టాటిక్ ఉదాహరణల యొక్క చిన్న ఎంపికను మరియు మరికొన్ని వాస్తవ ప్రాజెక్ట్ వీడియోలను చూస్తాము.

పై గుణాత్మక పరీక్షకు సంబంధించి, రచయితలు వ్యాఖ్యానించారు:

‘[మేము] భౌతిక కామన్సెన్స్ ఉల్లంఘనలను గమనిస్తాము, జెట్‌స్కీలు అసహజంగా రివర్స్‌లో కదలడం మరియు ఘన స్లెడ్జ్‌హామర్ యొక్క వైకల్యం, స్థితిస్థాపకత సూత్రాలను ధిక్కరించడం వంటివి. అయితే, [ఈ వ్యాసం ప్రారంభంలో పొందుపరిచిన క్లిప్]లో చూపిన విధంగా, Wan కూడా భౌతిక కామన్సెన్స్ లేకపోవడంతో బాధపడుతుంది.

‘ఈ సందర్భంలో, గురుత్వాకర్షణ యొక్క భౌతిక నియమాన్ని ధిక్కరిస్తూ, ఒక రాయి దొర్లడం మరియు ఎత్తుపైకి వేగవంతం కావడం ప్రారంభిస్తుందని మేము హైలైట్ చేస్తాము.’

ప్రారంభంలో పేర్కొన్నట్లుగా, ఈ ప్రాజెక్ట్‌తో అనుబంధించబడిన పదార్థాల పరిమాణం ఇక్కడ కవర్ చేయగలిగిన దానికంటే చాలా ఎక్కువ. అందువల్ల, దయచేసి రచయితల విధానాల యొక్క నిజంగా సమగ్రమైన రూపురేఖల కోసం మూల పత్రం, ప్రాజెక్ట్ సైట్ మరియు ముందు పేర్కొన్న సంబంధిత సైట్‌లను మరియు గణనీయంగా మరిన్ని పరీక్ష ఉదాహరణలు మరియు విధానపరమైన వివరాలను చూడండి.

* ఉల్లేఖనాల మూలం కొరకు, పేపర్ ‘ఈ పనుల కోసం పొందినది’ అని మాత్రమే నిర్దేశిస్తుంది - ఇది 12 AMT కార్మికులచే ఉత్పత్తి చేయబడినట్లుగా అనిపిస్తుంది.

మొదట ప్రచురించబడింది గురువారం, మార్చి 13, 2025