చైనీస్ జెనరేటివ్ వీడియో మోడల్స్ పెరుగుదల
Tencent యొక్క Hunyuan వీడియో ఇప్పటికే అభిరుచి గల AI కమ్యూనిటీలో గణనీయమైన తరంగాలను సృష్టించింది. దీని ఓపెన్-సోర్స్ విడుదల పూర్తి-ప్రపంచ వీడియో డిఫ్యూజన్ మోడల్ వినియోగదారులను వారి నిర్దిష్ట అవసరాలకు అనుగుణంగా సాంకేతికతను రూపొందించడానికి అనుమతిస్తుంది.
దగ్గరగా అనుసరిస్తే, మరింత ఇటీవల విడుదలైన Alibaba యొక్క Wan 2.1. ఈ మోడల్ ప్రస్తుతం అందుబాటులో ఉన్న అత్యంత శక్తివంతమైన ఇమేజ్-టు-వీడియో Free and Open Source Software (FOSS) పరిష్కారాలలో ఒకటిగా నిలుస్తుంది మరియు ఇది ఇప్పుడు Wan LoRAs ద్వారా అనుకూలీకరణకు మద్దతు ఇస్తుంది.
ఈ పరిణామాలతో పాటు, మేము Alibaba యొక్క సమగ్ర VACE వీడియో సృష్టి మరియు ఎడిటింగ్ సూట్ విడుదల కోసం కూడా ఎదురుచూస్తున్నాము, ఇటీవలి మానవ-కేంద్రీకృత ఫౌండేషన్ మోడల్, SkyReels లభ్యతతో పాటు.
జెనరేటివ్ వీడియో AI పరిశోధన దృశ్యం సమానంగా పేలుడుగా ఉంది. ఇది ఇంకా మార్చి ప్రారంభంలో ఉంది, అయినప్పటికీ Arxiv యొక్క కంప్యూటర్ విజన్ విభాగానికి మంగళవారం సమర్పణలు (జెనరేటివ్ AI పేపర్ల కోసం ఒక కీలక కేంద్రం) దాదాపు 350 ఎంట్రీలను కలిగి ఉన్నాయి - ఇది సాధారణంగా కాన్ఫరెన్స్ సీజన్ గరిష్ట స్థాయికి చేరుకున్నప్పుడు కనిపించే సంఖ్య.
2022 వేసవిలో Stable Diffusion ప్రారంభించినప్పటి నుండి రెండు సంవత్సరాలు (మరియు తదనంతరం Dreambooth మరియు LoRA అనుకూలీకరణ పద్ధతుల అభివృద్ధి) ప్రధాన పురోగతులు సాపేక్షంగా లేకపోవడం ద్వారా వర్గీకరించబడ్డాయి. అయినప్పటికీ, గత కొన్ని వారాలు కొత్త విడుదలలు మరియు ఆవిష్కరణల ఉప్పెనను చూశాయి, ఇంత వేగంగా వస్తున్నాయి, పూర్తిగా సమాచారం ఇవ్వడం దాదాపు అసాధ్యం, ప్రతిదీ సమగ్రంగా కవర్ చేయనివ్వండి.
తాత్కాలిక స్థిరత్వాన్ని పరిష్కరించడం, కానీ కొత్త సవాళ్లు ఉద్భవించాయి
Hunyuan మరియు Wan 2.1 వంటి వీడియో డిఫ్యూజన్ మోడల్లు ఎట్టకేలకు తాత్కాలిక స్థిరత్వం యొక్క సమస్యను పరిష్కరించాయి. వందలాది పరిశోధనా కార్యక్రమాల నుండి సంవత్సరాల తరబడి విఫల ప్రయత్నాల తర్వాత, ఈ నమూనాలు కాలక్రమేణా స్థిరమైన మానవులు, పరిసరాలు మరియు వస్తువులను ఉత్పత్తి చేయడానికి సంబంధించిన సవాళ్లను చాలా వరకు పరిష్కరించాయి.
VFX స్టూడియోలు ఈ కొత్త చైనీస్ వీడియో మోడల్లను స్వీకరించడానికి సిబ్బందిని మరియు వనరులను చురుకుగా అంకితం చేస్తున్నాయనడంలో సందేహం లేదు. ఈ సిస్టమ్ల కోసం ControlNet-శైలి అనుబంధ మెకానిజమ్లు ప్రస్తుతం లేనప్పటికీ, ముఖం మార్పిడి వంటి ఒత్తిడితో కూడిన సవాళ్లను పరిష్కరించడం వారి తక్షణ లక్ష్యం.
ఊహించిన ఛానెల్ల ద్వారా కాకపోయినా, ఇంత ముఖ్యమైన అడ్డంకిని అధిగమించడం చాలా ఉపశమనం కలిగించి ఉండాలి.
అయితే, మిగిలిన సమస్యలలో, ఒకటి ప్రత్యేకంగా ముఖ్యమైనదిగా నిలుస్తుంది:
ప్రస్తుతం అందుబాటులో ఉన్న అన్ని టెక్స్ట్-టు-వీడియో మరియు ఇమేజ్-టు-వీడియో సిస్టమ్లు, వాణిజ్య క్లోజ్డ్-సోర్స్ మోడల్లతో సహా, భౌతిక-ధిక్కరించే తప్పిదాలను ఉత్పత్తి చేసే ధోరణిని కలిగి ఉన్నాయి. పై ఉదాహరణ ఎత్తుపైకి దొర్లుతున్న రాయిని చూపుతుంది, ఇది ప్రాంప్ట్ నుండి రూపొందించబడింది: ‘ఒక చిన్న రాయి నిటారుగా, రాతి కొండపైకి దొర్లుతుంది, మట్టిని మరియు చిన్న రాళ్లను స్థానభ్రంశం చేస్తుంది’.
AI వీడియోలు భౌతిక శాస్త్రాన్ని ఎందుకు తప్పుగా పొందుతాయి?
Alibaba మరియు UAE మధ్య ఇటీవల ప్రతిపాదించబడిన ఒక విద్యా సహకారంలో, మోడల్లు తాత్కాలిక క్రమంపై వారి అవగాహనకు ఆటంకం కలిగించే విధంగా నేర్చుకోవచ్చని సూచిస్తుంది. వీడియోలపై శిక్షణ ఇస్తున్నప్పుడు కూడా (ఇవి శిక్షణ కోసం సింగిల్-ఫ్రేమ్ సీక్వెన్స్లుగా విభజించబడ్డాయి), మోడల్లు “ముందు” మరియు “తర్వాత” చిత్రాల సరైన క్రమాన్ని అంతర్గతంగా గ్రహించకపోవచ్చు.
అయితే, అత్యంత ఆమోదయోగ్యమైన వివరణ ఏమిటంటే, ప్రశ్నలోని నమూనాలు డేటా వృద్ధి నిత్యకృత్యాలను ఉపయోగించాయి. ఈ నిత్యకృత్యాలు మోడల్ను ఫార్వర్డ్లు మరియు వెనుకబడిన మూల శిక్షణ క్లిప్కు బహిర్గతం చేయడాన్ని కలిగి ఉంటాయి, శిక్షణ డేటాను సమర్థవంతంగా రెట్టింపు చేస్తాయి.
దీనిని విచక్షణారహితంగా చేయకూడదని కొంతకాలంగా తెలుసు. కొన్ని కదలికలు రివర్స్లో పనిచేస్తుండగా, చాలా వరకు పనిచేయవు. UK యొక్క బ్రిస్టల్ విశ్వవిద్యాలయం నుండి 2019 అధ్యయనం ఒకే డేటాసెట్లోని సమానమైన, ఇన్వేరియంట్ మరియు తిరిగి మార్చలేని సోర్స్ డేటా వీడియో క్లిప్ల మధ్య తేడాను గుర్తించే పద్ధతిని అభివృద్ధి చేయడం లక్ష్యంగా పెట్టుకుంది. డేటా వృద్ధి నిత్యకృత్యాల నుండి తగని క్లిప్లను ఫిల్టర్ చేయడం లక్ష్యం.
ఆ పని యొక్క రచయితలు సమస్యను స్పష్టంగా వ్యక్తీకరించారు:
‘రివర్స్డ్ వీడియోల వాస్తవికత రివర్సల్ కళాఖండాలచే ద్రోహం చేయబడిందని మేము కనుగొన్నాము, సహజ ప్రపంచంలో సాధ్యం కాని దృశ్యం యొక్క అంశాలు. కొన్ని కళాఖండాలు సూక్ష్మంగా ఉంటాయి, మరికొన్ని గుర్తించడం సులభం, రివర్స్డ్ ‘త్రో’ చర్య వంటివి, ఇక్కడ విసిరిన వస్తువు ఆకస్మికంగా నేల నుండి పైకి లేస్తుంది.
‘మేము రెండు రకాల రివర్సల్ కళాఖండాలను గమనిస్తాము, భౌతికమైనవి, ప్రకృతి నియమాల ఉల్లంఘనలను ప్రదర్శిస్తాయి మరియు అసంభవమైనవి, సాధ్యమయ్యే కానీ అసంభవమైన దృష్టాంతాన్ని వర్ణిస్తాయి. ఇవి ప్రత్యేకమైనవి కావు, మరియు అనేక రివర్స్డ్ చర్యలు కాగితం ముక్కను విడదీయడం వంటి రెండు రకాల కళాఖండాలతో బాధపడతాయి.
‘భౌతిక కళాఖండాల ఉదాహరణలు: విలోమ గురుత్వాకర్షణ (ఉదా. ‘ఏదైనా పడేయడం’), వస్తువులపై ఆకస్మిక ప్రేరణలు (ఉదా. ‘పెన్ను తిప్పడం’) మరియు తిరిగి మార్చలేని స్థితి మార్పులు (ఉదా. ‘కొవ్వొత్తిని కాల్చడం’). అసంభవమైన కళాఖండానికి ఉదాహరణ: అల్మారా నుండి ఒక ప్లేట్ తీసుకొని, దానిని ఆరబెట్టడం మరియు ఆరబెట్టే రాక్పై ఉంచడం.
‘ఈ రకమైన డేటా పునర్వినియోగం శిక్షణ సమయంలో చాలా సాధారణం మరియు ప్రయోజనకరంగా ఉంటుంది - ఉదాహరణకు, మోడల్ దాని కేంద్ర సమన్వయం మరియు తర్కాన్ని కోల్పోకుండా తిప్పగలిగే లేదా తిప్పగలిగే చిత్రం లేదా వస్తువు యొక్క ఒక వీక్షణను మాత్రమే నేర్చుకోకుండా చూసుకోవడంలో.
‘ఇది నిజంగా సుష్టంగా ఉండే వస్తువులకు మాత్రమే పనిచేస్తుంది; మరియు ‘రివర్స్డ్’ వీడియో నుండి భౌతిక శాస్త్రాన్ని నేర్చుకోవడం రివర్స్డ్ వెర్షన్ ఫార్వర్డ్ వెర్షన్ వలె అర్ధవంతంగా ఉంటే మాత్రమే పనిచేస్తుంది.’
Hunyuan వీడియో మరియు Wan 2.1 వంటి సిస్టమ్లు శిక్షణ సమయంలో ఏకపక్ష “రివర్స్డ్” క్లిప్లను అనుమతించాయని మాకు ఖచ్చితమైన సాక్ష్యం లేదు (ఏ పరిశోధనా బృందం వారి డేటా వృద్ధి నిత్యకృత్యాల గురించి నిర్దిష్టంగా లేదు).
అయితే, అనేక నివేదికలను (మరియు నా స్వంత ఆచరణాత్మక అనుభవం) పరిగణనలోకి తీసుకుంటే, ఈ నమూనాలకు శక్తినిచ్చే హైపర్స్కేల్ డేటాసెట్లు నిజంగా రివర్స్లో సంభవించే కదలికలను కలిగి ఉన్న క్లిప్లను కలిగి ఉండవచ్చనేది ఏకైక సహేతుకమైన వివరణ.
ముందు పొందుపరిచిన ఉదాహరణ వీడియోలోని రాయి Wan 2.1ని ఉపయోగించి రూపొందించబడింది. వీడియో డిఫ్యూజన్ మోడల్లు భౌతిక శాస్త్రాన్ని ఎంత బాగా నిర్వహిస్తాయో పరిశోధించే కొత్త అధ్యయనంలో ఇది ఫీచర్ చేయబడింది.
ఈ ప్రాజెక్ట్ కోసం పరీక్షలలో, Wan 2.1 భౌతిక నియమాలకు స్థిరంగా కట్టుబడి ఉండే సామర్థ్యంలో కేవలం 22% స్కోరును సాధించింది.
ఆశ్చర్యకరంగా, పరీక్షించిన అన్ని సిస్టమ్లలో ఇది ఉత్తమ స్కోర్, ఇది వీడియో AI కోసం తదుపరి ప్రధాన అడ్డంకిని మేము గుర్తించి ఉండవచ్చని సూచిస్తుంది:
VideoPhy-2ని పరిచయం చేస్తున్నాము: భౌతిక కామన్సెన్స్ కోసం ఒక కొత్త బెంచ్మార్క్
కొత్త పని యొక్క రచయితలు VideoPhy అనే బెంచ్మార్కింగ్ సిస్టమ్ను అభివృద్ధి చేశారు, ఇప్పుడు దాని రెండవ పునరావృతంలో ఉంది. కోడ్ GitHubలో అందుబాటులో ఉంది.
పని యొక్క పరిధి ఇక్కడ సమగ్రంగా కవర్ చేయడానికి చాలా విస్తృతంగా ఉన్నప్పటికీ, దాని పద్దతిని మరియు భవిష్యత్ మోడల్-శిక్షణ సెషన్లను రివర్సల్ యొక్క ఈ వింత సందర్భాల నుండి దూరంగా నడిపించగల మెట్రిక్ను స్థాపించే దాని సామర్థ్యాన్ని పరిశీలిద్దాం.
UCLA మరియు Google రీసెర్చ్ నుండి ఆరుగురు పరిశోధకులు నిర్వహించిన ఈ అధ్యయనం, VideoPhy-2: వీడియో జనరేషన్లో సవాలుతో కూడిన యాక్షన్-సెంట్రిక్ ఫిజికల్ కామన్సెన్స్ ఎవాల్యుయేషన్. సమగ్రమైన ప్రాజెక్ట్ సైట్ కూడా అందుబాటులో ఉంది, GitHubలో కోడ్ మరియు డేటాసెట్లతో పాటు, మరియు Hugging Faceలో డేటాసెట్ వీక్షకుడు.
రచయితలు తాజా వెర్షన్, VideoPhy-2ని “వాస్తవ-ప్రపంచ చర్యల కోసం సవాలుతో కూడిన కామన్సెన్స్ ఎవాల్యుయేషన్ డేటాసెట్”గా వర్ణించారు. ఈ సేకరణ హులా-హూపింగ్, జిమ్నాస్టిక్స్ మరియు టెన్నిస్ వంటి విభిన్న భౌతిక కార్యకలాపాల పరిధిలో 197 చర్యలను కలిగి ఉంది, అలాగే ఒక వస్తువు విరిగే వరకు వంచడం వంటి వస్తువు పరస్పర చర్యలు.
ఈ విత్తన చర్యల నుండి 3840 ప్రాంప్ట్లను రూపొందించడానికి ఒక పెద్ద భాషా నమూనా (LLM) ఉపయోగించబడుతుంది. ఈ ప్రాంప్ట్లు పరీక్షించబడుతున్న వివిధ ఫ్రేమ్వర్క్లను ఉపయోగించి వీడియోలను సంశ్లేషణ చేయడానికి ఉపయోగించబడతాయి.
ప్రక్రియ అంతటా, రచయితలు AI-ఉత్పత్తి చేసిన వీడియోలు కట్టుబడి ఉండవలసిన “అభ్యర్థి” భౌతిక నియమాలు మరియు చట్టాల జాబితాను సంకలనం చేశారు, మూల్యాంకనం కోసం విజన్-లాంగ్వేజ్ మోడల్లను ఉపయోగించారు.
రచయితలు ఇలా పేర్కొన్నారు:
‘ఉదాహరణకు, టెన్నిస్ ఆడుతున్న క్రీడాకారుడి వీడియోలో, భౌతిక నియమం ఏమిటంటే, టెన్నిస్ బంతి గురుత్వాకర్షణ కింద పారాబొలిక్ పథాన్ని అనుసరించాలి. గోల్డ్-స్టాండర్డ్ తీర్పుల కోసం, మేము మానవ ఉల్లేఖకులను ప్రతి వీడియోను మొత్తం అర్థ సంశ్లేషణ మరియు భౌతిక కామన్సెన్స్ ఆధారంగా స్కోర్ చేయమని మరియు వివిధ భౌతిక నియమాలతో దాని సమ్మతిని గుర్తించమని అడుగుతాము.’
చర్యలను క్యూరేట్ చేయడం మరియు ప్రాంప్ట్లను రూపొందించడం
ప్రారంభంలో, పరిశోధకులు AI-ఉత్పత్తి చేసిన వీడియోలలో భౌతిక కామన్సెన్స్ను అంచనా వేయడానికి చర్యల సమితిని క్యూరేట్ చేశారు. వారు కైనటిక్స్, UCF-101 మరియు SSv2 డేటాసెట్ల నుండి 600 కంటే ఎక్కువ చర్యలతో ప్రారంభించారు, క్రీడలు, వస్తువు పరస్పర చర్యలు మరియు వాస్తవ-ప్రపంచ భౌతిక శాస్త్రాన్ని కలిగి ఉన్న కార్యకలాపాలపై దృష్టి సారించారు.
STEM-శిక్షణ పొందిన విద్యార్థి ఉల్లేఖకుల రెండు స్వతంత్ర సమూహాలు (కనీస అండర్గ్రాడ్యుయేట్ అర్హతతో) జాబితాను సమీక్షించి, ఫిల్టర్ చేశారు. వారు గురుత్వాకర్షణ, ఊపు మరియు స్థితిస్థాపకత వంటి సూత్రాలను పరీక్షించే చర్యలను ఎంచుకున్నారు, టైపింగ్, పిల్లిని పెంపుడు జంతువుగా చేసుకోవడం లేదా నమలడం వంటి తక్కువ-కదలిక పనులను తీసివేసారు.
నకిలీలను తొలగించడానికి Gemini-2.0-Flash-Expతో మరింత శుద్ధీకరణ తర్వాత, తుది డేటాసెట్లో 197 చర్యలు ఉన్నాయి. 54 వస్తువు పరస్పర చర్యలను కలిగి ఉన్నాయి మరియు 143 భౌతిక మరియు క్రీడా కార్యకలాపాలపై కేంద్రీకృతమై ఉన్నాయి:
రెండవ దశలో, పరిశోధకులు డేటాసెట్లోని ప్రతి చర్యకు 20 ప్రాంప్ట్లను రూపొందించడానికి Gemini-2.0-Flash-Expని ఉపయోగించారు, ఫలితంగా మొత్తం 3,940 ప్రాంప్ట్లు వచ్చాయి. ఉత్పత్తి ప్రక్రియ ఉత్పత్తి చేయబడిన వీడియోలో స్పష్టంగా సూచించబడే కనిపించే భౌతిక పరస్పర చర్యలపై దృష్టి సారించింది. ఇది భావోద్వేగాలు, ఇంద్రియ వివరాలు మరియు వియుక్త భాష వంటి దృశ్యమాన అంశాలను మినహాయించింది, కానీ విభిన్న పాత్రలు మరియు వస్తువులను పొందుపరిచింది.
ఉదాహరణకు, ‘విలుకాడు బాణం వేస్తాడు’ వంటి సరళమైన ప్రాంప్ట్కు బదులుగా, ‘విలుకాడు విల్లును పూర్తి ఉద్రిక్తతకు వెనుకకు లాగి, ఆపై బాణాన్ని విడుదల చేస్తాడు, అది నేరుగా ఎగురుతుంది మరియు కాగితపు లక్ష్యంపై బుల్సేను తాకుతుంది’ వంటి మరింత వివరణాత్మక సంస్కరణను ఉత్పత్తి చేయడానికి మోడల్ మార్గనిర్దేశం చేయబడింది.
ఆధునిక వీడియో మోడల్లు సుదీర్ఘ వివరణలను అర్థం చేసుకోగలవు కాబట్టి, పరిశోధకులు మిస్ట్రల్-నెమో-12B-ఇన్స్ట్రక్ట్ ప్రాంప్ట్ అప్సాంప్లర్ను ఉపయోగించి శీర్షికలను మరింత మెరుగుపరిచారు. ఇది అసలు అర్థాన్ని మార్చకుండా దృశ్య వివరాలను జోడించింది.
భౌతిక నియమాలను పొందడం మరియు సవాలు చేసే చర్యలను గుర్తించడం
మూడవ దశ కోసం, భౌతిక నియమాలు టెక్స్ట్ ప్రాంప్ట్ల నుండి కాకుండా ఉత్పత్తి చేయబడిన వీడియోల నుండి తీసుకోబడ్డాయి. ఎందుకంటే జెనరేటివ్ మోడల్లు కండిషన్డ్ టెక్స్ట్ ప్రాంప్ట్లకు కట్టుబడి ఉండటానికి కష్టపడతాయి.
వీడియోలు మొదట VideoPhy-2 ప్రాంప్ట్లను ఉపయోగించి సృష్టించబడ్డాయి, ఆపై కీలక వివరాలను సంగ్రహించడానికి Gemini-2.0-Flash-Expతో “అప్-క్యాప్షన్” చేయబడ్డాయి. మోడల్ ప్రతి వీడియోకు మూడు ఆశించిన భౌతిక నియమాలను ప్రతిపాదించింది. మానవ ఉల్లేఖకులు అదనపు సంభావ్య ఉల్లంఘనలను గుర్తించడం ద్వారా వీటిని సమీక్షించి, విస్తరించారు.
తరువాత, అత్యంత సవాలుతో కూడిన చర్యలను గుర్తించడానికి, పరిశోధకులు VideoPhy-2 డేటాసెట్ నుండి ప్రాంప్ట్లతో CogVideoX-5Bని ఉపయోగించి వీడియోలను రూపొందించారు. వారు ప్రాంప్ట్లు మరియు ప్రాథమిక భౌతిక కామన్సెన్స్ రెండింటినీ అనుసరించడంలో మోడల్ స్థిరంగా విఫలమైన 197 చర్యలలో 60ని ఎంచుకున్నారు.
ఈ చర్యలు డిస్కస్ త్రోయింగ్లో మొమెంటం బదిలీ, ఒక వస్తువు విరిగే వరకు వంచడం వంటి స్థితి మార్పులు, టైట్రోప్ వాకింగ్ వంటి బ్యాలెన్సింగ్ టాస్క్లు మరియు బ్యాక్-ఫ్లిప్లు, పోల్ వాల్టింగ్ మరియు పిజ్జా టాసింగ్ వంటి సంక్లిష్ట కదలికలను కలిగి ఉన్న భౌతిక-సమృద్ధ పరస్పర చర్యలను కలిగి ఉన్నాయి. ఉప-డేటాసెట్ యొక్క కష్టాన్ని పెంచడానికి మొత్తం 1,200 ప్రాంప్ట్లు ఎంచుకోబడ్డాయి.
VideoPhy-2 డేటాసెట్: సమగ్ర మూల్యాంకన వనరు
ఫలితంగా వచ్చిన డేటాసెట్లో 3,940 శీర్షికలు ఉన్నాయి - మునుపటి వెర్షన్ VideoPhy కంటే 5.72 రెట్లు ఎక్కువ. అసలు శీర్షికల సగటు పొడవు 16 టోకెన్లు, అప్సాంప్ల్ చేసిన శీర్షికలు వరుసగా 138 టోకెన్లను చేరుకుంటాయి - 1.88 రెట్లు మరియు 16.2 రెట్లు ఎక్కువ.
ఈ డేటాసెట్ బహుళ వీడియో ఉత్పత్తి నమూనాలలో అర్థ సంశ్లేషణ, భౌతిక కామన్సెన్స్ మరియు నియమ ఉల్లంఘనలను కవర్ చేసే 102,000 మానవ ఉల్లేఖనలను కూడా కలిగి ఉంది.
మూల్యాంకన ప్రమాణాలను నిర్వచించడం మరియు మానవ ఉల్లేఖనాలు
పరిశోధకులు అప్పుడు వీడియోలను అంచనా వేయడానికి స్పష్టమైన ప్రమాణాలను నిర్వచించారు. ప్రతి వీడియో దాని ఇన్పుట్ ప్రాంప్ట్తో ఎంత బాగా సరిపోతుందో మరియు ప్రాథమిక భౌతిక సూత్రాలను అనుసరించిందో అంచనా వేయడం ప్రధాన లక్ష్యం.
వీడియోలను కేవలం ప్రాధాన్యత ద్వారా ర్యాంక్ చేయడానికి బదులుగా, వారు నిర్దిష్ట విజయాలు మరియు వైఫల్యాలను సంగ్రహించడానికి రేటింగ్-ఆధారిత ఫీడ్బ్యాక్ను ఉపయోగించారు. మానవ ఉల్లేఖకులు వీడియోలను ఐదు-పాయింట్ల స్కేల్లో స్కోర్ చేశారు, మరింత వివరణాత్మక తీర్పులను అనుమతిస్తుంది. వీడియోలు వివిధ భౌతిక నియమాలు మరియు చట్టాలను అనుసరించాయో లేదో కూడా మూల్యాంకనం తనిఖీ చేసింది.
మానవ మూల్యాంకనం కోసం, 12 మంది ఉల్లేఖకుల సమూహం అమెజాన్ మెకానికల్ టర్క్ (AMT)పై ట్రయల్స్ నుండి ఎంపిక చేయబడింది మరియు వివరణాత్మక రిమోట్ సూచనలను స్వీకరించిన తర్వాత రేటింగ్లను అందించింది. న్యాయం కోసం, అర్థ సంశ్లేషణ మరియు భౌతిక కామన్సెన్స్ విడిగా అంచనా వేయబడ్డాయి (అసలు VideoPhy అధ్యయనంలో, అవి సంయుక్తంగా అంచనా వేయబడ్డాయి).
ఉల్లేఖకులు మొదట వీడియోలు వారి ఇన్పుట్ ప్రాంప్ట్లతో ఎంత బాగా సరిపోతాయో రేట్ చేశారు, ఆపై భౌతిక సంభావ్యతను విడిగా అంచనా వేశారు, నియమ ఉల్లంఘనలు మరియు మొత్తం వాస్తవికతను ఐదు-పాయింట్ల స్కేల్లో స్కోర్ చేశారు. మోడల్ల మధ్య సరసమైన పోలికను నిర్వహించడానికి అసలు ప్రాంప్ట్లు మాత్రమే చూపబడ్డాయి.
ఆటోమేటెడ్ ఎవాల్యుయేషన్: స్కేలబుల్ మోడల్ అసెస్మెంట్ వైపు
మానవ తీర్పు బంగారు ప్రమాణంగా మిగిలిపోయినప్పటికీ, ఇది ఖరీదైనది మరియు అనేక హెచ్చరికలతో వస్తుంది. అందువల్ల, వేగవంతమైన మరియు మరింత స్కేలబుల్ మోడల్ అసెస్మెంట్ల కోసం ఆటోమేటెడ్ ఎవాల్యుయేషన్ అవసరం.
పేపర్ యొక్క రచయితలు Gemini-2.0-Flash-Exp మరియు VideoScoreతో సహా అనేక వీడియో-లాంగ్వేజ్ మోడల్లను పరీక్షించారు, అర్థ ఖచ్చితత్వం మరియు “భౌతిక కామన్సెన్స్” కోసం వీడియోలను స్కోర్ చేసే సామర్థ్యంపై.
మోడల్లు మళ్లీ ప్రతి వీడియోను ఐదు-పాయింట్ల స్కేల్లో రేట్ చేశాయి. భౌతిక నియమాలు అనుసరించబడ్డాయా, ఉల్లంఘించబడ్డాయా లేదా అస్పష్టంగా ఉన్నాయా అని ప్రత్యేక వర్గీకరణ పని నిర్ణయించింది.
ప్రయోగాలు ఇప్పటికే ఉన్న వీడియో-లాంగ్వేజ్ మోడల్లు మానవ తీర్పులతో సరిపోలడానికి కష్టపడ్డాయని చూపించాయి, ప్రధానంగా బలహీనమైన భౌతిక తార్కికం మరియు ప్రాంప్ట్ల సంక్లిష్టత కారణంగా. ఆటోమేటెడ్ ఎవాల్యుయేషన్ను మెరుగుపరచడానికి, పరిశోధకులు VideoPhy-2-Autoevalని అభివృద్ధి చేశారు, ఇది 7B-పారామీటర్ మోడల్ మూడు వర్గాలలో మరింత ఖచ్చితమైన అంచనాలను అందించడానికి రూపొందించబడింది: అర్థ సంశ్లేషణ; భౌతిక కామన్సెన్స్; మరియు నియమ సమ్మతి. ఇది 50,000 మానవ ఉల్లేఖనాలను ఉపయోగించి VideoCon-Physics మోడల్పై ఫైన్-ట్యూన్ చేయబడింది*.
జెనరేటివ్ వీడియో సిస్టమ్లను పరీక్షించడం: తులనాత్మక విశ్లేషణ
ఈ సాధనాలతో, రచయితలు స్థానిక ఇన్స్టాలేషన్ల ద్వారా మరియు అవసరమైన చోట, వాణిజ్య APIల ద్వారా అనేక జెనరేటివ్ వీడియో సిస్టమ్లను పరీక్షించారు: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; మరియు Luma Ray.
Hunyuan వీడియో మరియు VideoCrafter2 77-టోకెన్ CLIP పరిమితుల కింద పనిచేస్తాయి మరియు నిర్దిష్ట పొడవు కంటే ఎక్కువ ప్రాంప్ట్లను అంగీకరించలేవు తప్ప, సాధ్యమైన చోట అప్సాంప్ల్ చేసిన శీర్షికలతో మోడల్లు ప్రాంప్ట్ చేయబడ్డాయి.
తక్కువ అవుట్పుట్ అంచనా వేయడం సులభం కాబట్టి, ఉత్పత్తి చేయబడిన వీడియోలు 6 సెకన్ల కంటే తక్కువగా ఉంచబడ్డాయి.
డ్రైవింగ్ డేటా VideoPhy-2 డేటాసెట్ నుండి వచ్చింది, ఇది బెంచ్మార్క్ మరియు శిక్షణ సెట్గా విభజించబడింది. Sora మరియు Ray2 మినహా ప్రతి మోడల్కు 590 వీడియోలు రూపొందించబడ్డాయి; ఖర్చు కారకం కారణంగా, ఈ వాటికి సమానమైన తక్కువ సంఖ్యలో వీడియోలు రూపొందించబడ్డాయి.
ప్రారంభ మూల్యాంకనం భౌతిక కార్యకలాపాలు/క్రీడలు (PA) మరియు వస్తువు పరస్పర చర్యలు (OI)తో వ్యవహరించింది మరియు సాధారణ డేటాసెట్ మరియు పైన పేర్కొన్న “కష్టతరమైన” ఉపసమితి రెండింటినీ పరీక్షించింది:
ఇక్కడ రచయితలు వ్యాఖ్యానించారు:
‘Wan2.1-14B, ఉత్తమ పనితీరు కనబరిచిన మోడల్ కూడా, మా డేటాసెట్ యొక్క పూర్తి మరియు కఠినమైన విభజనలపై వరుసగా 32.6% మరియు 21.9% మాత్రమే సాధిస్తుంది. ఇతర మోడల్లతో పోలిస్తే దీని సాపేక్షంగా బలమైన పనితీరు దాని మల్టీమోడల్ శిక్షణ డేటా యొక్క వైవిధ్యానికి కారణమని చెప్పవచ్చు, విస్తృత శ్రేణి చర్యలలో అధిక-నాణ్యత వీడియోలను సంరక్షించే బలమైన మోషన్ ఫిల్టరింగ్తో పాటు.
‘ఇంకా, Ray2 వంటి క్లోజ్డ్ మోడల్లు Wan2.1-14B మరియు CogVideoX-5B వంటి ఓపెన్ మోడల్ల కంటే అధ్వాన్నంగా పనిచేస్తాయని మేము గమనించాము. భౌతిక కామన్సెన్స్ను సంగ్రహించడంలో క్లోజ్డ్ మోడల్లు ఓపెన్ మోడల్ల కంటే తప్పనిసరిగా ఉన్నతంగా ఉండవని ఇది సూచిస్తుంది.
‘ముఖ్యంగా, Cosmos-Diffusion-7B కఠినమైన విభజనపై రెండవ-ఉత్తమ స్కోర్ను సాధిస్తుంది, చాలా పెద్ద HunyuanVideo-13B మోడల్ను కూడా అధిగమించింది. ఇది దాని శిక్షణ డేటాలో మానవ చర్యల యొక్క అధిక ప్రాతినిధ్యం, కృత్రిమంగా అందించబడిన అనుకరణలతో పాటు కారణం కావచ్చు.’
వీడియో మోడల్లు స్పోర్ట్స్ వంటి భౌతిక కార్యకలాపాలతో సరళమైన వస్తువు పరస్పర చర్యల కంటే ఎక్కువగా కష్టపడ్డాయని ఫలితాలు చూపించాయి. ఈ ప్రాంతంలో AI-ఉత్పత్తి చేసిన వీడియోలను మెరుగుపరచడానికి మెరుగైన డేటాసెట్లు అవసరమవుతాయని ఇది సూచిస్తుంది - ముఖ్యంగా టెన్నిస్, డిస్కస్, బేస్ బాల్ మరియు క్రికెట్ వంటి క్రీడల యొక్క అధిక-నాణ్యత ఫుటేజ్.
మోడల్ యొక్క భౌతిక సంభావ్యత సౌందర్యం మరియు కదలిక సున్నితత్వం వంటి ఇతర వీడియో నాణ్యత కొలమానాలతో పరస్పర సంబంధం కలిగి ఉందో లేదో కూడా అధ్యయనం పరిశీలించింది. ఫలితాలు బలమైన పరస్పర సంబంధాన్ని వెల్లడించలేదు, అంటే ఒక మోడల్ దృశ్యమానంగా ఆకర్షణీయంగా లేదా ద్రవ కదలికను ఉత్పత్తి చేయడం ద్వారా VideoPhy-2లో దాని పనితీరును మెరుగుపరచదు - దీనికి భౌతిక కామన్సెన్స్ గురించి లోతైన అవగాహన అవసరం.
గుణాత్మక ఉదాహరణలు: సవాళ్లను హైలైట్ చేయడం
పేపర్ సమృద్ధిగా గుణాత్మక ఉదాహరణలను అందించినప్పటికీ, PDFలో అందించిన కొన్ని స్టాటిక్ ఉదాహరణలు రచయితలు ప్రాజెక్ట్ సైట్లో అందించే విస్తృతమైన వీడియో-ఆధారిత ఉదాహరణలకు సంబంధించినవిగా కనిపిస్తాయి. అందువల్ల, మేము స్టాటిక్ ఉదాహరణల యొక్క చిన్న ఎంపికను మరియు మరికొన్ని వాస్తవ ప్రాజెక్ట్ వీడియోలను చూస్తాము.
పై గుణాత్మక పరీక్షకు సంబంధించి, రచయితలు వ్యాఖ్యానించారు:
‘[మేము] భౌతిక కామన్సెన్స్ ఉల్లంఘనలను గమనిస్తాము, జెట్స్కీలు అసహజంగా రివర్స్లో కదలడం మరియు ఘన స్లెడ్జ్హామర్ యొక్క వైకల్యం, స్థితిస్థాపకత సూత్రాలను ధిక్కరించడం వంటివి. అయితే, [ఈ వ్యాసం ప్రారంభంలో పొందుపరిచిన క్లిప్]లో చూపిన విధంగా, Wan కూడా భౌతిక కామన్సెన్స్ లేకపోవడంతో బాధపడుతుంది.
‘ఈ సందర్భంలో, గురుత్వాకర్షణ యొక్క భౌతిక నియమాన్ని ధిక్కరిస్తూ, ఒక రాయి దొర్లడం మరియు ఎత్తుపైకి వేగవంతం కావడం ప్రారంభిస్తుందని మేము హైలైట్ చేస్తాము.’
ప్రారంభంలో పేర్కొన్నట్లుగా, ఈ ప్రాజెక్ట్తో అనుబంధించబడిన పదార్థాల పరిమాణం ఇక్కడ కవర్ చేయగలిగిన దానికంటే చాలా ఎక్కువ. అందువల్ల, దయచేసి రచయితల విధానాల యొక్క నిజంగా సమగ్రమైన రూపురేఖల కోసం మూల పత్రం, ప్రాజెక్ట్ సైట్ మరియు ముందు పేర్కొన్న సంబంధిత సైట్లను మరియు గణనీయంగా మరిన్ని పరీక్ష ఉదాహరణలు మరియు విధానపరమైన వివరాలను చూడండి.
* ఉల్లేఖనాల మూలం కొరకు, పేపర్ ‘ఈ పనుల కోసం పొందినది’ అని మాత్రమే నిర్దేశిస్తుంది - ఇది 12 AMT కార్మికులచే ఉత్పత్తి చేయబడినట్లుగా అనిపిస్తుంది.
మొదట ప్రచురించబడింది గురువారం, మార్చి 13, 2025