AI व्हिडिओ कधीकधी मागे का जातात?

चिनी जनरेटिव्ह व्हिडिओ मॉडेल्सचा उदय

Tencent च्या Hunyuan Video ने हौशी AI समुदायात आधीच लक्षणीय लाटा निर्माण केल्या आहेत. त्याचे ओपन-सोर्स फुल-वर्ल्ड व्हिडिओ डिफ्यूजन मॉडेल वापरकर्त्यांना त्यांच्या विशिष्ट गरजांनुसार तंत्रज्ञान तयार करण्यास अनुमती देते.

त्यानंतर अलीबाबाचे Wan 2.1, अधिक अलीकडे प्रसिद्ध झाले. हे मॉडेल सध्या उपलब्ध असलेल्या सर्वात शक्तिशाली इमेज-टू-व्हिडिओ Free and Open Source Software (FOSS) सोल्यूशन्सपैकी एक म्हणून वेगळे आहे आणि ते आता Wan LoRAs द्वारे कस्टमायझेशनला समर्थन देते.

या घडामोडींव्यतिरिक्त, आम्ही अलीबाबाच्या सर्वसमावेशक VACE व्हिडिओ निर्मिती आणि संपादन सूटच्या प्रकाशनाची तसेच अलीकडील मानव-केंद्रित फाउंडेशन मॉडेल, SkyReels च्या उपलब्धतेची अपेक्षा करत आहोत.

जनरेटिव्ह व्हिडिओ AI संशोधनाचे दृश्य तितकेच स्फोटक आहे. अजून मार्चची सुरुवात आहे, तरीही मंगळवारी Arxiv च्या कॉम्प्युटर व्हिजन विभागात (जनरेटिव्ह AI पेपर्ससाठी एक प्रमुख केंद्र) सादर केलेल्या नोंदींची संख्या जवळपास 350 होती – ही संख्या सामान्यतः कॉन्फरन्स सीझनच्या शिखरावर दिसते.

2022 च्या उन्हाळ्यात Stable Diffusion च्या लाँचनंतरची दोन वर्षे (आणि त्यानंतर Dreambooth आणि LoRA कस्टमायझेशन पद्धतींचा विकास) मोठ्या प्रगतीचा अभाव होता. तथापि, गेल्या काही आठवड्यांमध्ये नवीन रिलीझ आणि नवकल्पनांमध्ये वाढ झाली आहे, इतक्या वेगाने येत आहे की सर्वसमावेशकपणे कव्हर करणे सोडाच, पूर्णपणे माहिती ठेवणे जवळजवळ अशक्य आहे.

टेम्पोरल कन्सिस्टन्सी सोडवणे, पण नवीन आव्हाने उभी राहतात

Hunyuan आणि Wan 2.1 सारख्या व्हिडिओ डिफ्यूजन मॉडेल्सनी शेवटी टेम्पोरल कन्सिस्टन्सीच्या समस्येचे निराकरण केले आहे. शेकडो संशोधन उपक्रमांमधून अनेक वर्षांच्या अयशस्वी प्रयत्नांनंतर, या मॉडेल्सनी कालांतराने सातत्यपूर्ण मानव, वातावरण आणि वस्तू तयार करण्याशी संबंधित आव्हाने मोठ्या प्रमाणात सोडवली आहेत.

यात काही शंका नाही की VFX स्टुडिओ या नवीन चिनी व्हिडिओ मॉडेल्सना जुळवून घेण्यासाठी कर्मचारी आणि संसाधने सक्रियपणे समर्पित करत आहेत. त्यांचे तात्काळ ध्येय फेस-स्वॅपिंगसारख्या दाबणार्‍या आव्हानांना सामोरे जाणे आहे, जरी या प्रणालींसाठी ControlNet-शैलीतील सहायक यंत्रणा सध्या उपलब्ध नसल्या तरी.

अशी एक महत्त्वपूर्ण अडचण संभाव्यतः दूर झाली आहे, जरी ती अपेक्षित चॅनेलद्वारे नसली तरीही, ही एक मोठी गोष्ट आहे.

तथापि, उर्वरित समस्यांपैकी, एक विशेषतः महत्त्वपूर्ण म्हणून उभी आहे:

सध्या उपलब्ध असलेल्या सर्व टेक्स्ट-टू-व्हिडिओ आणि इमेज-टू-व्हिडिओ प्रणाली, ज्यात व्यावसायिक क्लोज्ड-सोर्स मॉडेल्सचा समावेश आहे, भौतिकशास्त्राला हरताळ फासणाऱ्या चुका निर्माण करतात. वरील उदाहरणात एक दगड उलट्या दिशेने घरंगळताना दिसत आहे, जो प्रॉम्प्टमधून तयार केला गेला आहे: ‘एक लहान दगड एका उंच, खडकाळ डोंगरावरून खाली येतो, माती आणि लहान दगड विस्थापित करतो’.

AI व्हिडिओ भौतिकशास्त्र का चुकीचे दर्शवतात?

अलीबाबा आणि UAE यांच्यातील एका शैक्षणिक सहकार्याने अलीकडेच प्रस्तावित केलेल्या एका सिद्धांतानुसार, मॉडेल्स अशा प्रकारे शिकत असतील ज्यामुळे त्यांची टेम्पोरल ऑर्डरची समज कमी होते. व्हिडिओवर प्रशिक्षण देताना (जे प्रशिक्षणासाठी सिंगल-फ्रेम सीक्वेन्समध्ये विभागले जातात), मॉडेल्स ‘आधी’ आणि ‘नंतर’ प्रतिमांचा योग्य क्रम स्वाभाविकपणे समजू शकत नाहीत.

तथापि, सर्वात plausible स्पष्टीकरण असे आहे की प्रश्नातील मॉडेल्सनी डेटा ऑगमेंटेशन रूटीन वापरले आहेत. या रूटीनमध्ये मॉडेलला सोर्स ट्रेनिंग क्लिप फॉरवर्ड आणि बॅकवर्ड दोन्हीमध्ये उघड करणे समाविष्ट आहे, ज्यामुळे ट्रेनिंग डेटा प्रभावीपणे दुप्पट होतो.

हे बऱ्याच काळापासून ज्ञात आहे की हे अंधाधुंदपणे केले जाऊ नये. काही हालचाली उलट्या दिशेने कार्य करतात, तर अनेक करत नाहीत. यूकेच्या युनिव्हर्सिटी ऑफ ब्रिस्टलच्या 2019 च्या अभ्यासाचा उद्देश एकाच डेटासेटमधील equivariant, invariant, आणि irreversible सोर्स डेटा व्हिडिओ क्लिपमध्ये फरक करण्याची पद्धत विकसित करणे हा होता. डेटा ऑगमेंटेशन रूटीनमधून अयोग्य क्लिप फिल्टर करणे हे ध्येय होते.

त्या कामाच्या लेखकांनी समस्या स्पष्टपणे मांडली:

‘आम्हाला असे आढळून आले की उलट्या केलेल्या व्हिडिओंच्या वास्तविकतेमध्ये रिव्हर्सल आर्टिफॅक्ट्स, दृश्याचे असे पैलू आहेत जे नैसर्गिक जगात शक्य होणार नाहीत. काही आर्टिफॅक्ट्स सूक्ष्म असतात, तर काही सहज ओळखता येतात, जसे की उलट ‘थ्रो’ क्रिया जेथे फेकलेली वस्तू आपोआप जमिनीवरून वर येते.

‘आम्ही दोन प्रकारचे रिव्हर्सल आर्टिफॅक्ट्स पाहतो, भौतिक, जे निसर्गाच्या नियमांचे उल्लंघन दर्शवतात आणि असंभवनीय, जे शक्य पण unwikely परिस्थिती दर्शवतात. हे अनन्य नाहीत आणि अनेक उलट्या केलेल्या क्रिया दोन्ही प्रकारच्या आर्टिफॅक्ट्समुळे त्रस्त आहेत, जसे की कागदाचा तुकडा उलगडणे.

‘भौतिक आर्टिफॅक्ट्सच्या उदाहरणांमध्ये हे समाविष्ट आहे: उलटे गुरुत्वाकर्षण (उदा. ‘काहीतरी टाकणे’), वस्तूंवर স্বতঃস্ফূর্ত आवेग (उदा. ‘पेन फिरवणे’) आणि अपरिवर्तनीय स्थिती बदल (उदा. ‘मेणबत्ती जाळणे’). असंभवनीय आर्टिफॅक्टचे एक उदाहरण: कपाटातून प्लेट घेणे, ती वाळवणे आणि वाळवण्याच्या रॅकवर ठेवणे.

‘प्रशिक्षणाच्या वेळी डेटाचा या प्रकारचा पुनर्वापर खूप सामान्य आहे आणि तो फायदेशीर ठरू शकतो – उदाहरणार्थ, मॉडेल प्रतिमेचे किंवा वस्तूचे फक्त एक दृश्य शिकत नाही याची खात्री करण्यासाठी, जे त्याचे मध्यवर्ती सुसंगतता आणि तर्क न गमावता फ्लिप किंवा फिरवले जाऊ शकते.

‘हे अर्थातच, केवळ खऱ्या सममितीय असलेल्या वस्तूंसाठी कार्य करते; आणि ‘उलट्या’ व्हिडिओमधून भौतिकशास्त्र शिकणे केवळ तेव्हाच कार्य करते जेव्हा उलट आवृत्ती फॉरवर्ड आवृत्तीइतकीच अर्थपूर्ण असेल.’

आमच्याकडे ठोस पुरावे नाहीत की Hunyuan Video आणि Wan 2.1 सारख्या प्रणालींनी प्रशिक्षणादरम्यान अनियंत्रित “उलट्या” क्लिपला परवानगी दिली (दोन्ही संशोधन गटांनी त्यांच्या डेटा ऑगमेंटेशन रूटीनबद्दल विशिष्ट माहिती दिली नाही).

तथापि, असंख्य अहवाल (आणि माझा स्वतःचा व्यावहारिक अनुभव) लक्षात घेता, एकमेव যুক্তিসঙ্গত स्पष्टीकरण असे आहे की या मॉडेल्सना सामर्थ्य देणाऱ्या हायपरस्केल डेटासेटमध्ये अशा क्लिप असू शकतात ज्यात खरोखरच उलट्या दिशेने घडणाऱ्या हालचाली आहेत.

पूर्वी एम्बेड केलेल्या उदाहरण व्हिडिओमधील दगड Wan 2.1 वापरून तयार केला गेला होता. व्हिडिओ डिफ्यूजन मॉडेल्स भौतिकशास्त्र कसे हाताळतात याचा तपास करणाऱ्या नवीन अभ्यासात ते वैशिष्ट्यीकृत आहे.

या प्रकल्पाच्या चाचण्यांमध्ये, Wan 2.1 ने भौतिक नियमांचे सातत्याने पालन करण्याच्या क्षमतेमध्ये केवळ 22% गुण मिळवले.

आश्चर्याची गोष्ट म्हणजे, सर्व चाचणी केलेल्या प्रणालींमध्ये हा सर्वोत्तम स्कोअर आहे, जे सूचित करते की आम्ही व्हिडिओ AI साठी पुढील मोठी अडचण ओळखली असेल:

VideoPhy-2 सादर करत आहे: भौतिक सामान्य ज्ञानासाठी एक नवीन बेंचमार्क

नवीन कामाच्या लेखकांनी VideoPhy नावाची एक बेंचमार्किंग प्रणाली विकसित केली आहे, जी आता त्याच्या दुसऱ्या पुनरावृत्तीमध्ये आहे. कोड GitHub वर उपलब्ध आहे.

कामाची व्याप्ती सर्वसमावेशकपणे कव्हर करण्यासाठी खूप मोठी असली तरी, त्याची कार्यपद्धती आणि भविष्यातील मॉडेल-प्रशिक्षण सत्रांना या विचित्र रिव्हर्सलच्या घटनांपासून दूर नेण्यासाठी एक मेट्रिक स्थापित करण्याची त्याची क्षमता तपासूया.

UCLA आणि Google Research च्या सहा संशोधकांनी केलेल्या या अभ्यासाचे शीर्षक आहे VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation. एक व्यापक सोबतचा प्रकल्प साइट देखील उपलब्ध आहे, GitHub वर कोड आणि डेटासेटसह आणि Hugging Face वर डेटासेट दर्शक.

लेखक नवीनतम आवृत्ती, VideoPhy-2 चे वर्णन “वास्तविक-जगातील क्रियांसाठी एक आव्हानात्मक सामान्य ज्ञान मूल्यांकन डेटासेट” असे करतात. या संग्रहात हुला-हूपिंग, जिम्नॅस्टिक्स आणि टेनिस तसेच एखादी वस्तू वाकवून ती तुटेपर्यंत वाकवणे यासारख्या ऑब्जेक्ट परस्परसंवादांसह विविध भौतिक क्रियाकलापांमधील 197 क्रियांचा समावेश आहे.

या सीड क्रियांमधून 3840 प्रॉम्प्ट तयार करण्यासाठी एक मोठे भाषा मॉडेल (LLM) वापरले जाते. हे प्रॉम्प्ट नंतर चाचणी केल्या जात असलेल्या विविध फ्रेमवर्कचा वापर करून व्हिडिओ संश्लेषित करण्यासाठी वापरले जातात.

संपूर्ण प्रक्रियेदरम्यान, लेखकांनी AI-व्युत्पन्न व्हिडिओंचे पालन केले पाहिजे अशा “उमेदवार” भौतिक नियम आणि कायद्यांची एक सूची संकलित केली आहे, मूल्यांकनासाठी व्हिजन-लँग्वेज मॉडेल्स वापरून.

लेखक सांगतात:

‘उदाहरणार्थ, टेनिस खेळणाऱ्या खेळाडूच्या व्हिडिओमध्ये, एक भौतिक नियम असा असेल की टेनिस बॉलने गुरुत्वाकर्षणाखाली पॅराबोलिक ट्रॅजेक्टोरीचे अनुसरण केले पाहिजे. सुवर्ण-मानक निर्णयांसाठी, आम्ही मानवी भाष्यकारांना प्रत्येक व्हिडिओला एकूण अर्थपूर्ण पालन आणि भौतिक सामान्य ज्ञानावर आधारित गुण देण्यासाठी आणि विविध भौतिक नियमांचे पालन करण्यासाठी चिन्हांकित करण्यास सांगतो.’

कृती क्युरेट करणे आणि प्रॉम्प्ट तयार करणे

सुरुवातीला, संशोधकांनी AI-व्युत्पन्न व्हिडिओमध्ये भौतिक सामान्य ज्ञानाचे मूल्यांकन करण्यासाठी कृतींचा एक संच तयार केला. त्यांनी Kinetics, UCF-101, आणि SSv2 डेटासेटमधून 600 पेक्षा जास्त क्रियांनी सुरुवात केली, ज्यामध्ये खेळ, ऑब्जेक्ट परस्परसंवाद आणि वास्तविक-जगातील भौतिकशास्त्र यांचा समावेश असलेल्या क्रियाकलापांवर लक्ष केंद्रित केले.

STEM-प्रशिक्षित विद्यार्थी भाष्यकारांच्या दोन स्वतंत्र गटांनी (किमान पदवीपूर्व पात्रतेसह) यादीचे पुनरावलोकन केले आणि फिल्टर केले. त्यांनी गुरुत्वाकर्षण, गती आणि लवचिकतेसारख्या तत्त्वांची चाचणी घेणाऱ्या क्रिया निवडल्या, तर टाइपिंग, मांजरीला पाळणे किंवा चघळणे यासारखी कमी-गतीची कामे काढून टाकली.

डुप्लिकेट काढून टाकण्यासाठी Gemini-2.0-Flash-Exp सह पुढील परिष्करणानंतर, अंतिम डेटासेटमध्ये 197 क्रियांचा समावेश होता. 54 मध्ये ऑब्जेक्ट परस्परसंवाद समाविष्ट होते आणि 143 भौतिक आणि क्रीडा क्रियाकलापांवर केंद्रित होते:

दुसऱ्या टप्प्यात, संशोधकांनी डेटासेटमधील प्रत्येक क्रियेसाठी 20 प्रॉम्प्ट तयार करण्यासाठी Gemini-2.0-Flash-Exp चा वापर केला, परिणामी एकूण 3,940 प्रॉम्प्ट तयार झाले. जनरेशन प्रक्रियेने दृश्यमान भौतिक परस्परसंवादांवर लक्ष केंद्रित केले जे व्युत्पन्न व्हिडिओमध्ये स्पष्टपणे दर्शविले जाऊ शकतात. यामध्ये भावना, संवेदी तपशील आणि अमूर्त भाषा यासारख्या गैर-दृश्य घटकांचा समावेश नाही, परंतु विविध वर्ण आणि वस्तूंचा समावेश आहे.

उदाहरणार्थ, ‘एक तिरंदाज बाण सोडतो’ यासारख्या साध्या प्रॉम्प्टऐवजी, मॉडेलला ‘एक तिरंदाज धनुष्याची दोरी पूर्ण तणावापर्यंत मागे खेचतो, नंतर बाण सोडतो, जो सरळ उडतो आणि कागदाच्या लक्ष्यावर बुलसी मारतो’ यासारखी अधिक तपशीलवार आवृत्ती तयार करण्यासाठी मार्गदर्शन केले गेले.

आधुनिक व्हिडिओ मॉडेल्स लांब वर्णनांचा अर्थ लावू शकत असल्याने, संशोधकांनी Mistral-NeMo-12B-Instruct प्रॉम्प्ट अपसॅम्पलर वापरून मथळ्यांना अधिक परिष्कृत केले. यामुळे मूळ अर्थ न बदलता दृश्य तपशील जोडले गेले.

भौतिक नियम मिळवणे आणि आव्हानात्मक क्रिया ओळखणे

तिसऱ्या टप्प्यासाठी, भौतिक नियम मजकूर प्रॉम्प्टमधून नव्हे तर व्युत्पन्न व्हिडिओमधून घेतले गेले. याचे कारण असे की जनरेटिव्ह मॉडेल्स कंडिशन केलेल्या मजकूर प्रॉम्प्टचे पालन करण्यासाठी संघर्ष करू शकतात.

व्हिडिओ प्रथम VideoPhy-2 प्रॉम्प्ट वापरून तयार केले गेले, नंतर मुख्य तपशील काढण्यासाठी Gemini-2.0-Flash-Exp सह “अप-कॅप्शन” केले गेले. मॉडेलने प्रत्येक व्हिडिओसाठी तीन अपेक्षित भौतिक नियमांचा प्रस्ताव दिला. मानवी भाष्यकारांनी अतिरिक्त संभाव्य उल्लंघने ओळखून त्यांचे पुनरावलोकन केले आणि विस्तार केला.

पुढे, सर्वात आव्हानात्मक क्रिया ओळखण्यासाठी, संशोधकांनी VideoPhy-2 डेटासेटमधील प्रॉम्प्टसह CogVideoX-5B वापरून व्हिडिओ तयार केले. त्यानंतर त्यांनी 197 क्रियांमधून 60 क्रिया निवडल्या जेथे मॉडेल प्रॉम्प्ट आणि मूलभूत भौतिक सामान्य ज्ञान दोन्हीचे पालन करण्यात सातत्याने अयशस्वी झाले.

या क्रियांमध्ये डिस्कस थ्रोमधील मोमेंटम ट्रान्सफर, वाकलेल्या वस्तू तुटेपर्यंत वाकणे यासारख्या स्थितीतील बदल, टाइट्रोप चालणे यासारखी संतुलन साधणारी कामे आणि बॅक-फ्लिप्स, पोल व्हॉल्टिंग आणि पिझ्झा टॉसिंग यासह जटिल हालचालींचा समावेश होता. उप-डेटासेटची अडचण वाढवण्यासाठी एकूण 1,200 प्रॉम्प्ट निवडले गेले.

VideoPhy-2 डेटासेट: एक व्यापक मूल्यांकन संसाधन

परिणामी डेटासेटमध्ये 3,940 मथळे समाविष्ट आहेत – VideoPhy च्या पूर्वीच्या आवृत्तीपेक्षा 5.72 पट जास्त. मूळ मथळ्यांची सरासरी लांबी 16 टोकन आहे, तर अपसॅम्पल केलेले मथळे 138 टोकनपर्यंत पोहोचतात – अनुक्रमे 1.88 पट आणि 16.2 पट जास्त.

डेटासेटमध्ये एकाधिक व्हिडिओ जनरेशन मॉडेल्समध्ये अर्थपूर्ण पालन, भौतिक सामान्य ज्ञान आणि नियम उल्लंघनांचा समावेश असलेल्या 102,000 मानवी भाष्यांचाही समावेश आहे.

मूल्यमापन निकष आणि मानवी भाष्ये परिभाषित करणे

त्यानंतर संशोधकांनी व्हिडिओंचे मूल्यांकन करण्यासाठी स्पष्ट निकष परिभाषित केले. मुख्य ध्येय हे होते की प्रत्येक व्हिडिओ त्याच्या इनपुट प्रॉम्प्टशी किती जुळतो आणि मूलभूत भौतिक तत्त्वांचे पालन करतो.

केवळ पसंतीनुसार व्हिडिओ रँक करण्याऐवजी, त्यांनी विशिष्ट यश आणि अपयश कॅप्चर करण्यासाठी रेटिंग-आधारित फीडबॅक वापरला. मानवी भाष्यकारांनी पाच-बिंदू स्केलवर व्हिडिओंचे गुण दिले, ज्यामुळे अधिक तपशीलवार निर्णय घेता आले. मूल्यांकनाने व्हिडिओ विविध भौतिक नियम आणि कायद्यांचे पालन करतात की नाही हे देखील तपासले.

मानवी मूल्यांकनासाठी, Amazon Mechanical Turk (AMT) वरील चाचण्यांमधून 12 भाष्यकारांचा एक गट निवडला गेला आणि तपशीलवार रिमोट सूचना प्राप्त केल्यानंतर रेटिंग प्रदान केले. निष्पक्षतेसाठी, अर्थपूर्ण पालन आणि भौतिक सामान्य ज्ञान यांचे स्वतंत्रपणे मूल्यांकन केले गेले (मूळ VideoPhy अभ्यासात, त्यांचे संयुक्तपणे मूल्यांकन केले गेले).

भाष्यकारांनी प्रथम व्हिडिओ त्यांच्या इनपुट प्रॉम्प्टशी किती जुळतात याचे मूल्यांकन केले, नंतर भौतिक संभाव्यतेचे स्वतंत्रपणे मूल्यांकन केले, नियम उल्लंघन आणि एकूण वास्तववादाला पाच-बिंदू स्केलवर गुण दिले. मॉडेल्समध्ये निष्पक्ष तुलना राखण्यासाठी फक्त मूळ प्रॉम्प्ट दर्शविले गेले.

स्वयंचलित मूल्यांकन: स्केलेबल मॉडेल मूल्यांकनाकडे

मानवी निर्णय हे सुवर्ण मानक असले तरी, ते महाग आहे आणि अनेक चेतावणींसह येते. म्हणून, जलद आणि अधिक स्केलेबल मॉडेल मूल्यांकनासाठी स्वयंचलित मूल्यांकन आवश्यक आहे.

पेपरच्या लेखकांनी अनेक व्हिडिओ-लँग्वेज मॉडेल्सची चाचणी केली, ज्यात Gemini-2.0-Flash-Exp आणि VideoScore यांचा समावेश आहे, त्यांची अर्थपूर्ण अचूकता आणि “भौतिक सामान्य ज्ञान” साठी व्हिडिओ स्कोअर करण्याची क्षमता तपासण्यासाठी.

मॉडेल्सने पुन्हा प्रत्येक व्हिडिओला पाच-बिंदू स्केलवर रेट केले. एक वेगळे वर्गीकरण कार्य निर्धारित करते की भौतिक नियमांचे पालन केले गेले, उल्लंघन केले गेले किंवा अस्पष्ट होते.

प्रयोगांनी दर्शविले की विद्यमान व्हिडिओ-लँग्वेज मॉडेल्स मानवी निर्णयांशी जुळण्यासाठी संघर्ष करतात, मुख्यतः कमकुवत भौतिक तर्क आणि प्रॉम्प्टच्या जटिलतेमुळे. स्वयंचलित मूल्यांकन सुधारण्यासाठी, संशोधकांनी VideoPhy-2-Autoeval विकसित केले, जे 7B-पॅरामीटर मॉडेल आहे जे तीन श्रेणींमध्ये अधिक अचूक अंदाज देण्यासाठी डिझाइन केलेले आहे: अर्थपूर्ण पालन; भौतिक सामान्य ज्ञान; आणि नियम पालन. 50,000 मानवी भाष्ये* वापरून VideoCon-Physics मॉडेलवर ते फाइन-ट्यून केले गेले.

जनरेटिव्ह व्हिडिओ सिस्टमची चाचणी: एक तुलनात्मक विश्लेषण

ही साधने उपलब्ध झाल्यावर, लेखकांनी अनेक जनरेटिव्ह व्हिडिओ सिस्टमची चाचणी केली, स्थानिक इंस्टॉलेशन्सद्वारे आणि आवश्यक असल्यास, व्यावसायिक API द्वारे: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; आणि Luma Ray.

मॉडेल्सना शक्य असेल तेथे अपसॅम्पल केलेल्या मथळ्यांसह प्रॉम्प्ट केले गेले, अपवाद वगळता Hunyuan Video आणि VideoCrafter2 77-टोकन CLIP मर्यादांखाली कार्य करतात आणि विशिष्ट लांबीपेक्षा जास्त प्रॉम्प्ट स्वीकारू शकत नाहीत.

व्युत्पन्न व्हिडिओ 6 सेकंदांपेक्षा कमी ठेवले गेले, कारण लहान आउटपुटचे मूल्यांकन करणे सोपे आहे.

ड्रायव्हिंग डेटा VideoPhy-2 डेटासेटमधून होता, जो बेंचमार्क आणि प्रशिक्षण संचामध्ये विभागला गेला होता. Sora आणि Ray2 वगळता, प्रति मॉडेल 590 व्हिडिओ तयार केले गेले; खर्चाच्या घटकामुळे, यांसाठी समतुल्य कमी संख्येने व्हिडिओ तयार केले गेले.

सुरुवातीच्या मूल्यांकनाने शारीरिक क्रियाकलाप/खेळ (PA) आणि ऑब्जेक्ट परस्परसंवाद (OI) हाताळले आणि सामान्य डेटासेट आणि उपरोक्त “कठीण” सबसेट दोन्हीची चाचणी केली:

येथे लेखक टिप्पणी करतात:

‘सर्वात चांगली कामगिरी करणारे मॉडेल, Wan2.1-14B, आमच्या डेटासेटच्या पूर्ण आणि कठीण विभाजनांवर अनुक्रमे केवळ 32.6% आणि 21.9% साध्य करते. इतर मॉडेल्सच्या तुलनेत त्याची तुलनेने मजबूत कामगिरी त्याच्या मल्टीमॉडल ट्रेनिंग डेटाच्या विविधतेमुळे तसेच मजबूत मोशन फिल्टरिंगमुळे दिली जाऊ शकते जी विविध प्रकारच्या क्रियांमध्ये उच्च-गुणवत्तेचे व्हिडिओ जतन करते.

‘शिवाय, आम्ही पाहतो की Ray2 सारखे बंद मॉडेल Wan2.1-14B आणि CogVideoX-5B सारख्या खुल्या मॉडेल्सपेक्षा वाईट कामगिरी करतात. हे सूचित करते की बंद मॉडेल भौतिक सामान्य ज्ञान कॅप्चर करण्यात खुल्या मॉडेल्सपेक्षा श्रेष्ठ असणे आवश्यक नाही.

‘विशेष म्हणजे, Cosmos-Diffusion-7B कठीण विभाजनावर दुसरा-सर्वोत्तम स्कोअर प्राप्त करतो, अगदी मोठ्या HunyuanVideo-13B मॉडेलपेक्षाही चांगली कामगिरी करतो. हे त्याच्या प्रशिक्षण डेटामध्ये मानवी क्रियांच्या उच्च प्रतिनिधित्वामुळे तसेच कृत्रिमरित्या प्रस्तुत केलेल्या सिम्युलेशनमुळे असू शकते.’

परिणामांनी दर्शविले की व्हिडिओ मॉडेल्स सोप्या ऑब्जेक्ट परस्परसंवादांपेक्षा शारीरिक क्रियाकलाप जसे की खेळांशी अधिक संघर्ष करतात. हे सूचित करते की या क्षेत्रात AI-व्युत्पन्न व्हिडिओ सुधारण्यासाठी चांगल्या डेटासेटची आवश्यकता असेल – विशेषतः टेनिस, डिस्कस, बेसबॉल आणि क्रिकेट यासारख्या खेळांचे उच्च-गुणवत्तेचे फुटेज.

अभ्यासात हे देखील तपासले गेले की मॉडेलची भौतिक संभाव्यता इतर व्हिडिओ गुणवत्ता मेट्रिक्सशी संबंधित आहे की नाही, जसे की सौंदर्यशास्त्र आणि गतीची सहजता. निष्कर्षांमध्ये कोणताही मजबूत संबंध दिसून आला नाही, याचा अर्थ असा की एखादे मॉडेल केवळ दृष्यदृष्ट्या आकर्षक किंवा द्रव गती निर्माण करून VideoPhy-2 वरील त्याची कार्यक्षमता सुधारू शकत नाही – त्याला भौतिक सामान्य ज्ञानाची अधिक सखोल समज आवश्यक आहे.

गुणात्मक उदाहरणे: आव्हाने हायलाइट करणे

पेपरमध्ये भरपूर गुणात्मक उदाहरणे दिली असली तरी, PDF मध्ये दिलेली काही स्थिर उदाहरणे लेखकांनी प्रकल्प साइटवर दिलेल्या विस्तृत व्हिडिओ-आधारित उदाहरणांशी संबंधित असल्याचे दिसत नाही. म्हणून, आम्ही स्थिर उदाहरणांची एक लहान निवड आणि नंतर काही वास्तविक प्रकल्प व्हिडिओ पाहू.

वरील गुणात्मक चाचणीबद्दल, लेखक टिप्पणी करतात:

‘[आम्ही] भौतिक सामान्य ज्ञानाचे उल्लंघन पाहतो, जसे की जेटस्की अनैसर्गिकरित्या उलट्या दिशेने फिरणे आणि लवचिकतेच्या तत्त्वांना झुगारून घन स्लेजहॅमरचे विरूपण. तथापि, अगदी Wan देखील भौतिक सामान्य ज्ञानाच्या अभावामुळे त्रस्त आहे, जसे [या लेखाच्या सुरुवातीला एम्बेड केलेल्या क्लिपमध्ये] दर्शविले आहे.

‘या प्रकरणात, आम्ही हायलाइट करतो की एक दगड गुरुत्वाकर्षणाच्या भौतिक नियमाचे उल्लंघन करून, उतारावर घरंगळायला लागतो आणि वेग वाढवतो.’

सुरुवातीला नमूद केल्याप्रमाणे, या प्रकल्पाशी संबंधित सामग्रीची मात्रा येथे कव्हर करता येण्यापेक्षा खूप जास्त आहे. म्हणून, लेखकांच्या कार्यपद्धतीची खरोखरच विस्तृत रूपरेषा आणि लक्षणीय अधिक चाचणी उदाहरणे आणि प्रक्रियात्मक तपशीलांसाठी कृपया स्त्रोत पेपर, प्रकल्प साइट आणि पूर्वी नमूद केलेल्या संबंधित साइट्सचा संदर्भ घ्या.

* भाष्यांच्या उत्पत्तीसाठी, पेपर फक्त ‘या कार्यांसाठी मिळवलेले’ निर्दिष्ट करतो – असे दिसते की 12 AMT कामगारांनी बरेच काही तयार केले आहे.