चीनी जेनरेटिव वीडियो मॉडल्स का उदय
Tencent के Hunyuan Video ने पहले ही शौकिया AI समुदाय में महत्वपूर्ण लहरें पैदा की हैं। एक फुल-वर्ल्ड वीडियो डिफ्यूजन मॉडल की इसकी ओपन-सोर्स रिलीज़ उपयोगकर्ताओं को तकनीक को अपनी विशिष्ट आवश्यकताओं के अनुरूप बनाने की अनुमति देती है।
इसके ठीक पीछे Alibaba का Wan 2.1 है, जिसे हाल ही में जारी किया गया था। यह मॉडल वर्तमान में उपलब्ध सबसे शक्तिशाली इमेज-टू-वीडियो फ्री और ओपन सोर्स सॉफ्टवेयर (FOSS) समाधानों में से एक के रूप में सामने आता है, और यह अब Wan LoRAs के माध्यम से अनुकूलन का समर्थन करता है।
इन विकासों के अलावा, हम Alibaba के व्यापक VACE वीडियो निर्माण और संपादन सूट के साथ-साथ हाल ही में मानव-केंद्रित फाउंडेशन मॉडल, SkyReels की उपलब्धता की भी उम्मीद कर रहे हैं।
जेनरेटिव वीडियो AI अनुसंधान का दृश्य भी उतना ही विस्फोटक है। अभी मार्च की शुरुआत ही है, फिर भी मंगलवार को Arxiv के कंप्यूटर विजन अनुभाग (जेनरेटिव AI पेपर के लिए एक प्रमुख केंद्र) में प्रस्तुतियाँ लगभग 350 प्रविष्टियाँ थीं - यह संख्या आमतौर पर सम्मेलन के मौसम के चरम के दौरान देखी जाती है।
2022 की गर्मियों में Stable Diffusion के लॉन्च (और बाद में Dreambooth और LoRA अनुकूलन विधियों के विकास) के बाद के दो वर्षों में प्रमुख सफलताओं की सापेक्ष कमी थी। हालाँकि, पिछले कुछ हफ्तों में नई रिलीज़ और नवाचारों में तेजी देखी गई है, जो इतनी तेज़ गति से आ रहे हैं कि पूरी तरह से सूचित रहना तो दूर, हर चीज को व्यापक रूप से कवर करना लगभग असंभव है।
टेम्पोरल कंसिस्टेंसी को हल करना, लेकिन नई चुनौतियाँ उभरती हैं
Hunyuan और Wan 2.1 जैसे वीडियो डिफ्यूजन मॉडल ने आखिरकार टेम्पोरल कंसिस्टेंसी के मुद्दे को संबोधित किया है। सैकड़ों शोध पहलों के वर्षों के असफल प्रयासों के बाद, इन मॉडलों ने समय के साथ सुसंगत मनुष्यों, वातावरणों और वस्तुओं को उत्पन्न करने से संबंधित चुनौतियों को काफी हद तक हल कर दिया है।
इसमें कोई संदेह नहीं है कि VFX स्टूडियो सक्रिय रूप से इन नए चीनी वीडियो मॉडलों को अपनाने के लिए कर्मचारियों और संसाधनों को समर्पित कर रहे हैं। उनका तात्कालिक लक्ष्य इन प्रणालियों के लिए ControlNet-शैली के सहायक तंत्र की वर्तमान अनुपस्थिति के बावजूद, फेस-स्वैपिंग जैसी दबाव वाली चुनौतियों से निपटना है।
यह एक बहुत बड़ी राहत होनी चाहिए कि इस तरह की एक महत्वपूर्ण बाधा को संभावित रूप से दूर कर लिया गया है, भले ही यह प्रत्याशित चैनलों के माध्यम से नहीं था।
हालाँकि, शेष समस्याओं में से, एक विशेष रूप से महत्वपूर्ण है:
वाणिज्यिक क्लोज्ड-सोर्स मॉडल सहित सभी वर्तमान में उपलब्ध टेक्स्ट-टू-वीडियो और इमेज-टू-वीडियो सिस्टम में भौतिकी-विरोधी ब्लंडर उत्पन्न करने की प्रवृत्ति होती है। ऊपर दिया गया उदाहरण एक चट्टान को ऊपर की ओर लुढ़कते हुए दिखाता है, जो इस प्रॉम्प्ट से उत्पन्न हुआ है: ‘एक छोटी चट्टान एक खड़ी, चट्टानी पहाड़ी से नीचे गिरती है, मिट्टी और छोटे पत्थरों को विस्थापित करती है’।
AI वीडियो भौतिकी को गलत क्यों समझते हैं?
एक सिद्धांत, हाल ही में Alibaba और UAE के बीच एक अकादमिक सहयोग में प्रस्तावित, सुझाव देता है कि मॉडल इस तरह से सीख रहे होंगे जो लौकिक क्रम की उनकी समझ में बाधा डालता है। यहां तक कि वीडियो पर प्रशिक्षण करते समय (जो प्रशिक्षण के लिए एकल-फ़्रेम अनुक्रमों में विभाजित होते हैं), मॉडल स्वाभाविक रूप से “पहले” और “बाद” छवियों के सही अनुक्रम को नहीं समझ सकते हैं।
हालाँकि, सबसे प्रशंसनीय व्याख्या यह है कि विचाराधीन मॉडलों ने डेटा वृद्धि रूटीन को नियोजित किया है। इन रूटीन में मॉडल को एक स्रोत प्रशिक्षण क्लिप को आगे और पीछे दोनों ओर उजागर करना शामिल है, प्रभावी रूप से प्रशिक्षण डेटा को दोगुना करना।
यह कुछ समय से ज्ञात है कि इसे अंधाधुंध तरीके से नहीं किया जाना चाहिए। जबकि कुछ गतिविधियाँ रिवर्स में काम करती हैं, कई नहीं करती हैं। यूके की यूनिवर्सिटी ऑफ ब्रिस्टल के 2019 के एक अध्ययन का उद्देश्य एक ही डेटासेट के भीतर समतुल्य, अपरिवर्तनीय, और अपरिवर्तनीय स्रोत डेटा वीडियो क्लिप के बीच अंतर करने के लिए एक विधि विकसित करना था। लक्ष्य डेटा वृद्धि रूटीन से अनुपयुक्त क्लिप को फ़िल्टर करना था।
उस कार्य के लेखकों ने स्पष्ट रूप से समस्या को व्यक्त किया:
*’हम पाते हैं कि उलटे वीडियो की यथार्थता उलटा कलाकृतियों द्वारा धोखा दी जाती है, दृश्य के ऐसे पहलू जो प्राकृतिक दुनिया में संभव नहीं होंगे। कुछ कलाकृतियाँ सूक्ष्म होती हैं, जबकि अन्य को पहचानना आसान होता है, जैसे कि एक उलटा ‘फेंकना’ क्रिया जहाँ फेंकी गई वस्तु अनायास फर्श से उठती है।
*’हम दो प्रकार की उलटा कलाकृतियों का निरीक्षण करते हैं, भौतिक, जो प्रकृति के नियमों के उल्लंघन को प्रदर्शित करती हैं, और असंभव, जो एक संभावित लेकिन असंभावित परिदृश्य को दर्शाती हैं। ये अनन्य नहीं हैं, और कई उलटी क्रियाएं दोनों प्रकार की कलाकृतियों से पीड़ित होती हैं, जैसे कि कागज के एक टुकड़े को खोलना।
*’भौतिक कलाकृतियों के उदाहरणों में शामिल हैं: उलटा गुरुत्वाकर्षण (जैसे ‘कुछ गिराना’), वस्तुओं पर सहज आवेग (जैसे ‘एक कलम घुमाना’), और अपरिवर्तनीय स्थिति परिवर्तन (जैसे ‘एक मोमबत्ती जलाना’)। एक असंभव कलाकृति का एक उदाहरण: अलमारी से एक प्लेट लेना, उसे सुखाना और सुखाने वाले रैक पर रखना।
*’इस तरह का डेटा का पुन: उपयोग प्रशिक्षण के समय बहुत आम है, और फायदेमंद हो सकता है - उदाहरण के लिए, यह सुनिश्चित करने में कि मॉडल केवल एक छवि या वस्तु का एक दृश्य नहीं सीखता है जिसे अपनी केंद्रीय सुसंगतता और तर्क को खोए बिना फ़्लिप या घुमाया जा सकता है।
‘यह केवल उन वस्तुओं के लिए काम करता है जो वास्तव में सममित हैं, निश्चित रूप से; और एक ‘उलटे’ वीडियो से भौतिकी सीखना तभी काम करता है जब उलटा संस्करण आगे के संस्करण जितना ही समझ में आता है।’
हमारे पास ठोस सबूत नहीं है कि Hunyuan Video और Wan 2.1 जैसे सिस्टम ने प्रशिक्षण के दौरान मनमानी “उलटी” क्लिप की अनुमति दी (किसी भी शोध समूह ने अपने डेटा वृद्धि रूटीन के बारे में विशिष्ट नहीं किया है)।
हालाँकि, कई रिपोर्टों (और मेरे अपने व्यावहारिक अनुभव) को ध्यान में रखते हुए, एकमात्र अन्य उचित व्याख्या यह है कि इन मॉडलों को शक्ति देने वाले हाइपरस्केल डेटासेट में क्लिप हो सकते हैं जो वास्तव में रिवर्स में होने वाली गतिविधियों को प्रदर्शित करते हैं।
पहले एम्बेड किए गए उदाहरण वीडियो में चट्टान Wan 2.1 का उपयोग करके उत्पन्न की गई थी। यह एक नए अध्ययन में चित्रित किया गया है जो जांच करता है कि वीडियो डिफ्यूजन मॉडल भौतिकी को कितनी अच्छी तरह संभालते हैं।
इस परियोजना के परीक्षणों में, Wan 2.1 ने भौतिक कानूनों का लगातार पालन करने की अपनी क्षमता में केवल 22% का स्कोर हासिल किया।
आश्चर्यजनक रूप से, यह परीक्षण किए गए सभी प्रणालियों में सर्वश्रेष्ठ स्कोर है, यह सुझाव देता है कि हमने वीडियो AI के लिए अगली बड़ी बाधा की पहचान की होगी:
VideoPhy-2 का परिचय: भौतिक सामान्य ज्ञान के लिए एक नया बेंचमार्क
नए कार्य के लेखकों ने VideoPhy नामक एक बेंचमार्किंग प्रणाली विकसित की है, जो अब अपने दूसरे पुनरावृत्ति में है। कोड GitHub पर उपलब्ध है।
जबकि कार्य का दायरा यहां व्यापक रूप से कवर करने के लिए बहुत व्यापक है, आइए इसकी कार्यप्रणाली और एक मीट्रिक स्थापित करने की इसकी क्षमता की जांच करें जो भविष्य के मॉडल-प्रशिक्षण सत्रों को उलटने के इन विचित्र उदाहरणों से दूर कर सकती है।
UCLA और Google Research के छह शोधकर्ताओं द्वारा किए गए अध्ययन का शीर्षक VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation है। एक व्यापक सहयोगी परियोजना साइट भी उपलब्ध है, साथ ही GitHub पर कोड और डेटासेट, और Hugging Face पर एक डेटासेट व्यूअर भी उपलब्ध है।
लेखक नवीनतम संस्करण, VideoPhy-2 को “वास्तविक दुनिया की क्रियाओं के लिए एक चुनौतीपूर्ण सामान्य ज्ञान मूल्यांकन डेटासेट” के रूप में वर्णित करते हैं। संग्रह में विविध भौतिक गतिविधियों की एक श्रृंखला में 197 क्रियाएं शामिल हैं, जिनमें हुला-हूपिंग, जिमनास्टिक और टेनिस के साथ-साथ किसी वस्तु को तब तक मोड़ना जब तक वह टूट न जाए जैसी वस्तु बातचीत शामिल है।
इन बीज क्रियाओं से 3840 प्रॉम्प्ट उत्पन्न करने के लिए एक बड़े भाषा मॉडल (LLM) का उपयोग किया जाता है। इन प्रॉम्प्ट का उपयोग तब परीक्षण किए जा रहे विभिन्न ढांचे का उपयोग करके वीडियो को संश्लेषित करने के लिए किया जाता है।
पूरी प्रक्रिया के दौरान, लेखकों ने “उम्मीदवार” भौतिक नियमों और कानूनों की एक सूची संकलित की है, जिनका AI-जनित वीडियो को पालन करना चाहिए, मूल्यांकन के लिए विजन-लैंग्वेज मॉडल का उपयोग करना चाहिए।
लेखक कहते हैं:
‘उदाहरण के लिए, एक खिलाड़ी के टेनिस खेलने के वीडियो में, एक भौतिक नियम यह होगा कि एक टेनिस गेंद को गुरुत्वाकर्षण के तहत एक परवलयिक प्रक्षेपवक्र का पालन करना चाहिए। स्वर्ण-मानक निर्णयों के लिए, हम मानव एनोटेटर्स से प्रत्येक वीडियो को समग्र शब्दार्थ पालन और भौतिक सामान्य ज्ञान के आधार पर स्कोर करने और विभिन्न भौतिक नियमों के साथ इसके अनुपालन को चिह्नित करने के लिए कहते हैं।’
क्रियाओं को क्यूरेट करना और प्रॉम्प्ट जेनरेट करना
प्रारंभ में, शोधकर्ताओं ने AI-जनित वीडियो में भौतिक सामान्य ज्ञान का मूल्यांकन करने के लिए क्रियाओं का एक सेट क्यूरेट किया। उन्होंने Kinetics, UCF-101 और SSv2 डेटासेट से प्राप्त 600 से अधिक क्रियाओं के साथ शुरुआत की, जिसमें खेल, वस्तु बातचीत और वास्तविक दुनिया की भौतिकी से जुड़ी गतिविधियों पर ध्यान केंद्रित किया गया।
STEM-प्रशिक्षित छात्र एनोटेटर्स के दो स्वतंत्र समूहों (न्यूनतम स्नातक योग्यता के साथ) ने सूची की समीक्षा की और उसे फ़िल्टर किया। उन्होंने उन क्रियाओं का चयन किया जो गुरुत्वाकर्षण, संवेग और लोच जैसे सिद्धांतों का परीक्षण करती हैं, जबकि टाइपिंग, एक बिल्ली को पालतू बनाना या चबाना जैसे कम-गति वाले कार्यों को हटा दिया।
डुप्लिकेट को खत्म करने के लिए Gemini-2.0-Flash-Exp के साथ आगे के परिशोधन के बाद, अंतिम डेटासेट में 197 क्रियाएं शामिल थीं। 54 में वस्तु बातचीत शामिल थी, और 143 भौतिक और खेल गतिविधियों पर केंद्रित थीं:
दूसरे चरण में, शोधकर्ताओं ने डेटासेट में प्रत्येक क्रिया के लिए 20 प्रॉम्प्ट उत्पन्न करने के लिए Gemini-2.0-Flash-Exp का उपयोग किया, जिसके परिणामस्वरूप कुल 3,940 प्रॉम्प्ट हुए। पीढ़ी की प्रक्रिया दृश्यमान भौतिक अंतःक्रियाओं पर केंद्रित थी जिसे एक उत्पन्न वीडियो में स्पष्ट रूप से दर्शाया जा सकता है। इसने गैर-दृश्य तत्वों जैसे भावनाओं, संवेदी विवरण और अमूर्त भाषा को बाहर रखा, लेकिन विविध पात्रों और वस्तुओं को शामिल किया।
उदाहरण के लिए, ‘एक तीरंदाज तीर छोड़ता है’ जैसे सरल प्रॉम्प्ट के बजाय, मॉडल को एक अधिक विस्तृत संस्करण बनाने के लिए निर्देशित किया गया था जैसे ‘एक तीरंदाज धनुष की डोरी को पूरी तरह से तनाव में वापस खींचता है, फिर तीर छोड़ता है, जो सीधा उड़ता है और एक कागज के लक्ष्य पर एक बुल्सआई मारता है’।
चूंकि आधुनिक वीडियो मॉडल लंबी व्याख्याओं की व्याख्या कर सकते हैं, इसलिए शोधकर्ताओं ने Mistral-NeMo-12B-Instruct प्रॉम्प्ट अपसैंपलर का उपयोग करके कैप्शन को और परिष्कृत किया। इसने मूल अर्थ को बदले बिना दृश्य विवरण जोड़े।
भौतिक नियमों को प्राप्त करना और चुनौतीपूर्ण क्रियाओं की पहचान करना
तीसरे चरण के लिए, भौतिक नियम पाठ प्रॉम्प्ट से नहीं बल्कि उत्पन्न वीडियो से प्राप्त किए गए थे। ऐसा इसलिए है क्योंकि जेनरेटिव मॉडल वातानुकूलित पाठ प्रॉम्प्ट का पालन करने के लिए संघर्ष कर सकते हैं।
वीडियो पहले VideoPhy-2 प्रॉम्प्ट का उपयोग करके बनाए गए थे, फिर प्रमुख विवरण निकालने के लिए Gemini-2.0-Flash-Exp के साथ “अप-कैप्शन” किए गए थे। मॉडल ने प्रति वीडियो तीन अपेक्षित भौतिक नियमों का प्रस्ताव रखा। मानव एनोटेटर्स ने अतिरिक्त संभावित उल्लंघनों की पहचान करके इनकी समीक्षा की और विस्तार किया।
इसके बाद, सबसे चुनौतीपूर्ण क्रियाओं की पहचान करने के लिए, शोधकर्ताओं ने VideoPhy-2 डेटासेट से प्रॉम्प्ट के साथ CogVideoX-5B का उपयोग करके वीडियो उत्पन्न किए। फिर उन्होंने 197 क्रियाओं में से 60 का चयन किया जहां मॉडल लगातार प्रॉम्प्ट और बुनियादी भौतिक सामान्य ज्ञान दोनों का पालन करने में विफल रहा।
इन क्रियाओं में संवेग हस्तांतरण जैसे डिस्कस थ्रोइंग, किसी वस्तु को तब तक मोड़ना जब तक वह टूट न जाए, टाइटरोप वॉकिंग जैसे संतुलन कार्य, और बैक-फ्लिप, पोल वॉल्टिंग और पिज्जा टॉसिंग सहित जटिल गतियां शामिल थीं। उप-डेटासेट की कठिनाई को बढ़ाने के लिए कुल1,200 प्रॉम्प्ट चुने गए थे।
VideoPhy-2 डेटासेट: एक व्यापक मूल्यांकन संसाधन
परिणामी डेटासेट में 3,940 कैप्शन शामिल थे - VideoPhy के पहले संस्करण से 5.72 गुना अधिक। मूल कैप्शन की औसत लंबाई 16 टोकन है, जबकि अपसैंपल किए गए कैप्शन क्रमशः 138 टोकन तक पहुंचते हैं - 1.88 गुना और 16.2 गुना अधिक।
डेटासेट में कई वीडियो पीढ़ी मॉडल में शब्दार्थ पालन, भौतिक सामान्य ज्ञान और नियम उल्लंघनों को कवर करने वाले 102,000 मानव एनोटेशन भी शामिल हैं।
मूल्यांकन मानदंड और मानव एनोटेशन को परिभाषित करना
शोधकर्ताओं ने तब वीडियो का मूल्यांकन करने के लिए स्पष्ट मानदंड परिभाषित किए। मुख्य लक्ष्य यह आकलन करना था कि प्रत्येक वीडियो अपने इनपुट प्रॉम्प्ट से कितनी अच्छी तरह मेल खाता है और बुनियादी भौतिक सिद्धांतों का पालन करता है।
वरीयता के आधार पर वीडियो को केवल रैंक करने के बजाय, उन्होंने विशिष्ट सफलताओं और विफलताओं को पकड़ने के लिए रेटिंग-आधारित प्रतिक्रिया का उपयोग किया। मानव एनोटेटर्स ने पांच-बिंदु पैमाने पर वीडियो बनाए, जिससे अधिक विस्तृत निर्णय लिए जा सके। मूल्यांकन ने यह भी जांचा कि क्या वीडियो विभिन्न भौतिक नियमों और कानूनों का पालन करते हैं।
मानव मूल्यांकन के लिए, 12 एनोटेटर्स के एक समूह को Amazon Mechanical Turk (AMT) पर परीक्षणों से चुना गया था और विस्तृत दूरस्थ निर्देश प्राप्त करने के बाद रेटिंग प्रदान की गई थी। निष्पक्षता के लिए, शब्दार्थ पालन और भौतिक सामान्य ज्ञान का अलग-अलग मूल्यांकन किया गया था (मूल VideoPhy अध्ययन में, उनका संयुक्त रूप से मूल्यांकन किया गया था)।
एनोटेटर्स ने पहले यह मूल्यांकन किया कि वीडियो अपने इनपुट प्रॉम्प्ट से कितनी अच्छी तरह मेल खाते हैं, फिर अलग-अलग भौतिक प्रशंसनीयता का मूल्यांकन किया, पांच-बिंदु पैमाने पर नियम उल्लंघनों और समग्र यथार्थवाद को स्कोर किया। मॉडल में एक उचित तुलना बनाए रखने के लिए केवल मूल प्रॉम्प्ट दिखाए गए थे।
स्वचालित मूल्यांकन: स्केलेबल मॉडल मूल्यांकन की ओर
हालांकि मानव निर्णय स्वर्ण मानक बना हुआ है, यह महंगा है और कई चेतावनियों के साथ आता है। इसलिए, तेज़ और अधिक स्केलेबल मॉडल आकलन के लिए स्वचालित मूल्यांकन आवश्यक है।
पेपर के लेखकों ने कई वीडियो-भाषा मॉडल का परीक्षण किया, जिसमें Gemini-2.0-Flash-Exp और VideoScore शामिल हैं, शब्दार्थ सटीकता और “भौतिक सामान्य ज्ञान” के लिए वीडियो स्कोर करने की उनकी क्षमता पर।
मॉडल ने फिर से प्रत्येक वीडियो को पांच-बिंदु पैमाने पर रेट किया। एक अलग वर्गीकरण कार्य ने निर्धारित किया कि क्या भौतिक नियमों का पालन किया गया, उल्लंघन किया गया या अस्पष्ट था।
प्रयोगों से पता चला कि मौजूदा वीडियो-भाषा मॉडल मानव निर्णयों से मेल खाने के लिए संघर्ष करते हैं, मुख्य रूप से कमजोर भौतिक तर्क और प्रॉम्प्ट की जटिलता के कारण। स्वचालित मूल्यांकन को बेहतर बनाने के लिए, शोधकर्ताओं ने VideoPhy-2-Autoeval विकसित किया, जो तीन श्रेणियों में अधिक सटीक भविष्यवाणियां प्रदान करने के लिए डिज़ाइन किया गया एक 7B-पैरामीटर मॉडल है: शब्दार्थ पालन; भौतिक सामान्य ज्ञान; और नियम अनुपालन। इसे 50,000 मानव एनोटेशन* का उपयोग करके VideoCon-Physics मॉडल पर ठीक-ठीक ट्यून किया गया था।
जेनरेटिव वीडियो सिस्टम का परीक्षण: एक तुलनात्मक विश्लेषण
इन उपकरणों के साथ, लेखकों ने कई जेनरेटिव वीडियो सिस्टम का परीक्षण किया, दोनों स्थानीय इंस्टॉलेशन के माध्यम से और, जहां आवश्यक हो, वाणिज्यिक API के माध्यम से: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; और Luma Ray.
मॉडल को जहां संभव हो, अपसैंपल किए गए कैप्शन के साथ प्रेरित किया गया था, सिवाय इसके कि Hunyuan Video और VideoCrafter2 77-टोकन CLIP सीमाओं के तहत काम करते हैं और एक निश्चित लंबाई से ऊपर के प्रॉम्प्ट को स्वीकार नहीं कर सकते हैं।
उत्पन्न वीडियो को 6 सेकंड से कम रखा गया था, क्योंकि कम आउटपुट का मूल्यांकन करना आसान होता है।
ड्राइविंग डेटा VideoPhy-2 डेटासेट से था, जिसे एक बेंचमार्क और प्रशिक्षण सेट में विभाजित किया गया था। Sora और Ray2 को छोड़कर, प्रति मॉडल 590 वीडियो उत्पन्न किए गए थे; लागत कारक के कारण, इन के लिए समकक्ष कम संख्या में वीडियो उत्पन्न किए गए थे।
प्रारंभिक मूल्यांकन भौतिक गतिविधियों/खेलों (PA) और वस्तु अंतःक्रियाओं (OI) से निपटा और सामान्य डेटासेट और उपर्युक्त “कठिन” सबसेट दोनों का परीक्षण किया:
यहां लेखक टिप्पणी करते हैं:
*’यहां तक कि सबसे अच्छा प्रदर्शन करने वाला मॉडल, Wan2.1-14B, हमारे डेटासेट के पूर्ण और कठिन विभाजन पर क्रमशः केवल 32.6% और 21.9% प्राप्त करता है। अन्य मॉडलों की तुलना में इसके अपेक्षाकृत मजबूत प्रदर्शन को इसके बहुविध प्रशिक्षण डेटा की विविधता के साथ-साथ मजबूत गति फ़िल्टरिंग के लिए जिम्मेदार ठहराया जा सकता है जो क्रियाओं की एक विस्तृत श्रृंखला में उच्च-गुणवत्ता वाले वीडियो को संरक्षित करता है।
*’इसके अलावा, हम देखते हैं कि बंद मॉडल, जैसे कि Ray2, Wan2.1-14B और CogVideoX-5B जैसे खुले मॉडल से भी बदतर प्रदर्शन करते हैं। इससे पता चलता है कि बंद मॉडल भौतिक सामान्य ज्ञान को पकड़ने में खुले मॉडल से बेहतर नहीं हैं।
‘विशेष रूप से, Cosmos-Diffusion-7B कठिन विभाजन पर दूसरा-सर्वश्रेष्ठ स्कोर प्राप्त करता है, यहां तक कि बहुत बड़े HunyuanVideo-13B मॉडल से भी बेहतर प्रदर्शन करता है। यह इसके प्रशिक्षण डेटा में मानव क्रियाओं के उच्च प्रतिनिधित्व के साथ-साथ कृत्रिम रूप से प्रस्तुत सिमुलेशन के कारण हो सकता है।’
परिणामों से पता चला कि वीडियो मॉडल सरल वस्तु अंतःक्रियाओं की तुलना में खेल जैसी भौतिक गतिविधियों के साथ अधिक संघर्ष करते हैं। इससे पता चलता है कि इस क्षेत्र में AI-जनित वीडियो को बेहतर बनाने के लिए बेहतर डेटासेट की आवश्यकता होगी - विशेष रूप से टेनिस, डिस्कस, बेसबॉल और क्रिकेट जैसे खेलों के उच्च-गुणवत्ता वाले फुटेज।
अध्ययन ने यह भी जांच की कि क्या किसी मॉडल की भौतिक प्रशंसनीयता अन्य वीडियो गुणवत्ता मेट्रिक्स, जैसे सौंदर्यशास्त्र और गति चिकनाई के साथ सहसंबद्ध है। निष्कर्षों से कोई मजबूत संबंध नहीं दिखा, जिसका अर्थ है कि एक मॉडल केवल दृश्यमान रूप से आकर्षक या द्रव गति उत्पन्न करके VideoPhy-2 पर अपने प्रदर्शन में सुधार नहीं कर सकता है - इसे भौतिक सामान्य ज्ञान की गहरी समझ की आवश्यकता है।
गुणात्मक उदाहरण: चुनौतियों को उजागर करना
हालांकि पेपर प्रचुर मात्रा में गुणात्मक उदाहरण प्रदान करता है, पीडीएफ में प्रदान किए गए कुछ स्थिर उदाहरण परियोजना स्थल पर लेखकों द्वारा प्रस्तुत किए गए व्यापक वीडियो-आधारित उदाहरणों से संबंधित प्रतीत होते हैं। इसलिए, हम स्थिर उदाहरणों के एक छोटे से चयन और फिर कुछ और वास्तविक परियोजना वीडियो देखेंगे।
उपरोक्त गुणात्मक परीक्षण के बारे में, लेखक टिप्पणी करते हैं:
*’[हम] भौतिक सामान्य ज्ञान के उल्लंघन का निरीक्षण करते हैं, जैसे कि जेटस्की अप्राकृतिक रूप से रिवर्स में चलते हैं और एक ठोस स्लेजहैमर का विरूपण, लोच के सिद्धांतों की अवहेलना करते हैं। हालांकि, यहां तक कि वान भी भौतिक सामान्य ज्ञान की कमी से ग्रस्त है, जैसा कि [इस लेख की शुरुआत में एम्बेड किए गए क्लिप] में दिखाया गया है।
‘इस मामले में, हम इस बात पर प्रकाश डालते हैं कि एक चट्टान लुढ़कना शुरू कर देती है और ऊपर की ओर तेज हो जाती है, गुरुत्वाकर्षण के भौतिक नियम की अवहेलना करती है।’
जैसा कि शुरुआत में उल्लेख किया गया है, इस परियोजना से जुड़ी सामग्री की मात्रा यहां कवर की जा सकने वाली मात्रा से कहीं अधिक है। इसलिए, कृपया लेखकों की प्रक्रियाओं की वास्तव में विस्तृत रूपरेखा और काफी अधिक परीक्षण उदाहरणों और प्रक्रियात्मक विवरणों के लिए पहले उल्लिखित स्रोत पेपर, परियोजना स्थल और संबंधित साइटों को देखें।
* एनोटेशन की उत्पत्ति के लिए, पेपर केवल ‘इन कार्यों के लिए अधिग्रहित’ निर्दिष्ट करता है - ऐसा लगता है कि 12 AMT श्रमिकों द्वारा बहुत कुछ उत्पन्न किया गया है।
पहली बार गुरुवार, 13 मार्च, 2025 को प्रकाशित