சீன ஜெனரேட்டிவ் வீடியோ மாடல்களின் எழுச்சி
Tencent’யின் Hunyuan Video ஏற்கனவே பொழுதுபோக்கு AI சமூகத்தில் குறிப்பிடத்தக்க அலைகளை உருவாக்கியுள்ளது. அதன் முழு-உலக வீடியோ டிஃப்யூஷன் மாதிரியின் ஓப்பன் சோர்ஸ் வெளியீடு, பயனர்கள் தங்கள் குறிப்பிட்ட தேவைகளுக்கு ஏற்ப தொழில்நுட்பத்தை வடிவமைக்க அனுமதிக்கிறது.
அலிபாபாவின் Wan 2.1, மிக சமீபத்தில் வெளியிடப்பட்டது. இந்த மாதிரி தற்போது கிடைக்கக்கூடிய மிகவும் சக்திவாய்ந்த இமேஜ்-டு-வீடியோ Free and Open Source Software (FOSS) தீர்வுகளில் ஒன்றாக விளங்குகிறது, மேலும் இது இப்போது Wan LoRAs மூலம் தனிப்பயனாக்கத்தை ஆதரிக்கிறது.
இந்த முன்னேற்றங்களுக்கு கூடுதலாக, அலிபாபாவின் விரிவான VACE வீடியோ உருவாக்கம் மற்றும் எடிட்டிங் சூட், சமீபத்திய மனிதனை மையமாகக் கொண்ட ஃபவுண்டேஷன் மாடலான SkyReels உடன் வெளியிடப்படும் என்று எதிர்பார்க்கிறோம்.
ஜெனரேட்டிவ் வீடியோ AI ஆராய்ச்சி காட்சியும் சமமாக வெடிக்கும். இது இன்னும் மார்ச் மாதத்தின் ஆரம்பம் தான், செவ்வாயன்று Arxiv’யின் கணினி விஷன் பிரிவில் (உருவாக்கும் AI தாள்களுக்கான முக்கிய மையம்) சமர்ப்பிப்புகள் கிட்டத்தட்ட 350 உள்ளீடுகளை எட்டியுள்ளன - இது பொதுவாக மாநாட்டு காலத்தின் உச்சத்தில் காணப்படும் ஒரு எண்ணிக்கை.
2022 கோடையில் Stable Diffusion அறிமுகப்படுத்தப்பட்டதிலிருந்து (மற்றும் Dreambooth மற்றும் LoRA தனிப்பயனாக்குதல் முறைகளின் அடுத்தடுத்த வளர்ச்சி) இரண்டு ஆண்டுகள் ஒப்பீட்டளவில் பெரிய முன்னேற்றங்கள் இல்லாததால் வகைப்படுத்தப்பட்டன. இருப்பினும், கடந்த சில வாரங்கள் புதிய வெளியீடுகள் மற்றும் கண்டுபிடிப்புகளின் எழுச்சியைக் கண்டுள்ளன, அவை மிகவும் விரைவான வேகத்தில் வந்துள்ளன, அவை அனைத்தையும் முழுமையாகத் தெரிந்துகொள்வது மட்டுமல்லாமல், அனைத்தையும் விரிவாக உள்ளடக்குவது கிட்டத்தட்ட சாத்தியமற்றது.
டெம்போரல் கன்சிஸ்டன்சியைத் தீர்ப்பது, ஆனால் புதிய சவால்கள் எழுகின்றன
Hunyuan மற்றும் Wan 2.1 போன்ற வீடியோ டிஃப்யூஷன் மாடல்கள், நீண்ட காலமாக, டெம்போரல் கன்சிஸ்டன்சி சிக்கலைத் தீர்த்துள்ளன. நூற்றுக்கணக்கான ஆராய்ச்சி முயற்சிகளின் பல வருட தோல்வியுற்ற முயற்சிகளுக்குப் பிறகு, இந்த மாதிரிகள் காலப்போக்கில் நிலையான மனிதர்கள், சூழல்கள் மற்றும் பொருட்களை உருவாக்குவது தொடர்பான சவால்களை பெருமளவில் தீர்த்துள்ளன.
VFX ஸ்டுடியோக்கள் இந்த புதிய சீன வீடியோ மாடல்களைத் தழுவுவதற்கு ஊழியர்களையும் வளங்களையும் தீவிரமாக அர்ப்பணித்து வருகின்றன என்பதில் சிறிதும் சந்தேகமில்லை. இந்த அமைப்புகளுக்கான ControlNet-பாணி துணை வழிமுறைகள் தற்போது இல்லாத போதிலும், முகம் மாற்றுவது போன்ற அழுத்தமான சவால்களைச் சமாளிப்பதே அவர்களின் உடனடி குறிக்கோள்.
எதிர்பார்க்கப்பட்ட சேனல்கள் மூலம் இல்லாவிட்டாலும், இவ்வளவு பெரிய தடை நீக்கப்பட்டுள்ளது என்பது மிகப்பெரிய நிம்மதியாக இருக்க வேண்டும்.
இருப்பினும், மீதமுள்ள சிக்கல்களில், ஒன்று குறிப்பாக முக்கியமானது:
தற்போது கிடைக்கக்கூடிய டெக்ஸ்ட்-டு-வீடியோ மற்றும் இமேஜ்-டு-வீடியோ அமைப்புகள் அனைத்தும், வணிகரீதியான க்ளோஸ்டு சோர்ஸ் மாடல்கள் உட்பட, இயற்பியலுக்கு முரணான தவறுகளை உருவாக்கும் போக்கைக் கொண்டுள்ளன. மேலே உள்ள உதாரணம் மேல்நோக்கி உருளும் ஒரு பாறையைக் காட்டுகிறது, இது பின்வரும் ப்ராம்ப்ட்டில் இருந்து உருவாக்கப்பட்டது: ‘ஒரு சிறிய பாறை செங்குத்தான, பாறைகள் நிறைந்த மலைப்பகுதியில் இருந்து உருண்டு, மண் மற்றும் சிறிய கற்களை இடமாற்றம் செய்கிறது’.
AI வீடியோக்கள் ஏன் இயற்பியலை தவறாகப் பெறுகின்றன?
அலிபாபா மற்றும் UAE இடையேயான ஒரு கல்வி ஒத்துழைப்பில் சமீபத்தில் முன்மொழியப்பட்ட ஒரு கோட்பாடு, மாதிரிகள் தற்காலிக வரிசையைப் பற்றிய புரிதலைத் தடுக்கும் வகையில் கற்றுக்கொள்ளக்கூடும் என்று கூறுகிறது. வீடியோக்களில் பயிற்சி அளித்தாலும் (பயிற்சிக்காக ஒற்றை-பிரேம் வரிசைகளாக உடைக்கப்படுகின்றன), ‘முன்’ மற்றும் ‘பின்’ படங்களின் சரியான வரிசையை மாதிரிகள் இயல்பாகவே புரிந்து கொள்ளாமல் போகலாம்.
இருப்பினும், மிகவும் நம்பத்தகுந்த விளக்கம் என்னவென்றால், கேள்விக்குரிய மாதிரிகள் தரவு பெருக்க நடைமுறைகளைப் பயன்படுத்தியுள்ளன. இந்த நடைமுறைகள் ஒரு மூல பயிற்சி கிளிப்பை முன்னோக்கியும் மற்றும் பின்னோக்கியும் மாதிரியை வெளிப்படுத்துவதை உள்ளடக்கியது, இது பயிற்சி தரவை திறம்பட இரட்டிப்பாக்குகிறது.
இதை கண்மூடித்தனமாக செய்யக்கூடாது என்பது சில காலமாக அறியப்படுகிறது. சில அசைவுகள் தலைகீழாக வேலை செய்யும் போது, பல வேலை செய்யாது. UK’யின் பிரிஸ்டல் பல்கலைக்கழகத்தின் 2019 ஆம் ஆண்டு ஆய்வு, ஒரு தரவுத்தொகுப்பில் உள்ள சமச்சீர், மாறாத மற்றும் மீளமுடியாத மூல தரவு வீடியோ கிளிப்களை வேறுபடுத்தி அறியும் முறையை உருவாக்குவதை நோக்கமாகக் கொண்டது. தரவு பெருக்க நடைமுறைகளில் இருந்து பொருத்தமற்ற கிளிப்களை வடிகட்டுவதே இதன் குறிக்கோள்.
அந்த வேலையின் ஆசிரியர்கள் சிக்கலை தெளிவாகக் கூறினர்:
‘தலைகீழ் வீடியோக்களின் யதார்த்தம் தலைகீழ் கலைப்பொருட்களால் காட்டிக் கொடுக்கப்படுவதை நாங்கள் காண்கிறோம், இயற்கையான உலகில் சாத்தியமில்லாத காட்சியின் அம்சங்கள். சில கலைப்பொருட்கள் நுட்பமானவை, மற்றவை கண்டுபிடிப்பது எளிது, ஒரு தலைகீழ் ‘த்ரோ’ செயல் போன்றது, அங்கு வீசப்பட்ட பொருள் தன்னிச்சையாக தரையில் இருந்து உயர்கிறது.
‘இயற்கையின் விதிகளை மீறும் இயற்பியல் மற்றும் சாத்தியமற்ற ஆனால் சாத்தியமற்ற காட்சியை சித்தரிக்கும் இரண்டு வகையான தலைகீழ் கலைப்பொருட்களை நாங்கள் கவனிக்கிறோம். இவை பிரத்தியேகமானவை அல்ல, மேலும் பல தலைகீழ் செயல்கள் இரண்டு வகையான கலைப்பொருட்களாலும் பாதிக்கப்படுகின்றன, ஒரு காகிதத்தை சுருட்டுவது போல.
‘இயற்பியல் கலைப்பொருட்களின் எடுத்துக்காட்டுகள்: தலைகீழ் ஈர்ப்பு (‘ஏதாவது விழுதல்’ போன்றவை), பொருட்களின் மீது தன்னிச்சையான தூண்டுதல்கள் (‘பேனாவை சுழற்றுதல்’ போன்றவை) மற்றும் மீளமுடியாத நிலை மாற்றங்கள் (‘மெழுகுவர்த்தியை எரித்தல்’ போன்றவை). சாத்தியமற்ற கலைப்பொருளின் எடுத்துக்காட்டு: அலமாரியில் இருந்து ஒரு தட்டை எடுத்து, அதை உலர்த்தி, உலர்த்தும் ரேக்கில் வைப்பது.
‘இந்த வகையான தரவு மறுபயன்பாடு பயிற்சி நேரத்தில் மிகவும் பொதுவானது, மேலும் இது நன்மை பயக்கும் - எடுத்துக்காட்டாக, ஒரு படம் அல்லது பொருளின் ஒரே ஒரு பார்வையை மட்டுமே மாதிரி கற்றுக்கொள்ளவில்லை என்பதை உறுதி செய்வதில், அது அதன் மைய ஒத்திசைவு மற்றும் தர்க்கத்தை இழக்காமல் புரட்டப்படலாம் அல்லது சுழற்றப்படலாம்.
‘இது உண்மையிலேயே சமச்சீர் கொண்ட பொருட்களுக்கு மட்டுமே வேலை செய்யும், நிச்சயமாக; மற்றும் ‘தலைகீழ்’ வீடியோவில் இருந்து இயற்பியலைக் கற்றுக்கொள்வது, தலைகீழ் பதிப்பு முன்னோக்கிய பதிப்பைப் போலவே அர்த்தமுள்ளதாக இருந்தால் மட்டுமே வேலை செய்யும்.’
Hunyuan Video மற்றும் Wan 2.1 போன்ற அமைப்புகள் பயிற்சியின் போது தன்னிச்சையான “தலைகீழ்” கிளிப்களை அனுமதித்தன என்பதற்கு எங்களிடம் உறுதியான ஆதாரம் இல்லை (எந்த ஆராய்ச்சி குழுவும் அவற்றின் தரவு பெருக்க நடைமுறைகளைப் பற்றி குறிப்பாகக் கூறவில்லை).
இருப்பினும், ஏராளமான அறிக்கைகளையும் (மற்றும் எனது சொந்த நடைமுறை அனுபவத்தையும்) கருத்தில் கொண்டு, இந்த மாதிரிகளை இயக்கும் ஹைப்பர்ஸ்கேல் தரவுத்தொகுப்புகளில் தலைகீழாக நிகழும் அசைவுகளை உண்மையாகக் காட்டும் கிளிப்கள் இருக்கலாம் என்பதே நியாயமான விளக்கம்.
முன்னர் உட்பொதிக்கப்பட்ட உதாரண வீடியோவில் உள்ள பாறை Wan 2.1 ஐப் பயன்படுத்தி உருவாக்கப்பட்டது. வீடியோ டிஃப்யூஷன் மாடல்கள் இயற்பியலை எவ்வளவு சிறப்பாகக் கையாளுகின்றன என்பதை ஆராயும் ஒரு புதிய ஆய்வில் இது இடம்பெற்றுள்ளது.
இந்த திட்டத்திற்கான சோதனைகளில், Wan 2.1 இயற்பியல் சட்டங்களை தொடர்ந்து கடைபிடிக்கும் திறனில் 22% மதிப்பெண்ணை மட்டுமே பெற்றது.
ஆச்சரியப்படும் விதமாக, அது சோதிக்கப்பட்ட அனைத்து அமைப்புகளிலும் சிறந்த மதிப்பெண் ஆகும், இது வீடியோ AI க்கான அடுத்த பெரிய தடையை நாங்கள் அடையாளம் கண்டிருக்கலாம் என்று கூறுகிறது:
VideoPhy-2 ஐ அறிமுகப்படுத்துகிறது: இயற்பியல் காமன்சென்ஸிற்கான ஒரு புதிய அளவுகோல்
புதிய வேலையின் ஆசிரியர்கள் VideoPhy எனப்படும் ஒரு பெஞ்ச்மார்க்கிங் அமைப்பை உருவாக்கியுள்ளனர், இப்போது அதன் இரண்டாவது மறு செய்கையில் உள்ளது. குறியீடு GitHub இல் கிடைக்கிறது.
வேலையின் நோக்கம் இங்கு விரிவாக உள்ளடக்குவதற்கு மிகவும் பரந்ததாக இருந்தாலும், அதன் வழிமுறையையும், எதிர்கால மாதிரி-பயிற்சி அமர்வுகளை இந்த வினோதமான தலைகீழ் நிகழ்வுகளிலிருந்து விலகி வழிநடத்தக்கூடிய ஒரு அளவீட்டை நிறுவுவதற்கான அதன் திறனையும் ஆராய்வோம்.
UCLA மற்றும் Google Research ஐச் சேர்ந்த ஆறு ஆராய்ச்சியாளர்களால் நடத்தப்பட்ட இந்த ஆய்வு, VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation என்று தலைப்பிடப்பட்டுள்ளது. ஒரு விரிவான திட்டத் தளம் கிடைக்கிறது, அதனுடன் GitHub இல் குறியீடு மற்றும் தரவுத்தொகுப்புகள் மற்றும் Hugging Face இல் ஒரு தரவுத்தொகுப்பு பார்வையாளர் உள்ளனர்.
ஆசிரியர்கள் சமீபத்திய பதிப்பான VideoPhy-2 ஐ “உண்மையான உலக செயல்களுக்கான சவாலான காமன்சென்ஸ் மதிப்பீட்டு தரவுத்தொகுப்பு” என்று விவரிக்கின்றனர். இந்தத் தொகுப்பு ஹூலா-ஹூப்பிங், ஜிம்னாஸ்டிக்ஸ் மற்றும் டென்னிஸ் உள்ளிட்ட பல்வேறு உடல் செயல்பாடுகள் மற்றும் ஒரு பொருளை உடைக்கும் வரை வளைப்பது போன்ற பொருள் தொடர்புகள் முழுவதும் 197 செயல்களைக் கொண்டுள்ளது.
இந்த விதை செயல்களில் இருந்து 3840 ப்ராம்ப்ட்டுகளை உருவாக்க ஒரு பெரிய மொழி மாதிரி (LLM) பயன்படுத்தப்படுகிறது. இந்த ப்ராம்ப்ட்டுகள் பின்னர் சோதிக்கப்படும் பல்வேறு கட்டமைப்புகளைப் பயன்படுத்தி வீடியோக்களை ஒருங்கிணைக்கப் பயன்படுத்தப்படுகின்றன.
செயல்முறை முழுவதும், AI-உருவாக்கிய வீடியோக்கள் கடைபிடிக்க வேண்டிய “வேட்பாளர்” இயற்பியல் விதிகள் மற்றும் சட்டங்களின் பட்டியலை ஆசிரியர்கள் தொகுத்துள்ளனர், மதிப்பீட்டிற்காக விஷன்-லாங்குவேஜ் மாடல்களைப் பயன்படுத்துகின்றனர்.
ஆசிரியர்கள் கூறுகிறார்கள்:
‘உதாரணமாக, விளையாட்டு வீரர் டென்னிஸ் விளையாடும் வீடியோவில், ஒரு டென்னிஸ் பந்து ஈர்ப்பு விசையின் கீழ் ஒரு பரவளையப் பாதையைப் பின்பற்ற வேண்டும் என்பது ஒரு இயற்பியல் விதியாக இருக்கும். தங்க-தரமான தீர்ப்புகளுக்கு, ஒவ்வொரு வீடியோவையும் ஒட்டுமொத்த சொற்பொருள் பின்பற்றுதல் மற்றும் இயற்பியல் காமன்சென்ஸ் ஆகியவற்றின் அடிப்படையில் மதிப்பிடவும், பல்வேறு இயற்பியல் விதிகளுக்கு இணங்குவதைக் குறிக்கவும் மனித சிறுகுறிப்பாளர்களைக் கேட்கிறோம்.’
செயல்களைக் கையாளுதல் மற்றும் ப்ராம்ப்ட்டுகளை உருவாக்குதல்
ஆரம்பத்தில், ஆராய்ச்சியாளர்கள் AI-உருவாக்கிய வீடியோக்களில் இயற்பியல் காமன்சென்ஸை மதிப்பிடுவதற்கான ஒரு தொகுப்பு செயல்களைக் கையாண்டனர். அவர்கள் Kinetics, UCF-101 மற்றும் SSv2 தரவுத்தொகுப்புகளில் இருந்து பெறப்பட்ட 600 க்கும் மேற்பட்ட செயல்களுடன் தொடங்கினர், விளையாட்டு, பொருள் தொடர்புகள் மற்றும் உண்மையான உலக இயற்பியல் சம்பந்தப்பட்ட நடவடிக்கைகளில் கவனம் செலுத்தினர்.
STEM-பயிற்சி பெற்ற மாணவர் சிறுகுறிப்பாளர்களின் இரண்டு சுயாதீன குழுக்கள் (குறைந்தபட்ச இளங்கலை தகுதியுடன்) பட்டியலை மதிப்பாய்வு செய்து வடிகட்டின. ஈர்ப்பு, உந்தம் மற்றும் மீள்தன்மை போன்ற கொள்கைகளை சோதித்த செயல்களை அவர்கள் தேர்ந்தெடுத்தனர், அதே நேரத்தில் டைப்பிங், பூனையை செல்லமாக வளர்ப்பது அல்லது மெல்லுதல் போன்ற குறைந்த-இயக்க பணிகளை அகற்றினர்.
நகல்களை அகற்ற Gemini-2.0-Flash-Exp உடன் மேலும் சுத்திகரிப்புக்குப் பிறகு, இறுதி தரவுத்தொகுப்பில் 197 செயல்கள் அடங்கும். 54 பொருள் தொடர்புகளை உள்ளடக்கியது, மற்றும் 143 உடல் மற்றும் விளையாட்டு நடவடிக்கைகளை மையமாகக் கொண்டது:
இரண்டாவது கட்டத்தில், ஆராய்ச்சியாளர்கள் தரவுத்தொகுப்பில் உள்ள ஒவ்வொரு செயலுக்கும் 20 ப்ராம்ப்ட்டுகளை உருவாக்க Gemini-2.0-Flash-Exp ஐப் பயன்படுத்தினர், இதன் விளைவாக மொத்தம் 3,940 ப்ராம்ப்ட்டுகள் கிடைத்தன. உருவாக்கும் செயல்முறை ஒரு உருவாக்கப்பட்ட வீடியோவில் தெளிவாகக் குறிப்பிடக்கூடிய புலப்படும் இயற்பியல் தொடர்புகளில் கவனம் செலுத்தியது. இது உணர்ச்சிகள், உணர்ச்சி விவரங்கள் மற்றும் சுருக்க மொழி போன்ற காட்சி அல்லாத கூறுகளை விலக்கியது, ஆனால் பல்வேறு கதாபாத்திரங்கள் மற்றும் பொருட்களை உள்ளடக்கியது.
உதாரணமாக, ‘ஒரு வில்லாளி அம்பை வெளியிடுகிறார்’ போன்ற ஒரு எளிய ப்ராம்ப்ட்டுக்கு பதிலாக, ‘ஒரு வில்லாளி வில்லின் நாணை முழு பதற்றத்திற்கு பின்னால் இழுத்து, பின்னர் அம்பை வெளியிடுகிறார், அது நேராக பறந்து காகித இலக்கில் ஒரு புல்ஸ்ஐயைத் தாக்குகிறது’ போன்ற ஒரு விரிவான பதிப்பை உருவாக்க மாதிரிக்கு வழிகாட்டப்பட்டது.
நவீன வீடியோ மாடல்கள் நீண்ட விளக்கங்களை விளக்க முடியும் என்பதால், ஆராய்ச்சியாளர்கள் Mistral-NeMo-12B-Instruct ப்ராம்ப்ட் அப்ஸாம்பிளரைப் பயன்படுத்தி தலைப்புகளை மேலும் செம்மைப்படுத்தினர். இது அசல் அர்த்தத்தை மாற்றாமல் காட்சி விவரங்களைச் சேர்த்தது.
இயற்பியல் விதிகளைப் பெறுதல் மற்றும் சவாலான செயல்களை அடையாளம் காணுதல்
மூன்றாவது கட்டத்திற்கு, இயற்பியல் விதிகள் உரை ப்ராம்ப்ட்டுகளில் இருந்து பெறப்படவில்லை, ஆனால் உருவாக்கப்பட்ட வீடியோக்களில் இருந்து பெறப்பட்டன. ஏனென்றால், உருவாக்கும் மாதிரிகள் நிபந்தனைக்குட்பட்ட உரை ப்ராம்ப்ட்டுகளைப் பின்பற்றுவதில் சிரமப்படலாம்.
வீடியோக்கள் முதலில் VideoPhy-2 ப்ராம்ப்ட்டுகளைப் பயன்படுத்தி உருவாக்கப்பட்டன, பின்னர் முக்கிய விவரங்களைப் பிரித்தெடுக்க Gemini-2.0-Flash-Exp உடன் “அப்-கேப்ஷன்” செய்யப்பட்டன. மாதிரி ஒரு வீடியோவுக்கு மூன்று எதிர்பார்க்கப்படும் இயற்பியல் விதிகளை முன்மொழிந்தது. மனித சிறுகுறிப்பாளர்கள் இவற்றை மதிப்பாய்வு செய்து, கூடுதல் சாத்தியமான மீறல்களைக் கண்டறிந்து விரிவுபடுத்தினர்.
அடுத்து, மிகவும் சவாலான செயல்களை அடையாளம் காண, ஆராய்ச்சியாளர்கள் VideoPhy-2 தரவுத்தொகுப்பில் இருந்து ப்ராம்ப்ட்டுகளுடன் CogVideoX-5B ஐப் பயன்படுத்தி வீடியோக்களை உருவாக்கினர். பின்னர் அவர்கள் 197 செயல்களில் 60 ஐத் தேர்ந்தெடுத்தனர், அங்கு மாதிரி ப்ராம்ப்ட்டுகள் மற்றும் அடிப்படை இயற்பியல் காமன்சென்ஸ் இரண்டையும் பின்பற்றுவதில் தொடர்ந்து தோல்வியடைந்தது.
இந்த செயல்களில் டிஸ்கஸ் எறிதலில் உந்தம் பரிமாற்றம், ஒரு பொருளை உடைக்கும் வரை வளைப்பது போன்ற நிலை மாற்றங்கள், டைட்ரோப் வாக்கிங் போன்ற சமநிலைப்படுத்தும் பணிகள் மற்றும் பேக்-ஃப்ளிப்ஸ், போல் வால்டிங் மற்றும் பீஸ்ஸா டாஸிங் உள்ளிட்ட சிக்கலான இயக்கங்கள் ஆகியவை அடங்கும். துணை-தரவுத்தொகுப்பின் சிரமத்தை அதிகரிக்க மொத்தம் 1,200 ப்ராம்ப்ட்டுகள் தேர்ந்தெடுக்கப்பட்டன.
VideoPhy-2 தரவுத்தொகுப்பு: ஒரு விரிவான மதிப்பீட்டு ஆதாரம்
இதன் விளைவாக வரும் தரவுத்தொகுப்பு 3,940 தலைப்புகளைக் கொண்டது - VideoPhy இன் முந்தைய பதிப்பை விட 5.72 மடங்கு அதிகம். அசல் தலைப்புகளின் சராசரி நீளம் 16 டோக்கன்கள், அதே நேரத்தில் அப்ஸாம்பிள் செய்யப்பட்ட தலைப்புகள் 138 டோக்கன்களை அடைகின்றன - முறையே 1.88 மடங்கு மற்றும் 16.2 மடங்கு நீளமானது.
இந்த தரவுத்தொகுப்பு பல வீடியோ தலைமுறை மாதிரிகளில் சொற்பொருள் பின்பற்றுதல், இயற்பியல் காமன்சென்ஸ் மற்றும் விதி மீறல்களை உள்ளடக்கிய 102,000 மனித சிறுகுறிப்புகளையும் கொண்டுள்ளது.
மதிப்பீட்டு அளவுகோல்களை வரையறுத்தல் மற்றும் மனித சிறுகுறிப்புகள்
ஆராய்ச்சியாளர்கள் பின்னர் வீடியோக்களை மதிப்பிடுவதற்கான தெளிவான அளவுகோல்களை வரையறுத்தனர். ஒவ்வொரு வீடியோவும் அதன் உள்ளீட்டு ப்ராம்ப்ட்டுடன் எவ்வளவு நன்றாகப் பொருந்துகிறது மற்றும் அடிப்படை இயற்பியல் கொள்கைகளைப் பின்பற்றுகிறது என்பதை மதிப்பிடுவதே முக்கிய குறிக்கோள்.
வீடியோக்களை விருப்பத்தின் அடிப்படையில் தரவரிசைப்படுத்துவதற்குப் பதிலாக, குறிப்பிட்ட வெற்றிகள் மற்றும் தோல்விகளைப் பிடிக்க மதிப்பீடு அடிப்படையிலான கருத்தைப் பயன்படுத்தினர். மனித சிறுகுறிப்பாளர்கள் வீடியோக்களை ஐந்து-புள்ளி அளவில் மதிப்பிட்டனர், இது மிகவும் விரிவான தீர்ப்புகளை அனுமதித்தது. வீடியோக்கள் பல்வேறு இயற்பியல் விதிகள் மற்றும் சட்டங்களைப் பின்பற்றுகின்றனவா என்பதையும் மதிப்பீடு சரிபார்த்தது.
மனித மதிப்பீட்டிற்கு, Amazon Mechanical Turk (AMT) இல் சோதனைகளில் இருந்து 12 சிறுகுறிப்பாளர்களின் குழு தேர்ந்தெடுக்கப்பட்டது மற்றும் விரிவான தொலைநிலை வழிமுறைகளைப் பெற்ற பிறகு மதிப்பீடுகளை வழங்கியது. நியாயத்திற்காக, சொற்பொருள் பின்பற்றுதல் மற்றும் இயற்பியல் காமன்சென்ஸ் ஆகியவை தனித்தனியாக மதிப்பிடப்பட்டன (அசல் VideoPhy ஆய்வில், அவை கூட்டாக மதிப்பிடப்பட்டன).
சிறுகுறிப்பாளர்கள் முதலில் வீடியோக்கள் அவற்றின் உள்ளீட்டு ப்ராம்ப்ட்டுகளுடன் எவ்வளவு நன்றாகப் பொருந்துகின்றன என்பதை மதிப்பிட்டனர், பின்னர் விதி மீறல்கள் மற்றும் ஒட்டுமொத்த யதார்த்தத்தை ஐந்து-புள்ளி அளவில் மதிப்பிட்டு, இயற்பியல் நம்பகத்தன்மையை தனித்தனியாக மதிப்பிட்டனர். மாதிரிகளில் நியாயமான ஒப்பீட்டைப் பராமரிக்க அசல் ப்ராம்ப்ட்டுகள் மட்டுமே காட்டப்பட்டன.
தானியங்கி மதிப்பீடு: அளவிடக்கூடிய மாதிரி மதிப்பீட்டை நோக்கி
மனித தீர்ப்பு தங்கத் தரமாக இருந்தாலும், அது விலை உயர்ந்தது மற்றும் பல எச்சரிக்கைகளுடன் வருகிறது. எனவே, வேகமான மற்றும் அளவிடக்கூடிய மாதிரி மதிப்பீடுகளுக்கு தானியங்கி மதிப்பீடு அவசியம்.
கட்டுரையின் ஆசிரியர்கள் ஜெமினி-2.0-ஃப்ளாஷ்-எக்ஸ்ப் மற்றும் வீடியோஸ்கோர் உள்ளிட்ட பல வீடியோ-மொழி மாதிரிகளை, சொற்பொருள் துல்லியம் மற்றும் “இயற்பியல் காமன்சென்ஸ்” ஆகியவற்றிற்கான வீடியோக்களை மதிப்பிடும் திறனை சோதித்தனர்.
மாதிரிகள் மீண்டும் ஒவ்வொரு வீடியோவையும் ஐந்து-புள்ளி அளவில் மதிப்பிட்டன. இயற்பியல் விதிகள் பின்பற்றப்பட்டனவா, மீறப்பட்டனவா அல்லது தெளிவற்றதா என்பதை ஒரு தனி வகைப்பாடு பணி தீர்மானித்தது.
சோதனைகள் ஏற்கனவே உள்ள வீடியோ-மொழி மாதிரிகள் மனித தீர்ப்புகளுடன் பொருந்த போராடுவதைக் காட்டின, முக்கியமாக பலவீனமான இயற்பியல் பகுத்தறிவு மற்றும் ப்ராம்ப்ட்டுகளின் சிக்கலான தன்மை காரணமாக. தானியங்கி மதிப்பீட்டை மேம்படுத்த, ஆராய்ச்சியாளர்கள் VideoPhy-2-Autoeval ஐ உருவாக்கினர், இது 7B-அளவுரு மாதிரியாகும், இது மூன்று வகைகளில் மிகவும் துல்லியமான கணிப்புகளை வழங்க வடிவமைக்கப்பட்டுள்ளது: சொற்பொருள் பின்பற்றுதல்; இயற்பியல் காமன்சென்ஸ்; மற்றும் விதி இணக்கம். இது 50,000 மனித சிறுகுறிப்புகளைப் பயன்படுத்தி VideoCon-Physics மாதிரியில் நன்றாகச் சரிசெய்யப்பட்டது*.
ஜெனரேட்டிவ் வீடியோ சிஸ்டம்ஸை சோதித்தல்: ஒரு ஒப்பீட்டு பகுப்பாய்வு
இந்த கருவிகள் இடத்தில் இருப்பதால், ஆசிரியர்கள் பல ஜெனரேட்டிவ் வீடியோ சிஸ்டம்ஸ்களை சோதித்தனர், உள்ளூர் நிறுவல்கள் மூலமாகவும், தேவைப்படும் இடங்களில், வணிக APIகள் மூலமாகவும்: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; மற்றும் Luma Ray.
மாதிரிகள் முடிந்தவரை அப்ஸாம்பிள் செய்யப்பட்ட தலைப்புகளுடன் தூண்டப்பட்டன, ஹன்யுவான் வீடியோ மற்றும் வீடியோகிராஃப்டர்2 ஆகியவை 77-டோக்கன் CLIP வரம்புகளின் கீழ் செயல்படுகின்றன மற்றும் ஒரு குறிப்பிட்ட நீளத்திற்கு மேல் ப்ராம்ப்ட்டுகளை ஏற்க முடியாது.
உருவாக்கப்பட்ட வீடியோக்கள் 6 வினாடிகளுக்கு குறைவாகவே வைக்கப்பட்டன, ஏனெனில் குறுகிய வெளியீடு மதிப்பிடுவது எளிது.
டிரைவிங் தரவு VideoPhy-2 தரவுத்தொகுப்பிலிருந்து வந்தது, இது ஒரு பெஞ்ச்மார்க் மற்றும் பயிற்சி தொகுப்பாக பிரிக்கப்பட்டது. சோரா மற்றும் ரே2 தவிர, ஒரு மாதிரிக்கு 590 வீடியோக்கள் உருவாக்கப்பட்டன; செலவு காரணி காரணமாக, இந்தவற்றுக்கு சமமான குறைந்த எண்ணிக்கையிலான வீடியோக்கள் உருவாக்கப்பட்டன.
ஆரம்ப மதிப்பீடு இயற்பியல் நடவடிக்கைகள்/விளையாட்டுகள் (PA) மற்றும் பொருள் தொடர்புகள் (OI) ஆகியவற்றைக் கையாண்டது மற்றும் பொதுவான தரவுத்தொகுப்பு மற்றும் மேலே குறிப்பிடப்பட்ட “கடினமான” துணைக்குழு இரண்டையும் சோதித்தது:
இங்கே ஆசிரியர்கள் கருத்து தெரிவிக்கின்றனர்:
‘சிறந்த செயல்திறன் கொண்ட மாடலான Wan2.1-14B கூட, எங்கள் தரவுத்தொகுப்பின் முழு மற்றும் கடினமான பிரிவுகளில் முறையே 32.6% மற்றும் 21.9% மட்டுமே அடைகிறது. மற்ற மாடல்களுடன் ஒப்பிடும்போது அதன் ஒப்பீட்டளவில் வலுவான செயல்திறன் அதன் மல்டிமோடல் பயிற்சி தரவின் பன்முகத்தன்மைக்கு காரணமாக இருக்கலாம், அதனுடன் வலுவான மோஷன் ஃபில்டரிங், இது பரந்த அளவிலான செயல்களில் உயர்தர வீடியோக்களைப் பாதுகாக்கிறது.
‘மேலும், Ray2 போன்ற மூடிய மாதிரிகள் Wan2.1-14B மற்றும் CogVideoX-5B போன்ற திறந்த மாதிரிகளை விட மோசமாக செயல்படுவதை நாங்கள் கவனிக்கிறோம். இயற்பியல் காமன்சென்ஸைப் பிடிப்பதில் மூடிய மாதிரிகள் திறந்த மாதிரிகளை விட உயர்ந்தவை அல்ல என்பதை இது அறிவுறுத்துகிறது.
‘குறிப்பாக, Cosmos-Diffusion-7B கடினமான பிரிவில் இரண்டாவது சிறந்த மதிப்பெண்ணை அடைகிறது, இது மிகவும் பெரிய HunyuanVideo-13B மாதிரியை விட சிறப்பாக செயல்படுகிறது. இது அதன் பயிற்சி தரவில் மனித செயல்களின் அதிக பிரதிநிதித்துவம் மற்றும் செயற்கையாக வழங்கப்பட்ட உருவகப்படுத்துதல்களால் இருக்கலாம்.’
வீடியோ மாடல்கள் விளையாட்டு போன்ற இயற்பியல் நடவடிக்கைகளில் எளிய பொருள் தொடர்புகளை விட அதிகமாக போராடுவதை முடிவுகள் காட்டின. இந்த பகுதியில் AI-உருவாக்கிய வீடியோக்களை மேம்படுத்த சிறந்த தரவுத்தொகுப்புகள் தேவைப்படும் என்று இது கூறுகிறது - குறிப்பாக டென்னிஸ், டிஸ்கஸ், பேஸ்பால் மற்றும் கிரிக்கெட் போன்ற விளையாட்டுகளின் உயர்தர காட்சிகள்.
ஒரு மாதிரியின் இயற்பியல் நம்பகத்தன்மை மற்ற வீடியோ தர அளவீடுகளான அழகியல் மற்றும் இயக்க மென்மையுடன் தொடர்புடையதா என்பதையும் ஆய்வு ஆய்வு செய்தது. கண்டுபிடிப்புகள் வலுவான தொடர்பைக் காட்டவில்லை, அதாவது ஒரு மாதிரி பார்வைக்கு ஈர்க்கக்கூடிய அல்லது திரவ இயக்கத்தை உருவாக்குவதன் மூலம் VideoPhy-2 இல் அதன் செயல்திறனை மேம்படுத்த முடியாது - அதற்கு இயற்பியல் காமன்சென்ஸ் பற்றிய ஆழமான புரிதல் தேவை.
தரமான எடுத்துக்காட்டுகள்: சவால்களை முன்னிலைப்படுத்துதல்
கட்டுரை ஏராளமான தரமான எடுத்துக்காட்டுகளை வழங்கினாலும், PDF இல் வழங்கப்பட்ட நிலையான எடுத்துக்காட்டுகளில் சில, ஆசிரியர்கள் திட்டத் தளத்தில் வழங்கும் விரிவான வீடியோ அடிப்படையிலான எடுத்துக்காட்டுகளுடன் தொடர்புடையதாகத் தெரிகிறது. எனவே, நிலையான எடுத்துக்காட்டுகளில் ஒரு சிறிய தேர்வையும், பின்னர் சில திட்ட வீடியோக்களையும் பார்ப்போம்.
மேலே உள்ள தரமான சோதனையைப் பற்றி, ஆசிரியர்கள் கருத்து தெரிவிக்கின்றனர்:
‘[நாங்கள்] இயற்பியல் காமன்சென்ஸ் மீறல்களைக் கவனிக்கிறோம், ஜெட்ஸ்கிகள் இயற்கைக்கு மாறாக தலைகீழாக நகர்வது மற்றும் ஒரு திடமான ஸ்லெட்ஜ்ஹாமரின் சிதைவு, மீள்தன்மையின் கொள்கைகளை மீறுகிறது. இருப்பினும், வான் கூட இயற்பியல் காமன்சென்ஸ் இல்லாததால் பாதிக்கப்படுகிறார், [இந்த கட்டுரையின் தொடக்கத்தில் உட்பொதிக்கப்பட்ட கிளிப்பில்] காட்டப்பட்டுள்ளது.
‘இந்த வழக்கில், ஒரு பாறை உருண்டு மேல்நோக்கி முடுக்கி, ஈர்ப்பு விசையின் இயற்பியல் விதியை மீறுகிறது என்பதை நாங்கள் முன்னிலைப்படுத்துகிறோம்.’
ஆரம்பத்தில் குறிப்பிட்டது போல, இந்த திட்டத்துடன் தொடர்புடைய பொருட்களின் அளவு இங்கு உள்ளடக்கக்கூடியதை விட அதிகமாக உள்ளது. எனவே, ஆசிரியர்களின் நடைமுறைகள் மற்றும் கணிசமான அளவு சோதனைகள் மற்றும் நடைமுறை விவரங்களின் உண்மையிலேயே முழுமையான அவுட்லைனுக்கு, தயவுசெய்து மூலக் கட்டுரை, திட்டத் தளம் மற்றும் முன்னர் குறிப்பிடப்பட்ட தொடர்புடைய தளங்களைப் பார்க்கவும்.
* சிறுகுறிப்புகளின் தோற்றம் குறித்து, கட்டுரை ‘இந்த பணிகளுக்காக பெறப்பட்டது’ என்று மட்டுமே குறிப்பிடுகிறது - இது 12 AMT தொழிலாளர்களால் உருவாக்கப்பட்டது போல் தெரிகிறது.