அலிபாபா புதிய ஓப்பன் சோர்ஸ் AI வீடியோ ஜெனரேஷன் மாடல்களை வெளியிடுகிறது

I2VGen-XL: ஒரு பன்முகத்திறன் கொண்ட கருவித்தொகுப்பு

அலிபாபாவின் அர்ப்பணிக்கப்பட்ட Ema குழுவால் உருவாக்கப்பட்ட I2VGen-XL தொகுப்பு, குறிப்பிட்ட செயல்திறன் தேவைகள் மற்றும் பயன்பாட்டு நிகழ்வுகளுக்கு ஏற்ப வடிவமைக்கப்பட்ட பல வகைகளை உள்ளடக்கியது. ஜனவரியில் அறிமுகப்படுத்தப்பட்ட இந்த மாடல்கள், AI-உந்துதல் வீடியோ உருவாக்கத்தில் தற்போது சாத்தியமானவற்றின் எல்லைகளைத் தாண்டி, குறிப்பிடத்தக்க வகையில் யதார்த்தமான வீடியோக்களை உருவாக்க வடிவமைக்கப்பட்டுள்ளன. இந்த அதிநவீன கருவிகள் இப்போது AI மற்றும் இயந்திர கற்றல் (ML) வளங்களுக்கான முக்கிய மையமான Hugging Face இல் எளிதாகக் கிடைக்கின்றன.

Hugging Face பக்கம் அலிபாபாவின் Ema குழுவிற்கு அர்ப்பணிக்கப்பட்டுள்ளது, I2VGen-XL தொகுப்பிற்குள் உள்ள நான்கு முக்கிய மாதிரிகளைக் காட்டுகிறது:

  • T2V-1.3B: 1.3 பில்லியன் அளவுருக்கள் கொண்ட உரையிலிருந்து வீடியோ மாதிரி.
  • T2V-14B: 14 பில்லியன் அளவுருக்களைக் கொண்ட மிகவும் வலுவான உரையிலிருந்து வீடியோ மாதிரி.
  • I2V-14B-720P: 14 பில்லியன் அளவுருக்கள் கொண்ட படத்திலிருந்து வீடியோ மாதிரி, 720p தெளிவுத்திறனுக்கு உகந்ததாக்கப்பட்டுள்ளது.
  • I2V-14B-480P: 14 பில்லியன் அளவுருக்கள் கொண்ட படத்திலிருந்து வீடியோ மாதிரி, 480p தெளிவுத்திறனுக்கு ஏற்றது.

பெயரிடல் உரை-க்கு-வீடியோ (T2V) மற்றும் படம்-க்கு-வீடியோ (I2V) செயல்பாடுகளுக்கு இடையில் தெளிவாக வேறுபடுத்துகிறது, பயனர்கள் தங்கள் உள்ளீட்டு தரவுக்கு மிகவும் பொருத்தமான மாதிரியைத் தேர்ந்தெடுக்க அனுமதிக்கிறது.

அணுகல் மற்றும் செயல்திறன்: வீடியோ உருவாக்கத்தை ஜனநாயகப்படுத்துதல்

I2VGen-XL வெளியீட்டின் மிகவும் குறிப்பிடத்தக்க அம்சங்களில் ஒன்று அதன் அணுகல் ஆகும். திட்டத்தின் பின்னணியில் உள்ள ஆராய்ச்சியாளர்கள், நுகர்வோர் தர GPU களில் கூட சிறிய மாறுபாட்டை, I2VGen-XL T2V-1.3B ஐ இயக்க முடியும் என்பதை வலியுறுத்தியுள்ளனர். குறிப்பாக, 8.19GB vRAM கொண்ட GPU போதுமானது. இதை ஒரு கண்ணோட்டத்தில் வைக்க, Nvidia RTX 4090 ஐப் பயன்படுத்தி 480p தெளிவுத்திறனில் ஐந்து வினாடி நீள வீடியோவை உருவாக்க சுமார் நான்கு நிமிடங்கள் ஆகும் என்று குழு தெரிவிக்கிறது. இந்த அளவிலான அணுகல்தன்மை ஆராய்ச்சியாளர்கள், டெவலப்பர்கள் மற்றும் பொழுதுபோக்காளர்கள் கூட AI வீடியோ உருவாக்கத்தின் முன்னேற்றத்தில் பரிசோதனை செய்யவும் பங்களிக்கவும் அற்புதமான வாய்ப்புகளைத் திறக்கிறது.

வீடியோவுக்கு அப்பால்: ஒரு பன்முக AI தொகுப்பு

I2VGen-XL தொகுப்பின் முதன்மை கவனம் வீடியோ உருவாக்கம் என்றாலும், அதன் திறன்கள் இந்த முக்கிய செயல்பாட்டிற்கு அப்பாற்பட்டவை. அடிப்படை கட்டமைப்பு பல்வேறு பணிகளைக் கையாள வடிவமைக்கப்பட்டுள்ளது, அவற்றுள்:

  • பட உருவாக்கம்: உரை அல்லது காட்சி தூண்டுதல்களிலிருந்து நிலையான படங்களை உருவாக்குதல்.
  • வீடியோவிலிருந்து ஆடியோ உருவாக்கம்: உருவாக்கப்பட்ட வீடியோ உள்ளடக்கத்தை பூர்த்தி செய்யும் ஆடியோவை ஒருங்கிணைத்தல்.
  • வீடியோ எடிட்டிங்: ஏற்கனவே உள்ள வீடியோ காட்சிகளை மாற்றுதல் மற்றும் மேம்படுத்துதல்.

இருப்பினும், தற்போது ஓப்பன் சோர்ஸ் செய்யப்பட்ட மாடல்கள் இந்த மேம்பட்ட பணிகளைச் செய்ய இன்னும் முழுமையாகப் பொருத்தப்படவில்லை என்பதைக் கவனத்தில் கொள்ள வேண்டும். ஆரம்ப வெளியீடு முக்கிய வீடியோ உருவாக்க திறன்களில் கவனம் செலுத்துகிறது, உரை தூண்டுதல்கள் (சீன மற்றும் ஆங்கிலத்தில்) மற்றும் பட உள்ளீடுகள் இரண்டையும் ஏற்றுக்கொள்கிறது.

கட்டடக்கலை கண்டுபிடிப்புகள்: எல்லைகளைத் தள்ளுதல்

I2VGen-XL மாதிரிகள் டிஃப்பியூஷன் டிரான்ஸ்பார்மர் கட்டமைப்பில் கட்டப்பட்டுள்ளன, இது உருவாக்கும் AI க்கான ஒரு சக்திவாய்ந்த கட்டமைப்பாகும். இருப்பினும், அலிபாபாவின் குழு இந்த அடிப்படை கட்டமைப்பில் பல முக்கிய கண்டுபிடிப்புகளை அறிமுகப்படுத்தியுள்ளது, அதன் செயல்திறன் மற்றும் செயல்திறனை மேம்படுத்துகிறது. இந்த முன்னேற்றங்கள் பின்வருமாறு:

  • நாவல் மாறுபாடு ஆட்டோஎன்கோடர்கள் (VAEs): VAE கள் தரவை குறியாக்கம் செய்வதிலும் டிகோடிங் செய்வதிலும் முக்கிய பங்கு வகிக்கின்றன, மேலும் அலிபாபா வீடியோ உருவாக்கத்திற்காக குறிப்பாக வடிவமைக்கப்பட்ட புதிய VAEகளை உருவாக்கியுள்ளது.
  • உகந்த பயிற்சி உத்திகள்: மாதிரிகளின் கற்றல் செயல்முறை மற்றும் ஒட்டுமொத்த செயல்திறனை மேம்படுத்த குழு சுத்திகரிக்கப்பட்ட பயிற்சி உத்திகளை செயல்படுத்தியுள்ளது.
  • I2VGen-XL-VAE: ஒரு அற்புதமான 3D காரணிய VAE கட்டமைப்பு.

I2VGen-XL-VAE குறிப்பாக குறிப்பிடத்தக்கது. இது ஸ்பேடியோடெம்போரல் சுருக்கத்தை கணிசமாக மேம்படுத்துகிறது, அதிக நம்பகத்தன்மையை பராமரிக்கும் போது நினைவக பயன்பாட்டைக் குறைக்கிறது. இந்த புதுமையான ஆட்டோஎன்கோடர் வரம்பற்ற நீளமுள்ள 1080p தெளிவுத்திறன் வீடியோக்களை முக்கியமான தற்காலிக தகவல்களை இழக்காமல் செயலாக்க முடியும். இந்த திறன் நிலையான மற்றும் ஒத்திசைவான வீடியோ காட்சிகளை உருவாக்குவதற்கு அவசியமானது.

செயல்திறனை அளவிடுதல்: போட்டியை மிஞ்சுதல்

அலிபாபா I2VGen-XL மாடல்களின் செயல்திறனை மதிப்பிடுவதற்கு உள் சோதனைகளை நடத்தியுள்ளது, அவற்றை ஏற்கனவே உள்ள அதிநவீன தீர்வுகளுடன் ஒப்பிட்டுள்ளது. முடிவுகள் சுவாரஸ்யமாக உள்ளன, I2VGen-XL மாதிரிகள் பல முக்கிய பகுதிகளில் OpenAI’யின் Sora AI மாதிரியை விட சிறப்பாக செயல்படுவதாக கூறப்படுகிறது:

  • நிலைத்தன்மை: உருவாக்கப்பட்ட வீடியோ முழுவதும் ஒத்திசைவு மற்றும் நிலைத்தன்மையை பராமரித்தல்.
  • காட்சி உருவாக்க தரம்: பார்வைக்கு ஈர்க்கும் மற்றும் யதார்த்தமான காட்சிகளை உருவாக்குதல்.
  • ஒற்றை பொருள் துல்லியம்: வீடியோவில் உள்ள தனிப்பட்ட பொருட்களை துல்லியமாக வழங்குதல்.
  • இடஞ்சார்ந்த நிலைப்படுத்தல்: பொருள்களுக்கு இடையில் சரியான இடஞ்சார்ந்த உறவுகளை உறுதி செய்தல்.

இந்த அளவுகோல்கள் AI வீடியோ உருவாக்கத் துறையில் அலிபாபா செய்த குறிப்பிடத்தக்க முன்னேற்றத்தை எடுத்துக்காட்டுகின்றன.

உரிமம் மற்றும் பயன்பாடு: வெளிப்படைத்தன்மை மற்றும் பொறுப்பை சமநிலைப்படுத்துதல்

I2VGen-XL மாதிரிகள் Apache 2.0 உரிமத்தின் கீழ் வெளியிடப்படுகின்றன, இது பரவலான தத்தெடுப்பு மற்றும் ஒத்துழைப்பை ஊக்குவிக்கும் ஒரு அனுமதிக்கப்பட்ட ஓப்பன் சோர்ஸ் உரிமம். இந்த உரிமம் கல்வி மற்றும் ஆராய்ச்சி நோக்கங்களுக்காக வரம்பற்ற பயன்பாட்டை அனுமதிக்கிறது, AI சமூகத்தில் புதுமைகளை வளர்க்கிறது.

இருப்பினும், வணிக பயன்பாடு சில கட்டுப்பாடுகளுக்கு உட்பட்டது. இந்த மாதிரிகளை வணிக நோக்கங்களுக்காகப் பயன்படுத்த விரும்புவோர், உரிம ஒப்பந்தத்தில் குறிப்பிடப்பட்டுள்ள குறிப்பிட்ட விதிமுறைகள் மற்றும் நிபந்தனைகளை கவனமாக மதிப்பாய்வு செய்வது அவசியம். இந்த அணுகுமுறை ஓப்பன் சோர்ஸ் AI க்கு ஒரு பொறுப்பான அணுகுமுறையை பிரதிபலிக்கிறது, திறந்த அணுகலின் நன்மைகளை சாத்தியமான நெறிமுறை மற்றும் சமூக தாக்கங்களை நிவர்த்தி செய்ய வேண்டியதன் அவசியத்துடன் சமநிலைப்படுத்துகிறது.

தொழில்நுட்ப அம்சங்களை ஆழமாக ஆராய்தல்

I2VGen-XL மாதிரிகள் அவற்றின் ஈர்க்கக்கூடிய வீடியோ உருவாக்க திறன்களை அடைய நுட்பமான நுட்பங்களின் கலவையைப் பயன்படுத்துகின்றன. இந்த தொழில்நுட்ப அம்சங்களில் சிலவற்றை இன்னும் விரிவாக ஆராய்வோம்:

டிஃப்பியூஷன் மாதிரிகள்: I2VGen-XL இன் மையத்தில் டிஃப்பியூஷன் மாதிரிகளின் கருத்து உள்ளது. இந்த மாதிரிகள் தரவுகளில் (படம் அல்லது வீடியோ போன்றது) படிப்படியாக இரைச்சலைச் சேர்த்து, அது தூய சீரற்ற இரைச்சலாக மாறும் வரை வேலை செய்கின்றன. பின்னர், அவை இந்த செயல்முறையை மாற்றியமைக்க கற்றுக்கொள்கின்றன, இரைச்சலில் இருந்து தொடங்கி படிப்படியாக அதை அகற்றுவதன் மூலம் புதிய தரவை உருவாக்குகின்றன. இந்த மறு செய்கை சுத்திகரிப்பு செயல்முறை மாதிரிகள் மிகவும் யதார்த்தமான மற்றும் விரிவான வெளியீடுகளை உருவாக்க அனுமதிக்கிறது.

டிரான்ஸ்பார்மர் கட்டமைப்பு: கட்டமைப்பின் “டிரான்ஸ்பார்மர்” கூறு ஒரு சக்திவாய்ந்த நியூரல் நெட்வொர்க் வடிவமைப்பைக் குறிக்கிறது, இது தொடர்ச்சியான தரவை செயலாக்குவதில் சிறந்து விளங்குகிறது. டிரான்ஸ்பார்மர்கள் நீண்ட தூர சார்புகளைப் பிடிப்பதில் குறிப்பாக பயனுள்ளதாக இருக்கும், இது ஒத்திசைவான வீடியோ காட்சிகளை உருவாக்குவதற்கு முக்கியமானது, அங்கு ஒரு சட்டத்தில் உள்ள நிகழ்வுகள் பல பிரேம்களுக்குப் பிறகு நிகழ்வுகளை பாதிக்கலாம்.

மாறுபாடு ஆட்டோஎன்கோடர்கள் (VAEs): VAE கள் என்பது உள்ளீட்டு தரவின் சுருக்கப்பட்ட, மறைந்திருக்கும் பிரதிநிதித்துவத்தைக் கற்றுக்கொள்ளும் ஒரு வகை உருவாக்கும் மாதிரி. வீடியோ உருவாக்கத்தின் பின்னணியில், VAE கள் வீடியோவை குறைந்த பரிமாண இடத்திற்கு குறியாக்கம் செய்வதன் மூலம் செயல்முறையின் கணக்கீட்டு சிக்கலைக் குறைக்க உதவுகின்றன. அலிபாபாவின் புதுமையான I2VGen-XL-VAE இந்த செயல்முறையை மேலும் மேம்படுத்துகிறது, ஸ்பேடியோடெம்போரல் சுருக்கம் மற்றும் நினைவக செயல்திறனை மேம்படுத்துகிறது.

3D காரணிய VAE: I2VGen-XL-VAE இன் “3D காரணிய” அம்சம் வீடியோ தரவின் மூன்று பரிமாணங்களையும் (அகலம், உயரம் மற்றும் நேரம்) பிரேம்களுக்கு இடையிலான காரணிய உறவுகளை மதிக்கும் வகையில் கையாளும் திறனைக் குறிக்கிறது. இதன் பொருள் மாதிரி கடந்த பிரேம்கள் எதிர்கால பிரேம்களை பாதிக்கின்றன என்பதைப் புரிந்துகொள்கிறது, ஆனால் வேறு வழியில்லை. இந்த காரணிய புரிதல் தற்காலிகமாக நிலையான மற்றும் நம்பத்தகாத கலைப்பொருட்களைத் தவிர்க்கும் வீடியோக்களை உருவாக்குவதற்கு அவசியமானது.

பயிற்சி உத்திகள்: எந்தவொரு AI மாதிரியின் செயல்திறனும் அது பயிற்சி பெற்ற தரவின் தரம் மற்றும் அளவு மற்றும் பயன்படுத்தப்படும் குறிப்பிட்ட பயிற்சி உத்திகளைப் பொறுத்தது. அலிபாபா I2VGen-XL க்கான பயிற்சி செயல்முறையை மேம்படுத்துவதில் குறிப்பிடத்தக்க முயற்சியை முதலீடு செய்துள்ளது, பெரிய தரவுத்தொகுப்புகள் மற்றும் சுத்திகரிக்கப்பட்ட நுட்பங்களைப் பயன்படுத்தி மாதிரிகளின் கற்றல் திறன்களை மேம்படுத்துகிறது.

ஓப்பன் சோர்ஸின் முக்கியத்துவம்

I2VGen-XL ஐ ஓப்பன் சோர்ஸ் மென்பொருளாக வெளியிடுவதற்கான அலிபாபாவின் முடிவு AI சமூகத்திற்கு ஒரு குறிப்பிடத்தக்க பங்களிப்பாகும். ஓப்பன் சோர்ஸ் மாதிரிகள் பல நன்மைகளை வழங்குகின்றன:

  • ஒத்துழைப்பு: திறந்த அணுகல் உலகெங்கிலும் உள்ள ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்களை ஒத்துழைக்கவும், யோசனைகளைப் பகிர்ந்து கொள்ளவும், ஒருவருக்கொருவர் வேலையை உருவாக்கவும் ஊக்குவிக்கிறது. இது கண்டுபிடிப்புகளின் வேகத்தை துரிதப்படுத்துகிறது மற்றும் துறையில் விரைவான முன்னேற்றங்களுக்கு வழிவகுக்கிறது.
  • வெளிப்படைத்தன்மை: ஓப்பன் சோர்ஸ் மாதிரிகள் அதிக வெளிப்படைத்தன்மை மற்றும் ஆய்வுக்கு அனுமதிக்கின்றன. ஆராய்ச்சியாளர்கள் குறியீட்டை ஆராயலாம், மாதிரிகள் எவ்வாறு செயல்படுகின்றன என்பதைப் புரிந்து கொள்ளலாம் மற்றும் சாத்தியமான சார்புகள் அல்லது வரம்புகளை அடையாளம் காணலாம். இது நம்பிக்கையையும் பொறுப்புணர்வையும் வளர்க்கிறது.
  • அணுகல்: ஓப்பன் சோர்ஸ் மாதிரிகள் அதிநவீன AI தொழில்நுட்பத்திற்கான அணுகலை ஜனநாயகப்படுத்துகின்றன. சிறிய ஆராய்ச்சி குழுக்கள், தனிப்பட்ட டெவலப்பர்கள் மற்றும் பொழுதுபோக்காளர்கள் கூட இந்த மாதிரிகளுடன் பரிசோதனை செய்து பயன்படுத்தலாம், இது மிகவும் உள்ளடக்கிய AI சுற்றுச்சூழல் அமைப்பை வளர்க்கிறது.
  • கண்டுபிடிப்பு: ஓப்பன் சோர்ஸ் மாதிரிகள் பெரும்பாலும் மேலும் கண்டுபிடிப்புகளுக்கு ஒரு அடித்தளமாக செயல்படுகின்றன. டெவலப்பர்கள் குறிப்பிட்ட பயன்பாடுகளுக்கு மாதிரிகளைத் தழுவி மாற்றியமைக்கலாம், இது புதிய கருவிகள் மற்றும் நுட்பங்களை உருவாக்க வழிவகுக்கும்.

ஓப்பன் சோர்ஸைத் தழுவுவதன் மூலம், அலிபாபா AI வீடியோ உருவாக்கத்தின் முன்னேற்றத்திற்கு பங்களிப்பது மட்டுமல்லாமல், மிகவும் ஒத்துழைப்பான மற்றும் உள்ளடக்கிய AI நிலப்பரப்பையும் வளர்க்கிறது. இந்த அணுகுமுறை AI தொழில்நுட்பத்தின் எதிர்கால வளர்ச்சியில் குறிப்பிடத்தக்க தாக்கத்தை ஏற்படுத்தும். இந்த மாதிரிகளின் ஓப்பன் சோர்ஸ் தன்மை, AI-உந்துதல் வீடியோ உள்ளடக்க உருவாக்கத்தின் வேகமாக வளர்ந்து வரும் துறையில் உருவாக்க, புதுமைப்படுத்த மற்றும் பங்களிக்க பயனர்களின் பரந்த வரம்பை அதிகாரம் செய்ய வேண்டும்.