இயந்திரங்களுக்கு காட்சித் தகவலைப் புரிந்துகொள்ளும் மற்றும் உருவாக்கும் திறனை வழங்குவதற்கான தேடலானது நீண்ட காலமாக ஒரு அடிப்படை சவாலை எதிர்கொண்டுள்ளது: ஒரு படத்தை உருவாக்கும் பிக்சல்களின் செழுமையான திரையை எவ்வாறு திறமையாகக் குறிப்பது. பல ஆண்டுகளாக, ஆதிக்கம் செலுத்தும் உத்தி இரண்டு-அங்க நாடகத்தைப் பிரதிபலித்தது. முதலில், பரந்த காட்சித் தரவை மிகவும் நிர்வகிக்கக்கூடிய, கச்சிதமான வடிவத்திற்கு சுருக்குதல் - மறைந்திருக்கும் பிரதிநிதித்துவம் (latent representation). இரண்டாவதாக, இந்த சுருக்கப்பட்ட இடத்தில் உள்ள வடிவங்களைக் கற்றுக்கொள்ளவும் பிரதிபலிக்கவும் அதிநவீன மாதிரிகளை உருவாக்குதல். ஆயினும்கூட, ஒரு நிலையான வரம்பு இந்த முயற்சிகளைப் பின்தொடர்ந்துள்ளது: வழக்கமான டோக்கனைசேஷன் நுட்பங்கள், அவற்றின் தகவல் முக்கியத்துவத்தைப் பொருட்படுத்தாமல், ஒரு படத்தின் அனைத்துப் பகுதிகளையும் ஜனநாயக சமத்துவத்துடன் நடத்தும் போக்கு.
பார்க்கும் இயந்திரங்களில் உள்ள தடை: சீரானமையின் கட்டுப்பாடுகள்
ஒரு கலைஞரை நியமிப்பதாக கற்பனை செய்து பாருங்கள், ஆனால் கேன்வாஸின் ஒவ்வொரு சதுர அங்குலத்திற்கும் ஒரே மாதிரியான தூரிகை வீச்சு அளவு மற்றும் விவர நிலையைப் பயன்படுத்த வேண்டும் என்று வலியுறுத்துங்கள். ஒரு மனித முகத்தில் உள்ள சிக்கலான வெளிப்பாடுகள், தெளிவான நீல வானம் அல்லது அம்சமற்ற சுவரின் சீரான விரிவாக்கத்தை விட அதிக கவனத்தைப் பெறாது. இந்த ஒப்புமை பல பாரம்பரிய காட்சிப் பிரதிநிதித்துவ முறைகளைத் தாக்கும் பிரச்சனையின் சாராம்சத்தைப் பிடிக்கிறது. படங்களை தொடர்ச்சியான மறைந்திருக்கும் வெளிகளில் வரைபடமாக்குவதற்கு முன்னோடியாக இருந்த Variational Autoencoders (VAEs) மற்றும் VQVAE மற்றும் VQGAN போன்ற அவற்றின் வாரிசுகள், இந்த வெளிகளை டோக்கன்களின் வரிசைகளாகப் பிரித்தெடுத்த நுட்பங்கள், பெரும்பாலும் ஒரு சீரான இடஞ்சார்ந்த சுருக்க விகிதத்தை விதிக்கின்றன.
இதன் பொருள், சிக்கலான பொருள்கள், அமைப்புகள் மற்றும் தொடர்புகளால் நிரம்பிய ஒரு பகுதி - ஒரு பரபரப்பான தெருக் காட்சியின் முன்புறம், ஒருவேளை - ஒரு எளிய, ஒரே மாதிரியான பின்னணிப் பகுதியைப் போலவே பிரதிநிதித்துவ ‘பட்ஜெட்டை’ ஒதுக்குகிறது. இந்த உள்ளார்ந்த திறமையின்மை குறைவான முக்கியமான பகுதிகளில் பிரதிநிதித்துவத் திறனை வீணாக்குகிறது, அதே நேரத்தில் உயர்-நம்பகத்தன்மை புனரமைப்பு அல்லது உருவாக்கத்திற்குத் தேவையான விவரங்களிலிருந்து மிகவும் சிக்கலான பகுதிகளைப் பட்டினி போடக்கூடும்.
அடுத்தடுத்த முன்னேற்றங்கள் இந்த சிக்கல்களைத் தணிக்க முயன்றன, ஆனால் பெரும்பாலும் அவற்றின் சொந்த சிக்கல்களை அறிமுகப்படுத்தின:
- படிநிலை அணுகுமுறைகள் (Hierarchical Approaches): VQVAE-2, RQVAE, மற்றும் MoVQ போன்ற மாதிரிகள் பல-நிலை பிரதிநிதித்துவங்களை அறிமுகப்படுத்தின, மீதமுள்ள குவாண்டமாக்கல் (residual quantization) மூலம் வெவ்வேறு அளவுகளில் தகவல்களைப் பிடிக்க முயன்றன. சுருக்கத்தின் அடுக்குகளைச் சேர்க்கும்போது, அடுக்குகளுக்குள் சாத்தியமான சீரான சிகிச்சையின் அடிப்படைப் பிரச்சினை நீடிக்கக்கூடும்.
- குறியீட்டுப் புத்தக அளவிடுதல் சவால்கள் (Codebook Scaling Challenges): FSQ, SimVQ, மற்றும் VQGAN-LC போன்ற முயற்சிகள், டோக்கன்களின் சொற்களஞ்சிய அளவை (குறியீட்டுப் புத்தகம்) அதிகரிக்க முயற்சிக்கும்போது ஏற்படக்கூடிய ‘பிரதிநிதித்துவ சரிவை’ (representation collapse) நிவர்த்தி செய்வதில் கவனம் செலுத்தின, இது சிறந்த விவரங்களைப் பிடிக்க அவசியமான படியாகும். இருப்பினும், இந்த பெரிய தனித்தனி சொற்களஞ்சியங்களை திறமையாக நிர்வகிப்பது ஒரு தடையாகவே உள்ளது.
- பூலிங் உத்திகள் (Pooling Strategies): சில முறைகள் குறைந்த-பரிமாண அம்சங்களைப் பிரித்தெடுக்க பூலிங் செயல்பாடுகளை நம்பியுள்ளன. வகைப்பாடு போன்ற சில பணிகளுக்கு பயனுள்ளதாக இருந்தாலும், பூலிங் இயல்பாகவே தகவல்களை ஒருங்கிணைக்கிறது, பெரும்பாலும் நுண்ணிய விவரங்களை இழக்கிறது. முக்கியமாக, இந்த அணுகுமுறைகள் பொதுவாக பூல் செய்யப்பட்ட அம்சத்திற்கு பங்களிக்கும் தனிப்பட்ட கூறுகளின் மீது நேரடி மேற்பார்வை சமிக்ஞைகளைக் கொண்டிருக்கவில்லை, இது விவரம் மிக முக்கியமான உருவாக்கும் பணிகளுக்கான பிரதிநிதித்துவத்தை மேம்படுத்துவதை கடினமாக்குகிறது. இதன் விளைவாக வரும் அம்சங்கள் சிக்கலான காட்சி உள்ளடக்கத்தை துல்லியமாக புனரமைக்க அல்லது உருவாக்க துணை உகந்ததாக இருக்கலாம்.
- தொடர்பு அடிப்படையிலான பொருத்தம் (Correspondence-Based Matching): எளிமையான Bag-of-Words கருத்துக்களிலிருந்து உருவாகி, செட் மாடலிங்கிலிருந்து உத்வேகம் பெறும் நுட்பங்கள், கணிக்கப்பட்ட கூறுகள் மற்றும் அடிப்படை உண்மை (ground truth) ஆகியவற்றுக்கு இடையேயான தொடர்புகளை நிறுவ சில நேரங்களில் இருதரப்பு பொருத்துதல் வழிமுறைகளைப் (DETR அல்லது TSPN இல் பயன்படுத்தப்படும் ஹங்கேரிய வழிமுறை போன்றவை) பயன்படுத்துகின்றன. இருப்பினும், இந்த பொருத்துதல் செயல்முறையே உறுதியற்ற தன்மையை அறிமுகப்படுத்தக்கூடும். ஒரு குறிப்பிட்ட கணிக்கப்பட்ட உறுப்புக்கு ஒதுக்கப்பட்ட மேற்பார்வை சமிக்ஞை, பொருத்தத்தின் முடிவைப் பொறுத்து ஒரு பயிற்சி மறு செய்கையிலிருந்து அடுத்ததற்கு மாறலாம், இது சீரற்ற சாய்வுகளுக்கு வழிவகுக்கும் மற்றும் திறமையான ஒருங்கிணைப்பைத் தடுக்கக்கூடும். அதன் இலக்குகள் தொடர்ந்து மாறும்போது நிலையான பிரதிநிதித்துவங்களைக் கற்றுக்கொள்ள மாதிரி போராடக்கூடும்.
இந்த மாறுபட்ட அணுகுமுறைகள் முழுவதும் உள்ள அடிப்படை தீம், கடுமையான, பெரும்பாலும் வரிசை அடிப்படையிலான பிரதிநிதித்துவங்களால் விதிக்கப்பட்ட கட்டுப்பாடுகளுக்கு எதிரான போராட்டம் மற்றும் பிரதிநிதித்துவ வளங்களை மிகவும் தேவைப்படும் இடங்களில் - படப் பகுதிகளுக்குள் உட்பொதிக்கப்பட்ட சொற்பொருள் அர்த்தத்திற்கு ஏற்ப - மாறும் வகையில் ஒதுக்குவதில் உள்ள சிரமம் ஆகும்.
பிக்சல்களை மறுபரிசீலனை செய்தல்: செட்-அடிப்படையிலான பார்வையின் விடியல்
வரிசைப்படுத்தப்பட்ட, சீராக சுருக்கப்பட்ட பிரதிநிதித்துவங்களின் வரம்புகளால் விரக்தியடைந்த, University of Science and Technology of China மற்றும் Tencent Hunyuan Research ஆகியவற்றின் ஆராய்ச்சியாளர்கள் வேறு பாதையில் இறங்கினர். படங்கள் ஒரு வாக்கியத்தில் உள்ள சொற்களைப் போல, டோக்கன்களின் வரிசைப்படுத்தப்பட்ட வரிசைகளாக செயலாக்கப்பட வேண்டும் என்ற அடிப்படை அனுமானத்தை அவர்கள் கேள்விக்குள்ளாக்கினர். அவர்களின் புதுமையான பதில் TokenSet ஆகும், இது மிகவும் நெகிழ்வான மற்றும் சொற்பொருள் ரீதியாக விழிப்புணர்வுள்ள அணுகுமுறையை நோக்கிய ஒரு முன்னுதாரண மாற்றத்தைக் குறிக்கும் ஒரு கட்டமைப்பு ஆகும்.
அதன் மையத்தில், TokenSet டோக்கன் வரிசைகளின் கடுமையான கட்டமைப்பைக் கைவிட்டு, ஒரு படத்தை டோக்கன்களின் வரிசைப்படுத்தப்படாத தொகுப்பாக (unordered set of tokens) பிரதிநிதித்துவப்படுத்துவதற்கு ஆதரவாக உள்ளது. இந்த எளிமையான மாற்றம் ஆழமான தாக்கங்களைக் கொண்டுள்ளது:
- மாறும் பிரதிநிதித்துவத் திறன் (Dynamic Representational Capacity): எல்லா இடங்களிலும் ஒரு நிலையான சுருக்க விகிதத்தைப் பயன்படுத்தும் முறைகளைப் போலல்லாமல், TokenSet குறியீட்டுத் திறனை மாறும் வகையில் ஒதுக்க வடிவமைக்கப்பட்டுள்ளது. ஒரு படத்தின் வெவ்வேறு பகுதிகள் வெவ்வேறு அளவு சொற்பொருள் எடையைக் கொண்டுள்ளன என்பதை இது உள்ளுணர்வாகப் புரிந்துகொள்கிறது. விவரம் மற்றும் அர்த்தத்தில் செழுமையான சிக்கலான பகுதிகள், பிரதிநிதித்துவ வளங்களில் அதிக பங்கைக் கோரலாம், அதே நேரத்தில் எளிமையான பின்னணிப் பகுதிகளுக்கு குறைவாகத் தேவைப்படுகிறது. இது மனித காட்சிப் புலனுணர்வைப் பிரதிபலிக்கிறது, அங்கு நாம் இயல்பாகவே முக்கிய பொருள்கள் மற்றும் விவரங்களில் அதிக அறிவாற்றல் வளங்களைச் செலுத்துகிறோம்.
- மேம்படுத்தப்பட்ட உலகளாவிய சூழல் (Enhanced Global Context): டோக்கன்களை ஒரு சங்கிலியில் உள்ள இணைப்புகளாகக் காட்டிலும் ஒரு தொகுப்பின் உறுப்பினர்களாகக் கருதுவதன் மூலம், TokenSet இயல்பாகவே வரிசை மாதிரிகளால் (பேட்ச் வரிசைகளில் செயல்படும் டிரான்ஸ்பார்மர்கள் போன்றவை) பெரும்பாலும் செயல்படுத்தப்படும் டோக்கன்களுக்கு இடையேயான நிலை உறவுகளைப் பிரிக்கிறது. தொகுப்பில் உள்ள ஒவ்வொரு டோக்கனும், கொள்கையளவில், ஒரு முன்னரே தீர்மானிக்கப்பட்ட இடஞ்சார்ந்த வரிசையால் சார்புடையதாக இல்லாமல் மற்ற எல்லா டோக்கன்களிலிருந்தும் தகவலைக் கவனிக்கலாம் அல்லது ஒருங்கிணைக்கலாம். இது உலகளாவிய சூழல் தகவலின் சிறந்த ஒருங்கிணைப்பை எளிதாக்குகிறது, பிரதிநிதித்துவம் நீண்ட தூர சார்புகள் மற்றும் ஒட்டுமொத்த காட்சி அமைப்பை மிகவும் திறம்படப் பிடிக்க அனுமதிக்கிறது. ஒவ்வொரு டோக்கனுக்கான தத்துவார்த்த ஏற்பு புலம் (receptive field) முழு படத்தின் அம்ச இடத்தையும் உள்ளடக்கலாம்.
- மேம்படுத்தப்பட்ட உறுதித்தன்மை (Improved Robustness): தொகுப்பு பிரதிநிதித்துவத்தின் வரிசைப்படுத்தப்படாத தன்மை உள்ளூர் இடையூறுகள் அல்லது சிறிய இடஞ்சார்ந்த மாறுபாடுகளுக்கு எதிராக அதிக உறுதியைக் கொடுக்கிறது. அர்த்தம் டோக்கன்களின் தொகுப்பிலிருந்து பெறப்படுவதால், அவற்றின் துல்லியமான வரிசையிலிருந்து அல்ல, உள்ளீட்டுப் படத்தில் ஏற்படும் சிறிய மாற்றங்கள் அல்லது சிதைவுகள் ஒட்டுமொத்த பிரதிநிதித்துவத்தை கடுமையாக மாற்ற வாய்ப்பில்லை.
இடஞ்சார்ந்த கடுமையான வரிசையிலிருந்து நெகிழ்வான, வரிசைப்படுத்தப்படாத தொகுப்பிற்கு இந்த நகர்வு, படத்தின் உள்ளடக்கத்திற்கு இயல்பாகவே மிகவும் இசைவான ஒரு பிரதிநிதித்துவத்தை அனுமதிக்கிறது, இது மிகவும் திறமையான மற்றும் அர்த்தமுள்ள காட்சிப் புரிதல் மற்றும் உருவாக்கத்திற்கு வழி வகுக்கிறது.
சாராம்சத்தைப் பிடித்தல்: TokenSet-ல் மாறும் ஒதுக்கீடு
சொற்பொருள் சிக்கலான தன்மையின் அடிப்படையில் பிரதிநிதித்துவ சக்தியை மாறும் வகையில் ஒதுக்கும் வாக்குறுதி TokenSet-ன் கவர்ச்சிக்கு மையமானது. அது இந்த சாதனையை எவ்வாறு அடைகிறது? குறிப்பிட்ட வழிமுறைகள் அதிநவீன நரம்பியல் நெட்வொர்க் கட்டமைப்புகள் மற்றும் பயிற்சி நோக்கங்களை உள்ளடக்கியிருந்தாலும், அடிப்படை கொள்கை நிலையான கட்டங்கள் மற்றும் சீரான செயலாக்கத்திலிருந்து ஒரு புறப்பாடு ஆகும்.
படம் ஒரு நிலையான சதுரங்கப் பலகை வடிவத்தின் மூலம் அல்ல, மாறாக மிகவும் தகவமைக்கக்கூடிய செயல்முறையின் மூலம் பகுப்பாய்வு செய்யப்படுவதாக கற்பனை செய்து பாருங்கள். சொற்பொருள் ரீதியாக செழுமையானதாக அடையாளம் காணப்பட்ட பகுதிகள் - ஒருவேளை தனித்துவமான பொருள்கள், சிக்கலான அமைப்புகள் அல்லது படத்தின் கதைக்கு முக்கியமான பகுதிகளைக் கொண்டிருக்கலாம் - அதிக விளக்கமான டோக்கன்கள் அல்லது அதிக தகவல் திறன் கொண்ட டோக்கன்களின் ஒதுக்கீட்டைத் தூண்டுகின்றன. மாறாக, சொற்பொருள் ரீதியாக அரிதானதாகக் கருதப்படும் பகுதிகள், சீரான பின்னணிகள் அல்லது எளிய சாய்வுகள் போன்றவை, மிகவும் சுருக்கமாகக் குறிக்கப்படுகின்றன.
இது பாரம்பரிய முறைகளுடன் கூர்மையாக முரண்படுகிறது, எடுத்துக்காட்டாக, 16x16 பேட்ச்களின் கட்டம் பிரித்தெடுக்கப்பட்டு, ஒவ்வொரு பேட்சும் ஒரு டோக்கனாக மாற்றப்படுகிறது, அதில் ஒரு சிக்கலான பொருள் உள்ளதா அல்லது வெறும் வெற்று இடம் உள்ளதா என்பதைப் பொருட்படுத்தாமல். TokenSet, தொகுப்பு பிரதிநிதித்துவக் கொள்கையின் அடிப்படையில் செயல்படுகிறது, இந்த இடஞ்சார்ந்த விறைப்பிலிருந்து விடுபடுகிறது.
கடற்கரை புகைப்பட உதாரணத்தைக் கவனியுங்கள்:
- பாரம்பரிய அணுகுமுறை: வானம், கடல், மணல் மற்றும் முன்புறத்தில் உள்ள மக்கள் ஒவ்வொருவரும் பேட்ச்களாகப் பிரிக்கப்படலாம், மேலும் ஒவ்வொரு பேட்சும் தோராயமாக சமமான பிரதிநிதித்துவ எடையைப் பெறுகிறது. ஒரே மாதிரியான நீல வானத்தை விவரிக்க அதிக திறன் செலவிடப்படுகிறது.
- TokenSet அணுகுமுறை: அமைப்பு முன்புறத்தில் உள்ள விரிவான உருவங்கள் மற்றும் பொருள்களுக்கு அதிக பிரதிநிதித்துவ வளங்களை (ஒருவேளை அதிக டோக்கன்கள், அல்லது மிகவும் சிக்கலான டோக்கன்கள்) ஒதுக்கும், அதே நேரத்தில் பரந்த, ஒப்பீட்டளவில் சீரான வானம் மற்றும் கடல் பகுதிகளின் சாராம்சத்தைப் பிடிக்க குறைவான அல்லது எளிமையான டோக்கன்களைப் பயன்படுத்தும்.
இந்த தகவமைக்கக்கூடிய ஒதுக்கீடு, மாதிரியின் ‘கவனம்’ மற்றும் பிரதிநிதித்துவ நம்பகத்தன்மை மிகவும் முக்கியமான இடங்களில் குவிக்கப்படுவதை உறுதி செய்கிறது, இது காட்சி காட்சியின் மிகவும் திறமையான மற்றும் பயனுள்ள குறியாக்கத்திற்கு வழிவகுக்கிறது. இது ஒரு கதையில் உள்ள முக்கிய கதாபாத்திரங்களை விவரிப்பதற்கு பின்னணி காட்சிகளுடன் ஒப்பிடும்போது ஒரு பெரிய பட்ஜெட்டை வழங்குவதைப் போன்றது.
வரிசைப்படுத்தப்படாததை மாதிரியாக்குதல்: நிலையான-தொகை தனித்த பரவல் திருப்புமுனை (Fixed-Sum Discrete Diffusion Breakthrough)
ஒரு படத்தை டோக்கன்களின் வரிசைப்படுத்தப்படாத தொகுப்பாகக் குறிப்பது போரின் பாதி மட்டுமே. மற்ற முக்கியமான பகுதி இந்த தொகுப்புகளின் விநியோகத்தை எவ்வாறு மாதிரியாக்குவது என்பதைக் கண்டுபிடிப்பதாகும். ஒரு உருவாக்கும் மாதிரி, யதார்த்தமான படங்களுக்கு ஒத்த டோக்கன்களின் செல்லுபடியாகும் தொகுப்புகளுடன் தொடர்புடைய சிக்கலான வடிவங்களையும் நிகழ்தகவுகளையும் எவ்வாறு கற்றுக்கொள்ள முடியும், குறிப்பாக வரிசை முக்கியமில்லாதபோது? பாரம்பரிய வரிசை அடிப்படையிலான மாதிரிகள் (தன்னியக்க பின்னடைவு டிரான்ஸ்பார்மர்கள் அல்லது வரிசைகளில் செயல்படும் நிலையான பரவல் மாதிரிகள் போன்றவை) இந்த பணிக்கு பொருத்தமற்றவை.
TokenSet கட்டமைப்பின் இரண்டாவது பெரிய கண்டுபிடிப்பு இங்குதான் வருகிறது: Fixed-Sum Discrete Diffusion (FSDD). ஆராய்ச்சியாளர்கள் FSDD-ஐ முதல் பரவல் கட்டமைப்பாக உருவாக்கினர், இது அவர்களின் தொகுப்பு அடிப்படையிலான பிரதிநிதித்துவத்தால் விதிக்கப்பட்ட தனித்துவமான கட்டுப்பாடுகளை ஒரே நேரத்தில் கையாள வடிவமைக்கப்பட்டுள்ளது:
- தனித்த மதிப்புகள் (Discrete Values): டோக்கன்கள் தாங்களாகவே ஒரு முன் வரையறுக்கப்பட்ட குறியீட்டுப் புத்தகத்திலிருந்து (சொற்களஞ்சியம்) வரையப்பட்ட தனித்த நிறுவனங்கள், தொடர்ச்சியான மதிப்புகள் அல்ல. FSDD நேரடியாக இந்த தனித்த களத்தில் செயல்படுகிறது.
- நிலையான வரிசை நீளம் (தொகுப்பின் கீழ்): தொகுப்பு வரிசைப்படுத்தப்படாததாக இருந்தாலும், ஆராய்ச்சியாளர்கள் புத்திசாலித்தனமாக இந்த வரிசைப்படுத்தப்படாத தொகுப்புகளுக்கும் ஒரு நிலையான நீளத்தின் கட்டமைக்கப்பட்ட முழு எண் வரிசைகளுக்கும் இடையில் ஒரு இருவழிக் கோப்பை (bijective mapping) (ஒன்றுக்கு-ஒன்று தொடர்பு) நிறுவுகின்றனர். இந்த வரைபடம் பொதுவாக நிலையான அளவு உள்ளீடுகளில் செயல்படும் பரவல் மாதிரிகளின் சக்தியைப் பயன்படுத்த அனுமதிக்கிறது. FSDD வரிசைப்படுத்தப்படாத தொகுப்புகளைக் குறிக்கும் இந்த கட்டமைக்கப்பட்ட வரிசைகளுடன் வேலை செய்ய வடிவமைக்கப்பட்டுள்ளது.
- கூட்டல் மாறாநிலை (Summation Invariance): தொகுப்புகள் வரிசைகளுக்கு வரைபடமாக்கப்படும் விதத்திற்கு குறிப்பிட்ட இந்த பண்பு, டோக்கன் தொகுப்பின் சில ஒட்டுமொத்த பண்புகள் அல்லது கட்டுப்பாடுகள் பரவல் (சத்தம்-சேர்த்தல்) மற்றும் தலைகீழ் (உருவாக்கம்) செயல்முறை முழுவதும் பாதுகாக்கப்படுவதை உறுதிசெய்வதுடன் தொடர்புடையதாக இருக்கலாம். FSDD இந்த மாறாநிலையை மதிக்க தனித்துவமாக வடிவமைக்கப்பட்டுள்ளது, இது தொகுப்பு விநியோகத்தை சரியாக மாதிரியாக்குவதற்கு முக்கியமானது.
பரவல் மாதிரிகள் பொதுவாக தரவுகளுக்கு படிப்படியாக சத்தம் சேர்த்து அது தூய சத்தமாக மாறும் வரை செயல்படுகின்றன, பின்னர் இந்த செயல்முறையைத் தலைகீழாக மாற்ற ஒரு மாதிரியைப் பயிற்றுவிக்கின்றன, சத்தத்திலிருந்து தொடங்கி படிப்படியாக அதை நீக்கி தரவை உருவாக்குகின்றன. FSDD இந்த சக்திவாய்ந்த உருவாக்கும் முன்னுதாரணத்தை வரிசைப்படுத்தப்படாத டோக்கன் தொகுப்புகளைக் குறிக்கும் கட்டமைக்கப்பட்ட முழு எண் வரிசைகளின் குறிப்பிட்ட பண்புகளுக்கு ஏற்ப மாற்றியமைக்கிறது.
இந்த மூன்று பண்புகளையும் ஒரே நேரத்தில் வெற்றிகரமாகக் கையாள்வதன் மூலம், FSDD TokenSets-ன் விநியோகத்தைக் கற்றுக்கொள்வதற்கான ஒரு கொள்கை ரீதியான மற்றும் பயனுள்ள வழிமுறையை வழங்குகிறது. இது உருவாக்கும் மாதிரிக்கு ஒரு யதார்த்தமான படத்திற்கான டோக்கன்களின் செல்லுபடியாகும் மற்றும் சாத்தியமான தொகுப்பு எது என்பதைப் புரிந்துகொள்ளவும், இந்த கற்றறிந்த விநியோகத்திலிருந்து மாதிரி செய்வதன் மூலம் புதிய தொகுப்புகளை (இதனால் புதிய படங்களை) உருவாக்கவும் அனுமதிக்கிறது. இந்த தனிப்பயனாக்கப்பட்ட மாதிரியாக்க அணுகுமுறை தொகுப்பு அடிப்படையிலான பிரதிநிதித்துவத்தின் திறனைத் திறப்பதற்கு முக்கியமானது.
கோட்பாட்டை நடைமுறைக்குக் கொண்டு வருதல்: சரிபார்ப்பு மற்றும் செயல்திறன்
ஒரு திருப்புமுனை கருத்துக்கு கடுமையான சரிபார்ப்பு தேவை. TokenSet மற்றும் FSDD-ன் செயல்திறன் சவாலான ImageNet தரவுத்தொகுப்பில் சோதிக்கப்பட்டது, இது படப் புரிதல் மற்றும் உருவாக்கும் பணிகளுக்கான ஒரு நிலையான அளவுகோலாகும், 256x256 தெளிவுத்திறனுக்கு அளவிடப்பட்ட படங்களைப் பயன்படுத்தி. செயல்திறன் முதன்மையாக 50,000-பட சரிபார்ப்புத் தொகுப்பில் Frechet Inception Distance (FID) மதிப்பெண்ணைப் பயன்படுத்தி அளவிடப்பட்டது. குறைந்த FID மதிப்பெண், உருவாக்கப்பட்ட படங்கள் புள்ளிவிவர ரீதியாக உண்மையான படங்களுடன் மிகவும் ஒத்ததாக இருப்பதைக் குறிக்கிறது, இது முன்-பயிற்சி பெற்ற Inception நெட்வொர்க்கால் பிரித்தெடுக்கப்பட்ட அம்சங்களின் அடிப்படையில், உயர் தரம் மற்றும் யதார்த்தத்தைக் குறிக்கிறது.
பயிற்சி முறை நிறுவப்பட்ட சிறந்த நடைமுறைகளைப் பின்பற்றியது, TiTok மற்றும் MaskGIT போன்ற முந்தைய பணிகளிலிருந்து உத்திகளைத் தழுவியது. முக்கிய அம்சங்கள் பின்வருமாறு:
- தரவு பெருக்குதல் (Data Augmentation): மாதிரி உறுதியை மேம்படுத்த சீரற்ற பயிர் செய்தல் மற்றும் கிடைமட்டமாக புரட்டுதல் போன்ற நிலையான நுட்பங்கள் பயன்படுத்தப்பட்டன.
- விரிவான பயிற்சி (Extensive Training): டோக்கனைசர் கூறு 1 மில்லியன் படிகளுக்கு ஒரு பெரிய தொகுதி அளவுடன் பயிற்சி அளிக்கப்பட்டது, இது படம்-க்கு-டோக்கன் வரைபடத்தின் முழுமையான கற்றலை உறுதி செய்தது.
- உகப்பாக்கம் (Optimization): கவனமாக சரிசெய்யப்பட்ட கற்றல் விகித அட்டவணை (வார்ம்-அப் தொடர்ந்து கோசைன் சிதைவு), சாய்வு கிளிப்பிங் மற்றும் Exponential Moving Average (EMA) ஆகியவை நிலையான மற்றும் பயனுள்ள உகப்பாக்கத்திற்குப் பயன்படுத்தப்பட்டன.
- பாகுபடுத்தி வழிகாட்டுதல் (Discriminator Guidance): பயிற்சியின் போது ஒரு பாகுபடுத்தி நெட்வொர்க் இணைக்கப்பட்டது, இது உருவாக்கப்பட்ட படங்களின் காட்சித் தரத்தை மேலும் மேம்படுத்தவும் பயிற்சி செயல்முறையை நிலைப்படுத்தவும் ஒரு எதிர் சமிக்ஞையை வழங்கியது.
சோதனை முடிவுகள் TokenSet அணுகுமுறையின் பல முக்கிய பலங்களை முன்னிலைப்படுத்தின:
- உறுதிப்படுத்தப்பட்ட வரிசைமாற்ற மாறாநிலை (Confirmed Permutation Invariance): இது தொகுப்பு அடிப்படையிலான கருத்தின் ஒரு முக்கியமான சோதனையாகும். பார்வைக்கு, டோக்கன்களின் அதே தொகுப்பிலிருந்து புனரமைக்கப்பட்ட படங்கள், டிகோடரால் டோக்கன்கள் செயலாக்கப்பட்ட வரிசையைப் பொருட்படுத்தாமல் ஒரே மாதிரியாகத் தோன்றின. அளவு ரீதியாக, வெவ்வேறு வரிசைமாற்றங்கள் முழுவதும் அளவீடுகள் சீராக இருந்தன. இது நெட்வொர்க் டோக்கன்களை ஒரு வரிசைப்படுத்தப்படாத தொகுப்பாகக் கருத வெற்றிகரமாகக் கற்றுக்கொண்டது என்பதற்கு வலுவான ஆதாரத்தை வழங்குகிறது, இது வரைபடமாக்கல் செயல்பாட்டின் போது சாத்தியமான அனைத்து வரிசைமாற்றங்களின் ஒரு துணைக்குழுவில் மட்டுமே பயிற்சி அளிக்கப்பட்டிருந்தாலும், முக்கிய வடிவமைப்பு கொள்கையை நிறைவேற்றுகிறது.
- சிறந்த உலகளாவிய சூழல் ஒருங்கிணைப்பு (Superior Global Context Integration): கோட்பாட்டால் கணிக்கப்பட்டபடி, கடுமையான வரிசை வரிசையிலிருந்து பிரித்தல் தனிப்பட்ட டோக்கன்களை முழு படத்திலும் தகவலை மிகவும் திறம்பட ஒருங்கிணைக்க அனுமதித்தது. வரிசை-தூண்டப்பட்ட இடஞ்சார்ந்த சார்புகளின் இல்லாமை காட்சியின் மிகவும் முழுமையான புரிதல் மற்றும் பிரதிநிதித்துவத்தை இயக்கியது, இது மேம்பட்ட உருவாக்கத் தரத்திற்கு பங்களித்தது.
- கலை நிலை செயல்திறன் (State-of-the-Art Performance): சொற்பொருள் ரீதியாக விழிப்புணர்வுள்ள பிரதிநிதித்துவம் மற்றும் வடிவமைக்கப்பட்ட FSDD மாதிரியாக்கத்தால் இயக்கப்பட்டது, TokenSet கட்டமைப்பு ImageNet அளவுகோலில் முந்தைய முறைகளுடன் ஒப்பிடும்போது சிறந்த செயல்திறன் அளவீடுகளை வெளிப்படுத்தியது, இது உயர்-நம்பகத்தன்மை மற்றும் மிகவும் யதார்த்தமான படங்களை உருவாக்கும் திறனைக் குறிக்கிறது. தனித்த, நிலையான-நீளம் மற்றும் கூட்டல்-மாறாநிலை பண்புகளை ஒரே நேரத்தில் பூர்த்தி செய்யும் FSDD-ன் தனித்துவமான திறன் அதன் வெற்றிக்கு முக்கியமானது என்பதை நிரூபித்தது.
இந்த முடிவுகள் கூட்டாக TokenSet-ஐ ஒரு தத்துவார்த்த புதுமையாக மட்டுமல்லாமல், காட்சிப் பிரதிநிதித்துவம் மற்றும் உருவாக்கத்தில் கலையின் நிலையை முன்னேற்றுவதற்கான ஒரு நடைமுறை மற்றும் சக்திவாய்ந்த கட்டமைப்பாகவும் சரிபார்க்கின்றன.
தாக்கங்கள் மற்றும் எதிர்காலக் காட்சிகள்
TokenSet மற்றும் அதன் தொகுப்பு அடிப்படையிலான தத்துவத்தின் அறிமுகம் ஒரு அதிகரிக்கும் முன்னேற்றத்தை விட மேலானது; இது காட்சித் தரவிற்கான உருவாக்கும் மாதிரிகளை நாம் எவ்வாறு கருத்தியல் செய்கிறோம் மற்றும் வடிவமைக்கிறோம் என்பதில் ஒரு சாத்தியமான மாற்றத்தைக் குறிக்கிறது. வரிசைப்படுத்தப்பட்ட டோக்கன்களின் கட்டுப்பாடுகளிலிருந்து விலகி, சொற்பொருள் உள்ளடக்கத்திற்கு மாறும் வகையில் மாற்றியமைக்கும் ஒரு பிரதிநிதித்துவத்தைத் தழுவுவதன் மூலம், இந்த வேலை புதிரான சாத்தியங்களைத் திறக்கிறது:
- மிகவும் உள்ளுணர்வுள்ள படத் திருத்தம் (More Intuitive Image Editing): படங்கள் சொற்பொருள் கூறுகளுடன் தொடர்புடைய டோக்கன்களின் தொகுப்புகளால் குறிக்கப்பட்டால், எதிர்கால இடைமுகங்கள் பயனர்கள் குறிப்பிட்ட பொருள்கள் அல்லது பகுதிகளுடன் தொடர்புடைய டோக்கன்களை நேரடியாகச் சேர்ப்பதன், அகற்றுவதன் அல்லது மாற்றுவதன் மூலம் படங்களைக் கையாள அனுமதிக்க முடியுமா? இது மிகவும் உள்ளுணர்வுள்ள மற்றும் உள்ளடக்கம்-விழிப்புணர்வுள்ள எடிட்டிங் கருவிகளுக்கு வழிவகுக்கும்.
- கலவை உருவாக்கம் (Compositional Generation): தொகுப்பு அடிப்படையிலான தன்மை கலவை பொதுமைப்படுத்தலுக்கு (compositional generalization) - பயிற்சியின் போது வெளிப்படையாகக் காணப்படாத பொருள்கள் மற்றும் காட்சிகளின் புதிய சேர்க்கைகளை உருவாக்கும் திறன் - சிறப்பாகப் பொருந்தக்கூடும். படங்களை கூறுகளின் தொகுப்புகளாகப் புரிந்துகொள்வது முக்கியமாக இருக்கலாம்.
- திறன் மற்றும் அளவிடுதல் (Efficiency and Scalability): FSDD போன்ற அதிநவீன மாதிரியாக்கம் தேவைப்பட்டாலும், சொற்பொருளின் அடிப்படையில் வளங்களை மாறும் வகையில் ஒதுக்குவது ஒட்டுமொத்தமாக மிகவும் திறமையான பிரதிநிதித்துவங்களுக்கு வழிவகுக்கும், குறிப்பாக உயர்-தெளிவுத்திறன் கொண்ட படங்களுக்கு, அங்கு பரந்த பகுதிகள் சொற்பொருள் ரீதியாக எளிமையாக இருக்கலாம்.
- பார்வை மற்றும் மொழியை இணைத்தல் (Bridging Vision and Language): தொகுப்பு பிரதிநிதித்துவங்கள் இயற்கை மொழி செயலாக்கத்தில் (எ.கா., சொற்களின் பைகள்) பொதுவானவை. பார்வையில் தொகுப்பு அடிப்படையிலான அணுகுமுறைகளை ஆராய்வது காட்சி மற்றும் உரை புரிதலை இணைக்கும் பல-மாதிரி மாதிரிகளுக்கான புதிய வழிகளை வழங்கக்கூடும்.
TokenSet கட்டமைப்பு, புதுமையான FSDD மாதிரியாக்க நுட்பத்தால் ஆதரிக்கப்படுகிறது, அடிப்படை பிரதிநிதித்துவத் தேர்வுகளை மறுபரிசீலனை செய்வதன் சக்தியின் ஒரு அழுத்தமான ஆர்ப்பாட்டத்தை வழங்குகிறது. இது காட்சித் தரவிற்கான வரிசை கட்டமைப்புகளின் மீது நீண்டகாலமாக வைத்திருக்கும் நம்பகத்தன்மையை சவால் செய்கிறது மற்றும் பிக்சல்களுக்குள் உட்பொதிக்கப்பட்ட அர்த்தத்தைப் பற்றி அறிந்த பிரதிநிதித்துவங்களின் நன்மைகளை முன்னிலைப்படுத்துகிறது. இந்த ஆராய்ச்சி ஒரு குறிப்பிடத்தக்க படியைக் குறிக்கும் அதே வேளையில், இது ஒரு தொடக்க புள்ளியாகவும் செயல்படுகிறது. தொகுப்பு அடிப்படையிலான காட்சிப் பிரதிநிதித்துவங்களின் திறனை முழுமையாகப் புரிந்துகொள்வதற்கும் பயன்படுத்துவதற்கும் மேலும் ஆய்வு தேவைப்படுகிறது, இது உலகை ஒரு வரிசையாகக் குறைவாகவும், அர்த்தமுள்ள கூறுகளின் தொகுப்பாக அதிகமாகவும் பார்க்கும் அடுத்த தலைமுறை மிகவும் திறமையான மற்றும் திறன் வாய்ந்த உருவாக்கும் மாதிரிகளுக்கு வழிவகுக்கும்.