போலி கற்றல் (IL) பாரம்பரிய வலுவூட்டல் கற்றலுக்கு ஒரு கவர்ச்சிகரமான மாற்றாக அமைகிறது, முகவர்கள் வெகுமதி சமிக்ஞைகளை மட்டும் நம்பியிராமல் செயல் விளக்கங்களிலிருந்து கற்றுக்கொள்ள அனுமதிக்கிறது. இருப்பினும், பயனுள்ள IL கொள்கைகளை உருவாக்குவது, அம்சத் தேர்வு மற்றும் கட்டடக்கலை வடிவமைப்பு முதல் கொள்கையின் பிரதிநிதித்துவம் வரை சிக்கலான தேர்வுகளை உள்ளடக்கியது. இயந்திர கற்றலின் விரைவான பரிணாமம், புதிய நுட்பங்கள் மற்றும் அதிகரிக்கும் சிக்கலான தன்மையுடன், விஷயங்களை மேலும் சிக்கலாக்குகிறது. இந்த முன்னேற்றங்களை IL கட்டமைப்பிற்குள் ஒருங்கிணைத்து மதிப்பீடு செய்வது ஒரு குறிப்பிடத்தக்க சவாலாகிறது. IL இன் ஒப்பீட்டளவில் ஆராயப்படாத வடிவமைப்பு வெளி மற்றொரு சிரமத்தை சேர்க்கிறது, இது வலுவான மற்றும் திறமையான IL கொள்கைகளை உருவாக்குவதைத் தடுக்கிறது.
போலி கற்றலில் தற்போதைய சவால்கள்
தற்கால போலி கற்றல் முறைகள் முதன்மையாக நிலை அடிப்படையிலான மற்றும் பட அடிப்படையிலான அணுகுமுறைகளை நம்பியுள்ளன. வெளித்தோற்றத்தில் நேரடியானதாக இருந்தாலும், இரண்டும் அவற்றின் நடைமுறை பயன்பாட்டைக் குறைக்கும் வரம்புகளால் பாதிக்கப்படுகின்றன. சுற்றுச்சூழலின் துல்லியமான எண் பிரதிநிதித்துவங்களை நம்பியிருக்கும் நிலை அடிப்படையிலான முறைகள், உண்மையான உலக காட்சிகளின் நுணுக்கங்களை கைப்பற்றுவதில் துல்லியமின்மை காரணமாக பெரும்பாலும் தோல்வியடைகின்றன. மாறாக, பட அடிப்படையிலான முறைகள், ஒரு பணக்கார காட்சி கண்ணோட்டத்தை வழங்கினாலும், பொருள்களின் முப்பரிமாண அமைப்பை துல்லியமாக பிரதிநிதித்துவப்படுத்த போராடுகின்றன மற்றும் பெரும்பாலும் விரும்பிய இலக்கின் தெளிவற்ற பிரதிநிதித்துவத்தை வழங்குகின்றன.
இயற்கை மொழியின் அறிமுகம் IL அமைப்புகளின் நெகிழ்வுத்தன்மையை மேம்படுத்துவதற்கான ஒரு சாத்தியமான தீர்வாக வெளிப்பட்டுள்ளது. இருப்பினும், மொழியை திறம்பட இணைப்பது ஒரு தடையாகவே உள்ளது. ரெக்கரண்ட் நியூரல் நெட்வொர்க்குகள் (RNNகள்) போன்ற பாரம்பரிய வரிசை மாதிரிகள் மறைந்து வரும் கிரேடியன்ட் பிரச்சனையுடன் போராடுகின்றன, இது திறமையற்ற பயிற்சிக்கு வழிவகுக்கிறது. டிரான்ஸ்பார்மர்கள் மேம்பட்ட அளவிடுதல் திறனை வழங்கினாலும், அவை இன்னும் கணக்கீட்டு ரீதியாக தேவைப்படலாம். ஸ்டேட் ஸ்பேஸ் மாடல்கள் (SSMகள்) சிறந்த செயல்திறனை நிரூபித்தாலும், IL இல் அவற்றின் சாத்தியம் பெரும்பாலும் பயன்படுத்தப்படாமல் உள்ளது.
மேலும், ஏற்கனவே உள்ள IL நூலகங்கள் பெரும்பாலும் துறையில் விரைவான முன்னேற்றங்களுக்கு பின்னால் உள்ளன. அவை அடிக்கடி டிஃப்யூஷன் மாதிரிகள் போன்ற அதிநவீன நுட்பங்களுக்கான ஆதரவைக் கொண்டிருக்கவில்லை. CleanDiffuser போன்ற கருவிகள் மதிப்புமிக்கவை என்றாலும், அவை பெரும்பாலும் எளிமையான பணிகளுக்கு மட்டுப்படுத்தப்பட்டுள்ளன, இது போலி கற்றல் ஆராய்ச்சியின் ஒட்டுமொத்த முன்னேற்றத்தை கட்டுப்படுத்துகிறது.
X-IL அறிமுகம்: நவீன போலி கற்றலுக்கான ஒரு மட்டு கட்டமைப்பு
தற்போதுள்ள அணுகுமுறைகளின் வரம்புகளை நிவர்த்தி செய்ய, கார்ல்ஸ்ரூஹே இன்ஸ்டிடியூட் ஆப் டெக்னாலஜி, மெட்டா மற்றும் லிவர்பூல் பல்கலைக்கழக ஆராய்ச்சியாளர்கள் X-IL ஐ அறிமுகப்படுத்தியுள்ளனர், இது போலி கற்றலுக்காக குறிப்பாக வடிவமைக்கப்பட்ட ஒரு திறந்த மூல கட்டமைப்பாகும். இந்த கட்டமைப்பு நவீன நுட்பங்களுடன் நெகிழ்வான பரிசோதனையை ஊக்குவிக்கிறது. நாவல் கட்டமைப்புகளை ஒருங்கிணைக்க போராடும் வழக்கமான முறைகளைப் போலல்லாமல், X-IL ஒரு முறையான, மட்டு அணுகுமுறையை பின்பற்றுகிறது. இது IL செயல்முறையை நான்கு முக்கிய கூறுகளாக பிரிக்கிறது:
- கவனிப்பு பிரதிநிதித்துவங்கள்: இந்த கூறு உள்ளீட்டு தரவைக் கையாளுகிறது, படங்கள், புள்ளி மேகங்கள் மற்றும் மொழி போன்ற பல்வேறு முறைகளை உள்ளடக்கியது.
- முதுகெலும்புகள்: இந்த கூறு வரிசை மாடலிங்கில் கவனம் செலுத்துகிறது, பாரம்பரிய டிரான்ஸ்பார்மர்கள் மற்றும் RNN களுடன் ஒப்பிடும்போது மேம்பட்ட செயல்திறனை வழங்கும் Mamba மற்றும் xLSTM போன்ற விருப்பங்களை வழங்குகிறது.
- கட்டமைப்புகள்: இந்த கூறு டிகோடர்-மட்டும் மற்றும் என்கோடர்-டிகோடர் மாதிரிகள் இரண்டையும் உள்ளடக்கியது, கொள்கை வடிவமைப்பில் நெகிழ்வுத்தன்மையை வழங்குகிறது.
- கொள்கை பிரதிநிதித்துவங்கள்: இந்த கூறு கொள்கை கற்றல் மற்றும் பொதுமைப்படுத்தலை மேம்படுத்த டிஃப்யூஷன் அடிப்படையிலான மற்றும் ஓட்டம் அடிப்படையிலான மாதிரிகள் போன்ற மேம்பட்ட நுட்பங்களைப் பயன்படுத்துகிறது.
இந்த நுணுக்கமாக கட்டமைக்கப்பட்ட, தொகுதி அடிப்படையிலான கட்டமைப்பு தனிப்பட்ட கூறுகளை சிரமமின்றி மாற்றுவதை செயல்படுத்துகிறது. ஆராய்ச்சியாளர்களும் பயிற்சியாளர்களும் முழு அமைப்பையும் மாற்றியமைக்காமல் மாற்று கற்றல் உத்திகளை எளிதாக பரிசோதிக்கலாம். இது பாரம்பரிய IL கட்டமைப்புகளை விட ஒரு குறிப்பிடத்தக்க நன்மை, இது பெரும்பாலும் நிலை அடிப்படையிலான அல்லது பட அடிப்படையிலான உத்திகளை மட்டுமே நம்பியுள்ளது. X-IL மல்டி-மாடல் கற்றலைத் தழுவுகிறது, கற்றல் சூழலின் மிகவும் விரிவான மற்றும் வலுவான பிரதிநிதித்துவத்திற்காக RGB படங்கள், புள்ளி மேகங்கள் மற்றும் மொழியின் ஒருங்கிணைந்த சக்தியைப் பயன்படுத்துகிறது. Mamba மற்றும் xLSTM போன்ற மேம்பட்ட வரிசை மாடலிங் நுட்பங்களின் ஒருங்கிணைப்பு ஒரு குறிப்பிடத்தக்க படியை முன்னோக்கி குறிக்கிறது, இது டிரான்ஸ்பார்மர்கள் மற்றும் RNN களின் செயல்திறன் வரம்புகளை மீறுகிறது.
X-IL இன் மட்டு கூறுகளின் நெருக்கமான பார்வை
X-IL இன் உண்மையான வலிமை அதன் தொகுதி கூறுகளின் பரிமாற்றத்தன்மையில் உள்ளது. இது IL பைப்லைனின் ஒவ்வொரு கட்டத்திலும் விரிவான தனிப்பயனாக்கலை அனுமதிக்கிறது. ஒவ்வொரு தொகுதியையும் ஆழமாக ஆராய்வோம்:
கவனிப்பு தொகுதி: பல மாதிரி உள்ளீடுகளைத் தழுவுதல்
கவனிப்பு தொகுதி கட்டமைப்பின் அடித்தளத்தை உருவாக்குகிறது, உள்ளீட்டு தரவை செயலாக்குவதற்கு பொறுப்பாகும். ஒரு உள்ளீட்டு வகைக்கு மட்டுப்படுத்தப்பட்ட அமைப்புகளைப் போலல்லாமல், X-IL இன் கவனிப்பு தொகுதி பல முறைகளைக் கையாள வடிவமைக்கப்பட்டுள்ளது. இதில் அடங்கும்:
- RGB படங்கள்: சுற்றுச்சூழலைப் பற்றிய பணக்கார காட்சி தகவல்களை வழங்குதல்.
- புள்ளி மேகங்கள்: காட்சியின் முப்பரிமாண பிரதிநிதித்துவத்தை வழங்குதல், இடஞ்சார்ந்த உறவுகள் மற்றும் பொருள் வடிவங்களை கைப்பற்றுதல்.
- மொழி: இயற்கை மொழி அறிவுறுத்தல்கள் அல்லது விளக்கங்களை இணைப்பதை செயல்படுத்துதல், நெகிழ்வுத்தன்மை மற்றும் சூழ்நிலை புரிதலின் ஒரு அடுக்கைச் சேர்த்தல்.
இந்த மாறுபட்ட உள்ளீடுகளை ஆதரிப்பதன் மூலம், X-IL கற்றல் சூழலின் மிகவும் முழுமையான மற்றும் தகவலறிந்த பிரதிநிதித்துவத்தை அனுமதிக்கிறது, மேலும் வலுவான மற்றும் தகவமைப்பு கொள்கைகளுக்கு வழி வகுக்கிறது.
முதுகெலும்பு தொகுதி: திறமையான வரிசை மாடலிங்கை இயக்குதல்
முதுகெலும்பு தொகுதி X-IL இன் தொடர்ச்சியான செயலாக்க திறன்களின் இயந்திரமாகும். இது செயல்விளக்கத் தரவில் உள்ள தற்காலிக சார்புகளை திறம்பட கைப்பற்ற அதிநவீன வரிசை மாடலிங் நுட்பங்களைப் பயன்படுத்துகிறது. இந்த தொகுதியில் உள்ள முக்கிய விருப்பங்கள் பின்வருமாறு:
- Mamba: அதன் செயல்திறன் மற்றும் அளவிடுதலுக்காக அறியப்பட்ட சமீபத்தில் அறிமுகப்படுத்தப்பட்ட ஸ்டேட் ஸ்பேஸ் மாதிரி.
- xLSTM: லாங் ஷார்ட்-டெர்ம் மெமரி (LSTM) நெட்வொர்க்கின் மேம்பட்ட மாறுபாடு, பாரம்பரிய LSTMகளின் வரம்புகளை நிவர்த்தி செய்ய வடிவமைக்கப்பட்டுள்ளது.
- டிரான்ஸ்பார்மர்கள்: வரிசை மாடலிங்கிற்கான நன்கு நிறுவப்பட்ட மற்றும் சக்திவாய்ந்த மாற்றீட்டை வழங்குதல்.
- RNNகள்: ஒப்பீடு மற்றும் அடிப்படை நோக்கங்களுக்காக பாரம்பரிய ரெக்கரண்ட் நியூரல் நெட்வொர்க்குகளை உள்ளடக்கியது.
Mamba மற்றும் xLSTM ஐச் சேர்ப்பது குறிப்பாக குறிப்பிடத்தக்கது. இந்த மாதிரிகள் டிரான்ஸ்பார்மர்கள் மற்றும் RNN களுடன் ஒப்பிடும்போது செயல்திறனில் குறிப்பிடத்தக்க மேம்பாடுகளை வழங்குகின்றன, வேகமான பயிற்சி மற்றும் குறைக்கப்பட்ட கணக்கீட்டு தேவைகளை செயல்படுத்துகின்றன.
கட்டமைப்பு தொகுதி: கொள்கை வடிவமைப்பில் நெகிழ்வுத்தன்மை
கட்டமைப்பு தொகுதி IL கொள்கையின்ஒட்டுமொத்த அமைப்பை தீர்மானிக்கிறது. X-IL இரண்டு முதன்மை கட்டடக்கலை தேர்வுகளை வழங்குகிறது:
- டிகோடர்-மட்டும் மாதிரிகள்: இந்த மாதிரிகள் செயலாக்கப்பட்ட உள்ளீட்டு வரிசையிலிருந்து நேரடியாக செயல்களை உருவாக்குகின்றன.
- என்கோடர்-டிகோடர் மாதிரிகள்: இந்த மாதிரிகள் உள்ளீட்டு வரிசையை செயலாக்க ஒரு என்கோடரையும், தொடர்புடைய செயல்களை உருவாக்க ஒரு டிகோடரையும் பயன்படுத்துகின்றன.
இந்த நெகிழ்வுத்தன்மை ஆராய்ச்சியாளர்கள் வெவ்வேறு அணுகுமுறைகளை ஆராயவும், பணியின் குறிப்பிட்ட தேவைகளுக்கு ஏற்ப கட்டமைப்பை வடிவமைக்கவும் அனுமதிக்கிறது.
கொள்கை பிரதிநிதித்துவ தொகுதி: கொள்கை கற்றலை உகந்ததாக்குதல்
கொள்கை பிரதிநிதித்துவ தொகுதி கற்றறிந்த கொள்கை எவ்வாறு பிரதிநிதித்துவப்படுத்தப்படுகிறது மற்றும் உகந்ததாக்கப்படுகிறது என்பதில் கவனம் செலுத்துகிறது. X-IL கொள்கையின் வெளிப்பாடு மற்றும் பொதுமைப்படுத்தல் இரண்டையும் மேம்படுத்த அதிநவீன நுட்பங்களை உள்ளடக்கியது:
- டிஃப்யூஷன் அடிப்படையிலான மாதிரிகள்: டிஃப்யூஷன் மாதிரிகளின் சக்தியைப் பயன்படுத்துதல், உயர்தர மாதிரிகளை உருவாக்குதல் மற்றும் சிக்கலான தரவு விநியோகங்களை கைப்பற்றுதல் ஆகியவற்றில் அவற்றின் திறனுக்காக அறியப்படுகிறது.
- ஓட்டம் அடிப்படையிலான மாதிரிகள்: ஓட்டம் அடிப்படையிலான மாதிரிகளைப் பயன்படுத்துதல், இது திறமையான மற்றும் தலைகீழ் மாற்றங்களை வழங்குகிறது, மேம்பட்ட பொதுமைப்படுத்தலை எளிதாக்குகிறது.
இந்த மேம்பட்ட நுட்பங்களைப் பின்பற்றுவதன் மூலம், X-IL கற்றல் செயல்முறையை மேம்படுத்துவதையும், பயனுள்ளதாக இருப்பது மட்டுமல்லாமல், காணப்படாத காட்சிகளுக்கு ஏற்ப மாற்றியமைக்கக்கூடிய கொள்கைகளையும் உருவாக்குவதை நோக்கமாகக் கொண்டுள்ளது.
X-IL ஐ மதிப்பீடு செய்தல்: ரோபோடிக் பெஞ்ச்மார்க்குகளில் செயல்திறன்
X-IL இன் செயல்திறனை நிரூபிக்க, ஆராய்ச்சியாளர்கள் இரண்டு நிறுவப்பட்ட ரோபோடிக் பெஞ்ச்மார்க்குகளில் விரிவான மதிப்பீடுகளை நடத்தினர்: LIBERO மற்றும் RoboCasa.
LIBERO: வரையறுக்கப்பட்ட செயல் விளக்கங்களிலிருந்து கற்றல்
LIBERO என்பது வரையறுக்கப்பட்ட எண்ணிக்கையிலான செயல் விளக்கங்களிலிருந்து கற்றுக்கொள்ளும் IL முகவர்களின் திறனை மதிப்பிடுவதற்காக வடிவமைக்கப்பட்ட ஒரு பெஞ்ச்மார்க் ஆகும். சோதனைகளில் 10 மற்றும் 50 ட்ரஜெக்டரி செயல் விளக்கங்களைப் பயன்படுத்தி நான்கு வெவ்வேறு பணி தொகுப்புகளில் மாதிரிகளுக்கு பயிற்சி அளிப்பது அடங்கும். முடிவுகள் கட்டாயமாக இருந்தன:
- xLSTM தொடர்ந்து அதிக வெற்றி விகிதங்களை அடைந்தது. 20% தரவு (10 ட்ரஜெக்டரிகள்) மட்டுமே கொண்டு, xLSTM 74.5% வெற்றி விகிதத்தை எட்டியது. முழு தரவுத்தொகுப்புடன் (50 ட்ரஜெக்டரிகள்), இது 92.3% என்ற ஈர்க்கக்கூடிய வெற்றி விகிதத்தை அடைந்தது. இந்த முடிவுகள் வரையறுக்கப்பட்ட தரவுகளிலிருந்து கற்றுக்கொள்வதில் xLSTM இன் செயல்திறனை தெளிவாக நிரூபிக்கின்றன, இது உண்மையான உலக ரோபோடிக் பயன்பாடுகளில் ஒரு முக்கியமான திறனாகும்.
RoboCasa: மாறுபட்ட சூழல்களுக்கு ஏற்ப
RoboCasa ஒரு மாறுபட்ட சூழல்கள் மற்றும் பணிகளைக் கொண்ட ஒரு சவாலான காட்சியை முன்வைக்கிறது. இந்த பெஞ்ச்மார்க் IL கொள்கைகளின் தகவமைப்பு மற்றும் பொதுமைப்படுத்தல் திறன்களை சோதிக்கிறது. மீண்டும், xLSTM சிறந்த செயல்திறனை நிரூபித்தது:
- xLSTM BC-Transformer ஐ விட சிறப்பாக செயல்பட்டது, ஒரு நிலையான அடிப்படை முறை, 53.6% வெற்றி விகிதத்தை அடைந்தது. இது RoboCasa சூழல்களில் உள்ள சிக்கல்கள் மற்றும் மாறுபாடுகளுக்கு ஏற்ப xLSTM இன் திறனை எடுத்துக்காட்டுகிறது.
பல மாதிரி கற்றலின் நன்மைகளை வெளிப்படுத்துதல்
மேலும் பகுப்பாய்வு பல உள்ளீட்டு முறைகளை இணைப்பதன் நன்மைகளை வெளிப்படுத்தியது. RGB படங்கள் மற்றும் புள்ளி மேகங்கள் இரண்டையும் ஒருங்கிணைப்பதன் மூலம், X-IL இன்னும் சிறந்தமுடிவுகளை அடைந்தது:
- RGB மற்றும் புள்ளி மேக உள்ளீடுகள் இரண்டையும் பயன்படுத்தி xLSTM, 60.9% வெற்றி விகிதத்தை எட்டியது. இது வலுவான மற்றும் பயனுள்ள கொள்கை கற்றலுக்கு மாறுபட்ட உணர்ச்சி தகவல்களைப் பயன்படுத்துவதன் முக்கியத்துவத்தை அடிக்கோடிட்டுக் காட்டுகிறது.
என்கோடர்-டிகோடர் vs. டிகோடர்-மட்டும் கட்டமைப்புகள்
சோதனைகள் என்கோடர்-டிகோடர் மற்றும் டிகோடர்-மட்டும் கட்டமைப்புகளின் செயல்திறனையும் ஒப்பிட்டன. முடிவுகள் சுட்டிக்காட்டின:
- என்கோடர்-டிகோடர் கட்டமைப்புகள் பொதுவாக டிகோடர்-மட்டும் மாதிரிகளை விட சிறப்பாக செயல்பட்டன. இது என்கோடிங் மற்றும் டிகோடிங் செயல்முறைகளின் வெளிப்படையான பிரிப்பு போலி கற்றலில் மேம்பட்ட செயல்திறனுக்கு வழிவகுக்கும் என்று கூறுகிறது.
வலுவான அம்ச பிரித்தெடுத்தலின் முக்கியத்துவம்
அம்ச என்கோடரின் தேர்வும் ஒரு முக்கிய பங்கு வகித்தது. சோதனைகள் ஃபைன்-ட்யூன் செய்யப்பட்ட ResNet என்கோடர்களை ஃப்ரோஸன் CLIP மாடல்களுடன் ஒப்பிட்டன:
- ஃபைன்-ட்யூன் செய்யப்பட்ட ResNet என்கோடர்கள் ஃப்ரோஸன் CLIP மாடல்களை விட தொடர்ந்து சிறப்பாக செயல்பட்டன. இது உகந்த செயல்திறனை அடைவதற்கு, குறிப்பிட்ட பணி மற்றும் சூழலுக்கு ஏற்ப, வலுவான அம்ச பிரித்தெடுத்தலின் முக்கியத்துவத்தை எடுத்துக்காட்டுகிறது.
ஓட்ட பொருத்துதல் முறைகளின் செயல்திறன்
இறுதியாக, மதிப்பீடு வெவ்வேறு ஓட்ட பொருத்துதல் முறைகளின் அனுமான செயல்திறனை ஆராய்ந்தது:
- BESO மற்றும் RF போன்ற ஓட்ட பொருத்துதல் முறைகள் DDPM (Denoising Diffusion Probabilistic Models) உடன் ஒப்பிடக்கூடிய அனுமான செயல்திறனை நிரூபித்தன. ஓட்டம் அடிப்படையிலான மாதிரிகள் கொள்கை பிரதிநிதித்துவத்திற்கு கணக்கீட்டு ரீதியாக திறமையான மாற்றீட்டை வழங்க முடியும் என்பதை இது குறிக்கிறது.
X-IL என்பது ஒரு கட்டமைப்பு மட்டுமல்ல; இது போலி கற்றல் கொள்கைகளை வடிவமைப்பதற்கும் மதிப்பீடு செய்வதற்கும் ஒரு மட்டு மற்றும் தகவமைப்பு அணுகுமுறையை வழங்கும் ஒரு குறிப்பிடத்தக்க முன்னேற்றமாகும். அதிநவீன என்கோடர்கள், திறமையான தொடர் மாதிரிகள் மற்றும் பல மாதிரி உள்ளீடுகளை ஆதரிப்பதன் மூலம், X-IL சவாலான ரோபோடிக் பெஞ்ச்மார்க்குகளில் சிறந்த செயல்திறனை அடைகிறது. கட்டமைப்பின் மட்டுத்தன்மை, கூறுகளை எளிதாக மாற்றுவதற்கான திறன் மற்றும் Mamba மற்றும் xLSTM போன்ற அதிநவீன நுட்பங்களின் ஒருங்கிணைப்பு ஆகியவை அதன் செயல்திறனுக்கு பங்களிக்கின்றன. வரையறுக்கப்பட்ட தரவு மற்றும் மாறுபட்ட சூழல் காட்சிகள் இரண்டிலும் சிறந்த செயல்திறனை நிரூபிக்கும் பெஞ்ச்மார்க் முடிவுகள், போலி கற்றலில் எதிர்கால ஆராய்ச்சியை இயக்குவதற்கும், மேலும் வலுவான மற்றும் தகவமைப்பு ரோபோடிக் அமைப்புகளுக்கு வழி வகுப்பதற்கும் X-IL இன் திறனை அடிக்கோடிட்டுக் காட்டுகின்றன.