AI ஏஜென்ட்களைச் சுற்றியுள்ள எதிர்பார்ப்பு பல ஆண்டுகளாக அதிகரித்து வருகிறது, 2025 ஆம் ஆண்டில் மேம்பட்ட பெரிய மொழி மற்றும் மல்டிமாடல் மாடல்களால் (LLM) இயக்கப்படும் இந்த பணி-குறிப்பிட்ட AI செயலாக்கங்கள் உண்மையில் வேகம் பெறும் என்று பல நிபுணர்கள் கணித்துள்ளனர். இருப்பினும், பெரும்பாலான AI ஏஜென்ட்கள் இன்னும் சோதனை நிலையில் உள்ளன, அவை ஆராய்ச்சி ஆய்வகங்களிலிருந்து நிஜ உலக பயன்பாடுகளுக்கு மாற போராடுகின்றன.
இப்போது, வடமேற்கு பல்கலைக்கழகம், மைக்ரோசாப்ட், ஸ்டான்போர்ட் மற்றும் வாஷிங்டன் பல்கலைக்கழகம் ஆகியவற்றின் ஆராய்ச்சியாளர்களிடமிருந்து ஒரு கூட்டு முயற்சியாக, ஜிஹான் வாங் என்ற முன்னாள் டீப் சீக் ஆராய்ச்சியாளர் உட்பட, RAGEN என்ற ஒரு புதிய அமைப்பை அறிமுகப்படுத்தியுள்ளது. இந்த புதிய கட்டமைப்பானது AI ஏஜென்ட்களைப் பயிற்றுவித்து மதிப்பீடு செய்வதை நோக்கமாகக் கொண்டுள்ளது, இது நடைமுறை, நிறுவன அளவிலான பயன்பாட்டிற்கு மிகவும் நம்பகமானதாகவும், மீள்தன்மை உடையதாகவும் ஆக்குகிறது.
கணிதம் அல்லது குறியீடாக்கம் போன்ற நிலையான சிக்கல்களில் கவனம் செலுத்தும் பாரம்பரிய AI பணிகளைப் போலல்லாமல், RAGEN பல திருப்பங்கள், ஊடாடும் சூழ்நிலைகளை எதிர்கொள்கிறது, அங்கு ஏஜென்ட்கள் நிச்சயமற்ற சூழல்களில் தழுவவும், கற்றுக்கொள்ளவும், காரணத்தை உணரவும் வேண்டும். நிஜ உலக சூழ்நிலைகளின் சிக்கல்களைக் கையாளக்கூடிய AI ஐ உருவாக்குவதற்கு இந்த அணுகுமுறை முக்கியமானது.
RAGEN இன் மையத்தில் ஸ்டார்போ (ஸ்டேட்-திங்கிங்-ஆக்சன்ஸ்-ரிவார்ட் பாலிசி ஆப்டிமைசேஷன்) எனப்படும் தனிப்பயனாக்கப்பட்ட வலுவூட்டல் கற்றல் (RL) கட்டமைப்பு உள்ளது. இந்த அமைப்பு LLM கள் மனப்பாடம் செய்வதை மட்டும் நம்பாமல், அனுபவத்தின் மூலம் எவ்வாறு கற்றுக்கொள்ள முடியும் என்பதை ஆராய்கிறது. ஸ்டார்போ தனிப்பட்ட பதில்களை மட்டுமல்ல, தொடர்புகளின் முழுமையான பாதையையும் கருத்தில் கொண்டு, முழு முடிவெடுக்கும் செயல்முறையிலும் கவனம் செலுத்துகிறது.
ஸ்டார்போ இரண்டு வெவ்வேறு கட்டங்கள் மூலம் செயல்படுகிறது. முதல் கட்டம், ரோல்அவுட் நிலை என்று அழைக்கப்படுகிறது, இது LLM காரணத்தால் வழிநடத்தப்படும் முழுமையான தொடர்பு வரிசைகளை உருவாக்குவதை உள்ளடக்குகிறது. இரண்டாவது கட்டமான புதுப்பிப்பு நிலை, இயல்பாக்கப்பட்ட திரள் வெகுமதிகளைப் பயன்படுத்தி மாதிரியை மேம்படுத்துகிறது. இந்த கட்டமைப்பு நிலையான கொள்கை தேர்வுமுறை முறைகளுடன் ஒப்பிடும்போது மிகவும் நிலையான மற்றும் வெளிப்படையான கற்றல் சுழற்சியை உருவாக்குகிறது.
ஆராய்ச்சியாளர்கள் அலிபாபாவின் Qwen மாடல்களின் நன்றாகச் சரிசெய்யப்பட்ட பதிப்புகளைப் பயன்படுத்தி கட்டமைப்பைச் செயல்படுத்தி கடுமையாகச் சோதித்தனர், குறிப்பாக Qwen 1.5 மற்றும் Qwen 2.5. இந்த மாடல்கள் அவற்றின் திறந்த எடைகள் மற்றும் அறிவுறுத்தல்களை திறம்பட பின்பற்றும் திறன் காரணமாக தேர்ந்தெடுக்கப்பட்டன, இது பல்வேறு குறியீட்டு பணிகளில் இனப்பெருக்கம் மற்றும் நிலையான அடிப்படை ஒப்பீடுகளை அனுமதித்தது.
‘எக்கோ ட்ராப்’ஐ சமாளித்தல்: வலுவூட்டல் கற்றல் மற்றும் காரண இழப்பு
ஜிஹான் வாங் ஒரு பரவலாகப் பகிரப்பட்ட X திரியில் ஒரு முக்கிய சவாலை எடுத்துக்காட்டினார்: ‘உங்கள் RL பயிற்சி ஏன் எப்போதும் முடிகிறது?’ குழுவின் கூற்றுப்படி, LLM ஏஜென்ட்கள் ஆரம்பத்தில் நன்கு காரணமான, குறியீட்டு பதில்களை உருவாக்குகின்றன. இருப்பினும், RL அமைப்புகள் காலப்போக்கில் குறுக்குவழிகளுக்கு வெகுமதி அளிக்க முனைகின்றன, இது மீண்டும் மீண்டும் நடத்தைகளுக்கு வழிவகுக்கிறது, இது இறுதியில் ஒட்டுமொத்த செயல்திறனைக் குறைக்கிறது. இந்த நிகழ்வை அவர்கள் ‘எக்கோ ட்ராப்’ என்று அழைக்கிறார்கள்.
இந்த பின்னடைவு பின்னூட்ட சுழற்சிகள் காரணமாக ஏற்படுகிறது, அங்கு சில சொற்றொடர்கள் அல்லது உத்திகள் ஆரம்பத்தில் அதிக வெகுமதிகளைத் தருகின்றன, இது அவற்றின் அதிகப்படியான பயன்பாட்டிற்கு வழிவகுக்கிறது மற்றும் புதிய அணுகுமுறைகளை ஆராய்வதைத் தடுக்கிறது. வெகுமதி மாறுபாட்டின் சரிவுகள், சாய்வு ஸ்பைக்கள் மற்றும் காரண தடயங்கள் மறைந்து போவது ஆகியவற்றுடன் இது அளவிடக்கூடியது என்று வாங் சுட்டிக்காட்டுகிறார்.
கட்டுப்படுத்தப்பட்ட அமைப்பில் இந்த நடத்தைகளை ஆராய, RAGEN மூன்று குறியீட்டு சூழல்களைப் பயன்படுத்துகிறது:
- பேண்டிட்: இது ஒற்றை-டர்ன், ஸ்டோகாஸ்டிக் பணியாகும், இது குறியீட்டு இடர்-வெகுமதி காரணத்தை மதிப்பிடுகிறது.
- சோகோபன்: ஒரு மல்டி-டர்ன், தீர்மானகரமான புதிர், இதில் மாற்றமுடியாத முடிவுகள் அடங்கும்.
- உறைந்த ஏரி: இது ஒரு ஸ்டோகாஸ்டிக், மல்டி-டர்ன் பணியாகும், இது தழுவல் திட்டமிடலைக் கோருகிறது.
ஒவ்வொரு சூழலும் நிஜ உலக சார்புகளைக் குறைக்க கவனமாக வடிவமைக்கப்பட்டுள்ளது, அதற்கு பதிலாக பயிற்சியின் போது வெளிப்படும் முடிவெடுக்கும் உத்திகளில் கவனம் செலுத்துகிறது.
பேண்டிட் சூழலில், எடுத்துக்காட்டாக, ஏஜென்ட்களுக்கு ‘டிராகன்’ மற்றும் ‘பீனிக்ஸ்’ கைகள் வெவ்வேறு வெகுமதி விநியோகங்களைக் குறிக்கின்றன என்று தெரிவிக்கப்படுகிறது. நிகழ்தகவுகளை நேரடியாக வழங்குவதற்குப் பதிலாக, ஏஜென்ட்கள் ‘டிராகன்’ என்பதை ‘வலிமை’ என்றும், ‘பீனிக்ஸ்’ என்பதை ‘நம்பிக்கை’ என்றும் விளக்கி, விளைவுகளைக் கணிக்க வேண்டும். இத்தகைய அமைப்பு விளக்கக்கூடிய, ஒப்புமை காரணத்தை உருவாக்க மாதிரியை ஊக்குவிக்கிறது.
ஸ்டார்போ-எஸ் உடன் வலுவூட்டல் கற்றலை உறுதிப்படுத்துதல்
பயிற்சி வீழ்ச்சியின் சிக்கலைத் தீர்க்க, ஆராய்ச்சியாளர்கள் ஸ்டார்போ-எஸ் ஐ உருவாக்கினர், இது அசல் கட்டமைப்பின் உறுதிப்படுத்தப்பட்ட பதிப்பாகும். ஸ்டார்போ-எஸ் மூன்று முக்கிய தலையீடுகளை உள்ளடக்கியது:
- நிச்சயமற்ற தன்மை அடிப்படையிலான ரோல்அவுட் வடிகட்டுதல்: ஏஜென்ட் விளைவைப் பற்றி நிச்சயமற்ற தன்மையை நிரூபிக்கும் ரோல்அவுட்களுக்கு இது முன்னுரிமை அளிக்கிறது.
- KL அபராதம் நீக்கம்: மாதிரி அதன் அசல் கொள்கையிலிருந்து அதிக சுதந்திரமாக விலகிச் செல்லவும், புதிய நடத்தைகளை ஆராயவும் அனுமதிக்கிறது.
- சமச்சீரற்ற PPO கிளிப்பிங்: இது குறைந்த வெகுமதி பாதைகளை விட அதிக வெகுமதி பாதைகளை அதிகரிக்கிறது.
இந்த மாற்றங்கள் பயிற்சி வீழ்ச்சியை தாமதப்படுத்துகின்றன அல்லது அகற்றுகின்றன, இது மூன்று பணிகளிலும் மேம்பட்ட செயல்திறனுக்கு வழிவகுக்கிறது. வாங் கூற்றுப்படி, ‘ஸ்டார்போ-எஸ்… அனைத்து 3 பணிகளிலும் செயல்படுகிறது. வீழ்ச்சியைத் தடுக்கிறது. சிறந்த வெகுமதி.’
RL பயிற்சியின் வெற்றி கட்டிடக்கலையில் மட்டுமல்ல, ஏஜென்ட்களால் உருவாக்கப்பட்ட தரவின் தரத்தையும் சார்ந்துள்ளது. பயிற்சிக்கு கணிசமாக பாதிப்பை ஏற்படுத்தும் மூன்று முக்கியமான பரிமாணங்களை குழு அடையாளம் கண்டுள்ளது:
- பணி பன்முகத்தன்மை: மாதிரி பரந்த அளவிலான ஆரம்ப காட்சிகளுக்கு அம்பலப்படுத்துவது பொதுமைப்படுத்தலை மேம்படுத்துகிறது.
- ஊடாடும் துகள்கள்: ஒவ்வொரு திருப்பத்திற்கும் பல செயல்களை அனுமதிப்பது மிகவும் அர்த்தமுள்ள திட்டமிடலை செயல்படுத்துகிறது.
- ரோல்அவுட் புத்துணர்ச்சி: பயிற்சி தரவை தற்போதைய மாதிரி கொள்கையுடன் சீரமைப்பது காலாவதியான கற்றல் சமிக்ஞைகளைத் தவிர்க்கிறது.
ஒன்றாக, இந்த காரணிகள் மிகவும் நிலையான மற்றும் பயனுள்ள பயிற்சி செயல்முறைக்கு பங்களிக்கின்றன.
ஏஜென்ட் சிந்தனை செயல்முறைகளை வெளிப்படுத்துதல்
கிட்ஹப்பில் ஆராய்ச்சியாளர்களால் உருவாக்கப்பட்ட ஊடாடும் டெமோ தளம், ஏஜென்ட் ரோல்அவுட்களை முழு உரையாடல் திருப்பங்களாக காட்சிப்படுத்துகிறது, இது எடுக்கப்பட்ட செயல்களை மட்டுமல்லாமல், அவற்றின் பின்னணியில் உள்ள படிப்படியான சிந்தனை செயல்முறையையும் வெளிப்படுத்துகிறது.
உதாரணமாக, ஒரு கணித சிக்கலைத் தீர்க்கும் போது, ஒரு ஏஜென்ட் ‘x = 5’ போன்ற பதிலைச் சமர்ப்பிக்கும் முன் ஒரு மாறி தனிமைப்படுத்துவதைப் பற்றி முதலில் ‘யோசிக்கலாம்’. இந்த இடைநிலை எண்ணங்கள் தெரியும் மற்றும் கண்டுபிடிக்கக்கூடியவை, ஏஜென்ட்கள் முடிவுகளை எவ்வாறு அடைகிறார்கள் என்பதில் வெளிப்படைத்தன்மையை வழங்குகின்றன.
வெளிப்படையான காரணம் பேண்டிட் போன்ற எளிய, ஒற்றை-டர்ன் பணிகளில் செயல்திறனை மேம்படுத்தினாலும், இது மல்டி-டர்ன் பயிற்சியின் போது மோசமடைய முனைகிறது. கட்டமைக்கப்பட்ட தூண்டுதல்கள் மற்றும் டோக்கன்களைப் பயன்படுத்திய போதிலும், காரண தடயங்கள் பெரும்பாலும் சுருங்குகின்றன அல்லது வெகுமதி அளிக்கப்படாவிட்டால் மறைந்துவிடும்.
இது பாரம்பரிய வெகுமதி வடிவமைப்பில் ஒரு வரம்பை எடுத்துக்காட்டுகிறது: பணி முடிவில் கவனம் செலுத்துவது செயல்முறையின் தரத்தை கவனிக்காமல் போகலாம். சிறந்த கட்டமைக்கப்பட்ட காரணத்தை ஊக்குவிக்க, அணி வடிவம் சார்ந்த அபராதங்களுடன் பரிசோதனை செய்தது, ஆனால் மிகவும் சுத்திகரிக்கப்பட்ட வெகுமதி வடிவமைத்தல் அவசியம் என்று ஒப்புக்கொள்கிறது.
AI ஏஜென்ட் மேம்பாட்டிற்கான திறந்த-மூல கருவிகள்
RAGEN, அதன் ஸ்டார்போ மற்றும் ஸ்டார்போ-எஸ் கட்டமைப்புகளுடன், இப்போது ஒரு திறந்த மூல திட்டமாக கிடைக்கிறது. பணிகளை முடிப்பது மட்டுமல்லாமல், சிந்தித்து, திட்டமிட்டு, உருவாகும் AI ஏஜென்ட்களை உருவாக்குவதில் ஆர்வமுள்ளவர்களுக்கு இது ஒரு மதிப்புமிக்க அடித்தளத்தை வழங்குகிறது.
AI அதிக சுயாட்சியை நோக்கி முன்னேறும்போது, RAGEN போன்ற திட்டங்கள் தரவு மற்றும் அவற்றின் சொந்த செயல்களின் விளைவுகளிலிருந்து கற்றுக்கொள்ளும் மாடல்களைப் பயிற்றுவிப்பதற்கு என்ன தேவை என்பதை வெளிச்சம் போட்டுக் காட்டுகின்றன.
நிஜ உலக செயலாக்கத்திற்கான முக்கிய கேள்விகள்
RAGEN கட்டுரை ஒரு விரிவான தொழில்நுட்ப கட்டமைப்பை வழங்கினாலும், நிறுவன சூழல்களில் அதன் பயன்பாட்டை கருத்தில் கொள்பவர்களுக்கு பல நடைமுறை கேள்விகள் உள்ளன. எடுத்துக்காட்டாக, இந்த வடிவமைக்கப்பட்ட, குறியீட்டு பணிகளுக்கு அப்பாற்பட்ட RAGEN இன் அணுகுமுறை எவ்வளவு நன்றாக மொழிபெயர்க்கிறது? விலைப்பட்டியல் செயலாக்கம் அல்லது வாடிக்கையாளர் ஆதரவு போன்ற பணிப்பாய்வுகளில் இந்த அமைப்பைப் பயன்படுத்த நிறுவனங்கள் முற்றிலும் புதிய சூழல்கள் மற்றும் வெகுமதி செயல்பாடுகளை உருவாக்க வேண்டுமா?
மற்றொரு முக்கியமான கருத்தில் அளவிடுதல் ஆகும். ஸ்டார்போ-எஸ் வழங்கிய மேம்பாடுகள் இருந்தபோதிலும், பயிற்சி நீண்ட காலத்திற்கு இன்னும் முடிவடையும் என்று கட்டுரை ஒப்புக்கொள்கிறது. திறந்த அல்லது தொடர்ந்து உருவாகும் பணி வரிசைகளில் காரணத்தை தக்கவைக்க ஒரு தத்துவார்த்த அல்லது நடைமுறை பாதை இருக்கிறதா என்ற கேள்வியை இது எழுப்புகிறது.
RAGEN அதிக தன்னாட்சி, காரணம் திறன் கொண்ட AI ஏஜென்ட்களை உருவாக்குவதற்கான ஒரு குறிப்பிடத்தக்க படியாகும், இது எதிர்கால மேம்பாட்டிற்கான கருத்தியல் கட்டமைப்பை வழங்குவதற்காக வெறும் தொழில்நுட்ப பங்களிப்புகளுக்கு அப்பால் நகர்கிறது. இது நிறுவன AI கருவித்தொகுப்பின் ஒரு நிலையான அங்கமாக மாறுமா என்பது இன்னும் தெரியவில்லை, ஆனால் ஏஜென்ட் கற்றலின் இயக்கவியல் பற்றிய அதன் நுண்ணறிவு ஏற்கனவே LLM பயிற்சியின் எதிர்காலத்தை வடிவமைத்து வருகிறது.
இந்த நாவல் முறை நம்பகமான மற்றும் தகவமைக்கக்கூடிய AI ஏஜென்ட்களின் முக்கியமான தேவையை நிவர்த்தி செய்கிறது, இது நிஜ உலக பயன்பாடுகளுக்கு ஒரு நம்பிக்கைக்குரிய பாதையை வழங்குகிறது. அனுபவத்தின் மூலம் கற்றல் மற்றும் முடிவெடுக்கும் பாதைகளை மேம்படுத்துவதில் கவனம் செலுத்துவதன் மூலம், RAGEN தத்துவார்த்த மாதிரிகளுக்கும் நடைமுறை செயலாக்கங்களுக்கும் இடையிலான இடைவெளியை குறைக்க உதவுகிறது. கட்டமைப்பின் திறந்த மூல கிடைக்கும் தன்மை மேலும் துறையில் புதுமையை துரிதப்படுத்துகிறது, ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்கள் அதன் அடித்தளங்களை உருவாக்குவதற்கும் AI ஏஜென்ட் தொழில்நுட்பத்தில் புதிய எல்லைகளை ஆராய்வதற்கும் அதிகாரம் அளிக்கிறது.