செயற்கை நுண்ணறிவின் (Artificial Intelligence) களம் தொடர்ந்து வளர்ந்து வருகிறது, இதில் பெரிய மொழி மாதிரிகள் (LLMs) புதுமையின் முன்னணியில் உள்ளன. இந்த மாதிரிகள் மனித மொழியைப் புரிந்துகொள்ளவும், உருவாக்கவும், கையாளவும் பெருகிய முறையில் திறன் கொண்டவை, இது சாத்தியமான பயன்பாடுகளின் பரந்த வரிசையைத் திறக்கிறது. இருப்பினும், ஒரு குறிப்பிடத்தக்க சவால் உள்ளது: LLMகள் மிகவும் நீண்ட மற்றும் சிக்கலான உள்ளீடுகளில் திறம்பட பகுத்தறிவு செய்ய உதவுகின்றது. Alibaba Group, மேம்பட்ட நீண்ட சூழல் பகுத்தறிவு திறன்களை LLMகளுக்கு அதிகாரம் அளிக்கும் வகையில் வடிவமைக்கப்பட்ட ஒரு புதிய கட்டமைப்பான QwenLong-L1 ஐ அறிமுகப்படுத்துவதன் மூலம் இந்த சவாலை எதிர்கொள்ள முன்வந்துள்ளது. இந்த முன்னேற்றம் நிறுவன பயன்பாடுகளின் ஒரு புதிய சகாப்தத்தைத் திறக்கக்கூடும், AI ஆனது சிக்கலான கார்ப்பரேட் ஆவணங்கள், விரிவான நிதி அறிக்கைகள் மற்றும் சிக்கலான சட்ட ஒப்பந்தங்கள் போன்ற பரந்த தரவு களஞ்சியங்களில் இருந்து மதிப்புமிக்க நுண்ணறிவுகளைப் பிரித்தெடுக்க உதவுகிறது.
AI இல் நீண்ட-படிவ பகுத்தறிவு சவால்
பெரிய பகுத்தறிவு மாதிரிகளில் (LRMs) சமீபத்திய முன்னேற்றங்கள், குறிப்பாக வலுவூட்டல் கற்றல் (RL) நுட்பங்களைப் பயன்படுத்துபவை, அவற்றின் சிக்கலைத் தீர்க்கும் திறன்களில் கணிசமான முன்னேற்றங்களுக்கு வழிவகுத்தன. RL நுட்பங்களுடன் பயிற்சி பெற்ற LRMs, மனிதர்களின் “மெதுவான சிந்தனை” க்கு ஒத்த அறிவாற்றல் திறன்களைக் கொண்டிருப்பதாக ஆராய்ச்சி கூறுகிறது, இது சிக்கலான பணிகளைச் சமாளிக்க அதிநவீன உத்திகளை உருவாக்க அனுமதிக்கிறது. இது ஒரு வேண்டுமென்றே மற்றும் பகுப்பாய்வு அணுகுமுறையை உள்ளடக்கியது, அங்கு மாதிரி கவனமாக தகவல்களை மதிப்பிடுகிறது, பல்வேறு சாத்தியக்கூறுகளைக் கருதுகிறது, மேலும் இறுதியில் நன்கு காரணமான தீர்வை அடைகிறது.
LRM செயல்திறனில் அடையப்பட்ட முன்னேற்றம், மாதிரிகள் ஒப்பீட்டளவில் குறுகிய உரைகளில், பொதுவாக 4,000 டோக்கன்களைச் சுற்றி இயங்கும் போது முதன்மையாகக் காணப்படுகிறது. இருப்பினும், உண்மையான சோதனை இந்த பகுத்தறிவு திறன்களை 120,000 டோக்கன்கள் அல்லது அதற்கு மேற்பட்ட மிக நீண்ட சூழல்களுக்கு அளவிடுவதில் உள்ளது. நீண்ட வடிவ பகுத்தறிவு முழு சூழலைப் பற்றியும் விரிவான புரிதலைக் கோருவதால், பல-படி பகுப்பாய்வு செய்யும் திறன் அவசியமாகிறது. வெளி அறிவுடனான தொடர்பு தேவைப்படும் நிஜ உலக பயன்பாடுகளுக்கு இந்த வரம்பு ஒரு பெரிய தடையாக இருப்பதாக QwenLong-L1 டெவலப்பர்கள் வலியுறுத்துகின்றனர், அதாவது ஆழமான ஆராய்ச்சி, அங்கு LRMs அறிவு சார்ந்த சூழல்களில் இருந்து தகவல்களை சேகரித்து செயலாக்க வேண்டும்.
இந்த சவாலை எதிர்கொள்ளும் வகையில், ஆராய்ச்சியாளர்கள் இதை "நீண்ட-சூழல் பகுத்தறிவு RL" என்ற கருத்தாக முறையாக்குகின்றனர். குறுகிய-சூழல் பகுத்தறிவைப் போலல்லாமல், மாதிரிக்குள் சேமிக்கப்பட்ட முன் இருக்கும் அறிவைச் சார்ந்திருக்கும், நீண்ட-சூழல் பகுத்தறிவு RL ஆனது நீண்ட உள்ளீடுகளில் இருந்து தொடர்புடைய தகவல்களைத் துல்லியமாக மீட்டெடுப்பது மற்றும் அடிப்படையாக்குவது அவசியமாகும். மாதிரி பரந்த அளவிலான உரைகளைச் சலித்து, மிகவும் பொருத்தமான விவரங்களை அடையாளம் கண்டு, அவற்றை நடப்பில் உள்ள பணிக்கு இணைக்க முடியும் என்று இது அர்த்தப்படுத்துகிறது. இந்த தகவலை வெற்றிகரமாக இணைத்த பின்னரே, மாதிரி ஒருமற்றும் தர்க்கரீதியான பகுத்தறிவு சங்கிலிகளை உருவாக்க முடியும்.
RL மூலம் இந்த அளவிலான நிபுணத்துவத்தை அடைய மாதிரிகளுக்குப் பயிற்சி அளிப்பது ஒரு சிக்கலான செயலாகும், இது பெரும்பாலும் திறமையற்ற கற்றல் மற்றும் நிலையற்ற மேம்பாட்டு செயல்முறைகளுக்கு வழிவகுக்கும். மாதிரிகள் உகந்த தீர்வுகளில் ஒன்றிணைவதற்கு அல்லது பல்வேறு பகுத்தறிவு பாதைகளை ஆராயும் திறனை இழக்க நேரிடலாம், இது அவற்றின் ஒட்டுமொத்த செயல்திறனைத் தடுக்கிறது.
QwenLong-L1: ஒரு பல-நிலை தீர்வு
QwenLong-L1 ஆனது குறுகிய-உரை திறமையிலிருந்து நீண்ட சூழல்களில் வலுவான பொதுமைப்படுத்தலுக்கு தடையின்றி மாறுவதற்கான திறனைக் கொண்ட LRMs ஐ சித்தப்படுத்துவதற்காக வடிவமைக்கப்பட்ட ஒரு விரிவான, பல-நிலை அணுகுமுறையை வழங்குகிறது. இந்த கட்டமைப்பு ஏற்கனவே உள்ள குறுகிய-சூழல் LRMs ஐ கவனமாக கட்டமைக்கப்பட்ட செயல்முறை மூலம் மேம்படுத்துகிறது, இதில் பல முக்கிய கூறுகள் உள்ளன:
வார்ம்-அப் மேற்பார்வையிடப்பட்ட ஃபைன்-ட்யூனிங் (SFT): இந்த ஆரம்ப கட்டம் நீண்ட-சூழல் பகுத்தறிவு உதாரணங்களின் க்யூரேட்டட் தரவுத்தொகுப்பில் மாதிரி பயிற்சி பெறுவதை உள்ளடக்கியது. SFT இன் நோக்கம், மாதிரி அதன் நீண்ட-சூழல் பகுத்தறிவு திறன்களை உருவாக்கக்கூடிய ஒரு நிலையான தளத்தை நிறுவுவதாகும். நீண்ட உரைகளின் மாறுபட்ட வரம்பு மற்றும் தொடர்புடைய பகுத்தறிவு பணிகளுக்கு மாதிரியை வெளிப்படுத்துவதன் மூலம், நீண்ட உள்ளீடுகளில் இருந்து தகவல்களைத் துல்லியமாக அடிப்படையாகக் கொள்ளவும், சூழலைப் புரிந்துகொள்வதில் அடிப்படை திறன்களை உருவாக்கவும், தர்க்கரீதியான பகுத்தறிவு சங்கிலிகளை உருவாக்கவும் மற்றும் அர்த்தமுள்ள பதில்களை எடுக்கவும் SFT நிலை மாதிரியைக் கொண்டுள்ளது.
பாடத்திட்டத்தால் வழிநடத்தப்பட்ட கட்ட RL: இந்த கட்டம் ஒரு முறையான, படிப்படியான அணுகுமுறையைப் பயன்படுத்துகிறது, பல கட்டங்களின் மூலம் மாதிரிக்கு பயிற்சி அளிக்க படிப்படியாக உள்ளீட்டு ஆவணங்களின் நீளத்தை அதிகரிக்கிறது. இந்த பாடத்திட்டத்தால் வழிநடத்தப்பட்ட அணுகுமுறை குறுகிய சூழல்களிலிருந்து படிப்படியாக நீண்ட சூழல்களுக்கு அதன் பகுத்தறிவு உத்திகளை சீராக மாற்றியமைக்க உதவுகிறது, மாதிரிகள் மிக நீண்ட உரைகளில் திடீரென பயிற்சி பெறும் போது அடிக்கடி ஏற்படும் உறுதியற்ற தன்மையைக் குறைக்கிறது. பயிற்சி தரவின் சிக்கலை படிப்படியாக அதிகரிப்பதன் மூலம், மாதிரி தகவல்களின் அளவால் அதிகமாக பாதிக்கப்படாமல் நீண்ட சூழல்களை திறம்பட கையாள கற்றுக்கொள்ள முடியும்.
சிரமம்-அறிந்த பின்னோக்கிய மாதிரி: இந்த இறுதி பயிற்சி கட்டம் முந்தைய பயிற்சி கட்டங்களில் இருந்து சவாலான எடுத்துக்காட்டுகளை உள்ளடக்கியது, மாதிரி மிகவும் கடினமான சிக்கல்களில் இருந்து தொடர்ந்து கற்றுக்கொள்கிறது என்பதை உறுதிப்படுத்துகிறது. இந்த கடினமான நிகழ்வுகளுக்கு முன்னுரிமை அளிப்பதன் மூலம், இன்னும் மாறுபட்ட மற்றும் சிக்கலான பகுத்தறிவு பாதைகளை ஆராய மாதிரி ஊக்குவிக்கப்படுகிறது, இறுதியில் நீண்ட-சூழல் பகுத்தறிவு பணிகளின் பரந்த அளவை கையாளும் திறனை வலுப்படுத்துகிறது. இந்த பின்னோக்கிய மாதிரி நுட்பம் அதன் பகுத்தறிவு திறன்களை செம்மைப்படுத்தவும் மற்றும் உள்ளூர் உகந்த மதிப்புகளில் சிக்கிக் கொள்வதைத் தவிர்க்கவும் உதவுகிறது.
வெகுமதி அமைப்பு
அதன் கட்டமைக்கப்பட்ட பயிற்சி முறைக்கு கூடுதலாக, QwenLong-L1 ஆனது விதி அடிப்படையிலான சரிபார்ப்பை “LLM-ஒரு-நீதிபதி” அணுகுமுறையுடன் ஒருங்கிணைக்கும் ஒரு அதிநவீன வெகுமதி அமைப்பைப் பயன்படுத்துகிறது. குறுகிய-சூழல் பகுத்தறிவு பணிகளுக்கான பயிற்சி பெரும்பாலும் கடுமையான விதி அடிப்படையிலான வெகுமதிகளைச் சார்ந்திருந்தாலும் (எ.கா., ஒரு கணிதச் சிக்கலில் சரியான பதில்), QwenLong-L1 ஒரு கலப்பின வெகுமதி பொறிமுறையைப் பயன்படுத்துகிறது, இது நெகிழ்வானது மற்றும் நீண்ட சூழல் பகுத்தறிவின் நுணுக்கங்களுக்கு ஏற்றது.
விதி அடிப்படையிலான சரிபார்ப்பு சரியான அளவுகோல்களுக்கு கண்டிப்பாக கடைபிடிப்பதை சரிபார்ப்பதன் மூலம் துல்லியத்தை உறுதி செய்கிறது. வெகுமதி அமைப்பின் இந்தக் கூறு மாதிரியின் செயல்திறனுக்கு ஒரு தெளிவான மற்றும் புறநிலை அளவை வழங்குகிறது, இது துல்லியமான மற்றும் நம்பகமான பதில்களை உருவாக்குகிறது என்பதை உறுதி செய்கிறது.
“LLM-ஒரு-நீதிபதி” மாதிரி உருவாக்கப்பட்ட பதிலின் சொற்பொருள் தரத்தை அடிப்படை உண்மையுடன் ஒப்பிடுகிறது, இது அதிக நெகிழ்வுத்தன்மைக்கு அனுமதிக்கிறது மற்றும் நீண்ட, நுணுக்கமான ஆவணங்களுடன் கையாளும் போது சரியான பதில்களை வெளிப்படுத்தக்கூடிய பல்வேறு வழிகளை சிறப்பாகக் கையாள்கிறது. வெகுமதி அமைப்பின் இந்தக் கூறு நீண்ட சூழலின் அடிப்படையில் ஒரு கேள்விக்கு பதிலளிக்க பல சரியான வழிகள் இருக்கலாம் என்பதை ஒப்புக்கொள்கிறது மற்றும் மாதிரி சொற்பொருள் சார்ந்த பதில்களை உருவாக்குவதற்காக வெகுமதி அளிக்கிறது, அவை ஒரே மாதிரியாக இல்லாவிட்டாலும் கூட. இது மாதிரி அதிக ஆக்கப்பூர்வமான மற்றும் நுணுக்கமான பதில்களை உருவாக்க ஊக்குவிக்கிறது.
QwenLong-L1 செயல்திறனை மதிப்பிடுதல்
QwenLong-L1 இன் செயல்திறனை மதிப்பிடுவதற்கு, Alibaba அணி ஆவண கேள்வி-பதிலை (DocQA) முதன்மை பணியாக பயன்படுத்தி முழுமையான மதிப்பீடுகளை நடத்தியது. இந்த சூழ்நிலை நிறுவன பயன்பாடுகளுக்கு மிகவும் பொருத்தமானது, AI ஆனது சிக்கலான கேள்விகளுக்கு பதிலளிக்க அடர்த்தியான ஆவணங்களைப் புரிந்துகொள்ள வேண்டும். DocQA பணிகள் ஒரு மாதிரி மற்றும் ஒரு கேள்வியுடன் ஆவணத்தை வழங்குவதையும் ஆவணத்தில் உள்ள கேள்விக்கான பதிலை அடையாளம் காணும்படி கேட்பதையும் உள்ளடக்கியது. இது கேள்வி, ஆவணம் மற்றும் இரண்டிற்கும் இடையிலான உறவைப் புரிந்துகொள்ள மாதிரி தேவைப்படுகிறது.
ஏழு நீண்ட-சூழல் DocQA தரநிலைகளில் சோதனை முடிவுகள் QwenLong-L1 இன் ஈர்க்கக்கூடிய திறன்களை நிரூபித்தன. DeepSeek-R1-Distill-Qwen-32B ஐ அடிப்படையாகக் கொண்ட QWENLONG-L1-32B மாதிரி, Anthropic இன் Claude-3.7 Sonnet Thinking க்கு ஒப்பிடக்கூடிய செயல்திறனைப் பெற்றது மற்றும் OpenAI இன் o3-mini மற்றும் Qwen3-235B-A22B போன்ற மாதிரிகளை விஞ்சியது. மேலும், சிறிய QWENLONG-L1-14B மாதிரி Google இன் Gemini 2.0 Flash Thinking மற்றும் Qwen3-32B ஐ விஞ்சியது. இந்த முடிவுகள் நீண்ட மற்றும் சிக்கலான ஆவணங்களில் திறம்பட பகுத்தறிவு செய்ய LLMகளை இயக்குவதில் QwenLong-L1 இன் செயல்திறனை எடுத்துக்காட்டுகின்றன.
உண்மையான உலக பயன்பாடுகளுக்கு தொடர்புடைய ஒரு முக்கிய கண்டுபிடிப்பு என்னவென்றால், RL பயிற்சி மாதிரியில் சிறப்பு வாய்ந்த நீண்ட-சூழல் பகுத்தறிவு நடத்தைகளின் வளர்ச்சிக்கு வழிவகுக்கிறது. QwenLong-L1 உடன் பயிற்சி பெற்ற மாதிரிகள் போன்ற பகுதிகளில் மேம்பட்ட திறன்களைக் காட்டுகின்றன:
தடைசெய்வது: ஆவணத்தின் குறிப்பிட்ட பகுதிகளுக்கு பதில்களை இணைப்பது. நீண்ட உரையில் மிகவும் பொருத்தமான தகவலை அடையாளம் காணும் மாதிரியின் திறனை இது நிரூபிக்கிறது மற்றும் கேட்கப்படும் கேள்விக்கு அதை இணைக்கிறது. மாதிரியின் பதில்கள் ஆவணத்தில் உள்ள ஆதாரங்களால் துல்லியமாகவும் நன்கு ஆதரிக்கப்படவும் பயனுள்ள தடைசெய்வது மிகவும் முக்கியமானது.
துணை இலக்கு அமைத்தல்: சிக்கலான கேள்விகளை சிறிய, நிர்வகிக்கக்கூடிய துணை கேள்விகளாக உடைப்பது. இது ஒரு கட்டமைக்கப்பட்ட மற்றும் ஒழுங்கமைக்கப்பட்ட முறையில் சிக்கலான பகுத்தறிவு பணிகளை அணுக மாதிரி உதவுகிறது. பணியை சிறிய படிகளாக உடைப்பதன் மூலம், கேள்விக்கு பதிலளிக்க தேவையான தகவலை மாதிரி எளிதாக அடையாளம் காணவும் மற்றும் ஒருமற்றும் தர்க்கரீதியான பகுத்தறிவு சங்கிலியை உருவாக்கவும் முடியும்.
பின்னோக்குச் செல்வது: பகுத்தறிவு செயல்பாட்டின் போது சுய-உருவாக்கிய பிழைகளை அறிந்து சரிசெய்வது. இது அதன் பகுத்தறிவு செயல்பாட்டில் சாத்தியமான தவறுகளை சுய-கண்காணிக்க மற்றும் அடையாளம் காணும் மாதிரியின் திறனை நிரூபிக்கிறது. இந்த பிழைகளை பின்னோக்கி சரிசெய்வதன் மூலம், மாதிரி அதன் இறுதி பதில் துல்லியமாகவும் நம்பகமானதாகவும் இருப்பதை உறுதி செய்ய முடியும்.
சரிபார்ப்பு: துல்லியம் மற்றும் நிறைவுக்காக அவர்களின் பதில்களை இருமுறை சரிபார்ப்பது. துல்லியமான மற்றும் நம்பகமான தகவலை வழங்குவதற்கான மாதிரியின் அர்ப்பணிப்பை இது நிரூபிக்கிறது. அதன் பதில்களை இருமுறை சரிபார்ப்பதன் மூலம், மாதிரி மீதமுள்ள பிழைகளை அடையாளம் கண்டு சரிசெய்ய முடியும், இறுதி பதில் மிக உயர்ந்த தரம் வாய்ந்ததாக இருப்பதை உறுதி செய்கிறது.
உதாரணமாக, ஒரு அடிப்படை மாதிரி ஒரு நிதி ஆவணத்தில் பொருத்தமற்ற விவரங்களால் திசைதிருப்பப்படலாம் அல்லது தொடர்பில்லாத தகவல்களை அதிகப்படியாக பகுப்பாய்வு செய்யும் சுழற்சியில் சிக்கிக்கொள்ளலாம். இருப்பினும், QwenLong-L1 பயிற்சி பெற்ற மாதிரி பயனுள்ள சுய-சிந்தனையில் ஈடுபடும் திறனை நிரூபிக்கிறது, இந்த கவனத்தை திசைதிருப்பிவிடும் விவரங்களை வெற்றிகரமாக வடிகட்டுகிறது, தவறான பாதைகளில் இருந்து பின்வாங்குகிறது மற்றும் சரியான பதிலுக்கு வருகிறது. நீண்ட-சூழல் பகுத்தறிவின் வலிமை மற்றும் துல்லியத்தை மேம்படுத்துவதில் QwenLong-L1 பயிற்சி கட்டமைப்பின் நன்மைகளை இது சிறப்பித்துக் காட்டுகிறது.
சாத்தியமான பயன்பாடுகள்
QwenLong-L1 போன்ற நுட்பங்கள் நிறுவனத்தில் AI இன் பயன்பாட்டை கணிசமாக விரிவுபடுத்தும் திறனைக் கொண்டுள்ளன. சில சாத்தியமான பயன்பாடுகளில் பின்வருவன அடங்கும்:
- சட்ட தொழில்நுட்பம்: முக்கியக் கூறுகள், முன்னுதாரணங்கள் மற்றும் சாத்தியமான அபாயங்களை அடையாளம் காண ஆயிரக்கணக்கான பக்க சட்ட ஆவணங்களை பகுப்பாய்வு செய்தல். இது வழக்கறிஞர்கள் சட்ட ஆவணங்களை திறமையாக மதிப்பாய்வு செய்யவும், அவர்களுக்கு நேரத்தையும் பணத்தையும் சேமிக்கவும் உதவும்.
- நிதி: ஆபத்தை மதிப்பிடுவதற்கும் முதலீட்டு வாய்ப்புகளை அடையாளம் காண்பதற்கும் ஆண்டு அறிக்கைகள் மற்றும் நிதி ஆவணங்களில் ஆழமான ஆராய்ச்சி நடத்துதல். இது நிதி ஆய்வாளர்கள் மிகவும் தகவலறிந்த முதலீட்டு முடிவுகளை எடுக்க உதவும்.
- வாடிக்கையாளர் சேவை: மிகவும் தகவலறிந்த மற்றும் தனிப்பயனாக்கப்பட்ட ஆதரவை வழங்குவதற்கு நீண்ட வாடிக்கையாளர் தொடர்பு வரலாறுகளை பகுப்பாய்வு செய்தல். வாடிக்கையாளர் சேவை பிரதிநிதிகள் வாடிக்கையாளர் தேவைகளைப் புரிந்து கொள்ளவும் மேலும் பயனுள்ள தீர்வுகளை வழங்கவும் இது உதவும்.
நீண்ட மற்றும் சிக்கலான ஆவணங்களில் திறம்பட பகுத்தறிவு செய்ய AI ஐ செயல்படுத்துவதன் மூலம், QwenLong-L1 மற்றும் இதே போன்ற நுட்பங்கள் நிறுவன பயன்பாடுகளுக்கான சாத்தியக்கூறுகளைத் திறக்க முடியும், புதுமையை செலுத்துகிறது மற்றும் பல துறைகளில் செயல்திறனை மேம்படுத்துகிறது. QwenLong-L1 செய்முறைக்கான குறியீட்டையும் பயிற்சி பெற்ற மாதிரிகளுக்கான எடைகளையும் ஆராய்ச்சியாளர்கள் வெளியிட்டுள்ளனர்.