LLM கருவிகளின் பயன்பாட்டில் ஒரு புரட்சி: Nemotron-Tool-N1-இன் வலுவூட்டல் கற்றல் அணுகுமுறை
பெரிய மொழி மாதிரிகளின் (LLMs) வெளிப்புற கருவிகளுடனான ஒருங்கிணைப்பு ஒரு மாற்றத்தக்க உத்தியாக உருவெடுத்துள்ளது, இது பயன்பாடுகளின் பரந்த பகுதியில் முன்னோடியில்லாத திறன்களைத் திறக்கிறது. இருப்பினும், பாரம்பரிய முறைகள், பெரும்பாலும் கருவி-பயன்பாட்டு சூழ்நிலைகளின் விரிவான செயற்கை தரவுத்தொகுப்புகளை உருவாக்குவதையும், அதைத் தொடர்ந்து மேற்பார்வையிடப்பட்ட ஃபைன்-ட்யூனிங் (SFT) மூலம் LLM-களுக்கு இந்த கருவிகளை திறம்பட பயன்படுத்தும் திறனை வழங்குவதையும் நம்பியுள்ளன. இந்த அணுகுமுறையின் அடிப்படை வரம்பு என்னவென்றால், செயற்கை தரவுத்தொகுப்புகள் கருவி பயன்பாட்டில் ஈடுபட்டுள்ள சிக்கலான பகுத்தறிவு செயல்முறைகளை துல்லியமாக பிரதிநிதித்துவப்படுத்த இயலாது, இதன் விளைவாக மேலோட்டமான கற்றல் மற்றும் உண்மையான புரிதல் இல்லை. பெரும்பாலும், அத்தியாவசிய பகுத்தறிவு படிகள் பயிற்சி நேரத்தில் முற்றிலுமாக இல்லாமல் போகின்றன அல்லது விரிவான தூண்டுதல் நுட்பங்கள் மூலம் அனுமானத்திற்கு தள்ளப்படுகின்றன. இது “போலி-பகுத்தறிவு” என்ற நிகழ்வை அறிமுகப்படுத்துகிறது, அங்கு மாதிரிகள், அடிப்படை முடிவெடுக்கும் வழிமுறைகளைப் புரிந்துகொள்வதற்குப் பதிலாக, மேற்பரப்பு-நிலை வடிவங்களைப் போல மட்டுமே செயல்படுகின்றன.
பாரம்பரிய கருவி-பயன்பாட்டு பயிற்சியின் வரம்புகளை நிவர்த்தி செய்தல்
LLM-களின் கருவி-பயன்பாட்டு திறன்களை மேம்படுத்துவதற்கான தற்போதைய ஆராய்ச்சி முயற்சிகள் பல்வேறு அணுகுமுறைகளை ஆராய்ந்துள்ளன, முதன்மையாக இரண்டு முக்கிய உத்திகளில் கவனம் செலுத்துகின்றன: தரவுத்தொகுப்பு கியூரேஷன் மற்றும் மாதிரி சுத்திகரிப்பு, மற்றும் பகுத்தறிவு மேம்பாடு.
தரவுத்தொகுப்பு கியூரேஷன் மற்றும் மாதிரி சுத்திகரிப்பு: இந்த அணுகுமுறையில் பெரிய அளவிலான, மேற்பார்வையிடப்பட்ட தரவுத்தொகுப்புகளை உருவாக்குதல் மேம்பட்ட பயிற்சி நுட்பங்களுடன் இணைக்கப்பட்டுள்ளது, அதாவது SFT மற்றும் DPO (நேரடி விருப்பத்தேர்வு தேர்வுமுறை) வலுவூட்டல் கற்றல். LLM-கள் தேடுபொறிகள், கால்குலேட்டர்கள், பார்வை கருவிகள் மற்றும் பைதான் மொழிபெயர்ப்பாளர்கள் உள்ளிட்ட பல்வேறு வகையான வெளிப்புற கருவிகளுடன் அதிகரிக்கப்படுகின்றன, இது அவற்றின் செயல்பாட்டு திறன்களை கணிசமாக விரிவுபடுத்துகிறது. இந்த உத்தி LLM-களுக்கு ஏராளமான எடுத்துக்காட்டுகளை வழங்குவதன் முக்கியத்துவத்தையும், இந்த எடுத்துக்காட்டுகளிலிருந்து பொதுமைப்படுத்தும் திறனை மேம்படுத்துவதையும் வலியுறுத்துகிறது. இருப்பினும், சவால் செயற்கை தரவின் வரம்புகளில் உள்ளது.
பகுத்தறிவு மேம்பாடு: பெரிய அளவிலான தரவுத்தொகுப்புகளை மட்டுமே நம்பியிருப்பதன் குறைபாடுகளை உணர்ந்து, ஆராய்ச்சியாளர்கள் LLM-களின் பகுத்தறிவு திறன்களை மேம்படுத்துவதற்கான உத்திகளில் கவனம் செலுத்தியுள்ளனர். இது பாரம்பரிய பயிற்சி-நேர அளவிடுதலிலிருந்து மிகவும் அதிநவீன சோதனை-நேர அளவீட்டு உத்திகளுக்கு மாறுவதை உள்ளடக்குகிறது. முந்தைய முறைகள் பெரும்பாலும் படி-நிலை மேற்பார்வை மற்றும் கற்றல் வெகுமதி மாதிரிகளை பகுத்தறிவு பாதைகளை வழிநடத்த நம்பியிருந்தன. இந்த முறைகள் கருவி தேர்வு மற்றும் பயன்பாட்டிற்குப் பின்னால் உள்ள காரணத்தை ஆழமாகப் புரிந்துகொண்டு, பகுத்தறிவு செயல்முறைக்கு மாதிரியை வெளிப்படுத்துவதை நோக்கமாகக் கொண்டுள்ளன.
Nemotron-Tool-N1: LLM கருவி பயன்பாட்டில் ஒரு பாரடைம் மாற்றம்
NVIDIA, பென்சில்வேனியா மாநில பல்கலைக்கழகம் மற்றும் வாஷிங்டன் பல்கலைக்கழக ஆராய்ச்சியாளர்கள், Nemotron-Research-Tool-N1 தொடரை அறிமுகப்படுத்தியுள்ளனர், இது தற்போதுள்ள கருவிப் பயன்பாட்டு முறைகளின் வரம்புகளை கடக்க வடிவமைக்கப்பட்ட ஒரு புதுமையான அணுகுமுறை. பாரம்பரிய SFT மற்றும் பகுத்தறிவு தடய வடிகட்டுதல் நுட்பங்களைப் போலன்றி, Nemotron-Research-Tool-N1 ஒரு தனித்துவமான வலுவூட்டல் கற்றல் (RL) பாரடைமைப் பயன்படுத்துகிறது. DeepSeek-R1 இன் வெற்றியால் ஈர்க்கப்பட்டு, இந்த அணுகுமுறை கருவி அழைப்புகளின் கட்டமைப்பு செல்லுபடியாகும் மற்றும் செயல்பாட்டு சரியான தன்மையை மதிப்பிடுவதில் கவனம் செலுத்தும் ஒரு இலகுவான மேற்பார்வை முறையைப் பயன்படுத்துகிறது. Nemotron-Research-Tool-N1 மாதிரி ஒரு பைனரி வெகுமதி பொறிமுறையைப் பயன்படுத்துகிறது, இது வெளிப்படையாக சிறுகுறிப்பு பகுத்தறிவு பாதைகளை நம்பாமல், சுயமாக பகுத்தறிவு உத்திகளை உருவாக்க மாதிரியை அனுமதிக்கிறது.
இந்த அணுகுமுறை வழக்கமான முறைகளிலிருந்து ஒரு குறிப்பிடத்தக்க புறப்பாடாக உள்ளது, இது மிகவும் வலுவான மற்றும் பொதுமைப்படுத்தக்கூடிய கருவி பயன்பாட்டு திறன்களுக்கான சாத்தியத்தை வழங்குகிறது. பகுத்தறிவு படிகளை வெளிப்படையாகக் கட்டளையிடுவதற்குப் பதிலாக, கருவி அழைப்புகளின் சரியான தன்மையில் கவனம் செலுத்துவதன் மூலம், மாதிரி தானாகவே உகந்த பகுத்தறிவு உத்திகளை ஆராய்ந்து கற்றுக்கொள்ள ஊக்குவிக்கப்படுகிறது.
தரவு தயாரிப்பு மற்றும் மாதிரி கட்டமைப்பு
ஆராய்ச்சியாளர்கள் xLAM மற்றும் ToolACE இன் துணைக்குழு உட்பட தற்போதுள்ள கருவி அழைப்பு தரவுத்தொகுப்புகளிலிருந்து தரவை ஒருங்கிணைத்து முன்கூட்டியே செயலாக்கினர், அவை ஒற்றை-டர்ன் மற்றும் மல்டி-டர்ன் செயற்கை கருவி அழைப்பு பாதைகள் இரண்டையும் வழங்குகின்றன. கருவி அழைப்பு தலைமுறையை வழிநடத்த, ஒரு இலகுவான தூண்டுதல் டெம்ப்ளேட் உருவாக்கப்பட்டது, இது <think>…</think>
குறிச்சொற்களுக்குள் இடைநிலை பகுத்தறிவுக்கான வெளிப்படையான வழிமுறைகளையும், <tool_call>…</tool_call>
குறிச்சொற்களில் உள்ள கருவி தூண்டுதலையும் கொண்டுள்ளது. இந்த டெம்ப்ளேட் கடுமையான வடிவமைத்தல் கட்டுப்பாடுகளைக் குறைக்கவும், குறிப்பிட்ட தூண்டுதல் வடிவங்களுக்கு அதிகப்படியான பொருத்தத்தின் அபாயத்தைக் குறைக்கவும் வடிவமைக்கப்பட்டுள்ளது.
இந்த ஆராய்ச்சியில் பயன்படுத்தப்படும் முதன்மை முதுகெலும்பு மாதிரி Qwen2.5-7B/14B-Instruct ஆகும். முன்மொழியப்பட்ட முறையின் பொதுமைப்படுத்தும் திறனை மதிப்பிடுவதற்கு, LLaMA குடும்பத்திலிருந்து பல மாறுபாடுகள் உட்பட, மாற்று முதுகெலும்பு மாதிரிகளிலும் மதிப்பீடுகள் நடத்தப்பட்டன. பல்வேறு மாதிரி கட்டமைப்புகளில் இந்த கடுமையான மதிப்பீடு Nemotron-Tool-N1 அணுகுமுறையின் வலிமை மற்றும் பயன்பாட்டினை உறுதி செய்கிறது.
செயல்திறனை தரப்படுத்தல்: BFCL மற்றும் API-Bank
Nemotron-Research-Tool-N1-இன் செயல்திறன் BFCL மற்றும் API-Bank தரநிலைகளைப் பயன்படுத்தி கடுமையாக மதிப்பிடப்பட்டது. Nemotron-Research-Tool-N1 மாதிரிகளின் சிறந்த செயல்திறனை ஏற்கனவே உள்ள அணுகுமுறைகளுடன் ஒப்பிடும்போது முடிவுகள் காட்டுகின்றன.
BFCL Benchmark: BFCL தரநிலையில், Tool-N1-7B/14B மாதிரிகள் GPT-4o போன்ற மூடிய-மூல மாதிரிகள் மற்றும் xLAM-2-70B மற்றும் ToolACE-8B போன்ற சிறப்பு ஃபைன்-ட்யூனிங் செய்யப்பட்ட மாதிரிகளை விட அதிகமான செயல்திறனைக் காட்டின. மேலும், மாதிரிகள் ஒரே தரவு மூலங்களில் பயிற்சி அளிக்கப்பட்ட SFT அடிப்படைத் தரவுகளையும் விஞ்சின, Nemotron-Research-Tool-N1-இல் பயன்படுத்தப்படும் R1-ஸ்டைல் RL அணுகுமுறையின் செயல்திறனை வலியுறுத்துகிறது. இந்த பெஞ்ச்மார்க் சிக்கலான பகுத்தறிவு மற்றும் கருவி பயன்பாடு தேவைப்படும் சூழ்நிலைகளில் மாதிரியின் திறனை சிறப்பாக்குகிறது. BFCL (பெரிய ஐந்து கட்டளை வரிகள்) தரநிலை LLM-களின் சிக்கலான கட்டளை வரி வழிமுறைகளைப் புரிந்துகொண்டு செயல்படுத்துவதற்கான திறனை மதிப்பிடுவதில் கவனம் செலுத்துகிறது, இதற்கு அதிக அளவிலான பகுத்தறிவு மற்றும் கருவி பயன்பாடு தேவைப்படுகிறது.
API-Bank Benchmark: API-Bank தரநிலை இந்த கண்டுபிடிப்புகளை மேலும் உறுதிப்படுத்தியது, Tool-N1-7B/14B GPT-4o ஐ விட 4.12% மற்றும் 5.03% அதிக துல்லியத்தை எட்டியது. இந்த பெஞ்ச்மார்க் குறிப்பிட்ட பணிகளைச் செய்ய பல்வேறு API-களை (Application Programming Interfaces) பயன்படுத்துவதில் LLM-இன் திறமையை மதிப்பிடுகிறது. இந்த தரநிலையில் Nemotron-Research-Tool-N1 மூலம் அடையப்பட்ட மேம்பாடுகள் ஒரு நாவல் வலுவூட்டல் கற்றல் பாரடைம் மூலம் பெரிய மொழி மாதிரிகளின் கருவி-அழைப்பு திறன்களை மேம்படுத்துவதில் முறையின் சாத்தியத்தை அடிக்கோடிட்டுக் காட்டுகின்றன.
இரண்டு தரநிலைகளிலும் நிலையான மேம்பாடுகள் LLM-களின் கருவி-பயன்பாட்டு திறன்களை மேம்படுத்துவதில் Neல் ஒரு விதி அடிப்படையிலான RL அணுகுமுறையில் கவனம் செலுத்துவதன் மூலமும், தங்கள் சொந்த பகுத்தறிவு உத்திகளை உருவாக்க மாதிரிகளை இயக்குவதன் மூலமும், Nemotron-Research-Tool-N1 மிகவும் தகவமைப்பு மற்றும் அறிவார்ந்த மொழி மாதிரிகளுக்கான சாத்தியத்தைத் திறக்கிறது. motron-Research-Tool-N1 அணுகுமுறையின் செயல்திறனை நிரூபிக்கின்றன.
Nemotron-Tool-N1-இன் முக்கிய புதுமைகள்
Nemotron-Research-Tool-N1 இன் முக்கிய பங்களிப்பு LLM-களில் கருவி பயன்பாட்டை மேம்படுத்துவதற்கான அதன் புதிய அணுகுமுறையிலிருந்து வருகிறது. நிலையான SFT முறைகளை நம்புவதற்குப் பதிலாக, இது ஒரு தனித்துவமான, விதி அடிப்படையிலான RL கட்டமைப்பை ஒருங்கிணைக்கிறது. அதன் கட்டமைப்பின் ஒரு மூலக்கல்லானது கருவி அழைப்புகளின் கட்டமைப்பு செல்லுபடியாகும் மற்றும் செயல்பாட்டு சரியான தன்மையை மதிப்பிடுவதில் கவனம் செலுத்தும் ஒரு பைனரி வெகுமதி பொறிமுறையாகும். இந்த அணுகுமுறை முன் தயாரிக்கப்பட்ட பகுத்தறிவு பாதைகளின் தேவை இல்லாமல், பகுத்தறிவு உத்திகளை சுயாதீனமாக உருவாக்க மாதிரியை அனுமதிக்கிறது.
Nemotron-Research-Tool-N1 இன் நன்மைகள் பல மடங்கு. கருவி பயன்பாட்டிற்கான பயிற்சித் தரவுகளில் பொதுவாக வெளிப்படையான பகுத்தறிவு இல்லை. எந்திரம் தூண்டுதல் தகுதியான ஒன்றைத் தயாரிக்கிறது. வெகுமதி அமைப்பு கருவிகளுக்கும் பிரச்சினைக்கும் இடையிலான தொடர்பைக் கண்டுபிடிப்பதன் மூலம் மாதிரிகளின் திறன்களை மேம்படுத்துகிறது. RL மாதிரியானது பல்வேறு சூழ்நிலைகளுக்கு ஏற்றதாக இருக்க வேண்டும் என்பதால், பொதுமைப்படுத்துவதை மேம்படுத்த உதவுகிறது.
விசேஷ குறிச்சொற்களுக்குள் (think and /think) பகுத்தறிவை ஒருங்கிணைக்க Nemotron-Research-Tool-N1 ஒரு வலுவான டெம்ப்ளேட்டை வழங்குகிறது. கருவியில் அழைப்பதற்கும் இது உண்மைதான் (tool_call and /tool_call). இவ்வாறு செய்வதன் மூலம், Nemotron-Research-Tool-N1 தூண்டலின் வடிவத்திற்கு அதிகப்படியான பொருத்திவிடும் அபாயங்களைக் குறைக்கிறது.
கருவியில் வெற்றிகரமாக அழைக்கும் திறன் இரண்டு தரநிலைகளில் மதிப்பிடப்படுகிறது, இது Nemotron-Research-Tool-N1 இன் திறன்களை எடுத்துக்கா காட்டுகிறது:
- பெரிய ஐந்து கட்டளை வரிகள் (BFCL): LLMகள் சிக்கலான கட்டளை வரி வழிமுறைகளைப் புரிந்து கொண்டு செயல்படுத்துவதற்கான தேவைக்கு BFCL வலியுறுத்துகிறது. வலுவூட்டல் கற்றல் முறைகள் மூலம் Nemotron-Research-Tool-N1 இந்த பகுதியில் சிறந்து விளங்குகிறது.
- API-வங்கி நிலைப்பாடு: API-வங்கி அளவுகோல் இந்த முடிவுகளை உறுதிப்படுத்தியது. GPT-4o இன் சரியான விகிதத்தை விட மாதிரி சரியாக 4.12% மற்றும் 5.03% அதிகமாகக் கொண்டிருந்தது.
ஏற்கனவே இருக்கும் அணுகுமுறைகளுடன் ஒப்பீட்டு ஆய்வு
கருவி பயன்பாட்டிற்கான தற்போது இருக்கும் நுட்பச் செதுக்கல் முறைகளில் Nemotron-Research-Tool-N1 குறிப்பிடத்தக்க முன்னேற்றத்தைக் காட்டுகிறது. நுட்பமான செதுக்கலுக்கு கவனமாக கியூரேட் செய்யப்பட்ட தரவு தேவைப்படுகிறது. மாதிரி இப்போது இருக்கும் மாதிரிகளாக நகலெடுத்துக் கொண்டிருக்கிறது. ஒரு வலுவூட்டல் கற்றல் முறையாக இருப்பதால், Nemotron-Research-Tool-N1யால் பகுத்தறிவு உத்திகளை சுயாதீனமாக உருவாக்க முடியும் மற்றும் இது குறிப்பிட்ட தரவுத் துகள்கள் தேவை படுவதைப் பெருமளவு குறைக்கிறது. Nemotron, இதற்கு முன்பு இருந்த மாதிரிகளுக்கு ஏற்பட்டுள்ள சிக்கல் இல்லாமல் அளவுகோலை சிறப்பாகச் செயல்படுத்துகிறது.
பல அளவுகோல்கள் இந்தக் கருவி பயன்பாடுகளை மேம்படுத்துவதை நிரூபிக்கிறது. BFCL அளவுகோல் கருவி N1 மாதிரி முன்பே இருந்த அணுகுமுறைகளை மேம்படுத்துவதற்காக உதவுகிறது என்பதை நேரடியாகக் காட்டுகிறது. இது xLAM-2-701 மற்றும் ToolACE-8B போன்ற ஏற்கனவே புழக்கத்தில் இருக்கும் திறந்த சோர்ஸ் சிஸ்டம் இரண்டையும் மேம்படுத்துகிறது மேலும் GPT-4o போன்ற மூடப்பட்ட சோர்ஸ் மாதிரிகளையும் சிறப்பாக்குகிறது. API-வங்கி அளவுகோல் தற்போது இருக்கும் மொழி மாதிரிகளை பயன்படுத்தி கருவியில் அழைப்பதில் அதிக துல்லியமான அதிகரிப்புகளை நிரூபிக்கிறது.
உட்பொதிவு மற்றும் எதிர்கால திசைகள்
ஆராய்ச்சியாளர்கள் Nemotron-Research-Tool-N1 ஐ அறிமுகப்படுத்தினர், ஒரு பெரிய LLM கருவிக்கான புதிய முன்னேற்றம். இந்த ஆராய்ச்சி தற்போது இருக்கும் SFT முறைகளிலிருந்து விலகி விதி அடிப்படையிலான RL முறையை கடைபிடிக்க உதவுகிறது. இந்த மாதிரி குறிப்பாக சிறுகுறிப்புடன் பகுத்தறிவைச் சார்ந்திருக்காமல் சூட்சமமான தந்திரோபயங்களை உருவாக்க உதவுகிறது. இந்த முறையின் திறன்கள் BFCL மற்றும் API-வங்கி முழுவதும் அதன் அளவீட்டு அடிப்படையிலான மதிப்பீடுகள் மூலம் காட்டப்பட்டுள்ளது. மேலும் இது தற்போது இருக்கும் அடிப்படைத் தரவுகளுக்கு மேலே அளவிட முடிந்த செயல்திறன் மேம்பாடுகளைக் காட்டுதல்கள் மேலும் தகவமைப்பு மற்றும் நுண்ணறிவின் அணுகுமுறைகளை உருவாக்குகிறது. அந்த அணுகுமுறை தனக்குத்தானே பகுத்தறிவு உத்திகளை உருவாக்க உதவுகிறது.
இந்த கண்டுபிடிப்புகள் அறிவுசார் நுண்ணறிவுகளை உருவாக்கும் வழிகளுக்கு ஒரு தனித்த பகுதியை அனுமதிக்கிறது மற்றும் மொழிகளுக்கு உதவுகிறது. பைனரி வெகுமதி வழிமுறை மொழிகளுக்குச் செயல்படவும் பற்பல உண்மையான பயன்பாடுகளில் பயன் உள்ள பயன்பாடுகளைத் திறமையாகவும் செயல்படுத்த உதவுகிறது. Nemotron-Research-Tool-N1 மேலும் தானியங்கு பகுத்தறிவுக்கு வழிகோலும் இது கருவிகளுக்கான பயன்பாட்டின் திறனை மேம்படுத்த உதவுகிறது.
இந்த ஆராய்ச்சி LLM கருவிகளில் ஒரு புதுமையான அத்தியாயத்தைக் காட்டுகிறது. மேலும் இந்த மாதிரிகள் எதிர்காலத்தில் எவ்வாறு இருக்கும் என்பதற்கான வழிகளையும் புதுப்பிக்கிறது. தானியங்கு பகுத்தறிவில் கவனம் செலுத்துவது என்பது எதிர்காலத்தில் அதிகமாகவே முக்கியத்துவம் கொடுத்து நடத்தப்பட்டு மொழி மாதிரிகள் உருவாக்கப்படும்.