లార్జ్ లాంగ్వేజ్ మోడల్స్ (LLMలు) బాహ్య టూల్స్తో అనుసంధానం చేయబడటం అనేది ఒక పరివర్తన వ్యూహంగా ఉద్భవించింది, ఇది అనువర్తనాల యొక్క విస్తృత పరిధిలో अभूतपूर्व సామర్థ్యాలను వెలికితీస్తుంది. సాంప్రదాయ పద్ధతులు, అయితే, ఎక్కువగా టూల్-ఉపయోగ సందర్భాల యొక్క విస్తృతమైన సింథటిక్ డేటాసెట్ల సృష్టిపై ఆధారపడి ఉంటాయి, తరువాత LLMలకు ఈ ഉപകരണాలను సమర్థవంతంగా ఉపయోగించగల సామర్థ్యాన్ని కలిగించడానికి సూపర్వైజ్డ్ ఫైన్-ట్యూనింగ్ (SFT) ఉంటుంది. ఈ విధానంలో ఒక அடிப்படை పరిమితి ఏమిటంటే, టూల్ వినియోగంలో ఉండే சிக்கலான తార్కిక ప్రక్రియలను ఖచ్చితంగా సూచించడానికి సింథటిక్ డేటాసెట్లకు అసமర్థత ఉంది, దీని ఫలితంగా ఉపరితల అభ్యాసం మరియు నిజమైన అవగాహన లేకపోవడం జరుగుతుంది. తరచుగా, பயிற்சி సమయంలో आवश्यकమైన தార్కిక దశలు పూర్తిగా లేవు లేదా विस्तृत প্রम्प्टিং நுட்பங்கள் மூலంగా அனுமானத்திற்கு தள்ளப்படுகின்றன. ఇది “சூடோ-ரீசனிங்” యొక్క దృగ్விளைவை அறிமுகப்படுத்துகிறது, அங்கு மாதிரிகள் અંતర్గత முடிவுகளை எடுக்கும் విధానాలను புரிந்துகொள்வதற்கு பதிலாக, வெறுமனே மேல்நிலை பாணிகளை பிரதிபலிக்கின்றன.
సాంప్రదాయ టూల్-ఉపయోగ శిక్షణ పరిమితులను పరిష్కరించడం
LLMల యొక్క டூல் භාවිත திறன்களை மேம்படுத்த ஏற்கனவே உள்ள ஆராய்ச்சி முயற்சிகள் பலவிதமான அணுகுமுறைகளை ஆராய்ந்து வருகின்றன, പ്രധാനంగా இரண்டு முக்கிய உத்திகள் উপর கவனம் செலுத்துகிறது: డేటాசெட் క్యూరేషన్ మరియు మోడల్ परिशोधित करना, மற்றும் తార్కికం అభివృద్ధి.
డేటాసెట్ క్యూరేషన్ మరియు మోడల్ परिशोधित करना: ఈ విధానంలో పెద్ద ఎత్తున, సూపర్వైజ్డ్ డేటాసెట్ల సృష్టి అధునాతన பயிற்சி நுட்பங்களுடன் இணைக்கப்பட்டுள்ளது, જેમ કે ఎస్ఎఫ్టి మరియు డిపిఓ (డైరెక్ట్ ప్రిఫరెన్స్ ఆప్టిమైజేషన్) రీన్ఫోర్స్మెంట్ అభ్యాசம். LLMలు శోధన ఇంజిన్లు, கால்குலேட்டர்கள், దృష్టి கருவிகள் மற்றும் பைதான் இன்டர்ப்ரீட்டர்கள் உட்பட பல்வேறு బాహ్య கருவிகளுடன் அதிகரிக்கப்படுகின்றன, இதனால் அவற்றின் செயல்பாட்டு திறன்களை கணிசமாக విస్తரிக்கின்றன. இந்த உத்தி LLMలకు ஏராளமான Beispiele மற்றும் அவற்றை பொதுமைப்படுத்தும் திறனை மேம்படுத்துவதன் முக்கியத்துவத்தை வலியுறுத்துகிறது. எவ்வாறாயினும், செயற்கை தரவுகளின் ограниченияंमध्ये சவால் உள்ளது.
தர்க்கத்தை மேம்படுத்துதல்: பெரிய அளவிலான डेटासेट මත மட்டுமே நம்பிக்கை வைப்பதன் குறைபாடுகளை உணர்ந்து, ஆராய்ச்சியாளர்கள் LLMల தர்க்கரீதியான കഴமைகளை மேம்படுத்தும் உத்திகள் மீது கவனம் செலுத்துகின்றனர். এটি பாரம்பரிய பயிற்சி நேர அளவிலிருந்து அதிக அதிநவீன சோதனை நேர அளவிற்கான மாற்றத்தை অন্তর্ভুক্ত करता है. முன்னர் இருந்த முறைகள் அடிக்கடி படி நிலை மேற்பார்வை மற்றும் เรียนรู้ කරන ලද வெகுமதி மாதிரிகளை தர்க்க பாதைகளை வழிநடத்த நம்புகின்றன. இந்த முறைகள் கருவி चयन మరియు பயன்பாட்டிற்கான தர்க்கத்தின் பின்னணியில் உள்ள தருக்கத்தை ஆழமாகப் புரிந்துகொள்ள உதவுகிறது, இது மாதிரியை தன்னாலேயே ஆராய்கிறது.
Nemotron-Tool-N1: LLM கருவி பயன்பாட்டில் ஒரு மாற்றத்திற்கான முன்னுதாரணம்
NVIDIA, பென்சில்வேனியா மாநில বিশ্ববিদ্যালয় மற்றும் வாஷிங்டன் பல்கலைக்கழக ஆராய்ச்சியாளர்கள் Nemotron-Research-Tool-N1 श्रृंखलाவை அறிமுகப்படுத்தியுள்ளனர். இது ఇప్పటికే ఉన్న கருவி उपयोग முறைகளின் வரையறைகளை கடந்து வருவதற்காக வடிவமைக்கப்பட்ட ഒരു නවோபாய அணுகுமுறையாகும். సాంప్రదాయ எస్எஃப்டி మరియు காரணம் தடைகளை தூள் தொழில்நுட்பங்களிலிருந்துแตกต่างంగా, Nemotron-Research-Tool-N1 ഒരു தனித்துவமான 강화 학습 (RL) மாதிரி பயன்படுத்துகிறது. ஆழமான தேடல்-ஆர்1ன் வெற்றிகளால் പ്രചோகிக்கப்பட்ட, இந்த அணுகல் கருவி அழைப்புகளை கட்டமைப்பு ரீதியான செல்லுபடி மற்றும் செயல்பாட்டு ரீதியான சரியை மதிப்பீடு செய்யும் ஒளி மேற்பார்வை முறையை உபயோகிக்கிறது. Nemotron-Research-Tool-N1 модельชัดเจนగా குறிக்கப்பட்ட காரணம் பயணங்களை நம்பாமல் స్వతంత్రமாய் காரணம் உத்திகளை வளர்த்துக் కొనేలా பைனரி வெகுமதி механизமை பயன்படுத்துகிறது.
பாரம்பரிய முறைகளிலிருந்து ಇದು மிகப்பெரிய வேறுபாட்டை குறிப்பிடுகிறது, మరింత உறுதியான மற்றும் பொதுவான கருவி kullanım திறன்களை ನೀಡ அதிக வாய்ப்புள்ளது. வெளிப்படையாக காரணம் தடைகளை விதிப்பத보다는 கருவி அழைப்புகளின் சரியை மீது கவனம் செலுத்துவதன் மூலம், மாதிரி தன்னாலேயே உகந்த காரணம் உத்திகளை ஆராய்ந்து கற்றுக் கொள்ள ஊக்குவிக்கப்படுகிறது.
தரவு தயாரிப்பு மற்றும் மாதிரி கட்டிடக்கலை
ஆராய்ச்சியாளர்கள் ஏற்கனவே இருக்கும் கருவி அழைக்கும் தரவுத்தளங்களான xLAM మరియు ToolACE இன் ഒരു उपसमुच्चयிலிருந்து தரவுகளை ஒருங்கிணைத்து முன்தயாரிப்பு செய்தார்கள். இவ்விரண்டும் ஒற்றைத் தவணி மற்றும் multi-turn செயற்கை கருவி அழைப்பு பயணங்களை வழங்குகிறது. கருவி அழைப்பு உருவாக்கத்திற்கு வழிகாட்டுவதற்காக, ஒரு ஒளி தூண்டல் வார்ப்புரு உருவாக்கப்பட்டது. இதில் இடைநிலை కారణத்தை <think>…</think>
குறிப்புகளுக்குள்ளும் மற்றும் ஒரு கருவி அழைப்பை <tool_call>…</tool_call>
குறிப்புகளுக்குள்ளும் வெளிப்படையான அறிவுறுத்தல்கள் உள்ளன. இந்த வார்ப்புரு திடமான வடிவமைப்பு கட்டுப்பாடுகளைக் ઘટાக்கவும் மற்றும்เฉพาะ ப்ராంప్ట్ பேட்டர்ன்களில் அதிகமாக்குவதற்கான ஆபத்தைக்கும்குறைக்கออกแบบ செய்யப்பட்டுள்ளது.
இந்த ஆராய்ச்சியில் முதன்மை முதுகுத்தண்டு மாதிரியாக Qwen2.5-7B/14B-Instruct பயன்படுத்தப்பட்டது. প্রস্তাবিত முறையின் பொதுமைப்படுத்தும் திறனை மதிப்பிடுவதற்கு, LLaMA കുടുംബத்திலிருந்து பல வகைகள் ഉൾപ്പെടെ மாற்று முதுகுத்தண்டு மாதிரிகளில் மதிப்பீடுகள் நடத்தப்பட்டன. வெவ்வேறு மாதிரி கட்டடமைப்புகளை හරහා நடத்தப்பட்ட இந்த கண்டிப்பான மதிப்பீடு Nemotron-Tool-N1 அணுகுமுறையின் உறுதித்தன்மை மற்றும் உபயோగத்தன்மையை உறுதி செய்கிறது.
பெஞ்ச்மார்க்கிங் செயல்திறன்: BFCL மற்றும் API-வங்கி
Nemotron-Research-Tool-N1வின் செயல்திறன் BFCL மற்றும் API-வங்கி பெஞ்ச்மார்க்குகளைக் கொண்டு கடுமையாக மதிப்பிடப்பட்டது. ஏற்கனவே உள்ள அணுகுமுறைகளுடன் ஒப்பிடும்போது Nemotron-Research-Tool-N1 மாதிரிகளின் உயர்ந்த செயல்திறனை முடிவுகள் காட்டுகின்றன.
BFCL பெஞ்ச்மார்க்: BFCL பெஞ்ச்మార్க்கில், Tool-N1-7B/14B மாதிரிகள் GPT-4o వంటి மூடப்பட்ட மூல மாதிரிகள் மற்றும் xLAM-2-70B மற்றும் ToolACE-8B போன்ற சிறப்பாக ட்யூன் செய்யப்பட்ட நுண்மின்னணுகிகளிலும் சிறந்த செயல்திறனை வெளிப்படுத்தின. மேலும், அடையாளத் தரவு மூலங்களில் பயிற்சியளிக்கப்பட்ட SFT அடித்தளங்களையும் மாதிரிகள் விஞ்சின, இது Nemotron-Research-Tool-N1இல் பயன்படுத்தப்பட்ட R1-பாணி RL அணுகுமுறையின் செயல்திறனை வலியுறுத்துகிறது. சிக்கலான தர்க்கம் மற்றும் கருவி பயன்பாடு தேவைப்படும் സാഹചര്യங்களில் மாற்றியமைக்கும் மாதிரியின் திறனை இந்த பெஞ்ச்மார்க் எடுத்துக்காட்டுகின்றது. BFCL (பெரிய ஐந்து கட்டளை வரிகள்) LLMகளின் சிக்கலான கட்டளை வரி அறிவுறுத்தல்களைப் புரிந்து செயலாக்கும் திறனை மதிப்பிடுவதில் கவனம் செலுத்துகிறது. இது ஒரு உயர்ந்த அளவிலான தர்க்கம் மற்றும் கருவி பயன்பாட்டை தேவைப்படுகிறது.
API-வங்கி பெஞ்ச்மார்க்: API-வங்கி பெஞ்ச்மார்க் மேலும் இந்த கண்டுபிடிப்புகளை உறுதிப்படுத்தியது. மேலும் Tool-N1-7B/14B GPT-4o ஐ விட 4.12% మరియు 5.03% அதிக துல்லியத்தை அடைந்தது. இந்த பெஞ்ச்மார்க் ஒரு LLM சில செயல்பாடுகளை выполнять பல்வேறு APIகளை (விண்ணப்ப நிரலாக்க இடைமுகங்கள்) திறம்பட उपयोगിക്കുന്ന திறனை оценிக்கிறது. இந்த பெஞ்ச்மார்க்கில் నెమెట్రాన్-రీసెర్చ్-டூல்N1 அடைந்த மேம்பாடுகள் ஒரு නවமையான வலுவூட்டல் கற்றல் வழிகாட்டியின் மூலம் పెద్ద மொழி மாதிரிகளின் கருவி அழைக்கும் திறன்களை மேம்படுத்துவதில் இந்த முறையின் திறனை சிறப்பானதாக்குகிறது.
இரு பெஞ்ச்மார்க்குகளிலும் நிலையான முன்னேற்றங்கள் LLMகளின் கருவி-உபயோகி திறன்களை அதிகரிப்பதில் Nemotron-Research-Tool-N1 அணுகுமுறையின் திறனை குறிக்கிறது. ನಿಯಮ ಆಧಾರಿತ RL அணுகுமுறையில் கவனம் செலுத்துவதன் மூலம் மற்றும் மாதிரிகள் அவர்களின் சொந்த தர்க்கரீதியான உத்திகளை வளர்க்க உதவுகிறது. ನೆಮೆಟ್ರಾన్-ரீసెர்ச்-டூல்N1 இன்னும் அதிகமாக்கக்கூடிய மற்றும் புத்திசாலித்தனமான ഭാஷை மாதிரிகளுக்கான திறனை வெளிப்படுத்துகிறது.
Nemotron-Tool-N1ன் முக்கிய புதுமைகள்
Nemotron-Research-Tool-N1ன் முக்கிய பங்களிப்பு LLMகளில் கருவி உபயோகத்தை மேம்படுத்தும் તેના நவீன અભિગમத்திலிருந்து വരുന്നു. நிலையான எஸ்எஃப்டி முறைகளை நம்புவதற்கு பதிலாக, இது ஒரு தனித்துவமான, नियम அடிப்படையிலான RL கட்டமைப்பு ஒருங்கிணைக்கிறது. இதன் கட்டமைப்பின் மையக்கல்லானது கருவி அறிவிப்புகளின் கட்டமைப்பு ரீதியான செல்லுபடி மற்றும் செயல்பாட்டு சரியானவைகளை மதிப்பிடுவதில் கவனம் செலுத்தும் ஒரு பைனரி வெகுமதி இயக்கமாகும். முன்கூட்டியே கவனமாக சிறுக்குறிப்பு இடப்பட்ட காரணம் பயணங்களை தேவையில்லாமல் இந்த அணுகுறை மூலம் மாதிரிக்கு தர்க்கರೀதியான உத்திகளை சுயாதீனமாக உருவாக்க உரிமை இருக்கிறது.
Nemotron-Research-Tool-N1ன் நன்மைகள் பல வழியாய உள்ளன. கருவி உபயோகத்திற்கான பயிற்சி தரவு பொதுவாக துல்லியமான காரணம் ഉൾவராது. வெகுமதி அமைப்பு கருவிக்கும் సమస్యிற்கும் இடையே தொடர்பை சுதந்திரமாக கண்டுபிடிப்பதன் மூலம் மாதிரிகளின் திறன்களை மேம்படுத்துகிறது. மேலும் சூழ்நிலைகளுக்கு மாதிரி சரிசெய்ய வேண்டும் என RL பொதுநிலப்பாவையும் மேம்படுத்த உதவுகிறது.
சிறப்புக்குறிகளுக்குள் (சிந்தி மற்றும் /சிந்தி) कारणத்தை ஒருங்கிணைக்க നെమెట్రాன்-ரீసెர்ச்-டூல்N1 ஒரு வலுவான வார்ப்புரு فراہمಿಸುತ್ತದೆ. கருவிகளை அழைப்பதற்கும் ഇത് உண்மையாகும் (tool_call மற்றும் /tool_call). அவ்வாறு செய்வதன் மூலம் നെമെட்ட్రాன்-ரீసెర్చ్-டூல்N1 தூவலுக்கான மாதிரியின் மிக அதிகமான அபாயங்களை குறைக்கிறது.
கருவிகளை வெற்றிகரமாக அழைக்கக்கூடிய திறனை இரண்டு பெஞ்ச்மார்க்குகளில் оценிக்கப்படுகிறது. இது நெமெட்ட్రాன்-ரீசெர்ச்ச்டூல்N1 கருவியின் சிறப்பம்சங்களை வெளிப்படுத்துகிறது:
- பெரிய ஐந்து கட்டளை வரிகள் (BFCL): சிக்கலான கட்டளை வரி அறிவுறுத்தல்களை LLMகள் புரிந்து செயல்படுத்த வேண்டும் என BFCL வலியுறுத்துகிறது. அதன் வலுவூட்டல் கற்றல் முறைகள் மூலம் இந்த பகுதியில் നെமெட்ட್ರಾన్-ரீசெர்చ్-டூல்N1 சிறந்து விளங்குகிறது.
- API-வங்கி பெஞ்ச்மார்க்: API-வங்கி பெஞ்ச்மார்க் இந்த முடிவுகளை உறுதிப்படுத்தியது. இந்த மாதிரியின் துல்லிய விகிதம் GPT-4o விட 4.12% และ 5.03% அதிகமாக இருந்தது.
ஏற்கனவே உள்ள அணுகுமுறைகளுடனான ஒப்பீட்டு பகுப்பாய்வு
Nemotron-Research-Tool-N1 கருவி பயன்பாட்டிற்கான சிறந்த ட்யூனிங் முறைகளில் గణనీయమైన முன்னேற்றத்தை காட்டுகிறது. ஃபைன்-ட்யூனிங்க்கு அடிக்கடி கவனமாக சரிசெய்யப்பட்ட தரவுகள் பெரிய அளவில் தேவைப்படும் மற்றும் மாதிரி தற்போதுள்ள வரைபடங்களை அடிக்கடி பிரதிபலிக்க வழிவகுக்கிறது. வழுவூட்டல் கற்றல் முறைமையாய் Nemotron-Research-Tool-N1, மாதிரி காரணம் குறித்தான உத்திகளை சுயாதீனமாக உருவாக்க முடியும் மற்றும் சில தரவுத்தொகுப்புகளின் மீதான சார்புடையத்தன்மையையும் குறைக்க உதவுகிறது. நெமெட்ட్రాன் ఇప్పటికే உள்ள முறைகள் பడుப்படும் அதே சிரமமின்றி ఇప్పటికే பெஞ்ச்மார்க்குகளை விஞ்சுகிறது.
பல பெஞ்ச்மார்க்குகள் இந்த முன்னேற்றத்தை நிரூபிக்கின்றன. BFCL பெஞ்ச்மார்க் tool-N1 மாதிரிகள் ஏற்கனவே உள்ள அணுகுமுறைகளின்மேல் சீர்படுத்தப்பட்டன என நேரடியாக காட்டுகிறது. ഇത് திறந்த மூல அமைப்புகளான xLAM-2-70B மற்றும் ToolACE-8B இரண்டையும் மேம்படுத்துகிறது மற்றும் GPT-4o போன்ற மறைந்த மூல மாதிரிகளை விடவும் திறம்பட்டது. இந்த முடிவுகளை API-வங்கி பெஞ்ச்மார்க் உறுதி செய்கிறது.இது ஏற்கனவே இருக்கும் மொழி மாதிரிகளில் கருவிகளை அழைக்கையில் நிறைய துல்லியத்தை அதிகப்படுத்தி காட்டுகிறது.
தாக்கங்கள் மற்றும் எதிர்கால திசைகள்
ஆராய்ச்சியாளர்கள் நெமெட்ரன்-ரீసెർச்-டூல்N1ஐ அறிமுகப்படுத்தினர். இது LLM கருவிகளில் ஒரு பெரிய முன்னேற்றமாகும். வெட்டுமுனை नियम அடிப்படையிலான RL முறையை பின்பற்றி பாரம்பரிய எஸ்எஃப்டி வழிமுறைகளிலிருந்து வேறுபடுவதை இந்த ஆராய்ச்சி காட்டிக் கொடுக்கிறது. குறிக்கப்பட்ட కారణம் பயணங்களின் மீதுเฉพาะంగా சார்ந்திராமல், நுணுக்கமான காரணம் தந்திரங்களை வடிவமைக்க முன்மொழியப்பட்ட முறை மாதிரிக்கு அனுமதிக்கிறது. ഈ வழிமுறைகளின் ಸಾಮರ್ಥ್ಯം BFCL மற்றும் API-வங்கி முழுவதும் அதன் பயனுள்ள பெஞ்ச்மார்க்கிங் மதிப்பீடுகளின் மூலம் காட்டப்படுகிறது. மேலும், இது தற்போதைய அடிதளங்களை விட அளவிடಬಹುದான செயல்திறன் மேம்பாடுகளைக் காட்சிப்படுத்துகிறது.இது தன்னாலேயே காரணம் உத்திகளை உருவாக்கக்கூடிய ಹೆಚ್ಚು உதவலான மற்றும் அறிவாளியான மொழி மாதிரிகளுக்கான வாய்ப்புகளைத் திறக்கிறது.
கண்டுபிடிப்புகள் உதவுதலான మరియు அறிவுசார்ந்த மொழி மாதிரிகளை विकसित செய்வதற்கான புதிய வழிகளை തുറக்கின்றன. டூயல் வெகுமதி விசைகள் பல உலக பயன்பாடுகளில் செயல்திறன் செய்ய மற்றும் மிகவும் பயனுள்ளவையாக இருக்க ഭാషை மாதிரிகளுக்கு திறனை அளிக்கும். நெமெட்ரன்-ரீసెർచ్-டூல்N1 കൂടുതൽ ಸ್ವಯಂಚಾಲિત காரணத்திற்கு வழிவகுக்கும் மற்றும் இது భాషை மாதிரிகளின் கருவி உபயோகிக்கும் திறன்களை மேம்படுத்தும்.
இந்த ஆராய்ச்சி LLM கருவிகளில் ஒரு புதிய உதாரணத்தை காட்டுகிறது. ఇది எதிர்கால ഭാషை மாதிரிகள் எவ்விதம் தயாரிக்கப்படுகிறது என்பதற்கான புதிய திசைகளை சிறப்பித்துக் காண்பிக்கிறது. எதிர்காலத்திலே அதிகமாய் அறிவுள்ள மொழி மாதிரிகளை కలిగి இருப்பதற்கு കാരണத்தில் ஒரு தானியங்கி கவனம் முக்கியமாக இருக்கும்.