LLM टूल वापरासाठी नेमट्रॉन-टूल-N1 चा RL दृष्टिकोन | mr

कृत्रिम डेटासेटच्या मर्यादांवर मात करण्यासाठी NVIDIA, Pennsylvania State University आणि University of Washington मधील संशोधकांनी नेमट्रॉन-रिसर्च-टूल-N1 मालिका सादर केली आहे.

पारंपरिक टूल-यूज ट्रेनिंगच्या मर्यादांना संबोधित करणे

LLM च्या टूल-यूज क्षमता वाढवण्यासाठी सध्याचे संशोधन अनेक दृष्टिकोन वापरते, जे प्रामुख्याने दोन मुख्य धोरणांवर लक्ष केंद्रित करतात: डेटासेट क्युरेशन आणि मॉडेल रिफाइनमेंट, आणि तर्क सुधारणे.

डेटासेट क्युरेशन आणि मॉडेल रिफाइनमेंट: या दृष्टिकोनमध्ये मोठ्या प्रमाणावर पर्यवेक्षित डेटासेट तयार करणे आणि SFT आणि DPO (डायरेक्ट प्रेफरन्स ऑप्टिमायझेशन) मजबुतीकरण शिक्षण यांसारख्या प्रगत प्रशिक्षण तंत्रांचा वापर करणे समाविष्ट आहे. LLM ला शोध इंजिन, कॅल्क्युलेटर, व्हिजन टूल्स आणि पायथन इंटरप्रिटर यांसारख्या विविध बाह्य साधनांनी वाढवले जाते, ज्यामुळे त्यांची कार्यात्मक क्षमता लक्षणीयरीत्या वाढते. हे धोरण LLM ला भरपूर उदाहरणे प्रदान करण्याच्या महत्त्वावर आणि या उदाहरणांवरून सामान्यीकरण करण्याच्या त्यांच्या क्षमतेवर जोर देते. मात्र, कृत्रिम डेटाच्या मर्यादा हे आव्हान आहे.

तर्क सुधारणे: केवळ मोठ्या प्रमाणावर डेटासेटवर अवलंबून राहण्याच्या त्रुटी लक्षात घेऊन, संशोधकांनी LLM च्या तर्क क्षमता सुधारण्याच्या धोरणांवर लक्ष केंद्रित केले आहे. यामध्ये पारंपरिक ट्रेन-टाइम स्केलिंगपासून अधिक अत्याधुनिक टेस्ट-टाइम स्केलिंग धोरणांकडे वळणे समाविष्ट आहे. पूर्वीच्या पद्धतींमध्ये स्टेप-लेव्हल सुपरव्हिजन आणि शिकलेल्या रिवॉर्ड मॉडेलवर अवलंबून राहून तर्क मार्गांचे मार्गदर्शन केले जात होते. या पद्धतींचा उद्देश मॉडेलला तर्क प्रक्रियेत उघड करणे आहे, ज्यामुळे टूल निवड आणि वापराच्या कारणांबद्दल सखोल माहिती मिळते.

नेमट्रॉन-टूल-N1: LLM टूल वापरात एक आदर्श बदल

NVIDIA, Pennsylvania State University आणि University of Washington मधील संशोधकांनी नेमट्रॉन-रिसर्च-टूल-N1 मालिका सादर केली आहे, जो सध्याच्या टूल-उपयोग पद्धतींच्या मर्यादांवर मात करण्यासाठी डिझाइन केलेला एक नाविन्यपूर्ण दृष्टिकोन आहे. पारंपरिक SFT आणि रिझनिंग ट्रेस डिस्टिलेशन तंत्रांच्या विपरीत, नेमट्रॉन-रिसर्च-टूल-N1 एक अद्वितीय मजबुतीकरण शिक्षण (RL) प्रतिमान वापरते. DeepSeek-R1 च्या यशानंतर, हा दृष्टिकोन हलक्या पर्यवेक्षण पद्धतीचा वापर करतो जो टूलInvocation च्या स्ट्रक्चरल वैधतेचे आणि कार्यात्मक योग्यतेचे मूल्यांकन करण्यावर लक्ष केंद्रित करतो. नेमट्रॉन-रिसर्च-टूल-N1 मॉडेल बायनरी रिवॉर्ड यंत्रणेचा लाभ घेते, जे मॉडेलला स्पष्टपणे एनोटेटेड रिझनिंग ट्रेजेक्टरीजवर अवलंबून न राहता स्वायत्तपणे रिझनिंग स्ट्रॅटेजी विकसित करण्यास अनुमती देते.

हा दृष्टिकोन पारंपारिक पद्धतींपासून एक महत्त्वपूर्ण प्रस्थान दर्शवितो, जो अधिक मजबूत आणि सामान्यीकृत टूल-उपयोग क्षमतांसाठी क्षमता प्रदान करतो. स्पष्टपणे रिझनिंग स्टेप्स निर्देशित करण्याऐवजी टूल Invocation च्या योग्यतेवर लक्ष केंद्रित करून, मॉडेलला स्वतःहून इष्टतम रिझनिंग स्ट्रॅटेजी एक्सप्लोर आणि शिकण्यास प्रोत्साहित केले जाते.

डेटा तयारी आणि मॉडेल आर्किटेक्चर

संशोधकांनी xLAM आणि ToolACE च्या सबसेटसह विद्यमान टूल-कॉलिंग डेटासेटमधील डेटा एकत्रित आणि पूर्व-प्रक्रिया केली, जे सिंगल-टर्न आणि मल्टी-टर्न सिंथेटिक टूल-कॉलिंग ट्रेजेक्टरीज दोन्ही प्रदान करतात. टूल कॉल जनरेशनला मार्गदर्शन करण्यासाठी, <think>...</think> टॅगमध्ये इंटरमीडिएट रिझनिंगसाठी स्पष्ट सूचना आणि <tool_call>...</tool_call> टॅगमध्ये संलग्न टूलInvocation दर्शवणारे एक हलके प्रॉम्प्टिंग टेम्पलेट तयार केले गेले. हे टेम्पलेट कठोर स्वरूपण मर्यादा कमी करण्यासाठी आणि विशिष्ट प्रॉम्प्ट पॅटर्नमध्ये ओव्हरफिटिंगचा धोका कमी करण्यासाठी डिझाइन केलेले आहे.

या संशोधनात वापरले जाणारे प्राथमिक बॅकबोन मॉडेल Qwen2.5-7B/14B-Instruct आहे. प्रस्तावित पद्धतीच्या सामान्यीकरण क्षमतेचे मूल्यांकन करण्यासाठी, LLaMA कुटुंबातील अनेक प्रकारांसह वैकल्पिक बॅकबोन मॉडेलवर देखील मूल्यांकन केले गेले. विविध मॉडेल आर्किटेक्चरमधील हे कठोर मूल्यांकन नेमट्रॉन-टूल-N1 दृष्टिकोणाची मजबूती आणि उपयोगिता सुनिश्चित करते.

बेंचमार्किंग कार्यप्रदर्शन: BFCL आणि API-बँक

नेमट्रॉन-रिसर्च-टूल-N1 ची परिणामकारकता BFCL आणि API-बँक बेंचमार्क वापरून कठोरपणे तपासली गेली. परिणाम सध्याच्या दृष्टिकोनपेक्षा नेमट्रॉन-रिसर्च-टूल-N1 मॉडेलचे उत्कृष्ट कार्यप्रदर्शन दर्शवतात.

BFCL बेंचमार्क: BFCL बेंचमार्कवर, Tool-N1-7B/14B मॉडेलने GPT-4o सारख्या क्लोज्ड-सोर्स मॉडेल आणि xLAM-2-70B आणि ToolACE-8B सारख्याspecialized फाइन-ट्यून केलेल्या मॉडेलपेक्षा अधिक चांगले प्रदर्शन केले. याव्यतिरिक्त, मॉडेलने समान डेटा स्त्रोतांवर प्रशिक्षित केलेल्या SFT बेसलाइनला मागे टाकले, नेमट्रॉन-रिसर्च-टूल-N1 मध्ये वापरलेल्या R1-शैलीतील RL दृष्टिकोणाची प्रभावीता यावर जोर दिला. हा बेंचमार्क जटिल तर्क आणि टूल वापराच्या परिस्थितीत जुळवून घेण्याच्या मॉडेलच्या क्षमतेवर प्रकाश टाकतो. BFCL (बिग फाइव्ह कमांड लाइन्स) बेंचमार्क LLM ची जटिल कमांड-लाइन सूचना समजून घेण्याची आणि त्यांची अंमलबजावणी करण्याची क्षमता तपासण्यावर लक्ष केंद्रित करतो, ज्यासाठी उच्च पातळीवरील तर्क आणि टूल वापराची आवश्यकता असते.

API-बँक बेंचमार्क: API-बँक बेंचमार्कने या निष्कर्षांना आणखी पुष्टी दिली, Tool-N1-7B/14B ने GPT-4o पेक्षा 4.12% आणि 5.03% जास्त अचूकता प्राप्त केली. हा बेंचमार्क विशिष्ट कार्ये करण्यासाठी विविध API (Application Programming Interfaces) वापरण्यात LLM च्या प्राविण्यांचे मूल्यांकन करतो. या बेंचमार्कवर नेमट्रॉन-रिसर्च-टूल-N1 द्वारे साधलेली सुधारणा मोठ्या भाषेतील मॉडेलच्या टूल-कॉलिंग क्षमतांना एका नवीन मजबुतीकरण शिक्षण प्रतिमानाद्वारे वाढवण्याची क्षमता अधोरेखित करते.

दोन्ही बेंचमार्कवरील सातत्यपूर्ण सुधारणा LLM च्या टूल-उपयोग क्षमता वाढवण्यासाठी नेमट्रॉन-रिसर्च-टूल-N1 दृष्टिकोणाची प्रभावीता दर्शवते. नियमांवर आधारित RL दृष्टिकोन आणि मॉडेल्सना स्वतःच्या तर्क धोरणे विकसित करण्यास सक्षम करून, नेमट्रॉन-रिसर्च-टूल-N1 अधिक जुळवून घेण्यायोग्य आणि बुद्धिमान भाषा मॉडेलची क्षमता उघड करते.

नेमट्रॉन-टूल-N1 ची मुख्य नवकल्पना

नेमट्रॉन-रिसर्च-टूल-N1 चे मुख्य योगदान LLM मध्ये टूल वापर वाढवण्यासाठी त्याच्या नवीन दृष्टिकोणातून येते. मानक SFT पद्धतींवर अवलंबून राहण्याऐवजी, ते एक अद्वितीय, नियमांवर आधारित RL फ्रेमवर्क एकत्रित करते. त्याच्या आर्किटेक्चरचा आधारस्तंभ म्हणजे टूलInvocation च्या स्ट्रक्चरल वैधता आणि कार्यात्मक योग्यतेचे मूल्यांकन करण्यावर लक्ष केंद्रित करणारी बायनरी रिवॉर्ड यंत्रणा. हा दृष्टिकोन मॉडेलला तर्क मार्गांची आवश्यकता नसताना स्वतंत्रपणे तर्क धोरणे तयार करण्यास अनुमती देतो, जे आगाऊ काळजीपूर्वक एनोटेट केलेले आहेत.

नेमट्रॉन-रिसर्च-टूल-N1 चे अनेक फायदे आहेत. टूल वापरायचा डेटा सामान्यत: स्पष्ट तर्क देत नाही. रिवॉर्ड सिस्टम टूल आणि समस्येदरम्यानचे संबंध स्वतंत्रपणे शोधून मॉडेलची क्षमता वाढवते. RL सामान्यीकरण सुधारण्यास देखील मदत करते कारण मॉडेलला विविध परिस्थितीत जुळवून घ्यावे लागते.

नेमट्रॉन-रिसर्च-टूल-N1 विशेष टॅगमध्ये (think आणि /think) तर्क एकत्रित करण्यासाठी एक मजबूत टेम्पलेट प्रदान करते. हे टूल (“tool_call” आणि “/tool_call”) वर कॉल करण्यासाठी देखील खरे आहे. असे करून, नेमट्रॉन-रिसर्च-टूल-N1 प्रॉम्प्टच्या पॅटर्नमध्ये मॉडेल ओव्हरफिट होण्याचा धोका कमी करते.

टूल्सवर यशस्वीरित्या कॉल करण्याची क्षमता दोन बेंचमार्कवर तपासली जाते, जे नेमट्रॉन-रिसर्च-टूल-N1 च्या क्षमता हायलाइट करतात:

बिग फाइव्ह कमांड लाइन्स (BFCL): BFCL LLM ला जटिल कमांड-लाइन सूचना समजून घेणे आणि त्यांची अंमलबजावणी करणे आवश्यक आहे यावर जोर देते. नेमट्रॉन-रिसर्च-टूल-N1 त्याच्या मजबुतीकरण शिक्षण पद्धतीद्वारे या क्षेत्रात उत्कृष्ट आहे.
API-बँक बेंचमार्क: API-बँक बेंचमार्कने या निकालांची पुष्टी केली. मॉडेलचा अचूकता दर GPT-4o पेक्षा 4.12% आणि 5.03% जास्त होता.

विद्यमान दृष्टिकोन सह तुलनात्मक विश्लेषण

नेमट्रॉन-रिसर्च-टूल-N1 टूल वापरासाठी विद्यमान फाइन-ट्यूनिंग पद्धतींपेक्षा लक्षणीय सुधारणा दर्शवते. फाइन-ट्यूनिंगसाठी बर्‍याचदा काळजीपूर्वक क्युरेट केलेल्या डेटाची मोठ्या प्रमाणात आवश्यकता असते आणि बर्‍याचदा मॉडेल विद्यमान नमुन्यांची नक्कल करते. मजबुतीकरण शिक्षण पद्धत म्हणून, नेमट्रॉन-रिसर्च-टूल-N1, मॉडेल स्वतंत्रपणे तर्क धोरणे तयार करू शकते आणि विशिष्ट डेटासेटवरील अवलंबित्व कमी करण्यास देखील मदत करते. नेमट्रॉन विद्यमान पद्धतींना ज्या समस्या येतात त्याशिवाय विद्यमान बेंचमार्कपेक्षा चांगले प्रदर्शन करते.

अनेक बेंचमार्क ही सुधारणा सिद्ध करतात. BFCL बेंचमार्क थेट दर्शवितो की टूल-N1 मॉडेल विद्यमान दृष्टिकोन सुधारतात. हे xLAM-2-70B आणि ToolACE-8B सारख्या ओपनसोर्स सिस्टमवर सुधारणा करते आणि GPT-4o सारख्या क्लोज्ड-सोर्स मॉडेलपेक्षा चांगले प्रदर्शन करते. API-बँक बेंचमार्क या निष्कर्षांची पुष्टी करतो, जे विद्यमान भाषेतील मॉडेलवर टूल कॉलिंग सुधारताना अचूकता लक्षणीयरीत्या वाढवते.

परिणाम आणि भविष्यातील दिशा

संशोधकांनी नेमट्रॉन-रिसर्च-टूल-N1 सादर केले, जे LLM टूल्समधील एक मोठे यश आहे. हे संशोधन अत्याधुनिक नियमांवर आधारित RL पद्धत लागू करून पारंपारिक SFT कार्यपद्धतीपासून दूर असल्याचे दर्शवते. प्रस्तावित पद्धत मॉडेल्सना सूक्ष्म तर्क धोरणे तयार करण्यास सक्षम करते, हे सर्व स्पष्टपणे एनोटेटेड तर्क मार्गांवर अवलंबून न राहता. BFCL आणि API-बँकवरील प्रभावी बेंचमार्किंग मूल्यांकनाद्वारे या पद्धतीच्या क्षमता दर्शविल्या जातात. तसेच, ते सध्याच्या बेसलाइनपेक्षा मोजण्यायोग्य कार्यप्रदर्शन वाढवते. हे अधिक जुळवून घेण्यायोग्य आणि बुद्धिमान भाषा मॉडेलसाठी संधी उघड करते जे स्वतःहून तर्क धोरणे तयार करतात.

हे निष्कर्ष अधिक जुळवून घेण्यायोग्य आणि बुद्धिमान असलेली भाषा मॉडेल विकसित करण्यासाठी नवीन मार्ग उघडतात. बायनरी रिवॉर्ड यंत्रणेचा वापर भाषा मॉडेलला एकाधिक वास्तविक-जगातील ऍप्लिकेशन्समध्ये कार्य करण्यास आणि अधिक प्रभावी होण्यास क्षमता देईल. नेमट्रॉन-रिसर्च-टूल-N1 अधिक स्वयंचलित तर्कांना जन्म देईल, ज्यामुळे भाषा मॉडेलच्या टूल-वापर क्षमता सुधारतील.

हे संशोधन LLM टूल्समधील एक नवीन प्रतिमान दर्शवते. हे भविष्यातील भाषा मॉडेल कसे बनवले जातात याच्या नवीन दिशा देखील हायलाइट करते. तर्कामध्ये ऑटोमेशनवर लक्ष केंद्रित करणे भविष्यात अधिक बुद्धिमान असलेली भाषा मॉडेल तयार करण्यात महत्त्वपूर्ण ठरेल.

रोजी अद्यतनित २०२५-०५-१५

# Nvidia # Nemotron # Fine-Tuning