LLM टूल उपयोग में क्रांति: नेमोट्रॉन-टूल-एन1

LLM टूल उपयोग में क्रांति: नेमोट्रॉन-टूल-एन1 का सुदृढीकरण सीखने का दृष्टिकोण

बाहरी उपकरणों के साथ विशाल भाषा मॉडल (Large Language Models) (LLM) का एकीकरण एक परिवर्तनकारी रणनीति के रूप में उभरा है, जो अनुप्रयोगों के एक स्पेक्ट्रम में अभूतपूर्व क्षमताओं को खोलती है। हालांकि, पारंपरिक पद्धतियां, मुख्य रूप से टूल-उपयोग परिदृश्यों के व्यापक सिंथेटिक डेटासेट के निर्माण पर निर्भर करती हैं, जिसके बाद सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) LLM को प्रभावी ढंग से इन उपकरणों का उपयोग करने की क्षमता के साथ जोड़ती है। इस दृष्टिकोण की एक मौलिक सीमा सिंथेटिक डेटासेट की उपकरण उपयोग में शामिल जटिल तर्क प्रक्रियाओं को सटीक रूप से प्रस्तुत करने में असमर्थता है, जिसके परिणामस्वरूप सतही शिक्षण और सच्ची समझ की कमी होती है। अक्सर, आवश्यक तर्क कदम प्रशिक्षण के दौरान पूरी तरह से अनुपस्थित होते हैं या विस्तृत प्रॉम्प्टिंग तकनीकों के माध्यम से अनुमान के लिए हटा दिए जाते हैं। यह "छद्म-तर्क" की एक घटना का परिचय देता है, जहां मॉडल, अंतर्निहित निर्णय लेने के तंत्र को समझने के बजाय, केवल सतह-स्तर के पैटर्न की नकल करते हैं।

पारंपरिक उपकरण-उपयोग प्रशिक्षण की सीमाओं को संबोधित करना

LLM की उपकरण-उपयोग क्षमताओं को बढ़ाने के लिए मौजूदा अनुसंधान प्रयासों ने विभिन्न दृष्टिकोणों का पता लगाया है, मुख्य रूप से दो प्रमुख रणनीतियों पर ध्यान केंद्रित किया गया है: डेटासेट क्यूरेशन और मॉडल रिफाइनिंग, और तर्क सुधार।

डेटासेट क्यूरेशन और मॉडल रिफाइनिंग: इस दृष्टिकोण में बड़े पैमाने पर, पर्यवेक्षित डेटासेट का निर्माण शामिल है, जिसके साथ उन्नत प्रशिक्षण तकनीकें जैसे एसएफटी और डीपीओ (डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन) सुदृढीकरण सीखना शामिल है। LLM को खोज इंजन, कैलकुलेटर, विजन टूल और पायथन इंटरप्रेटर सहित विभिन्न बाहरी उपकरणों के साथ बढ़ाया जाता है, ताकि उनकी कार्यात्मक क्षमताओं का महत्वपूर्ण विस्तार किया जा सके। यह रणनीति LLM को उदाहरणों का खजाना प्रदान करने और इन उदाहरणों से सामान्यीकरण करने की उनकी क्षमता को परिष्कृत करने के महत्व पर जोर देती है। हालांकि, चुनौती सिंथेटिक डेटा की सीमाओं में निहित है।

रीज़निंग इम्प्रूवमेंट: बड़े पैमाने पर डेटासेट पर पूरी तरह से निर्भर रहने की कमियों को पहचानते हुए, शोधकर्ताओं ने LLM की तर्क क्षमताओं में सुधार के लिए रणनीतियों पर भी ध्यान केंद्रित किया है। इसमें पारंपरिक ट्रेन-टाइम स्केलिंग से अधिक परिष्कृत परीक्षण-समय स्केलिंग रणनीतियों में बदलाव शामिल है। पहले की विधियां अक्सर स्टेप-लेवल पर्यवेक्षण और सीखे गए इनाम मॉडल पर तर्क प्रक्षेपवक्रों का मार्गदर्शन करने के लिए निर्भर करती थीं। इन विधियों का उद्देश्य मॉडल को तर्क प्रक्रिया से अवगत कराना है, उपकरण चयन और उपयोग के पीछे तर्क की गहरी समझ को बढ़ावा देना है।

नेमोट्रॉन-टूल-एन1: LLM टूल उपयोग में एक प्रतिमान बदलाव

NVIDIA, पेंसिल्वेनिया स्टेट यूनिवर्सिटी और वाशिंगटन विश्वविद्यालय के शोधकर्ताओं ने नेमोट्रॉन-रिसर्च-टूल-एन1 श्रृंखला पेश की है, जो मौजूदा टूल-उपयोग विधियों की सीमाओं को दूर करने के लिए डिज़ाइन किया गया एक अभिनव दृष्टिकोण है। पारंपरिक SFT और तर्क ट्रेस डिस्टिलेशन तकनीकों के विपरीत, नेमोट्रॉन-रिसर्च-टूल-एन1 एक अद्वितीय सुदृढीकरण सीखने (RL) प्रतिमान को नियोजित करता है। डीपसीक-आर1 की सफलता से प्रेरित होकर, यह दृष्टिकोण एक हल्के पर्यवेक्षण विधि का उपयोग करता है जो उपकरण आह्वान की संरचनात्मक वैधता और कार्यात्मक शुद्धता का मूल्यांकन करने पर केंद्रित है। नेमोट्रॉन-रिसर्च-टूल-एन1 मॉडल एक बाइनरी इनाम तंत्र का लाभ उठाता है जो मॉडल को स्पष्ट रूप से एनोटेट किए गए तर्क प्रक्षेपवक्रों पर भरोसा किए बिना स्वायत्त रूप से तर्क रणनीतियों को विकसित करने की अनुमति देता है।

यह दृष्टिकोण पारंपरिक पद्धतियों से एक महत्वपूर्ण प्रस्थान का प्रतिनिधित्व करता है, जो अधिक मजबूत और सामान्यीकृत उपकरण-उपयोग क्षमताओं की संभावना प्रदान करता है। तर्क चरणों को स्पष्ट रूप से निर्देशित करने के बजाय उपकरण आह्वान की शुद्धता पर ध्यान केंद्रित करके, मॉडल को अपने दम पर इष्टतम तर्क रणनीतियों का पता लगाने और सीखने के लिए प्रोत्साहित किया जाता है।

डेटा तैयार करना और मॉडल आर्किटेक्चर

शोधकर्ताओं ने मौजूदा टूल-कॉलिंग डेटासेट से डेटा को समेकित और प्रीप्रोसेस्ड किया, जिसमें xLAM और ToolACE का एक सबसेट शामिल है, जो सिंगल-टर्न और मल्टी-टर्न सिंथेटिक टूल-कॉलिंग प्रक्षेपवक्र दोनों प्रदान करते हैं। टूल कॉल जनरेशन को निर्देशित करने के लिए, एक हल्का प्रॉम्प्टिंग टेम्पलेट बनाया गया, जिसमें <think>…</think> टैग के भीतर मध्यवर्ती तर्क के लिए स्पष्ट निर्देश और <tool_call>…</tool_call> टैग में संलग्न टूल आह्वान शामिल हैं। यह टेम्पलेट कठोर स्वरूपण बाधाओं को कम करने और विशिष्ट प्रॉम्प्ट पैटर्न में ओवरफिटिंग के जोखिम को कम करने के लिए डिज़ाइन किया गया है।

इस शोध में उपयोग किया जाने वाला प्राथमिक बैकबोन मॉडल Qwen2.5-7B/14B-Instruct है। प्रस्तावित विधि की सामान्यीकरण क्षमता का आकलन करने के लिए, LLaMA परिवार के कई वेरिएंट सहित वैकल्पिक बैकबोन मॉडल पर भी मूल्यांकन किया गया। विभिन्न मॉडल आर्किटेक्चर में यह कठोर मूल्यांकन नेमोट्रॉन-टूल-एन1 दृष्टिकोण की मजबूती और प्रयोज्यता सुनिश्चित करता है।

बेंचमार्किंग प्रदर्शन: बीएफसीएल और एपीआई-बैंक

नेमोट्रॉन-रिसर्च-टूल-एन1 की प्रभावकारिता का बीएफसीएल और एपीआई-बैंक बेंचमार्क का उपयोग करके कड़ाई से मूल्यांकन किया गया। परिणाम मौजूदा दृष्टिकोणों की तुलना में नेमोट्रॉन-रिसर्च-टूल-एन1 मॉडल के बेहतर प्रदर्शन को दर्शाते हैं।

बीएफसीएल बेंचमार्क: बीएफसीएल बेंचमार्क पर, टूल-एन1-7बी/14बी मॉडल ने जीपीटी-4ओ जैसे क्लोज्ड-सोर्स मॉडल और एक्सएलएएम-2-70बी और टूलएसीई-8बी जैसे विशेष फाइन-ट्यून मॉडल से बेहतर प्रदर्शन प्रदर्शित किया। इसके अलावा, मॉडल ने समान डेटा स्रोतों पर प्रशिक्षित एसएफटी बेसलाइन से बेहतर प्रदर्शन किया, जिससे नेमोट्रॉन-रिसर्च-टूल-एन1 में नियोजित आर1-शैली आरएल दृष्टिकोण की प्रभावशीलता पर जोर दिया गया। यह बेंचमार्क जटिल तर्क और उपकरण उपयोग की आवश्यकता वाले परिदृश्यों में अनुकूलन करने के लिए मॉडल की योग्यता को उजागर करता है। बीएफसीएल (बिग फाइव कमांड लाइन्स) बेंचमार्क एलएलएम की जटिल कमांड-लाइन निर्देशों को समझने और निष्पादित करने की क्षमता का आकलन करने पर केंद्रित है, जिसके लिए उच्च स्तर के तर्क और उपकरण उपयोग की आवश्यकता होती है।

एपीआई-बैंक बेंचमार्क: एपीआई-बैंक बेंचमार्क ने इन निष्कर्षों को और मान्य किया, जिसमें टूल-एन1-7बी/14बी ने जीपीटी-4ओ की तुलना में 4.12% और 5.03% अधिक सटीकता हासिल की। यह बेंचमार्क विशिष्ट कार्यों को करने के लिए विभिन्न एपीआई (एप्लिकेशन प्रोग्रामिंग इंटरफेस) का उपयोग करने में एलएलएम की प्रवीणता का मूल्यांकन करता है। इस बेंचमार्क पर नेमोट्रॉन-रिसर्च-टूल-एन1 द्वारा प्राप्त सुधार एक उपन्यास सुदृढीकरण सीखने के प्रतिमान के माध्यम से बड़े भाषा मॉडल की उपकरण-कॉलिंग क्षमताओं को बढ़ाने में विधि की क्षमता को रेखांकित करता है।

दोनों बेंचमार्क में लगातार सुधार LLM की उपकरण-उपयोग क्षमताओं को बढ़ाने में नेमोट्रॉन-रिसर्च-टूल-एन1 दृष्टिकोण की प्रभावशीलता को दर्शाता है। एक नियम-आधारित RL दृष्टिकोण पर ध्यान केंद्रित करके और मॉडलों को अपनी खुद की तर्क रणनीतियों को विकसित करने में सक्षम करके, नेमोट्रॉन-रिसर्च-टूल-एन1 अधिक अनुकूलनीय और बुद्धिमान भाषा मॉडल की क्षमता को अनलॉक करता है।

नेमोट्रॉन-टूल-एन1 के प्रमुख नवाचार

नेमोट्रॉन-रिसर्च-टूल-एन1 का मुख्य योगदान एलएलएम में उपकरण उपयोग को बढ़ाने के लिए इसके नए दृष्टिकोण से आता है। मानक एसएफटी विधियों पर निर्भर रहने के बजाय, यह एक अद्वितीय, नियम-आधारित RL फ्रेमवर्क को एकीकृत करता है। इसके आर्किटेक्चर का एक आधारशिला उपकरण आह्वान की संरचनात्मक वैधता और कार्यात्मक शुद्धता का आकलन करने पर केंद्रित एक बाइनरी इनाम तंत्र है। यह दृष्टिकोण मॉडल को अग्रिम में सावधानीपूर्वक एनोटेट किए गए तर्क प्रक्षेपवक्रों की आवश्यकता के बिना स्वतंत्र रूप से तर्क रणनीतियों को बनाने की अनुमति देता है।

नेमोट्रॉन-रिसर्च-टूल-एन1 के कई फायदे हैं। उपकरण उपयोग के लिए प्रशिक्षण डेटा में आमतौर पर स्पष्ट तर्क शामिल नहीं होते हैं। इनाम प्रणाली उपकरण और हाथ में समस्या के बीच संबंध को स्वतंत्र रूप से खोजकर मॉडलों की क्षमताओं को बढ़ाती है। RL सामान्यीकरण को बेहतर बनाने में भी मदद करता है क्योंकि मॉडल को अलग-अलग परिस्थितियों के अनुकूल होना चाहिए।

नेमोट्रॉन-रिसर्च-टूल-एन1 विशेष टैग (सोचें और /सोचो) के भीतर तर्क को एकीकृत करने के लिए एक मजबूत टेम्पलेट प्रदान करता है। यह उपकरणों को कॉल करने (टूल_कॉल और /टूल_कॉल) के लिए भी सच है। ऐसा करके, नेमोट्रॉन-रिसर्च-टूल-एन1 मॉडल के प्रॉम्प्ट के पैटर्न में ओवरफिटिंग से जोखिम को कम करता है।

उपकरणों को सफलतापूर्वक कॉल करने की क्षमता का मूल्यांकन दो बेंचमार्क पर किया जाता है, जो नेमोट्रॉन-रिसर्च-टूल-एन1 की क्षमताओं को उजागर करता है:

  • बिग फाइव कमांड लाइन्स (बीएफसीएल): बीएफसीएल LLM के लिए जटिल कमांड-लाइन निर्देशों को समझने और लागू करने की आवश्यकता पर जोर देता है। नेमोट्रॉन-रिसर्च-टूल-एन1 अपने सुदृढीकरण सीखने के तरीकों के माध्यम से इस क्षेत्र में उत्कृष्ट प्रदर्शन करता है।
  • एपीआई-बैंक बेंचमार्क: एपीआई-बैंक बेंचमार्क ने इन परिणामों की पुष्टि की। मॉडल में जीपीटी-4ओ की तुलना में 4.12% और 5.03% अधिक सटीकता दर थी।

मौजूदा दृष्टिकोणों के साथ तुलनात्मक विश्लेषण

नेमोट्रॉन-रिसर्च-टूल-एन1 उपकरण उपयोग के लिए मौजूदा फाइन ट्यूनिंग विधियों पर महत्वपूर्ण सुधार दिखाता है। फाइन-ट्यूनिंग के लिए अक्सर सावधानीपूर्वक क्यूरेट किए गए डेटा की बड़ी मात्रा की आवश्यकता होती है और अक्सर मॉडल को मौजूदा नमूनों की नकल करने की ओर ले जाती है। सुदृढीकरण सीखने की विधि के रूप में, नेमोट्रॉन-रिसर्च-टूल-एन1, मॉडल स्वतंत्र रूप से तर्क रणनीतियों को उत्पन्न कर सकता है और विशिष्ट डेटासेट पर निर्भरता को कम करने में भी मदद करता है। नेमोट्रॉन मौजूदा विधियों को पीड़ित होने वाली समान चुनौतियों के बिना मौजूदा बेंचमार्क से बेहतर प्रदर्शन करता है।

कई बेंचमार्क इस सुधार को साबित करते हैं। बीएफसीएल बेंचमार्क सीधे दिखाता है कि टूल-एन1 मॉडल मौजूदा दृष्टिकोणों पर सुधार करते हैं। यह एक्सएलएएम-2-70बी और टूलएसीई-8बी जैसे ओपनसोर्स सिस्टम और जीपीटी-4ओ जैसे क्लोज्डसोर्स मॉडल दोनों पर सुधार करता है। एपीआई-बैंक बेंचमार्क इन निष्कर्षों को मान्य करता है, जिन्हें मौजूदा भाषा मॉडल पर टूल कॉलिंग में सुधार करते समय सटीकता में काफी वृद्धि दिखाई गई है।

निहितार्थ और भविष्य की दिशाएं

शोधकर्ताओं ने नेमोट्रॉन-रिसर्च-टूल-एन1 पेश किया, जो एलएलएम उपकरणों में एक बड़ी सफलता है। शोध एक अत्याधुनिक नियम-आधारित RL विधि लागू करके पारंपरिक एसएफटी पद्धतियों से दूर एक बदलाव दिखाता है। सुझाए गए विधि मॉडलों को सूक्ष्म तर्क रणनीतियों को तैयार करने में सक्षम बनाती है, जबकि विशेष रूप से एनोटेट किए गए तर्क प्रक्षेपवक्रों पर निर्भर नहीं होती है। इस विधि की क्षमताओं को बीएफसीएल और एपीआई-बैंक में इसके प्रभावी बेंचमार्किंग आकलन के माध्यम से दिखाया गया है। इसके अलावा, यहवर्तमान बेसलाइन पर मापने योग्य प्रदर्शन वृद्धि प्रदर्शित कर रहा है। यह अधिक अनुकूलनीय और बुद्धिमान भाषा मॉडल के लिए अवसर खोलता है जो अपनी तर्क रणनीतियों का निर्माण करते हैं।

निष्कर्ष अधिक अनुकूलनीय और बुद्धिमान भाषा मॉडल विकसित करने के लिए नए रास्ते खोलते हैं। बाइनरी इनाम तंत्र का उपयोग भाषा मॉडल को कई वास्तविक दुनिया अनुप्रयोगों में प्रदर्शन करने और अधिक प्रभावी होने की क्षमता देगा। नेमोट्रॉन-रिसर्च-टूल-एन1 अधिक स्वचालित तर्क की ओर ले जाएगा, जो भाषा मॉडल की उपकरण-उपयोग क्षमताओं में सुधार करेगा।

शोध LLM उपकरणों में एक नए प्रतिमान को प्रदर्शित करता है। यह भविष्य के भाषा मॉडल बनाने के तरीके की नई दिशाओं को भी उजागर करता है। तर्क में स्वचालन पर एक ध्यान केंद्रित करना भाषा मॉडल होने में महत्वपूर्ण होगा जो भविष्य में अधिक बुद्धिमान होंगे।