انقلاب در استفاده از ابزار LLM: رویکرد یادگیری تقویتی Nemotron-Tool-N1

ادغام مدل های زبان بزرگ (LLM) با ابزارهای خارجی به عنوان یک استراتژی متحول کننده ظاهر شده است و قابلیت های بی سابقه ای را در طیف وسیعی از برنامه ها باز می کند. با این حال، روش های سنتی، به طور عمده متکی به ایجاد مجموعه داده های مصنوعی گسترده ای از سناریوهای استفاده از ابزار هستند، و پس از آن Fine-Tuning تحت نظارت (SFT) برای القای LLM ها با توانایی استفاده موثر از این ابزارها انجام می شود. یک محدودیت اساسی این رویکرد، ناتوانی مجموعه داده های مصنوعی در ارائه دقیق فرآیندهای استدلال پیچیده ای است که در استفاده از ابزار دخیل هستند، که منجر به یادگیری سطحی و عدم درک واقعی می شود. اغلب، مراحل ضروری استدلال یا به طور کلی در طول آموزش غایب هستند یا از طریق تکنیک های درخواست دقیق به استنتاج منتقل می شوند. این پدیده "استدلال شبهه" را معرفی می کند، جایی که مدل ها، به جای درک مکانیسم های تصمیم گیری اساسی، صرفاً الگوهای سطح را تقلید می کنند.

پرداختن به محدودیت های آموزش سنتی استفاده از ابزار

تلاش های تحقیقاتی موجود برای افزایش قابلیت های استفاده از ابزار LLM ها، انواع رویکردها را بررسی کرده اند، که در درجه اول بر دو استراتژی کلیدی متمرکز شده اند: جمع آوری مجموعه داده و پالایش مدل، و بهبود استدلال.

جمع آوری مجموعه داده و پالایش مدل: این رویکرد شامل ایجاد مجموعه داده های نظارت شده در مقیاس بزرگ همراه با تکنیک های آموزش پیشرفته مانند SFT و DPO (بهینه سازی ترجیحی مستقیم) یادگیری تقویتی است. LLM ها با مجموعه ای گوناگون از ابزارهای خارجی، از جمله موتورهای جستجو، ماشین حساب ها، ابزارهای دید و مفسرهای پایتون، تقویت می شوند تا قابلیت های کاربردی خود را به طور قابل توجهی گسترش دهند. این استراتژی بر اهمیت ارائه LLM ها با انبوهی از مثال ها و پالایش توانایی آنها در تعمیم از این مثال ها تاکید می کند. با این حال، چالش در محدودیت های داده های مصنوعی نهفته است.

بهبود استدلال: محققان با تشخیص کاستی های اتکا صرف به مجموعه داده های بزرگ، بر استراتژی هایی برای بهبود قابلیت های استدلال LLM ها نیز تمرکز کرده اند. این شامل تغییر از مقیاس بندی زمان آموزش سنتی به استراتژی های مقیاس بندی زمان آزمایش پیچیده تر است. روش های قبلی اغلب متکی به نظارت سطح گام و مدل های پاداش آموخته شده برای هدایت مسیرهای استدلال بودند. هدف این روش ها قرار دادن مدل در معرض خود فرآیند استدلال است و درک عمیق تری از منطق پشت انتخاب و استفاده از ابزار ایجاد می کند.

Nemotron-Tool-N1: یک تغییر پارادایم در استفاده از ابزار LLM

محققان NVIDIA، دانشگاه ایالتی پنسیلوانیا و دانشگاه واشنگتن، سری Nemotron-Research-Tool-N1 را معرفی کرده اند، یک رویکرد نوآورانه که برای غلبه بر محدودیت های روش های استفاده از ابزار موجود طراحی شده است. برخلاف تکنیک های سنتی SFT و تقطیر ردیابی استدلال، Nemotron-Research-Tool-N1 از یک پارادایم یادگیری تقویتی (RL) منحصر به فرد استفاده می کند. این رویکرد با الهام از موفقیت DeepSeek-R1، از یک روش نظارت سبک وزن استفاده می کند که بر ارزیابی اعتبار ساختاری و صحت عملکردی فراخوانی های ابزار متمرکز است. مدل Nemotron-Research-Tool-N1 از یک مکانیسم پاداش باینری استفاده می کند که به مدل اجازه می دهد تا به طور مستقل بدون تکیه بر مسیرهای استدلال حاشیه نویسی شده صریح، استراتژی های استدلال را توسعه دهد.

این رویکرد یک انحراف قابل توجه از روش های مرسوم است و پتانسیل قابلیت های استفاده از ابزار قوی تر و قابل تعمیم تر را ارائه می دهد. با تمرکز بر صحت فراخوانی های ابزار به جای دیکته کردن صریح مراحل استدلال، مدل تشویق می شود تا استراتژی های استدلال بهینه را به تنهایی کشف و یاد بگیرد.

آماده سازی داده و معماری مدل

محققان داده ها را از مجموعه داده های فراخوانی ابزار موجود، از جمله xLAM و زیر مجموعه ای از ToolACE، که هر دو مسیر فراخوانی ابزار مصنوعی تک چرخشی و چند چرخشی را ارائه می دهند، ادغام و پیش پردازش کردند. برای هدایت تولید فراخوانی ابزار، یک الگوی درخواست سبک وزن ایجاد شد، که شامل دستورالعمل های صریحی برای استدلال میانی در تگ های <think>…</think> و فراخوانی ابزار محصور شده در تگ های <tool_call>…</tool_call> است. این الگو برای به حداقل رساندن محدودیت های قالب بندی سفت و سخت و کاهش خطر برازش بیش از حد به الگوهای درخواست خاص طراحی شده است.

مدل اصلی ستون فقرات مورد استفاده در این تحقیق Qwen2.5-7B/14B-Instruct است. برای ارزیابی توانایی تعمیم روش پیشنهادی، ارزیابی ها بر روی مدل های ستون فقرات جایگزین، از جمله چندین نوع از خانواده LLaMA نیز انجام شد. این ارزیابی دقیق در بین معماری های مختلف مدل، استحکام و کاربرد رویکرد Nemotron-Tool-N1 را تضمین می کند.

معیار ارزیابی عملکرد: BFCL و API-Bank

اثربخشی Nemotron-Research-Tool-N1 با استفاده از معیارهای BFCL و API-Bank به طور دقیق ارزیابی شد. نتایج عملکرد برتر مدل های Nemotron-Research-Tool-N1 را در مقایسه با رویکردهای موجود نشان می دهد.

معیار BFCL: در معیار BFCL، مدل های Tool-N1-7B/14B عملکردی بالاتر از مدل های منبع بسته مانند GPT-4o و مدل های تنظیم شده تخصصی مانند xLAM-2-70B و ToolACE-8B از خود نشان دادند. علاوه بر این، مدل ها از خطوط پایه SFT آموزش دیده بر روی منابع داده یکسان پیشی گرفتند و بر اثربخشی رویکرد RL سبک R1 مورد استفاده در Nemotron-Research-Tool-N1 تاکید کردند. این معیار استعداد مدل را برای انطباق در سناریوهایی که نیاز به استدلال و استفاده از ابزار پیچیده دارند برجسته می کند. معیار BFCL (خطوط فرمان پنج بزرگ) بر ارزیابی توانایی LLM ها برای درک و اجرای دستورالعمل های پیچیده خط فرمان، نیاز به درجه بالایی از استدلال و استفاده از ابزار متمرکز است.

معیار API-Bank: معیار API-Bank این یافته ها را بیشتر اعتبار بخشید، به طوری که Tool-N1-7B/14B به دقت 4.12٪ و 5.03٪ بالاتر از GPT-4o دست یافت. این معیار مهارت LLM را در استفاده از API های مختلف (رابط های برنامه نویسی کاربردی) برای انجام وظایف خاص ارزیابی می کند. پیشرفت های به دست آمده توسط Nemotron-Research-Tool-N1 در این معیار بر پتانسیل روش در افزایش قابلیت های فراخوانی ابزار مدل های زبان بزرگ از طریق یک پارادایم یادگیری تقویتی جدید تاکید می کند.

بهبودهای مداوم در هر دو معیار، اثربخشی رویکرد Nemotron-Research-Tool-N1 را در افزایش قابلیت های استفاده از ابزار LLM ها نشان می دهد. Nemotron-Research-Tool-N1 با تمرکز بر یک رویکرد RL مبتنی بر قانون و توانمندسازی مدل ها برای توسعه استراتژی های استدلال خود، پتانسیل مدل های زبان قابل انطباق تر و هوشمندتر را باز می کند.

نوآوری های کلیدی Nemotron-Tool-N1

مشارکت اصلی Nemotron-Research-Tool-N1 از رویکرد جدید آن برای افزایش استفاده از ابزار در LLM ها ناشی می شود. به جای تکیه بر روش های استاندارد SFT، یک چارچوب RL منحصر به فرد و مبتنی بر قانون را ادغام می کند. سنگ بنای معماری آن یک مکانیسم پاداش باینری است که بر ارزیابی اعتبار ساختاری و صحت عملکردی فراخوانی های ابزار متمرکز است. این رویکرد به مدل اجازه می دهد تا به طور مستقل بدون نیاز به مسیرهای استدلال که از قبل به دقت حاشیه نویسی شده اند، استراتژی های استدلال را ایجاد کند.

مزایای Nemotron-Research-Tool-N1 چندگانه است. داده های آموزشی برای استفاده از ابزار معمولاً شامل استدلال صریح نیست. سیستم پاداش با یافتن مستقل رابطه بین ابزار و مسئله مورد نظر، قابلیت های مدل ها را افزایش می دهد. RL همچنین به بهبود قابلیت تعمیم کمک می کند زیرا مدل باید با شرایط مختلف سازگار شود.

Nemotron-Research-Tool-N1 یک الگوی قوی برای ادغام استدلال در تگ های خاص (think و /think) ارائه می دهد. این برای فراخوانی ابزارها (tool_call و /tool_call) نیز صادق است. با انجام این کار، Nemotron-Research-Tool-N1 خطرات ناشی از برازش بیش از حد مدل به الگوی درخواست را کاهش می دهد.

توانایی فراخوانی موفقیت آمیز ابزارها بر روی دو معیار ارزیابی می شود که قابلیت های Nemotron-Research-Tool-N1 را برجسته می کند:

  • خطوط فرمان پنج بزرگ (BFCL): BFCL بر نیاز LLM ها برای درک و اجرای دستورالعمل های پیچیده خط فرمان تاکید می کند. Nemotron-Research-Tool-N1 در این زمینه از طریق روش های یادگیری تقویتی خود برتری دارد.
  • معیار API-Bank: معیار API-Bank این نتایج را تایید کرد. این مدل دارای نرخ دقت 4.12٪ و 5.03٪ بالاتر از GPT-4o بود.

تجزیه و تحلیل مقایسه ای با رویکردهای موجود

Nemotron-Research-Tool-N1 بهبود قابل توجهی را نسبت به روش های تنظیم دقیق موجود برای استفاده از ابزار نشان می دهد. تنظیم دقیق اغلب به مقادیر زیادی داده های سازماندهی شده با دقت نیاز دارد و اغلب منجر به تقلید مدل از الگوهای موجود می شود. به عنوان یک روش یادگیری تقویتی، Nemotron-Research-Tool-N1، مدل می تواند به طور مستقل استراتژی های استدلال را تولید کند و همچنین به کاهش وابستگی به مجموعه داده های خاص کمک می کند. Nemotron بدون همان چالش هایی که روش های موجود از آن رنج می برند، از معیارهای موجود بهتر عمل می کند.

چندین معیار این بهبود را ثابت می کند. معیار BFCL مستقیماً نشان می دهد که مدل های tool-N1 روش های موجود را بهبود می بخشند. هم سیستم های منبع باز مانند xLAM-2-70B و ToolACE-8B را بهبود می بخشد و هم از مدل های منبع بسته مانند GPT-4o بهتر عمل می کند. معیار API-Bank این یافته ها را تایید می کند، که نشان داده شده است که هنگام بهبود فراخوانی ابزار در مدل های زبان موجود، دقت را به طور قابل توجهی افزایش می دهد.

مفاهیم و جهت گیری های آینده

محققان Nemotron-Research-Tool-N1 را معرفی کردند، یک پیشرفت بزرگ در ابزارهای LLM. این تحقیق تغییری را دور از روش های سنتی SFT با استفاده از یک روش RL نوآورانه و مبتنی بر قانون به نمایش می گذارد. روش پیشنهادی مدل ها را قادر می سازد تا تاکتیک های استدلال ظریف را فرموله کنند، در حالی که به طور خاص به مسیرهای استدلال حاشیه نویسی شده متکی نیستند. قابلیت های این روش از طریق ارزیابی های معیار موثر آن در سراسر BFCL و API-Bank نشان داده شده است. همچنین، بهبودهای عملکرد قابل اندازه گیری را نسبت به خطوط پایه فعلی نشان می دهد. این امر فرصت هایی را برای مدل های زبان قابل انطباق تر و هوشمندتر باز می کند که استراتژی های استدلال را به تنهایی ایجاد می کنند.

این یافته ها راه های جدیدی را برای توسعه مدل های زبانی باز می کند که قابل انطباق تر و هوشمندتر هستند. استفاده از مکانیسم های پاداش باینری به مدل های زبانی این امکان را می دهد که در چندین کاربرد دنیای واقعی عملکرد و موثرتر باشند. Nemotron-Research-Tool-N1 منجر به استدلال خودکارتر می شود، که قابلیت های استفاده از ابزار مدل های زبانی را بهبود می بخشد.

این تحقیق یک پارادایم جدید را در ابزارهای LLM به نمایش می گذارد. همچنین جهت گیری های جدیدی را در مورد نحوه ساخت مدل های زبانی آینده برجسته می کند. تمرکز بر اتوماسیون در استدلال برای داشتن مدل های زبانی که در آینده هوشمندتر خواهند بود، بسیار مهم خواهد بود.