إحداث ثورة في استخدام أدوات نماذج اللغة الكبيرة: نهج التعلم المعزز لـ Nemotron-Tool-N1
لقد برز دمج نماذج اللغة الكبيرة (LLMs) مع الأدوات الخارجية كاستراتيجية تحويلية، مما أطلق العنان لقدرات غير مسبوقة عبر مجموعة واسعة من التطبيقات. ومع ذلك، تعتمد المنهجيات التقليدية في الغالب على إنشاء مجموعات بيانات تركيبية واسعة النطاق لسيناريوهات استخدام الأدوات، يليها الضبط الدقيق الخاضع للإشراف (SFT) لتزويد LLMs بالقدرة على استخدام هذه الأدوات بشكل فعال. يتمثل أحد القيود الأساسية لهذا النهج في عدم قدرة مجموعات البيانات التركيبية على تمثيل عمليات التفكير المعقدة المتضمنة في استخدام الأدوات بدقة، مما يؤدي إلى التعلم السطحي ونقص الفهم الحقيقي. في كثير من الأحيان، تكون خطوات التفكير الأساسية إما غائبة تمامًا أثناء التدريب أو يتم تحويلها إلى استنتاج من خلال تقنيات المطالبة المعقدة. يقدم هذا ظاهرة "التفكير الزائف"، حيث تقوم النماذج، بدلًا من فهم آليات اتخاذ القرار الأساسية، بتقليد الأنماط السطحية ببساطة.
معالجة القيود المفروضة على التدريب التقليدي على استخدام الأدوات
استكشفت مساعي البحث الحالية لتعزيز قدرات LLMs في استخدام الأدوات مجموعة متنوعة من الأساليب، مع التركيز في المقام الأول على استراتيجيتين رئيسيتين: تنظيم البيانات وتحسين النموذج، وتحسين التفكير.
تنظيم البيانات وتحسين النموذج: يتضمن هذا النهج إنشاء مجموعات بيانات خاضعة للإشراف واسعة النطاق جنبًا إلى جنب مع تقنيات التدريب المتقدمة مثل SFT و DPO (التحسين التفضيلي المباشر) للتعلم المعزز. يتم تزويد LLMs بمجموعة متنوعة من الأدوات الخارجية، بما في ذلك محركات البحث والآلات الحاسبة وأدوات الرؤية ومترجمي Python، لتوسيع قدراتها الوظيفية بشكل كبير. تؤكد هذه الاستراتيجية على أهمية تزويد LLMs بثروة من الأمثلة وتحسين قدرتها على التعميم من هذه الأمثلة. ومع ذلك، يكمن التحدي في قيود البيانات التركيبية.
تحسين التفكير: إدراكًا لأوجه القصور في الاعتماد فقط على مجموعات البيانات واسعة النطاق، ركز الباحثون أيضًا على استراتيجيات لتحسين قدرات التفكير في LLMs. يتضمن هذا التحول من القياس التقليدي لوقت التدريب إلى استراتيجيات قياس أكثر تطوراً لوقت الاختبار. غالبًا ما اعتمدت الطرق السابقة على الإشراف على مستوى الخطوة ونماذج المكافآت المتعلمة لتوجيه مسارات التفكير. تهدف هذه الطرق إلى تعريض النموذج لعملية التفكير نفسها، وتعزيز فهم أعمق للمنطق وراء اختيار الأدوات واستخدامها.
Nemotron-Tool-N1: نقلة نوعية في استخدام أدوات LLM
قدم الباحثون في NVIDIA وجامعة ولاية بنسلفانيا وجامعة واشنطن سلسلة Nemotron-Research-Tool-N1، وهو نهج مبتكر مصمم للتغلب على قيود أساليب استخدام الأدوات الحالية. على عكس تقنيات SFT التقليدية وتقطير آثار التفكير، تستخدم Nemotron-Research-Tool-N1 نموذجًا فريدًا للتعلم المعزز (RL). مستوحاة من نجاح DeepSeek-R1، تستخدم هذه الطريقة طريقة إشراف خفيفة الوزن تركز على تقييم الصلاحية الهيكلية والصحة الوظيفية لعمليات استدعاء الأدوات. يستفيد نموذج Nemotron-Research-Tool-N1 من آلية المكافآت الثنائية التي تسمح للنموذج بتطوير استراتيجيات التفكير بشكل مستقل دون الاعتماد على مسارات التفكير المشروحة بشكل صريح.
يمثل هذا النهج خروجًا كبيرًا عن المنهجيات التقليدية، مما يوفر إمكانات أكثر قوة وقابلة للتعميم لاستخدام الأدوات. من خلال التركيز على صحة عمليات استدعاء الأدوات بدلًا من الإملاء الصريح لخطوات التفكير، يتم تشجيع النموذج على استكشاف وتعلم استراتيجيات التفكير المثالية من تلقاء نفسه.
إعداد البيانات وهيكل النموذج
قام الباحثون بدمج ومعالجة البيانات مسبقًا من مجموعات بيانات استدعاء الأدوات الحالية، بما في ذلك xLAM ومجموعة فرعية من ToolACE، والتي توفر مسارات استدعاء الأدوات التركيبية أحادية الدورة ومتعددة الدورات. لتوجيه إنشاء استدعاءات الأدوات، تم إنشاء نموذج مطالبة خفيف الوزن، يتميز بتعليمات صريحة للتفكير الوسيط ضمن علامات <think>…</think>
واستدعاء الأدوات المغلقة بين علامات <tool_call>…</tool_call>
. تم تصميم هذا النموذج لتقليل قيود التنسيق الصارمة وتقليل مخاطر الإفراط في التوفيق مع أنماط المطالبة المحددة.
النموذج الأساسي الأساسي المستخدم في هذا البحث هو Qwen2.5-7B/14B-Instruct. لتقييم القدرة على التعميم للطريقة المقترحة، تم إجراء تقييمات أيضًا على نماذج أساسية بديلة، بما في ذلك العديد من المتغيرات من عائلة LLaMA. يضمن هذا التقييم الدقيق عبر هياكل النموذج المختلفة قوة وتطبيق نهج Nemotron-Tool-N1.
أداء القياس: BFCL و API-Bank
تم تقييم فعالية Nemotron-Research-Tool-N1 بدقة باستخدام معايير BFCL و API-Bank. توضح النتائج الأداء المتفوق لنماذج Nemotron-Research-Tool-N1 مقارنةً بالأساليب الحالية.
معيار BFCL: في معيار BFCL، أظهرت نماذج Tool-N1-7B/14B أداءً يتجاوز أداء النماذج مغلقة المصدر مثل GPT-4o والنماذج المتخصصة ذات الضبط الدقيق مثل xLAM-2-70B و ToolACE-8B. علاوة على ذلك، تفوقت النماذج على خطوط الأساس SFT التي تم تدريبها على مصادر البيانات المتطابقة، مما يؤكد فعالية نهج RL بأسلوب R1 المستخدم في Nemotron-Research-Tool-N1. يسلط هذا المعيار الضوء على قدرة النموذج على التكيف في السيناريوهات التي تحتاج إلى تفكير معقد واستخدام للأدوات. يركز معيار BFCL (Big Five Command Lines) على تقييم قدرة LLMs على فهم وتنفيذ تعليمات سطر الأوامر المعقدة، مما يتطلب درجة عالية من التفكير واستخدام الأدوات.
معيار API-Bank: أكد معيار API-Bank هذه النتائج، حيث حققت Tool-N1-7B/14B دقة أعلى بنسبة 4.12٪ و 5.03٪ من GPT-4o. يقوم هذا المعيار بتقييم كفاءة LLM في استخدام واجهات برمجة التطبيقات (Application Programming Interfaces) المختلفة لأداء مهام محددة. تؤكد التحسينات التي حققتها Nemotron-Research-Tool-N1 في هذا المعيار على إمكانات الطريقة في تعزيز قدرات استدعاء الأدوات في نماذج اللغة الكبيرة من خلال نموذج تعلم معزز جديد.
توضح التحسينات المستمرة عبر كلا المعيارين فعالية نهج Nemotron-Research-Tool-N1 في تعزيز قدرات استخدام الأدوات في LLMs. من خلال التركيز على نهج RL قائم على القواعد وتمكين النماذج من تطوير استراتيجيات التفكير الخاصة بها، تفتح Nemotron-Research-Tool-N1 إمكانات نماذج لغوية أكثر قابلية للتكيف وذكاءً.
الابتكارات الرئيسية في Nemotron-Tool-N1
تأتي المساهمة الرئيسية لـ Nemotron-Research-Tool-N1 من نهجها الجديد لتعزيز استخدام الأدوات في LLMs. بدلًا من الاعتماد على طرق SFT القياسية، فإنها تدمج إطار عمل RL فريدًا قائمًا على القواعد. أحد الأركان الأساسية لهندستها هو آلية المكافآت الثنائية التي تركز على تقييم الصلاحية الهيكلية والصحة الوظيفية لعمليات استدعاء الأدوات. يسمح هذا النهج للنموذج بإنشاء استراتيجيات التفكير بشكل مستقل دون الحاجة إلى مسارات التفكير المشروحة بعناية مسبقًا.
مزايا Nemotron-Research-Tool-N1 متعددة. لا تتضمن بيانات التدريب على استخدام الأدوات عادةً تفكيرًا صريحًا. يعزز نظام المكافآت قدرات النماذج من خلال إيجاد العلاقة بشكل مستقل بين الأداة والمشكلة المطروحة. يساعد RL أيضًا على تحسين القدرة على التعميم حيث يجب على النموذج التكيف مع الظروف المختلفة.
يوفر Nemotron-Research-Tool-N1 نموذجًا قويًا لدمج التفكير داخل علامات خاصة (think و /think). هذا صحيح أيضًا بالنسبة لاستدعاء الأدوات (tool_call و /tool_call). من خلال القيام بذلك، يقلل Nemotron-Research-Tool-N1 من المخاطر الناتجة عن الإفراط في التوفيق للنموذج مع نمط المطالبة.
يتم تقييم القدرة على استدعاء الأدوات بنجاح على معيارين، مما يسلط الضوء على قدرات Nemotron-Research-Tool-N1:
- Big Five Command Lines (BFCL): يؤكد BFCL على حاجة LLMs إلى فهم وتنفيذ تعليمات سطر الأوامر المعقدة. يتفوق Nemotron-Research-Tool-N1 في هذا المجال من خلال طرق التعلم المعزز الخاصة به.
- معيار API-Bank: أكد معيار API-Bank هذه النتائج. كان معدل دقة النموذج أعلى بنسبة 4.12٪ و 5.03٪ من معدل دقة GPT-4o.
تحليل مقارن مع الأساليب الحالية
يُظهر Nemotron-Research-Tool-N1 تحسنًا كبيرًا على طرق الضبط الدقيق الحالية لاستخدام الأدوات. غالبًا ما يتطلب الضبط الدقيق كميات كبيرة من البيانات المنسقة بعناية وغالبًا ما يؤدي إلى قيام النموذج بتقليد الأنماط الموجودة. بصفتها طريقة تعلم معزز، Nemotron-Research-Tool-N1، يمكن للنموذج أن يولد بشكل مستقل استراتيجيات التفكير ويساعد أيضًا في تقليل الاعتماد على مجموعات بيانات معينة. يتفوق Nemotron على المعايير الحالية دون نفس التحديات التي تعاني منها الطرق الحالية.
تثبت العديد من المعايير هذا التحسن. يُظهر معيار BFCL مباشرة أن نماذج tool-N1 تتحسن على الأساليب الحالية. إنه يتحسن على كل من الأنظمة مفتوحة المصدر مثل xLAM-2-70B و ToolACE-8B، ويتفوق على النماذج مغلقة المصدر مثل GPT-4o. يتحقق معيار API-Bank من هذه النتائج، والتي ثبت أنها تزيد من الدقة بشكل كبير عند تحسين استدعاء الأدوات على نماذج اللغة الحالية.
الآثار والاتجاهات المستقبلية
قدم الباحثون Nemotron-Research-Tool-N1، وهو اختراق كبير في أدوات LLM. يعرض البحث تغييرًا بعيدًا عن منهجيات SFT التقليدية من خلال تطبيق طريقة RL متطورة قائمة على القواعد. تمكّن الطريقة المقترحة النماذج من صياغة تكتيكات تفكير دقيقة، كل ذلك دون الاعتماد تحديدًا على مسارات التفكير المشروحة. تظهر قدرات هذه المنهجية من خلال تقييماتها المعيارية الفعالة عبر BFCL و API-Bank. أيضًا، فإنه يعرض تحسينات أداء قابلة للقياس على خطوط الأساس الحالية. يفتح هذا فرصًا لنماذج لغوية أكثر قابلية للتكيف وذكاءً تعمل على إنشاء استراتيجيات التفكير الخاصة بها.
تفتح النتائج آفاقًا جديدة لتطوير نماذج لغوية أكثر قابلية للتكيف وذكاءً. إن استخدام آليات المكافآت الثنائية سيعطي النماذج اللغوية القدرة على الأداء وأن تكون أكثر فعالية في تطبيقات العالم الحقيقي المتعددة. سيؤدي Nemotron-Research-Tool-N1 إلى مزيد من التفكير الآلي، مما سيحسن قدرات استخدام الأدوات في النماذج اللغوية.
يعرض البحث نموذجًا جديدًا في أدوات LLM. كما يسلط الضوء على اتجاهات جديدة حول كيفية صنع النماذج اللغوية المستقبلية. سيكون التركيز على التشغيل الآلي في التفكير أمرًا بالغ الأهمية في امتلاك نماذج لغوية ستكون أكثر ذكاءً في المستقبل.