لارج لینگویج ماڈلز (LLMs) کو بیرونی ٹولز کے ساتھ مربوط کرنا ایک تبدیلی آمیز حکمت عملی کے طور پر ابھرا ہے، جس نے ایپلی کیشنز کے ایک وسیع سلسلے میں بے مثال صلاحیتوں کو کھول دیا ہے۔ تاہم، روایتی طریقہ کار، بڑے پیمانے پر ٹول کے استعمال کے منظرناموں کے وسیع مصنوعی ڈیٹا سیٹس کی تخلیق پر انحصار کرتے ہیں، اس کے بعد سپروائزڈ فائن ٹیوننگ (SFT) LLMs کو ان ٹولز کو مؤثر طریقے سے استعمال کرنے کی صلاحیت کے ساتھ شامل کرنا ہے۔ اس نقطہ نظر کی ایک بنیادی حد مصنوعی ڈیٹا سیٹس کی ٹول کے استعمال میں شامل پیچیدہ استدلال کے عمل کی درست نمائندگی کرنے میں ناکامی ہے، جس کے نتیجے میں سطحی سیکھنا اور صحیح تفہیم کی کمی ہے۔ اکثر، ضروری استدلال کے مراحل تربیت کے دوران یا تو مکمل طور پر غیر حاضر ہوتے ہیں یا تفصیلی اشارہ تکنیک کے ذریعے قیاس کرنے کے لیے بھیجے جاتے ہیں۔ یہ “سودو ریزننگ” کا ایک رجحان متعارف کراتا ہے، جہاں ماڈل، بنیادی فیصلہ سازی کے میکانزم کو سمجھنے کے بجائے، محض سطحی سطح کے نمونوں کی نقل کرتے ہیں۔
روایتی ٹول کے استعمال کی تربیت کی حدود کو دور کرنا
LLMs کی ٹول کے استعمال کی صلاحیتوں کو بڑھانے کی موجودہ تحقیقی کوششوں نے مختلف نقطہ نظروں کو دریافت کیا ہے، بنیادی طور پر دو اہم حکمت عملیوں پر توجہ مرکوز کی گئی ہے: ڈیٹا سیٹ کیوریٹ اور ماڈل کی تطہیر، اور استدلال میں بہتری۔
ڈیٹا سیٹ کیوریٹ اور ماڈل کی تطہیر: اس نقطہ نظر میں بڑے پیمانے پر، سپروائزڈ ڈیٹا سیٹس کی تخلیق کے ساتھ جدید تربیتی تکنیک جیسے SFT اور DPO (ڈائریکٹ پریفرنس آپٹیمائزیشن) ری انفورسمنٹ لرننگ شامل ہے۔ LLMs کو بیرونی ٹولز کی ایک متنوع صف، بشمول سرچ انجن، کیلکولیٹر، ویژن ٹولز، اور Python مترجمین کے ساتھ بڑھایا گیا ہے، تاکہ ان کی فعال صلاحیتوں کو نمایاں طور پر بڑھایا جا سکے۔ یہ حکمت عملی LLMs کو مثالوں کی دولت فراہم کرنے اور ان مثالوں سے عمومیت کرنے کی صلاحیت کو بہتر بنانے کی اہمیت پر زور دیتی ہے۔ تاہم، چیلنج مصنوعی ڈیٹا کی حدود میں مضمر ہے۔
استدلال میں بہتری: صرف بڑے پیمانے پر ڈیٹا سیٹس پر انحصار کرنے کی خامیوں کو تسلیم کرتے ہوئے، محققین نے LLMs کی استدلال کی صلاحیتوں کو بہتر بنانے کے لیے حکمت عملیوں پر بھی توجہ مرکوز کی ہے۔ اس میں روایتی ٹرین ٹائم اسکیلنگ سے زیادہ نفیس ٹیسٹ ٹائم اسکیلنگ حکمت عملیوں کی طرف جانا شامل ہے۔ پہلے کے طریقے اکثر مرحلہ وار نگرانی اور سیکھے گئے انعام ماڈلز پر انحصار کرتے تھے تاکہ استدلال کے راستوں کی رہنمائی کی جا سکے۔ ان طریقوں کا مقصد ماڈل کو استدلال کے عمل سے خود کو بے نقاب کرنا ہے، جس سے ٹول کے انتخاب اور استعمال کے پیچھے منطق کی گہری سمجھ کو فروغ ملے۔
نیمٹرون-ٹول-این 1: ایل ایل ایم ٹول کے استعمال میں ایک مثالی تبدیلی
NVIDIA، Pennsylvania State University، اور University of Washington کے محققین نے Nemotron-Research-Tool-N1 سیریز متعارف کرائی ہے، ایک اختراعی نقطہ نظر جو موجودہ ٹول کے استعمال کے طریقوں کی حدود پر قابو پانے کے لیے ڈیزائن کیا گیا ہے۔ روایتی SFT اور ریزننگ ٹریس ڈسٹلیشن تکنیک کے برعکس، Nemotron-Research-Tool-N1 ایک منفرد ری انفورسمنٹ لرننگ (RL) پیراڈم استعمال کرتا ہے۔ DeepSeek-R1 کی کامیابی سے متاثر ہو کر، یہ نقطہ نظر ایک ہلکے پھلکے نگرانی کے طریقہ کار کو استعمال کرتا ہے جو ٹول کے دعوت ناموں کی ساختی درستی اور فعال درستگی کا جائزہ لینے پر مرکوز ہے۔ Nemotron-Research-Tool-N1 ماڈل ایک بائنری انعام میکانزم کا فائدہ اٹھاتا ہے جو ماڈل کو واضح طور پر تشریح شدہ استدلال کے راستوں پر انحصار کیے بغیر خود مختار طور پر استدلال کی حکمت عملی تیار کرنے کی اجازت دیتا ہے۔
یہ نقطہ نظر روایتی طریقہ کار سے ایک اہم انحراف کی نمائندگی کرتا ہے، جو زیادہ مضبوط اور عام طور پر قابل استعمال ٹول کے استعمال کی صلاحیتوں کے لیے امکانات پیش کرتا ہے۔ استدلال کے مراحل کو واضح طور پر بتانے کے بجائے ٹول کے دعوت ناموں کی درستگی پر توجہ مرکوز کرتے ہوئے، ماڈل کو اپنی طرف سے بہترین استدلال کی حکمت عملیوں کو دریافت کرنے اور سیکھنے کی ترغیب دی جاتی ہے۔
ڈیٹا کی تیاری اور ماڈل آرکیٹیکچر
محققین نے موجودہ ٹول کالنگ ڈیٹا سیٹس، بشمول xLAM اور ToolACE کا ایک ذیلی سیٹ، سے ڈیٹا کو مستحکم اور پہلے سے عمل کیا، جو سنگل ٹرن اور ملٹی ٹرن دونوں مصنوعی ٹول کالنگ ٹراجیکٹریز فراہم کرتے ہیں۔ ٹول کال کی نسل کی رہنمائی کے لیے، ایک ہلکا پھلکا اشارہ ٹیمپلیٹ بنایا گیا، جس میں <think>…</think>
ٹیگز کے اندرونی استدلال اور <tool_call>…</tool_call>
ٹیگز میں بند ٹول انوکیشن کے لیے واضح ہدایات شامل ہیں۔ یہ ٹیمپلیٹ سخت فارمیٹنگ کی رکاوٹوں کو کم کرنے اور مخصوص اشارہ پیٹرن سے زیادہ فٹ ہونے کے خطرے کو کم کرنے کے لیے ڈیزائن کیا گیا ہے۔
اس تحقیق میں استعمال ہونے والا بنیادی ریڑھ کی ہڈی کا ماڈل Qwen2.5-7B/14B-Instruct ہے۔ مجوزہ طریقہ کار کی عمومیت کی صلاحیت کا جائزہ لینے کے لیے LLaMA فیملی کے متعدد تغیرات سمیت متبادل ریڑھ کی ہڈی کے ماڈلز پر بھی تشخیص کی گئی۔ مختلف ماڈل آرکیٹیکچرز میں یہ سخت تشخیص Nemotron-Tool-N1 نقطہ نظر کی مضبوطی اور قابل اطلاق ہونے کو یقینی بناتی ہے۔
بینچ مارکنگ کی کارکردگی: BFCL اور API-Bank
Nemotron-Research-Tool-N1 کی افادیت کا سختی سے BFCL اور API-Bank بینچ مارکس کا استعمال کرتے ہوئے جائزہ لیا گیا۔ نتائج موجودہ نقطہ نظروں کے مقابلے میں Nemotron-Research-Tool-N1 ماڈلز کی اعلیٰ کارکردگی کا مظاہرہ کرتے ہیں۔
BFCL بینچ مارک: BFCL بینچ مارک پر Tool-N1-7B/14B ماڈلز نے GPT-4o جیسے بند سورس ماڈلز اور خصوصی طور پر عمدہ ٹیونڈ ماڈلز جیسے xLAM-2-70B اور ToolACE-8B سے زیادہ کارکردگی کا مظاہرہ کیا۔ مزید برآں، ماڈلز نے یکساں ڈیٹا ذرائع پر تربیت یافتہ SFT بیس لائنز سے بہتر کارکردگی کا مظاہرہ کیا، جس سے Nemotron-Research-Tool-N1 میں استعمال ہونے والے R1 طرز کے آر ایل نقطہ نظر کی تاثیر پر زور دیا گیا۔ یہ بینچ مارک پیچیدہ استدلال اور ٹول کے استعمال کی ضرورت والے منظرناموں میں موافقت کرنے کے ماڈل کی اہلیت کو اجاگر کرتا ہے۔ BFCL (بگ فائیو کمانڈ لائنز) بینچ مارک، LLMs کی پیچیدہ کمانڈ لائن ہدایات کو سمجھنے اور ان پر عمل کرنے کی صلاحیت کا جائزہ لینے پر توجہ مرکوز کرتا ہے، جس کے لیے اعلیٰ درجے کے استدلال اور ٹول کے استعمال کی ضرورت ہوتی ہے۔
API-Bank بینچ مارک: API-Bank بینچ مارک نے مزید ان نتائج کی توثیق کی، Tool-N1-7B/14B نے GPT-4o کے مقابلے میں 4.12% اور 5.03% زیادہ درستگی حاصل کی۔ یہ بینچ مارک مخصوص کاموں کو انجام دینے کے لیے مختلف APIs (ایپلی کیشن پروگرامنگ انٹرفیس) استعمال کرنے میں LLM کی مہارت کا جائزہ لیتا ہے۔ اس بینچ مارک پر Nemotron-Research-Tool-N1 کے ذریعے حاصل کی گئی بہتری اس طریقہ کار کے بڑے لسانی ماڈلز کی ٹول کالنگ کی صلاحیتوں کو ناول ری انفورسمنٹ لرننگ پیراڈم کے ذریعے بڑھانے کے امکان کو اجاگر کرتی ہے۔
دونوں بینچ مارکس میں مسلسل بہتری LLMs کی ٹول کے استعمال کی صلاحیتوں کو بڑھانے میں Nemotron-Research-Tool-N1 نقطہ نظر کی تاثیر کو ظاہر کرتی ہے۔ ایک اصول پر مبنی آر ایل نقطہ نظر پر توجہ مرکوز کرکے اور ماڈلز کو اپنی استدلال کی حکمت عملی تیار کرنے کے قابل بنا کر، Nemotron-Research-Tool-N1 زیادہ موافقت پذیر اور ذہین لسانی ماڈلز کے لیے امکانات کو کھولتا ہے۔
نیمٹرون-ٹول-این 1 کی اہم اختراعات
Nemotron-Research-Tool-N1 کی بنیادی شراکت LLMs میں ٹول کے استعمال کو بڑھانے کے لیے اس کے ناول نقطہ نظر سے آتی ہے۔ معیاری SFT طریقوں پر انحصار کرنے کے بجائے، یہ ایک منفرد، اصول پر مبنی آر ایل فریم ورک کو مربوط کرتا ہے۔ اس کے فن تعمیر کا ایک سنگ بنیاد ایک بائنری انعام میکانزم ہے جو ٹول کے دعوت ناموں کی ساختی درستی اور فعال درستگی کی تشخیص پر مرکوز ہے۔ یہ نقطہ نظر ماڈل کو پیشگی تشریح شدہ استدلال کے راستوں کی ضرورت کے بغیر آزادانہ طور پر استدلال کی حکمت عملی بنانے کی اجازت دیتا ہے۔
Nemotron-Research-Tool-N1 کے فوائد کئی گنا ہیں۔ ٹول کے استعمال کے لیے تربیتی ڈیٹا میں عام طور پر واضح استدلال شامل نہیں ہوتا ہے۔ انعام کا نظام ٹول اور زیر نظر مسئلے کے درمیان تعلق کو آزادانہ طور پر تلاش کرکے ماڈلز کی صلاحیتوں کو بڑھاتا ہے۔ آر ایل عمومیت کو بہتر بنانے میں بھی مدد کرتا ہے کیونکہ ماڈل کو بدلتے ہوئے حالات کے مطابق ڈھالنا چاہیے۔
Nemotron-Research-Tool-N1 خصوصی ٹیگز (سوچیں اور /سوچیں) کے اندرونی استدلال کو مربوط کرنے کے لیے ایک مضبوط ٹیمپلیٹ فراہم کرتا ہے۔ یہ ٹولز (tool_call اور /tool_call) پر کال کرنے کے لیے بھی درست ہے۔ ایسا کرنے سے Nemotron-Research-Tool-N1 ماڈل کے اشارے کے پیٹرن سے زیادہ فٹ ہونے سے خطرات کو کم کرتا ہے۔
ٹولز پر کامیابی سے کال کرنے کی صلاحیت کا دو بینچ مارکس پر جائزہ لیا جاتا ہے، جو Nemotron-Research-Tool-N1 کی صلاحیتوں کو اجاگر کرتا ہے:
- بگ فائیو کمانڈ لائنز (BFCL): BFCL اس ضرورت پر زور دیتا ہے کہ LLMs پیچیدہ کمانڈ لائن کے ہدایات کو سمجھیں اور ان پر عمل کریں۔ استدلال کے استدلال کے طریقوں کے ذریعے Nemotron-Research-Tool-N1 اس علاقے میں بہترین کارکردگی کا مظاہرہ کرتا ہے۔
- API-Bank بینچ مارک: API-Bank بینچ مارک نے ان نتائج کی تصدیق کی۔ ماڈل کی درستگی کی شرح GPT-4o کے مقابلے میں 4.12% اور 5.03% زیادہ تھی۔
موجودہ نقطہ نظر کے ساتھ تقابلی تجزیہ
Nemotron-Research-Tool-N1 ٹول کے استعمال کے لیے موجودہ فائن-ٹیوننگ طریقوں پر نمایاں بہتری دکھاتا ہے۔ فائن-ٹیوننگ کے لیے اکثر احتیاط سے تیار کردہ ڈیٹا کی بڑی مقدار کی ضرورت ہوتی ہے اور اکثر اس کی وجہ سے ماڈل موجودہ نمونوں کی نقل کرتا ہے۔ ایک ری انفورسمنٹ لرننگ طریقہ کے طور پر Nemotron-Research-Tool-N1، ماڈل آزادانہ طور پر استدلال کی حکمت عملی پیدا کر سکتا ہے اور مخصوص ڈیٹا سیٹس پر انحصار کو کم کرنے میں بھی مدد کرتا ہے۔ Nemotron موجودہ بینچ مارکس سے وہی مشکلات کے بغیر بہتر کارکردگی کا مظاہرہ کرتا ہے جو موجودہ طریقوں کو برداشت کرنا پڑتا ہے۔
متعدد بینچ مارکس اس بہتری کو ثابت کرتے ہیں۔ BFCL بینچ مارک براہ راست دکھاتا ہے کہ ٹول-N1 ماڈلز موجودہ نقطہ نظر پر بہتر ہوتے ہیں۔ یہ دونوں اوپن سورس سسٹمجیسے xLAM-2-70B اور ToolACE-8B پر بہتر ہوتے ہیں، اور کلوزڈ سورس ماڈلز جیسے GPT-4o سے بہتر کارکردگی کا مظاہرہ کرتے ہیں۔ API-Bank بینچ مارک ان نتائج کی توثیق کرتا ہے، جنہیں موجودہ لسانی ماڈلز پر ٹول کالنگ کو بہتر بناتے وقت درستگی کو خاطر خواہ حد تک بڑھانے کے لیے دکھایا گیا ہے۔
مضمرات اور مستقبل کی سمتیں
محققین نے Nemotron-Research-Tool-N1 متعارف کرایا، جو LLM ٹولز میں ایک اہم پیش رفت ہے۔ اس تحقیق میں ایک جدید اصول پر مبنی آر ایل طریقہ لاگو کرکے روایتی SFT طریقہ کار سے ہٹ کر تبدیلی دکھائی گئی ہے۔ تجویز کردہ طریقہ ماڈلز کو ٹھیک ٹھیک استدلال کی حکمت عملی تیار کرنے کے قابل بناتا ہے، یہ سب کچھ خاص طور پر تشریح شدہ استدلال کے راستوں پر انحصار کیے بغیر۔ اس طریقہ کار کی صلاحیتیں بی ایف سی ایل اور اے پی آئی بینک میں اس کی موثر بینچ مارکنگ تشخیصوں کے ذریعے دکھائی گئی ہیں۔ اس کے علاوہ، یہ موجودہ بیس لائنز پر قابل پیمائش کارکردگی میں اضافہ دکھا رہا ہے۔ یہ زیادہ موافقت پذیر اور ذہین لسانی ماڈلز کے لیے مواقع کھولتا ہے جو اپنی طرف سے استدلال کی حکمت عملی بناتے ہیں۔
نتائج لسانی ماڈلز تیار کرنے کے لیے نئے ذریعے کھولتے ہیں جو زیادہ موافقت پذیر اور ذہین ہیں۔ بائنری انعام میکانزم کا استعمال لسانی ماڈلز کو متعدد حقیقی دنیا کی ایپلی کیشنز میں کارکردگی کا مظاہرہ کرنے اور زیادہ موثر ہونے کی صلاحیت فراہم کرے گا۔ Nemotron-Research-Tool-N1 کی وجہ سے استدلال زیادہ خودکار ہو جائے گا، جس سے لسانی ماڈلز کے ٹول کے استعمال کی صلاحیتیں بہتر ہوں گی۔
یہ تحقیق LLM ٹولز میں ایک نیا پیراڈم دکھاتی ہے۔ یہ اس بارے میں بھی نئی سمتوں کو اجاگر کرتا ہے کہ مستقبل کے لسانی ماڈلز کیسے بنائے جاتے ہیں۔ استدلال میں آٹومیشن پر توجہ مرکوز کرنا لسانی ماڈلز کو حاصل کرنے میں بہت اہم ہوگا جو مستقبل میں زیادہ ذہین ہوں گے۔