مصنوعی ذہانت کی تلاش جو حقیقی معنوں میں استدلال کر سکے، طویل عرصے سے اس شعبے میں ایک مرکزی مقصد رہی ہے۔ OpenAI کے "o1" ماڈل کے ارد گرد جوش و خروش کی ابتدائی ہلچل نے بڑے پیمانے پر reinforcement learning (RL) تکنیکوں کو بروئے کار لاتے ہوئے ایسے نظاموں کی تعمیر میں وسیع دلچسپی پیدا کی جو نفیس استدلال کرنے کی صلاحیت رکھتے ہیں۔ اس کے بعد، DeepSeek-R1 کے اپنے ماڈل کو اوپن سورس کے طور پر جاری کرنے کے فیصلے نے مزید جوش و خروش کو ہوا دی اور AI کمیونٹی کو جدید ترین استدلال ماڈلز کی ترقی کو بھرپور طریقے سے جاری رکھنے کے لیے بااختیار بنایا۔
تاہم، سرگرمیوں کا یہ ابتدائی دھماکہ ایک اہم رکاوٹ کی وجہ سے جلد ہی کم ہو گیا۔ اہم تکنیکی تفصیلات، جو کامیاب نقل تیار کرنے کے لیے انتہائی اہم ہیں – خاص طور پر، ڈیٹا کیوریٹنگ کے لیے استعمال کی جانے والی درست حکمت عملی اور RL ٹریننگ پر حکمرانی کرنے والی پیچیدہ ترکیبیں – DeepSeek-R1 کی اصل رپورٹ سے واضح طور پر غائب تھیں۔ اس کمی نے محققین کو کافی مایوسی کی حالت میں چھوڑ دیا، جو رپورٹ کردہ کامیابیوں کو دوبارہ بنانے کے چیلنج سے نمٹ رہے تھے۔ اس کا نتیجہ تحقیق کا ایک قدرے بکھرا ہوا منظر نامہ تھا، جس میں مختلف ماڈل سائز، مختلف ابتدائی چوکیوں، اور ہدف ڈومینز کی متنوع رینج کو تلاش کرنے والی متعدد آزاد کوششیں کی گئیں۔ اس شدید سرگرمی کے باوجود، ایک جامع اور مسلسل موثر تربیتی نسخہ اب بھی ناقابل فہم رہا۔
استدلال کے لیے لسانی ماڈلز کو تربیت دینے کے روایتی طریقے بنیادی طور پر ریاضی اور کمپیوٹر کوڈ کے ڈومینز پر مرکوز رہے ہیں۔ یہ طریقہ کار عام طور پر بڑے ڈیٹا سیٹوں پر پہلے سے تربیت اور ان خاص کاموں کے لیے ماڈلز کو خصوصی بنانے کے لیے نگرانی شدہ عمدہ ٹیوننگ کے امتزاج پر انحصار کرتے ہیں۔ اس عمل میں کمک کی تعلیم کو شامل کرنے کی ابتدائی کوششوں نے، عام طور پر ڈومین سے متعلقہ انعام ماڈلز کا استعمال کرتے ہوئے، صرف محدود فوائد حاصل کیے۔ اس کی وجہ ریاضی اور کوڈنگ کے کاموں سے وابستہ موروثی چیلنجز ہیں، جہاں معمولی غلطیاں بھی انتہائی غلط نتائج کا باعث بن سکتی ہیں۔
DeepSeek-R1 کے اجراء سے تحریک پاکر، حالیہ تحقیقات نے اصول پر مبنی تصدیق کے طریقوں کے استعمال کو تلاش کیا ہے۔ ریاضی کے دائرے میں، ان طریقوں میں اکثر مخصوص آؤٹ پٹ فارمیٹس کی ضرورت ہوتی ہے جو حل کی عین اور خودکار تصدیق کو ممکن بناتے ہیں۔ اسی طرح، کوڈ کے تناظر میں، محققین نے سیکھنے کے عمل کی رہنمائی کے لیے تالیف اور عمل درآمد کے موروثی فیڈ بیک میکانزم کو استعمال کیا ہے۔ تاہم، یہ نقطہ نظر عام طور پر انفرادی ڈومینز پر تنگ طور پر مرکوز رہے ہیں، جو ریاضی اور کوڈنگ کے مسائل کو ملانے والے متفاوت اشارے کو مؤثر طریقے سے سنبھالنے کی صلاحیت نہیں رکھتے۔ مزید برآں، تشخیص کو اکثر مخصوص بینچ مارکس جیسے AIME اور LiveCodeBench تک محدود رکھا گیا ہے، جس سے نتائج کی عمومیت محدود ہو گئی ہے۔ آخر میں، تربیت میں عدم استحکام ایک مستقل مسئلہ بنا ہوا ہے، جس میں اکثر پیچیدہ تکنیکوں جیسے کہ بتدریج رسپانس لینتھ میں اضافے اور اینٹروپی کولیپس کو کم کرنے کی ضرورت ہوتی ہے۔
اب، NVIDIA کے محققین گیم کو تبدیل کر رہے ہیں، کیونکہ وہ نسبتاً چھوٹے اور درمیانے سائز کے ماڈلز کی استدلال کی صلاحیتوں کو ڈرامائی طور پر بڑھانے کے لیے بڑے پیمانے پر کمک کی تعلیم کی نمایاں صلاحیت کا مظاہرہ کرتے ہیں۔ ان کے طریقے ڈسٹلیشن کی تکنیکوں پر مبنی جدید ترین طریقوں سے زیادہ کارکردگی کی سطح حاصل کرتے ہیں۔ NVIDIA نقطہ نظر ایک ترتیب وار تربیتی حکمت عملی کا استعمال کرتا ہے: پہلے، ریاضی سے متعلقہ اشارے پر خصوصی طور پر RL کی تربیت کرنا، اور اس کے بعد مکمل طور پر کوڈ پر مرکوز اشارے پر سوئچ کرنا۔
بہتر استدلال کے لیے ایک ترتیب وار طریقہ
نتائج؟ ریاضی کے مسائل پر ابتدائی RL کی تربیت نہ صرف ریاضی کے بینچ مارکس پر کارکردگی کو ڈرامائی طور پر بہتر بناتی ہے بلکہ حیرت انگیز طور پر کوڈ استدلال کی صلاحیتوں میں بھی نمایاں اضافہ پیدا کرتی ہے۔ مزید برآں، کوڈ پر خصوصی طور پر مرکوز RL کی تربیت کے توسیعی تکرار ریاضی کی کارکردگی میں کم سے کم تنزلی کے ساتھ کوڈ کی کارکردگی کو مزید بڑھاتی ہے۔ یہ نقطہ نظر ایک اہم بات کو اجاگر کرتا ہے: ریاضی کی تربیت کوڈنگ جیسے مزید پیچیدہ استدلال کے کاموں کے لیے ایک مضبوط بنیاد کے طور پر کام کر سکتی ہے۔
NVIDIA نقطہ نظر کی کامیابی کا لازمی حصہ ایک مضبوط ڈیٹا کیوریشن پائپ لائن ہے۔ اس پائپ لائن کو مشکل اشارے جمع کرنے کے لیے احتیاط سے ڈیزائن کیا گیا ہے جس کی خصوصیات اعلی مشکل اور اعلیٰ معیار کے، قابل تصدیق جوابات اور ٹیسٹ کیسز کی دستیابی دونوں ہیں۔ یہ ریاضی اور کوڈنگ دونوں ڈومینز میں تصدیق پر مبنی RL کو مؤثر طریقے سے لاگو کرنے کی اجازت دیتا ہے۔
ریاضی اور کوڈ کے لیے ڈیٹا کیوریشن
NVIDIA کے محققین کی جانب سے استعمال کردہ ڈیٹا کیوریشن کا طریقہ کار ریاضی سے متعلق صرف RL اور کوڈ سے متعلق RL کی ضروریات کے درمیان احتیاط سے تمیز کرتا ہے۔
ریاضی سے متعلق صرف RL: ریاضی سے متعلق صرف RL کے لیے تربیتی ڈیٹا کی تخلیق میں DeepScaler اور NuminaMath ڈیٹا سیٹوں سے ڈیٹا کو ضم کرنا شامل ہے۔ یہ ڈیٹا سیٹ الجبرا، کمبنیٹورکس، نمبر تھیوری اور جیومیٹری سمیت ریاضی کے موضوعات کی ایک وسیع رینج پر مشتمل ہیں۔ ڈیٹا کی سالمیت کو برقرار رکھنے کے لیے، ایک سخت فلٹرنگ کا عمل لاگو کیا جاتا ہے، جس میں ردی یا نامناسب مواد کو ہٹانے کے لیے 9-گرام فلٹر استعمال کیا جاتا ہے اور ممکنہ طور پر پریشان کن اندراجات کو ختم کرنے کے لیے سخت اخراج کے اصول نافذ کیے جاتے ہیں۔ اس کے بعد DeepSeek-R1 ماڈل سوالات کے معیار کی توثیق کرنے میں ایک اہم کردار ادا کرتا ہے۔ ہر سوال کو ماڈل کی جانب سے آٹھ آزاد کوششوں کے تابع کیا جاتا ہے، اور صرف وہی حل جنہیں اصول پر مبنی تصدیق کے ذریعے درستگی کا اکثریتی ووٹ ملتا ہے، ان کو حتمی ڈیٹا سیٹ میں شامل کرنے کے لیے برقرار رکھا جاتا ہے۔
کوڈ سے متعلق صرف RL: کوڈ سے متعلق RL کے لیے ڈیٹا سیٹ جدید مسابقتی پروگرامنگ پلیٹ فارمز سے حاصل کردہ ڈیٹا کا استعمال کرتے ہوئے بنایا گیا ہے۔ یہ پلیٹ فارم الگورتھمک موضوعات کی متنوع صفوں پر محیط کوڈنگ کے مسائل کا ایک بھرپور ذریعہ فراہم کرتے ہیں۔ مسائل کو فنکشن کالنگ اور معیاری ان پٹ/آؤٹ پٹ (stdin/stdout) کنونشنز کے مطابق ترتیب دیا گیا ہے جو عام طور پر ان ماحولوں میں استعمال ہوتے ہیں۔ محققین ایک محتاط فلٹرنگ کا عمل انجام دیتے ہیں تاکہ غیر مطابقت پذیر مسائل کو ختم کیا جا سکے اور کنارے کے معاملات اور باؤنڈری حالات کا احاطہ کرنے کے لیے ڈیزائن کیے گئے جامع ٹیسٹ کیسز کو احتیاط سے تیار کیا جا سکے۔ مزید برآں، ہر مسئلے کو DeepSeek-R1-671B ماڈل کے ذریعے تشخیص کے ذریعے طے شدہ ایک مشکل سکور تفویض کیا جاتا ہے۔ اس سخت عمل کے نتیجے میں 8,520 تصدیق شدہ کوڈنگ کے مسائل پر مشتمل ایک اعلیٰ معیار کا ڈیٹا سیٹ تیار ہوتا ہے۔
AceReason-Nemotron: نتائج اور بینچ مارکس
NVIDIA تحقیق کے نتائج زبردست ہیں۔ AceReason-Nemotron-7B ماڈل ابتدائی SFT ماڈلز کے مقابلے میں بالترتیب مشکل AIME 2024 اور 2025 کے مقابلوں میں 14.5% اور 14.6% کی نمایاں درستگی میں بہتری حاصل کرتا ہے۔ مزید برآں، یہ بالترتیب LiveCodeBench v5 اور v6 بینچ مارکس پر 14.2% اور 8% کے ٹھوس فوائد کا مظاہرہ کرتا ہے۔ ماڈل کی بڑی 14B قسم اس سے بھی زیادہ کارکردگی کا مظاہرہ کرتی ہے، جو DeepSeek-R1-Distill-Qwen-32B اور DeepSeek-R1-Distill-Llama-70B جیسے بڑے ماڈلز سے بہتر کارکردگی کا مظاہرہ کرتی ہے۔ یہ اوپن RL پر مبنی استدلال ماڈلز میں بہترین کارکردگی حاصل کرتا ہے۔
جدید ترین ڈسٹلیشن پر مبنی ماڈلز کے مقابلے میں، AceReason-Nemotron-14B AIME بینچ مارکس پر OpenMath-14B/32B کو 2.1%/4.4% اور LiveCodeBench پر OpenCodeReasoning-14B کو 1.7%/0.8% سے بہتر کارکردگی کا مظاہرہ کرتا ہے۔ یہ قائل طور پر ظاہر کرتا ہے کہ RL ڈسٹلیشن اپروچز سے زیادہ اعلیٰ کارکردگی کی بالائی حدود کو حاصل کر سکتا ہے جبکہ QWQ-32B اور o3-mini جیسے جدید فرنٹیئر ماڈلز کے خلاف مسابقتی کارکردگی کوبرقرار رکھتا ہے۔
ان نتائج کے مضمرات اہم ہیں۔ اس سے پتہ چلتا ہے کہ بڑے پیمانے پر RL میں AI ماڈلز میں استدلال کی صلاحیتوں کی نئی سطحوں کو کھولنے کی صلاحیت ہے، روایتی طریقوں کی حدود سے تجاوز کرتے ہوئے۔ ترتیب وار ڈومین سے متعلقہ تربیتی حکمت عملی، ایک مضبوط ڈیٹا کیوریشن پائپ لائن کے ساتھ مل کر، اس علاقے میں مستقبل کی تحقیق کے لیے ایک بلیو پرنٹ فراہم کرتی ہے۔
کمک سیکھنے سے استدلال کی حدود چلتی ہیں
یہ تحقیق ماڈل کی استدلال کی صلاحیتوں کی حدود کو آگے بڑھانے کے لیے کمک سیکھنے کی نمایاں صلاحیت کو واضح کرتی ہے۔ ڈومین سے متعلقہ تربیت کو حکمت عملی سے استعمال کرنے اور اعلیٰ معیار کے ڈیٹا کو احتیاط سے تیار کرنے سے، یہ AI ماڈلز کو پہلے ناقابل تسخیر مسائل کو حل کرنے کی اجازت دیتا ہے اور استدلال ماڈل کی ترقی کے لیے نئے بینچ مارکس قائم کرتا ہے اور بالآخر AI سسٹمز کی ایک نئی نسل کی طرف جاتا ہے جو حقیقی دنیا کے چیلنجوں سے بے مثال درستگی اور کارکردگی کے ساتھ نمٹنے کے قابل ہے۔ مؤثر طریقے سے استدلال کرنے کی صلاحیت ذہانت کا ایک سنگ بنیاد ہے، اور NVIDIA کی جانب سے حاصل کی گئی پیش رفت مصنوعی ذہانت کی مکمل صلاحیت کو سمجھنے کی جانب ایک بڑا قدم ہے۔ مستقبل کی تحقیق میں ممکنہ طور پر ان تکنیکوں کو اور بھی بڑے ماڈلز تک لے جانے اور استدلال کی کارکردگی کو مزید بہتر بنانے کے لیے نئی ڈیٹا کیوریشن حکمت عملیوں کی تلاش پر توجہ مرکوز کی جائے گی۔ مزید نفیس انعام کے افعال اور تلاش کی حکمت عملیوں کی ترقی بھی پیچیدہ استدلال کے کاموں کے لیے AI ماڈلز کو تربیت دینے سے منسلک چیلنجوں پر قابو پانے کے لیے اہم ہوگی۔ بالآخر، مقصد AI سسٹمز بنانا ہے جو انسانوں کی طرح استدلال، سیکھنے اور موافقت کر سکیں، جس سے وہ پیچیدہ مسائل کو حل کرنے اور ڈومینز کی وسیع رینج میں باخبر فیصلے کرنے کے قابل ہو سکیں۔
مزید برآں، RL کا استعمال خام درستگی سے ہٹ کر فوائد فراہم کرتا ہے۔ RL ایجنٹ مختلف مقاصد کے لیے بہتر بنانے کے لیے سیکھ سکتے ہیں، جیسے کہ کارکردگی، مضبوطی اور تشریح پذیری۔ مثال کے طور پر، ایک RL ایجنٹ کو ایسا کوڈ تیار کرنے کے لیے تربیت دی جا سکتی ہے جو نہ صرف درست ہو بلکہ موثر اور سمجھنے میں آسان بھی ہو۔ یہ صلاحیت خاص طور پر حفاظت کے لحاظ سے اہم ایپلی کیشنز میں اہم ہے، جہاں یہ یقینی بنانا ضروری ہے کہ AI سسٹمز قابل اعتماد اور قابل پیشین گوئی ہوں۔
NVIDIA کا کام AI تحقیق میں ڈیٹا کیوریشن کی بڑھتی ہوئی اہمیت کو اجاگر کرتا ہے۔ تربیتی ڈیٹا کے معیار کا AI ماڈلز کی کارکردگی پر نمایاں اثر پڑتا ہے، اور جدید ترین نتائج حاصل کرنے کے لیے احتیاط سے تیار کردہ ڈیٹا سیٹ ضروری ہیں۔ NVIDIA کی جانب سے تیار کردہ ڈیٹا کیوریشن پائپ لائن استدلال ماڈلز پر کام کرنے والے محققین کے لیے ایک قیمتی وسیلہ ہے، اور اسے دوسرے ڈومینز میں استعمال کے لیے بھی ڈھالا جا سکتا ہے۔
بڑے پیمانے پر RL، ڈومین سے متعلقہ تربیت اور مضبوط ڈیٹا کیوریشن کے امتزاج کو AI ماڈلز کی استدلال کی صلاحیتوں کو بہتر بنانے کے لیے ایک کامیاب فارمولا ثابت ہوا ہے۔ چونکہ یہ تکنیکیں مسلسل تیار ہوتی رہتی ہیں، اس لیے ہم AI کے شعبے میں اور بھی زیادہ متاثر کن پیشرفت دیکھنے کی توقع کر سکتے ہیں، اور ہم امید کرتے ہیں کہ مستقبل قریب میں AI ماڈلز کی مسلسل پیشرفت دیکھنے کو ملے گی۔