OpenAI کے GPT-4.5 کی تربیت کا انکشاف | ur

OpenAI کی GPT-4.5 کی تربیت کا انکشاف: حساباتی چیلنجز اور کامیابیاں

GPT-4.5 کی تیاری، ایک ایسا منصوبہ جو دو سال قبل شروع کیا گیا تھا، اب تک OpenAI کی جانب سے سب سے زیادہ پرعزم کوشش کی نمائندگی کرتا ہے۔ اس بڑے پیمانے پر کام میں سینکڑوں افراد کی مشترکہ کوششیں شامل تھیں، اور OpenAI کے سی ای او سیم آلٹمین (Sam Altman) نے اس بات کا ذکر کیا کہ اس منصوبے میں تنظیم کی تقریباً مکمل شمولیت درکار تھی۔

بڑے پیمانے پر تربیت میں ‘تباہ کن مسائل’ پر قابو پانا

GPT-4.5 بنانے کا سفر رکاوٹوں سے خالی نہیں تھا۔ تحقیق اور ترقی کے مرحلے کے دوران ٹیم کو متعدد ‘تباہ کن مسائل’ کا سامنا کرنا پڑا۔ 100,000 GPUs کے ایک کلسٹر کو استعمال کرنے سے پہلے کبھی نہ دیکھے گئے، کم امکانات والے، لیکن بنیادی ڈھانچے کی گہری ناکامیوں کا سامنا کرنا پڑا۔ جلد بازی کو بہترین کارکردگی کے ساتھ متوازن کرنے کے لیے، OpenAI کی سسٹم ٹیم ‘فکس-ایز-وی-گو’ اپروچ (fix-as-we-go approach) اختیار کرنے پر مجبور ہوئی۔ ایک خاص طور پر ناقابلِ فہم بگ (bug) نے کلسٹر کو بار بار ہونے والی غلطیوں سے دوچار کر رکھا تھا، جو کہ تربیت کے عمل کے تقریباً 40 فیصد گزر جانے تک غیر محسوس رہا۔

ان چیلنجوں کے باوجود، GPT-4.5 پروجیکٹ نے ایک مضبوط ٹیکنالوجی اسٹیک کی ترقی کو تیز کیا۔ آج، صرف 5-10 افراد کی ایک مختصر ٹیم GPT-4 کی طرح ایک بڑا ماڈل تیار کر سکتی ہے۔ GPT-4 سے GPT-4.5 تک کی کارکردگی میں تقریباً دس گنا اضافہ ہوا، جس کے نتیجے میں ‘ذہانت حاصل ہوئی جس کی مقدار بتانا مشکل ہے لیکن تمام پہلوؤں میں اضافہ ہوا ہے،’ یہ نتیجہ OpenAI کے اپنے عملے کے لیے بھی حیران کن تھا۔

توجہ کا مرکز تبدیل کرنا: کمپیوٹیشنل پاور سے ڈیٹا کی افادیت کی طرف

OpenAI نے یہ سمجھ لیا ہے کہ کارکردگی میں اگلی دس گنا یا سو گنا چھلانگ حاصل کرنا خام کمپیوٹیشنل پاور پر نہیں بلکہ ڈیٹا کی افادیت پر منحصر ہے – خاص طور پر، ڈیٹا کی اتنی ہی مقدار سے زیادہ علم حاصل کرنے کی صلاحیت اور زیادہ کمپیوٹیشنل وسائل کا استعمال کرنا۔

آرکیٹیکچر بھی ایک واحد کلسٹر سے ملٹی کلسٹر پیراڈائم میں تبدیل ہو رہا ہے۔ مستقبل کی تربیتی تکرار میں 10 ملین GPUs کے درمیان باہمی تعاون کے ساتھ سیکھنا شامل ہو سکتا ہے، جس کے لیے زیادہ فالٹ ٹالرنس کی ضرورت ہوگی۔

سیم آلٹمین (Sam Altman) کی GPT-4.5 ٹیم کے ساتھ بات چیت

ذیل میں سیم آلٹمین اور OpenAI GPT-4.5 ٹیم کے درمیان ہونے والی گفتگو کا ایک ترمیم شدہ مجموعہ ہے:

سیم آلٹمین: GPT-4.5 جیسا بڑا ماڈل بنانے میں کیا لگتا ہے؟

ایلیکس پینو (Alex Paino): ہم نے یہ منصوبہ تقریباً دو سال پہلے شروع کیا تھا۔ اس وقت، OpenAI ایک نیا بڑا کمپیوٹنگ کلسٹر لانچ کرنے والا تھا، اور ہماری ٹیم نے اسے ماڈل میں شامل کرنے کے لیے ضروری افعال کا تعین کرنے کے لیے آپریشنز کا ایک سلسلہ منعقد کرنے کے موقع کے طور پر دیکھا، اور خطرے کو کم کرنے کے آپریشنز کے متعدد ٹیسٹ کیے۔

ہم نے اس کے لیے ایک طویل منصوبہ تیار کیا ہے، جس میں سسٹم سے لے کر مشین لرننگ تک پورا ٹیکنالوجی اسٹیک شامل ہے۔ خطرات کو کم کرنا اور تربیت کی تیاری ایک طویل عمل ہے، اور تربیت بذات خود ایک بہت بڑا منصوبہ ہے۔

امین توتونچیان (Amin Tootoonchian): میرے خیال میں اس عمل میں مشین لرننگ ٹیم اور سسٹم ٹیم کے درمیان شروع سے ہی قریبی تعاون کی ضرورت ہوتی ہے، یہاں تک کہ ہم واضح کر لیں کہ ہم کس ماڈل کی تربیت کرنا چاہتے ہیں، اور پھر تربیت شروع کریں۔

ہم نے مشین لرننگ اور سسٹم دونوں پہلوؤں میں پیشین گوئیاں کی ہیں، اور توقع اور حقیقت کے درمیان فرق کو زیادہ سے زیادہ کم کرنے کی کوشش کر رہے ہیں۔ لیکن چونکہ ہماری کام کرنے کی رفتار تیز ہے اور ہمیں تازہ ترین کمپیوٹنگ وسائل استعمال کرنے ہیں، اس لیے ماڈل کی تربیت ایک ایسی چیز بن گئی ہے جس کی پہلے سے مکمل منصوبہ بندی کرنا مشکل ہے۔

ہم تقریباً ہمیشہ بہت سے حل طلب مسائل کے ساتھ تربیت شروع کرتے ہیں اور آپریشن کے دوران چیلنجوں پر قابو پانے اور پیش رفت کرنے کی کوشش کرتے ہیں۔ اس کا بنیادی حل یہ ہے کہ مزید کمپیوٹنگ وسائل شامل کیے جائیں۔

آخری مرحلہ عمل درآمد ہے، جس کے لیے بہت سے لوگوں کو تربیت کے عمل کو مکمل کرنے کے لیے ایک طویل عرصے تک بہت زیادہ توانائی اور حوصلہ افزائی میں سرمایہ کاری کرنے کی ضرورت ہوتی ہے۔

سیم آلٹمین: آپ کے خیال میں ہماری توقعات اور حقیقت کے درمیان کتنا فرق ہے؟

امین توتونچیان: سسٹم کے لحاظ سے، ہم عام طور پر شروع میں متوقع حالت سے بہت دور ہوتے ہیں۔ ہمیں ہمیشہ ایک انتخاب کا سامنا ہوتا ہے: آیا شروعات کو ملتوی کر کے مسئلہ حل ہونے کا انتظار کیا جائے، یا جلد شروع کر کے عمل کے دوران مسئلہ حل کیا جائے۔ اس میں ہمیشہ ایک سمجھوتہ کرنا پڑتا ہے تاکہ عمل میں غیر معقول تاخیر سے بچا جا سکے۔

لیکن تقریباً ہمیشہ کچھ غیر متوقع مسائل ہوتے ہیں، اور ہمیں جو کرنا ہوتا ہے وہ ان نوڈس (nodes) سے زیادہ سے زیادہ نمٹنا، نامعلوم عوامل سے نمٹنا اور ماڈل کی تربیت کے لیے ایک منصوبہ تیار کرنا ہے۔

ایلیکس پینو: اس پروجیکٹ میں ہمارا مقصد GPT-4.5 بنانا ہے، جس کا مطلب ہے کہ اس کی صلاحیتیں GPT-4 سے 10 گنا زیادہ ہونی چاہئیں۔ یہ وہ ابتدائی مقصد ہے جو ہم نے تقریباً 2 سال پہلے طے کیا تھا۔

اس عمل کے دوران بہت سی چیزیں ہوئیں۔ ہم سوچ رہے تھے کہ کیا ہم توقع سے بہتر کر سکتے ہیں یا بدتر ہوں گے؟ یہ ایک بہت پیچیدہ عمل ہے، لیکن آخر میں، مؤثر حسابات کے لحاظ سے جو ہم نے سرمایہ کاری کی، ہمیں ایک ایسا ماڈل ملا جو ہمارے خیال میں GPT-4 سے 10 گنا زیادہ ہوشیار ہو گیا ہے۔

امین توتونچیان: عمل درآمد کے لحاظ سے، GPT-4.5 پروجیکٹ پر صرف کیا جانے والا وقت ہماری ابتدائی توقعات سے بہت دور ہے۔

سیم آلٹمین: جب کلسٹر 10,000 کارڈز سے بڑھ کر 100,000 کارڈز تک پہنچ گیا تو آپ کو اتنے مسائل کیوں پیش آئے؟

امین توتونچیان: میرے خیال میں اگر سسٹم ڈیولپرز اتنے حساس ہوں تو زیادہ تر مسائل کو چھوٹے پیمانے پر ہی دیکھا جا سکتا ہے۔

کچھ مسائل بڑے پیمانے پر تربیت کے مرحلے کے لیے منفرد نہیں ہیں، لیکن پہلے بھی اکثر پیش آ چکے ہیں، لیکن پیمانے میں اضافہ ہونے کے بعد تباہ کن مسائل بن جائیں گے، خاص طور پر جب ٹیم نے یہ پیش گوئی نہ کی ہو کہ یہ مسائل اتنے بگڑ جائیں گے۔

سیم آلٹمین: کن چیزوں نے تباہ کن نتائج کا سبب بنا؟

امین توتونچیان: میرے خیال میں بنیادی ڈھانچے کے مسائل اچھی طرح سے معلوم ہیں، چاہے ناکامی کی شرح، ناکامی کی قسم یا ناکامی کی کل مقدار بہت زیادہ ہو۔ 100,000 کارڈز کا کلسٹر ایک بڑا پیمانہ ہے، اس لیے ہم نے ایسے مسائل بھی دریافت کیے جن کا کمپیوٹنگ پاور سپلائر نے مشاہدہ نہیں کیا۔

ان میں سے ایک نیٹ ورک ہے، اور انفرادی ایکسلریٹر (accelerators) میں بھی مسائل ہو سکتے ہیں۔ لیکن یہ اس سسٹم کی خوبصورتی بھی ہے - متوقع نتائج پیدا کرنے کے لیے تقریباً تمام اجزاء کو توقع کے مطابق کام کرنے کی ضرورت ہے۔ ہمارا کام اس مسئلے کو ہر ممکن حد تک کم کرنا ہے۔

سیم آلٹمین: کلسٹر کے سائز کی حد میں کام کرنا یقیناً مشکل ہے، لیکن میں نے یہ بھی محسوس کیا ہے کہ ان چیزوں کو کرنا بہت آسان ہو گیا ہے جو اب ٹیکنالوجی میں سب سے آگے نہیں ہیں۔ GPT-4.5 کی تربیت کے لیے سینکڑوں لوگوں کی ضرورت ہے، اور OpenAI میں تقریباً ہر کوئی جہاز میں ہے۔

لیکن آج، اگر آپ OpenAI سے سب سے چھوٹی ٹیم کا انتخاب کرتے اور GPT-4 کو ان تمام علم اور سسٹم کے کام کے ساتھ دوبارہ تربیت دیتے جو ہم جانتے ہیں، تو اس میں کتنے لوگوں کی ضرورت ہوگی؟

ایلیکس پینو: میرے خیال میں اب GPT-4 کی سطح کا ماڈل بنانے میں تقریباً 5 سے 10 افراد لگ سکتے ہیں۔ GPT-4.5 کو مکمل کرنے کے عمل میں ٹیکنالوجی اسٹیک میں بہت بہتری آئی ہے۔

درحقیقت، ہم نے GPT-4.5 کی تربیت کے عمل میں بھی اسی طرح کی چیزیں کی ہیں - ہم نے GPT-4o کی تربیت کی، جو کہ GPT-4 کی سطح کا ماڈل ہے، اور اسے GPT-4.5 کے تحقیقی منصوبے سے بہت سے مواد کا استعمال کرتے ہوئے دوبارہ تربیت دی۔ اس تربیت کے لیے کم لوگوں کو استعمال کیا گیا۔

سیم آلٹمین: آپ کے نقطہ نظر سے، ڈین؟ بڑے ماڈلز کی تربیت کرنا مشکل کیوں ہے؟

ڈینیل سیلسام (Daniel Selsam): میرے خیال میں کوئی بھی نئی چیز کرنا مشکل ہے۔ میرے خیال میں صرف یہ دریافت کرنا کہ کسی اور نے کچھ کیا ہے، اسے بہت آسان بنا دیتا ہے، کیونکہ سب سے مشکل حصہ شروع میں کچھ کرنے کا یقین رکھنا ہے۔ میرے خیال میں صرف یہ جاننا کہ کوئی چیز ممکن ہے ایک سپر چیٹ کوڈ ہے جو چیزوں کو بہت آسان بنا دیتا ہے۔

ایلیکس پینو: ہم GPT پری ٹریننگ رن (pre-training run) کو اس کے پچھلے سائز سے 10 گنا تک بڑھا رہے ہیں، اور ہمیں ہمیشہ کچھ دلچسپ نئی چیزیں ملتی ہیں جن کی آپ ضروری طور پر پیش گوئی نہیں کر سکتے۔

سیم آلٹمین: پری ٹریننگ کے پیمانے میں اگلی 10x یا 100x ترقی حاصل کرنے کے لیے کیا ضروری ہے؟

ڈینیل سیلسام: ڈیٹا کی افادیت۔ ٹرانسفارمر آرکیٹیکچر (Transformer architecture) (یعنی GPT) ڈیٹا کو استعمال کرنے میں بہت موثر ہے۔ یہ معلومات کو اچھی طرح سے جذب اور کمپریس کر سکتا ہے اور عمومیت حاصل کر سکتا ہے۔ اس کی سب سے بڑی خصوصیت یہ ہے کہ یہ کمپیوٹنگ وسائل کے ساتھ معلومات کو موثر طریقے سے جذب کر سکتا ہے۔

تاہم، اس کی ڈیٹا سے حاصل ہونے والی بصیرت کی گہرائی محدود ہے۔ جب کمپیوٹنگ پاور تیزی سے بڑھتی ہے اور ڈیٹا نسبتاً آہستہ بڑھتا ہے، تو ڈیٹا اس معیاری ماڈل کے لیے ایک رکاوٹ بن جاتا ہے۔ اس کے لیے الگورتھمک انوویشن کی ضرورت ہے تاکہ ایسے طریقے تیار کیے جا سکیں جو ایک ہی مقدار میں ڈیٹا سے زیادہ علم سیکھنے کے لیے زیادہ کمپیوٹنگ پاور استعمال کر سکیں۔

سیم آلٹمین: آپ کے خیال میں توسیع کو برقرار رکھنے کے لیے ہمیں اور کیا کرنے کی ضرورت ہے؟

امین توتونچیان: میرا جواب سسٹم کے بارے میں ہے۔ میرے خیال میں GPT-4.5 کے لیے درکار کام کی بہت بڑی مقدار ضروری طور پر ماڈل کی خصوصیات کا ناگزیر نتیجہ ہے۔ ہم GPT-4.5 کی تربیت GPT-4 جیسے عین تکنیکی فن تعمیر کے ساتھ نہیں کر سکتے۔

اسٹیٹ مینجمنٹ کے لحاظ سے، چونکہ مطلوبہ کمپیوٹنگ وسائل ایک واحد کلسٹر کی گنجائش سے تجاوز کر چکے ہیں، اس لیے ہمیں ملٹی کلسٹر تربیتی فن تعمیر کی طرف رجوع کرنا ہوگا۔ اس مقصد کو حاصل کرنے کے لیے، ہمیں کم وقت میں متعدد مختلف ورک فلوز کو ضم کرنا چاہیے۔

اگرچہ اس نے واقعی ہمیں اسٹیج بریک تھرو (stage breakthroughs) حاصل کرنے میں مدد کی ہے، لیکن کارکردگی میں اگلی ترتیب کو بہتر بنانے کے لیے، ہمیں اب بھی کئی معلوم لیکن عارضی طور پر شیلف میں رکھے گئے تکنیکی مسائل کو حل کرنے کی ضرورت ہے - ان مسائل سے بچا نہیں جا سکتا۔ اس قسم کی تکنیکی تجارت بندش ہے جو کامل سسٹم کے R&D سائیکل (R&D cycle) کو مسلسل بڑھاتی ہے، اور ہم ہمیشہ بہترین نفاذ کے منصوبے کے حصول میں اسٹریٹجک تجارت بندش کر رہے ہیں۔

یہ واضح ہونا ضروری ہے کہ سسٹم خود آخری مقصد نہیں ہے، اور اس کی اصل آؤٹ پٹ ویلیو (output value) بنیادی غور و فکر ہے۔ کارکردگی میں اگلی 10x بہتری کے لیے، میرے خیال میں فالٹ ٹالرنس میں پیش رفت بہت اہم ہے۔ ہمیں ایک فالٹ ٹالرینٹ میکانزم (fault-tolerant mechanism) بنانے کی ضرورت ہے جو آپریٹنگ اور دیکھ بھال کے خدشات کو نمایاں طور پر کم کرنے کے لیے ورک لوڈ کے ساتھ گہری ہم آہنگی رکھتا ہو۔ موجودہ الٹرا لارج اسکیل سسٹم (ultra-large-scale systems) کی آپریشن اور دیکھ بھال کی پیچیدگی بنیادی طور پر پچھلے سسٹمز سے مختلف ہے۔

سیم آلٹمین: کیا آپ جانتے ہیں کہ GPT-4.5 کی تربیت کے دوران بعض اجزاء کی وجہ سے کتنے فیصد ناکامیاں ہوئیں؟

امین توتونچیان: میرے پاس اشتراک کرنے کے لیے کوئی خاص تعداد نہیں ہے، لیکن عام طور پر، ہارڈ ویئر کی ایک نئی نسل کو تعینات کرنے کے ابتدائی مراحل میں، سسٹم کے آپریشن کو اکثر بہت سے تکنیکی چیلنجوں کا سامنا کرنا پڑتا ہے جنہیں پوری طرح سے سمجھا نہیں جاتا ہے۔ ہم نے مسئلے کی مکمل وضاحت ہونے سے پہلے ہی پروجیکٹ کو آگے بڑھانے کا انتخاب کیا، جس کی وجہ سے ناکامی کی ابتدائی شرح زیادہ تھی۔

لیکن تجربے سے پتہ چلتا ہے کہ جیسے ہی بنیادی وجہ کی نشاندہی اور حل ہو جاتی ہے، ناکامی کی شرح میں نمایاں کمی واقع ہو گی۔ یہ رجحان ضروری طور پر بنیادی ڈھانچے کی ہماری گہری سمجھ کو ظاہر کرتا ہے - کچھ لوگ اسے بنیادی ڈھانچے کو صاف کرنا یا بنیادی ڈھانچے کے بنیادی مسائل کو سمجھنا کہتے ہیں۔

عمل درآمد کے ابتدائی مراحل تقریباً ہمیشہ کافی تکلیف دہ ہوتے ہیں۔ پروجیکٹ کو آگے بڑھانے کے ساتھ ساتھ، ہم مسلسل ناکامی کے نئے طریقوں کو دریافت اور حل کر رہے ہیں، لیکن ناکامی کی شرح آہستہ آہستہ کم ہو جائے گی اور معمول کے آپریشن کا وقت طویل ہو جائے گا۔

یہ ضروری طور پر ترجیحی تجارت بندش کا معاملہ ہے: بنیادی ڈھانچے کی زندگی کے چکر کے ابتدائی مراحل میں، اس کی ناکامی کے خطرے کا درست اندازہ لگانا اکثر مشکل ہوتا ہے۔ اور اگر ہم انتہائی مثالی حالت (اصل ‘سٹی اسٹیٹ’ ہے، مثالی سٹی سٹیٹ ڈیزائن) کو ضرورت سے زیادہ حاصل کرنے کی کوشش کرتے ہیں، تو اس سے سسٹم ابتدائی مراحل میں دستیابی کی کارکردگی انتہائی ناقص ہو سکتی ہے۔

سیم آلٹمین: اگرچہ استدلال ماڈل ہمارے مستقبل کے ٹیکنالوجی اسٹیک کا ایک اہم جزو ہے، آئیے عارضی طور پر روایتی پری ٹریننگ ماڈل کی ترقی کی حد پر توجہ مرکوز کرتے ہیں۔ فرض کریں کہ ہمارے پاس لامحدود GPU کمپیوٹنگ پاور (GPU computing power)، لامحدود نیٹ ورک بینڈوتھ (network bandwidth) اور لامحدود بجلی کی فراہمی ہے، لیکن اب بھی موجودہ تکنیکی رکاوٹوں سے محدود ہیں – بشمول سسٹم کی وشوسنییتا کے مسائل، فالٹ ٹالرینٹ تربیتی طریقوں کی کمی اور موجودہ ڈیٹا سیٹس کی حدود۔

ہر بڑے GPT ورژن نمبر میں 100 گنا پیمانے میں اضافے کو حاصل کرنے کے ہمارے ارتقائی قانون کے مطابق، موجودہ تکنیکی حدود کی بنیاد پر، پری ٹریننگ ماڈل کی ترقی کس سطح تک پہنچ سکتی ہے؟ خاص طور پر GPT سیریز کے ماڈلز کے لیے، ہمارے موجودہ علم کے نظام کے ساتھ، ہم نظریاتی طور پر کس قسم کے ماڈل کی تربیت کر سکتے ہیں؟ کیا GPT-5.5 بنایا جا سکتا ہے؟

ایلیکس پینو: مشین لرننگ اور الگورتھم کی ترقی کے نقطہ نظر سے، ہم ابھی تک واضح نظریاتی اوپری حد تک نہیں پہنچے ہیں۔ درحقیقت، ہم صرف زیادہ ڈیٹا کی افادیت والے الگورتھمز کو تلاش کرنا شروع کر رہے ہیں اور موجودہ ڈیٹا وسائل سے زیادہ سے زیادہ فائدہ کیسے اٹھایا جائے۔ یہ صورتحال بہت دلچسپ ہے - یہاں تک کہ GPT-4 جیسے ماڈلز بھی محدود کمپیوٹنگ وسائل کی رکاوٹوں کے تحت بڑے پیمانے پر تیار کیے گئے ہیں، جو پچھلی زیادہ تر تحقیق کی سمت کا تعین کرتے ہیں۔

لیکن اب صورتحال بالکل مختلف ہے۔ GPT-4.5 کے بعد سے، کچھ اہم جہتوں میں، کمپیوٹنگ کے بجائے ڈیٹا اہم رکاوٹ بن رہا ہے۔ اس تبدیلی سے متعلقہ تحقیق کم دلچسپ ہو گئی ہے۔

سیم آلٹمین: لیکن یہ واقعی ایک حیرت انگیز پیش رفت ہے، اور دنیا شاید پوری طرح سے یہ نہیں سمجھ پائے گی کہ کمپیوٹنگ وسائل اب بہترین ماڈل میں اہم رکاوٹ نہیں ہیں جسے ہم بنا سکتے ہیں۔ یہ تبدیلی گہری ہے، آخر کار، ہم ایک طویل عرصے سے کمپیوٹنگ سے محدود ماحول میں رہ رہے ہیں۔

سیم آلٹمین: GPT-4.5 کی تربیت کے عمل میں ہم نے جو سب سے دلچسپ مشین لرننگ کا تجربہ سیکھا ہے وہ کیا ہے؟ صرف اس کے بارے میں بات کریں جسے آپ بانٹنا چاہتے ہیں۔

امین توتونچیان: عام طور پر، سب سے زیادہ فکر انگیز وہ حالات ہیں جو ہماری پیشین گوئیوں سے ہٹ جاتے ہیں - خاص طور پر جب ہم یہ سمجھنے کی کوشش کرتے ہیں کہ اصل کارکردگی متوقع منحنی خطوط سے کیوں ہٹ جاتی ہے۔

ایلیکس پینو: ہمارے لیے سب سے حیران کن دریافتوں میں سے ایک یہ ہے کہ مختلف مشین لرننگ اجزاء کی اسکیل ایبلٹی کارکردگی بہت مختلف ہوتی ہے۔ کچھ حصوں کو اچھی طرح سے اسکیل کیا جا سکتا ہے، جبکہ دوسروں کو نہیں کیا جا سکتا۔ یہ وہ چیز ہے جسے ہم نے اصل تربیتی عمل میں واقعی محسوس کیا۔ اس تجربے نے ہمیں بہت زیادہ ترغیب دی۔

ڈینیل سیلسام: میرے خیال میں GPT پیراڈائم کی دو بنیادی خصوصیات یہ ہیں: اول، ٹیسٹ لاس (test loss) (ایک میٹرک (metric) یہ ماپنے کے لیے کہ ماڈل غیر دیکھے گئے ٹیسٹ ڈیٹا پر کتنی اچھی کارکردگی کا مظاہرہ کرتا ہے) کی درست پیش گوئی کی جا سکتی ہے۔ دوم، ماڈل کی کارکردگی پیمانے کی توسیع کے ساتھ ایک متوقع بہتری کو ظاہر کرتی ہے۔ اس سے بھی زیادہ جادوئی طور پر، ٹیسٹ لاس میں کمی مختلف طریقوں سے ہر طرح سے بہتر سطح کی ذہانت میں تبدیل ہو جائے گی جس کی مقدار بتانا مشکل ہے لیکن حیرت انگیز ہے۔

سیم آلٹمین: کیا آپ اس بارے میں بالکل پر امید ہیں؟ کیا آپ اس نقطہ نظر سے پوری طرح متفق ہیں؟

ڈینیل سیلسام: درحقیقت، میں جو کہنا چاہتا ہوں وہ یہ ہے کہ ہمیں GPT-4.5 ٹیسٹ میں خاص طور پر دلچسپ مظاہر ملے۔ دوبارہ جانچ کے بعد، ماڈل نے بہت سی لطیف صلاحیتیں دکھائیں جو ہر ایک کی توقعات سے بالکل بڑھ گئیں۔

ہمیں یقین ہے کہ یہ مختلف طریقوں سے ہوشیار ہو جائے گا جن کی پہلے سے وضاحت نہیں کی جا سکتی، اور اصل تعیناتی کے بعد، ہم صارف کے اطمینان سے بہتری کی ان لطیف سطحوں کا مشاہدہ کر سکتے ہیں: مضبوط عام فہم ذخائر، زیادہ درست سیاق و سباق کی سمجھ کی صلاحیتیں اور زیادہ نازک معنی شناسی – یہ بالکل جادو ہے جو ان اضافی ٹیسٹ لاسز سے لایا گیا ہے۔ میری رائے میں، اسکیلنگ لاء (Scaling Law) کی اس جہت میں مکمل طور پر تصدیق ہو چکی ہے۔

سیم آلٹمین: پورے تربیتی عمل کے دوران سب سے مثبت لمحہ کیا تھا؟ آپ کی پسندیدہ یاد کیا ہے؟ ظاہر ہے کہ بہت درد ہے، لیکن مجھے امید ہے کہ ان دردوں کو کم کر دیا گیا ہے۔

ایلیکس پینو: میرے پاس ایسا ایک لمحہ ہے۔ ہم نے تربیت کے دوران مشین لرننگ کا بہت کام کیا۔ میرے خیال میں ہم نے آپریشن کے دوران جو تبدیلیاں کیں ان کا کافی اچھا اثر پڑا، ممکنہ طور پر توقع سے بہتر، جو ہمارے لیے ایک بہت ہی دلچسپ لمحہ تھا۔

امین توتونچیان: میرے لیے، تربیت کے ساتھ ساتھ، ہم بنیادی ڈھانچہ بھی بنا رہے ہیں۔ ہمیں پختہ یقین ہے کہ ہم اس کارکردگی کی چٹان کو عبور کر سکتے ہیں، اور ہمارے پاس ایک منصوبہ ہے، اور ہر کوئی اسے عمل میں لا رہا ہے، لیکن اس میں بہت وقت لگتا ہے۔ یہ محنت طلب ہے اور یقینی طور پر میری سوچ سے زیادہ مشکل ہے۔ میری پیشین گوئی غلط تھی، اور میں نے ان مسائل کو حل کرنے میں لگنے والے وقت کو کم سمجھا۔

وہ لمحہ جب ٹیم نے بالآخر ان اہم مسائل پر قابو پالیا اور کارکردگی میں نمایاں بہتری آئی، وہ ابھی بھی میرے ذہن میں تازہ ہے۔ آپ پوری ٹیم کی توانائی کی تبدیلی کو واضح طور پر محسوس کر سکتے ہیں - ہر کوئی اچانک توانائی سے بھرپور ہے اور نئے حوصلے کے ساتھ آخری مقصد کی طرف تیزی سے بڑھ رہا ہے۔

سب سے زیادہ جادوئی بات یہ ہے کہ ہمارے اسٹیٹس ٹریکر (status tracker) پر دکھائی جانے والی تخمینی تکمیل کا وقت ابتدائی دو سال سے مسلسل کم ہوتا گیا اور بالآخر ایک واضح ٹائم نوڈ پر لاک ہو گیا۔ اس نظر آنے والی پیش رفت نے ٹیم کے حوصلے میں بے پناہ اضافہ کیا ہے۔ میرے خیال میں یہ اس کی خوبصورتی ہے۔

میں اس بات پر زور دینا چاہتا ہوں کہ مشین لرننگ کا کام کبھی نہیں رکا۔ یہاں تک کہ تربیت شروع ہونے کے بعد بھی، یہ مشین لرننگ کو ڈیزائن کا عمل جاری رہتا ہے۔ مشین لرننگ ٹیم نہ صرف ان مسائل پر فعال طور پر عمل کرتی ہے جنہیں ‘بعد میں پروسیسنگ’ کے طور پر نشان زد کیا گیا تھا، بلکہ مسلسل بہتری بھی فراہم کرتی ہے جو تربیتی وقت کو صحیح معنوں میں بہتر بناتی ہے۔

یہ ہماری ٹیم کے جذبے کی مکمل عکاسی کرتا ہے - یہاں کوئی ‘ہر شخص اپنے دروازے کے سامنے کی برف صاف کرتا ہے’ کام کی حد نہیں ہے، بلکہ ایک حقیقی ہموار تعاون ہے، اور یہ ہم آہنگی ہماری سب سے بڑی طاقت ہے۔

سیم آلٹمین: بیرونی دنیا نے اس تربیت کے چیلنجوں اور پیشین گوئی کی درستگی کے بارے میں بہت بحث کی ہے۔ لیکن درحقیقت، یہ سب انتہائی مکمل منصوبہ بندی پر مبنی ہے - کیا آپ اس کے بارے میں مزید تفصیل سے بات کر سکتے ہیں؟

ایلیکس پینو: یہ یقینی طور پر اب تک کا ہمارا سب سے مکمل منصوبہ ہے۔ جیسا کہ میں نے کہا، ہم نے تربیت کے باضابطہ آغاز سے ایک سال پہلے اس پروجیکٹ کی تیاری شروع کر دی تھی۔ اس دوران، ہم نے خطرے کو کنٹرول کرنے کے متعدد بڑے پیمانے پر ٹیسٹ کیے۔

ہم بتدریج تمام بہتریوں کو متعارف کرانے پر خصوصی توجہ دیتے ہیں: ایک اعلیٰ اعتماد کی بنیادی تشکیل سے شروع کرتے ہوئے - جسے GPT-4 کی طرح ایک بالغ فن تعمیر کے طور پر سمجھا جا سکتا ہے، ہم نے مشین لرننگ کی سطح پر اس تشکیل پر مکمل عبور حاصل کر لیا ہے - اور پھر نئی خصوصیات کو بلاکس بنانے کی طرح پرت بہ پرت شامل کرنا۔

اہم بات یہ ہے کہ مختلف پیمانوں پر ہر بہتری کی اسکیل ایبلٹی کی سختی سے تصدیق کرنا: نہ صرف کارکردگی میں بہتری دیکھنا، بلکہ یہ بھی یقینی بنانا کہ یہ بہتری ماڈل پیمانے کے پھیلنے کے ساتھ ساتھ مؤثر رہیں۔ بہت سی بہتری چھوٹے پیمانے پر ٹیسٹوں میں اچھی کارکردگی کا مظاہرہ کرتی ہے، لیکن بڑے پیمانے پر ایپلی کیشنز میں ناکام ہو جائیں گی۔

لہذا، ہم نے پورے عمل کے دوران اعلیٰ درجے کی چوکسی برقرار رکھی ہے اور اپنی توسیع قانون کی میتھڈالوجی کو بہتر بنانا اور اس میں مسلسل بہتری لانا جاری رکھے ہوئے ہیں۔ اس خطرے پر قابو پانے کے عمل کے ذریعے، ہم نے بہت سے قیمتی تجربات جمع کیے ہیں جو مستقبل کے GPT سیریز کے ماڈلز کی ترقی کی رہنمائی کرتے رہیں گے۔

امین توتونچیان: مجھے ایک خاص طور پر دلچسپ لمحہ یاد ہے جسے میں بہت یاد کرتا ہوں۔ آپ جانتے ہیں، ہمیں تقریباً ہمیشہ ہر بار جب ہم کوئی تربیتی کام شروع کرتے ہیں تو مختلف قسم کے بگ (bug) کا سامنا کرنا پڑتا ہے۔ یہ پہلے سے ہی عام بات ہے۔ لیکن اہم بات یہ یقینی بنانا ہے کہ پیش رفت میں کوئی رکاوٹ نہ ہو اور ہمیشہ اس بات کی تصدیق کرنا ہے کہ موجودہ پیش رفت واقعی صحیح راستے پر ہے اور کیا ان بگ (bug) کا تربیت کی صحت پر کوئی مہلک اثر پڑے گا۔

اگرچہ ہم شروع میں بہت پراعتماد تھے کہ بڑے نقائص موجود ہیں، لیکن ہمارے بنائے ہوئے پورے مانیٹرنگ سسٹم کے ذریعے، ہم مسئلے کی اصل وجہ کو درست طور پر شناخت کرنے میں کامیاب ہو گئے ہیں: کیا یہ ہارڈ ویئر کی خرابی ہے؟ ہارڈ ویئر کی خرابی کی قسم کیا ہے؟ کیا یہ ڈیٹا میں خرابی ہے؟ یا کیا یہ خود مشین لرننگ ماڈل میں ایک بگ ہے؟ یا کیا یہ کوڈ میں ریس کنڈیشن (race condition) ہے؟

اس وقت، ہم نے مختلف علامات کے ساتھ بیک وقت متعدد مسائل پر تبادلہ خیال کرنے کے علاقے کھولے ہوئے تھے۔ بگ (bug) کی اصلاحات کے ایک سلسلے کے بعد، ہم پھنس گئے: ہمارے سامنے متعدد حل طلب مسائل تھے، اور ہر کوئی اپنا سر کھپا رہا تھا - کیا یہ مختلف بگ (bug) کی وجہ سے ہوئے ہیں؟ یا یہ کام پر ایک بگ ہے؟

بعد میں، ہم نے ٹیم کے اراکین کو سب سے زیادہ ممکنہ اصل وجہ کے لیے ووٹ دینے کے لیے ایک ووٹ منعقد کیا۔ سب سے کم امید افزا آپشن نے حقیقت کو چھو لیا: یہ پتہ چلا کہ PyTorch کے اپ اسٹریم میں torch.sum فنکشن میں ایک مسئلہ تھا، ایک سادہ جمع کرنے کا آپریشن۔

یہ بگ خاص طور پر دلچسپ ہے۔ آپ جانتے ہیں، ہم بنیادی طور پر ٹرائٹن کرنل (Triton kernel) استعمال کرتے ہیں، اور ہم صرف کچھ غیر اہم ایج (edge) منظرناموں میں ٹارچ آپریشنز (torch operations) پر واپس جائیں گے۔ اور ہماری مخصوص کوڈ پاتھ سے متحرک torch.sum فنکشن بگ اتفاق سے ڈیٹا کی تقسیم کی خصوصیات کی وجہ سے غیر قانونی میموری تک رسائی کا سبب بنے گا - اس نے میموری آف سیٹ (memory offset) کا حساب لگاتے وقت غلطی کی۔

سب سے ڈرامائی بات یہ ہے کہ جب ایک انجینئر نے بالآخر اس مسئلے کا پتہ لگا لیا اور ایک اصلاح جمع کرائی، تو مختلف علامات والی تمام غلطی کی رپورٹس غائب ہو گئیں۔ ہر ایک نے جوش و خروش سے سلیک چینل کو ‘ملٹی بگ تھیوری’ سے ‘سنگل بگ تھیوری’ میں تبدیل کر دیا، اور منظر بہت خوشگوار تھا۔

یہ بگ کب سے چھپا ہوا تھا؟ یہ تربیت کے ابتدائی مراحل سے موجود تھا اور تقریباً 40٪ پیش رفت گزرنے تک اس کی شناخت نہیں ہو سکی تھی۔ دریافت کا عمل بھی ڈرامے سے بھرا ہوا تھا: اس وقت، ایک پیچیدہ کرنل (kernel) نے یکے بعد دیگرے ترتیبوں کو کال کیا، اور دوسری کال نے غیر قانونی میموری تک رسائی کو متحرک کیا۔

اگرچہ اس حادثے کی فریکوئنسی (frequency) بہت کم ہے (یہ ہر چند سو یا ہزاروں تربیتی مراحل میں صرف ایک بار ہوتا ہے)، اسے کبھی کبھار ہونے والی ناکامی کے طور پر نظر انداز کرنا آسان ہے، لیکن ہماری ٹیم کی گائیڈ لائن یہ ہے: کسی بھی غیر معمولی چیز کو جانے نہ دیں۔ اس کہانی کا بہترین حصہ آسانی سے ہار نہ ماننے کے اس عزم میں مضمر ہے۔

سیم آلٹمین: GPT-4.5 کی پری ٹریننگ شروع ہونے کے بعد آپ کو اور کیا کرنے کی ضرورت ہے؟

ایلیکس پینو: ہم سب کو اکثر لاس کرو (loss curve) کا مشاہدہ کرنے کی ضرورت ہے۔ اس کے علاوہ، ہمیں سسٹم کو بہتر بنانا اور اس کو ڈیزائن کو بہتر بنانا جاری رکھنے کی ضرورت ہے جو تربیت شروع ہونے سے پہلے مکمل نہیں ہوا تھا۔ ہم تربیتی عمل کے دوران مختلف اعداد و شمار کی قریب سے نگرانی کرتے ہیں تاکہ یہ یقینی بنایا جا سکے کہ کوئی غیر متوقع رجحانات نہیں ہیں۔ اس کے ساتھ ہی، ہم مشین لرننگ کے نقطہ نظر سے ممکنہ بہتری کے منصوبوں کو تلاش کرتے ہیں۔ اگرچہ پری ٹریننگ شروع ہونے کے بعد ڈیٹا کی سطح کا کام عارضی طور پر کم ہو جائے گا، لیکن اب بھی بہت سارے کام پروسیس کرنے کے باقی ہیں۔

امین توتونچیان: میرے خیال میں مشین لرننگ بڑی حد تک درستگی کے فیصلے پر منحصر ہے۔ پری ٹریننگ شروع ہونے کے بعد، شور کے بہت زیادہ سگنلز کا سامنا کرتے ہوئے، ہم چائے کی باقیات کی تشریح کرنے والے قسمت بتانے والوں کی طرح ہیں، اور ہمیں یہ فیصلہ کرنے کی ضرورت ہے کہ سسٹم صحت مند ہے یا نہیں۔ یہ ہماری ذمہ داری ہے۔

سیم آلٹمین: سسٹم کی سطح پر، ماڈل کی تربیت کرنے سے ہمیں کیا چیز روکے گی؟ کیا یہ چپ (chip)، پروسیسر (processor)، میموری (memory)، نیٹ ورک (network) یا بجلی کی فراہمی ہے؟

امین توتونچیان: سسٹم کی خوبصورتی یہ ہے کہ، جب باہمی تعاون کے ساتھ ڈیزائن کیا جا رہا ہے، تو ورک لوڈ اس بنیادی ڈھانچے کے مطابق ڈھل سکتا ہے جسے آپ بناتے ہیں۔ ایسی کوئی عالمگیر بات نہیں ہے کہ نیٹ ورک ایک رکاوٹ ہے، یا میموری بینڈوتھ ایک رکاوٹ ہے، وغیرہ۔ یہاں تک کہ ایک ہی تفصیلات کے ماڈلز کے لیے، ہم وسائل کی ضروریات کو منتقل کرنے کا انتخاب کر سکتے ہیں۔ ہم ایک زیادہ متوازن سسٹم بنانے کا انتخاب کر سکتے ہیں، لیکن زیادہ میموری بینڈوتھ کا ہونا ہمیشہ فائدہ مند ہوتا ہے۔ محدود شرائط کے بغیر اس سوال کا جواب دینا مشکل ہے۔

GPT-4.5 کو ڈیزائن کرتے وقت، ہمیں سسٹم میں ایک خاص وصف کی ضرورت ہو سکتی ہے، جسے انسانی رہنمائی کے ذریعے پیدا کرنے کی ضرورت ہے۔ لہذا، تعاون پر مبنی ڈیزائن ماڈل فن تعمیر اور آرکیٹیکچرل عناصر کی تشکیل کے لیے بہت اہم ہے، اور کسی حد تک سسٹم اور مشین لرننگ کے پہلوؤں کو جوڑتا ہے۔ اگر سسٹم میں ایک ایسا وصف ہے جو ہم بہت زیادہ نہیں رکھنا چاہتے ہیں۔ میری مثالی صورتحال یہ ہے کہ ہر چیز کو ایک دوسرے کو سب سے زیادہ جگہ دینے کے لیے جوڑنا نہیں چاہیے۔

کبھی کبھار چیزیں ایک دوسرے سے جڑ جاتی ہیں، اور ہمیں بنیادی ڈھانچے کی ضروریات کو پورا کرنے کی ضرورت ہوتی ہے، یا چیزیں ایسی ہونی چاہئیں۔ زیادہ تر وقت، ہمیں ایک متوازن سسٹم، ایک متوازن مواصلات کی ضرورت ہوتی ہے۔ اور ضابطے کا بہترین ذریعہ جو ہمارے پاس ہے وہ یہ تمام تعاون پر مبنی ڈیزائن ہیں۔

سیم آلٹمین: ہم ایسے مثالی سسٹم گول (system goal) سے کتنے دور ہیں؟

امین توتونچیان: ہم اس مقصد سے بہت دور ہیں۔ ایک سسٹم بنانے کا عمل ہمیشہ ایسا ہی ہوتا ہے: پہلے چیزوں کو کام کرنے کے طریقے کے بارے میں ایک مثالی نقطہ نظر ہوتا ہے، اور پھر ان اختلافات کو موجودہ وسائل کے ساتھ ہم آہنگ کیا جاتا ہے۔

میرے خیال میں ہم اسے نظریہ کے لیے نظریہ کے خاطر نہیں کر رہے ہیں، بلکہ صرف اس بات پر تبادلہ خیال کرنے کے لیے کر رہے ہیں کہ ہم اسے کیا بنانا چاہتے ہیں، اسے محسوس کرنا اور اس مثالی کے قریب تر ہونا چاہتے ہیں۔ یہ شاید سسٹم کے میدان کا سب سے دلچسپ حصہ ہے۔ لوگ پہلے کہتے تھے کہ یہ ایک خوبصورت سسٹم ڈیزائن ہے، اور آخر کار تاریخ ہمیں بتائے گی کہ یہ انتخاب صحیح ہے یا غلط۔

سیم آلٹمین: اگر آپ کو اگلی بڑی تربیت سے پہلے مشین لرننگ کے سوال کا جواب مل جائے تو آپ سب سے زیادہ کیا جاننا چاہیں گے؟

ایلیکس پینو: میں جاننا چاہتا ہوں کہ محدود ڈیٹا اور مخصوص شعبوں کے تحت ہمیں کن الگورتھمز کا استعمال کرنا چاہیے۔ اگرچہ یہ ایک وسیع سوال ہے، لیکن یہ واقعی سب سے اہم ہے۔

سیم آلٹمین: کیا آپ مستقبل میں 10 ملین یا اس سے زیادہ GPUs کے ساتھ بیک وقت پری ٹریننگ کریں گے؟

ایلیکس پینو: میرے خیال میں ایسا ہوگا، لیکن یہ روایتی پری ٹریننگ ماڈل نہیں ہو سکتا ہے۔ اس کی شکل موجودہ ٹیکنالوجیز سے بہت مختلف ہو سکتی ہے، لیکن یہ اب بھی غیر نگرانی شدہ تعلیم کے مرکز کو برقرار رکھے گا۔

امین توتونچیان: میں نیم ہم آہنگ ماڈل کو ترجیح دیتا ہوں۔ جسمانی قوانین کی وجہ سے، مکمل ہم آہنگی بہت حقیقت پسندانہ نہیں ہے۔

ڈینیل سیلسام: میرے خیال میں اس کا विकেন্দ्रीकृत ہونا زیادہ ممکن ہے۔ یقینی طور پر ایک AI سسٹم میں 10 ملین GPUs ایک ساتھ کام کر رہے ہوں گے جو کام سیکھتا اور انجام دیتا ہے، لیکن دماغ کے مختلف حصوں کی طرح، وہ ضروری نہیں کہ ایک دوسرے کے ساتھ بات چیت کریں۔

سیم آلٹمین: موجودہ جدید ترین الگورتھمز اور انسانی ڈیٹا کی افادیت میں کتنا فرق ہے؟ کیا مستقبل میں اس کا ازالہ ممکن ہے؟

ڈینیل سیلسام: دونوں کا براہ راست موازنہ کرنا مشکل ہے۔ زبان سیکھنے میں فرق یقینی طور پر بہت بڑا ہے۔ کلیدی بات یہ ہے کہ انسانی بصری اعصاب کے ذریعے موصول ہونے والی معلومات کی مقدار کی وضاحت کیسے کی جائے۔ میرے خیال میں الگورتھمز کی مجموعی ڈیٹا کی افادیت انسانوں کے مقابلے میں بہت کم ہے۔

دہائیوں سے، ڈیپ لرننگ کمپیوٹنگ کی افادیت پر توجہ مرکوز کر رہی ہے۔ ڈیٹا اور کمپیوٹنگ پاور کی ترقی کے علاوہ، جو چیز واقعی حیران کن ہے وہ الگورتھم میں بہتری سے پیدا ہونے والا سپر امپوزڈ اثر ہے۔ ہر بار جب الگورتھم کی کارکردگی میں 10٪ یا 20٪ بہتری آتی ہے، تو اس کا ڈیٹا کی افادیت پر سپر امپوزڈ ہونے پر ایک اہم اثر پڑے گا۔ اب تک، ڈیٹا کے بہاؤ اور کمپیوٹنگ پاور محدود ہونے پر ڈیٹا کی افادیت کے ارد گرد اس طرح کی کوئی متحرک سازی نہیں ہوئی ہے، کیونکہ یہ قابل قدر نہیں ہے۔

اب، ہم AI تحقیق کے ایک نئے مرحلے میں داخل ہو رہے ہیں، اور ہم ڈیٹا کی افادیت کی فتوحات جمع کرنا شروع کر دیں گے۔ میرے خیال میں یہ پیش گوئی کرنا تھوڑا احمقانہ ہے کہ ہم ناقابل تسخیر رکاوٹوں کا سامنا کریں گے۔ انسانی دماغ کے کام کرنے کا طریقہ یقینی طور پر ہماری الگورتھم میں بہتری سے مختلف ہے، اور ہمیں اس سلسلے میں محتاط رہنا چاہیے۔ لیکن میرے خیال میں ہمیں الگورتھمز کی مستقبل کی ترقی کے بارے میں پر امید رہنا چاہیے۔

سیم آلٹمین: بڑے پیمانے پر پری ٹریننگ اور ماڈل کی مضبوط سیکھنے اور استدلال کی صلاحیتوں کے درمیان کیا تعلق ہے؟

ایلیکس پینو: جو ہم نے مشاہدہ کیا ہے وہ یہ ہے کہ بہتر پری ٹریننگ اور غیر نگرانی شدہ تعلیم ماڈل کی مجموعی ذہانت کو بہتر بنانے اور عمومیت میں بہت مدد کرتی ہے، جو استدلال کی صلاحیت کی تکمیل کرتی ہے، جبکہ استدلال ذہانت کو بہتر بنانے میں تھوڑا سا سست ہو سکتا ہے۔ میرے خیال میں وہ ایک دوسرے کی تکمیل کرتے ہیں۔

سیم آلٹمین: پری ٹریننگ بہت سی چیزوں میں عالمگیر نظر آتی ہے، جبکہ کسی ماڈل کی تربیت صرف اسے ایک قسم کی چیز میں اچھا بنا سکتی ہے، کیا یہ صحیح ہے؟

ایلیکس پینو: یہ بہت دلچسپ ہے، لیکن جب آپ وہ ڈیٹا دیکھتے ہیں جو انہیں تربیت دیتا ہے، تو آپ اس صورتحال سے حیران نہیں ہوں گے۔ پری ٹریننگ ڈیٹا سیٹ کی رینج بہت وسیع ہے، اور ہم جس چیز کی پیروی کرتے ہیں وہ وسعت اور تنوع ہے۔ جب ماڈل کی کمک سیکھنے اور اسے واضح طور پر اچھے انعامی سگنل اور اچھا تربیتی ماحول حاصل کرنے کی بات آتی ہے، تو میرے خیال میں ڈیٹا سیٹ کی وسعت کو مدنظر رکھنا مشکل ہے۔

ڈینیل سیلسام: میں متفق ہوں، لیکن میرے خیال میں ایک اور عنصر بھی ہے۔ پری ٹریننگ لازمی طور پر ڈیٹا کو کمپریس کر رہی ہے، اس طرح مختلف چیزوں کے درمیان روابط دریافت ہو رہے ہیں۔ یہ تشبیہ اور زیادہ تجریدی کے بارے میں ہے۔ استدلال ایک ہنر ہے جس کے لیے کسی خاص مسئلے پر محتاط سوچ کی ضرورت ہوتی ہے اور بہت سے قسم کے مسائل کے حل بھی حاصل کیے جا سکتے ہیں۔ لیکن پری ٹریننگ کے عمل میں، مختلف شعبوں میں ڈیٹا کو کمپ

پر اپ ڈیٹ کیا گیا 2025-04-14

# OpenAI # GPT # AGI