ڈیپ ریسرچ ٹیم: ایجنٹس کی حتمی شکل تمام کاموں کیلئے

OpenAI کا دوسرا ایجنٹ

تین ہفتے پہلے، OpenAI نے ڈیپ ریسرچ متعارف کرایا، جو اس کا دوسرا ایجنٹ ہے۔ یہ ایجنٹ متعدد ویب سائٹس کو تلاش کر سکتا ہے اور 5-30 منٹ میں جامع آن لائن تحقیق مکمل کر سکتا ہے، معلومات کو یکجا کر سکتا ہے اور حوالوں کے ساتھ تفصیلی رپورٹس فراہم کر سکتا ہے۔

یہ مضمون Sequoia Capital کی جانب سے Isa Fulford اور Josh Tobin، OpenAI کے ڈیپ ریسرچ کے سربراہان کے ساتھ ایک انٹرویو کو مرتب اور منظم کرتا ہے۔ دونوں اراکین ڈیپ ریسرچ کے پیچھے تکنیکی تفصیلات اور مصنوعات کی سوچ کو تفصیل سے شیئر کرتے ہیں، ان کے ساتھ ان استعمال کے معاملات کے بارے میں بھی بتاتے ہیں جن کا وہ فی الحال مشاہدہ کر رہے ہیں۔

ڈیپ ریسرچ OpenAI کی اندرونی تحقیق سے شروع ہوا جس میں ماڈل کی طویل مدتی کاموں کو سنبھالنے کی صلاحیت کا جائزہ لیا گیا۔ ٹیم کا طویل مدتی مقصد مستقبل میں صارفین کو حتمی ایجنٹ فراہم کرنا ہے: ویب سرچ، کمپیوٹر کے استعمال، یا کسی دوسرے کام کے لیے ایک قدرتی آل ان ون حل جسے وہ چاہتے ہیں کہ ایجنٹ مکمل کرے۔

ڈیپ ریسرچ کو خاص طور پر پروڈکٹ کی سطح پر بھی بہتر بنایا گیا ہے۔ مثال کے طور پر، جیسا کہ ہمارے DeepSeek تجزیہ میں بتایا گیا ہے، ڈیپ ریسرچ واضح حوالوں اور Chain-of-Thought (CoT) کے ذریعے صارف کے اعتماد کو بڑھاتا ہے۔ ٹیم نے کام کی مسلسل سمجھ کو یقینی بنانے کے لیے ایک وضاحتی بہاؤ بھی ڈیزائن کیا ہے۔ ڈیپ ریسرچ معلومات کی بازیافت اور تنظیم میں AI سرچ اور ChatGPT سے بہتر ہے۔ تاہم، اس مرحلے پر، ڈیپ ریسرچ موجودہ معلومات سے نئی بصیرتیں نکالنے میں اتنا موثر نہیں ہے اور ابھی تک نئی سائنسی دریافتیں نہیں کر سکتا۔

اہم نکات:

  • OpenAI نے اپنا دوسرا ایجنٹ، ڈیپ ریسرچ لانچ کیا ہے، جو مکمل آن لائن تحقیقات کرنے کی صلاحیت رکھتا ہے۔
  • ایجنٹ کی صلاحیتیں ماڈل کی اینڈ ٹو اینڈ ٹریننگ سے حاصل ہوتی ہیں۔
  • ڈیپ ریسرچ معلومات کو یکجا کرنے اور غیر واضح حقائق تلاش کرنے میں بہترین ہے۔
  • استعمال کے معاملات پیشہ ورانہ کام، ذاتی زندگی، پروگرامنگ اور تعلیم تک پھیلے ہوئے ہیں۔
  • ٹیم 2025 میں ایجنٹس کے لیے اہم پیشرفت کی توقع رکھتی ہے۔

ایجنٹ کی صلاحیتیں ماڈل کی اینڈ ٹو اینڈ ٹریننگ سے حاصل ہوتی ہیں

ڈیپ ریسرچ ایک ایسا ایجنٹ ہے جو متعدد آن لائن ویب سائٹس کو تلاش کرنے اور جامع رپورٹس تیار کرنے کی صلاحیت رکھتا ہے، ایسے بہت سے کاموں کو مکمل کرتا ہے جن میں انسانوں کو گھنٹوں لگیں گے۔ ChatGPT کے اندر کام کرتے ہوئے، یہ تقریباً 5-30 منٹ میں سوالات کا جواب دیتا ہے، گہری تحقیق کو ممکن بناتا ہے اور معیاری ChatGPT سے زیادہ تفصیلی اور مخصوص جوابات فراہم کرتا ہے۔ OpenAI نے پہلے Operator لانچ کیا تھا، اور ڈیپ ریسرچ اس کا دوسرا ایجنٹ ہے، جس میں مزید آنے والے ہیں۔

ابتداء

تقریباً ایک سال پہلے، OpenAI نے اندرونی طور پر ایک استدلال کا نمونہ اپنانا شروع کیا، جس کا مقصد ماڈلز کو جواب دینے سے پہلے سوچنے کی تربیت دینا تھا۔ یہ طریقہ کار انتہائی کامیاب ثابت ہوا۔

ابتدائی طور پر، OpenAI نے ریاضی اور سائنس پر توجہ مرکوز کی۔ تاہم، انہوں نے دریافت کیا کہ اس نئے استدلال ماڈل کے فن تعمیر نے طویل مدتی کاموں کو سنبھالنے کی صلاحیت کو بھی کھول دیا، جس میں ایجنٹ کی صلاحیتیں شامل ہیں۔

اس کے ساتھ ہی، OpenAI نے تسلیم کیا کہ بہت سے کاموں کے لیے وسیع آن لائن تحقیق یا بیرونی سیاق و سباق، مضبوط استدلال کی صلاحیتوں، معلومات کے ذرائع کی تمیز، اور تخلیقی صلاحیتوں کی ایک ڈگری کی ضرورت ہوتی ہے۔ بالآخر، OpenAI نے ماڈل ٹریننگ کے طریقے تیار کیے جو ان کاموں کو سنبھالنے کے اہل تھے۔ انہوں نے ماڈلز کو براؤزنگ کے کام انجام دینے کی تربیت دینے کا فیصلہ کیا، وہی طریقے استعمال کرتے ہوئے جو استدلال ماڈلز کی تربیت کے لیے استعمال کیے جاتے ہیں لیکن زیادہ حقیقی دنیا کے کاموں پر لاگو ہوتے ہیں۔

ڈیپ ریسرچ پروجیکٹ Isa Fulford اور Yash Patil کے ایک اصل ڈیمو سے شروع ہوا۔ Josh Tobin تقریباً چھ ماہ قبل ایک اسٹارٹ اپ میں کام کرنے کے بعد OpenAI میں دوبارہ شامل ہوئے، بنیادی کام میں گہری دلچسپی لی، اور ڈیپ ریسرچ پروجیکٹ میں شامل ہوئے۔

اہم افراد:

  • Isa Fulford: OpenAI کی پوسٹ ٹریننگ ٹیم میں AI محقق، ChatGPT Retrieval Plugin میں اہم کردار ادا کرنے والے۔
  • Yash Patil: OpenAI کی پوسٹ ٹریننگ ٹیم میں بنیادی ماڈل ٹیم کے رکن، سٹینفورڈ سے ڈراپ آؤٹ ہوئے۔
  • Josh Tobin: پہلے OpenAI میں ریسرچ سائنٹسٹ تھے، بعد میں Gantry (تجزیہ، الرٹس اور انسانی فیڈ بیک کے ذریعے ML کو بہتر بنانے کے لیے ایک پروڈکٹ) کی بنیاد رکھی۔ وہ OpenAI میں دوبارہ شامل ہوئے اور فی الحال ایجنٹس پروڈکٹ ریسرچ ٹیم کی قیادت کرتے ہیں۔

وضاحتی بہاؤ

ڈیپ ریسرچ ایک منفرد ڈیزائن پیش کرتا ہے: وضاحتی بہاؤ۔ تحقیق شروع کرنے سے پہلے، ڈیپ ریسرچ ماڈل صارف سے سوالات پوچھتا ہے۔ عام طور پر، ChatGPT صرف جواب کے آخر میں فالو اپ سوالات پوچھتا ہے یا پوچھتا ہے کہ کیا جواب تسلی بخش ہے، ڈیپ ریسرچ کے برعکس، جو اس رویے میں شروع میں ہی مشغول ہوتا ہے۔

یہ ٹیم کی جانب سے ایک سوچا سمجھا ڈیزائن کا انتخاب تھا۔ صارفین کو ڈیپ ریسرچ ماڈل سے بہترین جوابات صرف اس وقت ملتے ہیں جب ان کے پرامپٹس بہت واضح اور تفصیلی ہوں۔ تاہم، صارفین اکثر اپنی ابتدائی پرامپٹ میں تمام معلومات فراہم نہیں کرتے ہیں۔ لہذا، OpenAI اس بات کو یقینی بنانا چاہتا تھا کہ 5 یا 30 منٹ انتظار کرنے کے بعد، صارفین کو کافی تفصیلی اور تسلی بخش جواب ملے گا۔ یہ اضافی قدم اس بات کو یقینی بنانے کے لیے شامل کیا گیا تھا کہ صارفین ماڈل کے لیے تمام ضروری تفصیلات فراہم کریں۔

X پر بہت سے صارفین نے اپنے پرامپٹس کو بہتر بنانے کے لیے پہلے o1 یا o1 Pro کے ساتھ بات چیت کرنے کا ذکر کیا ہے۔ ایک بار مطمئن ہونے کے بعد، وہ پرامپٹ کو ڈیپ ریسرچ کو بھیج دیتے ہیں۔

ایجنٹس کی حتمی شکل

پچھلے کچھ مہینوں میں، OpenAI نے ڈیپ ریسرچ کے تین مختلف ورژن لانچ کیے ہیں، جن سب کا نام ڈیپ ریسرچ ہے۔ Josh Tobin کا خیال ہے کہ اگرچہ ہر پروڈکٹ کی اپنی طاقتیں اور کمزوریاں ہیں، لیکن ان کے درمیان معیار کا فرق واضح ہے۔ بالآخر، یہ اس وجہ سے ہے کہ ماڈلز کیسے بنائے جاتے ہیں، ڈیٹا سیٹس بنانے میں کتنی محنت کی جاتی ہے، اور O-series ماڈلز کو انجن کے طور پر استعمال کیا جاتا ہے۔ یہ ڈیپ ریسرچ ماڈلز کو بہتر بنانے کی اجازت دیتا ہے، انتہائی ذہین اور اعلیٰ معیار کے ٹولز تخلیق کرتا ہے۔

فی الحال، ڈیپ ریسرچ، O3، اور Operator نسبتاً آزاد ہیں۔ تاہم، OpenAI کا مقصد صارفین کے لیے بالآخر ایک واحد، حتمی ایجنٹ رکھنا ہے جو ویب سرچز انجام دے سکے، کمپیوٹر استعمال کر سکے، یا دیگر مطلوبہ کاموں کو مکمل کر سکے، ان تمام افعال کو زیادہ قدرتی انداز میں ضم کر سکے۔

اینڈ ٹو اینڈ ٹریننگ ماڈل کی طاقت کی بنیادی وجہ ہے

ڈیپ ریسرچ کا بنیادی ماڈل O3 کا ایک بہتر بنایا گیا ورژن ہے۔ O3 OpenAI کا سب سے جدید استدلال ماڈل ہے، اور ڈیپ ریسرچ کی زیادہ تر تجزیاتی صلاحیت اسی سے آتی ہے۔ OpenAI نے خاص طور پر ڈیپ ریسرچ ماڈل کو پیچیدہ براؤزنگ ٹاسکس اور دیگر استدلال کے کاموں پر تربیت دی۔ لہذا، ڈیپ ریسرچ براؤزنگ ٹولز اور Python ٹولز بھی استعمال کر سکتا ہے۔ ان کاموں پر اینڈ ٹو اینڈ ٹریننگ کے ذریعے، ڈیپ ریسرچ نے ان سے نمٹنے کے لیے حکمت عملی سیکھی، بالآخر ماڈل کو آن لائن سرچ تجزیہ میں بہترین بنایا۔

بدیہی طور پر، ایک صارف درخواست کرتا ہے، اور ماڈل پہلے اس کے بارے میں احتیاط سے سوچتا ہے۔ پھر، یہ متعلقہ معلومات تلاش کرتا ہے، اسے نکالتا ہے، اور اسے پڑھتا ہے۔ یہ سمجھنے کے بعد کہ یہ معلومات درخواست سے کیسے متعلق ہے، ماڈل فیصلہ کرتا ہے کہ صارف کے مطلوبہ حتمی جواب کے قریب جانے کے لیے آگے کیا تلاش کرنا ہے۔ ڈیپ ریسرچاس تمام معلومات کو ایک صاف ستھری رپورٹ میں ضم کر سکتا ہے، جس میں اصل ذرائع کی طرف اشارہ کرنے والے حوالے دیے گئے ہیں۔

وہ جدت جو ڈیپ ریسرچ کو اس کی ایجنٹ کی صلاحیتیں دیتی ہے وہ OpenAI کی ماڈل کی اینڈ ٹو اینڈ ٹریننگ میں ہے۔ اس کا مطلب ہے کہ تحقیق کے عمل کے دوران بہت سے آپریشنز کا پہلے سے اندازہ لگانا ممکن نہیں ہے۔ زبان کے ماڈل، پروگرام، یا اسکرپٹ لکھ کر اس لچک کو حاصل کرنا ناممکن ہے جو ماڈل ٹریننگ کے ذریعے حاصل کرتا ہے۔ ٹریننگ کے ذریعے، ڈیپ ریسرچ ماڈل نے سیکھا کہ حقیقی وقت کی ویب معلومات پر کیسے رد عمل ظاہر کرنا ہے اور جو کچھ وہ دیکھتا ہے اس کی بنیاد پر حکمت عملیوں کو فوری طور پر ایڈجسٹ کرنا ہے۔ لہذا، ڈیپ ریسرچ ماڈل دراصل بہت تخلیقی تلاشیں کر رہا ہے۔ صارفین دیکھ سکتے ہیں کہ ماڈل کتنا ذہین ہے یہ فیصلہ کرنے میں کہ آگے کیا تلاش کرنا ہے یا CoT کے خلاصوں کو پڑھ کر کچھ مسائل سے کیسے بچنا ہے۔

ڈیپ ریسرچ اور AI سرچ کے درمیان فرق

John Collison کے اس سوال کے بارے میں کہ ڈیپ ریسرچ کی کتنی صلاحیت ویب مواد تک حقیقی وقت تک رسائی سے آتی ہے اور کتنی CoT سے، OpenAI کے دو محققین کا خیال ہے کہ ڈیپ ریسرچ کی شاندار صلاحیت دونوں کے امتزاج کا نتیجہ ہے۔

دیگر AI سرچ پروڈکٹس کو اینڈ ٹو اینڈ تربیت نہیں دی جاتی ہے، اس لیے وہ معلومات کا جواب دینے میں ڈیپ ریسرچ کی طرح لچکدار نہیں ہیں، اور نہ ہی وہ مخصوص مسائل کو حل کرنے میں اتنے تخلیقی ہیں۔

OpenAI میں شامل ہونے سے پہلے، Josh Tobin نے ایک اسٹارٹ اپ میں کام کیا اور ایجنٹس بنانے کی کوشش کی جس طرح زیادہ تر لوگ انہیں بنانے کی وضاحت کرتے ہیں، بنیادی طور پر LLMs کے ساتھ ایک آپریشن گراف بنانا جو کچھ نوڈس پر مداخلت کرتے ہیں۔ جب کہ LLM فیصلہ کر سکتا ہے کہ آگے کیا کرنا ہے، اقدامات کے پورے سلسلے کی منطق انسانوں کے ذریعے طے کی جاتی ہے۔

Josh Tobin نے اسے تیز رفتار پروٹو ٹائپنگ کے لیے ایک طاقتور طریقہ پایا، لیکن اسے حقیقی دنیا میں تیزی سے مسائل کا سامنا کرنا پڑا۔ ان تمام حالات کا اندازہ لگانا مشکل ہے جن کا ماڈل کو سامنا ہو سکتا ہے اور ان تمام مختلف شاخوں کے راستوں پر غور کرنا مشکل ہے جن پر وہ جانا چاہتا ہے۔ مزید برآں، چونکہ یہ ماڈلز خاص طور پر فیصلے کرنے کے لیے تربیت یافتہ نہیں ہیں، اس لیے وہ اکثر نوڈس پر بہترین فیصلہ ساز نہیں ہوتے ہیں۔ انہیں فیصلہ سازی سے ملتی جلتی کوئی چیز کرنے کی تربیت دی جاتی ہے۔

یہ اس بات کا اعادہ کرتا ہے کہ ڈیپ ریسرچ ماڈل کی اصل طاقت براہ راست اینڈ ٹو اینڈ ٹریننگ سے آتی ہے، جس کا مقصد ان کاموں کو حل کرنا ہے جنہیں صارفین کو درحقیقت حل کرنے کی ضرورت ہے۔ لہذا، آپریشن گراف ترتیب دینے یا پس منظر کے فن تعمیر میں نوڈ کے فیصلے کرنے کی کوئی ضرورت نہیں ہے۔ ہر چیز خود ماڈل کے ذریعے چلتی ہے۔

مزید برآں، اگر کسی صارف کے پاس بہت مخصوص اور متوقع ورک فلو ہے، تو اسے اس طرح کرنا جیسا کہ Josh Tobin نے اوپر بیان کیا ہے قیمتی ہے۔ لیکن اگر بہت لچکدار پروسیسنگ کی ضرورت ہے، تو ڈیپ ریسرچ سے ملتا جلتا طریقہ بہترین انتخاب ہو سکتا ہے۔

Josh Tobin تجویز کرتے ہیں کہ کچھ سخت اصولوں کو ماڈل میں ہارڈ کوڈ نہیں کیا جانا چاہیے۔ اگر کوئی ضرورت ہے جیسے ‘ماڈل کو کسی خاص ڈیٹا بیس تک رسائی نہ دینا’، تو اسے دستی طور پر لکھے گئے منطق کے ساتھ نافذ کرنا بہتر ہے۔ لوگ اکثر سوچتے ہیں کہ وہ کوڈ لکھ کر ماڈل سے زیادہ ہوشیار ہو سکتے ہیں، لیکن حقیقت میں، جیسے جیسے فیلڈ تیار ہوتا ہے، ماڈلز عام طور پر انسانوں سے بہتر حل لے کر آتے ہیں۔

مشین لرننگ کے سب سے اہم اسباق میں سے ایک یہ ہے کہ آپ کو جو نتائج ملتے ہیں ان کا انحصار اس بات پر ہوتا ہے کہ آپ کس چیز کے لیے آپٹمائز کرتے ہیں۔ لہذا، اگر صارفین مطلوبہ نتیجہ کے لیے براہ راست آپٹمائز کرنے کے لیے ایک سسٹم ترتیب دے سکتے ہیں، تو یہ ان ماڈلز کو اکٹھا کرنے کی کوشش کرنے سے کہیں زیادہ بہتر ہوگا جو پورے کام کے مطابق نہیں ہیں۔ لہذا، مجموعی ماڈل کی بنیاد پر RL ٹیوننگ سب سے طاقتور ایجنٹس بنانے کا ایک اہم حصہ بن سکتا ہے۔

اعلیٰ معیار کا ڈیٹا ماڈل کی کامیابی کےلیے اہم عوامل میں سے ایک ہے

ڈیپ ریسرچ ماڈل کی کامیابی کے لیے اہم عوامل میں سے ایک اعلیٰ معیار کا ڈیٹا سیٹ ہونا ہے۔ ماڈل میں داخل ہونے والے ڈیٹا کا معیار ممکنہ طور پر ماڈل کے معیار کا تعین کرنے والا اہم عنصر ہے۔ ڈیپ ریسرچ پروجیکٹ میں، Edward Sun تمام ڈیٹا سیٹس کو بہتر بناتا ہے۔

ڈیپ ریسرچ کے فوائد

ڈیپ ریسرچ کی طاقت اس کی بہترین جوابات فراہم کرنے کی صلاحیت میں ہے جب صارفین کو اپنی ضروریات کی تفصیلی وضاحت ہو۔ تاہم، اگر صارف کا سوال مبہم ہے، تب بھی ڈیپ ریسرچ مطلوبہ معلومات کو واضح کر سکتا ہے۔ یہ سب سے زیادہ طاقتور ہوتا ہے جب صارفین معلومات کے ایک مخصوص سیٹ کی تلاش میں ہوتے ہیں۔

ڈیپ ریسرچ نہ صرف کسی ذریعہ کے بارے میں وسیع پیمانے پر تمام معلومات اکٹھا کرنے کی صلاحیت رکھتا ہے بلکہ بہت غیر واضح حقائق تلاش کرنے میں بھی بہترین ہے، جیسے کہ لانگ ٹیل مواد جو روایتی تلاش میں پہلے چند صفحات پر ظاہر نہیں ہوگا، کسی غیر واضح ٹی وی شو کی ایک مخصوص قسط کی تفصیلات، وغیرہ۔ ایک آسٹرین جنرل کے بارے میں ایک سوال میں، ChatGPT نے ایک بار غلط جواب دیا، جب کہ ڈیپ ریسرچ نے کامیابی سے صحیح جواب تلاش کیا۔

ڈیپ ریسرچ معلومات کو یکجا کرنے میں بہت اچھا ہے، خاص طور پر مخصوص، مشکل سے تلاش کی جانے والی معلومات کو تلاش کرنے میں۔ تاہم، ڈیپ ریسرچ موجودہ معلومات سے نئی بصیرتیں نکالنے میں اتنا موثر نہیں ہے اور ابھی تک نئی سائنسی دریافتیں نہیں کر سکتا۔

ڈیپ ریسرچ کے استعمال کے معاملات

ہدف صارفین

ڈیپ ریسرچ کو کسی ایسے شخص کے لیے ڈیزائن کیا گیا ہے جو اپنی روزمرہ کی کام یا زندگی میں علمی کام میں مصروف ہے، خاص طور پر وہ لوگ جنہیں بڑی مقدار میں معلومات اکٹھا کرنے، ڈیٹا کا تجزیہ کرنے اور فیصلے کرنے کی ضرورت ہے۔ بہت سے صارفین ڈیپ ریسرچ کو اپنے کام پر لاگو کرتے ہیں، جیسے کہ تحقیق میں، مارکیٹوں، کمپنیوں اور رئیل اسٹیٹ جیسے شعبوں میں صورتحال کو سمجھنے کے لیے۔

استعمال کے معاملات

OpenAI کو امید ہے کہ ڈیپ ریسرچ کاروباری اور ذاتی زندگی کے منظرناموں دونوں میں کام کر سکتا ہے، کیونکہ یہ دراصل ایک بہت ہی ورسٹائل صلاحیت ہے جو کام اور ذاتی زندگی دونوں پر لاگو ہوتی ہے۔ ڈیپ ریسرچ کی اپیل اس کی بہت زیادہ وقت بچانے کی صلاحیت میں ہے۔ کچھ کام جن میں گھنٹوں یا دن بھی لگ سکتے تھے اب ڈیپ ریسرچ کے ساتھ 90% جواب دیے جا سکتے ہیں۔ OpenAI کا خیال ہے کہ کاروباری منظرناموں میں اس سے ملتے جلتے مزید کام ہوں گے، لیکن ڈیپ ریسرچ لوگوں کی ذاتی زندگیوں کا بھی حصہ بن جائے گا۔

ڈیپ ریسرچ افرادی قوت کو تبدیل کرنے کے بارے میں نہیں ہے۔ علمی کام کے لیے، خاص طور پر وہ کام جن میں معلومات تلاش کرنے اور نتائج اخذ کرنے میں بہت زیادہ وقت درکار ہوتا ہے، ڈیپ ریسرچ لوگوں کو سپر پاورز سے بااختیار بنائے گا، ایسے کاموں کو ممکن بنائے گا جن میں 4 یا 8 گھنٹے لگ سکتے تھے 5 منٹ میں مکمل ہو جائیں، جس سے صارفین زیادہ حاصل کر سکیں۔

انٹرویو میں استعمال کے معاملات کا ذکر کیا گیا جن میں شامل ہیں: طبی، سرمایہ کاری، اور دیگر پیشہ ورانہ کام کے منظرنامے؛ خریداری، سفر، اور دیگر خاندانی منظرنامے؛ پروگرامنگ اور ذاتی تعلیم۔

  • طبی، سرمایہ کاری، اور دیگر پیشہ ورانہ کام کے منظرنامے

    طب میں، ڈیپ ریسرچ کسی خاص بیماری کے تمام لٹریچر یا حالیہ کیسز کو تلاش کرنے میں مدد کر سکتا ہے، اس طرح وقت کی بچت ہوتی ہے۔

    سرمایہ کاری میں، ڈیپ ریسرچ کی مدد سے، سرمایہ کار ہر ممکنہ اسٹارٹ اپ پر تحقیق کرنے کا انتخاب کر سکتے ہیں جس میں وہ سرمایہ کاری کر سکتے ہیں، نہ کہ صرف ان لوگوں پر جن سے ملنے کا ان کے پاس وقت ہے۔

    کمپنی کے آپریشنز میں، ایک صارف جو کنزیومر گڈز کمپنی شروع کرنے پر غور کر رہا ہے، ڈیپ ریسرچ کا بڑے پیمانے پر استعمال کر رہا ہے تاکہ یہ تعین کیا جا سکے کہ آیا مخصوص برانڈ نام پہلے سے رجسٹرڈ ہیں، آیا ڈومین نام مقبوضہ ہیں، مارکیٹ کا سائز، اور مختلف دیگر معلومات۔

  • خریداری، سفر، اور دیگر خاندانی منظرنامے

    ایک صارف جو نئی کار خریدنے پر غور کر رہا تھا یہ جاننا چاہتا تھا کہ اگلا ماڈل کب ریلیز ہوگا۔ آن لائن بہت سے قیاس آرائی پر مبنی مضامین تھے، اس لیے صارف نے ڈیپ ریسرچ سے کہا کہ وہ تمام متعلقہ افواہوں کو مرتب کرے۔ ڈیپ ریسرچ نے ایک بہترین رپورٹ تیار کی، جس میں صارف کو بتایا گیا کہ اگلے چند مہینوں میں ایک نئی کار ریلیز ہو سکتی ہے۔

    جب ڈیپ ریسرچ کو جاپان میں لانچ کیا گیا، تو صارفین نے اسے مخصوص ضروریات کو پورا کرنے والے ریستوران تلاش کرنے میں بہت مددگار پایا اور صارفین کو ایسی چیزیں دریافت کرنے میں بھی مدد کر سکتا ہے جو انہیں دوسری صورت میں نہیں مل پاتیں۔

    جب صارفین کو کوئی مہنگی چیز خریدنے، کسی خاص سفر کی منصوبہ بندی کرنے، یا کسی مسئلے کے بارے میں سوچنے میں بہت زیادہ وقت گزارنے کی ضرورت ہوتی ہے، تو وہ آن لائن متعلقہ معلومات تلاش کرنے، تمام جائزوں کو براؤز کرنے وغیرہ میں گھنٹوں گزار سکتے ہیں۔ ڈیپ ریسرچ اس معلومات کو تیزی سے منظم کر سکتا ہے، ایک خلاصہ رپورٹ بنا سکتا ہے، اور تفصیلی اور ذاتی مشورہ فراہم کر سکتا ہے۔

    مصروف کام کرنے والی مائیں اکثر اپنے بچوں کے لیے سالگرہ کی پارٹیوں کی منصوبہ بندی کرنے کا وقت نہیں رکھتیں، لیکن اب وہ ڈیپ ریسرچ کی مدد سے اسے تیزی سے کر سکتی ہیں۔

    ڈیپ ریسرچ ہدایات پر عمل کرنے میں بھی بہترین ہے۔ اگر صارفین نہ صرف کسی پروڈکٹ کے بارے میں جاننا چاہتے ہیں بلکہ اس کا موازنہ دیگر تمام پروڈکٹس سے بھی کرنا چاہتے ہیں، یا یہاں تک کہ Reddit جیسی ویب سائٹس سے جائزے دیکھنا چاہتے ہیں، تو وہ ڈیپ ریسرچ سے بہت سی مختلف درخواستیں کر سکتے ہیں، اور یہ ان تمام کاموں کو ایک ساتھ مکمل کر دے گا۔ صارفین ڈیپ ریسرچ سے معلومات کو ایک ٹیبل میں ڈالنے کے لیے بھی کہہ سکتے ہیں۔

  • پروگرامنگ

    بہت سے لوگ پروگرامنگ کے لیے ڈیپ ریسرچ کا استعمال کرتے ہیں۔ اس منظر نامے پر ابتدائی طور پر OpenAI نے غور نہیں کیا تھا، لیکن بہت سے لوگ اسے کوڈ لکھنے، کوڈ تلاش کرنے، یہاں تک کہ کسی پیکیج کے لیے تازہ ترین دستاویزات تلاش کرنے، یا اسکرپٹ لکھنے کے لیے استعمال کر رہے ہیں، جس کے متاثر کن نتائج ہیں۔

  • تعلیم

    ذاتی تعلیم ایک بہت ہی دلچسپ ایپلی کیشن کا منظر نامہ ہے۔ اگر صارفین کے پاس کوئی ایسا موضوع ہے جسے وہ سیکھنا چاہتے ہیں، جیسے کہ حیاتیات کا جائزہ لینا یا موجودہ واقعات کو سمجھنا، تو انہیں صرف ان حصوں کو فراہم کرنے کی ضرورت ہے جو وہ نہیں سمجھتے ہیں یا وہ معلومات جن میں وہ گہرائی میں جانا چاہتے ہیں، اور ڈیپ ریسرچ ایک تفصیلی رپورٹ مرتب کر سکتا ہے۔ شاید مستقبل میں، ڈیپ ریسرچ صارف کے بارے میں جو کچھ سیکھتا ہے اس کی بنیاد پر ذاتی تعلیم فراہم کرنا ممکن ہوگا۔

ایجنٹس 2025 میں ابھریں گے

ڈیپ ریسرچ کے لیے مستقبل کی ترقی کی سمتیں

پروڈکٹ فارم کے لحاظ سے، OpenAI کو امید ہے کہ ڈیپ ریسرچ مستقبل میں تصاویر کو ایمبیڈ کرنے، پروڈکٹس کی تصاویر تلاش کرنے، چارٹ بنانے اور ان چارٹس کو جوابات میں ایمبیڈ کرنے کے قابل ہو جائے گا۔

معلومات کے ذرائع کے لحاظ سے، OpenAI کو امید ہے کہ ماڈل جس ڈیٹا تک رسائی حاصل کر سکتا ہے اسے بڑھایا جائے۔ وہ امید کرتے ہیں کہ ماڈل مستقبل میں نجی ڈیٹا کو تلاش کرنے کے قابل ہو جائے گا۔ OpenAI ماڈل کی صلاحیتوں کو مزید بڑھائے گا، اسے براؤزنگ اور تجزیہ میں بہتر بنائے گا۔

معلومات کی درستگی کے لحاظ سے، صارفین کو ڈیپ ریسرچ کے آؤٹ پٹ پر بھروسہ کرنے کے قابل بنانے کے لیے، صارفین ماڈل کے ذریعے حوالہ کردہ معلومات کے ذرائع دیکھ سکتے ہیں۔ ماڈل ٹریننگ کے عمل کے دوران، OpenAI حوالوں کی درستگی کو یقینی بنانے کی بھی کوشش کرتا ہے، لیکن ماڈل اب بھی غلطیاں کر سکتا ہے، فریب میں مبتلا ہو سکتا ہے، یا یہاں تک کہ کسی ایسے ذریعہ پر بھروسہ کر سکتا ہے جو سب سے زیادہ معتبر نہ ہو۔ لہذا، یہ ایک ایسا شعبہ ہے جسے OpenAI بہتر بنانا جاری رکھنا چاہتا ہے۔

OpenAI Agent روڈ میپ میں زیادہ وسیع پیمانے پر ضم ہونے کے لیے، OpenAI کو امید ہے کہ ڈیپ ریسرچ کو بہت سے مختلف ایپلی کیشن منظرناموں تک بڑھایا جا سکتا ہے، سب سے جدید استدلال ماڈلز کو ان ٹولز کے ساتھ جوڑ کر جو انسان کام یا روزمرہ کی زندگی کے کاموں کو مکمل کرنے کے لیے استعمال کر سکتے ہیں، اور پھر ماڈل کو براہ راست آپٹمائز کر کے وہ نتائج حاصل کیے جا سکتے ہیں جو صارفین چاہتے ہیں کہ ایجنٹ حاصل کرے۔

اس مرحلے پر، درحقیقت ڈیپ ریسرچ کو زیادہ پیچیدہ کام کے منظرناموں تک پھیلنے سے روکنے والی کوئی چیز نہیں ہے۔ AGI اب ایک آپریشنل مسئلہ ہے، اور مستقبل میں بہت سی دلچسپ پیشرفت دیکھنے کو ملیں گی۔

Sam Altman کا خیال ہے کہ ڈیپ ریسرچ جو کام مکمل کر سکتا ہے وہ دنیا کے تمام معاشی طور پر قابل عمل کاموں کا چند فیصد ہوگا۔ Josh Tobin کا خیال ہے کہ ڈیپ ریسرچ صارفین کے لیے تمام کام نہیں کر سکتا، لیکن یہ صارفین کو کئی گھنٹے یا دن بھی بچا سکتا ہے۔ OpenAI کو امید ہے کہ ایک نسبتاً قریبی مقصد یہ ہے کہ ڈیپ ریسرچ اور اس کے بعد بنائے گئے ایجنٹس، اور ساتھ ہی اس بنیاد پر بنائے گئے دیگر ایجنٹس، صارفین کا 1%، 5%، 10%، یا 25% وقت بچائیں، اس کام کی قسم پر منحصر ہے جو وہ کرتے ہیں۔

ایجنٹ اور RL

Isa Fulford اور Josh Tobin اس بات پر متفق ہیں کہ ایجنٹس اس سال ابھریں گے۔

RL نے ایک چوٹی کا تجربہ کیا، پھر ایسا لگتا تھا کہ اس میں تھوڑا سا گڑھا ہے، اور اب اسے دوبارہ توجہ مل رہی ہے۔ Yann LeCun کے پاس ایک بار ایک تشبیہ تھی: اگر لوگ کیک بنا رہے ہیں، تو اس کا زیادہ تر حصہ کیک ہوگا، تھوڑی سی فراسٹنگ ہوگی، اور آخر میں اوپر کچھ چیری ہوں گی۔ غیر زیر نگرانی سیکھنا کیک کی طرح ہے، زیر نگرانی سیکھنا فراسٹنگ ہے، اور RL چیری ہے۔

Josh Tobin کا خیال ہے کہ جب 2015-2016 میں RL کر رہے تھے، کیک کی تشبیہ کا استعمال کرتے ہوئے، یہ کیک کے بغیر چیری شامل کرنے کی کوشش کر رہا ہو گا۔ لیکن اب، ایسے لینگویج ماڈلز ہیں جو بڑی مقدار میں ڈیٹا پر پہلے سے تربیت یافتہ ہیں، یہ ماڈلز بہت طاقتور ہیں، اور ہم جانتے ہیں کہ ان لینگویج ماڈلز پر زیر نگرانی فائن ٹیوننگ کیسے کی جائے تاکہ انہیں ہدایات پر عمل کرنے اور لوگوں کے کہنے پر عمل کرنے میں اچھا بنایا جائے۔ اب سب کچھ بہت اچھی طرح سے کام کرتا ہے، اور یہ ان ماڈلز کو کسی بھی استعمال کے کیس کے لیے صارف کی طرف سے طے شدہ انعامی افعال کے مطابق ایڈجسٹ کرنے کے لیے بہت موزوں ہے۔