دومین عامل OpenAI
سه هفته پیش، OpenAI از Deep Research، دومین عامل خود رونمایی کرد. این عامل میتواند چندین وبسایت را جستجو کند و تحقیقات آنلاین جامعی را در عرض 5 تا 30 دقیقه انجام دهد، اطلاعات را ترکیب کند و گزارشهای دقیقی را با استناد ارائه دهد.
این مقاله مصاحبهای را که توسط Sequoia Capital با ایسا فولفورد و جاش توبین، رهبران Deep Research در OpenAI، انجام شده، گردآوری و سازماندهی میکند. این دو عضو جزئیات فنی و تفکر محصول پشت Deep Research، همراه با موارد استفادهای که در حال حاضر مشاهده میکنند را به تفصیل شرح میدهند.
Deep Research از کاوش داخلی OpenAI در مورد توانایی مدل برای انجام وظایف بلندمدت سرچشمه گرفت. هدف بلندمدت این تیم این است که در آینده به کاربران عامل نهایی را ارائه دهد: یک راهحل طبیعی همهکاره برای جستجوی وب، استفاده از کامپیوتر یا هر وظیفه دیگری که میخواهند عامل انجام دهد.
Deep Research همچنین به طور خاص در سطح محصول بهینه شده است. به عنوان مثال، همانطور که در تحلیل DeepSeek ما ذکر شد، Deep Research اعتماد کاربر را از طریق استنادات واضح و زنجیره تفکر (CoT) افزایش میدهد. این تیم همچنین یک جریان شفافسازی را برای اطمینان از درک مداوم وظیفه طراحی کرده است. Deep Research در بازیابی و سازماندهی اطلاعات از جستجوی هوش مصنوعی و ChatGPT پیشی میگیرد. با این حال، در این مرحله، Deep Research در استخراج بینشهای جدید از اطلاعات موجود به همان اندازه موثر نیست و هنوز نمیتواند اکتشافات علمی جدیدی انجام دهد.
نکات کلیدی:
- OpenAI دومین عامل خود، Deep Research، را راهاندازی کرده است که قادر به انجام تحقیقات آنلاین کامل است.
- قابلیتهای عامل از آموزش سرتاسری مدل ناشی میشود.
- Deep Research در ترکیب اطلاعات و یافتن حقایق مبهم عالی است.
- موارد استفاده شامل کار حرفهای، زندگی شخصی، برنامهنویسی و آموزش میشود.
- این تیم پیشبینی میکند که پیشرفتهای چشمگیری برای عاملها در سال 2025 رخ دهد.
قابلیتهای عامل از آموزش سرتاسری مدل ناشی میشود
Deep Research عاملی است که قادر به جستجوی چندین وبسایت آنلاین و تولید گزارشهای جامع است و بسیاری از وظایفی را که ساعتها برای انسانها طول میکشد، انجام میدهد. این عامل در ChatGPT عمل میکند و به سوالات در حدود 5 تا 30 دقیقه پاسخ میدهد، تحقیقات عمیقتر را امکانپذیر میکند و پاسخهای دقیقتر و خاصتری نسبت به ChatGPT استاندارد ارائه میدهد. OpenAI قبلاً Operator را راهاندازی کرده بود و Deep Research دومین عامل آن است و موارد بیشتری در راه است.
ریشهها
حدود یک سال پیش، OpenAI شروع به اتخاذ یک الگوی استدلال در داخل کرد، با هدف آموزش مدلها برای فکر کردن قبل از پاسخ دادن. این رویکرد بسیار موفقیتآمیز بود.
در ابتدا، OpenAI روی ریاضیات و علوم تمرکز کرد. با این حال، آنها کشف کردند که این معماری مدل استدلال جدید، توانایی انجام وظایف بلندمدتتر، شامل قابلیتهای عامل را نیز باز میکند.
همزمان، OpenAI تشخیص داد که بسیاری از وظایف نیاز به تحقیقات آنلاین گسترده یا زمینه خارجی، تواناییهای استدلال قوی، تشخیص منابع اطلاعات و درجهای از خلاقیت دارند. در نهایت، OpenAI روشهای آموزش مدلی را توسعه داد که قادر به انجام این وظایف بودند. آنها تصمیم گرفتند مدلها را برای انجام وظایف مرور، با استفاده از همان روشهایی که برای آموزش مدلهای استدلال استفاده میشود، اما برای وظایف واقعیتر، آموزش دهند.
پروژه Deep Research با یک دموی اصلی توسط ایسا فولفورد و یاش پاتیل آغاز شد. جاش توبین حدود شش ماه پیش پس از کار در یک استارتآپ به OpenAI بازگشت، به شدت به کار بنیادی علاقهمند شد و به پروژه Deep Research پیوست.
افراد کلیدی:
- ایسا فولفورد: محقق هوش مصنوعی در تیم Post-training OpenAI، یکی از مشارکتکنندگان اصلی در ChatGPT Retrieval Plugin.
- یاش پاتیل: عضو تیم مدل اصلی در تیم Post-training OpenAI، که از استنفورد انصراف داده است.
- جاش توبین: قبلاً دانشمند تحقیقاتی در OpenAI بود، بعداً Gantry (محصولی برای بهبود ML از طریق تجزیه و تحلیل، هشدارها و بازخورد انسانی) را تأسیس کرد. او به OpenAI بازگشت و در حال حاضر رهبری تیم تحقیقاتی محصول Agents را بر عهده دارد.
جریان شفافسازی
Deep Research دارای یک طراحی منحصر به فرد است: جریان شفافسازی. قبل از شروع تحقیق، مدل Deep Research از کاربر سوالاتی میپرسد. به طور معمول، ChatGPT فقط در پایان یک پاسخ سوالات بعدی را میپرسد یا میپرسد که آیا پاسخ رضایتبخش است یا خیر، برخلاف Deep Research که از همان ابتدا در این رفتار شرکت میکند.
این یک انتخاب طراحی عمدی توسط تیم بود. کاربران بهترین پاسخها را از مدل Deep Research تنها زمانی دریافت میکنند که درخواستهای آنها بسیار واضح و دقیق باشد. با این حال، کاربران اغلب تمام اطلاعات را در درخواست اولیه خود ارائه نمیدهند. بنابراین، OpenAI میخواست اطمینان حاصل کند که پس از 5 یا 30 دقیقه انتظار، کاربران پاسخی به اندازه کافی دقیق و رضایتبخش دریافت میکنند. این مرحله اضافی برای اطمینان از اینکه کاربران تمام جزئیات لازم را برای مدل ارائه میدهند، اضافه شد.
بسیاری از کاربران در X به تعامل با o1 یا o1 Pro برای اصلاح درخواستهای خود اشاره کردهاند. پس از رضایت، آنها درخواست را به Deep Research ارسال میکنند.
فرم نهایی عاملها
در چند ماه گذشته، OpenAI سه نسخه مختلف از Deep Research را راهاندازی کرده است که همگی Deep Research نام دارند. جاش توبین معتقد است که در حالی که هر محصول نقاط قوت و ضعف خود را دارد، تفاوتهای کیفی بین آنها آشکار است. در نهایت، این به دلیل نحوه ساخت مدلها، تلاش سرمایهگذاری شده در ساخت مجموعه دادهها و استفاده از مدلهای سری O به عنوان موتور است. این به مدلهای Deep Research اجازه میدهد تا بهینه شوند و ابزارهای بسیار هوشمند و با کیفیتی ایجاد کنند.
در حال حاضر، Deep Research، O3 و Operator نسبتاً مستقل هستند. با این حال، OpenAI قصد دارد که کاربران در نهایت یک عامل واحد و نهایی داشته باشند که بتواند جستجوهای وب را انجام دهد، از رایانهها استفاده کند یا سایر وظایف مورد نظر را انجام دهد، و همه این عملکردها را به روشی طبیعیتر ادغام کند.
آموزش سرتاسری دلیل اصلی قدرت مدل است
مدل زیربنایی Deep Research یک نسخه تنظیم دقیق شده از O3 است. O3 پیشرفتهترین مدل استدلال OpenAI است و بخش عمدهای از قابلیت تحلیلی Deep Research از آن ناشی میشود. OpenAI به طور خاص مدل Deep Research را بر روی وظایف پیچیده مرور و سایر وظایف استدلال آموزش داده است. بنابراین، Deep Research همچنین میتواند از ابزارهای مرور و ابزارهای Python استفاده کند. از طریق آموزش سرتاسری در این وظایف، Deep Research استراتژیهایی را برای رسیدگی به آنها آموخت، که در نهایت باعث شد مدل در تجزیه و تحلیل جستجوی آنلاین عالی باشد.
به طور شهودی، یک کاربر درخواستی میکند و مدل ابتدا به دقت در مورد آن فکر میکند. سپس، اطلاعات مربوطه را جستجو میکند، آن را استخراج میکند و میخواند. پس از درک اینکه چگونه این اطلاعات به درخواست مربوط میشود، مدل تصمیم میگیرد که در مرحله بعد چه چیزی را جستجو کند تا به پاسخ نهایی مورد نظر کاربر نزدیکتر شود. Deep Research میتواند تمام این اطلاعات را در یک گزارش منظم، با استناداتی که به منابع اصلی اشاره میکنند، ادغام کند.
نوآوریای که به Deep Research قابلیتهای عامل خود را میدهد، در آموزش سرتاسری مدل توسط OpenAI نهفته است. این بدان معناست که بسیاری از عملیات در طول فرآیند تحقیق از قبل غیرقابل پیشبینی هستند. دستیابی به انعطافپذیریای که مدل از طریق آموزش به دست میآورد، با نوشتن یک مدل زبان، برنامه یا اسکریپت غیرممکن است. از طریق آموزش، مدل Deep Research یاد گرفت که چگونه به اطلاعات وب در زمان واقعی واکنش نشان دهد و استراتژیها را به سرعت بر اساس آنچه میبیند تنظیم کند. بنابراین، مدل Deep Research در واقع در حال انجام جستجوهای بسیار خلاقانه است. کاربران میتوانند ببینند که مدل در تصمیمگیری در مورد اینکه چه چیزی را در مرحله بعد جستجو کند یا چگونه با خواندن خلاصههای CoT، مسائل خاصی را دور بزند، چقدر هوشمند است.
تفاوتهای بین Deep Research و جستجوی هوش مصنوعی
در مورد سوال جان کالیسون در مورد اینکه چه مقدار از قابلیت Deep Research از دسترسی بیدرنگ به محتوای وب و چه مقدار از CoT ناشی میشود، دو محقق OpenAI معتقدند که قابلیت برجسته Deep Research نتیجه ترکیبی از هر دو است.
سایر محصولات جستجوی هوش مصنوعی به صورت سرتاسری آموزش داده نمیشوند، بنابراین آنها به اندازه Deep Research در پاسخ به اطلاعات انعطافپذیر نیستند و در حل مشکلات خاص نیز به اندازه Deep Research خلاق نیستند.
قبل از پیوستن به OpenAI، جاش توبین در یک استارتآپ کار میکرد و سعی میکرد عاملهایی را به روشی که اکثر مردم ساخت آنها را توصیف میکنند، بسازد، که اساساً یک نمودار عملیات با LLMهایی که در برخی از گرهها مداخله میکنند، میسازد. در حالی که LLM میتواند تصمیم بگیرد که در مرحله بعد چه کاری انجام دهد، منطق کل توالی مراحل توسط انسان تعریف میشود.
جاش توبین این روش را برای نمونهسازی اولیه سریع قدرتمند یافت، اما به سرعت در دنیای واقعی با مشکل مواجه شد. پیشبینی تمام موقعیتهایی که مدل ممکن است با آن مواجه شود و در نظر گرفتن تمام شاخههای مختلف مسیرهایی که ممکن است بخواهد طی کند، دشوار است. علاوه بر این، از آنجایی که این مدلها به طور خاص برای تصمیمگیری آموزش داده نشدهاند، اغلب بهترین تصمیمگیرندگان در گرهها نیستند. آنها برای انجام کاری شبیه به تصمیمگیری آموزش داده شدهاند.
این تأکید میکند که قدرت واقعی مدل Deep Research از آموزش مستقیم سرتاسری ناشی میشود، با هدف حل وظایفی که کاربران واقعاً باید حل کنند. بنابراین، نیازی به راهاندازی یک نمودار عملیات یا تصمیمگیری گره در معماری پسزمینه نیست. همه چیز توسط خود مدل هدایت میشود.
علاوه بر این، اگر کاربری یک گردش کار بسیار خاص و قابل پیشبینی داشته باشد، انجام آن به روشی که جاش توبین در بالا توضیح داد ارزشمند است. اما اگر پردازش بسیار انعطافپذیری مورد نیاز باشد، ممکن است رویکردی شبیه به Deep Research بهترین انتخاب باشد.
جاش توبین پیشنهاد میکند که برخی از قوانین سختگیرانه نباید در مدل کدگذاری شوند. اگر نیازی مانند “نخواستن مدل برای دسترسی به یک پایگاه داده خاص” وجود دارد، بهتر است آن را با منطق نوشته شده دستی پیادهسازی کنید. مردم اغلب فکر میکنند که میتوانند با نوشتن کد از مدل باهوشتر باشند، اما در واقعیت، با توسعه این حوزه، مدلها معمولاً راهحلهای بهتری نسبت به انسانها ارائه میدهند.
یکی از مهمترین درسهای یادگیری ماشین این است که نتایجی که به دست میآورید به چیزی که برای آن بهینهسازی میکنید بستگی دارد. بنابراین، اگر کاربران بتوانند سیستمی را برای بهینهسازی مستقیم برای نتیجه دلخواه راهاندازی کنند، بسیار بهتر از تلاش برای کنار هم قرار دادن مدلهایی است که با کل وظیفه مطابقت ندارند. بنابراین، تنظیم RL بر اساس مدل کلی ممکن است به بخش کلیدی ساخت قدرتمندترین عاملها تبدیل شود.
دادههای با کیفیت بالا یکی از عوامل کلیدی موفقیت مدل است
یکی از عوامل کلیدی موفقیت مدل Deep Research، داشتن یک مجموعه داده با کیفیت بالا است. کیفیت دادههای ورودی به مدل احتمالاً عامل کلیدی تعیین کننده کیفیت مدل است. در پروژه Deep Research، ادوارد سان تمام مجموعه دادهها را بهینه میکند.
مزایای Deep Research
نقطه قوت Deep Research در توانایی آن برای ارائه بهترین پاسخها زمانی است که کاربران شرح دقیقی از نیازهای خود دارند. با این حال، حتی اگر سوال کاربر مبهم باشد، Deep Research میتواند اطلاعات مورد نظر را روشن کند. این عامل زمانی قدرتمندتر است که کاربران به دنبال مجموعه خاصی از اطلاعات باشند.
Deep Research نه تنها قادر به جمعآوری گسترده تمام اطلاعات در مورد یک منبع است، بلکه در یافتن حقایق بسیار مبهم نیز عالی است، مانند محتوای دنباله بلند که در چند صفحه اول در یک جستجوی سنتی ظاهر نمیشود، جزئیات یک قسمت خاص از یک برنامه تلویزیونی مبهم و غیره. در سوالی در مورد یک ژنرال اتریشی، ChatGPT یک بار پاسخ اشتباهی داد، در حالی که Deep Research با موفقیت پاسخ صحیح را پیدا کرد.
Deep Research در ترکیب اطلاعات، به ویژه در یافتن اطلاعات خاص و سختیاب، بسیار خوب است. با این حال، Deep Research در استخراج بینشهای جدید از اطلاعات موجود به همان اندازه موثر نیست و هنوز نمیتواند اکتشافات علمی جدیدی انجام دهد.
موارد استفاده Deep Research
کاربران هدف
Deep Research برای هر کسی که در کار روزانه یا زندگی خود به کار دانش مشغول است، به ویژه کسانی که نیاز به جمعآوری مقادیر زیادی اطلاعات، تجزیه و تحلیل دادهها و تصمیمگیری دارند، طراحی شده است. بسیاری از کاربران Deep Research را در کار خود، مانند تحقیقات، برای درک وضعیت در زمینههایی مانند بازارها، شرکتها و املاک و مستغلات به کار میبرند.
موارد استفاده
OpenAI امیدوار است که Deep Research بتواند هم در سناریوهای تجاری و هم در زندگی شخصی خدمت کند، زیرا در واقع یک قابلیت بسیار همهکاره است که هم برای کار و هم برای زندگی شخصی قابل استفاده است. جذابیت Deep Research در توانایی آن برای صرفهجویی در زمان زیاد نهفته است. برخی از وظایفی که ممکن است ساعتها یا حتی روزها طول بکشد، اکنون میتوانند 90٪ با Deep Research پاسخ داده شوند. OpenAI معتقد است که وظایف مشابه بیشتری در سناریوهای تجاری وجود خواهد داشت، اما Deep Research همچنین به بخشی از زندگی شخصی افراد تبدیل خواهد شد.
Deep Research در مورد جایگزینی نیروی کار نیست. برای کار دانش، به ویژه وظایفی که نیاز به زمان زیادی برای یافتن اطلاعات و نتیجهگیری دارند، Deep Research به افراد قدرتهای فوقالعادهای میدهد، و این امکان را فراهم میکند که وظایفی که ممکن است 4 یا 8 ساعت طول بکشد در 5 دقیقه تکمیل شوند و به کاربران اجازه میدهد تا به دستاوردهای بیشتری برسند.
در این مصاحبه به موارد استفادهای از جمله: پزشکی، سرمایهگذاری و سایر سناریوهای کاری حرفهای؛ خرید، مسافرت و سایر سناریوهای خانوادگی؛ برنامهنویسی و آموزش شخصی اشاره شد.
پزشکی، سرمایهگذاری و سایر سناریوهای کاری حرفهای
در پزشکی، Deep Research میتواند به یافتن تمام مقالات یا موارد اخیر یک بیماری خاص کمک کند، بنابراین در زمان صرفهجویی میشود.
در سرمایهگذاری، با کمک Deep Research، سرمایهگذاران میتوانند انتخاب کنند که در مورد هر استارتآپ بالقوهای که ممکن است در آن سرمایهگذاری کنند، تحقیق کنند، نه فقط آنهایی که وقت ملاقات با آنها را دارند.
در عملیات شرکت، کاربری که قصد راهاندازی یک شرکت کالاهای مصرفی را دارد، به طور گسترده از Deep Research برای تعیین اینکه آیا نامهای تجاری خاصی قبلاً ثبت شدهاند، آیا نامهای دامنه اشغال شدهاند، اندازه بازار و اطلاعات مختلف دیگر استفاده کرده است.
خرید، مسافرت و سایر سناریوهای خانوادگی
کاربری که قصد خرید یک ماشین جدید را داشت، میخواست بداند که مدل بعدی چه زمانی عرضه میشود. مقالات گمانهزنی زیادی در اینترنت وجود داشت، بنابراین کاربر از Deep Research خواست تا تمام شایعات مربوطه را جمعآوری کند. Deep Research یک گزارش عالی تهیه کرد و به کاربر اطلاع داد که ممکن است یک ماشین جدید در چند ماه آینده عرضه شود.
هنگامی که Deep Research در ژاپن راهاندازی شد، کاربران آن را برای یافتن رستورانهایی که الزامات خاصی را برآورده میکنند بسیار مفید یافتند و همچنین میتواند به کاربران کمک کند تا چیزهایی را که ممکن است در غیر این صورت پیدا نکرده باشند، کشف کنند.
هنگامی که کاربران نیاز به خرید یک کالای گرانقیمت، برنامهریزی یک سفر ویژه یا صرف زمان زیادی برای فکر کردن در مورد یک مشکل دارند، ممکن است ساعتها در اینترنت به دنبال اطلاعات مربوطه بگردند، تمام نظرات را مرور کنند و غیره. Deep Research میتواند به سرعت این اطلاعات را سازماندهی کند، یک گزارش خلاصه ایجاد کند و مشاوره دقیق و شخصی ارائه دهد.
مادران شاغل پرمشغله اغلب وقت ندارند برای فرزندان خود جشن تولد برنامهریزی کنند، اما اکنون میتوانند این کار را به سرعت با کمک Deep Research انجام دهند.
Deep Research همچنین در پیروی از دستورالعملها عالی است. اگر کاربران نه تنها میخواهند در مورد یک محصول بدانند، بلکه میخواهند آن را با تمام محصولات دیگر مقایسه کنند، یا حتی میخواهند نظرات وبسایتهایی مانند Reddit را ببینند، میتوانند درخواستهای مختلفی از Deep Research داشته باشند و این عامل تمام این وظایف را به یکباره انجام میدهد. کاربران همچنین میتوانند از Deep Research بخواهند که اطلاعات را در یک جدول قرار دهد.
برنامهنویسی
بسیاری از مردم از Deep Research برای برنامهنویسی استفاده میکنند. این سناریو در ابتدا توسط OpenAI در نظر گرفته نشده بود، اما بسیاری از مردم از آن برای نوشتن کد، جستجوی کد، حتی یافتن آخرین مستندات برای یک بسته یا نوشتن اسکریپت استفاده میکنند، با نتایج چشمگیر.
آموزش
آموزش شخصی یک سناریوی کاربردی بسیار جالب است. اگر کاربران موضوعی داشته باشند که بخواهند یاد بگیرند، مانند مرور زیستشناسی یا درک رویدادهای جاری، فقط باید قسمتهایی را که نمیفهمند یا اطلاعاتی را که میخواهند در آن عمیق شوند، ارائه دهند و Deep Research میتواند یک گزارش دقیق تهیه کند. شاید در آینده، امکان ارائه آموزش شخصی بر اساس آنچه Deep Research در مورد کاربر میآموزد، وجود داشته باشد.
عاملها در سال 2025 ظهور خواهند کرد
جهتهای توسعه آینده برای Deep Research
از نظر فرم محصول، OpenAI امیدوار است که Deep Research بتواند در آینده تصاویر را جاسازی کند، تصاویر محصولات را پیدا کند، نمودار تولید کند و این نمودارها را در پاسخها جاسازی کند.
از نظر منابع اطلاعاتی، OpenAI امیدوار است منابع دادهای را که مدل میتواند به آنها دسترسی داشته باشد، گسترش دهد. آنها امیدوارند که این مدل بتواند در آینده دادههای خصوصی را جستجو کند. OpenAI قابلیتهای مدل را بیشتر افزایش میدهد و آن را در مرور و تجزیه و تحلیل بهتر میکند.
از نظر دقت اطلاعات، برای اینکه کاربران بتوانند به خروجی Deep Research اعتماد کنند، کاربران میتوانند منابع اطلاعاتی استناد شده توسط مدل را ببینند. در طول فرآیند آموزش مدل، OpenAI همچنین تلاش میکند تا از صحت استنادات اطمینان حاصل کند، اما مدل ممکن است همچنان اشتباه کند، توهم بزند یا حتی به منبعی اعتماد کند که ممکن است معتبرترین نباشد. بنابراین، این حوزهای است که OpenAI امیدوار است به بهبود آن ادامه دهد.
برای ادغام گستردهتر در نقشه راه OpenAI Agent، OpenAI امیدوار است که Deep Research بتواند به بسیاری از سناریوهای کاربردی مختلف گسترش یابد، پیشرفتهترین مدلهای استدلال را با ابزارهایی که انسانها میتوانند برای تکمیل کار یا وظایف زندگی روزمره استفاده کنند، ترکیب کند و سپس مستقیماً مدل را برای دستیابی به نتایجی که کاربران میخواهند عامل به دست آورد، بهینه کند.
در این مرحله، در واقع هیچ چیز مانع گسترش Deep Research به سناریوهای وظیفه پیچیدهتر نمیشود. AGI اکنون یک مسئله عملیاتی است و پیشرفتهای هیجانانگیز زیادی در آینده وجود خواهد داشت که باید منتظر آنها بود.
سام آلتمن معتقد است که وظایفی که Deep Research میتواند انجام دهد، چند درصد از تمام وظایف اقتصادی مقرون به صرفه در جهان را تشکیل میدهد. جاش توبین معتقد است که Deep Research نمیتواند تمام کارها را برای کاربران انجام دهد، اما میتواند چندین ساعت یا حتی روزها در وقت کاربران صرفهجویی کند. OpenAI امیدوار است که یک هدف نسبتاً نزدیک این باشد که Deep Research و عاملهایی که در مرحله بعد ساخته میشوند، و همچنین سایر عاملهایی که بر این اساس ساخته میشوند، بسته به نوع کاری که انجام میدهند، 1٪، 5٪، 10٪ یا 25٪ از وقت کاربران را صرفهجویی کنند.
عامل و RL
ایسا فولفورد و جاش توبین موافق هستند که عاملها در سال جاری ظهور خواهند کرد.
RL یک اوج را تجربه کرد، سپس به نظر میرسید که کمی افت داشته باشد و اکنون دوباره مورد توجه قرار میگیرد. یان لکون زمانی یک قیاس داشت: اگر مردم در حال درست کردن کیک هستند، بیشتر آن کیک است، کمی خامه روی آن خواهد بود و در نهایت چند گیلاس روی آن. یادگیری بدون نظارت مانند کیک است، یادگیری با نظارت خامه است و RL گیلاس است.
جاش توبین معتقد است که هنگام انجام RL در سالهای 2015-2016، با استفاده از قیاس کیک، ممکن است تلاش برای اضافه کردن گیلاس بدون کیک بوده باشد. اما اکنون، مدلهای زبانی از پیش آموزشدیده بر روی مقادیر زیادی داده وجود دارد، این مدلها بسیار قدرتمند هستند و ما میدانیم که چگونه تنظیم دقیق با نظارت را بر روی این مدلهای زبانی انجام دهیم تا آنها را در اجرای دستورالعملها و انجام کاری که مردم میخواهند، خوب کنیم. اکنون همه چیز به خوبی کار میکند و تنظیم این مدلها با توجه به توابع پاداش تعریف شده توسط کاربر برای هر مورد استفاده بسیار مناسب است.