رمزگشایی آموزش GPT-4.5: 100,000 GPU

در یک نگاه اجمالی نادر به پشت پرده، OpenAI اخیراً جزئیاتی را در مورد توسعه جاه‌طلبانه‌ترین مدل خود تا به امروز، GPT-4.5، به اشتراک گذاشته است. این افشاگری بیش از یک ماه پس از انتشار مدل، در یک گفتگوی صریح 45 دقیقه‌ای با حضور بنیانگذار و مدیر عامل OpenAI، سام آلتمن، به همراه سه چهره فنی کلیدی از پروژه GPT-4.5 صورت گرفت. این بحث مجموعه‌ای از چالش‌های ناشناخته قبلی، از جمله فراتر رفتن از جدول زمانی قابل توجه، خرابی‌های مکرر در خوشه محاسباتی و مسیرهای غیرقابل پیش‌بینی برای ارتقای عملکرد را آشکار کرد.

پیدایش GPT-4.5: یک ادیسه دو ساله

ابتکار GPT-4.5، که دو سال قبل از راه‌اندازی آن تصور شد، دقیق‌ترین اقدام برنامه‌ریزی‌شده OpenAI تا به امروز را نشان می‌داد. این امر مستلزم تلاش هماهنگ صدها نفر بود، و آلتمن خاطرنشان کرد که این پروژه عملاً ‘تقریباً همه’ را در OpenAI درگیر کرده است. این مشارکت گسترده بر اهمیت استراتژیک GPT-4.5 در مأموریت گسترده‌تر سازمان تأکید می‌کند.

در طول مرحله توسعه، تیم OpenAI با آنچه که آنها ‘مشکلات فاجعه‌بار’ نامیدند، مواجه شدند. استقرار یک خوشه 100000 GPU آسیب‌پذیری‌های زیرساختی پنهانی را آشکار کرد که به صورت خرابی‌های نادر اما عمیق ظاهر شدند. برای ایجاد تعادل بین تسریع و عملکرد بهینه، مهندسان سیستم رویکردی تکراری را اتخاذ کردند، اساساً ‘ساخت و رفع’ به طور همزمان. یک باگ به‌ویژه گریزان، خوشه را با خطاهای مکرر آزار می‌داد و تا زمانی که فرآیند آموزش تقریباً 40 درصد به پایان رسیده بود، شناسایی نشد.

به طور متناقض، این آزمایش‌ها به تقویت بنیاد فنی OpenAI کمک کرد. تخصص به دست آمده اکنون یک تیم کوچک متشکل از تنها 5 تا 10 نفر را قادر می‌سازد تا یک مدل در مقیاس GPT-4 را تکثیر کنند. جهش عملکرد از GPT-4 به GPT-4.5، که حدود ده برابر تخمین زده می‌شود، با ‘هوش جامعاً بهبود یافته اما دشوار برای اندازه‌گیری’ مشخص شد، که حتی کسانی را که در OpenAI هستند شگفت‌زده کرد. این جهش کیفی حاکی از پیشرفت‌هایی فراتر از صرفاً مقیاس‌بندی است و به پیشرفت‌های اساسی در توانایی مدل در استدلال و درک اشاره دارد.

با نگاهی به آینده، OpenAI تشخیص می‌دهد که دستیابی به مرتبه بزرگی بعدی در عملکرد، نه تنها به قدرت محاسباتی، بلکه به بازده داده نیز بستگی دارد. تمرکز در حال تغییر به سمت توسعه الگوریتم‌هایی است که می‌توانند دانش بیشتری را از مجموعه داده‌های موجود استخراج کنند، در نتیجه سودمندی منابع محاسباتی موجود را به حداکثر می‌رسانند.

علاوه بر این، معماری در حال تکامل از یک خوشه واحد به یک طرح چند خوشه‌ای است، که سناریوهای آموزشی آینده را شامل یادگیری مشارکتی در حدود 10 میلیون GPU تصور می‌کند. این انتقال مستلزم پیشرفت‌های قابل توجهی در تحمل خطا برای اطمینان از ثبات و قابلیت اطمینان چنین سیستم‌های توزیع‌شده در مقیاس بزرگ است.

این گفتگو همچنین به رابطه بین ‘دم بلند’ داده و قوانین مقیاس‌بندی، مزایای همکاری نزدیک بین تیم‌های یادگیری ماشین و سیستم (طراحی مشترک)، ماهیت یادگیری بدون نظارت و فرهنگ حل مسئله دقیق پرداخت.

بازیکنان کلیدی پشت GPT-4.5

علاوه بر آلتمن، سه عضو دیگر تیم OpenAI که در این گفتگو شرکت داشتند عبارتند از:

  • الکس پینو: مسئول الگوریتم‌های یادگیری ماشین پیش‌آموزش GPT-4.5.
  • امین توتونچیان: معمار ارشد سیستم OpenAI.
  • دانیل سلسام: در مورد کارایی داده و الگوریتم‌ها تحقیق می‌کند.

منشاء و تکامل GPT-4.5

سام آلتمن: واقعاً چه چیزی برای ساخت یک مدل به بزرگی GPT-4.5 لازم است؟

الکس پینو: ما این پروژه را حدود دو سال پیش آغاز کردیم. در آن زمان، OpenAI در شرف راه‌اندازی یک خوشه محاسباتی بزرگ جدید بود و تیم ما این فرصت را دید و یک سری وظایف را برای تعیین عملکردهایی که مدل باید شامل شود، انجام داد و تعداد زیادی آزمایش عملیات کاهش ریسک را انجام داد.

ما یک برنامه طولانی برای این کار توسعه دادیم که شامل کل پشته فناوری از سیستم تا یادگیری ماشین بود. کاهش ریسک و آماده‌سازی برای آموزش یک فرآیند اجرای طولانی است و خود آموزش نیز یک پروژه بسیار بزرگ است.

امین توتونچیان: من فکر می‌کنم این فرآیند از ابتدا تا زمانی که به وضوح بدانیم چه مدلی می‌خواهیم آموزش دهیم و سپس شروع به آموزش کنیم، مستلزم همکاری نزدیک بین تیم یادگیری ماشین و تیم سیستم است.

ما در یادگیری ماشین و سیستم پیش‌بینی‌هایی انجام داده‌ایم و سعی کرده‌ایم شکاف بین انتظارات و واقعیت را به حداقل برسانیم. با این حال، از آنجایی که ریتم کاری ما بسیار سریع است و باید از جدیدترین منابع محاسباتی استفاده کنیم، آموزش مدل به چیزی تبدیل شده است که برنامه‌ریزی آن از قبل دشوار است.

ما تقریباً همیشه آموزش را با بسیاری از مشکلات حل نشده شروع می‌کنیم و سعی می‌کنیم در طول فرآیند بر چالش‌ها غلبه کنیم و پیشرفت کنیم. راه حل اصلی افزایش منابع محاسباتی بیشتر است.

مرحله نهایی اجرا است که به سرمایه‌گذاری انرژی و انگیزه زیاد برای مدت طولانی برای تکمیل فرآیند آموزش نیاز دارد.

سام آلتمن: فکر می‌کنید شکاف بین انتظارات و واقعیت ما چقدر است؟

امین توتونچیان: از نظر سیستم، در ابتدا، ما معمولاً از حالت مورد انتظار بسیار دور هستیم. ما همیشه با یک انتخاب روبرو هستیم: اینکه راه اندازی را به تعویق بیندازیم و منتظر بمانیم تا مشکل حل شود، یا زود شروع کنیم و مشکل را در این فرآیند حل کنیم. این همیشه مستلزم سازش برای جلوگیری از تاخیرهای غیرمنطقی در فرآیند است.

اما تقریباً همیشه مشکلات غیرمنتظره وجود دارد، و کاری که باید انجام دهیم این است که تا حد امکان این گره‌ها را مدیریت کنیم، با عوامل ناشناخته مقابله کنیم و برنامه‌ای برای آموزش مدل تدوین کنیم.

الکس پینو: در این پروژه، هدف ما ساخت GPT-4.5 است، به این معنی که قابلیت‌های آن باید 10 برابر هوشمندتر از GPT-4 باشد. این هدف اولیه ای است که ما حدود 2 سال پیش تعیین کردیم.

در این فرآیند اتفاقات زیادی افتاد. ما به این فکر می‌کردیم که آیا می‌توانیم بهتر یا بدتر از حد انتظار عمل کنیم؟ این یک فرآیند بسیار پیچیده است، اما در نهایت، از نظر محاسبات موثری که انجام دادیم، مدلی به دست آوردیم که فکر می‌کنیم 10 برابر هوشمندتر از GPT-4 است.

امین توتونچیان: از نظر اجرا، زمان صرف شده برای پروژه GPT-4.5 از آنچه در ابتدا انتظار داشتیم بسیار دور است.

انقلاب تیم کوچک: آموزش GPT-4 با حداقل منابع

سام آلتمن: وقتی خوشه از 10000 کارت به 100000 کارت افزایش یافت، چرا با این همه مشکل مواجه شدید؟

امین توتونچیان: من فکر می‌کنم اگر توسعه‌دهندگان سیستم به اندازه کافی حساس باشند، بیشتر مشکلات را می‌توان در مرحله کوچک مشاهده کرد.

همچنین برخی از مشکلاتی وجود دارد که مختص مرحله آموزش در مقیاس بزرگ نیستند، اما در اصل به طور مکرر رخ داده‌اند، اما پس از افزایش مقیاس، به مشکلات فاجعه‌باری تبدیل می‌شوند، به خصوص زمانی که تیم از قبل پیش‌بینی نکرده باشد که این مشکلات تا این حد بدتر می‌شوند.

سام آلتمن: چه چیزهایی باعث پیامدهای فاجعه‌باری شده است؟

امین توتونچیان: من فکر می‌کنم مشکلات زیرساختی به خوبی شناخته شده است. نرخ خرابی، نوع خرابی و میزان کل خرابی‌ها بسیار زیاد است. خوشه 100000 کارتی یک استخر نمونه در مقیاس بزرگ است، بنابراین مشکلاتی را نیز کشف کردیم که تامین کننده قدرت محاسباتی مشاهده نکرده است.

شبکه بخشی از آن است و شتاب‌دهنده‌های منفرد نیز می‌توانند مشکلاتی داشته باشند. اما این نیز زیبایی این سیستم است - تقریباً همه اجزا باید مطابق انتظار کار کنند تا نتایج مورد انتظار را تولید کنند. وظیفه ما این است که تا حد امکان این مشکل را به حداقل برسانیم.

سام آلتمن: کار کردن در حد مقیاس خوشه واقعاً دشوار است، اما من همچنین متوجه شدم که انجام کارهایی که دیگر در خط مقدم فناوری نیستند بسیار آسان‌تر شده است. آموزش GPT-4.5 به صدها نفر نیاز دارد و تقریباً همه در OpenAI درگیر هستند.

اما امروز، اگر به شما اجازه داده شود کوچکترین تیم را از OpenAI انتخاب کنید و GPT-4 را از ابتدا با تمام دانشی که می‌دانیم و تمام کارهای سیستمی که انجام داده‌ایم دوباره آموزش دهید، به چند نفر نیاز است؟

الکس پینو: من فکر می‌کنم ممکن است حدود 5 تا 10 نفر برای ساخت یک مدل در سطح GPT-4 اکنون نیاز باشد. پشته فناوری در فرآیند تکمیل GPT-4.5 بسیار بهبود یافته است.

در واقع، ما کارهای مشابهی را در فرآیند آموزش GPT-4.5 انجام داده‌ایم - ما GPT-4o را آموزش دادیم، که یک مدل در سطح GPT-4 است، و آن را با استفاده از بسیاری از محتوای مشابه از پروژه تحقیقاتی GPT-4.5 دوباره آموزش دادیم. افراد کمتری برای آن آموزش استفاده شدند.

بازده داده: کلید باز کردن نسل بعدی مدل‌ها

سام آلتمن: از دیدگاه شما، دن؟ چرا آموزش مدل‌های بزرگ دشوار است؟

دانیل سلسام: من فکر می‌کنم انجام هر کار جدیدی دشوار است. من فکر می‌کنم حتی فقط کشف اینکه شخص دیگری کاری انجام داده است، آن را بسیار آسان‌تر می‌کند، زیرا سخت‌ترین قسمت این است که این باور را داشته باشید که می‌توانید در وهله اول کاری انجام دهید. من فکر می‌کنم فقط دانستن اینکه چیزی امکان پذیر است، یک کد تقلب فوق‌العاده است و کارها را بسیار آسان‌تر می‌کند.

الکس پینو: ما در حال گسترش عملیات پیش‌آموزش GPT به 10 برابر آنچه قبلاً بود هستیم و همیشه چیزهای جدید و جالبی پیدا خواهیم کرد که لزوماً نمی‌توانید پیش‌بینی کنید.

سام آلتمن: برای دستیابی به 10 برابر یا 100 برابر رشد بعدی در مقیاس پیش‌آموزش چه چیزی لازم است؟

دانیل سلسام: بازده داده. معماری ترانسفورمر (که GPT است) در استفاده از داده بسیار کارآمد است. این می‌تواند اطلاعات را به خوبی جذب و فشرده کند و به تعمیم دست یابد. بزرگترین ویژگی آن این است که می‌تواند به طور موثر اطلاعات را با منابع محاسباتی جذب کند.

با این حال، عمق بینشی که از داده به دست می‌آورد محدود است. هنگامی که قدرت محاسباتی به سرعت رشد می‌کند در حالی که داده‌ها نسبتاً کند رشد می‌کنند، داده‌ها به یک گلوگاه در این مدل استاندارد تبدیل می‌شوند. این امر مستلزم نوآوری الگوریتمی است، توسعه روش‌هایی که می‌توانند از قدرت محاسباتی بیشتری برای یادگیری دانش بیشتر از همان مقدار داده استفاده کنند.

سام آلتمن: به نظر شما برای حفظ گسترش علاوه بر این به چه چیز دیگری نیاز داریم؟

امین توتونچیان: پاسخ من در مورد سیستم است. من فکر می‌کنم حجم عظیمی از کار مورد نیاز برای GPT-4.5 اساساً نتیجه اجتناب ناپذیر مشخصات مدل است. ما نمی‌توانیم GPT-4.5 را دقیقاً با همان معماری فنی GPT-4 آموزش دهیم.

از نظر مدیریت وضعیت، از آنجایی که منابع محاسباتی مورد نیاز از ظرفیت یک خوشه واحد فراتر رفته است، باید به یک معماری آموزشی چند خوشه‌ای تغییر دهیم. برای دستیابی به این هدف، باید چندین گردش کار مختلف را در مدت زمان کوتاهی ادغام کنیم.

اگرچه این به ما کمک کرد تا به یک پیشرفت مرحله‌ای دست یابیم، برای دستیابی به مرتبه بزرگی بعدی بهبود عملکرد، همچنان باید چندین مشکل فنی شناخته شده اما به طور موقت به تعویق افتاده را حل کنیم - این مشکلات قابل اجتناب نیستند. این نوع سازش فنی است که دائماً چرخه توسعه یک سیستم عالی را طولانی می‌کند. ما همیشه در فرآیند پیگیری طرح پیاده‌سازی بهینه، سازش‌های استراتژیک انجام می‌دهیم.

لازم است روشن شود که خود سیستم هدف نهایی نیست. ارزش خروجی واقعی آن ملاحظات اصلی است. برای 10 برابر بهبود عملکرد بعدی، من فکر می‌کنم پیشرفت در تحمل خطا بسیار مهم است. ما باید یک مکانیزم تحمل خطا ایجاد کنیم که عمیقاً با حجم کار همکاری کند تا اضطراب عملیات و نگهداری را به میزان قابل توجهی کاهش دهد. پیچیدگی عملیات و نگهداری سیستم فوق‌العاده بزرگ فعلی اساساً با سیستم‌های قبلی متفاوت است.

سام آلتمن: آیا می‌دانید چه درصدی از خرابی‌ها در طول آموزش GPT-4.5 توسط اجزای خاصی ایجاد شده است؟

امین توتونچیان: من آمار دقیقی برای اشتراک‌گذاری ندارم، اما به طور کلی، استقرار اولیه نسل جدیدی از سخت‌افزار اغلب با چالش‌های فنی زیادی روبرو است که به طور کامل درک نشده‌اند. ما تصمیم گرفتیم قبل از اینکه مشکل به طور کامل روشن شود، پروژه را پیش ببریم، که منجر به نرخ خرابی اولیه بالایی شد.

اما تجربه نشان می‌دهد که با شناسایی و حل علت اصلی، نرخ خرابی به طور قابل توجهی کاهش می‌یابد. این پدیده اساساً منعکس کننده تعمیق درک ما از زیرساخت است - برخی افراد آن را پاکسازی زیرساخت یا درک مشکلات اساسی زیرساخت می‌نامند.

مراحل اولیه اجرا تقریباً همیشه کاملاً دردناک است. در حالی که ما در حال پیشبرد پروژه هستیم، به طور مداوم در حال کشف و حل حالت‌های خرابی جدید نیز هستیم، اما در نهایت نرخ خرابی به تدریج کاهش می‌یابد و زمان اجرای عادی افزایش می‌یابد.

این اساساً یک موضوع سازش اولویت است: در مراحل اولیه چرخه عمر زیرساخت، خطر خرابی آن اغلب به سختی قابل تخمین است. و اگر ما بیش از حد به دنبال حالت ایده‌آل نهایی باشیم (اصلی ‘شهر املاک’ است، طراحی شهر-ایالت ایده‌آل)، ممکن است منجر به عملکرد در دسترس بودن اولیه سیستم بسیار ضعیف شود.

فراتر از محاسبه: نوآوری الگوریتمی و پتانسیل استفاده نشده از داده‌ها

سام آلتمن: اگرچه مدل استنتاج یک جزء کلیدی از پشته فناوری آینده ما است، اما بیایید به طور موقت بر مرزهای توسعه مدل‌های پیش‌آموزش سنتی تمرکز کنیم. با فرض اینکه قدرت محاسباتی GPU نامحدود، پهنای باند شبکه نامحدود و منبع تغذیه نامحدود داشته باشیم، اما همچنان توسط تنگناهای فنی موجود محدود شویم - از جمله مسائل مربوط به قابلیت اطمینان سیستم، کمبود روش‌های آموزش تحمل خطا و محدودیت‌های مجموعه داده‌های موجود.

با توجه به قاعدهتکامل ما برای دستیابی به 100 برابر افزایش مقیاس برای هر نسخه اصلی GPT، بر اساس مرزهای فنی فعلی، توسعه مدل‌های پیش‌آموزش به چه سطحی می‌تواند برسد؟ به طور خاص، برای مدل‌های سری GPT، بر اساس سیستم دانش موجود ما، چه نوع مدلی را می‌توان از نظر تئوری آموزش داد؟ آیا می‌توانیم GPT-5.5 را بسازیم؟

الکس پینو: از منظر یادگیری ماشین و توسعه الگوریتم، ما هنوز به یک محدودیت نظری واضح نرسیده‌ایم. در واقع، ما فقط شروع به بررسی الگوریتم‌هایی با بازده داده بالاتر و نحوه استفاده کامل‌تر از منابع داده موجود کرده‌ایم. این وضعیت بسیار جالب است - حتی مدل‌هایی مانند GPT-4 نیز عمدتاً در شرایط منابع محاسباتی محدود توسعه یافته‌اند، که جهت بیشتر تحقیقات قبلی را تعیین کرده است.

اما اکنون وضعیت کاملاً متفاوت است. از زمان GPT-4.5، در برخی ابعاد کلیدی، داده‌ها به جای محاسبه در حال تبدیل شدن به محدودیت اصلی هستند. این تغییر باعث می‌شود تحقیقات مرتبط کمتر هیجان‌انگیز شود.

سام آلتمن: اما این واقعاً یک پیشرفت شگفت‌انگیز است و جهان ممکن است به طور کامل درک نکند که منابع محاسباتی دیگر تنگنای اصلی در بهترین مدلی که می‌توانیم بسازیم نیستند. این تغییر بسیار معنادار است، به هر حال، ما مدت زیادی در یک محیط محاسباتی محدود زندگی کرده‌ایم.

آشکار کردن شگفتی‌ها: قابلیت پیش‌بینی در مقابل هوش پیش‌بینی نشده

سام آلتمن: جالب‌ترین تجربه یادگیری ماشین که در طول آموزش GPT-4.5 آموختیم چیست؟ فقط هر آنچه را که می‌خواهید به اشتراک بگذارید بگویید.

امین توتونچیان: به طور کلی، جالب‌ترین چیزها چیزهایی هستند که از پیش‌بینی‌های ما منحرف می‌شوند - به خصوص زمانی که سعی می‌کنیم بفهمیم چرا عملکرد واقعی از منحنی مورد انتظار منحرف می‌شود.

الکس پینو: یکی از شگفت‌انگیزترین کشف‌ها برای ما این است که اجزای مختلف یادگیری ماشین عملکردهای مقیاس‌پذیری بسیار متفاوتی دارند. برخی از قسمت‌ها می‌توانند بسیار خوب گسترش یابند، در حالی که برخی دیگر نمی‌توانند. این همان چیزی است که ما واقعاً در طول فرآیند آموزش واقعی متوجه شدیم. این تجربه الهام زیادی به ما داد.

دانیل سلسام: من فکر می‌کنم دو ویژگی اصلی الگوی GPT عبارتند از: اول، تلفات آزمایشی (معیاری که میزان عملکرد مدل در داده‌های آزمایشی دیده نشده را اندازه‌گیری می‌کند) را می‌توان به طور دقیق پیش‌بینی کرد؛ دوم، عملکرد مدل با افزایش مقیاس بهبود قابل پیش‌بینی را نشان می‌دهد. حتی شگفت‌انگیزتر این است که کاهش در تلفات آزمایشی به یک سطح هوشمندانه بهبود یافته در همه زمینه‌ها به روش‌های مختلف دشوار برای اندازه‌گیری اما شگفت‌انگیز و مرموز تبدیل می‌شود.

سام آلتمن: آیا در مورد این کاملاً خوشبین هستید؟ آیا شما کاملاً با این دیدگاه موافق هستید؟

دانیل سلسام: در واقع، چیزی که می‌خواهم بگویم این است که ما یک پدیده جالب خاص را در آزمایش GPT-4.5 پیدا کردیم - پس از آزمایش مجدد، بسیاری از قابلیت‌های پیچیده‌ای که توسط مدل نشان داده شد، کاملاً فراتر از انتظارات همه بود.

ما مطمئن هستیم که به روش‌های مختلفی هوشمندتر خواهد شد که پیش‌بینی آنها از قبل دشوار است، و این پیشرفت‌های ظریف را می‌توان از رضایت کاربر پس از استقرار واقعی مشاهده کرد: ذخایر عقل سلیم قوی‌تر، توانایی درک متنی دقیق‌تر و درک معنایی ظریف‌تر - این جادویی است که توسط آن تلفات آزمایشی اضافی به ارمغان می‌آورد. به نظر من، قانون مقیاس‌بندی در این بعد کاملاً تأیید شده است.

قدرت همکاری: تیم‌های یادگیری ماشین و سیستم در هماهنگی کار می‌کنند

سام آلتمن: مثبت‌ترین لحظه در کل فرآیند آموزش چه بود؟ خاطره مورد علاقه شما چیست؟ بدیهی است که درد زیادی وجود دارد، اما امیدوارم آن درد کاهش یافته باشد.

الکس پینو: من چنین لحظه‌ای را دارم. ما در طول آموزش کارهای یادگیری ماشین زیادی انجام دادیم و من فکر می‌کنم برخی از تغییراتی که در طول فرآیند ایجاد کردیم تأثیر بسیار خوبی داشت، شاید حتی بهتر از حد انتظار، که لحظه بسیار هیجان‌انگیزی برای ما بود.

امین توتونچیان: برای من، همزمان با آموزش، ما در حال ساخت زیرساخت نیز هستیم. ما قاطعانه معتقدیم که می‌توانیم از این صخره عملکرد عبور کنیم، و ما یک برنامه داریم، و همه آن را اجرا می‌کنند، اما مدت زیادی طول می‌کشد. این کار سخت است و قطعا سخت‌تر از آن چیزی است که فکر می‌کردم. پیش‌بینی من اشتباه بود و زمان مورد نیاز برای حل این مشکلات را دست کم گرفتم.

لحظه‌ای که تیم در نهایت بر آن مشکلات کلیدی غلبه کرد و عملکرد به طور قابل توجهی بهبود یافت، هنوز در ذهن من تازه است. شما می‌توانید به وضوح تغییر انرژی را در کل تیم احساس کنید - همه به طور ناگهانی پر از انرژی هستند و با انگیزه جدید به سمت هدف نهایی می‌روند.

شگفت‌انگیزترین چیز این است که زمان تکمیل تخمین زده شده نمایش داده شده در ردیاب وضعیت ما به طور مداوم از دو سال اولیه کاهش می‌یابد و در نهایت در یک گره زمانی واضح قفل می‌شود. این پیشرفت قابل مشاهده برای افزایش روحیه تیم غیرقابل اندازه‌گیری است. من فکر می‌کنم این زیبایی آن است.

من می‌خواهم تأکید کنم که کار یادگیری ماشین هرگز متوقف نشده است. حتی پس از شروع آموزش، این فرآیند طراحی مشترک یادگیری ماشین همچنان در حال انجام است. تیم یادگیری ماشین نه تنها فعالانه پیگیر مشکلاتی بود که به عنوان ‘پردازش بعدی’ علامت‌گذاری شده بودند، بلکه به ارائه پیشرفت‌هایی که واقعاً زمان آموزش را بهینه می‌کردند نیز ادامه داد.

این کاملاً روحیه تیمی ما را نشان می‌دهد - در اینجا هیچ مرز کاری ‘جارو کردن برف در مقابل درب خانه خود’ وجود ندارد، بلکه یک همکاری واقعاً یکپارچه است. این انسجام بزرگترین مزیت ما است.

برنامه‌ریزی دقیق و پیگیری بی‌امان ناهنجاری‌ها در پیش‌آموزش GPT-4.5

دانیل سلسام: دنیای بیرون در مورد چالش‌ها و دقت پیش‌بینی این آموزش بسیار بحث کرده است. اما در واقع، همه اینها بر اساس برنامه‌ریزی بسیار دقیق ساخته شده است - می‌توانید در این مورد بیشتر توضیح دهید؟

الکس پینو: این قطعاً دقیق‌ترین برنامه‌ای است که تاکنون ساخته‌ایم. همانطور که گفتم، ما یک سال قبل از راه‌اندازی رسمی آموزش، شروع به آماده‌سازی برای این پروژه کردیم. در طول این مدت، ما چندین دوره آزمایش کنترل ریسک در مقیاس بزرگ را انجام دادیم.

ما توجه ویژه‌ای به معرفی تدریجی تمام بهبودها داریم: شروع از یک پیکربندی اساسی با اطمینان بالا - که می‌تواند به عنوان یک معماری بالغ مشابه GPT-4 درک شود، ما این پیکربندی را در سطح یادگیری ماشین به طور کامل تسلط یافته‌ایم - و سپس لایه‌بندی ویژگی‌های جدید مانند بلوک‌های ساختمانی.

نکته کلیدی این است که مقیاس‌پذیری هر بهبود را در مقیاس‌های مختلف به طور دقیق تأیید کنیم: نه تنها برای دیدن بهبودهای عملکرد، بلکه برای اطمینان از اینکه این بهبودها می‌توانند با افزایش اندازه مدل همچنان موثر باشند. بسیاری از بهبودها در آزمایش‌های مقیاس کوچک به خوبی عمل می‌کنند، اما در برنامه‌های کاربردی در مقیاس بزرگ با شکست مواجه می‌شوند.

بنابراین، ما در طول فرآیند درجه بالایی از هوشیاری را حفظ کرده‌ایم و به طور مداوم روش‌شناسی قانون مقیاس‌بندی خود را تکرار و بهبود بخشیده‌ایم. از طریق این تمرین کنترل ریسک، تجربه ارزشمندی را جمع آوری کرده‌ایم که همچنان توسعه مدل‌های سری GPT آینده را هدایت می‌کند.

امین توتونچیان: من یک لحظه بسیار جالب را به یاد می‌آورم که بسیار دلم برای آن تنگ شده است. می‌دانید، ما تقریباً به طور اجتناب ناپذیری هر بار که یک کار آموزشی را شروع می‌کنیم با اشکالات مختلفی مواجه می‌شویم، که امری عادی است. اما نکته کلیدی این است که اطمینان حاصل شود که پیشرفت مانع نمی‌شود، و ما همیشه باید تأیید کنیم که آیا پیشرفت فعلی واقعاً در مسیر درست است و آیا این اشکالات تأثیر مرگباری بر سلامت آموزش خواهند داشت.

اگرچه ما در ابتدا بسیار مطمئن بودیم که نقص‌های عمده‌ای وجود دارد، اما از طریق کل سیستم نظارتی که ساخته‌ایم، توانستیم علت اصلی مشکل را به طور دقیق تشخیص دهیم: آیا این یک خرابی سخت‌افزاری است؟ چه نوع خرابی سخت‌افزاری؟ آیا این خرابی داده است؟ یا یک اشکال در خود مدل یادگیری ماشین است؟ یا یک شرط مسابقه در کد است؟

در آن زمان، ما چندین قسمت بحث مشکل به طور همزمان باز کرده بودیم، با انواع علائم. پس از یک سری رفع اشکال، ما به یک بن بست رسیدیم: چندین مشکل حل نشده در مقابل ما جمع شده بود، و همه مغز خود را به کار می‌گرفتند - آیا اینها ناشی از اشکالات مختلف هستند؟ یا یک اشکال است که باعث مشکل می‌شود؟

بعداً، ما یک رای گیری برگزار کردیم و از اعضای تیم خواستیم که به محتمل‌ترین علت اصلی رای دهند. در نتیجه، کمترین گزینه خوشبینانه به حقیقت رسید: معلوم شد که در عملکرد torch.sum بالادست PyTorch، یک عملیات جمع ساده مشکلی وجود دارد.

این اشکال بسیار جالب است. می‌دانید که ما عمدتاً از هسته Triton استفاده می‌کنیم، و فقط در برخی از سناریوهای حاشیه‌ای ناچیز به عملیات مشعل باز می‌گردیم. اشکال عملکرد torch.sum که توسط مسیر کد خاص ما ایجاد می‌شود، گهگاه به دلیل ویژگی‌های توزیع داده باعث دسترسی غیرقانونی به حافظه می‌شود - هنگام محاسبه افست حافظه اشتباهی مرتکب می‌شود.

دراماتیک‌ترین چیز این است که وقتی یک مهندس در نهایت مشکل را پیدا کرد و یک رفع اشکال را ارسال کرد، تمام خطاهای با علائم مختلف ناپدید شدند. همه با هیجان کانال Slack را از ‘نظریه چند اشکاله’ به ‘نظریه تک اشکاله’ تغییر دادند، و صحنه بسیار خوشحال بود.

این اشکال چه مدت در کمین بوده است؟ این از مراحل اولیه آموزش وجود داشته است و تا زمانی که نوار پیشرفت از حدود 40٪ عبور نکرده بود، پیدا نشد. فرآیند کشف نیز پر از درام بود: در آن زمان، یک هسته پیچیده به طور مداوم یک دنباله را فراخوانی می‌کرد، و تماس دوم باعث دسترسی غیرقانونی به حافظه می‌شد.

اگرچه این فرکانس خرابی بسیار پایین است (فقط یک بار در هر چند صد یا حتی هزار مرحله آموزشی رخ می‌دهد)، اما به راحتی می‌توان آن را به عنوان یک خرابی گاه به گاه نادیده گرفت، اما اصل تیم ما این است: هرگز هیچ ناهنجاری را رها نکنید. بهترین بخش این داستان در این پافشاری برای تسلیم نشدن به راحتی نهفته است.

تلاش برای سیستم‌های ایده‌آل: یک افق دور

سام آلتمن: پس از شروع پیش‌آموزش GPT-4.5، چه کار دیگری باید انجام دهید؟

الکس پینو: همه ما باید منحنی تلفات را به طور مکرر مشاهده کنیم. علاوه بر این، ما باید به طور مداوم سیستم را بهینه کنیم و طراحی مشترکی را که قبل از شروع آموزش تکمیل نشده بود، بهبود بخشیم. ما از نزدیک شاخص‌های آماری مختلف را در طول فرآیند آموزش نظارت می‌کنیم تا اطمینان حاصل کنیم که هیچ روند غیرعادی غیرمنتظره‌ای وجود ندارد. در عین حال، ما برنامه‌های بهبود احتمالی را از منظر یادگیری ماشین بررسی می‌کنیم. اگرچه کار در سطح داده پس از شروع پیش‌آموزش به طور موقت کاهش می‌یابد، اما هنوز تعداد زیادی وظیفه برای پردازش وجود دارد.

امین توتونچیان: من فکر می‌کنم یادگیری ماشین تا حد زیادی به صحت قضاوت بستگی دارد. پس از شروع پیش‌آموزش، در مواجهه با تعداد زیادی سیگنال نویز، ما مانند طالع‌بینانی هستیم که برگ‌های چای را تفسیر می‌کنند و باید قضاوت کنیم که آیا سیستم سالم است یا خیر. این مسئولیت ماست.

سام آلتمن: در سطح سیستم، چه چیزی ما را از انجام آموزش مدل محدود می‌کند؟ آیا تراشه‌ها، پردازنده‌ها، حافظه، شبکه یا برق است؟

امین توتونچیان: زیبایی سیستم این است که هنگام انجام طراحی مشترک، حجم کار می‌تواند با زیرساختی که می‌سازید سازگار شود. در اینجا هیچ گفته کلی وجود ندارد که شبکه گلوگاه است، یا پهنای باند حافظه گلوگاه است، و غیره. حتی برای مدل‌هایی با همان مشخصات، می‌توانیم انتخاب کنیم که الزامات منابع را منتقل کنیم، و می‌توانیم انتخاب کنیم که یک سیستم متعادل‌تر ایجاد کنیم، اما داشتن پهنای باند حافظه بیشتر همیشه مفید است. پاسخ دادن به این سوال بدون شرایط محدود کننده دشوار است.

هنگام طراحی GPT-4.5، ممکن است به سیستم نیاز داشته باشیم که نوعی ویژگی داشته باشد، که باید تحت هدایت انسان ایجاد شود. بنابراین، طراحی مشترک برای شکل دادن به معماری مدل و عناصر معماری بسیار مهم است و تا حدودی جنبه‌های سیستم و یادگیری ماشین را به هم متصل می‌کند. اگر سیستم دارای ویژگی باشد که ما نمی‌خواهیم خیلی داشته باشیم، وضعیت ایده‌آل من این است که همه چیز باید جدا شود تا حداکثر فضا به یکدیگر داده شود.

گاهی اوقات همه چیز به هم متصل می‌شود، و ما باید الزامات زیرساخت را برآورده کنیم، یا همه چیز باید اینگونه باشد. بیشتر اوقات، ما به یک سیستم متعادل و ارتباطات متعادل نیاز داریم. و بهترین وسیله تنظیماتی که ما داریم تمام این طراحی‌های مشترک است.

سام آلتمن: چقدر از این هدف سیستم ایده‌آل دور هستیم؟

امین توتونچیان: هنوز راه زیادی برای رسیدن به آن هدف وجود دارد. فرآیند ساخت یک سیستم همیشه اینگونه است: ابتدا یک دیدگاه ایده‌آل از نحوه کار همه چیز وجود دارد، و سپس آن تفاوت‌ها را با منابع موجود آشتی می‌دهد.

من فکر می‌کنم ما این کار را برای تئوری برای تئوری انجام نمی‌دهیم، بلکه فقط برای بحث در مورد اینکه می‌خواهیم چه چیزی شود، برای تحقق آن و برای نزدیک شدن تا حد امکان به آن ایده‌آل. این شاید هیجان‌انگیزترین بخش در زمینه سیستم باشد. مردم قبلاً می‌گفتند که این یک طراحی سیستم ظریف است، و در نهایت تاریخ به ما خواهد گفت که آیا این انتخاب درست است یا غلط.

سام آلتمن: اگر بتوانید قبل از آموزش بزرگ بعدی پاسخی برای یک مشکل یادگیری ماشین دریافت کنید، بیشتر از همه دوست دارید چه چیزی را بدانید؟

الکس پینو: من می‌خواهم بدانم از چه الگوریتم‌هایی باید در شرایط داده‌های محدود و زمینه‌های خاص استفاده کنیم. اگرچه این یک سوال گسترده است، اما در واقع مهمترین سوال است.

سام آلتمن: آیا در آینده پیش‌آموزش همزمان را با 10 میلیون GPU یا بیشتر انجام خواهید داد؟

الکس پینو: من فکر می‌کنم وجود خواهد داشت، اما ممکن است یک مدل پیش‌آموزش سنتی نباشد. شکل آن ممکن است با فناوری موجود بسیار متفاوت باشد، اما همچنان هسته یادگیری بدون نظارت را حفظ خواهد کرد.

امین توتونچیان: من حالت نیمه همزمان را ترجیح می‌دهم. به دلیل قوانین فیزیکی، همگام سازی کامل واقع بینانه نیست.

دانیل سلسام: من فکر می‌کنم احتمال بیشتری وجود دارد که غیرمتمرکز باشد. قطعاً 10 میلیون GPU با هم در یک سیستم هوش مصنوعی برای یادگیری و انجام وظایف کار خواهند کرد، اما مانند قسمت‌های مختلف مغز، ممکن است لزوماً با یکدیگر ارتباط برقرار نکنند.

قدرت هم افزایی پیشرفت‌های الگوریتمی و بازده داده

سام آلتمن: شکاف بین پیشرفته‌ترین الگوریتم‌ها و بازده داده انسانی چقدر است؟ آیا می‌توانیم امیدوار باشیم که در آینده به آن برسیم؟

دانیل سلسام: مقایسه مستقیم این دو دشوار است. شکاف در یادگیری زبان قطعاً بسیار زیاد است. نکته کلیدی این است که چگونه میزان اطلاعات دریافتی توسط اعصاب بینایی انسان را تعریف کنیم. من فکر می‌کنم الگوریتم‌ها به طور کلی بازده داده کمتری نسبت به انسان دارند.

برای دهه‌ها، یادگیری عمیق بر کارایی قدرت محاسباتی تمرکز داشته است. علاوه بر رشد داده‌ها و قدرت محاسباتی، چیزی که واقعاً شگفت‌انگیز است، اثر هم افزایی است که توسط پیشرفت‌های الگوریتمی ایجاد می‌شود. هر بار که عملکرد الگوریتم 10٪ یا 20٪ بهبود می‌یابد، هنگام سوار شدن بر بازده داده، تأثیر قابل توجهی خواهد داشت. تاکنون هیچ بسیجی در مورد بازده داده وجود نداشته است، زیرا این رویکرد زمانی که داده‌ها در حال گردش نیستند و قدرت محاسباتی محدود است، ارزشمند نیست.

اکنون، ما وارد مرحله جدیدی از تحقیقات هوش مصنوعی می‌شویم و شروع به انباشت پیروزی‌ها در بازده داده خواهیم کرد. من فکر می‌کنم کمی احمقانه است که اکنون پیش‌بینی کنیم که با موانع غیرقابل عبوری مواجه خواهیم شد. نحوه عملکرد مغز انسان قطعاً با پیشرفت‌های الگوریتمی ما متفاوت است و ما باید در این زمینه محتاط باشیم. اما من فکر می‌کنم باید در مورد توسعه آینده الگوریتم‌ها خوشبین باشیم.

سام آلتمن: همبستگی بین پیش‌آموزش در مقیاس بزرگتر و توانایی‌های یادگیری و استدلال قوی‌تر مدل چیست؟

الکس پینو: چیزی که ما مشاهده کرده‌ایم این است که پیش‌آموزش بهتر و یادگیری بدون نظارت اغلب هوش کلی مدل را بهبود می‌بخشد و در تعمیم بسیار کمک می‌کند. این مکمل توانایی استدلال است، در حالی که استدلال ممکن است در بهبود هوش کندتر باشد. من فکر می‌کنم آنها مکمل هستند.

سام آلتمن: به نظر می‌رسد پیش‌آموزش در بسیاری از موارد عمومی است، در حالی که آموزش یک مدل فقط می‌تواند آن را در یک نوع کار خوب کند، درست است؟

الکس پینو: این بسیار جالب است، اما وقتی داده‌هایی را که آنها را آموزش می‌دهند ببینید، از این وضعیت شگفت زده نخواهید شد. محدوده مجموعه داده پیش‌آموزش بسیار بزرگ است و آنچه ما دنبال می‌کنیم وسعت و تنوع است. وقتی صحبت از یادگیری تقویتی مدل می‌شود و به وضوح سیگنال‌های پاداش خوب و یک محیط آموزشی خوب به دست می‌آورد، من فکر می‌کنم تعادل وسعت مجموعه داده دشوار است.

دانیل سلسام: من موافقم، اما فکر می‌کنم یک عامل دیگر نیز وجود دارد. پیش‌آموزش اساساً فشرده‌سازی داده‌ها است، بنابراین ارتباطات بین چیزهای مختلف را کشف می‌کند. این در مورد شباهت‌ها و انتزاعی‌تر است. استدلال مهارتی است که نیاز به تفکر دقیق در مورد یک مسئله خاص دارد و همچنین می‌تواند راه حل‌هایی برای انواع مشکلات به دست آورد. با این حال، در فرآیند