در یک نگاه اجمالی نادر به پشت پرده، OpenAI اخیراً جزئیاتی را در مورد توسعه جاهطلبانهترین مدل خود تا به امروز، GPT-4.5، به اشتراک گذاشته است. این افشاگری بیش از یک ماه پس از انتشار مدل، در یک گفتگوی صریح 45 دقیقهای با حضور بنیانگذار و مدیر عامل OpenAI، سام آلتمن، به همراه سه چهره فنی کلیدی از پروژه GPT-4.5 صورت گرفت. این بحث مجموعهای از چالشهای ناشناخته قبلی، از جمله فراتر رفتن از جدول زمانی قابل توجه، خرابیهای مکرر در خوشه محاسباتی و مسیرهای غیرقابل پیشبینی برای ارتقای عملکرد را آشکار کرد.
پیدایش GPT-4.5: یک ادیسه دو ساله
ابتکار GPT-4.5، که دو سال قبل از راهاندازی آن تصور شد، دقیقترین اقدام برنامهریزیشده OpenAI تا به امروز را نشان میداد. این امر مستلزم تلاش هماهنگ صدها نفر بود، و آلتمن خاطرنشان کرد که این پروژه عملاً ‘تقریباً همه’ را در OpenAI درگیر کرده است. این مشارکت گسترده بر اهمیت استراتژیک GPT-4.5 در مأموریت گستردهتر سازمان تأکید میکند.
در طول مرحله توسعه، تیم OpenAI با آنچه که آنها ‘مشکلات فاجعهبار’ نامیدند، مواجه شدند. استقرار یک خوشه 100000 GPU آسیبپذیریهای زیرساختی پنهانی را آشکار کرد که به صورت خرابیهای نادر اما عمیق ظاهر شدند. برای ایجاد تعادل بین تسریع و عملکرد بهینه، مهندسان سیستم رویکردی تکراری را اتخاذ کردند، اساساً ‘ساخت و رفع’ به طور همزمان. یک باگ بهویژه گریزان، خوشه را با خطاهای مکرر آزار میداد و تا زمانی که فرآیند آموزش تقریباً 40 درصد به پایان رسیده بود، شناسایی نشد.
به طور متناقض، این آزمایشها به تقویت بنیاد فنی OpenAI کمک کرد. تخصص به دست آمده اکنون یک تیم کوچک متشکل از تنها 5 تا 10 نفر را قادر میسازد تا یک مدل در مقیاس GPT-4 را تکثیر کنند. جهش عملکرد از GPT-4 به GPT-4.5، که حدود ده برابر تخمین زده میشود، با ‘هوش جامعاً بهبود یافته اما دشوار برای اندازهگیری’ مشخص شد، که حتی کسانی را که در OpenAI هستند شگفتزده کرد. این جهش کیفی حاکی از پیشرفتهایی فراتر از صرفاً مقیاسبندی است و به پیشرفتهای اساسی در توانایی مدل در استدلال و درک اشاره دارد.
با نگاهی به آینده، OpenAI تشخیص میدهد که دستیابی به مرتبه بزرگی بعدی در عملکرد، نه تنها به قدرت محاسباتی، بلکه به بازده داده نیز بستگی دارد. تمرکز در حال تغییر به سمت توسعه الگوریتمهایی است که میتوانند دانش بیشتری را از مجموعه دادههای موجود استخراج کنند، در نتیجه سودمندی منابع محاسباتی موجود را به حداکثر میرسانند.
علاوه بر این، معماری در حال تکامل از یک خوشه واحد به یک طرح چند خوشهای است، که سناریوهای آموزشی آینده را شامل یادگیری مشارکتی در حدود 10 میلیون GPU تصور میکند. این انتقال مستلزم پیشرفتهای قابل توجهی در تحمل خطا برای اطمینان از ثبات و قابلیت اطمینان چنین سیستمهای توزیعشده در مقیاس بزرگ است.
این گفتگو همچنین به رابطه بین ‘دم بلند’ داده و قوانین مقیاسبندی، مزایای همکاری نزدیک بین تیمهای یادگیری ماشین و سیستم (طراحی مشترک)، ماهیت یادگیری بدون نظارت و فرهنگ حل مسئله دقیق پرداخت.
بازیکنان کلیدی پشت GPT-4.5
علاوه بر آلتمن، سه عضو دیگر تیم OpenAI که در این گفتگو شرکت داشتند عبارتند از:
- الکس پینو: مسئول الگوریتمهای یادگیری ماشین پیشآموزش GPT-4.5.
- امین توتونچیان: معمار ارشد سیستم OpenAI.
- دانیل سلسام: در مورد کارایی داده و الگوریتمها تحقیق میکند.
منشاء و تکامل GPT-4.5
سام آلتمن: واقعاً چه چیزی برای ساخت یک مدل به بزرگی GPT-4.5 لازم است؟
الکس پینو: ما این پروژه را حدود دو سال پیش آغاز کردیم. در آن زمان، OpenAI در شرف راهاندازی یک خوشه محاسباتی بزرگ جدید بود و تیم ما این فرصت را دید و یک سری وظایف را برای تعیین عملکردهایی که مدل باید شامل شود، انجام داد و تعداد زیادی آزمایش عملیات کاهش ریسک را انجام داد.
ما یک برنامه طولانی برای این کار توسعه دادیم که شامل کل پشته فناوری از سیستم تا یادگیری ماشین بود. کاهش ریسک و آمادهسازی برای آموزش یک فرآیند اجرای طولانی است و خود آموزش نیز یک پروژه بسیار بزرگ است.
امین توتونچیان: من فکر میکنم این فرآیند از ابتدا تا زمانی که به وضوح بدانیم چه مدلی میخواهیم آموزش دهیم و سپس شروع به آموزش کنیم، مستلزم همکاری نزدیک بین تیم یادگیری ماشین و تیم سیستم است.
ما در یادگیری ماشین و سیستم پیشبینیهایی انجام دادهایم و سعی کردهایم شکاف بین انتظارات و واقعیت را به حداقل برسانیم. با این حال، از آنجایی که ریتم کاری ما بسیار سریع است و باید از جدیدترین منابع محاسباتی استفاده کنیم، آموزش مدل به چیزی تبدیل شده است که برنامهریزی آن از قبل دشوار است.
ما تقریباً همیشه آموزش را با بسیاری از مشکلات حل نشده شروع میکنیم و سعی میکنیم در طول فرآیند بر چالشها غلبه کنیم و پیشرفت کنیم. راه حل اصلی افزایش منابع محاسباتی بیشتر است.
مرحله نهایی اجرا است که به سرمایهگذاری انرژی و انگیزه زیاد برای مدت طولانی برای تکمیل فرآیند آموزش نیاز دارد.
سام آلتمن: فکر میکنید شکاف بین انتظارات و واقعیت ما چقدر است؟
امین توتونچیان: از نظر سیستم، در ابتدا، ما معمولاً از حالت مورد انتظار بسیار دور هستیم. ما همیشه با یک انتخاب روبرو هستیم: اینکه راه اندازی را به تعویق بیندازیم و منتظر بمانیم تا مشکل حل شود، یا زود شروع کنیم و مشکل را در این فرآیند حل کنیم. این همیشه مستلزم سازش برای جلوگیری از تاخیرهای غیرمنطقی در فرآیند است.
اما تقریباً همیشه مشکلات غیرمنتظره وجود دارد، و کاری که باید انجام دهیم این است که تا حد امکان این گرهها را مدیریت کنیم، با عوامل ناشناخته مقابله کنیم و برنامهای برای آموزش مدل تدوین کنیم.
الکس پینو: در این پروژه، هدف ما ساخت GPT-4.5 است، به این معنی که قابلیتهای آن باید 10 برابر هوشمندتر از GPT-4 باشد. این هدف اولیه ای است که ما حدود 2 سال پیش تعیین کردیم.
در این فرآیند اتفاقات زیادی افتاد. ما به این فکر میکردیم که آیا میتوانیم بهتر یا بدتر از حد انتظار عمل کنیم؟ این یک فرآیند بسیار پیچیده است، اما در نهایت، از نظر محاسبات موثری که انجام دادیم، مدلی به دست آوردیم که فکر میکنیم 10 برابر هوشمندتر از GPT-4 است.
امین توتونچیان: از نظر اجرا، زمان صرف شده برای پروژه GPT-4.5 از آنچه در ابتدا انتظار داشتیم بسیار دور است.
انقلاب تیم کوچک: آموزش GPT-4 با حداقل منابع
سام آلتمن: وقتی خوشه از 10000 کارت به 100000 کارت افزایش یافت، چرا با این همه مشکل مواجه شدید؟
امین توتونچیان: من فکر میکنم اگر توسعهدهندگان سیستم به اندازه کافی حساس باشند، بیشتر مشکلات را میتوان در مرحله کوچک مشاهده کرد.
همچنین برخی از مشکلاتی وجود دارد که مختص مرحله آموزش در مقیاس بزرگ نیستند، اما در اصل به طور مکرر رخ دادهاند، اما پس از افزایش مقیاس، به مشکلات فاجعهباری تبدیل میشوند، به خصوص زمانی که تیم از قبل پیشبینی نکرده باشد که این مشکلات تا این حد بدتر میشوند.
سام آلتمن: چه چیزهایی باعث پیامدهای فاجعهباری شده است؟
امین توتونچیان: من فکر میکنم مشکلات زیرساختی به خوبی شناخته شده است. نرخ خرابی، نوع خرابی و میزان کل خرابیها بسیار زیاد است. خوشه 100000 کارتی یک استخر نمونه در مقیاس بزرگ است، بنابراین مشکلاتی را نیز کشف کردیم که تامین کننده قدرت محاسباتی مشاهده نکرده است.
شبکه بخشی از آن است و شتابدهندههای منفرد نیز میتوانند مشکلاتی داشته باشند. اما این نیز زیبایی این سیستم است - تقریباً همه اجزا باید مطابق انتظار کار کنند تا نتایج مورد انتظار را تولید کنند. وظیفه ما این است که تا حد امکان این مشکل را به حداقل برسانیم.
سام آلتمن: کار کردن در حد مقیاس خوشه واقعاً دشوار است، اما من همچنین متوجه شدم که انجام کارهایی که دیگر در خط مقدم فناوری نیستند بسیار آسانتر شده است. آموزش GPT-4.5 به صدها نفر نیاز دارد و تقریباً همه در OpenAI درگیر هستند.
اما امروز، اگر به شما اجازه داده شود کوچکترین تیم را از OpenAI انتخاب کنید و GPT-4 را از ابتدا با تمام دانشی که میدانیم و تمام کارهای سیستمی که انجام دادهایم دوباره آموزش دهید، به چند نفر نیاز است؟
الکس پینو: من فکر میکنم ممکن است حدود 5 تا 10 نفر برای ساخت یک مدل در سطح GPT-4 اکنون نیاز باشد. پشته فناوری در فرآیند تکمیل GPT-4.5 بسیار بهبود یافته است.
در واقع، ما کارهای مشابهی را در فرآیند آموزش GPT-4.5 انجام دادهایم - ما GPT-4o را آموزش دادیم، که یک مدل در سطح GPT-4 است، و آن را با استفاده از بسیاری از محتوای مشابه از پروژه تحقیقاتی GPT-4.5 دوباره آموزش دادیم. افراد کمتری برای آن آموزش استفاده شدند.
بازده داده: کلید باز کردن نسل بعدی مدلها
سام آلتمن: از دیدگاه شما، دن؟ چرا آموزش مدلهای بزرگ دشوار است؟
دانیل سلسام: من فکر میکنم انجام هر کار جدیدی دشوار است. من فکر میکنم حتی فقط کشف اینکه شخص دیگری کاری انجام داده است، آن را بسیار آسانتر میکند، زیرا سختترین قسمت این است که این باور را داشته باشید که میتوانید در وهله اول کاری انجام دهید. من فکر میکنم فقط دانستن اینکه چیزی امکان پذیر است، یک کد تقلب فوقالعاده است و کارها را بسیار آسانتر میکند.
الکس پینو: ما در حال گسترش عملیات پیشآموزش GPT به 10 برابر آنچه قبلاً بود هستیم و همیشه چیزهای جدید و جالبی پیدا خواهیم کرد که لزوماً نمیتوانید پیشبینی کنید.
سام آلتمن: برای دستیابی به 10 برابر یا 100 برابر رشد بعدی در مقیاس پیشآموزش چه چیزی لازم است؟
دانیل سلسام: بازده داده. معماری ترانسفورمر (که GPT است) در استفاده از داده بسیار کارآمد است. این میتواند اطلاعات را به خوبی جذب و فشرده کند و به تعمیم دست یابد. بزرگترین ویژگی آن این است که میتواند به طور موثر اطلاعات را با منابع محاسباتی جذب کند.
با این حال، عمق بینشی که از داده به دست میآورد محدود است. هنگامی که قدرت محاسباتی به سرعت رشد میکند در حالی که دادهها نسبتاً کند رشد میکنند، دادهها به یک گلوگاه در این مدل استاندارد تبدیل میشوند. این امر مستلزم نوآوری الگوریتمی است، توسعه روشهایی که میتوانند از قدرت محاسباتی بیشتری برای یادگیری دانش بیشتر از همان مقدار داده استفاده کنند.
سام آلتمن: به نظر شما برای حفظ گسترش علاوه بر این به چه چیز دیگری نیاز داریم؟
امین توتونچیان: پاسخ من در مورد سیستم است. من فکر میکنم حجم عظیمی از کار مورد نیاز برای GPT-4.5 اساساً نتیجه اجتناب ناپذیر مشخصات مدل است. ما نمیتوانیم GPT-4.5 را دقیقاً با همان معماری فنی GPT-4 آموزش دهیم.
از نظر مدیریت وضعیت، از آنجایی که منابع محاسباتی مورد نیاز از ظرفیت یک خوشه واحد فراتر رفته است، باید به یک معماری آموزشی چند خوشهای تغییر دهیم. برای دستیابی به این هدف، باید چندین گردش کار مختلف را در مدت زمان کوتاهی ادغام کنیم.
اگرچه این به ما کمک کرد تا به یک پیشرفت مرحلهای دست یابیم، برای دستیابی به مرتبه بزرگی بعدی بهبود عملکرد، همچنان باید چندین مشکل فنی شناخته شده اما به طور موقت به تعویق افتاده را حل کنیم - این مشکلات قابل اجتناب نیستند. این نوع سازش فنی است که دائماً چرخه توسعه یک سیستم عالی را طولانی میکند. ما همیشه در فرآیند پیگیری طرح پیادهسازی بهینه، سازشهای استراتژیک انجام میدهیم.
لازم است روشن شود که خود سیستم هدف نهایی نیست. ارزش خروجی واقعی آن ملاحظات اصلی است. برای 10 برابر بهبود عملکرد بعدی، من فکر میکنم پیشرفت در تحمل خطا بسیار مهم است. ما باید یک مکانیزم تحمل خطا ایجاد کنیم که عمیقاً با حجم کار همکاری کند تا اضطراب عملیات و نگهداری را به میزان قابل توجهی کاهش دهد. پیچیدگی عملیات و نگهداری سیستم فوقالعاده بزرگ فعلی اساساً با سیستمهای قبلی متفاوت است.
سام آلتمن: آیا میدانید چه درصدی از خرابیها در طول آموزش GPT-4.5 توسط اجزای خاصی ایجاد شده است؟
امین توتونچیان: من آمار دقیقی برای اشتراکگذاری ندارم، اما به طور کلی، استقرار اولیه نسل جدیدی از سختافزار اغلب با چالشهای فنی زیادی روبرو است که به طور کامل درک نشدهاند. ما تصمیم گرفتیم قبل از اینکه مشکل به طور کامل روشن شود، پروژه را پیش ببریم، که منجر به نرخ خرابی اولیه بالایی شد.
اما تجربه نشان میدهد که با شناسایی و حل علت اصلی، نرخ خرابی به طور قابل توجهی کاهش مییابد. این پدیده اساساً منعکس کننده تعمیق درک ما از زیرساخت است - برخی افراد آن را پاکسازی زیرساخت یا درک مشکلات اساسی زیرساخت مینامند.
مراحل اولیه اجرا تقریباً همیشه کاملاً دردناک است. در حالی که ما در حال پیشبرد پروژه هستیم، به طور مداوم در حال کشف و حل حالتهای خرابی جدید نیز هستیم، اما در نهایت نرخ خرابی به تدریج کاهش مییابد و زمان اجرای عادی افزایش مییابد.
این اساساً یک موضوع سازش اولویت است: در مراحل اولیه چرخه عمر زیرساخت، خطر خرابی آن اغلب به سختی قابل تخمین است. و اگر ما بیش از حد به دنبال حالت ایدهآل نهایی باشیم (اصلی ‘شهر املاک’ است، طراحی شهر-ایالت ایدهآل)، ممکن است منجر به عملکرد در دسترس بودن اولیه سیستم بسیار ضعیف شود.
فراتر از محاسبه: نوآوری الگوریتمی و پتانسیل استفاده نشده از دادهها
سام آلتمن: اگرچه مدل استنتاج یک جزء کلیدی از پشته فناوری آینده ما است، اما بیایید به طور موقت بر مرزهای توسعه مدلهای پیشآموزش سنتی تمرکز کنیم. با فرض اینکه قدرت محاسباتی GPU نامحدود، پهنای باند شبکه نامحدود و منبع تغذیه نامحدود داشته باشیم، اما همچنان توسط تنگناهای فنی موجود محدود شویم - از جمله مسائل مربوط به قابلیت اطمینان سیستم، کمبود روشهای آموزش تحمل خطا و محدودیتهای مجموعه دادههای موجود.
با توجه به قاعدهتکامل ما برای دستیابی به 100 برابر افزایش مقیاس برای هر نسخه اصلی GPT، بر اساس مرزهای فنی فعلی، توسعه مدلهای پیشآموزش به چه سطحی میتواند برسد؟ به طور خاص، برای مدلهای سری GPT، بر اساس سیستم دانش موجود ما، چه نوع مدلی را میتوان از نظر تئوری آموزش داد؟ آیا میتوانیم GPT-5.5 را بسازیم؟
الکس پینو: از منظر یادگیری ماشین و توسعه الگوریتم، ما هنوز به یک محدودیت نظری واضح نرسیدهایم. در واقع، ما فقط شروع به بررسی الگوریتمهایی با بازده داده بالاتر و نحوه استفاده کاملتر از منابع داده موجود کردهایم. این وضعیت بسیار جالب است - حتی مدلهایی مانند GPT-4 نیز عمدتاً در شرایط منابع محاسباتی محدود توسعه یافتهاند، که جهت بیشتر تحقیقات قبلی را تعیین کرده است.
اما اکنون وضعیت کاملاً متفاوت است. از زمان GPT-4.5، در برخی ابعاد کلیدی، دادهها به جای محاسبه در حال تبدیل شدن به محدودیت اصلی هستند. این تغییر باعث میشود تحقیقات مرتبط کمتر هیجانانگیز شود.
سام آلتمن: اما این واقعاً یک پیشرفت شگفتانگیز است و جهان ممکن است به طور کامل درک نکند که منابع محاسباتی دیگر تنگنای اصلی در بهترین مدلی که میتوانیم بسازیم نیستند. این تغییر بسیار معنادار است، به هر حال، ما مدت زیادی در یک محیط محاسباتی محدود زندگی کردهایم.
آشکار کردن شگفتیها: قابلیت پیشبینی در مقابل هوش پیشبینی نشده
سام آلتمن: جالبترین تجربه یادگیری ماشین که در طول آموزش GPT-4.5 آموختیم چیست؟ فقط هر آنچه را که میخواهید به اشتراک بگذارید بگویید.
امین توتونچیان: به طور کلی، جالبترین چیزها چیزهایی هستند که از پیشبینیهای ما منحرف میشوند - به خصوص زمانی که سعی میکنیم بفهمیم چرا عملکرد واقعی از منحنی مورد انتظار منحرف میشود.
الکس پینو: یکی از شگفتانگیزترین کشفها برای ما این است که اجزای مختلف یادگیری ماشین عملکردهای مقیاسپذیری بسیار متفاوتی دارند. برخی از قسمتها میتوانند بسیار خوب گسترش یابند، در حالی که برخی دیگر نمیتوانند. این همان چیزی است که ما واقعاً در طول فرآیند آموزش واقعی متوجه شدیم. این تجربه الهام زیادی به ما داد.
دانیل سلسام: من فکر میکنم دو ویژگی اصلی الگوی GPT عبارتند از: اول، تلفات آزمایشی (معیاری که میزان عملکرد مدل در دادههای آزمایشی دیده نشده را اندازهگیری میکند) را میتوان به طور دقیق پیشبینی کرد؛ دوم، عملکرد مدل با افزایش مقیاس بهبود قابل پیشبینی را نشان میدهد. حتی شگفتانگیزتر این است که کاهش در تلفات آزمایشی به یک سطح هوشمندانه بهبود یافته در همه زمینهها به روشهای مختلف دشوار برای اندازهگیری اما شگفتانگیز و مرموز تبدیل میشود.
سام آلتمن: آیا در مورد این کاملاً خوشبین هستید؟ آیا شما کاملاً با این دیدگاه موافق هستید؟
دانیل سلسام: در واقع، چیزی که میخواهم بگویم این است که ما یک پدیده جالب خاص را در آزمایش GPT-4.5 پیدا کردیم - پس از آزمایش مجدد، بسیاری از قابلیتهای پیچیدهای که توسط مدل نشان داده شد، کاملاً فراتر از انتظارات همه بود.
ما مطمئن هستیم که به روشهای مختلفی هوشمندتر خواهد شد که پیشبینی آنها از قبل دشوار است، و این پیشرفتهای ظریف را میتوان از رضایت کاربر پس از استقرار واقعی مشاهده کرد: ذخایر عقل سلیم قویتر، توانایی درک متنی دقیقتر و درک معنایی ظریفتر - این جادویی است که توسط آن تلفات آزمایشی اضافی به ارمغان میآورد. به نظر من، قانون مقیاسبندی در این بعد کاملاً تأیید شده است.
قدرت همکاری: تیمهای یادگیری ماشین و سیستم در هماهنگی کار میکنند
سام آلتمن: مثبتترین لحظه در کل فرآیند آموزش چه بود؟ خاطره مورد علاقه شما چیست؟ بدیهی است که درد زیادی وجود دارد، اما امیدوارم آن درد کاهش یافته باشد.
الکس پینو: من چنین لحظهای را دارم. ما در طول آموزش کارهای یادگیری ماشین زیادی انجام دادیم و من فکر میکنم برخی از تغییراتی که در طول فرآیند ایجاد کردیم تأثیر بسیار خوبی داشت، شاید حتی بهتر از حد انتظار، که لحظه بسیار هیجانانگیزی برای ما بود.
امین توتونچیان: برای من، همزمان با آموزش، ما در حال ساخت زیرساخت نیز هستیم. ما قاطعانه معتقدیم که میتوانیم از این صخره عملکرد عبور کنیم، و ما یک برنامه داریم، و همه آن را اجرا میکنند، اما مدت زیادی طول میکشد. این کار سخت است و قطعا سختتر از آن چیزی است که فکر میکردم. پیشبینی من اشتباه بود و زمان مورد نیاز برای حل این مشکلات را دست کم گرفتم.
لحظهای که تیم در نهایت بر آن مشکلات کلیدی غلبه کرد و عملکرد به طور قابل توجهی بهبود یافت، هنوز در ذهن من تازه است. شما میتوانید به وضوح تغییر انرژی را در کل تیم احساس کنید - همه به طور ناگهانی پر از انرژی هستند و با انگیزه جدید به سمت هدف نهایی میروند.
شگفتانگیزترین چیز این است که زمان تکمیل تخمین زده شده نمایش داده شده در ردیاب وضعیت ما به طور مداوم از دو سال اولیه کاهش مییابد و در نهایت در یک گره زمانی واضح قفل میشود. این پیشرفت قابل مشاهده برای افزایش روحیه تیم غیرقابل اندازهگیری است. من فکر میکنم این زیبایی آن است.
من میخواهم تأکید کنم که کار یادگیری ماشین هرگز متوقف نشده است. حتی پس از شروع آموزش، این فرآیند طراحی مشترک یادگیری ماشین همچنان در حال انجام است. تیم یادگیری ماشین نه تنها فعالانه پیگیر مشکلاتی بود که به عنوان ‘پردازش بعدی’ علامتگذاری شده بودند، بلکه به ارائه پیشرفتهایی که واقعاً زمان آموزش را بهینه میکردند نیز ادامه داد.
این کاملاً روحیه تیمی ما را نشان میدهد - در اینجا هیچ مرز کاری ‘جارو کردن برف در مقابل درب خانه خود’ وجود ندارد، بلکه یک همکاری واقعاً یکپارچه است. این انسجام بزرگترین مزیت ما است.
برنامهریزی دقیق و پیگیری بیامان ناهنجاریها در پیشآموزش GPT-4.5
دانیل سلسام: دنیای بیرون در مورد چالشها و دقت پیشبینی این آموزش بسیار بحث کرده است. اما در واقع، همه اینها بر اساس برنامهریزی بسیار دقیق ساخته شده است - میتوانید در این مورد بیشتر توضیح دهید؟
الکس پینو: این قطعاً دقیقترین برنامهای است که تاکنون ساختهایم. همانطور که گفتم، ما یک سال قبل از راهاندازی رسمی آموزش، شروع به آمادهسازی برای این پروژه کردیم. در طول این مدت، ما چندین دوره آزمایش کنترل ریسک در مقیاس بزرگ را انجام دادیم.
ما توجه ویژهای به معرفی تدریجی تمام بهبودها داریم: شروع از یک پیکربندی اساسی با اطمینان بالا - که میتواند به عنوان یک معماری بالغ مشابه GPT-4 درک شود، ما این پیکربندی را در سطح یادگیری ماشین به طور کامل تسلط یافتهایم - و سپس لایهبندی ویژگیهای جدید مانند بلوکهای ساختمانی.
نکته کلیدی این است که مقیاسپذیری هر بهبود را در مقیاسهای مختلف به طور دقیق تأیید کنیم: نه تنها برای دیدن بهبودهای عملکرد، بلکه برای اطمینان از اینکه این بهبودها میتوانند با افزایش اندازه مدل همچنان موثر باشند. بسیاری از بهبودها در آزمایشهای مقیاس کوچک به خوبی عمل میکنند، اما در برنامههای کاربردی در مقیاس بزرگ با شکست مواجه میشوند.
بنابراین، ما در طول فرآیند درجه بالایی از هوشیاری را حفظ کردهایم و به طور مداوم روششناسی قانون مقیاسبندی خود را تکرار و بهبود بخشیدهایم. از طریق این تمرین کنترل ریسک، تجربه ارزشمندی را جمع آوری کردهایم که همچنان توسعه مدلهای سری GPT آینده را هدایت میکند.
امین توتونچیان: من یک لحظه بسیار جالب را به یاد میآورم که بسیار دلم برای آن تنگ شده است. میدانید، ما تقریباً به طور اجتناب ناپذیری هر بار که یک کار آموزشی را شروع میکنیم با اشکالات مختلفی مواجه میشویم، که امری عادی است. اما نکته کلیدی این است که اطمینان حاصل شود که پیشرفت مانع نمیشود، و ما همیشه باید تأیید کنیم که آیا پیشرفت فعلی واقعاً در مسیر درست است و آیا این اشکالات تأثیر مرگباری بر سلامت آموزش خواهند داشت.
اگرچه ما در ابتدا بسیار مطمئن بودیم که نقصهای عمدهای وجود دارد، اما از طریق کل سیستم نظارتی که ساختهایم، توانستیم علت اصلی مشکل را به طور دقیق تشخیص دهیم: آیا این یک خرابی سختافزاری است؟ چه نوع خرابی سختافزاری؟ آیا این خرابی داده است؟ یا یک اشکال در خود مدل یادگیری ماشین است؟ یا یک شرط مسابقه در کد است؟
در آن زمان، ما چندین قسمت بحث مشکل به طور همزمان باز کرده بودیم، با انواع علائم. پس از یک سری رفع اشکال، ما به یک بن بست رسیدیم: چندین مشکل حل نشده در مقابل ما جمع شده بود، و همه مغز خود را به کار میگرفتند - آیا اینها ناشی از اشکالات مختلف هستند؟ یا یک اشکال است که باعث مشکل میشود؟
بعداً، ما یک رای گیری برگزار کردیم و از اعضای تیم خواستیم که به محتملترین علت اصلی رای دهند. در نتیجه، کمترین گزینه خوشبینانه به حقیقت رسید: معلوم شد که در عملکرد torch.sum بالادست PyTorch، یک عملیات جمع ساده مشکلی وجود دارد.
این اشکال بسیار جالب است. میدانید که ما عمدتاً از هسته Triton استفاده میکنیم، و فقط در برخی از سناریوهای حاشیهای ناچیز به عملیات مشعل باز میگردیم. اشکال عملکرد torch.sum که توسط مسیر کد خاص ما ایجاد میشود، گهگاه به دلیل ویژگیهای توزیع داده باعث دسترسی غیرقانونی به حافظه میشود - هنگام محاسبه افست حافظه اشتباهی مرتکب میشود.
دراماتیکترین چیز این است که وقتی یک مهندس در نهایت مشکل را پیدا کرد و یک رفع اشکال را ارسال کرد، تمام خطاهای با علائم مختلف ناپدید شدند. همه با هیجان کانال Slack را از ‘نظریه چند اشکاله’ به ‘نظریه تک اشکاله’ تغییر دادند، و صحنه بسیار خوشحال بود.
این اشکال چه مدت در کمین بوده است؟ این از مراحل اولیه آموزش وجود داشته است و تا زمانی که نوار پیشرفت از حدود 40٪ عبور نکرده بود، پیدا نشد. فرآیند کشف نیز پر از درام بود: در آن زمان، یک هسته پیچیده به طور مداوم یک دنباله را فراخوانی میکرد، و تماس دوم باعث دسترسی غیرقانونی به حافظه میشد.
اگرچه این فرکانس خرابی بسیار پایین است (فقط یک بار در هر چند صد یا حتی هزار مرحله آموزشی رخ میدهد)، اما به راحتی میتوان آن را به عنوان یک خرابی گاه به گاه نادیده گرفت، اما اصل تیم ما این است: هرگز هیچ ناهنجاری را رها نکنید. بهترین بخش این داستان در این پافشاری برای تسلیم نشدن به راحتی نهفته است.
تلاش برای سیستمهای ایدهآل: یک افق دور
سام آلتمن: پس از شروع پیشآموزش GPT-4.5، چه کار دیگری باید انجام دهید؟
الکس پینو: همه ما باید منحنی تلفات را به طور مکرر مشاهده کنیم. علاوه بر این، ما باید به طور مداوم سیستم را بهینه کنیم و طراحی مشترکی را که قبل از شروع آموزش تکمیل نشده بود، بهبود بخشیم. ما از نزدیک شاخصهای آماری مختلف را در طول فرآیند آموزش نظارت میکنیم تا اطمینان حاصل کنیم که هیچ روند غیرعادی غیرمنتظرهای وجود ندارد. در عین حال، ما برنامههای بهبود احتمالی را از منظر یادگیری ماشین بررسی میکنیم. اگرچه کار در سطح داده پس از شروع پیشآموزش به طور موقت کاهش مییابد، اما هنوز تعداد زیادی وظیفه برای پردازش وجود دارد.
امین توتونچیان: من فکر میکنم یادگیری ماشین تا حد زیادی به صحت قضاوت بستگی دارد. پس از شروع پیشآموزش، در مواجهه با تعداد زیادی سیگنال نویز، ما مانند طالعبینانی هستیم که برگهای چای را تفسیر میکنند و باید قضاوت کنیم که آیا سیستم سالم است یا خیر. این مسئولیت ماست.
سام آلتمن: در سطح سیستم، چه چیزی ما را از انجام آموزش مدل محدود میکند؟ آیا تراشهها، پردازندهها، حافظه، شبکه یا برق است؟
امین توتونچیان: زیبایی سیستم این است که هنگام انجام طراحی مشترک، حجم کار میتواند با زیرساختی که میسازید سازگار شود. در اینجا هیچ گفته کلی وجود ندارد که شبکه گلوگاه است، یا پهنای باند حافظه گلوگاه است، و غیره. حتی برای مدلهایی با همان مشخصات، میتوانیم انتخاب کنیم که الزامات منابع را منتقل کنیم، و میتوانیم انتخاب کنیم که یک سیستم متعادلتر ایجاد کنیم، اما داشتن پهنای باند حافظه بیشتر همیشه مفید است. پاسخ دادن به این سوال بدون شرایط محدود کننده دشوار است.
هنگام طراحی GPT-4.5، ممکن است به سیستم نیاز داشته باشیم که نوعی ویژگی داشته باشد، که باید تحت هدایت انسان ایجاد شود. بنابراین، طراحی مشترک برای شکل دادن به معماری مدل و عناصر معماری بسیار مهم است و تا حدودی جنبههای سیستم و یادگیری ماشین را به هم متصل میکند. اگر سیستم دارای ویژگی باشد که ما نمیخواهیم خیلی داشته باشیم، وضعیت ایدهآل من این است که همه چیز باید جدا شود تا حداکثر فضا به یکدیگر داده شود.
گاهی اوقات همه چیز به هم متصل میشود، و ما باید الزامات زیرساخت را برآورده کنیم، یا همه چیز باید اینگونه باشد. بیشتر اوقات، ما به یک سیستم متعادل و ارتباطات متعادل نیاز داریم. و بهترین وسیله تنظیماتی که ما داریم تمام این طراحیهای مشترک است.
سام آلتمن: چقدر از این هدف سیستم ایدهآل دور هستیم؟
امین توتونچیان: هنوز راه زیادی برای رسیدن به آن هدف وجود دارد. فرآیند ساخت یک سیستم همیشه اینگونه است: ابتدا یک دیدگاه ایدهآل از نحوه کار همه چیز وجود دارد، و سپس آن تفاوتها را با منابع موجود آشتی میدهد.
من فکر میکنم ما این کار را برای تئوری برای تئوری انجام نمیدهیم، بلکه فقط برای بحث در مورد اینکه میخواهیم چه چیزی شود، برای تحقق آن و برای نزدیک شدن تا حد امکان به آن ایدهآل. این شاید هیجانانگیزترین بخش در زمینه سیستم باشد. مردم قبلاً میگفتند که این یک طراحی سیستم ظریف است، و در نهایت تاریخ به ما خواهد گفت که آیا این انتخاب درست است یا غلط.
سام آلتمن: اگر بتوانید قبل از آموزش بزرگ بعدی پاسخی برای یک مشکل یادگیری ماشین دریافت کنید، بیشتر از همه دوست دارید چه چیزی را بدانید؟
الکس پینو: من میخواهم بدانم از چه الگوریتمهایی باید در شرایط دادههای محدود و زمینههای خاص استفاده کنیم. اگرچه این یک سوال گسترده است، اما در واقع مهمترین سوال است.
سام آلتمن: آیا در آینده پیشآموزش همزمان را با 10 میلیون GPU یا بیشتر انجام خواهید داد؟
الکس پینو: من فکر میکنم وجود خواهد داشت، اما ممکن است یک مدل پیشآموزش سنتی نباشد. شکل آن ممکن است با فناوری موجود بسیار متفاوت باشد، اما همچنان هسته یادگیری بدون نظارت را حفظ خواهد کرد.
امین توتونچیان: من حالت نیمه همزمان را ترجیح میدهم. به دلیل قوانین فیزیکی، همگام سازی کامل واقع بینانه نیست.
دانیل سلسام: من فکر میکنم احتمال بیشتری وجود دارد که غیرمتمرکز باشد. قطعاً 10 میلیون GPU با هم در یک سیستم هوش مصنوعی برای یادگیری و انجام وظایف کار خواهند کرد، اما مانند قسمتهای مختلف مغز، ممکن است لزوماً با یکدیگر ارتباط برقرار نکنند.
قدرت هم افزایی پیشرفتهای الگوریتمی و بازده داده
سام آلتمن: شکاف بین پیشرفتهترین الگوریتمها و بازده داده انسانی چقدر است؟ آیا میتوانیم امیدوار باشیم که در آینده به آن برسیم؟
دانیل سلسام: مقایسه مستقیم این دو دشوار است. شکاف در یادگیری زبان قطعاً بسیار زیاد است. نکته کلیدی این است که چگونه میزان اطلاعات دریافتی توسط اعصاب بینایی انسان را تعریف کنیم. من فکر میکنم الگوریتمها به طور کلی بازده داده کمتری نسبت به انسان دارند.
برای دههها، یادگیری عمیق بر کارایی قدرت محاسباتی تمرکز داشته است. علاوه بر رشد دادهها و قدرت محاسباتی، چیزی که واقعاً شگفتانگیز است، اثر هم افزایی است که توسط پیشرفتهای الگوریتمی ایجاد میشود. هر بار که عملکرد الگوریتم 10٪ یا 20٪ بهبود مییابد، هنگام سوار شدن بر بازده داده، تأثیر قابل توجهی خواهد داشت. تاکنون هیچ بسیجی در مورد بازده داده وجود نداشته است، زیرا این رویکرد زمانی که دادهها در حال گردش نیستند و قدرت محاسباتی محدود است، ارزشمند نیست.
اکنون، ما وارد مرحله جدیدی از تحقیقات هوش مصنوعی میشویم و شروع به انباشت پیروزیها در بازده داده خواهیم کرد. من فکر میکنم کمی احمقانه است که اکنون پیشبینی کنیم که با موانع غیرقابل عبوری مواجه خواهیم شد. نحوه عملکرد مغز انسان قطعاً با پیشرفتهای الگوریتمی ما متفاوت است و ما باید در این زمینه محتاط باشیم. اما من فکر میکنم باید در مورد توسعه آینده الگوریتمها خوشبین باشیم.
سام آلتمن: همبستگی بین پیشآموزش در مقیاس بزرگتر و تواناییهای یادگیری و استدلال قویتر مدل چیست؟
الکس پینو: چیزی که ما مشاهده کردهایم این است که پیشآموزش بهتر و یادگیری بدون نظارت اغلب هوش کلی مدل را بهبود میبخشد و در تعمیم بسیار کمک میکند. این مکمل توانایی استدلال است، در حالی که استدلال ممکن است در بهبود هوش کندتر باشد. من فکر میکنم آنها مکمل هستند.
سام آلتمن: به نظر میرسد پیشآموزش در بسیاری از موارد عمومی است، در حالی که آموزش یک مدل فقط میتواند آن را در یک نوع کار خوب کند، درست است؟
الکس پینو: این بسیار جالب است، اما وقتی دادههایی را که آنها را آموزش میدهند ببینید، از این وضعیت شگفت زده نخواهید شد. محدوده مجموعه داده پیشآموزش بسیار بزرگ است و آنچه ما دنبال میکنیم وسعت و تنوع است. وقتی صحبت از یادگیری تقویتی مدل میشود و به وضوح سیگنالهای پاداش خوب و یک محیط آموزشی خوب به دست میآورد، من فکر میکنم تعادل وسعت مجموعه داده دشوار است.
دانیل سلسام: من موافقم، اما فکر میکنم یک عامل دیگر نیز وجود دارد. پیشآموزش اساساً فشردهسازی دادهها است، بنابراین ارتباطات بین چیزهای مختلف را کشف میکند. این در مورد شباهتها و انتزاعیتر است. استدلال مهارتی است که نیاز به تفکر دقیق در مورد یک مسئله خاص دارد و همچنین میتواند راه حلهایی برای انواع مشکلات به دست آورد. با این حال، در فرآیند