توسعه GPT-4.5، پروژهای که دو سال قبل آغاز شد، نمایانگر بلندپروازانهترین تلاش OpenAI تا به امروز است. این اقدام گسترده شامل تلاشهای مشترک صدها نفر بود، و سم آلتمن، مدیر عامل OpenAI، خاطرنشان کرد که این پروژه مستلزم مشارکت تقریباً کامل سازمانی است.
غلبه بر “مشکلات فاجعهبار” در آموزش در مقیاس بزرگ
سفر برای ایجاد GPT-4.5 بدون موانع نبود. تیم با مشکلات متعدد “فاجعهبار” در طول مرحله تحقیق و توسعه روبرو شد. استفاده از خوشهای از 100000 پردازنده گرافیکی، خرابیهای زیرساختی قبلاً دیدهنشده، کماحتمال، اما عمیق را آشکار کرد. برای متعادل کردن سرعت عمل با عملکرد بهینه، تیم سیستم OpenAI مجبور شد رویکرد “تعمیر در حین حرکت” را اتخاذ کند. یک اشکال گریزان به طور خاص خوشه را با خطاهای مکرر آزار میداد و تا زمانی که تقریباً 40٪ از فرآیند آموزش سپری نشده بود، شناسایی نشد.
علیرغم این چالشها، پروژه GPT-4.5 توسعه یک پشته فناوری قویتر را تسریع کرد. امروزه، یک تیم کوچک متشکل از تنها 5-10 نفر میتواند یک مدل بزرگ شبیه به GPT-4 را تکرار کند. دستاوردهای عملکردی از GPT-4 به GPT-4.5 تقریباً ده برابر بود و “هوشی که کمیسازی آن دشوار است اما در همه جنبهها افزایش یافته است” را به دست آورد، نتیجهای که حتی پرسنل خود OpenAI را نیز شگفتزده کرد.
تغییر تمرکز: از قدرت محاسباتی به کارایی داده
OpenAI متوجه شده است که دستیابی به جهش ده یا صد برابری بعدی در عملکرد، نه به قدرت محاسباتی خام، بلکه به کارایی داده بستگی دارد - به طور خاص، توانایی استخراج دانش بیشتر از همان مقدار داده در حالی که از منابع محاسباتی بیشتری استفاده میشود.
معماری نیز از یک خوشه واحد به یک الگوی چند خوشهای در حال تحول است. تکرارهای آموزشی آینده ممکن است شامل یادگیری مشارکتی در بین 10 میلیون پردازنده گرافیکی باشد و نیاز به تحمل خطای بالاتری دارد.
گفتگوی سم آلتمن با تیم GPT-4.5
در زیر یک گردآوری ویرایششده از بحث بین سم آلتمن و تیم OpenAI GPT-4.5 آمده است:
سم آلتمن: ساختن یک مدل بزرگ مانند GPT-4.5 چه چیزی لازم دارد؟
الکس پینو: ما این پروژه را حدود دو سال پیش شروع کردیم. در آن زمان، OpenAI در آستانه راهاندازی یک خوشه محاسباتی بزرگ جدید بود، و تیم ما این را فرصتی دید تا مجموعهای از عملیات را برای تعیین عملکردهایی که مدل باید شامل شود، انجام دهد، و تعداد زیادی تست عملیات کاهش ریسک انجام داد.
ما یک برنامه طولانی برای این کار توسعه دادهایم که شامل کل پشته فناوری از سیستم تا یادگیری ماشین میشود. کاهش ریسکها و آمادهسازی برای آموزش یک فرآیند اجرایی طولانی است و خود آموزش یک پروژه بسیار بزرگ است.
امین توتونچیان: من فکر میکنم این فرآیند نیاز به همکاری نزدیک بین تیم یادگیری ماشین و تیم سیستم از ابتدا دارد، تا زمانی که مشخص کنیم چه مدلی میخواهیم آموزش دهیم، و سپس شروع به آموزش کنیم.
ما در هر دو جنبه یادگیری ماشین و سیستم پیشبینیهایی انجام دادهایم و سعی کردهایم تا حد امکان شکاف بین انتظار و واقعیت را کاهش دهیم. اما از آنجایی که ریتم کاری ما سریع است و باید از آخرین منابع محاسباتی استفاده کنیم، آموزش مدل به چیزی تبدیل شده است که برنامهریزی کامل آن از قبل دشوار است.
ما تقریباً همیشه آموزش را با بسیاری از مشکلات حل نشده شروع میکنیم و سعی میکنیم در طول عملیات بر چالشها غلبه کنیم و پیشرفت کنیم. راه حل اصلی اضافه کردن منابع محاسباتی بیشتر است.
مرحله نهایی اجرا است که مستلزم آن است که بسیاری از افراد انرژی و انگیزه زیادی را برای مدت طولانی سرمایهگذاری کنند تا روند آموزش را تکمیل کنند.
سم آلتمن: فکر میکنید شکاف بین انتظارات و واقعیت ما چقدر است؟
امین توتونچیان: از نظر سیستم، ما معمولاً در ابتدا از وضعیت مورد انتظار بسیار دور هستیم. ما همیشه با یک انتخاب روبرو هستیم: آیا شروع را به تعویق بیندازیم و منتظر بمانیم تا مشکل حل شود، یا زودتر شروع کنیم و مشکل را در این فرآیند حل کنیم. این همیشه نیاز به یک مصالحه دارد تا از تاخیرهای غیرمنطقی در این روند جلوگیری شود.
اما تقریباً همیشه برخی مشکلات غیرمنتظره وجود دارد، و کاری که ما باید انجام دهیم این است که تا حد امکان با این گرهها مقابله کنیم، با عوامل ناشناخته مقابله کنیم و برنامهای برای آموزش مدل تدوین کنیم.
الکس پینو: در این پروژه، هدف ما ساختن GPT-4.5 است، به این معنی که قابلیتهای آن باید 10 برابر هوشمندتر از GPT-4 باشد. این هدف اولیه است که حدود 2 سال پیش تعیین کردیم.
در این فرآیند اتفاقات زیادی افتاد. ما به این فکر میکردیم که آیا میتوانیم بهتر عمل کنیم یا بدتر از حد انتظار؟ این یک فرآیند بسیار پیچیده است، اما در پایان، از نظر محاسبات موثری که سرمایهگذاری کردیم، مدلی را به دست آوردیم که فکر میکنیم 10 برابر هوشمندتر از GPT-4 رسیده است.
امین توتونچیان: از نظر اجرا، زمان صرف شده برای پروژه GPT-4.5 بسیار دور از آن چیزی است که در ابتدا انتظار داشتیم.
سم آلتمن: چرا وقتی خوشه از 10000 کارت به 100000 کارت گسترش یافت، با مشکلات زیادی روبرو شدید؟
امین توتونچیان: من فکر میکنم اگر توسعهدهندگان سیستم به اندازه کافی حساس باشند، بیشتر مشکلات را میتوان در مرحله مقیاس کوچک مشاهده کرد.
برخی از مشکلات منحصر به مرحله آموزش در مقیاس بزرگ نیستند، اما اغلب قبلاً رخ دادهاند، اما پس از افزایش مقیاس به مشکلات فاجعهبار تبدیل میشوند، به خصوص زمانی که تیم پیشبینی نکرده است که این مشکلات تا این حد بدتر شوند.
سم آلتمن: چه چیزهایی باعث پیامدهای فاجعهبار شده است؟
امین توتونچیان: من فکر میکنم مشکلات زیرساختی به خوبی شناخته شدهاند، چه میزان خرابی، نوع خرابی یا کل میزان خرابی بسیار زیاد باشد. خوشه 100000 کارتی یک استخر نمونه در مقیاس بزرگ است، بنابراین ما همچنین مشکلاتی را کشف کردیم که تامین کننده قدرت محاسباتی مشاهده نکرده بود.
شبکه یکی از آنهاست، و شتابدهندههای فردی نیز میتوانند مشکلاتی داشته باشند. اما این نیز زیبایی این سیستم است - تقریباً همه اجزا باید طبق انتظار کار کنند تا نتایج مورد انتظار حاصل شود. کار ما این است که تا حد امکان این مشکل را به حداقل برسانیم.
سم آلتمن: کار کردن در حد اندازه خوشه واقعاً دشوار است، اما من همچنین متوجه شدهام که انجام کارهایی که دیگر در خط مقدم فناوری نیستند، بسیار آسانتر شده است. آموزش GPT-4.5 به صدها نفر نیاز دارد، و OpenAI تقریباً همه را درگیر کرده است.
اما امروزه، اگر کوچکترین تیم را از OpenAI انتخاب کنید و GPT-4 را از ابتدا با تمام دانش و کار سیستمی که میدانیم بازآموزی کنید، چند نفر لازم است؟
الکس پینو: من فکر میکنم ممکن است حدود 5 تا 10 نفر طول بکشد تا یک مدل در سطح GPT-4 بسازیم. پشته فناوری در فرآیند تکمیل GPT-4.5 بسیار بهبود یافته است.
در واقع، ما کارهای مشابهی را در فرآیند آموزش GPT-4.5 انجام دادهایم - ما GPT-4o را آموزش دادیم، که یک مدل در سطح GPT-4 است، و آن را با استفاده از بسیاری از محتوای مشابه از پروژه تحقیقاتی GPT-4.5 بازآموزی کردیم. افراد کمتری برای آن آموزش استفاده شدند.
سم آلتمن: از دیدگاه شما، دن؟ چرا آموزش مدلهای بزرگ دشوار است؟
دانیل سلسام: من فکر میکنم انجام هر کار جدیدی دشوار است. من فکر میکنم حتی فقط کشف اینکه شخص دیگری کاری را انجام داده است، آن را بسیار آسانتر میکند، زیرا سختترین بخش داشتن ایمان برای انجام کاری در وهله اول است. من فکر میکنم فقط دانستن اینکه چیزی امکانپذیر است، یک کد تقلب فوقالعاده است که کارها را بسیار آسانتر میکند.
الکس پینو: ما در حال گسترش اجرای پیشآموزش GPT به 10 برابر اندازه قبلی آن هستیم، و همیشه برخی چیزهای جالب جدید را پیدا میکنیم که لزوماً نمیتوانید پیشبینی کنید.
سم آلتمن: برای دستیابی به رشد 10 برابری یا 100 برابری بعدی در مقیاس پیشآموزش چه چیزی لازم است؟
دانیل سلسام: کارایی داده. معماری Transformer (یعنی GPT) در استفاده از داده بسیار کارآمد است. میتواند اطلاعات را به خوبی جذب و فشرده کند و به تعمیم دست یابد. بزرگترین ویژگی آن این است که میتواند به طور موثر اطلاعات را با منابع محاسباتی جذب کند.
با این حال، عمق بینشی که از داده به دست میآورد محدود است. هنگامی که قدرت محاسباتی به سرعت رشد میکند و داده نسبتاً آهسته رشد میکند، داده به یک گلوگاه برای این مدل استاندارد تبدیل میشود. این امر مستلزم نوآوری الگوریتمی برای توسعه روشهایی است که میتوانند از قدرت محاسباتی بیشتری برای یادگیری دانش بیشتر از همان مقدار داده استفاده کنند.
سم آلتمن: به نظر شما برای حفظ توسعه چه چیز دیگری لازم است؟
امین توتونچیان: پاسخ من در مورد سیستم است. من فکر میکنم حجم کار عظیمی که برای GPT-4.5 لازم است اساساً نتیجه اجتنابناپذیر مشخصات مدل است. ما نمیتوانیم GPT-4.5 را با همان معماری فنی GPT-4 آموزش دهیم.
از نظر مدیریت وضعیت، از آنجایی که منابع محاسباتی مورد نیاز از ظرفیت یک خوشه واحد فراتر رفته است، باید به یک معماری آموزشی چند خوشهای روی بیاوریم. برای دستیابی به این هدف، باید چندین گردش کار مختلف را در یک دوره کوتاه زمانی ادغام کنیم.
اگرچه این واقعاً به ما کمک کرده است تا به پیشرفتهای مرحلهای دست یابیم، اما برای دستیابی به مرتبه بزرگی بعدی بهبود عملکرد، هنوز باید چندین مشکل فنی شناخته شده اما به طور موقت بایگانی شده را حل کنیم - این مشکلات قابل اجتناب نیستند. این نوع مصالحههای فنی است که دائماً چرخه تحقیق و توسعه سیستم عالی را طولانیتر میکند، و ما همیشه در حال ایجاد مصالحههای استراتژیک در فرآیند پیگیری طرح پیادهسازی بهینه هستیم.
باید روشن باشد که خود سیستم هدف نهایی نیست، و ارزش خروجی واقعی آن ملاحظه اصلی است. برای 10 برابر بعدی بهبود عملکرد، من فکر میکنم پیشرفت در تحمل خطا بسیار مهم است. ما باید یک مکانیسم تحمل خطا بسازیم که عمیقاً با حجم کار همافزایی داشته باشد تا اضطراب عملیات و نگهداری را به طور قابل توجهی کاهش دهد. پیچیدگی عملیات و نگهداری سیستمهای فوقالعاده بزرگ فعلی اساساً با سیستمهای قبلی متفاوت است.
سم آلتمن: آیا میدانید چه درصدی از خرابیها در طول آموزش GPT-4.5 ناشی از اجزای خاصی بوده است؟
امین توتونچیان: من اعداد خاصی برای به اشتراک گذاشتن ندارم، اما به طور کلی، در مراحل اولیه استقرار نسل جدیدی از سختافزار، عملکرد سیستم اغلب با چالشهای فنی بسیاری روبرو میشود که به طور کامل درک نشدهاند. ما تصمیم گرفتیم پروژه را قبل از اینکه مشکل به طور کامل تعریف شود، پیش ببریم، که منجر به نرخ خرابی اولیه بالایی شد.
اما تجربه نشان داده است که با شناسایی و حل علت اصلی، نرخ خرابی به طور قابل توجهی کاهش مییابد. این پدیده اساساً منعکسکننده تعمیق درک ما از زیرساخت است - برخی افراد آن را پاکسازی زیرساخت یا درک مشکلات اساسی زیرساخت مینامند.
مراحل اولیه اجرا تقریباً همیشه کاملاً دردناک هستند. در حالی که پروژه را پیش میبریم، به طور مداوم در حال کشف و حل حالتهای خرابی جدید نیز هستیم، اما نرخ خرابی به تدریج کاهش مییابد و زمان عملکرد عادی طولانیتر میشود.
این اساساً یک موضوع مصالحه اولویت است: در مراحل اولیه چرخه عمر زیرساخت، تخمین دقیق ریسک خرابی آن اغلب دشوار است؛ و اگر بیش از حد به دنبال وضعیت ایدهآل نهایی باشیم (اصل آن “City Estate” است، طرح شهر-ایدهآل)، ممکن است منجر به سیستم شود عملکرد در دسترس بودن در مراحل اولیه بسیار ضعیف است.
سم آلتمن: اگرچه مدل استدلال یک جزء کلیدی از پشته فناوری آینده ما است، بیایید فعلاً بر روی مرز توسعه مدل پیشآموزش سنتی تمرکز کنیم. فرض کنید ما قدرت محاسباتی GPU نامحدود، پهنای باند شبکه نامحدود و منبع تغذیه نامحدود داریم، اما همچنان محدود به گلوگاههای فنی موجود هستیم - از جمله مسائل مربوط به قابلیت اطمینان سیستم، فقدان روشهای آموزش تحمل خطا و محدودیتهای مجموعههای داده موجود.
با توجه به قانون تکامل ما برای دستیابی به افزایش مقیاس 100 برابری در هر نسخه اصلی GPT، بر اساس مرزهای فنی فعلی، توسعه مدل پیشآموزش به چه سطحی میتواند برسد؟ به طور خاص برای مدلهای سری GPT، با سیستم دانش موجود ما، چه نوع مدلی را میتوانیم از نظر تئوری آموزش دهیم؟ آیا میتوان GPT-5.5 را ساخت؟
الکس پینو: از منظر یادگیری ماشین و توسعه الگوریتم، ما هنوز به یک حد بالایی نظری روشن نرسیدهایم. در واقع، ما تازه شروع به کشف الگوریتمهایی با کارایی داده بالاتر و چگونگی استفاده کاملتر از منابع داده موجود کردهایم. این وضعیت بسیار جالب است - حتی مدلهایی مانند GPT-4 تا حد زیادی تحت محدودیتهای منابع محاسباتی محدود توسعه یافتهاند، که جهتگیری بیشتر تحقیقات قبلی را نیز تعیین میکند.
اما وضعیت اکنون کاملاً متفاوت است. از زمان GPT-4.5، در برخی از ابعاد کلیدی، داده به جای محاسبات در حال تبدیل شدن به محدودیت اصلی است. این تغییر باعث میشود تحقیقات مرتبط کمتر هیجانانگیز شوند.
سم آلتمن: اما این واقعاً یک پیشرفت شگفتانگیز است، و جهان ممکن است به طور کامل درک نکند که منابع محاسباتی دیگر گلوگاه اصلی در بهترین مدلی که میتوانیم بسازیم نیستند. این تغییر عمیق است، به هر حال، ما برای مدت طولانی در یک محیط محدود به محاسبات زندگی کردهایم.
سم آلتمن: جالبترین تجربه یادگیری ماشین که در فرآیند آموزش GPT-4.5 آموختهایم چیست؟ فقط در مورد آنچه میخواهید به اشتراک بگذارید صحبت کنید.
امین توتونچیان: به طور کلی، تفکربرانگیزترین موقعیتها مواردی هستند که از پیشبینیهای ما منحرف میشوند - به خصوص زمانی که سعی میکنیم بفهمیم چرا عملکرد واقعی از منحنی مورد انتظار منحرف میشود.
الکس پینو: یکی از شگفتانگیزترین یافتهها برای ما این است که عملکرد مقیاسپذیری اجزای مختلف یادگیری ماشین بسیار متفاوت است. برخی از قسمتها را میتوان به خوبی مقیاس کرد، در حالی که برخی دیگر نمیتوانند. این چیزی است که ما واقعاً در فرآیند آموزش واقعی متوجه شدیم. این تجربه الهام زیادی به ما داد.
دانیل سلسام: من فکر میکنم دو ویژگی اصلی الگوی GPT عبارتند از: اول، از دست دادن آزمون (معیاری برای سنجش میزان عملکرد مدل در دادههای آزمایشی دیدهنشده) را میتوان به طور دقیق پیشبینی کرد؛ دوم، عملکرد مدل با گسترش مقیاس، بهبود قابل پیشبینی را نشان میدهد. به طور جادوییتر، کاهش از دست دادن آزمون به یک سطح پیشرفته همهجانبه از هوش به روشهای مختلف تبدیل میشود که کمیسازی آن دشوار است اما شگفتانگیز است.
سم آلتمن: آیا شما کاملاً خوشبین هستید؟ آیا کاملاً با این دیدگاه موافقید؟
دانیل سلسام: در واقع، چیزی که میخواهم بگویم این است که ما پدیدههای به خصوص جالبی را در آزمون GPT-4.5 یافتیم - پس از آزمایش مجدد، مدل تواناییهای ظریفی را نشان داد که کاملاً از انتظارات همه فراتر رفت.
ما مطمئن هستیم که از طرق مختلف که نمیتوان از قبل تعریف کرد، هوشمندتر خواهد شد، و پس از استقرار واقعی، میتوانیم این سطوح ظریف بهبود را از رضایت کاربر مشاهده کنیم: ذخایر عقل سلیم قویتر، قابلیتهای درک متنی دقیقتر، و درک معنایی ظریفتر - این دقیقاً جادویی است که آن از دست دادنهای آزمون اضافی به ارمغان میآورند. به نظر من، قانون مقیاس در این بعد کاملاً تأیید شده است.
سم آلتمن: مثبتترین لحظه در طول کل فرآیند آموزش چه بود؟ خاطره مورد علاقه شما چیست؟ واضح است که درد زیادی وجود دارد، اما امیدوارم این دردها کاهش یافته باشند.
الکس پینو: من چنین لحظهای را دارم. ما کارهای یادگیری ماشین زیادی را در طول آموزش انجام دادیم. من فکر میکنم برخی از تغییراتی که در طول عملیات ایجاد کردیم تأثیر نسبتاً خوبی داشتند، احتمالاً بهتر از حد انتظار، که لحظهای بسیار هیجانانگیز برای ما بود.
امین توتونچیان: برای من، همزمان با آموزش، در حال ساخت زیرساخت نیز هستیم. ما قاطعانه معتقدیم که میتوانیم از این صخره عملکرد عبور کنیم، و یک برنامه داریم، و همه آن را اجرا میکنند، اما زمان زیادی میبرد. این کار سخت است و قطعاً سختتر از آن چیزی است که فکر میکردم. پیشبینی من اشتباه بود، و من زمانی را که برای حل این مشکلات لازم بود دست کم گرفتم.
لحظهای که تیم سرانجام بر آن مشکلات کلیدی غلبه کرد و عملکرد به طور قابل توجهی بهبود یافت هنوز در خاطرم تازه است. شما میتوانید به وضوح تحول انرژی کل تیم را احساس کنید - همه به طور ناگهانی پر از انرژی هستند و با انگیزه جدید به سمت هدف نهایی میروند.
جادوییترین چیز این است که زمان تخمینی اتمام نمایش داده شده در ردیاب وضعیت ما همچنان از دو سال اولیه کوتاهتر شد و در نهایت در یک گره زمانی مشخص قفل شد. این پیشرفت قابل مشاهده یک انگیزه غیرقابل اندازهگیری برای روحیه تیمی دارد. من فکر میکنم این زیبایی آن است.
من میخواهم تأکید کنم که کار یادگیری ماشین هرگز متوقف نشده است. حتی پس از شروع آموزش، این فرآیند طراحی مشترک یادگیری ماشین ادامه مییابد. تیم یادگیری ماشین نه تنها فعالانه پیگیری میکند آن مسائلی را که به عنوان “پردازش بعدی” علامتگذاری شدهاند، بلکه به ارائه بهبودهایی ادامه میدهد که واقعاً زمان آموزش را بهینه میکنند.
این کاملاً منعکسکننده روحیه تیمی ما است - هیچ مرز کاری “هر فرد برف را جلوی در خانه خود جارو میکند” در اینجا وجود ندارد، بلکه یک همکاری کاملاً یکپارچه وجود دارد، و این انسجام بزرگترین قدرت ما است.
سم آلتمن: دنیای بیرون در مورد چالشها و دقت پیشبینی خود این آموزش بسیار بحث کرده است. اما در واقع، همه اینها بر اساس برنامهریزی بسیار کامل است - میتوانید بیشتر در مورد این موضوع با جزئیات صحبت کنید؟
الکس پینو: این قطعاً کاملترین برنامه ما تا به امروز است. همانطور که گفتم، ما یک سال قبل از شروع رسمی آموزش، شروع به آماده شدن برای این پروژه کردیم. در طول این دوره، ما چندین آزمایش کنترل ریسک در مقیاس بزرگ انجام دادیم.
ما به ویژه به معرفی تدریجی همه بهبودها توجه میکنیم: از یک پیکربندی اساسی با اطمینان بالا شروع میکنیم - که میتوان آن را به عنوان یک معماری بالغ مشابه GPT-4 درک کرد، ما این پیکربندی را در سطح یادگیری ماشین کاملاً تسلط دادهایم - و سپس ویژگیهای جدید را لایه به لایه مانند بلوکهای ساختمانی اضافه میکنیم.
نکته کلیدی این است که به طور دقیق مقیاسپذیری هر بهبود را در مقیاسهای مختلف تأیید کنیم: نه تنها برای دیدن بهبودهای عملکرد، بلکه برای اطمینان از اینکه این بهبودها همچنان با گسترش مقیاس مدل مؤثر هستند. بسیاریاز بهبودها در آزمایشهای مقیاس کوچک به خوبی عمل میکنند، اما در برنامههای مقیاس بزرگ شکست خواهند خورد.
بنابراین، ما در طول کل فرآیند درجه بالایی از هوشیاری را حفظ کردهایم و به طور مداوم روششناسی قانون توسعه خود را تکرار و بهبود بخشیدهایم. از طریق این عمل کنترل ریسک، ما تجربه ارزشمندی را انباشته کردهایم که به توسعه مدلهای سری GPT آینده ادامه خواهد داد.
امین توتونچیان: من یک لحظه به خصوص جالب را به یاد میآورم که خیلی دلم برایش تنگ شده است. میدانید، ما تقریباً همیشه هر بار که یک کار آموزشی را شروع میکنیم با اشکالات مختلفی روبرو میشویم. این دیگر امری عادی است. اما نکته کلیدی این است که اطمینان حاصل شود که پیشرفت مسدود نشده است و همیشه تأیید شود که پیشرفت فعلی واقعاً در مسیر درستی قرار دارد و آیا این اشکالات تأثیر کشندهای بر سلامت آموزش خواهند داشت یا خیر.
اگرچه ما در ابتدا بسیار مطمئن بودیم که نقصهای عمدهای وجود دارد، اما از طریق کل سیستم نظارتی که ساختهایم، توانستهایم به طور دقیق علت اصلی مشکل را تشخیص دهیم: آیا این یک خرابی سختافزاری است؟ چه نوع خرابی سختافزاری؟ آیا خرابی داده است؟ یا این یک اشکال در خود مدل یادگیری ماشین است؟ یا این یک وضعیت مسابقه در کد است؟
در آن زمان، ما چندین حوزه بحث مشکل را به طور همزمان باز کرده بودیم، با علائم مختلف. پس از یک سری رفع اشکالات، گیر کردیم: مشکلات حل نشده متعددی در مقابل ما وجود داشت، و همه مغز خود را به کار میانداختند - آیا اینها ناشی از اشکالات مختلف بودند؟ یا این یک اشکال در کار است؟
بعداً، ما رأیگیری کردیم تا اعضای تیم به محتملترین علت اصلی رأی دهند. کمترین گزینه امیدوارکننده به حقیقت رسید: معلوم شد که مشکلی در تابع torch.sum بالادست PyTorch وجود دارد، یک عملیات جمعبندی ساده.
این اشکال به ویژه جالب است. میدانید، ما عمدتاً از هسته Triton استفاده میکنیم، و فقط در برخی از سناریوهای حاشیهای غیر مهم به عملیات مشعل باز میگردیم. و اشکال تابع torch.sum که توسط مسیر کد خاص ما فعال شده است، به طور تصادفی به دلیل ویژگیهای توزیع داده باعث دسترسی غیرقانونی به حافظه میشود - هنگام محاسبه افست حافظه اشتباه میکرد.
دراماتیکترین چیز این است که وقتی یک مهندس سرانجام مشکل را پیدا کرد و یک رفع را ارسال کرد، همه گزارشهای خطا با علائم مختلف ناپدید شدند. همه با هیجان کانال Slack را از “تئوری چند اشکال” به “تئوری تک اشکال” تغییر دادند، و صحنه بسیار خوشحال بود.
چه مدت این اشکال در کمین بوده است؟ از مراحل اولیه آموزش وجود داشته است و تا زمانی که نوار پیشرفت حدود 40٪ عبور نکرد، شناسایی نشد. فرآیند کشف نیز پر از درام بود: در آن زمان، یک هسته پیچیده به طور متوالی دنبالهها را فراخوانی میکرد، و دومین فراخوانی باعث دسترسی غیرقانونی به حافظه میشد.
اگرچه این فرکانس خرابی بسیار کم است (فقط یک بار در هر چند صد یا حتی هزار مرحله آموزش رخ میدهد)، اما به راحتی میتوان آن را به عنوان یک خرابی گاه به گاه نادیده گرفت، اما دستورالعمل تیم ما این است: هرگز از هیچ ناهنجاری غافل نشوید. بهترین قسمت این داستان در این پشتکار است که به راحتی تسلیم نمیشود.
سم آلتمن: پس از شروع پیشآموزش GPT-4.5 چه کارهای دیگری باید انجام دهید؟
الکس پینو: همه ما باید به طور مکرر منحنی از دست دادن را مشاهده کنیم. علاوه بر این، باید به بهینهسازی سیستم و بهبود طراحی مشترکی که قبل از شروع آموزش تکمیل نشده بود، ادامه دهیم. ما از نزدیک آمارهای مختلف را در طول فرآیند آموزش نظارت میکنیم تا اطمینان حاصل کنیم که هیچ روند غیرمنتظرهای وجود ندارد. در عین حال، برنامههای بهبود احتمالی را از منظر یادگیری ماشین بررسی میکنیم. اگرچه کار در سطح داده پس از شروع پیشآموزش به طور موقت کاهش مییابد، اما هنوز کارهای زیادی برای پردازش وجود دارد.
امین توتونچیان: من فکر میکنم یادگیری ماشین تا حد زیادی به قضاوت درستی بستگی دارد. پس از شروع پیشآموزش، در مواجهه با مقدار زیادی سیگنال نویز، ما مانند فالگیرانی هستیم که تفالههای چای را تفسیر میکنیم، و باید قضاوت کنیم که آیا سیستم سالم است یا خیر. این مسئولیت ماست.
سم آلتمن: در سطح سیستم، چه چیزی ما را از انجام آموزش مدل محدود میکند؟ آیا تراشه، پردازنده، حافظه، شبکه یا منبع تغذیه است؟
امین توتونچیان: زیبایی سیستم این است که، هنگام انجام طراحی مشترک، حجم کار میتواند با زیرساختی که میسازید سازگار شود. هیچ حرف جهانشمولی وجود ندارد مبنی بر اینکه شبکه یک گلوگاه است، یا پهنای باند حافظه یک گلوگاه است، و غیره. حتی برای مدلهایی با مشخصات یکسان، میتوانیم انتخاب کنیم که الزامات منابع را انتقال دهیم. میتوانیم انتخاب کنیم که یک سیستم متعادلتر ایجاد کنیم، اما داشتن پهنای باند حافظه بیشتر همیشه مفید است. پاسخ به این سوال بدون محدود کردن شرایط دشوار است.
هنگام طراحی GPT-4.5، ممکن است لازم باشد یک ویژگی خاص در سیستم داشته باشیم، که باید از طریق راهنمایی انسانی تولید شود. بنابراین، طراحی مشترک برای شکلگیری معماری مدل و عناصر معماری بسیار مهم است، و تا حدی جنبههای سیستم و یادگیری ماشین را به هم متصل میکند. اگر سیستم ویژگیای داشته باشد که ما نمیخواهیم خیلی داشته باشیم. وضعیت ایدهآل من این است که همه چیز باید از هم جدا شود تا بیشترین فضا را به یکدیگر بدهد.
گاهی اوقات چیزها به هم متصل میشوند، و باید الزامات زیرساخت را برآورده کنیم، یا چیزها باید اینگونه باشند. بیشتر اوقات، به یک سیستم متعادل، یک ارتباط متعادل نیاز داریم. و بهترین ابزار نظارتی که در اختیار داریم، همه این طراحیهای مشترک است.
سم آلتمن: چقدر با چنین هدف سیستم ایدهآل فاصله داریم؟
امین توتونچیان: ما از آن هدف دور هستیم. روند ساخت یک سیستم همیشه اینگونه است: ابتدا یک دیدگاه ایدهآل از نحوه عملکرد چیزها وجود دارد، و سپس آن تفاوتها با منابع موجود آشتی داده میشوند.
من فکر نمیکنم ما این کار را برای تئوری به خاطر تئوری انجام میدهیم، بلکه فقط در مورد آنچه میخواهیم به آن تبدیل شود، بحث میکنیم، آن را تحقق میبخشیم و تا حد امکان به آن ایدهآل نزدیک میشویم. این ممکن است هیجانانگیزترین بخش در زمینه سیستم باشد. مردم قبلاً میگفتند که این یک طراحی سیستم زیبا است، و در نهایت تاریخ به ما خواهد گفت که آیا این انتخاب درست است یا اشتباه.
سم آلتمن: اگر میتوانستید قبل از آموزش بزرگ بعدی پاسخی برای یک سوال یادگیری ماشین دریافت کنید، بیشتر از همه دوست دارید چه چیزی را بدانید؟
الکس پینو: من میخواهم بدانم که در شرایط دادههای محدود و حوزههای خاص باید از کدام الگوریتمها استفاده کنیم. اگرچه این یک سوال گسترده است، اما در واقع حیاتیترین است.
سم آلتمن: آیا در آینده پیشآموزش همزمان را با 10 میلیون پردازنده گرافیکی یا بیشتر انجام خواهید داد؟
الکس پینو: من فکر میکنم وجود خواهد داشت، اما ممکن است مدل پیشآموزش سنتی نباشد. شکل آن ممکن است با فناوریهای موجود بسیار متفاوت باشد، اما همچنان هسته یادگیری بدون نظارت را حفظ خواهد کرد.
امین توتونچیان: من یک مدل نیمههمزمان را ترجیح میدهم. با توجه به قوانین فیزیکی، همگامسازی کامل بسیار واقعگرایانه نیست.
دانیل سلسام: من فکر میکنم احتمال بیشتری دارد که غیرمتمرکز باشد. قطعاً 10 میلیون پردازنده گرافیکی وجود خواهد داشت که به طور مشترک در یک سیستم هوش مصنوعی کار میکنند که وظایفی را یاد میگیرد و انجام میدهد، اما مانند قسمتهای مختلف مغز، ممکن است لزوماً با یکدیگر ارتباط برقرار نکنند.
سم آلتمن: چقدر تفاوت بین پیشرفتهترین الگوریتمهای فعلی و کارایی داده انسانی وجود دارد؟ آیا امکان دارد در آینده به آن برسیم؟
دانیل سلسام: مقایسه مستقیم این دو دشوار است. شکاف در یادگیری زبان قطعاً بسیار زیاد است. نکته کلیدی این است که چگونه مقدار اطلاعات دریافتی توسط اعصاب بینایی انسان را تعریف کنیم. من فکر میکنم کارایی داده کلی الگوریتمها بسیار کمتر از انسان است.
برای دههها، یادگیری عمیق بر کارایی محاسباتی متمرکز بوده است. علاوه بر رشد داده و قدرت محاسباتی، چیزی که واقعاً شگفتانگیز است، اثر روی هم گذاشته شده تولید شده توسط بهبودهای الگوریتمی است. هر بار که عملکرد الگوریتم 10٪ یا 20٪ بهبود مییابد، هنگام روی هم گذاشتن روی کارایی داده، تأثیر قابل توجهی خواهد داشت. تاکنون، هیچ بسیج مشابهی در مورد کارایی داده وجود نداشته است، زیرا زمانی که داده جریان ندارد و قدرت محاسباتی محدود است، ارزشش را ندارد.
اکنون، وارد مرحله جدیدی از تحقیقات هوش مصنوعی میشویم و شروع به جمعآوری پیروزیهای کارایی داده خواهیم کرد. من فکر میکنم کمی احمقانه است که اکنون پیشبینی کنیم که با موانع غیرقابل عبوری روبرو خواهیم شد. روش عملکرد مغز انسان قطعاً با بهبودهای الگوریتمی ما متفاوت است، و باید در این زمینه محتاط باشیم. اما من فکر میکنم باید نسبت به توسعه آینده الگوریتمها خوشبین باشیم.
سم آلتمن: چه ارتباطی بین پیشآموزش در مقیاس بزرگتر و تواناییهای یادگیری و استدلال قویتر مدل وجود دارد؟
الکس پینو: چیزی که مشاهده کردهایم این است که پیشآموزش بهتر و یادگیری بدون نظارت تمایل دارند هوش کلی مدل را بهبود بخشند و به طور زیادی در تعمیم کمک کنند، که مکمل توانایی استدلال است، در حالی که استدلال ممکن است در بهبود هوش کمی کسلکنندهتر باشد. من فکر میکنم آنها مکمل یکدیگر هستند.
سم آلتمن: به نظر میرسد پیشآموزش در بسیاری از موارد جهانی است، در حالی که آموزش یک مدل فقط میتواند آن را در یک نوع چیز خوب کند، درست است؟
الکس پینو: این بسیار جالب است، اما وقتی دادههایی را که آنها را آموزش میدهند میبینید، از این وضعیت شگفتزده نخواهید شد. محدوده مجموعه داده پیشآموزش بسیار بزرگ است، و آنچه ما دنبال میکنیم وسعت و تنوع است. وقتی صحبت از تقویت یادگیری مدل میشود و به وضوح سیگنالهای پاداش خوب و یک محیط آموزشی خوب را به دست میآورد، من فکر میکنم در نظر گرفتن وسعت مجموعه داده دشوار است.
دانیل سلسام: من موافقم، اما فکر میکنم عامل دیگری نیز وجود دارد. پیشآموزش اساساً فشردهسازی داده است، در نتیجه اتصالات بین چیزهای مختلف را کشف میکند. این در مورد قیاس و انتزاع بیشتر است. استدلال مهارتی است که نیاز به تفکر دقیق در مورد یک موضوع خاص دارد و همچنین میتواند راهحلهایی برای بسیاری از انواع مشکلات به دست آورد. اما در فرآیند پیشآموزش، هنگام فشردهسازی دادهها در زمینههای مختلف، دانش انتزاعیتری میتوان آموخت.
سم آلتمن: چرا یادگیری بدون نظارت مؤثر است؟
دانیل سلسام: نکته کلیدی فشردهسازی است. شکل ایدهآل هوش، استنتاج سولومونوف است. به طور کلی، یادگیری ماشین همه احتمالات را در نظر میگیرد، اما تمایل دارد با برنامههای سادهتر برای آزمایش شروع کند.
ماهیت پیشآموزش فعلی یک فرآیند فشردهسازی است که با یافتن سادهترین برنامه برای توضیح همه دادههایی که انسانها تاکنون تولید کردهاند، به بیان تقریبی دست مییابد.
سم آلتمن: چگونه پیشبینی نشانه بعدی به دستیابی به فشردهسازی کمک میکند؟
دانیل سلسام: یک پارادوکس در آمار وجود دارد - چرا به نظر میرسد شبکههای عمیق قادر به فشردهسازی نیستند اما میتوانند به تعمیم دست یابند؟ به طور معمول، وقتی دادههای زیادی و برخی مدلهای کوچک دارید، این مدلها باید از طریق فشردهسازی چیزی یاد بگیرند.
در پیشآموزش، مقیاس دادهها و مدلها بسیار بزرگ است. برخی از افراد فکر میکنند که این آموزش فقط یادگیری حافظه و درونیابی است. در واقع، آنها دیدگاه دیگری از درک فشردهسازی را نادیده میگیرند - فشردهسازی پیشترتیبی. این مانند یک کمپرسور است. حتی اگر وزن داده بسیار زیاد باشد، باینری نیازی به ذخیره این اطلاعات ندارد. نتیجه پیشبینی نشانه بعدی میتواند به سرعت اطلاعات مفید را بازیابی کند و کارایی فشردهسازی را بهبود بخشد.
سم آلتمن: روند آموزش GPT-4.5 هزینه زیادی از نیروی انسانی، زمان و پول را در برداشت، که در واقع میتوان آن را به عنوان آزمایشی برای تأیید قانون مقیاس در نظر گرفت، و نتایج ثابت میکند که مؤثر است و برای مدت طولانی ادامه خواهد داشت. چرا میتوان قانون مقیاس را قانون جهان نامید؟
دانیل سلسام: هرچه درجه فشردهسازی بالاتر باشد، هوش قدرتمندتر است، که دارای مفاهیم فلسفی عمیقی است. چرا آموزش مدلهای بزرگتر بیشتر طول میکشد و نرخ فشردهسازی بالاتر است؟ این شامل نظریههای زیادی میشود که من نمایشهای پراکنده را دوست دارم.
مفاهیم کلیدی در واقعیت از یک توزیع قانون توان پیروی میکنند.