GPT-4.5: چالش‌ها و پیشرفت‌های آموزشی

توسعه GPT-4.5، پروژه‌ای که دو سال قبل آغاز شد، نمایانگر بلندپروازانه‌ترین تلاش OpenAI تا به امروز است. این اقدام گسترده شامل تلاش‌های مشترک صدها نفر بود، و سم آلتمن، مدیر عامل OpenAI، خاطرنشان کرد که این پروژه مستلزم مشارکت تقریباً کامل سازمانی است.

غلبه بر “مشکلات فاجعه‌بار” در آموزش در مقیاس بزرگ

سفر برای ایجاد GPT-4.5 بدون موانع نبود. تیم با مشکلات متعدد “فاجعه‌بار” در طول مرحله تحقیق و توسعه روبرو شد. استفاده از خوشه‌ای از 100000 پردازنده گرافیکی، خرابی‌های زیرساختی قبلاً دیده‌نشده، کم‌احتمال، اما عمیق را آشکار کرد. برای متعادل کردن سرعت عمل با عملکرد بهینه، تیم سیستم OpenAI مجبور شد رویکرد “تعمیر در حین حرکت” را اتخاذ کند. یک اشکال گریزان به طور خاص خوشه را با خطاهای مکرر آزار می‌داد و تا زمانی که تقریباً 40٪ از فرآیند آموزش سپری نشده بود، شناسایی نشد.

علیرغم این چالش‌ها، پروژه GPT-4.5 توسعه یک پشته فناوری قوی‌تر را تسریع کرد. امروزه، یک تیم کوچک متشکل از تنها 5-10 نفر می‌تواند یک مدل بزرگ شبیه به GPT-4 را تکرار کند. دستاوردهای عملکردی از GPT-4 به GPT-4.5 تقریباً ده برابر بود و “هوشی که کمی‌سازی آن دشوار است اما در همه جنبه‌ها افزایش یافته است” را به دست آورد، نتیجه‌ای که حتی پرسنل خود OpenAI را نیز شگفت‌زده کرد.

تغییر تمرکز: از قدرت محاسباتی به کارایی داده

OpenAI متوجه شده است که دستیابی به جهش ده یا صد برابری بعدی در عملکرد، نه به قدرت محاسباتی خام، بلکه به کارایی داده بستگی دارد - به طور خاص، توانایی استخراج دانش بیشتر از همان مقدار داده در حالی که از منابع محاسباتی بیشتری استفاده می‌شود.

معماری نیز از یک خوشه واحد به یک الگوی چند خوشه‌ای در حال تحول است. تکرارهای آموزشی آینده ممکن است شامل یادگیری مشارکتی در بین 10 میلیون پردازنده گرافیکی باشد و نیاز به تحمل خطای بالاتری دارد.

گفتگوی سم آلتمن با تیم GPT-4.5

در زیر یک گردآوری ویرایش‌شده از بحث بین سم آلتمن و تیم OpenAI GPT-4.5 آمده است:

سم آلتمن: ساختن یک مدل بزرگ مانند GPT-4.5 چه چیزی لازم دارد؟

الکس پینو: ما این پروژه را حدود دو سال پیش شروع کردیم. در آن زمان، OpenAI در آستانه راه‌اندازی یک خوشه محاسباتی بزرگ جدید بود، و تیم ما این را فرصتی دید تا مجموعه‌ای از عملیات را برای تعیین عملکردهایی که مدل باید شامل شود، انجام دهد، و تعداد زیادی تست عملیات کاهش ریسک انجام داد.

ما یک برنامه طولانی برای این کار توسعه داده‌ایم که شامل کل پشته فناوری از سیستم تا یادگیری ماشین می‌شود. کاهش ریسک‌ها و آماده‌سازی برای آموزش یک فرآیند اجرایی طولانی است و خود آموزش یک پروژه بسیار بزرگ است.

امین توتونچیان: من فکر می‌کنم این فرآیند نیاز به همکاری نزدیک بین تیم یادگیری ماشین و تیم سیستم از ابتدا دارد، تا زمانی که مشخص کنیم چه مدلی می‌خواهیم آموزش دهیم، و سپس شروع به آموزش کنیم.

ما در هر دو جنبه یادگیری ماشین و سیستم پیش‌بینی‌هایی انجام داده‌ایم و سعی کرده‌ایم تا حد امکان شکاف بین انتظار و واقعیت را کاهش دهیم. اما از آنجایی که ریتم کاری ما سریع است و باید از آخرین منابع محاسباتی استفاده کنیم، آموزش مدل به چیزی تبدیل شده است که برنامه‌ریزی کامل آن از قبل دشوار است.

ما تقریباً همیشه آموزش را با بسیاری از مشکلات حل نشده شروع می‌کنیم و سعی می‌کنیم در طول عملیات بر چالش‌ها غلبه کنیم و پیشرفت کنیم. راه حل اصلی اضافه کردن منابع محاسباتی بیشتر است.

مرحله نهایی اجرا است که مستلزم آن است که بسیاری از افراد انرژی و انگیزه زیادی را برای مدت طولانی سرمایه‌گذاری کنند تا روند آموزش را تکمیل کنند.

سم آلتمن: فکر می‌کنید شکاف بین انتظارات و واقعیت ما چقدر است؟

امین توتونچیان: از نظر سیستم، ما معمولاً در ابتدا از وضعیت مورد انتظار بسیار دور هستیم. ما همیشه با یک انتخاب روبرو هستیم: آیا شروع را به تعویق بیندازیم و منتظر بمانیم تا مشکل حل شود، یا زودتر شروع کنیم و مشکل را در این فرآیند حل کنیم. این همیشه نیاز به یک مصالحه دارد تا از تاخیرهای غیرمنطقی در این روند جلوگیری شود.

اما تقریباً همیشه برخی مشکلات غیرمنتظره وجود دارد، و کاری که ما باید انجام دهیم این است که تا حد امکان با این گره‌ها مقابله کنیم، با عوامل ناشناخته مقابله کنیم و برنامه‌ای برای آموزش مدل تدوین کنیم.

الکس پینو: در این پروژه، هدف ما ساختن GPT-4.5 است، به این معنی که قابلیت‌های آن باید 10 برابر هوشمندتر از GPT-4 باشد. این هدف اولیه است که حدود 2 سال پیش تعیین کردیم.

در این فرآیند اتفاقات زیادی افتاد. ما به این فکر می‌کردیم که آیا می‌توانیم بهتر عمل کنیم یا بدتر از حد انتظار؟ این یک فرآیند بسیار پیچیده است، اما در پایان، از نظر محاسبات موثری که سرمایه‌گذاری کردیم، مدلی را به دست آوردیم که فکر می‌کنیم 10 برابر هوشمندتر از GPT-4 رسیده است.

امین توتونچیان: از نظر اجرا، زمان صرف شده برای پروژه GPT-4.5 بسیار دور از آن چیزی است که در ابتدا انتظار داشتیم.

سم آلتمن: چرا وقتی خوشه از 10000 کارت به 100000 کارت گسترش یافت، با مشکلات زیادی روبرو شدید؟

امین توتونچیان: من فکر می‌کنم اگر توسعه‌دهندگان سیستم به اندازه کافی حساس باشند، بیشتر مشکلات را می‌توان در مرحله مقیاس کوچک مشاهده کرد.

برخی از مشکلات منحصر به مرحله آموزش در مقیاس بزرگ نیستند، اما اغلب قبلاً رخ داده‌اند، اما پس از افزایش مقیاس به مشکلات فاجعه‌بار تبدیل می‌شوند، به خصوص زمانی که تیم پیش‌بینی نکرده است که این مشکلات تا این حد بدتر شوند.

سم آلتمن: چه چیزهایی باعث پیامدهای فاجعه‌بار شده است؟

امین توتونچیان: من فکر می‌کنم مشکلات زیرساختی به خوبی شناخته شده‌اند، چه میزان خرابی، نوع خرابی یا کل میزان خرابی بسیار زیاد باشد. خوشه 100000 کارتی یک استخر نمونه در مقیاس بزرگ است، بنابراین ما همچنین مشکلاتی را کشف کردیم که تامین کننده قدرت محاسباتی مشاهده نکرده بود.

شبکه یکی از آنهاست، و شتاب‌دهنده‌های فردی نیز می‌توانند مشکلاتی داشته باشند. اما این نیز زیبایی این سیستم است - تقریباً همه اجزا باید طبق انتظار کار کنند تا نتایج مورد انتظار حاصل شود. کار ما این است که تا حد امکان این مشکل را به حداقل برسانیم.

سم آلتمن: کار کردن در حد اندازه خوشه واقعاً دشوار است، اما من همچنین متوجه شده‌ام که انجام کارهایی که دیگر در خط مقدم فناوری نیستند، بسیار آسان‌تر شده است. آموزش GPT-4.5 به صدها نفر نیاز دارد، و OpenAI تقریباً همه را درگیر کرده است.

اما امروزه، اگر کوچکترین تیم را از OpenAI انتخاب کنید و GPT-4 را از ابتدا با تمام دانش و کار سیستمی که می‌دانیم بازآموزی کنید، چند نفر لازم است؟

الکس پینو: من فکر می‌کنم ممکن است حدود 5 تا 10 نفر طول بکشد تا یک مدل در سطح GPT-4 بسازیم. پشته فناوری در فرآیند تکمیل GPT-4.5 بسیار بهبود یافته است.

در واقع، ما کارهای مشابهی را در فرآیند آموزش GPT-4.5 انجام داده‌ایم - ما GPT-4o را آموزش دادیم، که یک مدل در سطح GPT-4 است، و آن را با استفاده از بسیاری از محتوای مشابه از پروژه تحقیقاتی GPT-4.5 بازآموزی کردیم. افراد کمتری برای آن آموزش استفاده شدند.

سم آلتمن: از دیدگاه شما، دن؟ چرا آموزش مدل‌های بزرگ دشوار است؟

دانیل سلسام: من فکر می‌کنم انجام هر کار جدیدی دشوار است. من فکر می‌کنم حتی فقط کشف اینکه شخص دیگری کاری را انجام داده است، آن را بسیار آسان‌تر می‌کند، زیرا سخت‌ترین بخش داشتن ایمان برای انجام کاری در وهله اول است. من فکر می‌کنم فقط دانستن اینکه چیزی امکان‌پذیر است، یک کد تقلب فوق‌العاده است که کارها را بسیار آسان‌تر می‌کند.

الکس پینو: ما در حال گسترش اجرای پیش‌آموزش GPT به 10 برابر اندازه قبلی آن هستیم، و همیشه برخی چیزهای جالب جدید را پیدا می‌کنیم که لزوماً نمی‌توانید پیش‌بینی کنید.

سم آلتمن: برای دستیابی به رشد 10 برابری یا 100 برابری بعدی در مقیاس پیش‌آموزش چه چیزی لازم است؟

دانیل سلسام: کارایی داده. معماری Transformer (یعنی GPT) در استفاده از داده بسیار کارآمد است. می‌تواند اطلاعات را به خوبی جذب و فشرده کند و به تعمیم دست یابد. بزرگترین ویژگی آن این است که می‌تواند به طور موثر اطلاعات را با منابع محاسباتی جذب کند.

با این حال، عمق بینشی که از داده به دست می‌آورد محدود است. هنگامی که قدرت محاسباتی به سرعت رشد می‌کند و داده نسبتاً آهسته رشد می‌کند، داده به یک گلوگاه برای این مدل استاندارد تبدیل می‌شود. این امر مستلزم نوآوری الگوریتمی برای توسعه روش‌هایی است که می‌توانند از قدرت محاسباتی بیشتری برای یادگیری دانش بیشتر از همان مقدار داده استفاده کنند.

سم آلتمن: به نظر شما برای حفظ توسعه چه چیز دیگری لازم است؟

امین توتونچیان: پاسخ من در مورد سیستم است. من فکر می‌کنم حجم کار عظیمی که برای GPT-4.5 لازم است اساساً نتیجه اجتناب‌ناپذیر مشخصات مدل است. ما نمی‌توانیم GPT-4.5 را با همان معماری فنی GPT-4 آموزش دهیم.

از نظر مدیریت وضعیت، از آنجایی که منابع محاسباتی مورد نیاز از ظرفیت یک خوشه واحد فراتر رفته است، باید به یک معماری آموزشی چند خوشه‌ای روی بیاوریم. برای دستیابی به این هدف، باید چندین گردش کار مختلف را در یک دوره کوتاه زمانی ادغام کنیم.

اگرچه این واقعاً به ما کمک کرده است تا به پیشرفت‌های مرحله‌ای دست یابیم، اما برای دستیابی به مرتبه بزرگی بعدی بهبود عملکرد، هنوز باید چندین مشکل فنی شناخته شده اما به طور موقت بایگانی شده را حل کنیم - این مشکلات قابل اجتناب نیستند. این نوع مصالحه‌های فنی است که دائماً چرخه تحقیق و توسعه سیستم عالی را طولانی‌تر می‌کند، و ما همیشه در حال ایجاد مصالحه‌های استراتژیک در فرآیند پیگیری طرح پیاده‌سازی بهینه هستیم.

باید روشن باشد که خود سیستم هدف نهایی نیست، و ارزش خروجی واقعی آن ملاحظه اصلی است. برای 10 برابر بعدی بهبود عملکرد، من فکر می‌کنم پیشرفت در تحمل خطا بسیار مهم است. ما باید یک مکانیسم تحمل خطا بسازیم که عمیقاً با حجم کار هم‌افزایی داشته باشد تا اضطراب عملیات و نگهداری را به طور قابل توجهی کاهش دهد. پیچیدگی عملیات و نگهداری سیستم‌های فوق‌العاده بزرگ فعلی اساساً با سیستم‌های قبلی متفاوت است.

سم آلتمن: آیا می‌دانید چه درصدی از خرابی‌ها در طول آموزش GPT-4.5 ناشی از اجزای خاصی بوده است؟

امین توتونچیان: من اعداد خاصی برای به اشتراک گذاشتن ندارم، اما به طور کلی، در مراحل اولیه استقرار نسل جدیدی از سخت‌افزار، عملکرد سیستم اغلب با چالش‌های فنی بسیاری روبرو می‌شود که به طور کامل درک نشده‌اند. ما تصمیم گرفتیم پروژه را قبل از اینکه مشکل به طور کامل تعریف شود، پیش ببریم، که منجر به نرخ خرابی اولیه بالایی شد.

اما تجربه نشان داده است که با شناسایی و حل علت اصلی، نرخ خرابی به طور قابل توجهی کاهش می‌یابد. این پدیده اساساً منعکس‌کننده تعمیق درک ما از زیرساخت است - برخی افراد آن را پاکسازی زیرساخت یا درک مشکلات اساسی زیرساخت می‌نامند.

مراحل اولیه اجرا تقریباً همیشه کاملاً دردناک هستند. در حالی که پروژه را پیش می‌بریم، به طور مداوم در حال کشف و حل حالت‌های خرابی جدید نیز هستیم، اما نرخ خرابی به تدریج کاهش می‌یابد و زمان عملکرد عادی طولانی‌تر می‌شود.

این اساساً یک موضوع مصالحه اولویت است: در مراحل اولیه چرخه عمر زیرساخت، تخمین دقیق ریسک خرابی آن اغلب دشوار است؛ و اگر بیش از حد به دنبال وضعیت ایده‌آل نهایی باشیم (اصل آن “City Estate” است، طرح شهر-ایده‌آل)، ممکن است منجر به سیستم شود عملکرد در دسترس بودن در مراحل اولیه بسیار ضعیف است.

سم آلتمن: اگرچه مدل استدلال یک جزء کلیدی از پشته فناوری آینده ما است، بیایید فعلاً بر روی مرز توسعه مدل پیش‌آموزش سنتی تمرکز کنیم. فرض کنید ما قدرت محاسباتی GPU نامحدود، پهنای باند شبکه نامحدود و منبع تغذیه نامحدود داریم، اما همچنان محدود به گلوگاه‌های فنی موجود هستیم - از جمله مسائل مربوط به قابلیت اطمینان سیستم، فقدان روش‌های آموزش تحمل خطا و محدودیت‌های مجموعه‌های داده موجود.

با توجه به قانون تکامل ما برای دستیابی به افزایش مقیاس 100 برابری در هر نسخه اصلی GPT، بر اساس مرزهای فنی فعلی، توسعه مدل پیش‌آموزش به چه سطحی می‌تواند برسد؟ به طور خاص برای مدل‌های سری GPT، با سیستم دانش موجود ما، چه نوع مدلی را می‌توانیم از نظر تئوری آموزش دهیم؟ آیا می‌توان GPT-5.5 را ساخت؟

الکس پینو: از منظر یادگیری ماشین و توسعه الگوریتم، ما هنوز به یک حد بالایی نظری روشن نرسیده‌ایم. در واقع، ما تازه شروع به کشف الگوریتم‌هایی با کارایی داده بالاتر و چگونگی استفاده کامل‌تر از منابع داده موجود کرده‌ایم. این وضعیت بسیار جالب است - حتی مدل‌هایی مانند GPT-4 تا حد زیادی تحت محدودیت‌های منابع محاسباتی محدود توسعه یافته‌اند، که جهت‌گیری بیشتر تحقیقات قبلی را نیز تعیین می‌کند.

اما وضعیت اکنون کاملاً متفاوت است. از زمان GPT-4.5، در برخی از ابعاد کلیدی، داده به جای محاسبات در حال تبدیل شدن به محدودیت اصلی است. این تغییر باعث می‌شود تحقیقات مرتبط کمتر هیجان‌انگیز شوند.

سم آلتمن: اما این واقعاً یک پیشرفت شگفت‌انگیز است، و جهان ممکن است به طور کامل درک نکند که منابع محاسباتی دیگر گلوگاه اصلی در بهترین مدلی که می‌توانیم بسازیم نیستند. این تغییر عمیق است، به هر حال، ما برای مدت طولانی در یک محیط محدود به محاسبات زندگی کرده‌ایم.

سم آلتمن: جالب‌ترین تجربه یادگیری ماشین که در فرآیند آموزش GPT-4.5 آموخته‌ایم چیست؟ فقط در مورد آنچه می‌خواهید به اشتراک بگذارید صحبت کنید.

امین توتونچیان: به طور کلی، تفکربرانگیزترین موقعیت‌ها مواردی هستند که از پیش‌بینی‌های ما منحرف می‌شوند - به خصوص زمانی که سعی می‌کنیم بفهمیم چرا عملکرد واقعی از منحنی مورد انتظار منحرف می‌شود.

الکس پینو: یکی از شگفت‌انگیزترین یافته‌ها برای ما این است که عملکرد مقیاس‌پذیری اجزای مختلف یادگیری ماشین بسیار متفاوت است. برخی از قسمت‌ها را می‌توان به خوبی مقیاس کرد، در حالی که برخی دیگر نمی‌توانند. این چیزی است که ما واقعاً در فرآیند آموزش واقعی متوجه شدیم. این تجربه الهام زیادی به ما داد.

دانیل سلسام: من فکر می‌کنم دو ویژگی اصلی الگوی GPT عبارتند از: اول، از دست دادن آزمون (معیاری برای سنجش میزان عملکرد مدل در داده‌های آزمایشی دیده‌نشده) را می‌توان به طور دقیق پیش‌بینی کرد؛ دوم، عملکرد مدل با گسترش مقیاس، بهبود قابل پیش‌بینی را نشان می‌دهد. به طور جادویی‌تر، کاهش از دست دادن آزمون به یک سطح پیشرفته همه‌جانبه از هوش به روش‌های مختلف تبدیل می‌شود که کمی‌سازی آن دشوار است اما شگفت‌انگیز است.

سم آلتمن: آیا شما کاملاً خوش‌بین هستید؟ آیا کاملاً با این دیدگاه موافقید؟

دانیل سلسام: در واقع، چیزی که می‌خواهم بگویم این است که ما پدیده‌های به خصوص جالبی را در آزمون GPT-4.5 یافتیم - پس از آزمایش مجدد، مدل توانایی‌های ظریفی را نشان داد که کاملاً از انتظارات همه فراتر رفت.

ما مطمئن هستیم که از طرق مختلف که نمی‌توان از قبل تعریف کرد، هوشمندتر خواهد شد، و پس از استقرار واقعی، می‌توانیم این سطوح ظریف بهبود را از رضایت کاربر مشاهده کنیم: ذخایر عقل سلیم قوی‌تر، قابلیت‌های درک متنی دقیق‌تر، و درک معنایی ظریف‌تر - این دقیقاً جادویی است که آن از دست دادن‌های آزمون اضافی به ارمغان می‌آورند. به نظر من، قانون مقیاس در این بعد کاملاً تأیید شده است.

سم آلتمن: مثبت‌ترین لحظه در طول کل فرآیند آموزش چه بود؟ خاطره مورد علاقه شما چیست؟ واضح است که درد زیادی وجود دارد، اما امیدوارم این دردها کاهش یافته باشند.

الکس پینو: من چنین لحظه‌ای را دارم. ما کارهای یادگیری ماشین زیادی را در طول آموزش انجام دادیم. من فکر می‌کنم برخی از تغییراتی که در طول عملیات ایجاد کردیم تأثیر نسبتاً خوبی داشتند، احتمالاً بهتر از حد انتظار، که لحظه‌ای بسیار هیجان‌انگیز برای ما بود.

امین توتونچیان: برای من، همزمان با آموزش، در حال ساخت زیرساخت نیز هستیم. ما قاطعانه معتقدیم که می‌توانیم از این صخره عملکرد عبور کنیم، و یک برنامه داریم، و همه آن را اجرا می‌کنند، اما زمان زیادی می‌برد. این کار سخت است و قطعاً سخت‌تر از آن چیزی است که فکر می‌کردم. پیش‌بینی من اشتباه بود، و من زمانی را که برای حل این مشکلات لازم بود دست کم گرفتم.

لحظه‌ای که تیم سرانجام بر آن مشکلات کلیدی غلبه کرد و عملکرد به طور قابل توجهی بهبود یافت هنوز در خاطرم تازه است. شما می‌توانید به وضوح تحول انرژی کل تیم را احساس کنید - همه به طور ناگهانی پر از انرژی هستند و با انگیزه جدید به سمت هدف نهایی می‌روند.

جادویی‌ترین چیز این است که زمان تخمینی اتمام نمایش داده شده در ردیاب وضعیت ما همچنان از دو سال اولیه کوتاه‌تر شد و در نهایت در یک گره زمانی مشخص قفل شد. این پیشرفت قابل مشاهده یک انگیزه غیرقابل اندازه‌گیری برای روحیه تیمی دارد. من فکر می‌کنم این زیبایی آن است.

من می‌خواهم تأکید کنم که کار یادگیری ماشین هرگز متوقف نشده است. حتی پس از شروع آموزش، این فرآیند طراحی مشترک یادگیری ماشین ادامه می‌یابد. تیم یادگیری ماشین نه تنها فعالانه پیگیری می‌کند آن مسائلی را که به عنوان “پردازش بعدی” علامت‌گذاری شده‌اند، بلکه به ارائه بهبودهایی ادامه می‌دهد که واقعاً زمان آموزش را بهینه می‌کنند.

این کاملاً منعکس‌کننده روحیه تیمی ما است - هیچ مرز کاری “هر فرد برف را جلوی در خانه خود جارو می‌کند” در اینجا وجود ندارد، بلکه یک همکاری کاملاً یکپارچه وجود دارد، و این انسجام بزرگترین قدرت ما است.

سم آلتمن: دنیای بیرون در مورد چالش‌ها و دقت پیش‌بینی خود این آموزش بسیار بحث کرده است. اما در واقع، همه اینها بر اساس برنامه‌ریزی بسیار کامل است - می‌توانید بیشتر در مورد این موضوع با جزئیات صحبت کنید؟

الکس پینو: این قطعاً کامل‌ترین برنامه ما تا به امروز است. همانطور که گفتم، ما یک سال قبل از شروع رسمی آموزش، شروع به آماده شدن برای این پروژه کردیم. در طول این دوره، ما چندین آزمایش کنترل ریسک در مقیاس بزرگ انجام دادیم.

ما به ویژه به معرفی تدریجی همه بهبودها توجه می‌کنیم: از یک پیکربندی اساسی با اطمینان بالا شروع می‌کنیم - که می‌توان آن را به عنوان یک معماری بالغ مشابه GPT-4 درک کرد، ما این پیکربندی را در سطح یادگیری ماشین کاملاً تسلط داده‌ایم - و سپس ویژگی‌های جدید را لایه به لایه مانند بلوک‌های ساختمانی اضافه می‌کنیم.

نکته کلیدی این است که به طور دقیق مقیاس‌پذیری هر بهبود را در مقیاس‌های مختلف تأیید کنیم: نه تنها برای دیدن بهبودهای عملکرد، بلکه برای اطمینان از اینکه این بهبودها همچنان با گسترش مقیاس مدل مؤثر هستند. بسیاریاز بهبودها در آزمایش‌های مقیاس کوچک به خوبی عمل می‌کنند، اما در برنامه‌های مقیاس بزرگ شکست خواهند خورد.

بنابراین، ما در طول کل فرآیند درجه بالایی از هوشیاری را حفظ کرده‌ایم و به طور مداوم روش‌شناسی قانون توسعه خود را تکرار و بهبود بخشیده‌ایم. از طریق این عمل کنترل ریسک، ما تجربه ارزشمندی را انباشته کرده‌ایم که به توسعه مدل‌های سری GPT آینده ادامه خواهد داد.

امین توتونچیان: من یک لحظه به خصوص جالب را به یاد می‌آورم که خیلی دلم برایش تنگ شده است. می‌دانید، ما تقریباً همیشه هر بار که یک کار آموزشی را شروع می‌کنیم با اشکالات مختلفی روبرو می‌شویم. این دیگر امری عادی است. اما نکته کلیدی این است که اطمینان حاصل شود که پیشرفت مسدود نشده است و همیشه تأیید شود که پیشرفت فعلی واقعاً در مسیر درستی قرار دارد و آیا این اشکالات تأثیر کشنده‌ای بر سلامت آموزش خواهند داشت یا خیر.

اگرچه ما در ابتدا بسیار مطمئن بودیم که نقص‌های عمده‌ای وجود دارد، اما از طریق کل سیستم نظارتی که ساخته‌ایم، توانسته‌ایم به طور دقیق علت اصلی مشکل را تشخیص دهیم: آیا این یک خرابی سخت‌افزاری است؟ چه نوع خرابی سخت‌افزاری؟ آیا خرابی داده است؟ یا این یک اشکال در خود مدل یادگیری ماشین است؟ یا این یک وضعیت مسابقه در کد است؟

در آن زمان، ما چندین حوزه بحث مشکل را به طور همزمان باز کرده بودیم، با علائم مختلف. پس از یک سری رفع اشکالات، گیر کردیم: مشکلات حل نشده متعددی در مقابل ما وجود داشت، و همه مغز خود را به کار می‌انداختند - آیا اینها ناشی از اشکالات مختلف بودند؟ یا این یک اشکال در کار است؟

بعداً، ما رأی‌گیری کردیم تا اعضای تیم به محتمل‌ترین علت اصلی رأی دهند. کمترین گزینه امیدوارکننده به حقیقت رسید: معلوم شد که مشکلی در تابع torch.sum بالادست PyTorch وجود دارد، یک عملیات جمع‌بندی ساده.

این اشکال به ویژه جالب است. می‌دانید، ما عمدتاً از هسته Triton استفاده می‌کنیم، و فقط در برخی از سناریوهای حاشیه‌ای غیر مهم به عملیات مشعل باز می‌گردیم. و اشکال تابع torch.sum که توسط مسیر کد خاص ما فعال شده است، به طور تصادفی به دلیل ویژگی‌های توزیع داده باعث دسترسی غیرقانونی به حافظه می‌شود - هنگام محاسبه افست حافظه اشتباه می‌کرد.

دراماتیک‌ترین چیز این است که وقتی یک مهندس سرانجام مشکل را پیدا کرد و یک رفع را ارسال کرد، همه گزارش‌های خطا با علائم مختلف ناپدید شدند. همه با هیجان کانال Slack را از “تئوری چند اشکال” به “تئوری تک اشکال” تغییر دادند، و صحنه بسیار خوشحال بود.

چه مدت این اشکال در کمین بوده است؟ از مراحل اولیه آموزش وجود داشته است و تا زمانی که نوار پیشرفت حدود 40٪ عبور نکرد، شناسایی نشد. فرآیند کشف نیز پر از درام بود: در آن زمان، یک هسته پیچیده به طور متوالی دنباله‌ها را فراخوانی می‌کرد، و دومین فراخوانی باعث دسترسی غیرقانونی به حافظه می‌شد.

اگرچه این فرکانس خرابی بسیار کم است (فقط یک بار در هر چند صد یا حتی هزار مرحله آموزش رخ می‌دهد)، اما به راحتی می‌توان آن را به عنوان یک خرابی گاه به گاه نادیده گرفت، اما دستورالعمل تیم ما این است: هرگز از هیچ ناهنجاری غافل نشوید. بهترین قسمت این داستان در این پشتکار است که به راحتی تسلیم نمی‌شود.

سم آلتمن: پس از شروع پیش‌آموزش GPT-4.5 چه کارهای دیگری باید انجام دهید؟

الکس پینو: همه ما باید به طور مکرر منحنی از دست دادن را مشاهده کنیم. علاوه بر این، باید به بهینه‌سازی سیستم و بهبود طراحی مشترکی که قبل از شروع آموزش تکمیل نشده بود، ادامه دهیم. ما از نزدیک آمارهای مختلف را در طول فرآیند آموزش نظارت می‌کنیم تا اطمینان حاصل کنیم که هیچ روند غیرمنتظره‌ای وجود ندارد. در عین حال، برنامه‌های بهبود احتمالی را از منظر یادگیری ماشین بررسی می‌کنیم. اگرچه کار در سطح داده پس از شروع پیش‌آموزش به طور موقت کاهش می‌یابد، اما هنوز کارهای زیادی برای پردازش وجود دارد.

امین توتونچیان: من فکر می‌کنم یادگیری ماشین تا حد زیادی به قضاوت درستی بستگی دارد. پس از شروع پیش‌آموزش، در مواجهه با مقدار زیادی سیگنال نویز، ما مانند فالگیرانی هستیم که تفاله‌های چای را تفسیر می‌کنیم، و باید قضاوت کنیم که آیا سیستم سالم است یا خیر. این مسئولیت ماست.

سم آلتمن: در سطح سیستم، چه چیزی ما را از انجام آموزش مدل محدود می‌کند؟ آیا تراشه، پردازنده، حافظه، شبکه یا منبع تغذیه است؟

امین توتونچیان: زیبایی سیستم این است که، هنگام انجام طراحی مشترک، حجم کار می‌تواند با زیرساختی که می‌سازید سازگار شود. هیچ حرف جهانشمولی وجود ندارد مبنی بر اینکه شبکه یک گلوگاه است، یا پهنای باند حافظه یک گلوگاه است، و غیره. حتی برای مدل‌هایی با مشخصات یکسان، می‌توانیم انتخاب کنیم که الزامات منابع را انتقال دهیم. می‌توانیم انتخاب کنیم که یک سیستم متعادل‌تر ایجاد کنیم، اما داشتن پهنای باند حافظه بیشتر همیشه مفید است. پاسخ به این سوال بدون محدود کردن شرایط دشوار است.

هنگام طراحی GPT-4.5، ممکن است لازم باشد یک ویژگی خاص در سیستم داشته باشیم، که باید از طریق راهنمایی انسانی تولید شود. بنابراین، طراحی مشترک برای شکل‌گیری معماری مدل و عناصر معماری بسیار مهم است، و تا حدی جنبه‌های سیستم و یادگیری ماشین را به هم متصل می‌کند. اگر سیستم ویژگی‌ای داشته باشد که ما نمی‌خواهیم خیلی داشته باشیم. وضعیت ایده‌آل من این است که همه چیز باید از هم جدا شود تا بیشترین فضا را به یکدیگر بدهد.

گاهی اوقات چیزها به هم متصل می‌شوند، و باید الزامات زیرساخت را برآورده کنیم، یا چیزها باید اینگونه باشند. بیشتر اوقات، به یک سیستم متعادل، یک ارتباط متعادل نیاز داریم. و بهترین ابزار نظارتی که در اختیار داریم، همه این طراحی‌های مشترک است.

سم آلتمن: چقدر با چنین هدف سیستم ایده‌آل فاصله داریم؟

امین توتونچیان: ما از آن هدف دور هستیم. روند ساخت یک سیستم همیشه اینگونه است: ابتدا یک دیدگاه ایده‌آل از نحوه عملکرد چیزها وجود دارد، و سپس آن تفاوت‌ها با منابع موجود آشتی داده می‌شوند.

من فکر نمی‌کنم ما این کار را برای تئوری به خاطر تئوری انجام می‌دهیم، بلکه فقط در مورد آنچه می‌خواهیم به آن تبدیل شود، بحث می‌کنیم، آن را تحقق می‌بخشیم و تا حد امکان به آن ایده‌آل نزدیک می‌شویم. این ممکن است هیجان‌انگیزترین بخش در زمینه سیستم باشد. مردم قبلاً می‌گفتند که این یک طراحی سیستم زیبا است، و در نهایت تاریخ به ما خواهد گفت که آیا این انتخاب درست است یا اشتباه.

سم آلتمن: اگر می‌توانستید قبل از آموزش بزرگ بعدی پاسخی برای یک سوال یادگیری ماشین دریافت کنید، بیشتر از همه دوست دارید چه چیزی را بدانید؟

الکس پینو: من می‌خواهم بدانم که در شرایط داده‌های محدود و حوزه‌های خاص باید از کدام الگوریتم‌ها استفاده کنیم. اگرچه این یک سوال گسترده است، اما در واقع حیاتی‌ترین است.

سم آلتمن: آیا در آینده پیش‌آموزش همزمان را با 10 میلیون پردازنده گرافیکی یا بیشتر انجام خواهید داد؟

الکس پینو: من فکر می‌کنم وجود خواهد داشت، اما ممکن است مدل پیش‌آموزش سنتی نباشد. شکل آن ممکن است با فناوری‌های موجود بسیار متفاوت باشد، اما همچنان هسته یادگیری بدون نظارت را حفظ خواهد کرد.

امین توتونچیان: من یک مدل نیمه‌همزمان را ترجیح می‌دهم. با توجه به قوانین فیزیکی، همگام‌سازی کامل بسیار واقع‌گرایانه نیست.

دانیل سلسام: من فکر می‌کنم احتمال بیشتری دارد که غیرمتمرکز باشد. قطعاً 10 میلیون پردازنده گرافیکی وجود خواهد داشت که به طور مشترک در یک سیستم هوش مصنوعی کار می‌کنند که وظایفی را یاد می‌گیرد و انجام می‌دهد، اما مانند قسمت‌های مختلف مغز، ممکن است لزوماً با یکدیگر ارتباط برقرار نکنند.

سم آلتمن: چقدر تفاوت بین پیشرفته‌ترین الگوریتم‌های فعلی و کارایی داده انسانی وجود دارد؟ آیا امکان دارد در آینده به آن برسیم؟

دانیل سلسام: مقایسه مستقیم این دو دشوار است. شکاف در یادگیری زبان قطعاً بسیار زیاد است. نکته کلیدی این است که چگونه مقدار اطلاعات دریافتی توسط اعصاب بینایی انسان را تعریف کنیم. من فکر می‌کنم کارایی داده کلی الگوریتم‌ها بسیار کمتر از انسان است.

برای دهه‌ها، یادگیری عمیق بر کارایی محاسباتی متمرکز بوده است. علاوه بر رشد داده و قدرت محاسباتی، چیزی که واقعاً شگفت‌انگیز است، اثر روی هم گذاشته شده تولید شده توسط بهبودهای الگوریتمی است. هر بار که عملکرد الگوریتم 10٪ یا 20٪ بهبود می‌یابد، هنگام روی هم گذاشتن روی کارایی داده، تأثیر قابل توجهی خواهد داشت. تاکنون، هیچ بسیج مشابهی در مورد کارایی داده وجود نداشته است، زیرا زمانی که داده جریان ندارد و قدرت محاسباتی محدود است، ارزشش را ندارد.

اکنون، وارد مرحله جدیدی از تحقیقات هوش مصنوعی می‌شویم و شروع به جمع‌آوری پیروزی‌های کارایی داده خواهیم کرد. من فکر می‌کنم کمی احمقانه است که اکنون پیش‌بینی کنیم که با موانع غیرقابل عبوری روبرو خواهیم شد. روش عملکرد مغز انسان قطعاً با بهبودهای الگوریتمی ما متفاوت است، و باید در این زمینه محتاط باشیم. اما من فکر می‌کنم باید نسبت به توسعه آینده الگوریتم‌ها خوش‌بین باشیم.

سم آلتمن: چه ارتباطی بین پیش‌آموزش در مقیاس بزرگتر و توانایی‌های یادگیری و استدلال قوی‌تر مدل وجود دارد؟

الکس پینو: چیزی که مشاهده کرده‌ایم این است که پیش‌آموزش بهتر و یادگیری بدون نظارت تمایل دارند هوش کلی مدل را بهبود بخشند و به طور زیادی در تعمیم کمک کنند، که مکمل توانایی استدلال است، در حالی که استدلال ممکن است در بهبود هوش کمی کسل‌کننده‌تر باشد. من فکر می‌کنم آنها مکمل یکدیگر هستند.

سم آلتمن: به نظر می‌رسد پیش‌آموزش در بسیاری از موارد جهانی است، در حالی که آموزش یک مدل فقط می‌تواند آن را در یک نوع چیز خوب کند، درست است؟

الکس پینو: این بسیار جالب است، اما وقتی داده‌هایی را که آنها را آموزش می‌دهند می‌بینید، از این وضعیت شگفت‌زده نخواهید شد. محدوده مجموعه داده پیش‌آموزش بسیار بزرگ است، و آنچه ما دنبال می‌کنیم وسعت و تنوع است. وقتی صحبت از تقویت یادگیری مدل می‌شود و به وضوح سیگنال‌های پاداش خوب و یک محیط آموزشی خوب را به دست می‌آورد، من فکر می‌کنم در نظر گرفتن وسعت مجموعه داده دشوار است.

دانیل سلسام: من موافقم، اما فکر می‌کنم عامل دیگری نیز وجود دارد. پیش‌آموزش اساساً فشرده‌سازی داده است، در نتیجه اتصالات بین چیزهای مختلف را کشف می‌کند. این در مورد قیاس و انتزاع بیشتر است. استدلال مهارتی است که نیاز به تفکر دقیق در مورد یک موضوع خاص دارد و همچنین می‌تواند راه‌حل‌هایی برای بسیاری از انواع مشکلات به دست آورد. اما در فرآیند پیش‌آموزش، هنگام فشرده‌سازی داده‌ها در زمینه‌های مختلف، دانش انتزاعی‌تری می‌توان آموخت.

سم آلتمن: چرا یادگیری بدون نظارت مؤثر است؟

دانیل سلسام: نکته کلیدی فشرده‌سازی است. شکل ایده‌آل هوش، استنتاج سولومونوف است. به طور کلی، یادگیری ماشین همه احتمالات را در نظر می‌گیرد، اما تمایل دارد با برنامه‌های ساده‌تر برای آزمایش شروع کند.

ماهیت پیش‌آموزش فعلی یک فرآیند فشرده‌سازی است که با یافتن ساده‌ترین برنامه برای توضیح همه داده‌هایی که انسان‌ها تاکنون تولید کرده‌اند، به بیان تقریبی دست می‌یابد.

سم آلتمن: چگونه پیش‌بینی نشانه بعدی به دستیابی به فشرده‌سازی کمک می‌کند؟

دانیل سلسام: یک پارادوکس در آمار وجود دارد - چرا به نظر می‌رسد شبکه‌های عمیق قادر به فشرده‌سازی نیستند اما می‌توانند به تعمیم دست یابند؟ به طور معمول، وقتی داده‌های زیادی و برخی مدل‌های کوچک دارید، این مدل‌ها باید از طریق فشرده‌سازی چیزی یاد بگیرند.

در پیش‌آموزش، مقیاس داده‌ها و مدل‌ها بسیار بزرگ است. برخی از افراد فکر می‌کنند که این آموزش فقط یادگیری حافظه و درون‌یابی است. در واقع، آنها دیدگاه دیگری از درک فشرده‌سازی را نادیده می‌گیرند - فشرده‌سازی پیش‌ترتیبی. این مانند یک کمپرسور است. حتی اگر وزن داده بسیار زیاد باشد، باینری نیازی به ذخیره این اطلاعات ندارد. نتیجه پیش‌بینی نشانه بعدی می‌تواند به سرعت اطلاعات مفید را بازیابی کند و کارایی فشرده‌سازی را بهبود بخشد.

سم آلتمن: روند آموزش GPT-4.5 هزینه زیادی از نیروی انسانی، زمان و پول را در برداشت، که در واقع می‌توان آن را به عنوان آزمایشی برای تأیید قانون مقیاس در نظر گرفت، و نتایج ثابت می‌کند که مؤثر است و برای مدت طولانی ادامه خواهد داشت. چرا می‌توان قانون مقیاس را قانون جهان نامید؟

دانیل سلسام: هرچه درجه فشرده‌سازی بالاتر باشد، هوش قدرتمندتر است، که دارای مفاهیم فلسفی عمیقی است. چرا آموزش مدل‌های بزرگتر بیشتر طول می‌کشد و نرخ فشرده‌سازی بالاتر است؟ این شامل نظریه‌های زیادی می‌شود که من نمایش‌های پراکنده را دوست دارم.

مفاهیم کلیدی در واقعیت از یک توزیع قانون توان پیروی می‌کنند.