الكشف عن تدريب GPT-4.5: تحديات واختراقات

يمثل تطوير GPT-4.5، وهو مشروع بدأ قبل عامين، المسعى الأكثر طموحًا لـ OpenAI حتى الآن. تضمن هذا المشروع الضخم جهودًا تعاونية لمئات الأفراد، مع ملاحظة Sam Altman، الرئيس التنفيذي لـ OpenAI، أن المشروع تطلب مشاركة تنظيمية شبه كاملة.

التغلب على ‘المشاكل الكارثية’ في التدريب واسع النطاق

لم تخل رحلة إنشاء GPT-4.5 من العقبات. واجه الفريق العديد من ‘المشاكل الكارثية’ خلال مرحلة البحث والتطوير. أدى استخدام مجموعة من 100000 وحدة معالجة رسومات إلى كشف حالات فشل في البنية التحتية لم يسبق رؤيتها من قبل، ومنخفضة الاحتمالية، ولكنها عميقة. لتحقيق التوازن بين السرعة والأداء الأمثل، اضطر فريق النظام في OpenAI إلى تبني نهج ‘الإصلاح أثناء التنقل’. عطلت إحدى الأخطاء المراوغة بشكل خاص المجموعة بأخطاء متكررة، وظلت غير مكتشفة حتى انقضاء ما يقرب من 40٪ من عملية التدريب.

على الرغم من هذه التحديات، حفز مشروع GPT-4.5 تطوير مجموعة تقنيات أكثر قوة. اليوم، يمكن لفريق صغير مكون من 5-10 أفراد فقط تكرار نموذج كبير مشابه لـ GPT-4. كانت مكاسب الأداء من GPT-4 إلى GPT-4.5 ما يقرب من عشرة أضعاف، مما أدى إلى ‘ذكاء يصعب تحديده كميًا ولكنه محسّن في جميع الجوانب’، وهي نتيجة فاجأت حتى موظفي OpenAI أنفسهم.

تحويل التركيز: من القدرة الحاسوبية إلى كفاءة البيانات

أدركت OpenAI أن تحقيق القفزة التالية بمقدار عشرة أضعاف أو مائة ضعف في الأداء لا يتوقف على القدرة الحاسوبية الخام ولكن على كفاءة البيانات - وتحديداً، القدرة على استخلاص المزيد من المعرفة من نفس الكمية من البيانات مع تسخير موارد حاسوبية أكبر.

يتطور الهيكل أيضًا من نظام المجموعة الواحدة إلى نموذج المجموعة المتعددة. قد تتضمن تكرارات التدريب المستقبلية التعلم التعاوني عبر ما يصل إلى 10 ملايين وحدة معالجة رسومات، مما يستلزم زيادة تحمل الأعطال.

حوار Sam Altman مع فريق GPT-4.5

فيما يلي تجميعة معدلة لمناقشة بين Sam Altman وفريق OpenAI GPT-4.5:

Sam Altman: ما الذي يتطلبه بناء نموذج كبير مثل GPT-4.5؟

Alex Paino: بدأنا هذا المشروع منذ حوالي عامين. في ذلك الوقت، كانت OpenAI على وشك إطلاق مجموعة حوسبة كبيرة جديدة، ورأى فريقنا في ذلك فرصة لإجراء سلسلة من العمليات لتحديد الوظائف التي يحتاج النموذج إلى تضمينها، وإجراء عدد كبير من اختبارات عمليات تقليل المخاطر.

لقد وضعنا خطة طويلة لذلك، تشمل مجموعة التكنولوجيا بأكملها من النظام إلى التعلم الآلي. يعد تقليل المخاطر والاستعداد للتدريب عملية تنفيذ طويلة، والتدريب نفسه مشروع كبير جدًا.

Amin Tootoonchian: أعتقد أن هذه العملية تتطلب تعاونًا وثيقًا بين فريق التعلم الآلي وفريق النظام منذ البداية، حتى نوضح النموذج الذي نريد تدريبه، ثم نبدأ التدريب.

لقد قدمنا ​​توقعات في كل من جوانب التعلم الآلي والنظام، في محاولة لتضييق الفجوة بين التوقعوالواقع قدر الإمكان. ولكن نظرًا لأن وتيرة عملنا سريعة وعلينا استخدام أحدث موارد الحوسبة، فقد أصبح تدريب النموذج أمرًا يصعب التخطيط له مسبقًا بشكل مثالي.

نبدأ دائمًا التدريب بالعديد من المشكلات التي لم يتم حلها ونحاول التغلب على التحديات وإحراز تقدم أثناء العملية. الحل الرئيسي هو إضافة المزيد من موارد الحوسبة.

المرحلة النهائية هي التنفيذ، والتي تتطلب من العديد من الأشخاص استثمار الكثير من الطاقة والتحفيز لفترة طويلة لإكمال عملية التدريب.

Sam Altman: ما هو مقدار الفجوة بين توقعاتنا والواقع؟

Amin Tootoonchian: من حيث النظام، نحن عادة بعيدون عن الحالة المتوقعة في البداية. نواجه دائمًا خيارًا: ما إذا كنا سنؤجل البداية وننتظر حل المشكلة، أو نبدأ مبكرًا ونحل المشكلة في هذه العملية. يتطلب هذا دائمًا مقايضة لتجنب التأخيرات غير المعقولة في العملية.

ولكن هناك دائمًا بعض المشكلات غير المتوقعة تقريبًا، وما يتعين علينا القيام به هو التعامل مع هذه العقد قدر الإمكان، والتعامل مع العوامل المجهولة، وصياغة خطة لتدريب النموذج.

Alex Paino: في هذا المشروع، هدفنا هو إنشاء GPT-4.5، مما يعني أن قدراته يجب أن تكون أكثر ذكاءً بمقدار 10 مرات من GPT-4. هذا هو الهدف الأولي الذي وضعناه منذ حوالي عامين.

لقد حدث الكثير من الأشياء خلال هذه العملية. كنا نفكر فيما إذا كان بإمكاننا القيام بعمل أفضل أم أسوأ من المتوقع؟ هذه عملية معقدة للغاية، ولكن في النهاية، فيما يتعلق بالحسابات الفعالة التي استثمرناها، حصلنا على نموذج نعتقد أنه وصل إلى 10 أضعاف ذكاء GPT-4.

Amin Tootoonchian: من حيث التنفيذ، فإن الوقت الذي قضيناه في مشروع GPT-4.5 بعيد كل البعد عما توقعناه في البداية.

Sam Altman: لماذا واجهتم الكثير من المشكلات عندما توسعت المجموعة من 10000 بطاقة إلى 100000 بطاقة؟

Amin Tootoonchian: أعتقد أنه إذا كان مطورو النظام حساسين بدرجة كافية، فيمكن ملاحظة معظم المشكلات في المرحلة الصغيرة.

بعض المشكلات ليست فريدة لمرحلة التدريب واسعة النطاق، ولكنها حدثت غالبًا من قبل، ولكنها ستصبح مشكلات كارثية بعد زيادة الحجم، خاصة عندما لا يتوقع الفريق أن هذه المشكلات ستتفاقم إلى هذا الحد.

Sam Altman: ما هي الأشياء التي تسببت في عواقب كارثية؟

Amin Tootoonchian: أعتقد أن مشكلات البنية التحتية معروفة جيدًا، سواء كان معدل الفشل أو نوع الفشل أو الكمية الإجمالية للفشل مرتفعًا جدًا. تعتبر مجموعة 100000 بطاقة عبارة عن مجموعة عينات واسعة النطاق، لذلك اكتشفنا أيضًا مشكلات لم يلاحظها مورد طاقة الحوسبة.

الشبكة هي واحدة منها، ويمكن أن تواجه المسرعات الفردية أيضًا مشكلات. ولكن هذا هو أيضًا جمال هذا النظام - يجب أن تعمل جميع المكونات تقريبًا كما هو متوقع لإنتاج النتائج المتوقعة. مهمتنا هي تقليل هذه المشكلة قدر الإمكان.

Sam Altman: من الصعب بالفعل العمل عند حدود حجم المجموعة، لكنني لاحظت أيضًا أنه أصبح من الأسهل بكثير القيام بأشياء لم تعد في طليعة التكنولوجيا. يتطلب تدريب GPT-4.5 مئات الأشخاص، ولدى OpenAI الجميع تقريبًا على متن الطائرة.

ولكن اليوم، إذا كنت ستختار أصغر فريق من OpenAI وتعيد تدريب GPT-4 من الصفر بكل المعرفة وعمل النظام الذي نعرفه، فكم عدد الأشخاص الذين سيستغرقهم ذلك؟

Alex Paino: أعتقد أن الأمر قد يستغرق حوالي 5 إلى 10 أشخاص لإنشاء نموذج بمستوى GPT-4 الآن. لقد تم تحسين مجموعة التكنولوجيا بشكل كبير في عملية إكمال GPT-4.5.

في الواقع، لقد فعلنا أشياء مماثلة في عملية تدريب GPT-4.5 - قمنا بتدريب GPT-4o، وهو نموذج بمستوى GPT-4، وأعدنا تدريبه باستخدام الكثير من نفس المحتوى من مشروع بحث GPT-4.5. تم استخدام عدد أقل من الأشخاص لهذا التدريب.

Sam Altman: من وجهة نظرك يا دان؟ لماذا يصعب تدريب النماذج الكبيرة؟

Daniel Selsam: أعتقد أنه من الصعب فعل أي شيء جديد. أعتقد أنه حتى مجرد اكتشاف أن شخصًا آخر قد فعل شيئًا ما يجعله أسهل بكثير، لأن الجزء الأصعب هو امتلاك الإيمان بفعل شيء ما في المقام الأول. أعتقد أن مجرد معرفة أن شيئًا ما ممكن هو رمز غش فائق يجعل الأمور أسهل بكثير.

Alex Paino: نقوم بتوسيع تشغيل التدريب المسبق لـ GPT إلى 10 أضعاف حجمه السابق، ونجد دائمًا بعض الأشياء الجديدة المثيرة للاهتمام التي لا يمكنك بالضرورة التنبؤ بها.

Sam Altman: ما هو المطلوب لتحقيق النمو التالي بمقدار 10 أضعاف أو 100 ضعف في نطاق التدريب المسبق؟

Daniel Selsam: كفاءة البيانات. إن بنية Transformer (أي GPT) فعالة للغاية في استخدام البيانات. يمكنه استيعاب المعلومات وضغطها جيدًا وتحقيق التعميم. أكبر ميزة فيه هي أنه يمكنه استيعاب المعلومات بكفاءة باستخدام موارد الحوسبة.

ومع ذلك، فإن عمق الرؤية التي يكتسبها من البيانات محدود. عندما تنمو قوة الحوسبة بسرعة وتنمو البيانات ببطء نسبيًا، تصبح البيانات بمثابة عنق الزجاجة لهذا النموذج القياسي. وهذا يتطلب ابتكارًا خوارزميًا لتطوير طرق يمكنها استخدام المزيد من قوة الحوسبة لتعلم المزيد من المعرفة من نفس الكمية من البيانات.

Sam Altman: ما الذي تعتقد أننا بحاجة إليه أيضًا للحفاظ على التوسع؟

Amin Tootoonchian: إجابتي حول النظام. أعتقد أن الكم الهائل من العمل المطلوب لـ GPT-4.5 هو في الأساس النتيجة الحتمية لمواصفات النموذج. لا يمكننا تدريب GPT-4.5 بنفس البنية التقنية تمامًا مثل GPT-4.

من حيث إدارة الحالة، نظرًا لأن موارد الحوسبة المطلوبة قد تجاوزت قدرة مجموعة واحدة، يتعين علينا اللجوء إلى بنية تدريب متعددة المجموعات. لتحقيق هذا الهدف، يجب علينا دمج العديد من سير العمل المختلفة في فترة زمنية قصيرة.

على الرغم من أن هذا ساعدنا بالفعل في تحقيق اختراقات مرحلية، لتحقيق تحسين الأداء التالي بترتيب الحجم، لا يزال يتعين علينا حل العديد من المشكلات التقنية المعروفة ولكن المؤجلة مؤقتًا - لا يمكن تجنب هذه المشكلات. هذا النوع من المقايضة التقنية هو الذي يطيل باستمرار دورة البحث والتطوير للنظام المثالي، ونحن دائمًا ما نقوم بمقايضات استراتيجية في عملية السعي لتحقيق خطة التنفيذ المثلى.

يجب أن يكون من الواضح أن النظام نفسه ليس الهدف النهائي، والقيمة الفعلية الناتجة عنه هي الاعتبار الأساسي. لتحقيق تحسين الأداء التالي بمقدار 10 أضعاف، أعتقد أن الاختراق في تحمل الأعطال أمر بالغ الأهمية. نحن بحاجة إلى بناء آلية مقاومة للأخطاء ومتوافقة بشكل وثيق مع عبء العمل لتقليل القلق بشأن التشغيل والصيانة بشكل كبير. تختلف تعقيد التشغيل والصيانة للأنظمة ذات النطاق الواسع جدًا الحالية اختلافًا جوهريًا عن الأنظمة السابقة.

Sam Altman: هل تعلم ما هي النسبة المئوية للإخفاقات التي تسببت فيها بعض المكونات أثناء تدريب GPT-4.5؟

Amin Tootoonchian: ليس لدي أرقام محددة لمشاركتها، ولكن بشكل عام، في المراحل الأولى من نشر جيل جديد من الأجهزة، غالبًا ما يواجه تشغيل النظام العديد من التحديات التقنية التي لم يتم فهمها بالكامل. لقد اخترنا المضي قدمًا في المشروع قبل تحديد المشكلة بالكامل، مما أدى إلى ارتفاع معدل الفشل الأولي.

لكن التجربة أظهرت أنه مع تحديد السبب الجذري وحله، سينخفض ​​معدل الفشل بشكل كبير. تعكس هذه الظاهرة في الأساس فهمنا المتعمق للبنية التحتية - يسميها البعض تنظيف البنية التحتية أو فهم المشكلات الأساسية للبنية التحتية.

المراحل المبكرة من التنفيذ مؤلمة دائمًا تقريبًا. أثناء تطوير المشروع، نكتشف باستمرار ونحل أوضاع الفشل الجديدة، ولكن معدل الفشل سينخفض ​​تدريجيًا وسيصبح وقت التشغيل العادي أطول.

هذا في الأساس مسألة مقايضات ذات أولوية: في المراحل المبكرة من دورة حياة البنية التحتية، غالبًا ما يكون من الصعب تقدير مخاطر الفشل بدقة؛ وإذا تابعنا بشكل مفرط الحالة المثالية النهائية (الأصل هو ‘City Estate’، التصميم المثالي للدولة المدينة)، فقد يؤدي ذلك إلى أداء توافر النظام في المراحل المبكرة سيئ للغاية.

Sam Altman: على الرغم من أن نموذج الاستدلال هو مكون رئيسي في مجموعتنا التكنولوجية المستقبلية، دعنا نركز مؤقتًا على حدود التطوير للنموذج التقليدي للتدريب المسبق. لنفترض أن لدينا قوة حوسبة غير محدودة لوحدة معالجة الرسومات، وعرض نطاق ترددي للشبكة غير محدود، وإمداد طاقة غير محدود، ولكننا لا نزال مقيدين بالاختناقات التقنية الحالية - بما في ذلك مشكلات موثوقية النظام، ونقص طرق التدريب المقاومة للأخطاء، وقيود مجموعات البيانات الحالية.

وفقًا لقانون التطور الخاص بنا لتحقيق زيادة بمقدار 100 ضعف في كل رقم إصدار GPT رئيسي، استنادًا إلى الحدود التقنية الحالية، ما هو المستوى الذي يمكن أن يصل إليه تطوير نموذج التدريب المسبق؟ على وجه التحديد بالنسبة لنماذج سلسلة GPT، مع نظام المعرفة الحالي لدينا، ما هو نوع النموذج الذي يمكننا نظريًا تدريبه؟ هل يمكن إنشاء GPT-5.5؟

Alex Paino: من منظور التعلم الآلي وتطوير الخوارزميات، لم نصل بعد إلى حد نظري واضح. في الواقع، لقد بدأنا للتو في استكشاف الخوارزميات ذات الكفاءة الأكبر في البيانات وكيفية الاستفادة بشكل كامل من موارد البيانات الحالية. هذا الوضع مثير للاهتمام للغاية - حتى نماذج مثل GPT-4 تم تطويرها إلى حد كبير في ظل قيود موارد الحوسبة المحدودة، والتي تحدد أيضًا اتجاه معظم الأبحاث السابقة.

لكن الوضع مختلف تمامًا الآن. منذ GPT-4.5، في بعض الأبعاد الرئيسية، أصبحت البيانات بدلاً من الحوسبة هي القيد الرئيسي. هذا التحول يجعل الأبحاث ذات الصلة أقل إثارة.

Sam Altman: ولكن هذا بالفعل تقدم مذهل، وقد لا يدرك العالم تمامًا أن موارد الحوسبة لم تعد عنق الزجاجة الرئيسي في أفضل نموذج يمكننا بناؤه. هذا التغيير عميق، فبعد كل شيء، لقد عشنا في بيئة مقيدة بالكمبيوتر لفترة طويلة جدًا.

Sam Altman: ما هي تجربة التعلم الآلي الأكثر إثارة للاهتمام التي تعلمناها في عملية تدريب GPT-4.5؟ فقط تحدث عما تريد مشاركته.

Amin Tootoonchian: بشكل عام، الأكثر إثارة للتفكير هي تلك المواقف التي تحيد عن تنبؤاتنا - خاصة عندما نحاول فهم سبب انحراف الأداء الفعلي عن المنحنى المتوقع.

Alex Paino: أحد الاكتشافات الأكثر إثارة للدهشة بالنسبة لنا هو أن أداء قابلية التوسع لمكونات التعلم الآلي المختلفة يختلف اختلافًا كبيرًا. يمكن توسيع بعض الأجزاء جيدًا، بينما لا يمكن توسيع أجزاء أخرى. هذا ما أدركناه حقًا في عملية التدريب الفعلية. هذه التجربة أعطتنا الكثير من الإلهام.

Daniel Selsam: أعتقد أن الميزتين الأساسيتين لنموذج GPT هما: أولاً، يمكن التنبؤ بدقة بفقدان الاختبار (وهو مقياس لمدى جودة أداء النموذج على بيانات الاختبار غير المرئية)؛ ثانيًا، يُظهر أداء النموذج تحسنًا يمكن التنبؤ به مع توسيع النطاق. والأكثر سحرية هو أن تقليل فقدان الاختبار سيتحول إلى مستوى محسن شامل من الذكاء بطرق مختلفة يصعب تحديدها كميًا ولكنها مذهلة.

Sam Altman: هل أنت متفائل تمامًا بشأن هذا؟ هل توافق تمامًا على هذا الرأي؟

Daniel Selsam: في الواقع، ما أود قوله هو أننا وجدنا ظواهر مثيرة للاهتمام بشكل خاص في اختبار GPT-4.5 - بعد إعادة الاختبار، أظهر النموذج العديد من القدرات الدقيقة التي تجاوزت تمامًا توقعات الجميع.

نحن على يقين من أنه سيصبح أكثر ذكاءً بطرق مختلفة لا يمكن تحديدها مسبقًا، وبعد النشر الفعلي، يمكننا ملاحظة هذه المستويات الدقيقة من التحسين من رضا المستخدم: احتياطيات الحس السليم الأقوى، وقدرات فهم السياق الأكثر دقة، والفهم الدلالي الأكثر حساسية - هذا بالضبط السحر الذي تجلبه تلك الخسائر الاختبارية الإضافية. في رأيي، تم التحقق من قانون التوسع بشكل مثالي في هذا البعد.

Sam Altman: ما هي اللحظة الأكثر إيجابية خلال عملية التدريب بأكملها؟ ما هي ذاكرتك المفضلة؟ من الواضح أن هناك الكثير من الألم، لكنني آمل أن يكون هذا الألم قد خف.

Alex Paino: لدي بالفعل مثل هذه اللحظة. لقد قمنا بالكثير من أعمال التعلم الآلي أثناء التدريب. أعتقد أن بعض التغييرات التي أجريناها أثناء العملية كان لها تأثير جيد إلى حد ما، ربما أفضل من المتوقع، وكانت هذه لحظة مثيرة للغاية بالنسبة لنا.

Amin Tootoonchian: بالنسبة لي، في الوقت نفسه الذي نقوم فيه بالتدريب، نقوم أيضًا ببناء البنية التحتية. نحن نؤمن إيمانًا راسخًا بأنه يمكننا عبور هذا المنحدر الحاد في الأداء، ولدينا خطة، والجميع ينفذها، لكنها تستغرق وقتًا طويلاً. هذا عمل شاق وبالتأكيد أصعب مما كنت أعتقد. كان تنبؤي خاطئًا، وقللت من الوقت الذي سيستغرقه حل هذه المشكلات.

اللحظة التي تغلب فيها الفريق أخيرًا على تلك المشكلات الرئيسية وتحسن الأداء بشكل كبير لا تزال عالقة في ذاكرتي. يمكنك أن تشعر بوضوح بتحول الطاقة للفريق بأكمله - الجميع فجأة مليء بالطاقة ويسرعون نحو الهدف النهائي بدافع جديد.

الأمر الأكثر سحرية هو أن الوقت المقدر للإنجاز المعروض على متتبع الحالة الخاص بنا استمر في التقصير من العامين الأوليين، واستقر أخيرًا على عقدة زمنية واضحة. هذا التقدم المرئي له دفعة لا تقدر بثمن لمعنويات الفريق. أعتقد أن هذا هو جمال الأمر.

أود أن أؤكد على أن عمل التعلم الآلي لم يتوقف أبدًا. حتى بعد بدء التدريب، تستمر عملية التصميم المشترك للتعلم الآلي هذه. لا يقتصر الأمر على متابعة فريق التعلم الآلي بنشاط لتلك المشكلات التي تم وضع علامة عليها على أنها ‘معالجة لاحقة’، ولكنه يواصل أيضًا تقديم تحسينات تعمل حقًا على تحسين وقت التدريب.

وهذا يعكس تمامًا روح فريقنا - لا توجد هنا حدود عمل ‘يكنس كل شخص الثلج أمام بابه’، ولكن تعاون سلس حقًا، وهذا التماسك هو أعظم قوتنا.

Sam Altman: ناقش العالم الخارجي الكثير حول التحديات ودقة التنبؤ لهذا التدريب نفسه. ولكن في الواقع، كل هذا يعتمد على تخطيط دقيق للغاية - هل يمكنك التحدث أكثر عن هذا بالتفصيل؟

Alex Paino: هذا بالتأكيد أكثر خططنا شمولاً حتى الآن. كما قلت، بدأنا الاستعداد لهذا المشروع قبل عام من البداية الرسمية للتدريب. خلال هذه الفترة، أجرينا العديد من اختبارات التحكم في المخاطر واسعة النطاق.

نولي اهتمامًا خاصًا لإدخال جميع التحسينات تدريجيًا: بدءًا من تكوين أساسي عالي الثقة - يمكن فهمه على أنه بنية ناضجة مشابهة لـ GPT-4، لقد أتقننا هذا التكوين تمامًا على مستوى التعلم الآلي - ثم إضافة ميزات جديدة طبقة تلو طبقة مثل اللبنات الأساسية.

المفتاح هو التحقق بدقة من قابلية التوسع لكل تحسين على نطاقات مختلفة: ليس فقط لرؤية تحسينات الأداء، ولكن أيضًا للتأكد من أن هذه التحسينات تظل فعالة مع توسع نطاق النموذج. تحقق العديد من التحسينات أداءً جيدًا في الاختبارات صغيرة النطاق، ولكنها ستفشل في التطبيقات واسعة النطاق.

لذلك، حافظنا على درجة عالية من اليقظة طوال العملية بأكملها ونواصل تكرار وتحسين منهجية قانون التوسع لدينا. من خلال ممارسة التحكم في المخاطر هذه، تراكمت لدينا الكثير من الخبرات القيمة التي ستستمر في توجيه تطوير نماذج سلسلة GPT المستقبلية.

Amin Tootoonchian: أتذكر لحظة مثيرة للاهتمام بشكل خاص أفتقدها كثيرًا. تعلمون، نصادف دائمًا تقريبًا أخطاء مختلفة في كل مرة نبدأ فيها مهمة تدريب. هذا أمر شائع بالفعل. ولكن المفتاح هو التأكد من عدم عرقلة التقدم والتأكد دائمًا من أن التقدم الحالي يسير بالفعل على المسار الصحيح وما إذا كانت هذه الأخطاء ستؤثر بشكل قاتل على صحة التدريب.

على الرغم من أننا كنا واثقين جدًا في البداية من وجود عيوب كبيرة، إلا أنه من خلال نظام المراقبة بأكمله الذي أنشأناه، تمكنا من التمييز بدقة بين السبب الجذري للمشكلة: هل هو فشل في الأجهزة؟ ما هو نوع فشل الأجهزة؟ هل هو تلف في البيانات؟ أم أنه خطأ في نموذج التعلم الآلي نفسه؟ أم أنه شرط سباق في التعليمات البرمجية؟

في ذلك الوقت، كان لدينا مناطق مناقشة متعددة للمشكلات مفتوحة في نفس الوقت، مع أعراض مختلفة. بعد سلسلة من إصلاحات الأخطاء، علقنا: كانت هناك العديد من المشكلات التي لم يتم حلها أمامنا، وكان الجميع يعانون - هل كانت هذه ناجمة عن أخطاء مختلفة؟ أم أنه خطأ في العمل؟

لاحقًا، أجرينا تصويتًا لترك أعضاء الفريق يصوتون على السبب الجذري الأكثر ترجيحًا. أصاب الخيار الأقل وعدًا الحقيقة: اتضح أن هناك مشكلة في وظيفة torch.sum في اتجاه مجرى PyTorch، وهي عملية جمع بسيطة.

هذا الخطأ مثير للاهتمام بشكل خاص. تعلمون، نحن نستخدم بشكل أساسي نواة Triton، ولن نعود إلى عمليات الشعلة إلا في بعض السيناريوهات الطرفية غير المهمة. وسيتسبب خطأ وظيفة torch.sum الذي تم تشغيله بواسطة مسار التعليمات البرمجية المحدد الخاص بنا عن غير قصد في الوصول غير القانوني إلى الذاكرة بسبب خصائص توزيع البيانات - فقد ارتكب خطأ عند حساب إزاحة الذاكرة.

الشيء الأكثر إثارة هو أنه عندما قام مهندس أخيرًا بتحديد المشكلة وإرسال إصلاح، اختفت جميع تقارير الأخطاء ذات الأعراض المختلفة. قام الجميع بتغيير قناة Slack بحماس من ‘نظرية الأخطاء المتعددة’ إلى ‘نظرية الخطأ الواحد’، وكان المشهد سعيدًا جدًا.

كم من الوقت ظل هذا الخطأ مختبئًا؟ لقد كان موجودًا منذ المراحل المبكرة من التدريب ولم يتم تحديده حتى تجاوز شريط التقدم حوالي 40٪. كانت عملية الاكتشاف أيضًا مليئة بالدراما: في ذلك الوقت، استدعت نواة معقدة بشكل تسلسلي تسلسلات، وأدى الاستدعاء الثاني إلى الوصول غير القانوني إلى الذاكرة.

على الرغم من أن تكرار هذا التعطل منخفض للغاية (يحدث مرة واحدة فقط كل بضع مئات أو حتى آلاف خطوات التدريب)، فمن السهل تجاهله باعتباره فشلًا عرضيًا، ولكن الإرشادات الخاصة بفريقنا هي: لا تتخلى أبدًا عن أي شذوذ. يكمن أفضل جزء في هذه القصة في هذا المثابرة في عدم الاستسلام بسهولة.

Sam Altman: ما الذي تحتاج إلى القيام به أيضًا بعد بدء التدريب المسبق لـ GPT-4.5؟

Alex Paino: نحتاج جميعًا إلى مراقبة منحنى الخسارة بشكل متكرر. بالإضافة إلى ذلك، نحتاج إلى مواصلة تحسين النظام وتحسين التصميم المشترك الذي لم يتم الانتهاء منه قبل بدء التدريب. نراقب عن كثب الإحصائيات المختلفة أثناء عملية التدريب للتأكد من عدم وجود اتجاهات غير متوقعة. في الوقت نفسه، نستكشف خطط التحسين المحتملة من منظور التعلم الآلي. على الرغم من أن العمل على مستوى البيانات سيتم تقليله مؤقتًا بعد بدء التدريب المسبق، إلا أنه لا يزال هناك الكثير من المهام التي يجب معالجتها.

Amin Tootoonchian: أعتقد أن التعلم الآلي يعتمد إلى حد كبير على حكم الصحة. بعد بدء التدريب المسبق، في مواجهة كمية كبيرة من إشارات التشويش، فإننا مثل العرافين الذين يفسرون رواسب الشاي، ونحتاج إلى الحكم على ما إذا كان النظام سليمًا. هذه هي مسؤوليتنا.

Sam Altman: على مستوى النظام، ما الذي سيمنعنا من إجراء تدريب النموذج؟ هل هو رقاقة أو معالج أو ذاكرة أو شبكة أو مصدر طاقة؟

Amin Tootoonchian: جمال النظام هو أنه عند القيام بالتصميم التعاوني، يمكن أن يتكيف عبء العمل مع البنية التحتية التي تقوم ببنائها. لا توجد مقولة عالمية بأن الشبكة هي عنق الزجاجة، أو أن عرض النطاق الترددي للذاكرة هو عنق الزجاجة، وما إلى ذلك. حتى بالنسبة للنماذج ذات المواصفات نفسها، يمكننا اختيار نقل متطلبات الموارد. يمكننا اختيار إنشاء نظام أكثر توازنًا، ولكن وجود المزيد من عرض النطاق الترددي للذاكرة مفيد دائمًا. من الصعب الإجابة على هذا السؤال دون تحديد الشروط.

عند تصميم GPT-4.5، قد نحتاج إلى وجود سمة معينة في النظام، والتي يجب إنشاؤها من خلال التوجيه البشري. لذلك، فإن التصميم التعاوني مهم جدًا لتشكيل بنية النموذج والعناصر المعمارية، ويربط إلى حد ما بين جوانب النظام والتعلم الآلي. إذا كان النظام يحتوي على سمة لا نريد أن نحظى بها كثيرًا. وضعي المثالي هو أنه يجب فصل كل شيء لإعطاء بعضنا البعض أكبر مساحة.

في بعض الأحيان تكون الأشياء متصلة ببعضها البعض، ونحن بحاجة إلى تلبية متطلبات البنية التحتية، أو يجب أن تكون الأشياء على هذا النحو. في معظم الأوقات، نحتاج إلى نظام متوازن، وتواصل متوازن. وأفضل وسيلة تنظيمية لدينا هي كل هذه التصميمات التعاونية.

Sam Altman: ما مدى بعدنا عن هدف النظام المثالي هذا؟

Amin Tootoonchian: نحن بعيدون عن هذا الهدف. عملية بناء النظام دائمًا ما تكون على هذا النحو: أولاً هناك رؤية مثالية لكيفية عمل الأشياء، ثم يتم التوفيق بين هذه الاختلافات والموارد الحالية.

لا أعتقد أننا نفعل ذلك من أجل النظرية من أجل النظرية، ولكن لمجرد مناقشة ما نريد أن نصبح عليه، وتحقيقه، والاقتراب قدر الإمكان من هذا المثال. قد يكون هذا هو الجزء الأكثر إثارة في مجال النظام. اعتاد الناس أن يقولوا أن هذا تصميم نظام أنيق، وفي النهاية سيخبرنا التاريخ ما إذا كان هذا الاختيار صحيحًا أم خاطئًا.

Sam Altman: إذا كان بإمكانك الحصول على إجابة لسؤال في التعلم الآلي قبل التدريب الكبير التالي، فما الذي ترغب في معرفته أكثر من غيره؟

Alex Paino: أريد أن أعرف الخوارزميات التي يجب أن نستخدمها في ظل البيانات المحدودة والمجالات المحددة. على الرغم من أن هذا سؤال واسع، إلا أنه بالفعل الأكثر أهمية.

Sam Altman: هل ستجرون تدريبًا مسبقًا متزامنًا مع 10 ملايين وحدة معالجة رسومات أو أكثر في المستقبل؟

Alex Paino: أعتقد أنه سيكون هناك، لكنه قد لا يكون نموذج التدريب المسبق التقليدي. قد يكون شكله مختلفًا تمامًا عن التقنيات الحالية، لكنه سيظل يحتفظ بجوهر التعلم غير الخاضع للإشراف.

Amin Tootoonchian: أنا أفضل نموذجًا شبه متزامن. بسبب القوانين الفيزيائية، فإن التزامن الكامل ليس واقعيًا للغاية.

Daniel Selsam: أعتقد أنه من المرجح أن يكون لامركزيًا. سيكون هناك بالتأكيد 10 ملايين وحدة معالجة رسومات تعمل معًا في نظام ذكاء اصطناعي يتعلم وينفذ المهام، ولكن مثل الأجزاء المختلفة من الدماغ، قد لا تتواصل بالضرورة مع بعضها البعض.

Sam Altman: ما هو مقدار الفرق بين الخوارزميات الأكثر تقدمًا حاليًا وكفاءة البيانات البشرية؟ هل من الممكن اللحاق بالركب في المستقبل؟

Daniel Selsam: من الصعب مقارنة الاثنين مباشرة. الفجوة في تعلم اللغة ضخمة بالتأكيد. يكمن المفتاح في كيفية تحديد كمية المعلومات التي تتلقاها الأعصاب البصرية البشرية. أعتقد أن كفاءة البيانات الإجمالية للخوارزميات أقل بكثير من كفاءة البشر.

لعقود من الزمان، ركز التعلم العميق على كفاءة الحوسبة. بالإضافة إلى نمو البيانات وقوة الحوسبة، فإن الأمر المثير للدهشة حقًا هو التأثير المتراكب الذي تنتجه تحسينات الخوارزمية. في كل مرة يتم فيها تحسين أداء الخوارزمية بنسبة 10٪ أو 20٪، سيكون له تأثير كبير عند تراكبه على كفاءة البيانات. حتى الآن، لم يكن هناك حشد من هذا القبيل حول كفاءة البيانات، لأنه لا يستحق ذلك عندما لا تتدفق البيانات وتكون قوة الحوسبة محدودة.

الآن، نحن ندخل مرحلة جديدة من أبحاث الذكاء الاصطناعي، وسنبدأ في تجميع انتصارات كفاءة البيانات. أعتقد أنه من الحماقة بعض الشيء التنبؤ الآن بأننا سنواجه عقبات لا يمكن التغلب عليها. الطريقة التي يعمل بها الدماغ البشري تختلف بالتأكيد عن تحسينات الخوارزمية لدينا، ويجب أن نكون حذرين في هذا الصدد. لكني أعتقد أنه يجب أن نظل متفائلين بشأن التطور المستقبلي للخوارزميات.

Sam Altman: ما هي العلاقة بين التدريب المسبق واسع النطاق وقدرات التعلم والاستدلال الأقوى للنموذج؟

Alex Paino: ما لاحظناه هو أن التدريب المسبق والتعلم غير الخاضع للإشراف الأفضل يميلان إلى تحسين الذكاء العام للنموذج ويساعدان بشكل كبير في التعميم، وهو ما يكمل القدرة على الاستدلال، في حين أن الاستدلال قد يكون باهتًا بعض الشيء في تحسين الذكاء. أعتقد أنها متكاملة.

Sam Altman: يبدو أن التدريب المسبق عالمي في العديد من الأشياء، في حين أن تدريب النموذج يمكن أن يجعله يؤدي أداءً جيدًا في نوع واحد فقط من الأشياء، هل هذا صحيح؟

Alex Paino: هذا مثير للاهتمام للغاية، ولكن عندما ترى البيانات التي تدربهم، فلن تفاجأ بهذا الوضع. نطاق مجموعة بيانات التدريب المسبق كبير جدًا، وما نسعى إليه هو الاتساع والتنوع. عندما يتعلق الأمر بتعزيز نموذج التعلم وجعله يحصل بوضوح على إشارات مكافأة جيدة وبيئة تدريب جيدة، أعتقد أنه من الصعب مراعاة اتساع مجموعة البيانات.

Daniel Selsam: أتفق، لكنني أعتقد أن هناك عاملًا آخر. التدريب المسبق هو في الأساس ضغط البيانات، وبالتالي اكتشاف الروابط بين الأشياء المختلفة. إنه يتعلق بالتشبيه وأكثر تجريدًا. الاستدلال هو مهارة تتطلب تفكيرًا متأنيًا في قضية معينة ويمكنها أيضًا الحصول على حلول للعديد من أنواع المشكلات. ولكن في عملية التدريب المسبق، يمكن تعلم المزيد من المعرفة المجردة عند ضغط البيانات عبر مجالات مختلفة.

Sam Altman: لماذا يكون التعلم غير الخاضع للإشراف فعالاً؟

Daniel Selsam: المفتاح هو الضغط. الشكل المثالي للذكاء هو استقراء سولومونوف. بشكل عام، ستنظر آلة التعلم في جميع الاحتمالات، ولكنها تميل إلى البدء ببرامج أبسط للاختبار.

جوهر التدريب المسبق الحالي هو عملية ضغط، تحقق تعبيرًا تقريبيًا من خلال إيجاد أبسط برنامج لشرح جميع البيانات التي أنتجها البشر حتى الآن.

Sam Altman: كيف يساعد التنبؤ بالرمز المميز التالي في تحقيق الضغط؟

Daniel Selsam: هناك مفارقة في الإحصاء - لماذا تبدو الشبكات العميقة غير قادرة على الضغط ولكن يمكنها تحقيق التعميم؟ بالحديث بشكل طبيعي، عندما يكون لديك الكثير من البيانات وبعض النماذج الصغيرة، يجب أن تمر هذه النماذج بضغط لتعلم شيء ما.

في التدريب المسبق، يكون نطاق كل من البيانات والنماذج كبيرًا جدًا. يعتقد بعض الناس أن هذا التدريب مجرد ذاكرة وتعلم الاستيفاء. في الواقع، يتجاهلون منظورًا آخر لفهم الضغط - الضغط المسبق. إنه مثل الضاغط. حتى إذا كان وزن البيانات كبيرًا جدًا، فلا يحتاج الثنائي إلى تخزين هذه المعلومات. يمكن لنتيجة التنبؤ بالرمز المميز التالي استرجاع المعلومات المفيدة بسرعة وتحسين كفاءة الضغط.

Sam Altman: كلفت عملية تدريب GPT-4.5 الكثير من القوى العاملة والوقت والمال، والتي يمكن اعتبارها في الواقع تجربة للتحقق من قانون التوسع، وتثبت النتائج أنه فعال وسيستمر لفترة طويلة. لماذا يمكن تسمية قانون التوسع بقانون الكون؟

Daniel Selsam: كلما زادت درجة الضغط، زاد قوة الذكاء، وهو ما له آثار فلسفية عميقة. لماذا يستغرق تدريب النماذج الأكبر وقتًا أطول ويكون معدل الضغط أعلى؟ يتضمن ذلك العديد من النظريات، من بينها أحب التمثيلات المتفرقة.

تتبع المفاهيم الرئيسية في الواقع توزيع قانون القوة. على سبيل المثال، قد يظهر المفهوم رقم 100 الأكثر أهمية مرة واحدة فقط في كل 100 مستند، وهناك تأثير واضح طويل الذيل. تعني خاصية التوزيع هذه أن البيانات واسعة النطاق وقوة الحوسبة مطلوبة لالتقاط جميع المفاهيم الرئيسية بشكل فعال، وتحدد أيضًا أن قانون التوسع سيكون فعالًا لفترة طويلة.