نشأة GPT-4.5: رحلة لمدة عامين
مثلت مبادرة GPT-4.5، التي تم تصورها قبل عامين من إطلاقها، أكثر مشاريع OpenAI تخطيطًا دقيقًا حتى الآن. تطلب ذلك الجهد المتضافر لمئات الأفراد، حيث أشار ألتمان إلى أن المشروع قد أشرك فعليًا ‘الجميع’ في OpenAI. ويؤكد هذا الانخراط الواسع النطاق الأهمية الاستراتيجية لـ GPT-4.5 ضمن مهمة المؤسسة الأوسع.
خلال مرحلة التطوير، واجه فريق OpenAI ما أطلقوا عليه ‘مشاكل كارثية’. كشف نشر مجموعة GPU مكونة من 100000 وحدة معالجة رسوميات عن نقاط ضعف كامنة في البنية التحتية تجلت في حالات فشل غير متكررة ولكنها عميقة. لتحقيق التوازن بين السرعة والأداء الأمثل، اتبع مهندسو النظام نهجًا تكراريًا، ‘بناء وإصلاح’ في نفس الوقت. أصابت إحدى الأخطاء المراوغة بشكل خاص المجموعة بأخطاء متكررة، وظلت غير مكتشفة حتى وصلت عملية التدريب إلى حوالي 40٪ من الاكتمال.
ومن المفارقات أن هذه التجارب ساهمت في تعزيز الأساس التقني لـ OpenAI. تتيح الخبرة المكتسبة الآن لفريق صغير مكون من 5-10 أفراد فقط تكرار نموذج بحجم GPT-4. تميزت القفزة في الأداء من GPT-4 إلى GPT-4.5، والتي تقدر بحوالي عشرة أضعاف، بـ ‘ذكاء محسن بشكل شامل ولكن يصعب تحديده كميًا’، مما أثار دهشة حتى أولئك الموجودين داخل OpenAI. تشير هذه القفزة النوعية إلى تقدم يتجاوز مجرد التحجيم، مما يشير إلى تحسينات أساسية في قدرة النموذج على التفكير والفهم.
بالنظر إلى المستقبل، تدرك OpenAI أن تحقيق الترتيب التالي من حيث الحجم في الأداء لن يتوقف على القوة الحسابية وحدها، بل على كفاءة البيانات. وينصب التركيز على تطوير الخوارزميات التي يمكنها استخلاص المزيد من المعرفة من مجموعات البيانات الحالية، وبالتالي تعظيم فائدة موارد الحوسبة المتاحة.
علاوة على ذلك، تتطور البنية من مجموعة واحدة إلى تصميم متعدد المجموعات، وتتصور سيناريوهات تدريب مستقبلية تتضمن التعلم التعاوني عبر ما يصل إلى 10 ملايين وحدة معالجة رسوميات. يتطلب هذا الانتقال تحسينات كبيرة في التسامح مع الأخطاء لضمان استقرار وموثوقية هذه الأنظمة الموزعة واسعة النطاق.
كما تعمقت المحادثة في العلاقة بين ‘الذيل الطويل’ للبيانات وقوانين القياس، ومزايا التعاون الوثيق بين فرق التعلم الآلي والنظم (التصميم المشترك)، وجوهر التعلم غير الخاضع للإشراف، وثقافة حل المشكلات الدقيقة.
اللاعبون الرئيسيون وراء GPT-4.5
إلى جانب ألتمان، كان أعضاء فريق OpenAI الثلاثة الآخرون الذين شاركوا في هذه المحادثة هم:
- أليكس باينو: مسؤول عن خوارزميات التعلم الآلي قبل التدريب لـ GPT-4.5.
- أمين توتونشيان: كبير مهندسي النظم في OpenAI.
- دانيال سيلسام: يبحث في كفاءة البيانات والخوارزميات.
أصول وتطور GPT-4.5
سام ألتمان: ما الذي يتطلبه الأمر حقًا لبناء نموذج كبير مثل GPT-4.5؟
أليكس باينو: بدأنا هذا المشروع منذ حوالي عامين. في ذلك الوقت، كانت OpenAI على وشك إطلاق مجموعة حوسبة كبيرة جديدة، ورأى فريقنا هذه الفرصة وقام بسلسلة من المهام لتحديد الوظائف التي يحتاجها النموذج لتضمينها، وأجرى عددًا كبيرًا من اختبارات عمليات تقليل المخاطر.
لقد وضعنا خطة طويلة لذلك، تشمل المكدس التكنولوجي بأكمله من النظام إلى التعلم الآلي. إن تقليل المخاطر والاستعداد للتدريب هو عملية تنفيذ طويلة، والتدريب نفسه هو أيضًا مشروع كبير جدًا.
أمين توتونشيان: أعتقد أن هذه العملية تتطلب تعاونًا وثيقًا بين فريق التعلم الآلي وفريق النظام منذ البداية، حتى نعرف بوضوح النموذج الذي نريد تدريبه، ثم نبدأ التدريب.
لقد قدمنا توقعات في التعلم الآلي والنظم، في محاولة لتقليل الفجوة بين التوقعات والواقع. ومع ذلك، نظرًا لأن إيقاع عملنا سريع جدًا ويتعين علينا استخدام أحدث موارد الحوسبة، فقد أصبح تدريب النموذج شيئًا يصعب التخطيط له مسبقًا بشكل مثالي.
نبدأ التدريب دائمًا بالعديد من المشكلات التي لم يتم حلها ونحاول التغلب على التحديات وإحراز تقدم أثناء العملية. الحل الرئيسي هو زيادة المزيد من موارد الحوسبة.
المرحلة النهائية هي التنفيذ، والتي تتطلب من العديد من الأشخاص استثمار الكثير من الطاقة والتحفيز لفترة طويلة لإكمال عملية التدريب.
سام ألتمان: ما مدى اتساع الفجوة بين توقعاتنا والواقع، في رأيك؟
أمين توتونشيان: فيما يتعلق بالنظام، في البداية، عادة ما نكون بعيدين جدًا عن الحالة المتوقعة. نواجه دائمًا خيارًا: ما إذا كنا سنؤجل الإطلاق وننتظر حتى يتم حل المشكلة، أو نبدأ مبكرًا ونحل المشكلة في هذه العملية. يتطلب هذا دائمًا مقايضات لتجنب التأخيرات غير المعقولة في العملية.
ولكن هناك دائمًا مشاكل غير متوقعة تقريبًا، وما يتعين علينا القيام به هو التعامل مع هذه العقد قدر الإمكان، والتعامل مع العوامل المجهولة، ووضع خطة لتدريب النموذج.
أليكس باينو: في هذا المشروع، هدفنا هو صنع GPT-4.5، مما يعني أن قدراته يجب أن تكون أكثر ذكاءً بمقدار 10 مرات من GPT-4. هذا هو الهدف الأولي الذي وضعناه منذ حوالي عامين.
حدثت أشياء كثيرة في هذه العملية. كنا نفكر فيما إذا كان بإمكاننا أن نفعل أفضل أو أسوأ مما هو متوقع؟ هذه عملية معقدة للغاية، ولكن في النهاية، فيما يتعلق بالحسابات الفعالة التي وضعناها، حصلنا على نموذج نعتقد أنه أكثر ذكاءً بمقدار 10 مرات من GPT-4.
أمين توتونشيان: فيما يتعلق بالتنفيذ، فإن الوقت الذي قضيناه في مشروع GPT-4.5 بعيد كل البعد عما توقعناه في البداية.
ثورة الفريق النحيل: تدريب GPT-4 بأقل الموارد
سام ألتمان: عندما توسعت المجموعة من 10000 بطاقة إلى 100000 بطاقة، لماذا واجهت الكثير من المشاكل؟
أمين توتونشيان: أعتقد أنه إذا كان مطورو النظام حساسين بما يكفي، فيمكن ملاحظة معظم المشكلات في المرحلة صغيرة الحجم.
هناك أيضًا بعض المشكلات التي ليست فريدة لمرحلة التدريب واسعة النطاق، ولكنها حدثت في الأصل بشكل متكرر، ولكنها ستصبح مشاكل كارثية بعد زيادة الحجم، خاصةً عندما لم يتوقع الفريق أن تتدهور هذه المشكلات إلى هذا الحد مسبقًا.
سام ألتمان: ما هي الأشياء التي تسببت في عواقب وخيمة؟
أمين توتونشيان: أعتقد أن مشاكل البنية التحتية معروفة جيدًا. معدل الفشل ونوع الفشل والمبلغ الإجمالي للفشل مرتفع للغاية. إن مجموعة 100000 بطاقة هي مجموعة عينات واسعة النطاق، لذلك اكتشفنا أيضًا المشكلات التي لم يلاحظها مزود الطاقة الحسابية.
الشبكة هي جزء منها، ويمكن أن يكون للمسارعات الفردية أيضًا مشاكل. ولكن هذا أيضًا هو جمال هذا النظام - يجب أن تعمل جميع المكونات تقريبًا كما هو متوقع لإنتاج النتائج المتوقعة. مهمتنا هي تقليل هذه المشكلة قدر الإمكان.
سام ألتمان: من الصعب بالفعل العمل على الحد الأقصى لحجم المجموعة، لكنني لاحظت أيضًا أن القيام بأشياء لم تعد في طليعة التكنولوجيا أصبح أسهل بكثير. يتطلب تدريب GPT-4.5 مئات الأشخاص، ويشارك فيه الجميع تقريبًا في OpenAI.
ولكن اليوم، إذا سمحت لك باختيار أصغر فريق من OpenAI وإعادة تدريب GPT-4 من البداية بكل المعرفة التي نعرفها وكل عمل النظام، فكم عدد الأشخاص الذين سيستغرق ذلك؟
أليكس باينو: أعتقد أن الأمر قد يستغرق حوالي 5 إلى 10 أشخاص لصنع نموذج بمستوى GPT-4 الآن. لقد تم تحسين المكدس التكنولوجي بشكل كبير في عملية إكمال GPT-4.5.
في الواقع، لقد فعلنا أشياء مماثلة في عملية تدريب GPT-4.5 - لقد قمنا بتدريب GPT-4o، وهو نموذج بمستوى GPT-4، وأعدنا تدريبه باستخدام العديد من المحتويات نفسها من مشروع البحث GPT-4.5. تم استخدام عدد أقل من الأشخاص لهذا التدريب.
كفاءة البيانات: المفتاح لإطلاق الجيل التالي من النماذج
سام ألتمان: من وجهة نظرك، يا دان؟ لماذا يصعب تدريب النماذج الكبيرة؟
دانيال سيلسام: أعتقد أنه من الصعب فعل أي شيء جديد. أعتقد أنه حتى مجرد اكتشاف أن شخصًا آخر قد فعل شيئًا ما يجعله أسهل بكثير، لأن الجزء الأصعب هو الإيمان بأنك تستطيع فعل شيء ما في المقام الأول. أعتقد أن مجرد معرفة أن شيئًا ما ممكن هو رمز غش فائق، مما يجعل الأمور أسهل بكثير.
أليكس باينو: نحن نقوم بتوسيع عملية التدريب المسبق لـ GPT إلى 10 أضعاف ما كانت عليه من قبل، وسنجد دائمًا بعض الأشياء الجديدة المثيرة للاهتمام التي لا يمكنك بالضرورة التنبؤ بها.
سام ألتمان: ما هو المطلوب لتحقيق النمو التالي بمقدار 10 أضعاف أو 100 ضعف في نطاق التدريب المسبق؟
دانيال سيلسام: كفاءة البيانات. إن بنية المحولات (وهي GPT) فعالة جدًا في استخدام البيانات. يمكنه استيعاب المعلومات وضغطها جيدًا وتحقيق التعميم. أكبر ميزة له هي أنه يمكنه استيعاب المعلومات بكفاءة باستخدام موارد الحوسبة.
ومع ذلك، فإن عمق الرؤية التي يكتسبها من البيانات محدود. عندما تنمو قوة الحوسبة بسرعة بينما تنمو البيانات ببطء نسبيًا، تصبح البيانات عنق الزجاجة في هذا النموذج القياسي. وهذا يتطلب ابتكارًا خوارزميًا، وتطوير أساليب يمكنها استخدام المزيد من قوة الحوسبة لتعلم المزيد من المعرفة من نفس الكمية من البيانات.
سام ألتمان: ما الذي تعتقد أننا نحتاجه أيضًا للحفاظ على التوسع إلى جانب ذلك؟
أمين توتونشيان: إجابتي تتعلق بالنظام. أعتقد أن الكم الهائل من العمل المطلوب لـ GPT-4.5 هو في الأساس نتيجة حتمية لمواصفات النموذج. لا يمكننا تدريب GPT-4.5 بنفس البنية التقنية تمامًا مثل GPT-4.
فيما يتعلق بإدارة الحالة، نظرًا لأن موارد الحوسبة المطلوبة قد تجاوزت القدرة الاستيعابية لمجموعة واحدة، يتعين علينا التبديل إلى بنية تدريب متعددة المجموعات. لتحقيق هذا الهدف، يجب علينا دمج العديد من مهام سير العمل المختلفة في وقت قصير.
على الرغم من أن هذا ساعدنا في تحقيق اختراق تدريجي، لتحقيق الترتيب التالي من حيث حجم تحسين الأداء، ما زلنا بحاجة إلى حل العديد من المشكلات التقنية المعروفة ولكن المؤجلة مؤقتًا - لا يمكن تجنب هذه المشكلات. هذا النوع من المفاضلة التقنية هو الذي يطيل باستمرار دورة تطوير نظام مثالي. نحن دائمًا ما نقوم بمفاضلات استراتيجية في عملية السعي لتحقيق خطة التنفيذ المثلى.
يجب أن يكون من الواضح أن النظام نفسه ليس هو الهدف النهائي. قيمته الإنتاجية الفعلية هي الاعتبار الأساسي. لتحسين الأداء بمقدار 10 أضعاف التالي، أعتقد أن الاختراق في التسامح مع الأخطاء أمر بالغ الأهمية. نحن بحاجة إلى بناء آلية متسامحة مع الأخطاء تتعاون بشكل وثيق مع عبء العمل لتقليل قلق التشغيل والصيانة بشكل كبير. إن تعقيد التشغيل والصيانة للنظام فائق الكبر الحالي يختلف جوهريًا عن الأنظمة السابقة.
سام ألتمان: هل تعرف ما هي النسبة المئوية لحالات الفشل التي تسببت فيها بعض المكونات أثناء تدريب GPT-4.5؟
أمين توتونشيان: ليس لدي أرقام محددة لمشاركتها، ولكن بشكل عام، غالبًا ما تواجه عملية النشر الأولية لجيل جديد من الأجهزة العديد من التحديات التقنية التي لم يتم فهمها بالكامل. اخترنا المضي قدمًا في المشروع قبل توضيح المشكلة بالكامل، مما أدى إلى ارتفاع معدل الفشل الأولي.
لكن التجربة تظهر أنه مع تحديد السبب الجذري وحله، سينخفض معدل الفشل بشكل كبير. تعكس هذه الظاهرة في الأساس فهمنا المتعمق للبنية التحتية - يسميها البعض تنظيف البنية التحتية أو فهم المشاكل الأساسية للبنية التحتية.
المراحل المبكرة من التنفيذ دائمًا ما تكون مؤلمة تمامًا. بينما نطور المشروع، فإننا نكتشف ونحل باستمرار أوضاع الفشل الجديدة، ولكن في النهاية سينخفض معدل الفشل تدريجيًا وسيزداد وقت التشغيل العادي.
هذا في الأساس مسألة مفاضلة بين الأولويات: في المراحل المبكرة من دورة حياة البنية التحتية، غالبًا ما يكون من الصعب تقدير خطر الفشل بدقة؛ وإذا سعينا بشكل مفرط إلى الحالة المثالية النهائية (الأصل هو ‘City Estate’، التصميم المثالي للدولة المدينة)، فقد يؤدي ذلك إلى أداء التوافر الأولي للنظام ضعيف للغاية.
ما وراء الحوسبة: الابتكار الخوارزمي والإمكانات غير المستغلة للبيانات
سام ألتمان: على الرغم من أن نموذج الاستدلال هو مكون رئيسي في المكدس التكنولوجي المستقبلي لدينا، دعنا نركز مؤقتًا على حدود تطوير نماذج التدريب المسبق التقليدية. بافتراض أن لدينا قوة حوسبة GPU غير محدودة، وعرض نطاق شبكة غير محدود، وإمدادات طاقة غير محدودة، ولكننا ما زلنا مقيدين بالاختناقات التقنية الحالية - بما في ذلك مشكلات موثوقية النظام، ونقص طرق التدريب المتسامحة مع الأخطاء، وقيود مجموعات البيانات الحالية.
وفقًا لقاعدة التطور الخاصة بنا لتحقيق زيادة بمقدار 100 ضعف لكل رقم إصدار رئيسي من GPT، بناءً على الحدود التقنية الحالية، ما هو المستوى الذي يمكن أن يصل إليه تطوير نماذج التدريب المسبق؟ على وجه التحديد، بالنسبة لنماذج سلسلة GPT، استنادًا إلى نظام المعرفة الحالي لدينا، ما هو نوع النموذج الذي يمكن تدريبه نظريًا؟ هل يمكننا صنع GPT-5.5؟
أليكس باينو: من منظور التعلم الآلي وتطوير الخوارزميات، لم نصل بعد إلى حد نظري واضح. في الواقع، لقد بدأنا للتو في استكشاف الخوارزميات ذات الكفاءة الأعلى في البيانات وكيفية الاستفادة بشكل كامل من موارد البيانات الحالية. هذا الوضع مثير جدًا للاهتمام - حتى النماذج مثل GPT-4 تم تطويرها إلى حد كبير في ظل ظروف محدودة لموارد الحوسبة، مما حدد اتجاه معظم الأبحاث السابقة.
لكن الوضع مختلف تمامًا الآن. منذ GPT-4.5، في بعض الأبعاد الرئيسية، تصبح البيانات وليست الحوسبة هي القيد الرئيسي. هذا التحول يجعل الأبحاث ذات الصلة أقل إثارة.
سام ألتمان: ولكن هذا بالفعل تقدم مذهل، وقد لا يدرك العالم تمامًا أن موارد الحوسبة لم تعد هي الاختناق الرئيسي في أفضل نموذج يمكننا بناؤه. هذا التحول له معنى كبير، بعد كل شيء، لقد عشنا في بيئة محدودة حسابيًا لفترة طويلة جدًا.
الكشف عن المفاجآت: القدرة على التنبؤ مقابل الذكاء غير المتوقع
سام ألتمان: ما هي تجربة التعلم الآلي الأكثر إثارة للاهتمام التي تعلمناها خلال تدريب GPT-4.5؟ فقط قل ما تريد مشاركته.
أمين توتونشيان: بشكل عام، فإن أكثر الأشياء إثارة للتفكير هي تلك التي تنحرف عن توقعاتنا - خاصةً عندما نحاول فهم سبب انحراف الأداء الفعلي عن المنحنى المتوقع.
أليكس باينو: أحد الاكتشافات الأكثر إثارة للدهشة بالنسبة لنا هو أن مكونات التعلم الآلي المختلفة لها أداء قابلية توسع مختلف تمامًا. يمكن توسيع بعض الأجزاء بشكل جيد للغاية، بينما لا يمكن توسيع أجزاء أخرى. هذا ما أدركناه حقًا خلال عملية التدريب الفعلية. أعطتنا هذه التجربة الكثير من الإلهام.
دانيال سيلسام: أعتقد أن الخصائص الأساسية لنموذج GPT هما: أولاً، يمكن التنبؤ بدقة بخسارة الاختبار (مقياس يقيس مدى جودة أداء النموذج على بيانات الاختبار غير المرئية)؛ ثانيًا، يظهر أداء النموذج تحسنًا يمكن التنبؤ به مع الزيادة في الحجم. والأكثر إثارة للدهشة هو أن تقليل خسارة الاختبار سيتحول إلى مستوى ذكاء محسّن وشامل بطرق مختلفة يصعب تحديدها كميًا ولكنها مدهشة وغامضة.
سام ألتمان: هل أنت متفائل تمامًا بشأن هذا؟ هل توافق تمامًا مع وجهة النظر هذه؟
دانيال سيلسام: في الواقع، ما أود قوله هو أننا وجدنا ظاهرة مثيرة للاهتمام بشكل خاص في اختبار GPT-4.5 - بعد إعادة الاختبار، تجاوزت العديد من القدرات المتطورة التي أظهرها النموذج توقعات الجميع تمامًا.
نحن على يقين من أنه سيصبح أكثر ذكاءً بطرق مختلفة يصعب تحديدها مسبقًا، ويمكن ملاحظة هذه التحسينات الدقيقة من رضا المستخدم بعد النشر الفعلي: احتياطيات حس عام أقوى، وقدرة فهم سياقي أكثر دقة، وفهم دلالي أكثر دقة - هذا هو السحر الذي جلبته خسائر الاختبار الإضافية هذه. في رأيي، تم التحقق من قانون القياس بشكل مثالي في هذا البعد.
قوة التعاون: فرق التعلم الآلي والنظم تعمل في وئام
سام ألتمان: ما هي اللحظة الأكثر إيجابية خلال عملية التدريب بأكملها؟ ما هي ذاكرتك المفضلة؟ من الواضح أن هناك الكثير من الألم، لكنني آمل أن يكون هذا الألم قد خف.
أليكس باينو: لدي مثل هذه اللحظة. لقد قمنا بالكثير من أعمال التعلم الآلي أثناء التدريب، وأعتقد أن بعض التغييرات التي أجريناها أثناء العملية كان لها تأثير جيد جدًا، ربما أفضل من المتوقع، والتي كانت لحظة مثيرة جدًا بالنسبة لنا.
أمين توتونشيان: بالنسبة لي، في نفس الوقت الذي نقوم فيه بالتدريب، نقوم أيضًا ببناء البنية التحتية. نحن نؤمن إيمانًا راسخًا بأنه يمكننا عبور هذا الجرف في الأداء، ولدينا خطة، والجميع ينفذها، لكنها تستغرق وقتًا طويلاً. هذا عمل شاق وأصعب بالتأكيد مما كنت أعتقد. كان تنبؤي خاطئًا، وقللت من الوقت الذي سيستغرقه حل هذه المشكلات.
اللحظة التي تغلب فيها الفريق أخيرًا على تلك المشكلات الرئيسية وتحسن الأداء بشكل كبير لا تزال عالقة في ذهني. يمكنك أن تشعر بوضوح بتحول الطاقة في الفريق بأكمله - الجميع فجأة مليء بالطاقة ويندفع نحو الهدف النهائي بدافع جديد.
الشيء الأكثر إثارة للدهشة هو أن وقت الإنجاز المقدر المعروض على متتبع الحالة الخاص بنا استمر في التقصير من العامين الأوليين، وأغلق أخيرًا على عقدة زمنية واضحة. هذا التقدم المرئي لا يقاس لتعزيز الروح المعنوية للفريق. أعتقد أن هذا هو جماله.
أود أن أؤكد أن عمل التعلم الآلي لم يتوقف أبدًا. حتى بعد بدء التدريب، لا تزال عملية التصميم المشترك للتعلم الآلي مستمرة. لم يتابع فريق التعلم الآلي بنشاط المشكلات التي تم تحديدها على أنها ‘معالجة لاحقة’ فحسب، بل استمر أيضًا في تقديم تحسينات أدت حقًا إلى تحسين وقت التدريب.
يجسد هذا تمامًا روح فريقنا - لا يوجد هنا ‘كاسحة الثلج أمام بابك’ لحدود العمل، ولكن تعاون سلس حقًا. هذا التماسك هو أعظم ميزة لدينا.
التخطيط الدقيق والسعي الدؤوب وراء الحالات الشاذة في التدريب المسبق لـ GPT-4.5
دانيال سيلسام: ناقش العالم الخارجي الكثير حول التحديات والدقة التنبؤية لهذا التدريب نفسه. ولكن في الواقع، كل هذا مبني على تخطيط دقيق للغاية - هل يمكنك التحدث أكثر عن هذا بالتفصيل؟
أليكس باينو: هذه بالتأكيد الخطة الأكثر دقة التي وضعناها حتى الآن. كما قلت، بدأنا الاستعداد لهذا المشروع قبل عام من الإطلاق الرسمي للتدريب. خلال هذه الفترة، أجرينا العديد من عمليات تشغيل اختبارات التحكم في المخاطر واسعة النطاق.
نحن نولي اهتمامًا خاصًا للإدخال التدريجي لجميع التحسينات: بدءًا من التكوين الأساسي عالي الثقة - والذي يمكن فهمه على أنه بنية ناضجة مماثلة لـ GPT-4، لقد أتقننا هذا التكوين تمامًا على مستوى التعلم الآلي - ثم نقوم بتقسيم الميزات الجديدة مثل اللبنات الأساسية.
المفتاح هو التحقق بدقة من قابلية التوسع لكل تحسين على نطاقات مختلفة: ليس فقط لرؤية تحسينات الأداء، ولكن أيضًا لضمان استمرار فعالية هذه التحسينات مع زيادة حجم النموذج. العديد من التحسينات تعمل بشكل جيد في الاختبارات صغيرة الحجم، ولكنها ستفشل في التطبيقات واسعة النطاق.
لذلك، حافظنا على درجة عالية من اليقظة طوال العملية ونستمر في تكرار وتحسين منهجية قانون القياس لدينا. من خلال ممارسة التحكم في المخاطر هذه، تراكمت لدينا الكثير من الخبرات القيمة، والتي ستستمر في توجيه تطوير نماذج سلسلة GPT المستقبلية.
أمين توتونشيان: أتذكر لحظة مثيرة للاهتمام بشكل خاص أفتقدها كثيرًا. تعلمون، أننا نقع تقريبًا حتمًا في أخطاء مختلفة في كل مرة نبدأ فيها مهمة تدريب، وهو أمر شائع. لكن المفتاح هو التأكد من عدم إعاقة التقدم، ويجب علينا دائمًا التأكد مما إذا كان التقدم الحالي يسير بالفعل على الطريق الصحيح وما إذا كانت هذه الأخطاء سيكون لها تأثير قاتل على سلامة التدريب.
على الرغم من أننا كنا متأكدين جدًا في البداية من وجود عيوب كبيرة، إلا أننا تمكنا من خلال نظام المراقبة بأكمله الذي بنيناه من تمييز السبب الجذري للمشكلة بدقة: هل هو فشل في الأجهزة؟ ما هو نوع فشل الأجهزة؟ هل هو تلف في البيانات؟ أم أنه خطأ في نموذج التعلم الآلي نفسه؟ أم أنه حالة سباق في التعليمات البرمجية؟
في ذلك الوقت، كان لدينا العديد من مناطق مناقشة المشكلات مفتوحة في نفس الوقت، مع مجموعة واسعة من الأعراض. بعد سلسلة من إصلاحات الأخطاء، وقعنا في طريق مسدود: تراكمت أمامنا العديد من المشكلات التي لم يتم حلها، وكان الجميع يعانون من أفكارهم - هل كانت هذه ناجمة عن أخطاء مختلفة؟ أم أنه خطأ يسبب المشاكل؟
في وقت لاحق، أجرينا تصويتًا وطلبنا من أعضاء الفريق التصويت على السبب الجذري الأكثر ترجيحًا. ونتيجة لذلك، ضرب الخيار الأقل تفاؤلاً الحقيقة: اتضح أن هناك مشكلة في وظيفة torch.sum في اتجاه التيار من PyTorch، وهي عملية جمع بسيطة.
هذا الخطأ مثير جدًا للاهتمام. تعلمون أننا نستخدم بشكل أساسي نواة Triton، وفقط في بعض السيناريوهات الهامشية غير الهامة سنعود إلى عمليات torch. سيؤدي خطأ وظيفة torch.sum الذي تم تشغيله بواسطة مسار التعليمات البرمجية المحدد لدينا إلى حدوث وصول غير قانوني إلى الذاكرة بسبب خصائص توزيع البيانات - فقد ارتكب خطأ عند حساب إزاحة الذاكرة.
الشيء الأكثر إثارة هو أنه عندما حدد مهندس أخيرًا المشكلة وقدم إصلاحًا، اختفت جميع الأخطاء ذات الأعراض المختلفة. قام الجميع بتغيير قناة Slack بحماس من ‘نظرية الأخطاء المتعددة’ إلى ‘نظرية الخطأ الواحد’، وكان المشهد سعيدًا جدًا.
كم من الوقت كان هذا الخطأ يكمن فيه؟ لقد كان موجودًا منذ المراحل المبكرة من التدريب ولم يتم العثور عليه حتى تجاوز شريط التقدم حوالي 40٪. كانت عملية الاكتشاف أيضًا مليئة بالدراما: في ذلك الوقت، كانت نواة معقدة تستدعي باستمرار تسلسلًا، وأدى الاستدعاء الثاني إلى وصول غير قانوني إلى الذاكرة.
على الرغم من أن تردد هذا التعطل منخفض للغاية (يحدث مرة واحدة فقط في كل بضع مئات أو حتى آلاف خطوات التدريب)، فمن السهل تجاهله على أنه فشل عرضي، ولكن مبدأ فريقنا هو: عدم التخلي عن أي شذوذ أبدًا. أفضل جزء في هذه القصة يكمن في هذا الإصرار على عدم الاستسلام باستخفاف.
السعي وراء الأنظمة المثالية: أفق بعيد
سام ألتمان: بعد بدء التدريب المسبق لـ GPT-4.5، ما الذي عليك فعله أيضًا؟
أليكس باينو: نحتاج جميعًا إلى مراقبة منحنى الخسارة بشكل متكرر. بالإضافة إلى ذلك، نحتاج إلى تحسين النظام باستمرار وتحسين التصميم المشترك الذي لم يتم الانتهاء منه قبل بدء التدريب. نراقب عن كثب المؤشرات الإحصائية المختلفة أثناء عملية التدريب للتأكد من عدم وجود اتجاهات غير طبيعية غير متوقعة. في الوقت نفسه، نستكشف خطط التحسين الممكنة من منظور التعلم الآلي. على الرغم من أن العمل على مستوى البيانات سيتم تقليله مؤقتًا بعد بدء التدريب المسبق، إلا أنه لا يزال هناك عدد كبير من المهام التي يجب معالجتها.
أمين توتونشيان: أعتقد أن التعلم الآلي يعتمد إلى حد كبير على صحة الحكم. بعد بدء التدريب المسبق، في مواجهة عدد كبير من إشارات الضوضاء، نحن مثل العرافين الذين يفسرون أوراق الشاي، ونحتاج إلى الحكم على ما إذا كان النظام سليمًا. هذه هي مسؤوليتنا.
سام ألتمان: على مستوى النظام، ما الذي يحدنا من إجراء تدريب النموذج؟ هل هي الشرائح أو المعالجات أو الذاكرة أو الشبكة أو الطاقة؟
أمين توتونشيان: يكمن جمال النظام في أنه عند القيام بالتصميم المشترك، يمكن لعبء العمل التكيف مع البنية التحتية التي تبنيها. لا يوجد قول عام هنا بأن الشبكة هي عنق الزجاجة، أو أن عرض نطاق الذاكرة هو عنق الزجاجة، وما إلى ذلك. حتى بالنسبة للنماذج بنفس المواصفات، يمكننا اختيار نقل متطلبات الموارد، ويمكننا اختيار إنشاء نظام أكثر توازنًا، ولكن وجود المزيد من عرض نطاق الذاكرة مفيد دائمًا. من الصعب الإجابة على هذا السؤال دون شروط مقيدة.
عند تصميم GPT-4.5، قد نحتاج إلى أن يتمتع النظام بنوع من السمات، والتي يجب إنشاؤها تحت إشراف بشري. لذلك، فإن التصميم المشترك مهم جدًا لتشكيل بنية النموذج والعناصر المعمارية، وإلى حد ما يربط بين جانبي النظام والتعلم الآلي. إذا كان النظام يحتوي على سمة لا نريدها كثيرًا، فإن وضعي المثالي هو أن كل شيء يجب أن يكون منفصلًا لإعطاء بعضنا البعض أقصى مساحة.
في بعض الأحيان تكون الأشياء متصلة ببعضها البعض، ونحتاج إلى تلبية متطلبات البنية التحتية، أو يجب أن تكون الأشياء على هذا النحو. في معظم الأوقات، نحتاج إلى نظام متوازن واتصالات متوازنة. وأفضل وسائل التكيف التي لدينا هي كل هذه التصميمات المشتركة.
سام ألتمان: ما مدى بعدنا عن هدف النظام المثالي هذا؟
أمين توتونشيان: لا يزال الطريق طويلاً لتحقيق هذا الهدف. عملية بناء نظام دائمًا ما تكون على هذا النحو: أولاً هناك رؤية مثالية لكيفية عمل الأشياء، ثم التوفيق بين تلك الاختلافات والموارد الحالية.
أعتقد أننا لا نفعل ذلك من أجل النظرية للنظرية، ولكن فقط لمناقشة ما نريد أن يصبح عليه، وتحقيقه، والاقتراب قدر الإمكان من هذا المثال. قد يكون هذا هو الجزء الأكثر إثارة في مجال النظام. اعتاد الناس أن يقولوا أن هذا تصميم نظام أنيق، وفي النهاية سيخبرنا التاريخ ما إذا كان هذا الاختيار صحيحًا أم خاطئًا.
سام ألتمان: إذا كان بإمكانك الحصول على إجابة لمشكلة التعلم الآلي قبل التدريب الكبير التالي، فما الذي ترغب في معرفته أكثر من غيره؟
أليكس باينو: أود أن أعرف ما هي الخوارزميات التي يجب أن نستخدمها في ظل البيانات المحدودة والمجالات المحددة. على الرغم من أن هذا سؤال واسع، إلا أنه بالفعل الأكثر أهمية.
سام ألتمان: هل ستجرون تدريبًا مسبقًا متزامنًا مع 10 ملايين وحدة معالجة رسوميات أو أكثر في المستقبل؟
أليكس باينو: أعتقد أنه سيكون هناك، ولكنه قد لا يكون نموذجًا تقليديًا للتدريب المسبق. قد يكون شكله مختلفًا تمامًا عن التكنولوجيا الحالية، ولكنه سيظل يحتفظ بأساس التعلم غير الخاضع للإشراف.
أمين توتونشيان: أنا أفضل الوضع شبه المتزامن. نظرًا للقوانين الفيزيائية، فإن التزامن الكامل ليس واقعيًا.
دانيال سيلسام: أعتقد أنه من المرجح أن يكون لامركزيًا. سيكون هناك بالتأكيد 10 ملايين وحدة معالجة رسوميات تعمل معًا في نظام ذكاء اصطناعي للتعلم وأداء المهام، ولكن مثل الأجزاء المختلفة من الدماغ، قد لا تتواصل بالضرورة مع بعضها البعض.
القوة التآزرية للتحسينات الخوارزمية وكفاءة البيانات
سام ألتمان: ما هو حجم الفجوة بين الخوارزميات الأكثر تقدمًا وكفاءة البيانات البشرية؟ هل يمكننا أن نأمل في اللحاق بالركب في المستقبل؟
دانيال سيلسام: من الصعب مقارنة الاثنين مباشرة. الفجوة في تعلم اللغة كبيرة بالتأكيد. المفتاح هو كيفية تحديد كمية المعلومات التي تتلقاها الأعصاب البصرية البشرية. أعتقد أن الخوارزميات بشكل عام أقل كفاءة في البيانات من البشر.
لعقود من الزمان، ركز التعلم العميق على كفاءة قوة الحوسبة. بالإضافة إلى نمو البيانات وقوة الحوسبة، فإن الأمر المثير للدهشة حقًا هو التأثير التآزري الناتج عن التحسينات الخوارزمية. في كل مرة يتحسن أداء الخوارزمية بنسبة 10٪ أو 20٪، سيكون لها تأثير كبير عند فرضها على كفاءة البيانات. حتى الآن، لم يكن هناك تحرك حول كفاءة البيانات، لأن هذا النهج لا يستحق العناء عندما لا يتم تداول البيانات وتكون قوة الحوسبة محدودة.
الآن، نحن ندخل مرحلة جديدة من أبحاث الذكاء الاصطناعي، وسنبدأ في تجميع الانتصارات في كفاءة البيانات. أعتقد أنه من السخف بعض الشيء أن نتوقع الآن أننا سنواجه عقبات لا يمكن التغلب عليها. الطريقة التي يعمل بها الدماغ البشري بالتأكيد مختلفة عن تحسينات الخوارزمية لدينا، ويجب أن نكون حذرين في هذا الصدد. لكنني أعتقد أننا يجب أن نظل متفائلين بشأن التطور المستقبلي للخوارزميات.
سام ألتمان: ما هي العلاقة بين التدريب المسبق على نطاق أوسع وقدرات التعلم والاستدلال الأقوى للنموذج؟
أليكس باينو: ما لاحظناه هو أن التدريب المسبق الأفضل والتعلم غير الخاضع للإشراف غالبًا ما يحسن الذكاء العام للنموذج ويساعد بشكل كبير في التعميم. هذا يكمل قدرة الاستدلال، في حين أن الاستدلال قد يكون أكثر بطئًا في تحسين الذكاء. أعتقد أنها مكملة.
سام ألتمان: يبدو أن التدريب المسبق عام في أشياء كثيرة، في حين أن تدريب النموذج لا يمكن أن يجعله يعمل بشكل جيد إلا في نوع واحد من الأشياء، هل هذا صحيح؟
أليكس باينو: هذا مثير جدًا للاهتمام، ولكن لن تتفاجأ بهذا الموقف عندما ترى البيانات التي تدربهم. نطاق مجموعة بيانات التدريب المسبق كبير جدًا، وما نسعى إليه هو الاتساع والتنوع. عندما يتعلق الأمر بالتعلم التعزيزي للنموذج وجعله يحصل بوضوح على إشارات مكافأة جيدة وبيئة تدريب جيدة، أعتقد أنه من الصعب تحقيق التوازن بين اتساع مجموعة البيانات.
دانيال سيلسام: أوافق على ذلك، لكنني أعتقد أن هناك عاملًا آخر. التدريب المسبق هو في الأساس ضغط البيانات، وبالتالي اكتشاف الروابط بين الأشياء المختلفة. يتعلق الأمر بالتشبيهات وأكثر تجريدية. الاستدلال هو مهارة تتطلب تفكيرًا متأنيًا في مشكلة محددة ويمكن أيضًا الحصول على حلول للعديد من أنواع المشكلات. ومع ذلك، في عملية التدريب المسبق، يمكن تعلم المزيد من المعرفة المجردة عند ضغط البيانات عبر مجالات مختلفة.
جوهر الذكاء: الضغط وتأثير الذيل الطويل
سام ألتمان: لماذا يكون التعلم غير الخاضع للإشراف فعالاً؟
دانيال سيلسام: المفتاح هو الضغط. الشكل المثالي للذكاء هو استقراء سولومونوف. بشكل عام، سيأخذ التعلم الآلي في الاعتبار جميع الاحتمالات، لكنه يميل إلى البدء في الاختبار ببرامج أبسط.