การเอาชนะ ‘ปัญหาหายนะ’ ในการฝึกขนาดใหญ่
การเดินทางสู่การสร้าง GPT-4.5 ไม่ได้ราบรื่น ทีมงานพบ ‘ปัญหาหายนะ’ มากมายในช่วงการวิจัยและพัฒนา การใช้คลัสเตอร์ของ GPU 100,000 ตัว เผยให้เห็นความล้มเหลวของโครงสร้างพื้นฐานที่ไม่เคยมีมาก่อน แม้ว่าจะมีโอกาสเกิดขึ้นน้อย แต่ก็ส่งผลกระทบอย่างมาก เพื่อรักษาสมดุลระหว่างความรวดเร็วและประสิทธิภาพสูงสุด ทีมระบบของ OpenAI จึงถูกบังคับให้ใช้วิธีการ ‘แก้ไขไปพร้อมกับการดำเนินการ’ บั๊กที่เข้าใจยากเป็นพิเศษหนึ่งตัวทำให้คลัสเตอร์เกิดข้อผิดพลาดบ่อยครั้ง โดยไม่ถูกตรวจพบจนกว่ากระบวนการฝึกอบรมจะผ่านไปประมาณ 40%
แม้จะมีความท้าทายเหล่านี้ โครงการ GPT-4.5 ก็กระตุ้นการพัฒนาเทคโนโลยีสแต็กที่แข็งแกร่งยิ่งขึ้น ปัจจุบัน ทีมงานขนาดเล็กเพียง 5-10 คนสามารถสร้างโมเดลขนาดใหญ่ที่คล้ายกับ GPT-4 ได้ ประสิทธิภาพที่เพิ่มขึ้นจาก GPT-4 เป็น GPT-4.5 มีประมาณสิบเท่า ให้ผลลัพธ์ ‘ความฉลาดที่ยากต่อการวัดปริมาณ แต่ได้รับการปรับปรุงในทุกด้าน’ ซึ่งเป็นผลลัพธ์ที่ทำให้แม้แต่บุคลากรของ OpenAI เองก็ประหลาดใจ
การเปลี่ยนจุดเน้น: จากพลังการคำนวณไปสู่ประสิทธิภาพของข้อมูล
OpenAI ตระหนักว่าการบรรลุผลสำเร็จที่เพิ่มขึ้นสิบเท่าหรือร้อยเท่าในด้านประสิทธิภาพไม่ได้ขึ้นอยู่กับพลังการคำนวณดิบๆ แต่ขึ้นอยู่กับประสิทธิภาพของข้อมูล โดยเฉพาะอย่างยิ่ง ความสามารถในการดึงความรู้เพิ่มเติมจากข้อมูลในปริมาณเท่าเดิม ในขณะที่ใช้ประโยชน์จากทรัพยากรการคำนวณที่มากขึ้น
สถาปัตยกรรมยังมีการพัฒนาจากคลัสเตอร์เดียวไปสู่กระบวนทัศน์แบบหลายคลัสเตอร์ การฝึกอบรมในอนาคตอาจเกี่ยวข้องกับการเรียนรู้ร่วมกันใน GPU มากถึง 10 ล้านตัว ซึ่งจำเป็นต้องมีความทนทานต่อความผิดพลาดที่สูงขึ้น
บทสนทนาของ Sam Altman กับทีม GPT-4.5
ต่อไปนี้คือการรวบรวมการสนทนาระหว่าง Sam Altman และทีม OpenAI GPT-4.5 ที่ได้รับการแก้ไข:
Sam Altman: ต้องทำอย่างไรถึงจะสร้างโมเดลขนาดใหญ่เช่น GPT-4.5 ได้?
Alex Paino: เราเริ่มโครงการนี้เมื่อประมาณสองปีที่แล้ว ในเวลานั้น OpenAI กำลังจะเปิดตัวคลัสเตอร์คอมพิวเตอร์ขนาดใหญ่ใหม่ และทีมงานของเราเห็นว่านี่เป็นโอกาสในการดำเนินการชุดการดำเนินงานเพื่อกำหนดฟังก์ชันที่โมเดลต้องการรวมไว้ และดำเนินการทดสอบการลดความเสี่ยงจำนวนมาก
เราได้พัฒนแผนระยะยาวสำหรับเรื่องนี้ ซึ่งเกี่ยวข้องกับสแต็กเทคโนโลยีทั้งหมดตั้งแต่ระบบไปจนถึงแมชชีนเลิร์นนิง การลดความเสี่ยงและการเตรียมพร้อมสำหรับการฝึกอบรมเป็นกระบวนการดำเนินการที่ยาวนาน และการฝึกอบรมเองก็เป็นโครงการขนาดใหญ่มาก
Amin Tootoonchian: ผมคิดว่ากระบวนการนี้ต้องอาศัยความร่วมมืออย่างใกล้ชิดระหว่างทีมแมชชีนเลิร์นนิงและทีมระบบตั้งแต่เริ่มต้น จนกว่าเราจะชี้แจงว่าเราต้องการฝึกโมเดลแบบใด แล้วจึงเริ่มฝึกอบรม
เราได้ทำการคาดการณ์ทั้งในด้านแมชชีนเลิร์นนิงและด้านระบบ โดยพยายามลดช่องว่างระหว่างความคาดหวังและความเป็นจริงให้มากที่สุดเท่าที่จะเป็นไปได้ แต่เนื่องจากจังหวะการทำงานของเราเร็วและเราต้องใช้ทรัพยากรการคำนวณล่าสุด การฝึกโมเดลจึงกลายเป็นสิ่งที่วางแผนล่วงหน้าได้อย่างสมบูรณ์แบบได้ยาก
เราเกือบจะเริ่มต้นการฝึกอบรมโดยมีปัญหาที่ยังไม่ได้รับการแก้ไขมากมาย และพยายามเอาชนะความท้าทายและสร้างความคืบหน้าในระหว่างการดำเนินการ วิธีแก้ปัญหาหลักคือการเพิ่มทรัพยากรการคำนวณมากขึ้น
ขั้นตอนสุดท้ายคือการดำเนินการ ซึ่งต้องใช้คนจำนวนมากในการลงทุนพลังงานและแรงจูงใจจำนวนมากเป็นเวลานานเพื่อทำกระบวนการฝึกอบรมให้เสร็จสมบูรณ์
Sam Altman: คุณคิดว่าช่องว่างระหว่างความคาดหวังและความเป็นจริงของเรามีมากแค่ไหน?
Amin Tootoonchian: ในแง่ของระบบ เรามักจะห่างไกลจากสถานะที่คาดหวังในตอนเริ่มต้น เราเผชิญกับการเลือกว่าจะเลื่อนการเริ่มต้นและรอให้ปัญหาได้รับการแก้ไข หรือเริ่มต้นก่อนกำหนดและแก้ไขปัญหาในกระบวนการ นี่เป็นสิ่งที่ต้องแลกเปลี่ยนกันเสมอเพื่อหลีกเลี่ยงความล่าช้าที่ไม่สมเหตุสมผลในกระบวนการ
แต่เกือบจะมีปัญหาที่ไม่คาดฝันเกิดขึ้นเสมอ และสิ่งที่เราต้องทำคือจัดการกับโหนดเหล่านี้ให้มากที่สุดเท่าที่จะเป็นไปได้ จัดการกับปัจจัยที่ไม่ทราบ และกำหนดแผนสำหรับการฝึกโมเดล
Alex Paino: ในโครงการนี้ เป้าหมายของเราคือการสร้าง GPT-4.5 ซึ่งหมายความว่าความสามารถของมันควรฉลาดกว่า GPT-4 ถึง 10 เท่า นี่คือเป้าหมายเริ่มต้นที่เราตั้งไว้เมื่อประมาณ 2 ปีที่แล้ว
มีหลายสิ่งเกิดขึ้นในระหว่างกระบวนการนี้ เรากำลังคิดว่าเราจะทำได้ดีกว่าหรือแย่กว่าที่คาดไว้หรือไม่ นี่เป็นกระบวนการที่ซับซ้อนมาก แต่ในท้ายที่สุด ในแง่ของการคำนวณที่มีประสิทธิภาพที่เราลงทุนไป เราได้รับโมเดลที่เราคิดว่าฉลาดกว่า GPT-4 ถึง 10 เท่า
Amin Tootoonchian: ในแง่ของการดำเนินการ เวลาที่ใช้ในโครงการ GPT-4.5 นั้นห่างไกลจากสิ่งที่เราคาดหวังไว้ในตอนแรก
Sam Altman: ทำไมคุณถึงเจอปัญหามากมายเมื่อคลัสเตอร์ขยายจาก 10,000 การ์ดเป็น 100,000 การ์ด?
Amin Tootoonchian: ผมคิดว่าถ้านักพัฒนาระบบมีความละเอียดอ่อนพอ ปัญหาส่วนใหญ่สามารถสังเกตได้ในขั้นตอนขนาดเล็ก
ปัญหาบางอย่างไม่ได้มีเฉพาะในขั้นตอนการฝึกขนาดใหญ่เท่านั้น แต่เกิดขึ้นบ่อยครั้งก่อนหน้านี้ แต่จะกลายเป็นปัญหาหายนะหลังจากที่ขนาดเพิ่มขึ้น โดยเฉพาะอย่างยิ่งเมื่อทีมงานไม่ได้คาดการณ์ว่าปัญหาเหล่านี้จะเลวร้ายลงถึงเพียงนี้
Sam Altman: สิ่งใดบ้างที่ก่อให้เกิดผลกระทบหายนะ?
Amin Tootoonchian: ผมคิดว่าปัญหาโครงสร้างพื้นฐานเป็นที่รู้จักกันดี ไม่ว่าจะเป็นอัตราความล้มเหลว ประเภทความล้มเหลว หรือปริมาณความล้มเหลวทั้งหมดจะสูงมาก คลัสเตอร์ 100,000 การ์ดเป็นกลุ่มตัวอย่างขนาดใหญ่ ดังนั้นเราจึงค้นพบปัญหาที่ผู้ให้บริการพลังการคำนวณไม่ได้สังเกตเห็นเช่นกัน
เครือข่ายเป็นหนึ่งในนั้น และตัวเร่งความเร็วแต่ละตัวก็อาจมีปัญหาได้เช่นกัน แต่นี่ก็เป็นความสวยงามของระบบนี้เช่นกัน เกือบทุกส่วนประกอบจำเป็นต้องทำงานตามที่คาดไว้เพื่อสร้างผลลัพธ์ที่คาดหวัง งานของเราคือลดปัญหานี้ให้มากที่สุดเท่าที่จะเป็นไปได้
Sam Altman: เป็นเรื่องยากอย่างยิ่งที่จะทำงานที่ขีดจำกัดของขนาดคลัสเตอร์ แต่ผมก็สังเกตเห็นว่าการทำสิ่งที่ไม่ใช่แนวหน้าของเทคโนโลยีอีกต่อไปนั้นง่ายขึ้นมาก การฝึก GPT-4.5 ต้องใช้คนหลายร้อยคน และ OpenAI ก็มีเกือบทุกคนเข้าร่วม
แต่วันนี้ ถ้าคุณจะเลือกทีมที่เล็กที่สุดจาก OpenAI และฝึก GPT-4 ใหม่ตั้งแต่ต้นด้วยความรู้และการทำงานของระบบทั้งหมดที่เราทราบ จะต้องใช้คนกี่คน?
Alex Paino: ผมคิดว่าอาจต้องใช้คนประมาณ 5 ถึง 10 คนในการสร้างโมเดลระดับ GPT-4 ในขณะนี้ สแต็กเทคโนโลยีได้รับการปรับปรุงอย่างมากในกระบวนการทำให้ GPT-4.5 เสร็จสมบูรณ์
ในความเป็นจริง เราได้ทำสิ่งที่คล้ายกันในกระบวนการฝึก GPT-4.5 เราฝึก GPT-4o ซึ่งเป็นโมเดลระดับ GPT-4 และฝึกใหม่โดยใช้เนื้อหาเดียวกันจำนวนมากจากโครงการวิจัย GPT-4.5 มีการใช้คนน้อยลงสำหรับการฝึกนั้น
Sam Altman: จากมุมมองของคุณ Dan? ทำไมการฝึกโมเดลขนาดใหญ่ถึงเป็นเรื่องยาก?
Daniel Selsam: ผมคิดว่ามันยากที่จะทำอะไรใหม่ๆ ผมคิดว่าแม้แต่การค้นพบว่าคนอื่นได้ทำอะไรบางอย่างก็ทำให้มันง่ายขึ้นมาก เพราะส่วนที่ยากที่สุดคือการมีความเชื่อมั่นที่จะทำอะไรบางอย่างตั้งแต่แรก ผมคิดว่าแค่รู้ว่าสิ่งที่เป็นไปได้คือรหัสโกงขั้นสุดยอดที่ทำให้สิ่งต่างๆ ง่ายขึ้นมาก
Alex Paino: เรากำลังขยายการรันการฝึกอบรมล่วงหน้าของ GPT เป็น 10 เท่าของขนาดเดิม และเรามักจะค้นพบสิ่งใหม่ๆ ที่น่าสนใจที่คุณไม่สามารถคาดเดาได้อย่างแน่นอน
Sam Altman: ต้องมีอะไรบ้างเพื่อให้บรรลุการเติบโต 10 เท่าหรือ 100 เท่าในการฝึกอบรมล่วงหน้า?
Daniel Selsam: ประสิทธิภาพของข้อมูล สถาปัตยกรรม Transformer (เช่น GPT) มีประสิทธิภาพมากในการใช้ข้อมูล สามารถดูดซับและบีบอัดข้อมูลได้ดี และบรรลุผลทั่วไป คุณสมบัติที่ใหญ่ที่สุดของมันคือสามารถดูดซับข้อมูลได้อย่างมีประสิทธิภาพด้วยทรัพยากรการคำนวณ
อย่างไรก็ตาม ความลึกซึ้งของข้อมูลที่ได้รับจากข้อมูลนั้นมีจำกัด เมื่อพลังการคำนวณเติบโตอย่างรวดเร็วและข้อมูลเติบโตช้ากว่า ข้อมูลจะกลายเป็นคอขวดสำหรับโมเดลมาตรฐานนี้ ซึ่งต้องใช้นวัตกรรมทางอัลกอริทึมเพื่อพัฒนาวิธีการที่สามารถใช้พลังการคำนวณมากขึ้นเพื่อเรียนรู้ความรู้เพิ่มเติมจากข้อมูลในปริมาณเท่าเดิม
Sam Altman: คุณคิดว่าเราต้องมีอะไรอีกบ้างในการรักษาการขยายตัว?
Amin Tootoonchian: คำตอบของผมเกี่ยวกับระบบ ผมคิดว่าปริมาณงานมหาศาลที่ต้องใช้สำหรับ GPT-4.5 นั้นเป็นผลที่หลีกเลี่ยงไม่ได้ของข้อกำหนดของโมเดล เราไม่สามารถฝึก GPT-4.5 ด้วยสถาปัตยกรรมทางเทคนิคที่เหมือนกับ GPT-4 ได้
ในแง่ของการจัดการสถานะ เนื่องจากทรัพยากรการคำนวณที่ต้องการเกินความจุของคลัสเตอร์เดียว เราจึงต้องหันไปใช้สถาปัตยกรรมการฝึกอบรมแบบหลายคลัสเตอร์ เพื่อให้บรรลุเป้าหมายนี้ เราต้องรวมเวิร์กโฟลว์ที่แตกต่างกันหลายรายการเข้าด้วยกันในช่วงเวลาสั้นๆ
แม้ว่าสิ่งนี้จะช่วยให้เราบรรลุความก้าวหน้าในระยะได้อย่างแท้จริง แต่เพื่อให้ได้ประสิทธิภาพที่ดีขึ้นในลำดับถัดไป เรายังคงต้องแก้ไขปัญหาทางเทคนิคที่ทราบแต่ถูกเก็บไว้ชั่วคราว ปัญหาเหล่านี้ไม่สามารถหลีกเลี่ยงได้ เป็นการแลกเปลี่ยนทางเทคนิคชนิดนี้ที่ขยายวงจรการวิจัยและพัฒนาของระบบที่สมบูรณ์แบบอย่างต่อเนื่อง และเรากำลังทำการแลกเปลี่ยนเชิงกลยุทธ์ในกระบวนการแสวงหาแผนการดำเนินการที่เหมาะสมที่สุดเสมอ
จำเป็นต้องชัดเจนว่าระบบเองไม่ใช่เป้าหมายสูงสุด และมูลค่าผลลัพธ์ที่แท้จริงคือสิ่งที่ต้องพิจารณาหลัก สำหรับการปรับปรุงประสิทธิภาพ 10 เท่าครั้งต่อไป ผมคิดว่าความก้าวหน้าในการทนต่อความผิดพลาดเป็นสิ่งสำคัญ เราจำเป็นต้องสร้างกลไกที่ทนต่อความผิดพลาดซึ่งทำงานร่วมกันอย่างลึกซึ้งกับภาระงานเพื่อลดความกังวลในการดำเนินงานและการบำรุงรักษาอย่างมาก ความซับซ้อนในการดำเนินงานและการบำรุงรักษาของระบบขนาดใหญ่พิเศษในปัจจุบันนั้นแตกต่างจากระบบก่อนหน้านี้โดยสิ้นเชิง
Sam Altman: คุณทราบหรือไม่ว่าเปอร์เซ็นต์ของความล้มเหลวเกิดจากส่วนประกอบใดบ้างในระหว่างการฝึก GPT-4.5?
Amin Tootoonchian: ผมไม่มีตัวเลขเฉพาะที่จะแบ่งปัน แต่โดยทั่วไปแล้ว ในช่วงแรกๆ ของการปรับใช้ฮาร์ดแวร์รุ่นใหม่ การดำเนินงานของระบบมักเผชิญกับความท้าทายทางเทคนิคมากมายที่ไม่เข้าใจอย่างถ่องแท้ เราเลือกที่จะดำเนินโครงการก่อนที่ปัญหาจะถูกกำหนดอย่างสมบูรณ์ ซึ่งนำไปสู่อัตราความล้มเหลวเริ่มต้นที่สูง
แต่ประสบการณ์ได้แสดงให้เห็นว่าเมื่อระบุและแก้ไขสาเหตุที่แท้จริงแล้ว อัตราความล้มเหลวจะลดลงอย่างมาก ปรากฏการณ์นี้สะท้อนให้เห็นถึงความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับโครงสร้างพื้นฐาน โดยพื้นฐานแล้ว บางคนเรียกว่าการทำความสะอาดโครงสร้างพื้นฐานหรือการทำความเข้าใจปัญหาพื้นฐานของโครงสร้างพื้นฐาน
ช่วงแรกๆ ของการดำเนินการมักจะค่อนข้างเจ็บปวด ในขณะที่ดำเนินโครงการไปข้างหน้า เรายังคงค้นพบและแก้ไขโหมดความล้มเหลวใหม่ๆ อย่างต่อเนื่อง แต่อัตราความล้มเหลวจะค่อยๆ ลดลงและเวลาการทำงานปกติจะนานขึ้น
นี่เป็นเรื่องของการแลกเปลี่ยนลำดับความสำคัญ โดยพื้นฐานแล้ว ในช่วงแรกๆ ของวงจรชีวิตโครงสร้างพื้นฐาน ความเสี่ยงต่อความล้มเหลวมักจะยากต่อการประเมินอย่างแม่นยำ และถ้าเราแสวงหาอย่างมากเกินไปซึ่งสถานะในอุดมคติขั้นสูงสุด (เดิมคือ ‘City Estate’ การออกแบบรัฐในอุดมคติ) อาจนำไปสู่ระบบ ประสิทธิภาพความพร้อมใช้งานในช่วงแรกๆ นั้นแย่มาก
Sam Altman: แม้ว่าโมเดลการให้เหตุผลจะเป็นส่วนประกอบสำคัญของสแต็กเทคโนโลยีในอนาคตของเรา แต่ให้เรามุ่งเน้นไปที่ขอบเขตการพัฒนาของโมเดลการฝึกอบรมล่วงหน้าแบบดั้งเดิมชั่วคราว สมมติว่าเรามีพลังการคำนวณ GPU ไม่จำกัด แบนด์วิดท์เครือข่ายไม่จำกัด และแหล่งจ่ายไฟไม่จำกัด แต่ยังคงถูกจำกัดด้วยปัญหาคอขวดทางเทคนิคที่มีอยู่ รวมถึงปัญหาความน่าเชื่อถือของระบบ การขาดวิธีการฝึกอบรมที่ทนต่อความผิดพลาด และข้อจำกัดของชุดข้อมูลที่มีอยู่
ตามกฎวิวัฒนาการของเราในการบรรลุการเพิ่มขนาด 100 เท่าในแต่ละหมายเลขเวอร์ชัน GPT หลัก ตามขอบเขตทางเทคนิคในปัจจุบัน การพัฒนาโมเดลการฝึกอบรมล่วงหน้าสามารถไปถึงระดับใดได้บ้าง โดยเฉพาะอย่างยิ่งสำหรับโมเดลชุด GPT ด้วยระบบความรู้ที่มีอยู่ของเรา เราสามารถฝึกโมเดลชนิดใดได้ในทางทฤษฎี สามารถสร้าง GPT-5.5 ได้หรือไม่
Alex Paino: จากมุมมองของการเรียนรู้ของเครื่องและการพัฒนาอัลกอริทึม เรายังไม่ได้เข้าถึงขีดจำกัดบนทางทฤษฎีที่ชัดเจน ในความเป็นจริง เราเพิ่งเริ่มต้นสำรวจอัลกอริทึมที่มีประสิทธิภาพของข้อมูลสูงขึ้น และวิธีใช้ทรัพยากรข้อมูลที่มีอยู่อย่างเต็มที่ สถานการณ์นี้เป็นเรื่องที่น่าสนใจมาก แม้แต่โมเดลอย่าง GPT-4 ก็ได้รับการพัฒนาภายใต้ข้อจำกัดของทรัพยากรการคำนวณที่จำกัด ซึ่งกำหนดทิศทางของการวิจัยก่อนหน้านี้ส่วนใหญ่ด้วย
แต่สถานการณ์แตกต่างไปจากเดิมอย่างสิ้นเชิงในขณะนี้ นับตั้งแต่ GPT-4.5 ในบางมิติที่สำคัญ ข้อมูลมากกว่าการคำนวณกำลังกลายเป็นข้อจำกัดหลัก การเปลี่ยนแปลงนี้ทำให้การวิจัยที่เกี่ยวข้องไม่น่าตื่นเต้นนัก
Sam Altman: แต่นี่เป็นความก้าวหน้าที่น่าทึ่งอย่างแท้จริง และโลกอาจไม่ตระหนักอย่างเต็มที่ว่าทรัพยากรการคำนวณไม่ใช่คอขวดหลักในโมเดลที่ดีที่สุดที่เราสามารถสร้างได้อีกต่อไป การเปลี่ยนแปลงนี้ลึกซึ้ง ท้ายที่สุด เราอาศัยอยู่ในสภาพแวดล้อมที่จำกัดการคำนวณมานานเกินไป
Sam Altman: ประสบการณ์การเรียนรู้ของเครื่องที่น่าสนใจที่สุดที่เราได้เรียนรู้ในกระบวนการฝึก GPT-4.5 คืออะไร แค่พูดถึงสิ่งที่คุณต้องการแบ่งปัน
Amin Tootoonchian: โดยทั่วไปแล้ว สิ่งที่กระตุ้นความคิดมากที่สุดคือสถานการณ์ที่เบี่ยงเบนไปจากการคาดการณ์ของเรา โดยเฉพาะอย่างยิ่งเมื่อเราพยายามทำความเข้าใจว่าทำไมประสิทธิภาพที่แท้จริงจึงเบี่ยงเบนไปจากเส้นโค้งที่คาดไว้
Alex Paino: หนึ่งในการค้นพบที่น่าประหลาดใจที่สุดสำหรับเราคือประสิทธิภาพการปรับขนาดของส่วนประกอบการเรียนรู้ของเครื่องที่แตกต่างกันนั้นแตกต่างกันอย่างมาก บางส่วนสามารถปรับขนาดได้ดี ในขณะที่บางส่วนไม่สามารถทำได้ นี่คือสิ่งที่เราตระหนักจริงๆ ในกระบวนการฝึกอบรมจริง ประสบการณ์นี้ทำให้เราได้รับแรงบันดาลใจมากมาย
Daniel Selsam: ผมคิดว่าคุณสมบัติหลักสองอย่างของกระบวนทัศน์ GPT คือ: ประการแรก การสูญเสียการทดสอบ (เมตริกเพื่อวัดว่าโมเดลทำงานได้ดีเพียงใดกับข้อมูลการทดสอบที่ไม่เคยเห็นมาก่อน) สามารถคาดการณ์ได้อย่างแม่นยำ ประการที่สอง ประสิทธิภาพของโมเดลแสดงให้เห็นถึงการปรับปรุงที่คาดการณ์ได้ด้วยการขยายขนาด ยิ่งไปกว่านั้น การลดการสูญเสียการทดสอบจะเปลี่ยนเป็นระดับความฉลาดที่ได้รับการปรับปรุงรอบด้านในรูปแบบต่างๆ ที่ยากต่อการวัดปริมาณ แต่ก็น่าทึ่ง
Sam Altman: คุณมองโลกในแง่ดีอย่างยิ่งเกี่ยวกับเรื่องนี้หรือไม่ คุณเห็นด้วยกับมุมมองนี้อย่างเต็มที่หรือไม่
Daniel Selsam: จริงๆ แล้ว สิ่งที่ผมอยากจะพูดคือ เราพบปรากฏการณ์ที่น่าสนใจเป็นพิเศษในการทดสอบ GPT-4.5 หลังจากทำการทดสอบใหม่ โมเดลแสดงให้เห็นถึงความสามารถที่ละเอียดอ่อนมากมายที่เกินความคาดหมายของทุกคน
เรามั่นใจว่ามันจะฉลาดขึ้นในรูปแบบต่างๆ ที่ไม่สามารถกำหนดล่วงหน้าได้ และหลังจากการปรับใช้จริง เราสามารถสังเกตเห็นระดับการปรับปรุงที่ละเอียดอ่อนเหล่านี้ได้จากความพึงพอใจของผู้ใช้: ทรัพยากรความรู้สึกทั่วไปที่แข็งแกร่งขึ้น ความสามารถในการทำความเข้าใจบริบทที่แม่นยำยิ่งขึ้น และความเข้าใจเชิงความหมายที่ละเอียดอ่อนยิ่งขึ้น นี่คือเวทมนตร์ที่เกิดจากการสูญเสียการทดสอบพิเศษเหล่านั้น ในความคิดของผม กฎการปรับขนาดได้รับการตรวจสอบอย่างสมบูรณ์แบบในมิตินี้
Sam Altman: ช่วงเวลาที่เป็นบวกที่สุดในระหว่างกระบวนการฝึกอบรมทั้งหมดคืออะไร ความทรงจำที่คุณชื่นชอบคืออะไร เห็นได้ชัดว่ามีความเจ็บปวดมากมาย แต่ผมหวังว่าความเจ็บปวดเหล่านั้นจะบรรเทาลงได้
Alex Paino: ผมมีช่วงเวลาเช่นนั้น เราทำงานการเรียนรู้ของเครื่องมากมายในระหว่างการฝึกอบรม ผมคิดว่าการเปลี่ยนแปลงบางอย่างที่เราทำในระหว่างการดำเนินการมีผลกระทบค่อนข้างดี อาจจะดีกว่าที่คาดไว้ ซึ่งเป็นช่วงเวลาที่น่าตื่นเต้นมากสำหรับเรา
Amin Tootoonchian: สำหรับผม ในเวลาเดียวกับการฝึกอบรม เรายังสร้างโครงสร้างพื้นฐานด้วย เราเชื่อมั่นอย่างหนักแน่นว่าเราสามารถข้ามหน้าผาประสิทธิภาพนี้ไปได้ และเรามีแผน และทุกคนกำลังดำเนินการตามนั้น แต่มันต้องใช้เวลานาน นี่เป็นงานที่ยากและยากกว่าที่ผมคิดอย่างแน่นอน การคาดการณ์ของผมผิดพลาด และผมประเมินเวลาที่ต้องใช้ในการแก้ไขปัญหาเหล่านี้ต่ำเกินไป
ช่วงเวลาที่ทีมงานเอาชนะปัญหาสำคัญเหล่านั้นได้ในที่สุด และประสิทธิภาพได้รับการปรับปรุงอย่างมีนัยสำคัญ ยังคงสดใหม่อยู่ในความทรงจำของผม คุณจะรู้สึกถึงการเปลี่ยนแปลงพลังงานของทั้งทีมได้อย่างชัดเจน ทุกคนเต็มไปด้วยพลังงานและรีบเร่งไปสู่เป้าหมายสุดท้ายด้วยแรงจูงใจใหม่
สิ่งที่มหัศจรรย์ที่สุดคือเวลาที่คาดว่าจะแล้วเสร็จที่แสดงบนเครื่องมือติดตามสถานะของเรายังคงสั้นลงจากสองปีเริ่มต้น และในที่สุดก็ล็อกไว้ในโหนดเวลาที่ชัดเจน ความคืบหน้าที่มองเห็นได้นี้มีแรงหนุนอย่างมากต่อขวัญกำลังใจของทีม ผมคิดว่านี่คือความสวยงามของมัน
ผมอยากจะเน้นย้ำว่างานการเรียนรู้ของเครื่องไม่เคยหยุดนิ่ง แม้หลังจากเริ่มการฝึกอบรมแล้ว กระบวนการออกแบบร่วมกับการเรียนรู้ของเครื่องนี้ยังคงดำเนินต่อไป ทีมการเรียนรู้ของเครื่องไม่เพียงแต่ติดตามปัญหาที่ถูกทำเครื่องหมายว่าเป็น ‘การประมวลผลในภายหลัง’ อย่างแข็งขันเท่านั้น แต่ยังคงส่งมอบการปรับปรุงที่ปรับเวลาการฝึกอบรมให้เหมาะสมอย่างแท้จริง
สิ่งนี้สะท้อนให้เห็นถึงจิตวิญญาณของทีมเราอย่างสมบูรณ์แบบ ไม่มีขอบเขตการทำงาน ‘แต่ละคนกวาดหิมะหน้าประตูบ้านของตัวเอง’ ที่นี่ แต่เป็นการทำงานร่วมกันอย่างราบรื่นอย่างแท้จริง และความสามัคคีนี้คือจุดแข็งที่ยิ่งใหญ่ที่สุดของเรา
Sam Altman: โลกภายนอกได้พูดคุยกันมากมายเกี่ยวกับความท้าทายและความแม่นยำในการคาดการณ์ของการฝึกอบรมนี้ แต่ในความเป็นจริง ทั้งหมดนี้ขึ้นอยู่กับการวางแผนที่ละเอียดถี่ถ้วนอย่างยิ่ง คุณสามารถพูดคุยเพิ่มเติมเกี่ยวกับเรื่องนี้โดยละเอียดได้หรือไม่
Alex Paino: นี่เป็นแผนที่ละเอียดถี่ถ้วนที่สุดของเราอย่างแน่นอน ดังที่ผมได้กล่าวไป เราเริ่มเตรียมตัวสำหรับโครงการนี้หนึ่งปีก่อนการเริ่มต้นการฝึกอบรมอย่างเป็นทางการ ในช่วงเวลานี้ เราได้ดำเนินการทดสอบควบคุมความเสี่ยงขนาดใหญ่หลายครั้ง
เราให้ความสนใจเป็นพิเศษในการค่อยๆ แนะนำการปรับปรุงทั้งหมด: เริ่มต้นจากการกำหนดค่าพื้นฐานที่มีความน่าเชื่อถือสูง ซึ่งสามารถเข้าใจได้ว่าเป็นสถาปัตยกรรมที่สมบูรณ์คล้ายกับ GPT-4 เราได้เชี่ยวชาญการกำหนดค่านี้อย่างเต็มที่ในระดับการเรียนรู้ของเครื่อง จากนั้นจึงเพิ่มคุณสมบัติใหม่ทีละชั้นเหมือนการสร้างบล็อก
กุญแจสำคัญคือการตรวจสอบความสามารถในการปรับขนาดของการปรับปรุงแต่ละครั้งอย่างเข้มงวดในขนาดที่แตกต่างกัน: ไม่เพียงแต่ดูการปรับปรุงประสิทธิภาพเท่านั้น แต่ยังต้องตรวจสอบให้แน่ใจว่าการปรับปรุงเหล่านี้ยังคงมีผลเมื่อขนาดโมเดลขยายใหญ่ขึ้น การปรับปรุงมากมายทำงานได้ดีในการทดสอบขนาดเล็ก แต่จะล้มเหลวในการใช้งานขนาดใหญ่
ดังนั้น เราจึงรักษาความระมัดระวังในระดับสูงตลอดกระบวนการทั้งหมด และยังคงวนซ้ำและปรับปรุงวิธีการกฎหมายการขยายตัวของเราอย่างต่อเนื่อง ผ่านการปฏิบัติควบคุมความเสี่ยงนี้ เราได้สะสมประสบการณ์อันมีค่ามากมายที่จะยังคงชี้นำการพัฒนาโมเดลชุด GPT ในอนาคต
Amin Tootoonchian: ผมจำช่วงเวลาที่น่าสนใจเป็นพิเศษที่ผมคิดถึงมาก คุณรู้ไหมว่าเราเกือบจะเจอบั๊กต่างๆ ทุกครั้งที่เราเริ่มงานฝึกอบรม นี่เป็นเรื่องธรรมดาอยู่แล้ว แต่กุญแจสำคัญคือการทำให้แน่ใจว่าความคืบหน้าไม่ได้ถูกบล็อก และยืนยันเสมอว่าความคืบหน้าในปัจจุบันอยู่ในทิศทางที่ถูกต้องจริงๆ และบั๊กเหล่านี้จะมีผลกระทบร้ายแรงต่อสุขภาพของการฝึกอบรมหรือไม่
แม้ว่าในตอนแรกเราจะมั่นใจมากว่ามีข้อบกพร่องที่สำคัญ แต่ผ่านระบบตรวจสอบทั้งหมดที่เราสร้างขึ้น เราก็สามารถแยกแยะสาเหตุที่แท้จริงของปัญหาได้อย่างแม่นยำ: เป็นความล้มเหลวของฮาร์ดแวร์หรือไม่ ความล้มเหลวของฮาร์ดแวร์ประเภทใด เป็นข้อมูลที่เสียหายหรือไม่ หรือเป็นบั๊กในโมเดลการเรียนรู้ของเครื่องเองหรือไม่ หรือเป็นสภาวะการแข่งขันในโค้ดหรือไม่
ในเวลานั้น เรามีพื้นที่สนทนาปัญหาหลายแห่งเปิดพร้อมกัน โดยมีอาการต่างๆ หลังจากชุดแก้ไขบั๊ก เราก็ติดขัด: มีปัญหาที่ยังไม่ได้รับการแก้ไขมากมายอยู่ตรงหน้าเรา และทุกคนก็พยายามอย่างหนัก จะเกิดจากบั๊กที่แตกต่างกันหรือไม่ หรือเป็นบั๊กในการทำงานหรือไม่
ต่อมา เราได้จัดการลงคะแนนเสียงเพื่อให้สมาชิกในทีมลงคะแนนให้สาเหตุที่แท้จริงที่เป็นไปได้มากที่สุด ตัวเลือกที่ดูเหมือนจะมีแนวโน้มน้อยที่สุดกลับกลายเป็นความจริง ปรากฏว่ามีปัญหากับฟังก์ชัน torch.sum ต้นน้ำของ PyTorch ซึ่งเป็นการดำเนินการรวมที่ง่าย
บั๊กนี้เป็นเรื่องที่น่าสนใจเป็นพิเศษ คุณรู้ไหมว่าเราส่วนใหญ่ใช้เคอร์เนล Triton และเราจะกลับไปใช้การดำเนินการ torch ในสถานการณ์ขอบที่ไม่สำคัญเท่านั้น และบั๊กฟังก์ชัน torch.sum ที่ทริกเกอร์โดยเส้นทางโค้ดเฉพาะของเราจะทำให้เกิดการเข้าถึงหน่วยความจำที่ผิดกฎหมายโดยไม่ได้ตั้งใจเนื่องจากลักษณะการกระจายข้อมูล ทำให้เกิดข้อผิดพลาดเมื่อคำนวณออฟเซ็ตหน่วยความจำ
สิ่งที่น่าทึ่งที่สุดคือเมื่อวิศวกรระบุปัญหาและส่งการแก้ไขในที่สุด รายงานข้อผิดพลาดทั้งหมดที่มีอาการแตกต่างกันก็หายไป ทุกคนเปลี่ยนช่อง Slack จาก ‘ทฤษฎีหลายบั๊ก’ เป็น ‘ทฤษฎีบั๊กเดียว’ อย่างตื่นเต้น และฉากนั้นก็มีความสุขมาก
บั๊กนี้ซ่อนตัวอยู่นานแค่ไหน มันมีอยู่ตั้งแต่ช่วงแรกๆ ของการฝึกอบรม และไม่ได้รับการระบุจนกว่าแถบความคืบหน้าจะผ่านไปประมาณ 40% กระบวนการค้นพบยังเต็มไปด้วยละคร ในเวลานั้น เคอร์เนลที่ซับซ้อนได้เรียกใช้ลำดับต่อเนื่อง และการเรียกครั้งที่สองทำให้เกิดการเข้าถึงหน่วยความจำที่ผิดกฎหมาย
แม้ว่าความถี่ในการขัดข้องนี้จะต่ำมาก (เกิดขึ้นเพียงครั้งเดียวทุกๆ สองสามร้อยหรือหลายพันขั้นตอนการฝึกอบรม) แต่ก็ง่ายที่จะถูกละเลยว่าเป็นความล้มเหลวเป็นครั้งคราว แต่แนวทางของทีมเราคือ: อย่าปล่อยให้อะไรผิดปกติเกิดขึ้น สิ่งที่ดีที่สุดในเรื่องนี้อยู่ที่ความเพียรพยายามที่ไม่ยอมแพ้ง่ายๆ
Sam Altman: คุณต้องทำอะไรอีกบ้างหลังจากเริ่มการฝึกอบรมล่วงหน้าของ GPT-4.5?
Alex Paino: พวกเราทุกคนต้องสังเกตเส้นโค้งการสูญเสียบ่อยๆ นอกจากนี้ เรายังต้องปรับระบบให้เหมาะสมอย่างต่อเนื่อง และปรับปรุงการออกแบบร่วมที่ไม่เสร็จสิ้นก่อนเริ่มการฝึกอบรม เราตรวจสอบสถิติต่างๆ อย่างใกล้ชิดในระหว่างกระบวนการฝึกอบรมเพื่อให้แน่ใจว่าไม่มีแนวโน้มที่ไม่คาดฝัน ในขณะเดียวกัน เราสำรวจแผนการปรับปรุงที่เป็นไปได้จากมุมมองการเรียนรู้ของเครื่อง แม้ว่างานระดับข้อมูลจะลดลงชั่วคราวหลังจากเริ่มการฝึกอบรมล่วงหน้าแล้ว แต่ก็ยังมีงานอีกมากมายที่ต้องดำเนินการ
Amin Tootoonchian: ผมคิดว่าการเรียนรู้ของเครื่องส่วนใหญ่ขึ้นอยู่กับการตัดสินที่ถูกต้อง หลังจากเริ่มการฝึกอบรมล่วงหน้าแล้ว เมื่อเผชิญกับสัญญาณรบกวนจำนวนมาก เราก็เหมือนหมอดูที่ตีความตะกอนชา และเราต้องตัดสินว่าระบบมีสุขภาพดีหรือไม่ นี่คือความรับผิดชอบของเรา
Sam Altman: ในระดับระบบ อะไรจะจำกัดเราจากการดำเนินการฝึกโมเดล มันคือชิป โปรเซสเซอร์ หน่วยความจำ เครือข่าย หรือแหล่งจ่ายไฟ?
Amin Tootoonchian: ความสวยงามของระบบคือ เมื่อทำการออกแบบร่วม ภาระงานสามารถปรับให้เข้ากับโครงสร้างพื้นฐานที่คุณสร้างได้ ไม่มีการพูดเป็นสากลว่าเครือข่ายเป็นคอขวด หรือแบนด์วิดท์หน่วยความจำเป็นคอขวด ฯลฯ แม้แต่สำหรับโมเดลที่มีข้อกำหนดเดียวกัน เราสามารถเลือกที่จะถ่ายโอนข้อกำหนดด้านทรัพยากรได้ เราสามารถเลือกที่จะสร้างระบบที่สมดุลมากขึ้น แต่การมีแบนด์วิดท์หน่วยความจำมากขึ้นเป็นประโยชน์เสมอ เป็นการยากที่จะตอบคำถามนี้โดยไม่มีเงื่อนไขจำกัด
เมื่อออกแบบ GPT-4.5 เราอาจต้องมีคุณสมบัติบางอย่างในระบบ ซึ่งต้องสร้างขึ้นผ่านคำแนะนำของมนุษย์ ดังนั้น การออกแบบร่วมจึงมีความสำคัญมากสำหรับการสร้างสถาปัตยกรรมโมเดลและองค์ประกอบทางสถาปัตยกรรม และเชื่อมต่อระบบและด้านการเรียนรู้ของเครื่องในระดับหนึ่ง หากระบบมีคุณสมบัติที่เราไม่ต้องการมีมากนัก สถานการณ์ในอุดมคติของผมคือทุกอย่างควรถูกแยกออกจากกันเพื่อให้แต่ละฝ่ายมีพื้นที่มากที่สุด
บางครั้งสิ่งต่างๆ เชื่อมต่อกัน และเราต้องตอบสนองความต้องการของโครงสร้างพื้นฐาน หรือสิ่งต่างๆ ควรเป็นเช่นนี้ ส่วนใหญ่ เราต้องการระบบที่สมดุล การสื่อสารที่สมดุล และวิธีการควบคุมที่ดีที่สุดที่เรามีคือการออกแบบร่วมทั้งหมดนี้
Sam Altman: เราอยู่ห่างจากเป้าหมายระบบในอุดมคตินั้นมากแค่ไหน?
Amin Tootoonchian: เราอยู่ห่างไกลจากเป้าหมายนั้นมาก กระบวนการสร้างระบบเป็นเช่นนี้เสมอ: ขั้นแรกคือมีมุมมองที่เป็นอุดมคติว่าสิ่งต่างๆ ควรทำงานอย่างไร จากนั้นความแตกต่างเหล่านั้นจะถูกประนีประนอมกับทรัพยากรที่มีอยู่
ผมไม่คิดว่าเรากำลังทำเพื่อทฤษฎีเพื่อประโยชน์ของทฤษฎี แต่แค่เพื่อพูดคุยว่าเราต้องการให้มันเป็นอะไร เพื่อทำให้มันเป็นจริง และเพื่อให้เข้าใกล้สิ่งที่เป็นอุดมคติมากที่สุดเท่าที่จะเป็นไปได้ นี่อาจเป็นส่วนที่น่าตื่นเต้นที่สุดของสาขาระบบ ผู้คนเคยกล่าวว่านี่คือการออกแบบระบบที่สง่างาม และในที่สุดประวัติศาสตร์จะบอกเราว่าตัวเลือกนี้ถูกหรือผิด
Sam Altman: ถ้าคุณได้รับคำตอบสำหรับคำถามเกี่ยวกับการเรียนรู้ของเครื่องก่อนการฝึกอบรมขนาดใหญ่ครั้งต่อไป คุณอยากรู้เรื่องอะไรมากที่สุด?
Alex Paino: ผมอยากรู้ว่าเราควรใช้อัลกอริทึมใดภายใต้ข้อมูลที่จำกัดและสาขาเฉพาะ แม้ว่านี่จะเป็นคำถามที่กว้าง แต่ก็เป็นคำถามที่สำคัญที่สุด
Sam Altman: คุณจะดำเนินการฝึกอบรมล่วงหน้าพร้อมกันกับ GPU 10 ล้านตัวขึ้นไปในอนาคตหรือไม่?
Alex Paino: ผมคิดว่าจะมี แต่ก็อาจจะไม่ใช่โมเดลการฝึกอบรมล่วงหน้าแบบดั้งเดิม รูปแบบของมันอาจแตกต่างจากเทคโนโลยีที่มีอยู่มาก แต่ก็จะยังคงแกนหลักของการเรียนรู้แบบไม่มีผู้สอนไว้
Amin Tootoonchian: ผมชอบโมเดลแบบกึ่งซิงโครนัสมากกว่า เนื่อง