จุดเริ่มต้นของ GPT-4.5: การเดินทางสองปี
โครงการ GPT-4.5 ซึ่งคิดค้นขึ้นเมื่อสองปีก่อนการเปิดตัว ถือเป็นโครงการที่วางแผนมาอย่างพิถีพิถันที่สุดของ OpenAI จนถึงปัจจุบัน โครงการนี้ต้องการความพยายามร่วมกันของคนหลายร้อยคน โดย Altman กล่าวว่าโครงการนี้ได้ดึงดูด ‘เกือบทุกคน’ ที่ OpenAI การมีส่วนร่วมอย่างกว้างขวางนี้เน้นย้ำถึงความสำคัญเชิงกลยุทธ์ของ GPT-4.5 ภายในพันธกิจที่กว้างขึ้นขององค์กร
ในระหว่างขั้นตอนการพัฒนา ทีม OpenAI พบกับสิ่งที่พวกเขาเรียกว่า ‘ปัญหาใหญ่’ การปรับใช้คลัสเตอร์ GPU จำนวน 100,000 เครื่อง เผยให้เห็นช่องโหว่ของโครงสร้างพื้นฐานที่แฝงอยู่ ซึ่งปรากฏเป็นการล้มเหลวที่ไม่บ่อยนักแต่ร้ายแรง เพื่อสร้างสมดุลระหว่างความรวดเร็วและประสิทธิภาพสูงสุด วิศวกรระบบจึงใช้วิธีการวนซ้ำ โดย ‘สร้างและแก้ไข’ ไปพร้อมๆ กัน ข้อผิดพลาดที่เข้าใจยากเป็นพิเศษอย่างหนึ่งทำให้คลัสเตอร์เกิดข้อผิดพลาดซ้ำๆ ซึ่งยังคงตรวจไม่พบจนกว่ากระบวนการฝึกอบรมจะเสร็จสิ้นประมาณ 40%
สิ่งที่ขัดแย้งกันก็คือ การทดลองเหล่านี้มีส่วนช่วยในการเสริมสร้างรากฐานทางเทคนิคของ OpenAI ความเชี่ยวชาญที่ได้รับทำให้ทีมงานที่คล่องตัวเพียง 5-10 คนสามารถจำลองแบบจำลองขนาด GPT-4 ได้ การก้าวกระโดดด้านประสิทธิภาพจาก GPT-4 เป็น GPT-4.5 ซึ่งประเมินไว้ที่ประมาณสิบเท่า มีลักษณะเฉพาะคือ ‘ความฉลาดที่ได้รับการปรับปรุงอย่างครอบคลุมแต่ยากที่จะวัดปริมาณได้’ ซึ่งสร้างความประหลาดใจให้กับผู้ที่อยู่ภายใน OpenAI แม้แต่การก้าวกระโดดเชิงคุณภาพนี้บ่งชี้ถึงความก้าวหน้าไปไกลกว่าการปรับขนาดเพียงอย่างเดียว ซึ่งบ่งชี้ถึงการปรับปรุงพื้นฐานในความสามารถของแบบจำลองในการให้เหตุผลและทำความเข้าใจ
เมื่อมองไปข้างหน้า OpenAI ตระหนักดีว่าการบรรลุผลสำเร็จในระดับต่อไปนั้นไม่ได้ขึ้นอยู่กับพลังการประมวลผลเพียงอย่างเดียว แต่อยู่ที่ประสิทธิภาพของข้อมูลมากกว่า การมุ่งเน้นกำลังเปลี่ยนไปสู่การพัฒนาอัลกอริทึมที่สามารถดึงความรู้เพิ่มเติมจากชุดข้อมูลที่มีอยู่ ซึ่งจะช่วยเพิ่มประโยชน์สูงสุดจากทรัพยากรการประมวลผลที่มีอยู่
นอกจากนี้ สถาปัตยกรรมกำลังพัฒนาจากคลัสเตอร์เดียวไปเป็นการออกแบบหลายคลัสเตอร์ โดยจินตนาการถึงสถานการณ์การฝึกอบรมในอนาคตที่เกี่ยวข้องกับการเรียนรู้ร่วมกันระหว่าง GPU จำนวนมากถึง 10 ล้านเครื่อง การเปลี่ยนแปลงนี้จำเป็นต้องมีการปรับปรุงที่สำคัญในด้านความทนทานต่อข้อผิดพลาด เพื่อให้มั่นใจในความเสถียรและความน่าเชื่อถือของระบบกระจายขนาดใหญ่นี้
การสนทนายังเจาะลึกลงไปในความสัมพันธ์ระหว่าง ‘หางยาว’ ของข้อมูลและกฎการปรับขนาด ข้อดีของการทำงานร่วมกันอย่างใกล้ชิดระหว่างทีมแมชชีนเลิร์นนิงและระบบ (การออกแบบร่วม) สาระสำคัญของการเรียนรู้แบบไม่มีผู้สอน และวัฒนธรรมของการแก้ปัญหาอย่างพิถีพิถัน
ผู้เล่นหลักเบื้องหลัง GPT-4.5
นอกจาก Altman แล้ว สมาชิกทีม OpenAI อีกสามคนที่เข้าร่วมในการสนทนานี้ ได้แก่:
- Alex Paino: รับผิดชอบอัลกอริธึมการเรียนรู้ของเครื่องแบบ Pre-training ของ GPT-4.5
- Amin Tootoonchian: หัวหน้าสถาปนิกของระบบ OpenAI
- Daniel Selsam: วิจัยประสิทธิภาพของข้อมูลและอัลกอริธึม
ต้นกำเนิดและวิวัฒนาการของ GPT-4.5
Sam Altman: ต้องใช้ทรัพยากรแค่ไหนในการสร้างแบบจำลองขนาดใหญ่เท่า GPT-4.5
Alex Paino: เราเริ่มโครงการนี้เมื่อประมาณสองปีที่แล้ว ในเวลานั้น OpenAI กำลังจะเปิดตัวคลัสเตอร์คอมพิวเตอร์ขนาดใหญ่ใหม่ และทีมงานของเราเห็นโอกาสนี้และทำชุดงานเพื่อพิจารณาฟังก์ชันที่แบบจำลองจำเป็นต้องรวมไว้ และดำเนินการทดสอบการลดความเสี่ยงจำนวนมาก
เราได้พัฒนาระยะยาวสำหรับเรื่องนี้ โดยเกี่ยวข้องกับสแต็กเทคโนโลยีทั้งหมด ตั้งแต่ระบบไปจนถึงการเรียนรู้ของเครื่อง การลดความเสี่ยงและการเตรียมพร้อมสำหรับการฝึกอบรมเป็นกระบวนการดำเนินการที่ยาวนาน และการฝึกอบรมเองก็เป็นโครงการขนาดใหญ่เช่นกัน
Amin Tootoonchian: ฉันคิดว่ากระบวนการนี้ต้องอาศัยความร่วมมืออย่างใกล้ชิดระหว่างทีมแมชชีนเลิร์นนิงและทีมระบบตั้งแต่เริ่มต้น จนกว่าเราจะรู้ได้อย่างชัดเจนว่าเราต้องการฝึกอบรมแบบจำลองใด แล้วจึงเริ่มการฝึกอบรม
เราได้ทำการคาดการณ์ในการเรียนรู้ของเครื่องและระบบ โดยพยายามลดช่องว่างระหว่างความคาดหวังและความเป็นจริงให้เหลือน้อยที่สุด อย่างไรก็ตาม เนื่องจากจังหวะการทำงานของเราเร็วมาก และเราต้องใช้ทรัพยากรคอมพิวเตอร์ล่าสุด การฝึกอบรมแบบจำลองจึงกลายเป็นสิ่งที่ยากที่จะวางแผนล่วงหน้าได้อย่างสมบูรณ์แบบ
เราเกือบจะเริ่มต้นการฝึกอบรมด้วยปัญหาที่ยังไม่ได้รับการแก้ไขมากมาย และพยายามเอาชนะความท้าทายและสร้างความคืบหน้าในระหว่างกระบวนการ วิธีแก้ปัญหาหลักคือการเพิ่มทรัพยากรคอมพิวเตอร์มากขึ้น
ขั้นตอนสุดท้ายคือการดำเนินการ ซึ่งต้องใช้คนจำนวนมากในการลงทุนพลังงานและแรงจูงใจเป็นจำนวนมากเป็นเวลานานเพื่อให้กระบวนการฝึกอบรมเสร็จสมบูรณ์
Sam Altman: คุณคิดว่าช่องว่างระหว่างความคาดหวังและความเป็นจริงของเรามีมากแค่ไหน
Amin Tootoonchian: ในแง่ของระบบ ในตอนเริ่มต้น เรามักจะห่างไกลจากสถานะที่คาดหวัง เรามักจะเผชิญกับทางเลือก: ว่าจะเลื่อนการเปิดตัวและรอให้ปัญหาได้รับการแก้ไข หรือเริ่มต้นก่อนกำหนดและแก้ไขปัญหาในกระบวนการ นี่ต้องใช้การแลกเปลี่ยนเสมอเพื่อหลีกเลี่ยงความล่าช้าที่ไม่สมเหตุสมผลในกระบวนการ
แต่แทบจะมีปัญหาที่ไม่คาดฝันเกิดขึ้นเสมอ และสิ่งที่เราต้องทำคือจัดการโหนดเหล่านี้ให้มากที่สุด จัดการกับปัจจัยที่ไม่รู้จัก และกำหนดแผนสำหรับการฝึกอบรมแบบจำลอง
Alex Paino: ในโครงการนี้ เป้าหมายของเราคือการสร้าง GPT-4.5 ซึ่งหมายความว่าความสามารถของมันควรจะฉลาดกว่า GPT-4 ถึง 10 เท่า นี่คือเป้าหมายเริ่มต้นที่เราตั้งไว้เมื่อประมาณ 2 ปีที่แล้ว
มีหลายสิ่งเกิดขึ้นในกระบวนการนี้ เรากำลังคิดว่าเราจะทำได้ดีกว่าหรือแย่กว่าที่คาดไว้หรือไม่ นี่เป็นกระบวนการที่ซับซ้อนมาก แต่ในท้ายที่สุด ในแง่ของการคำนวณที่มีประสิทธิภาพที่เราใส่เข้าไป เราได้รับแบบจำลองที่เราคิดว่าฉลาดกว่า GPT-4 ถึง 10 เท่า
Amin Tootoonchian: ในแง่ของการดำเนินการ เวลาที่ใช้ในโครงการ GPT-4.5 นั้นห่างไกลจากสิ่งที่เราคาดหวังไว้ในตอนแรก
การปฏิวัติทีมงานที่คล่องตัว: การฝึกอบรม GPT-4 ด้วยทรัพยากรขั้นต่ำ
Sam Altman: เมื่อคลัสเตอร์ขยายจาก 10,000 การ์ดเป็น 100,000 การ์ด ทำไมคุณถึงเจอปัญหามากมาย
Amin Tootoonchian: ฉันคิดว่าถ้านักพัฒนาระบบมีความละเอียดอ่อนพอ ปัญหาส่วนใหญ่สามารถสังเกตได้ในขั้นตอนขนาดเล็ก
นอกจากนี้ยังมีปัญหาบางอย่างที่ไม่ซ้ำกับการฝึกอบรมในขนาดใหญ่ แต่ เดิมเกิดขึ้นบ่อยครั้ง แต่จะกลายเป็นปัญหาใหญ่หลังจากเพิ่มขนาด โดยเฉพาะอย่างยิ่งเมื่อทีมไม่ได้คาดการณ์ล่วงหน้าว่าปัญหาเหล่านี้จะเลวร้ายลงถึงขนาดนี้
Sam Altman: อะไรที่ก่อให้เกิดผลร้าย
Amin Tootoonchian: ฉันคิดว่าปัญหาโครงสร้างพื้นฐานเป็นที่ทราบกันดี อัตราความล้มเหลว ประเภทความล้มเหลว และจำนวนความล้มเหลวทั้งหมดสูงมาก คลัสเตอร์ 100,000 การ์ดเป็นกลุ่มตัวอย่างขนาดใหญ่ ดังนั้นเราจึงค้นพบปัญหาที่ผู้ให้บริการด้านพลังการประมวลผลไม่ได้สังเกตเห็น
เครือข่ายเป็นส่วนหนึ่งของมัน และตัวเร่งความเร็วแต่ละตัวก็อาจมีปัญหาได้เช่นกัน แต่นี่ก็เป็นความสวยงามของระบบนี้เช่นกัน - ส่วนประกอบเกือบทั้งหมดต้องทำงานตามที่คาดไว้เพื่อให้ได้ผลลัพธ์ที่คาดหวัง งานของเราคือลดปัญหานี้ให้มากที่สุด
Sam Altman: เป็นเรื่องยากอย่างยิ่งที่จะทำงานที่ขีดจำกัดของขนาดคลัสเตอร์ แต่ฉันก็สังเกตเห็นว่าการทำสิ่งที่ไม่ใช่แนวหน้าของเทคโนโลยีอีกต่อไปนั้นง่ายขึ้นมาก การฝึกอบรม GPT-4.5 ต้องใช้คนหลายร้อยคน และทุกคนใน OpenAI มีส่วนร่วม
แต่วันนี้ ถ้าคุณให้คุณเลือกทีมที่เล็กที่สุดจาก OpenAI และฝึกอบรม GPT-4 จากศูนย์ด้วยความรู้ทั้งหมดที่เรารู้และงานระบบทั้งหมด จะต้องใช้คนกี่คน
Alex Paino: ฉันคิดว่าอาจต้องใช้คนประมาณ 5 ถึง 10 คนในการสร้างแบบจำลองระดับ GPT-4 ในตอนนี้ สแต็กเทคโนโลยีได้รับการปรับปรุงอย่างมากในกระบวนการทำให้ GPT-4.5 เสร็จสมบูรณ์
ในความเป็นจริง เราได้ทำสิ่งที่คล้ายกันในกระบวนการฝึกอบรม GPT-4.5 - เราได้ฝึกอบรม GPT-4o ซึ่งเป็นแบบจำลองระดับ GPT-4 และฝึกอบรมซ้ำโดยใช้เนื้อหาเดียวกันจำนวนมากจากโครงการวิจัย GPT-4.5 ใช้คนน้อยกว่าสำหรับการฝึกอบรมนั้น
ประสิทธิภาพของข้อมูล: กุญแจสำคัญในการปลดล็อกแบบจำลองรุ่นต่อไป
Sam Altman: จากมุมมองของคุณ Dan เพราะอะไรการฝึกอบรมแบบจำลองขนาดใหญ่จึงเป็นเรื่องยาก
Daniel Selsam: ฉันคิดว่ามันยากที่จะทำสิ่งใหม่ ๆ ฉันคิดว่าแม้แต่การค้นพบว่าคนอื่นได้ทำอะไรบางอย่างแล้วก็ทำให้มันง่ายขึ้นมาก เพราะส่วนที่ยากที่สุดคือการมีความเชื่อว่าคุณสามารถทำอะไรบางอย่างได้ตั้งแต่แรก ฉันคิดว่าเพียงแค่รู้ว่ามีบางสิ่งที่เป็นไปได้คือรหัสโกงสุดยอด ทำให้สิ่งต่างๆ ง่ายขึ้นมาก
Alex Paino: เรากำลังขยายการดำเนินการ Pre-training ของ GPT เป็น 10 เท่าของสิ่งที่เป็นอยู่ก่อนหน้านี้ และเราจะพบสิ่งใหม่ ๆ ที่น่าสนใจที่คุณไม่จำเป็นต้องคาดการณ์ได้อย่างแน่นอน
Sam Altman: อะไรจำเป็นเพื่อให้บรรลุการเติบโต 10 เท่าหรือ 100 เท่าต่อไปในการปรับขนาด Pre-training
Daniel Selsam: ประสิทธิภาพของข้อมูล สถาปัตยกรรม Transformer (ซึ่งก็คือ GPT) มีประสิทธิภาพมากในการใช้ข้อมูล มันสามารถดูดซับและบีบอัดข้อมูลได้ดีและบรรลุการทั่วไป คุณสมบัติที่ใหญ่ที่สุดของมันคือมันสามารถดูดซับข้อมูลได้อย่างมีประสิทธิภาพด้วยทรัพยากรคอมพิวเตอร์
อย่างไรก็ตาม ความลึกซึ้งของข้อมูลที่ได้รับจากข้อมูลนั้นมีจำกัด เมื่อพลังการประมวลผลเติบโตอย่างรวดเร็วในขณะที่ข้อมูลเติบโตค่อนข้างช้า ข้อมูลจะกลายเป็นคอขวดในแบบจำลองมาตรฐานนี้ สิ่งนี้ต้องการนวัตกรรมของอัลกอริทึม การพัฒนาวิธีการที่สามารถใช้พลังการประมวลผลมากขึ้นเพื่อเรียนรู้ความรู้เพิ่มเติมจากข้อมูลจำนวนเท่าเดิม
Sam Altman: คุณคิดว่าเราต้องการอะไรอีกบ้างในการรักษาการขยายตัวนอกเหนือจากนี้
Amin Tootoonchian: คำตอบของฉันเกี่ยวกับระบบ ฉันคิดว่างานจำนวนมหาศาลที่ต้องใช้สำหรับ GPT-4.5 โดยพื้นฐานแล้วเป็นผลที่หลีกเลี่ยงไม่ได้ของข้อกำหนดแบบจำลอง เราไม่สามารถฝึกอบรม GPT-4.5 ด้วยสถาปัตยกรรมทางเทคนิคแบบเดียวกับ GPT-4 ได้อย่างแน่นอน
ในแง่ของการจัดการสถานะ เนื่องจากทรัพยากรคอมพิวเตอร์ที่จำเป็นเกินขีดความสามารถในการรองรับของคลัสเตอร์เดียว เราจึงต้องเปลี่ยนไปใช้สถาปัตยกรรมการฝึกอบรมแบบหลายคลัสเตอร์ เพื่อให้บรรลุเป้าหมายนี้ เราต้องรวมเวิร์กโฟลว์ที่แตกต่างกันหลายรายการในเวลาอันสั้น
แม้ว่าสิ่งนี้จะช่วยให้เราบรรลุความก้าวหน้าเป็นระยะ ๆ ได้ เพื่อให้บรรลุประสิทธิภาพในระดับต่อไป เรายังคงต้องแก้ไขปัญหาทางเทคนิคที่ทราบแล้วแต่ถูกระงับไว้ชั่วคราวหลายประการ - ปัญหาเหล่านี้ไม่สามารถหลีกเลี่ยงได้ การแลกเปลี่ยนทางเทคนิคประเภทนี้ทำให้วงจรการพัฒนาของระบบที่สมบูรณ์แบบยาวนานขึ้นอย่างต่อเนื่อง เราทำการแลกเปลี่ยนเชิงกลยุทธ์อยู่เสมอในกระบวนการแสวงหาแผนการดำเนินการที่เหมาะสมที่สุด
จำเป็นต้องชัดเจนว่าระบบเองไม่ใช่เป้าหมายสูงสุด มูลค่าผลลัพธ์ที่แท้จริงคือสิ่งที่ต้องพิจารณาหลัก สำหรับการปรับปรุงประสิทธิภาพ 10 เท่าครั้งต่อไป ฉันคิดว่าการฝ่าฝืนในความทนทานต่อข้อผิดพลาดเป็นสิ่งสำคัญยิ่ง เราจำเป็นต้องสร้างกลไกที่ทนต่อข้อผิดพลาดซึ่งทำงานร่วมกับปริมาณงานอย่างลึกซึ้ง เพื่อลดความวิตกกังวลในการดำเนินการและการบำรุงรักษาอย่างมาก ความซับซ้อนในการดำเนินการและการบำรุงรักษาของระบบขนาดใหญ่พิเศษในปัจจุบันนั้นแตกต่างจากระบบก่อนหน้านี้โดยสิ้นเชิง
Sam Altman: คุณรู้หรือไม่ว่าความล้มเหลวกี่เปอร์เซ็นต์ที่เกิดจากส่วนประกอบบางอย่างในระหว่างการฝึกอบรม GPT-4.5
Amin Tootoonchian: ฉันไม่มีตัวเลขเฉพาะที่จะแบ่งปัน แต่โดยทั่วไปแล้ว การปรับใช้ฮาร์ดแวร์รุ่นใหม่ในตอนเริ่มต้นมักจะเผชิญกับความท้าทายทางเทคนิคมากมายที่ยังไม่เข้าใจอย่างถ่องแท้ เราเลือกที่จะดำเนินการโครงการก่อนที่ปัญหาจะได้รับการชี้แจงอย่างสมบูรณ์ ซึ่งนำไปสู่อัตราความล้มเหลวเริ่มต้นที่สูง
แต่ประสบการณ์แสดงให้เห็นว่าเมื่อระบุและแก้ไขสาเหตุที่แท้จริงแล้ว อัตราความล้มเหลวจะลดลงอย่างมาก ปรากฏการณ์นี้สะท้อนให้เห็นถึงความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับโครงสร้างพื้นฐาน - บางคนเรียกว่าการทำความสะอาดโครงสร้างพื้นฐานหรือการทำความเข้าใจปัญหาพื้นฐานของโครงสร้างพื้นฐาน
ช่วงแรกๆ ของการดำเนินการนั้นมักจะค่อนข้างเจ็บปวด ในขณะที่เรากำลังดำเนินการโครงการ เราก็ค้นพบและแก้ไขโหมดความล้มเหลวใหม่อย่างต่อเนื่อง แต่ในที่สุดอัตราความล้มเหลวจะค่อยๆ ลดลงและเวลาทำงานปกติจะเพิ่มขึ้น
โดยพื้นฐานแล้วนี่คือเรื่องของการแลกเปลี่ยนลำดับความสำคัญ: ในช่วงแรกๆ ของวงจรชีวิตของโครงสร้างพื้นฐาน ความเสี่ยงต่อความล้มเหลวมักจะยากที่จะประมาณได้อย่างแม่นยำ และหากเราแสวงหาอย่างมากซึ่งสถานะที่เหมาะสมที่สุดอย่างมาก (เดิมคือ ‘City Estate’ การออกแบบรัฐในอุดมคติ) อาจนำไปสู่ระบบ ประสิทธิภาพความพร้อมใช้งานเริ่มต้นนั้นแย่มาก
นอกเหนือจาก Compute: นวัตกรรมของอัลกอริทึมและศักยภาพที่ยังไม่ได้ใช้ของข้อมูล
Sam Altman: แม้ว่าแบบจำลองการอนุมานจะเป็นองค์ประกอบสำคัญของสแต็กเทคโนโลยีในอนาคตของเรา แต่ให้เรามุ่งเน้นไปที่ขอบเขตการพัฒนาของแบบจำลอง Pre-training แบบดั้งเดิมชั่วคราว สมมติว่าเรามีพลังการประมวลผล GPU ไม่จำกัด แบนด์วิดท์เครือข่ายไม่จำกัด และแหล่งจ่ายไฟไม่จำกัด แต่ยังคงถูกจำกัดด้วยคอขวดทางเทคนิคที่มีอยู่ - รวมถึงปัญหาระบบที่เชื่อถือได้ การขาดวิธีการฝึกอบรมที่ทนต่อข้อผิดพลาด และข้อจำกัดของชุดข้อมูลที่มีอยู่
ตามกฎวิวัฒนาการของเราในการบรรลุการเพิ่มขนาด 100 เท่าสำหรับแต่ละหมายเลขเวอร์ชัน GPT หลัก ตามขอบเขตทางเทคนิคในปัจจุบัน การพัฒนาแบบจำลอง Pre-training สามารถเข้าถึงระดับใดได้บ้าง โดยเฉพาะอย่างยิ่ง สำหรับแบบจำลองซีรีส์ GPT ตามระบบความรู้ที่มีอยู่ของเรา แบบจำลองประเภทใดที่สามารถฝึกอบรมได้ในทางทฤษฎี เราสามารถสร้าง GPT-5.5 ได้หรือไม่
Alex Paino: จากมุมมองของการเรียนรู้ของเครื่องและการพัฒนาอัลกอริทึม เรายังไม่ถึงขีดจำกัดทางทฤษฎีที่ชัดเจน ในความเป็นจริง เราเพิ่งเริ่มสำรวจอัลกอริทึมที่มีประสิทธิภาพของข้อมูลสูงขึ้นและวิธีใช้ทรัพยากรข้อมูลที่มีอยู่อย่างเต็มที่ สถานการณ์นี้เป็นสิ่งที่น่าสนใจมาก แม้แต่แบบจำลองอย่าง GPT-4 ก็ได้รับการพัฒนาส่วนใหญ่ภายใต้สภาวะทรัพยากรคอมพิวเตอร์ที่จำกัด ซึ่งได้กำหนดทิศทางของการวิจัยส่วนใหญ่ก่อนหน้านี้
แต่สถานการณ์แตกต่างกันอย่างสิ้นเชิงในตอนนี้ ตั้งแต่ GPT-4.5 ในบางมิติที่สำคัญ ข้อมูลมากกว่าการประมวลผลกำลังกลายเป็นข้อจำกัดหลัก การเปลี่ยนแปลงนี้ทำให้การวิจัยที่เกี่ยวข้องไม่น่าตื่นเต้น
Sam Altman: แต่นี่เป็นความก้าวหน้าที่น่าทึ่งอย่างยิ่ง และโลกอาจไม่ตระหนักอย่างเต็มที่ว่าทรัพยากรคอมพิวเตอร์ไม่ใช่คอขวดหลักของแบบจำลองที่ดีที่สุดที่เราสามารถสร้างได้อีกต่อไป การเปลี่ยนแปลงนี้มีความหมายมาก ท้ายที่สุด เราอาศัยอยู่ในสภาพแวดล้อมที่จำกัดการคำนวณมานานเกินไป
การเปิดเผยความประหลาดใจ: ความสามารถในการทำนายเทียบกับความฉลาดที่ไม่คาดฝัน
Sam Altman: ประสบการณ์การเรียนรู้ของเครื่องที่น่าสนใจที่สุดที่เราได้เรียนรู้ในระหว่างการฝึกอบรม GPT-4.5 คืออะไร เพียงแค่บอกสิ่งที่คุณต้องการแบ่งปัน
Amin Tootoonchian: โดยทั่วไปแล้ว สิ่งที่กระตุ้นความคิดมากที่สุดคือสิ่งที่เบี่ยงเบนไปจากการคาดการณ์ของเรา โดยเฉพาะอย่างยิ่งเมื่อเราพยายามทำความเข้าใจว่าทำไมประสิทธิภาพจริงจึงเบี่ยงเบนไปจากเส้นโค้งที่คาดไว้
Alex Paino: หนึ่งในการค้นพบที่น่าประหลาดใจที่สุดสำหรับเราคือส่วนประกอบการเรียนรู้ของเครื่องที่แตกต่างกันมีประสิทธิภาพในการปรับขนาดที่แตกต่างกันมาก บางส่วนสามารถขยายได้ดีมาก ในขณะที่บางส่วนไม่สามารถทำได้ นี่คือสิ่งที่เราตระหนักจริงๆ ในระหว่างกระบวนการฝึกอบรมจริง ประสบการณ์นี้ให้แรงบันดาลใจมากมายแก่เรา
Daniel Selsam: ฉันคิดว่าลักษณะสำคัญสองประการของกระบวนทัศน์ GPT คือ: ประการแรก การสูญเสียการทดสอบ (เมตริกที่วัดว่าแบบจำลองทำงานได้ดีเพียงใดกับข้อมูลการทดสอบที่ไม่เคยเห็นมาก่อน) สามารถคาดการณ์ได้อย่างแม่นยำ ประการที่สอง ประสิทธิภาพของแบบจำลองแสดงให้เห็นถึงการปรับปรุงที่คาดการณ์ได้ด้วยการเพิ่มขนาด สิ่งที่น่าทึ่งยิ่งกว่าคือการลดลงของการสูญเสียการทดสอบจะถูกแปลงเป็นการปรับปรุงระดับความฉลาดที่ได้รับการปรับปรุงอย่างครอบคลุมในรูปแบบต่างๆ ที่ยากต่อการวัดปริมาณแต่ก็น่าทึ่งและลึกลับ
Sam Altman: คุณมองโลกในแง่ดีอย่างแน่นอนเกี่ยวกับเรื่องนี้หรือไม่ คุณเห็นด้วยกับมุมมองนี้อย่างเต็มที่หรือไม่
Daniel Selsam: จริงๆ แล้ว สิ่งที่ฉันต้องการจะพูดคือเราพบปรากฏการณ์ที่น่าสนใจเป็นพิเศษในการทดสอบ GPT-4.5 - หลังจากทำการทดสอบซ้ำ ความสามารถที่ซับซ้อนมากมายที่แบบจำลองแสดงให้เห็นนั้นเกินความคาดหมายของทุกคนอย่างสมบูรณ์
เรามั่นใจว่ามันจะฉลาดขึ้นในรูปแบบต่างๆ ที่ยากต่อการกำหนดล่วงหน้า และการปรับปรุงที่ละเอียดอ่อนเหล่านี้สามารถสังเกตได้จากความพึงพอใจของผู้ใช้หลังจากการใช้งานจริง: ความรู้ความเข้าใจทั่วไปที่แข็งแกร่งขึ้น ความสามารถในการทำความเข้าใจบริบทที่แม่นยำยิ่งขึ้น และการจับใจความหมายที่ละเอียดอ่อนยิ่งขึ้น - นี่คือเวทมนตร์ที่มาพร้อมกับการสูญเสียการทดสอบที่เพิ่มขึ้นเหล่านั้น ในความคิดของฉัน กฎการปรับขนาดได้รับการตรวจสอบอย่างสมบูรณ์แบบในมิตินี้
พลังแห่งการทำงานร่วมกัน: ทีมงานแมชชีนเลิร์นนิงและระบบทำงานอย่างสอดคล้องกัน
Sam Altman: ช่วงเวลาที่บวกที่สุดในระหว่างกระบวนการฝึกอบรมทั้งหมดคืออะไร ความทรงจำที่คุณชื่นชอบคืออะไร เห็นได้ชัดว่ามีความเจ็บปวดมากมาย แต่ฉันหวังว่าความเจ็บปวดนั้นจะบรรเทาลง
Alex Paino: ฉันมีช่วงเวลาแบบนั้น เราทำงานแมชชีนเลิร์นนิงมากมายในระหว่างการฝึกอบรม และฉันคิดว่าการเปลี่ยนแปลงบางอย่างที่เราทำในระหว่างกระบวนการมีผลกระทบที่ดีมาก อาจจะดีกว่าที่คาดไว้ด้วยซ้ำ ซึ่งเป็นช่วงเวลาที่น่าตื่นเต้นมากสำหรับเรา
Amin Tootoonchian: สำหรับฉัน ในเวลาเดียวกับการฝึกอบรม เราก็กำลังสร้างโครงสร้างพื้นฐาน เราเชื่อมั่นว่าเราสามารถข้ามหน้าผาประสิทธิภาพนี้ไปได้ และเรามีแผน และทุกคนกำลังดำเนินการตามแผน แต่ต้องใช้เวลานาน นี่เป็นงานที่ยากและยากกว่าที่ฉันคิดไว้อย่างแน่นอน การคาดการณ์ของฉันผิด และฉันประเมินเวลาที่ใช้ในการแก้ไขปัญหาเหล่านี้ต่ำเกินไป
ช่วงเวลาที่ทีมงานเอาชนะปัญหาสำคัญเหล่านั้นได้ในที่สุดและประสิทธิภาพได้รับการปรับปรุงอย่างมีนัยสำคัญยังคงสดใหม่อยู่ในความทรงจำของฉัน คุณสามารถรู้สึกได้อย่างชัดเจนถึงการเปลี่ยนแปลงของพลังงานในทีมทั้งหมด - ทุกคนก็เต็มไปด้วยพลังและรีบเร่งไปสู่เป้าหมายสุดท้ายด้วยแรงจูงใจใหม่
สิ่งที่น่าทึ่งที่สุดคือเวลาที่คาดว่าจะแล้วเสร็จที่แสดงบนตัวติดตามสถานะของเรายังคงสั้นลงจากสองปีเริ่มต้น และในที่สุดก็ล็อกอยู่ที่โหนดเวลาที่ชัดเจน ความคืบหน้าที่มองเห็นได้นี้ประเมินค่าไม่ได้ต่อการยกระดับขวัญและกำลังใจของทีม ฉันคิดว่านี่คือความสวยงามของมัน
ฉันอยากจะเน้นว่างานแมชชีนเลิร์นนิงไม่เคยหยุดนิ่ง แม้หลังจากเริ่มการฝึกอบรม กระบวนการออกแบบร่วมแมชชีนเลิร์นนิงนี้ก็ยังคงดำเนินต่อไป ทีมงานแมชชีนเลิร์นนิงไม่เพียงแต่ติดตามปัญหาที่ถูกระบุว่าเป็น ‘การประมวลผลในภายหลัง’ เท่านั้น แต่ยังคงปรับปรุงที่ปรับเวลาการฝึกอบรมให้เหมาะสมที่สุดอย่างแท้จริง
สิ่งนี้แสดงให้เห็นถึงจิตวิญญาณของทีมของเราอย่างสมบูรณ์แบบ - ไม่มีขอบเขตการทำงาน ‘กวาดหิมะหน้าประตูบ้านของคุณเอง’ ที่นี่ แต่เป็นการทำงานร่วมกันที่ราบรื่นอย่างแท้จริง ความเหนียวแน่นนี้คือข้อได้เปรียบที่ยิ่งใหญ่ที่สุดของเรา
การวางแผนอย่างพิถีพิถันและการแสวงหาความผิดปกติอย่างไม่ลดละในการ Pre-training ของ GPT-4.5
Daniel Selsam: โลกภายนอกได้พูดคุยกันมากมายเกี่ยวกับความท้าทายและความแม่นยำในการทำนายของการฝึกอบรมนี้เอง แต่ในความเป็นจริง ทั้งหมดนี้สร้างขึ้นจากการวางแผนอย่างพิถีพิถัน คุณสามารถพูดคุยเกี่ยวกับเรื่องนี้ในรายละเอียดเพิ่มเติมได้หรือไม่
Alex Paino: นี่คือแผนที่พิถีพิถันที่สุดที่เราได้ทำมาจนถึงตอนนี้อย่างแน่นอน อย่างที่ฉันบอก เราเริ่มเตรียมการสำหรับโครงการนี้หนึ่งปีก่อนการเปิดตัวการฝึกอบรมอย่างเป็นทางการ ในช่วงเวลานี้ เราได้ดำเนินการทดสอบการควบคุมความเสี่ยงขนาดใหญ่หลายครั้ง
เราให้ความสนใจเป็นพิเศษในการแนะนำการปรับปรุงทั้งหมดทีละน้อย: เริ่มต้นจากการกำหนดค่าพื้นฐานที่มีความน่าเชื่อถือสูง ซึ่งสามารถเข้าใจได้ว่าเป็นสถาปัตยกรรมที่เติบโตเต็มที่คล้ายกับ GPT-4 เราได้เชี่ยวชาญการกำหนดค่านี้อย่างเต็มที่ในระดับแมชชีนเลิร์นนิง จากนั้นจึงวางเลเยอร์คุณสมบัติใหม่เหมือนตัวต่อ
กุญแจสำคัญคือการตรวจสอบความสามารถในการปรับขนาดของการปรับปรุงแต่ละครั้งอย่างเข้มงวดในขนาดที่แตกต่างกัน: ไม่เพียงแต่ดูการปรับปรุงประสิทธิภาพเท่านั้น แต่ยังต้องตรวจสอบให้แน่ใจว่าการปรับปรุงเหล่านี้ยังคงมีประสิทธิภาพเมื่อขนาดของแบบจำลองเพิ่มขึ้น การปรับปรุงหลายอย่างทำงานได้ดีในการทดสอบขนาดเล็ก แต่จะล้มเหลวในการใช้งานขนาดใหญ่
ดังนั้น เราจึงรักษาความระมัดระวังในระดับสูงตลอดกระบวนการและยังคงวนซ้ำและปรับปรุงวิธีการกฎการปรับขนาดของเรา ผ่านการปฏิบัติด้านการควบคุมความเสี่ยงนี้ เราได้สะสมประสบการณ์ที่มีค่ามากมาย ซึ่งจะยังคงนำทางการพัฒนาแบบจำลองซีรีส์ GPT ในอนาคตต่อไป
Amin Tootoonchian: ฉันจำช่วงเวลาที่น่าสนใจเป็นพิเศษที่ฉันคิดถึงมาก คุณรู้ไหมว่าเราเกือบจะหลีกเลี่ยงไม่ได้ที่จะพบข้อผิดพลาดต่างๆ ทุกครั้งที่เราเริ่มงานฝึกอบรม ซึ่งเป็นเรื่องปกติ แต่กุญแจสำคัญคือการทำให้แน่ใจว่าความคืบหน้าไม่ได้ถูกขัดขวาง และเราต้องยืนยันเสมอว่าความคืบหน้าในปัจจุบันอยู่ในเส้นทางที่ถูกต้องจริง ๆ และข้อผิดพลาดเหล่านี้จะมีผลกระทบร้ายแรงต่อสุขภาพของการฝึกอบรมหรือไม่
แม้ว่าในตอนแรกเราจะมั่นใจมากว่ามีข้อบกพร่องที่สำคัญ แต่ด้วยระบบตรวจสอบทั้งหมดที่เราสร้างขึ้น เราก็สามารถแยกแยะสาเหตุที่แท้จริงของปัญหาได้อย่างแม่นยำ: มันเป็นความล้มเหลวของฮาร์ดแวร์หรือไม่ ความล้มเหลวของฮาร์ดแวร์ประเภทใด มันเป็นการเสียหายของข้อมูลหรือไม่ หรือมันเป็นข้อผิดพลาดในแบบจำลองแมชชีนเลิร์นนิงเองหรือไม่ หรือมันเป็นสภาวะการแข่งขันในโค้ด
ในเวลานั้น เรามีพื้นที่สนทนาปัญหาหลายแห่งเปิดพร้อมกัน โดยมีอาการที่หลากหลาย หลังจากแก้ไขข้อผิดพลาดชุดหนึ่ง เราก็ตกอยู่ในภาวะชะงักงัน: ปัญหาที่ยังไม่ได้รับการแก้ไขหลายอย่างถูกกองไว้ข้างหน้าเรา และทุกคนก็กำลังขบคิด - สิ่งเหล่านี้เกิดจากข้อผิดพลาดที่แตกต่างกันหรือไม่ หรือมันเป็นข้อผิดพลาดที่ก่อให้เกิดปัญหา
ต่อมา เราได้จัดการลงคะแนนเสียงและขอให้สมาชิกในทีมลงคะแนนเสียงให้สาเหตุที่น่าจะเป็นไปได้มากที่สุด ผลที่ได้คือตัวเลือกที่มองโลกในแง่น้อยที่สุดเป็นจริง: ปรากฏว่ามีปัญหากับฟังก์ชัน torch.sum อัปสตรีมของ PyTorch การดำเนินการรวมที่เรียบง่าย
ข้อผิดพลาดนี้เป็นสิ่งที่น่าสนใจมาก คุณรู้ว่าเราส่วนใหญ่ใช้เคอร์เนล Triton และเฉพาะในสถานการณ์ที่ไม่สำคัญบางอย่างเท่านั้นที่เราจะกลับไปใช้การดำเนินการ torch ข้อผิดพลาดฟังก์ชัน torch.sum ที่ทริกเกอร์โดยเส้นทางโค้ดเฉพาะของเราเป็นครั้งคราวจะทำให้เกิดการเข้าถึงหน่วยความจำที่ผิดกฎหมายเนื่องจากลักษณะการกระจายข้อมูล - มันทำผิดพลาดเมื่อคำนวณออฟเซ็ตหน่วยความจำ
สิ่งที่น่าทึ่งที่สุดคือเมื่อวิศวกรระบุปัญหาในที่สุดและส่งการแก้ไข ข้อผิดพลาดทั้งหมดที่มีอาการที่แตกต่างกันก็หายไป ทุกคนเปลี่ยนช่อง Slack จาก ‘ทฤษฎีหลายข้อผิดพลาด’ ไปเป็น ‘ทฤษฎีข้อผิดพลาดเดียว’ อย่างตื่นเต้น และฉากนั้นก็มีความสุขมาก
ข้อผิดพลาดนี้ซ่อนอยู่ที่ไหนนานแค่ไหน มันมีอยู่ตั้งแต่ช่วงแรกๆ ของการฝึกอบรมและไม่พบจนกว่าแถบความคืบหน้าจะผ่านไปประมาณ 40% กระบวนการค้นพบก็เต็มไปด้วยละคร: ในเวลานั้น เคอร์เนลที่ซับซ้อนเรียกใช้ลำดับอย่างต่อเนื่อง และการเรียกครั้งที่สองทำให้เกิดการเข้าถึงหน่วยความจำที่ผิดกฎหมาย
แม้ว่าความถี่ในการขัดข้องนี้จะต่ำมาก (เกิดขึ้นเพียงครั้งเดียวทุกๆ สองสามร้อยหรือหลายพันขั้นตอนการฝึกอบรม) แต่ก็ง่ายที่จะถูกละเลยว่าเป็นความล้มเหลวเป็นครั้งคราว แต่หลักการของทีมเราคือ: อย่าปล่อยให้ความผิดปกติใดๆ หลุดรอดไป ส่วนที่ดีที่สุดของเรื่องนี้อยู่ที่ความคงทนในการไม่ยอมแพ้ง่ายๆ
การแสวงหาระบบในอุดมคติ: ขอบฟ้าที่ห่างไกล
Sam Altman: หลังจากเริ่ม Pre-training ของ GPT-4.5 แล้ว คุณต้องทำอะไรอีกบ้าง
Alex Paino: พวกเราทุกคนต้องสังเกตเส้นโค้งการสูญเสียบ่อยๆ นอกจากนี้ เราต้องปรับระบบให้เหมาะสมอย่างต่อเนื่องและปรับปรุงการออกแบบร่วมที่ไม่เสร็จสมบูรณ์ก่อนเริ่มการฝึกอบรม เราตรวจสอบตัวบ่งชี้ทางสถิติต่างๆ อย่างใกล้ชิดในระหว่างกระบวนการฝึกอบรมเพื่อให้แน่ใจว่าไม่มีแนวโน้มที่ผิดปกติที่ไม่คาดฝัน ในขณะเดียวกัน เราสำรวจแผนการปรับปรุงที่เป็นไปได้จากมุมมองของการเรียนรู้ของเครื่อง แม้ว่างานระดับข้อมูลจะลดลงชั่วคราวหลังจากเริ่ม Pre-training แต่ก็ยังมีงานจำนวนมากที่ต้องดำเนินการ
Amin Tootoonchian: ฉันคิดว่าการเรียนรู้ของเครื่องส่วนใหญ่ขึ้นอยู่กับความถูกต้องของการตัดสินใจ หลังจากเริ่ม Pre-training เมื่อเผชิญกับสัญญาณรบกวนจำนวนมาก เราก็เหมือนหมอดูที่ตีความใบชา และเราจำเป็นต้องตัดสินว่าระบบมีสุขภาพดีหรือไม่ นี่คือความรับผิดชอบของเรา
Sam Altman: ในระดับระบบ อะไรที่จำกัดเราจากการฝึกอบรมแบบจำลอง มันคือชิป โปรเซสเซอร์ หน่วยความจำ เครือข่าย หรือพลังงาน
Amin Tootoonchian: ความสวยงามของระบบคือเมื่อทำการออกแบบร่วม ปริมาณงานสามารถปรับให้เข้ากับโครงสร้างพื้นฐานที่คุณสร้างได้ ไม่มีคำกล่าวทั่วไปที่นี่ว่าเครือข่ายเป็นคอขวด หรือแบนด์วิดท์หน่วยความจำเป็นคอขวด และอื่นๆ แม้สำหรับแบบจำลองที่มีข้อกำหนดเดียวกัน เราสามารถเลือกที่จะถ่ายโอนข้อกำหนดด้านทรัพยากร และเราสามารถเลือกที่จะสร้างระบบที่สมดุลมากขึ้น แต่การมีแบนด์วิดท์หน่วยความจำมากขึ้นเป็นประโยชน์เสมอ เป็นเรื่องยากที่จะตอบคำถามนี้โดยไม่มีเงื่อนไขจำกัด
เมื่อออกแบบ GPT-4.5 เราอาจต้องให้ระบบมีคุณสมบัติบางอย่าง ซึ่งจำเป็นต้องสร้างขึ้นภายใต้คำแนะนำของมนุษย์ ดังนั้น การออกแบบร่วมจึงมีความสำคัญมากสำหรับการสร้างสถาปัตยกรรมแบบจำลองและองค์ประกอบทางสถาปัตยกรรม และเชื่อมต่อระบบและด้านการเรียนรู้ของเครื่องในระดับหนึ่ง หากระบบมีคุณสมบัติที่เราไม่ต้องการมีมากนัก สถานการณ์ในอุดมคติของฉันคือทุกอย่างควรจะแยกออกจากกันเพื่อให้แต่ละคนมีพื้นที่สูงสุด
บางครั้งสิ่งต่างๆ เชื่อมต่อกัน และเราต้องตอบสนองความต้องการของโครงสร้างพื้นฐาน หรือสิ่งต่างๆ ควรจะเป็นแบบนี้ ส่วนใหญ่แล้ว เราต้องการระบบที่สมดุลและการสื่อสารที่สมดุล และวิธีการปรับที่ ดีที่สุดที่เรามีคือการออกแบบร่วมทั้งหมดเหล่านี้
Sam Altman: เราอยู่ห่างจากเป้าหมายระบบในอุดมคตินี้มากแค่ไหน
Amin Tootoonchian: ยังห่างไกลจากเป้าหมายนั้น กระบวนการสร้างระบบเป็นแบบนี้เสมอ: ขั้นแรก มีมุมมองที่เป็นอุดมคติว่าสิ่งต่างๆ ควรทำงานอย่างไร จากนั้นจึงปรับความแตกต่างเหล่านั้นให้เข้ากับทรัพยากรที่มีอยู่
ฉันคิดว่าเราไม่ได้ทำเพื่อทฤษฎีสำหรับทฤษฎี แต่เพียงเพื่อหารือว่าเราต้องการให้มันเป็นอะไร ตระหนักถึงมัน และเข้าใกล้สิ่งนั้นให้มากที่สุดเท่าที่จะเป็นไปได้ นี่อาจเป็นส่วนที่น่าตื่นเต้นที่สุดของสาขาระบบ ผู้คนเคยกล่าวว่านี่เป็นการออกแบบระบบที่หรูหรา และในที่สุดประวัติศาสตร์จะบอกเราว่าตัวเลือกนี้ถูกต้องหรือผิด
Sam Altman: หากคุณสามารถได้รับคำตอบสำหรับปัญหาการเรียนรู้ของเครื่องก่อนการฝึกอบรมขนาดใหญ่ครั้งต่อไป คุณอยากรู้มากที่สุดคืออะไร
Alex Paino: ฉันอยากรู้ว่าอัลกอริทึมใดที่เราควรใช้ภายใต้ข้อมูลที่จำกัดและสาขาเฉพาะ แม้ว่านี่จะเป็นคำถามที่กว้าง แต่ก็เป็นคำถามที่สำคัญที่สุดอย่างแท้จริง
Sam Altman: คุณจะทำการ Pre-training แบบซิงโครนัสด้วย GPU 10 ล้านตัวขึ้นไปในอนาคตหรือไม่
Alex Paino: ฉันคิดว่าจะมี แต่ก็อาจไม่ใช่แบบจำลอง Pre-training แบบดั้งเดิม รูปแบบของมันอาจแตกต่างจากเทคโนโลยีที่มีอยู่มาก แต่ก็จะยังคงรักษาแกนหลักของการเรียนรู้แบบไม่มีผู้สอน
Amin Tootoonchian: ฉันชอบโหมดกึ่งซิงโครนัสมากกว่า เนื่อง