Khám Phá Quá Trình Huấn Luyện GPT-4.5 của OpenAI: Nghiên Cứu Sâu Về Những Thách Thức Tính Toán và Đột Phá
Việc phát triển GPT-4.5, một dự án được khởi xướng từ hai năm trước, đại diện cho nỗ lực đầy tham vọng nhất của OpenAI cho đến nay. Công việc đồ sộ này bao gồm sự hợp tác của hàng trăm cá nhân, với Sam Altman, CEO của OpenAI, lưu ý rằng dự án đòi hỏi sự tham gia gần như toàn bộ của tổ chức.
Vượt Qua “Các Vấn Đề Thảm Khốc” Trong Huấn Luyện Quy Mô Lớn
Hành trình tạo ra GPT-4.5 không phải là không có trở ngại. Nhóm đã gặp phải nhiều “vấn đề thảm khốc” trong giai đoạn nghiên cứu và phát triển. Việc sử dụng một cụm gồm 100.000 GPU đã phơi bày những lỗi cơ sở hạ tầng chưa từng thấy trước đây, xác suất thấp nhưng lại rất nghiêm trọng. Để cân bằng giữa tính kịp thời với hiệu suất tối ưu, nhóm hệ thống của OpenAI đã buộc phải áp dụng phương pháp “sửa chữa khi đang tiến hành”. Một lỗi đặc biệt khó nắm bắt đã gây ra lỗi thường xuyên cho cụm, vẫn không bị phát hiện cho đến khi khoảng 40% quá trình đào tạo đã trôi qua.
Bất chấp những thách thức này, dự án GPT-4.5 đã xúc tác sự phát triển của một ngăn xếp công nghệ mạnh mẽ hơn. Ngày nay, một nhóm tinh gọn chỉ từ 5-10 cá nhân có thể sao chép một mô hình lớn tương tự như GPT-4. Mức tăng hiệu suất từ GPT-4 lên GPT-4.5 xấp xỉ gấp mười lần, mang lại “trí thông minh khó định lượng nhưng được nâng cao về mọi mặt”, một kết quả khiến ngay cả nhân viên của OpenAI cũng phải ngạc nhiên.
Chuyển Đổi Trọng Tâm: Từ Sức Mạnh Tính Toán Sang Hiệu Quả Dữ Liệu
OpenAI đã nhận ra rằng việc đạt được bước nhảy vọt gấp mười hoặc hàng trăm lần tiếp theo về hiệu suất không phụ thuộc vào sức mạnh tính toán thô mà là vào hiệu quả dữ liệu - cụ thể là khả năng trích xuất nhiều kiến thức hơn từ cùng một lượng dữ liệu đồng thời khai thác các nguồn lực tính toán lớn hơn.
Kiến trúc cũng đang phát triển từ một cụm đơn lẻ sang một mô hình đa cụm. Các lần lặp đào tạo trong tương lai có thể liên quan đến học tập hợp tác trên tới 10 triệu GPU, đòi hỏi khả năng chịu lỗi cao hơn.
Cuộc Đối Thoại Của Sam Altman Với Nhóm GPT-4.5
Dưới đây là một bản tổng hợp đã chỉnh sửa về cuộc thảo luận giữa Sam Altman và nhóm OpenAI GPT-4.5:
Sam Altman: Cần những gì để xây dựng một mô hình lớn như GPT-4.5?
Alex Paino: Chúng tôi bắt đầu dự án này khoảng hai năm trước. Vào thời điểm đó, OpenAI sắp ra mắt một cụm máy tính lớn mới và nhóm của chúng tôi coi đây là một cơ hội để thực hiện một loạt các hoạt động để xác định các chức năng mà mô hình cần bao gồm và tiến hành một số lượng lớn các thử nghiệm hoạt động giảm thiểu rủi ro.
Chúng tôi đã phát triển một kế hoạch dài cho việc này, liên quan đến toàn bộ ngăn xếp công nghệ từ hệ thống đến máy học. Giảm thiểu rủi ro và chuẩn bị cho đào tạo là một quá trình thực thi dài và bản thân việc đào tạo là một dự án rất lớn.
Amin Tootoonchian: Tôi nghĩ quá trình này đòi hỏi sự hợp tác chặt chẽ giữa nhóm máy học và nhóm hệ thống ngay từ đầu, cho đến khi chúng tôi làm rõ mô hình chúng tôi muốn đào tạo và sau đó bắt đầu đào tạo.
Chúng tôi đã đưa ra các dự đoán trong cả khía cạnh máy học và hệ thống, cố gắng thu hẹp khoảng cách giữa kỳ vọng và thực tế càng nhiều càng tốt. Nhưng vì nhịp điệu làm việc của chúng tôi nhanh và chúng tôi phải sử dụng các tài nguyên tính toán mới nhất, nên việc đào tạo mô hình đã trở thành một việc khó có thể lập kế hoạch hoàn hảo trước.
Chúng tôi gần như luôn bắt đầu đào tạo với nhiều vấn đề chưa được giải quyết và cố gắng vượt qua các thách thức và đạt được tiến bộ trong quá trình hoạt động. Giải pháp chính là thêm nhiều tài nguyên tính toán hơn.
Giai đoạn cuối cùng là thực hiện, đòi hỏi nhiều người phải đầu tư rất nhiều năng lượng và động lực trong một thời gian dài để hoàn thành quá trình đào tạo.
Sam Altman: Bạn nghĩ khoảng cách giữa kỳ vọng và thực tế của chúng ta là bao nhiêu?
Amin Tootoonchian: Về mặt hệ thống, chúng tôi thường ở rất xa trạng thái mong đợi khi bắt đầu. Chúng tôi luôn phải đối mặt với một lựa chọn: có nên hoãn việc bắt đầu và đợi vấn đề được giải quyết hay bắt đầu sớm và giải quyết vấn đề trong quá trình đó. Điều này luôn đòi hỏi sự đánh đổi để tránh những chậm trễ vô lý trong quá trình.
Nhưng hầu như luôn có một số vấn đề bất ngờ và những gì chúng ta phải làm là giải quyết các nút này càng nhiều càng tốt, giải quyết các yếu tố chưa biết và xây dựng một kế hoạch cho việc đào tạo mô hình.
Alex Paino: Trong dự án này, mục tiêu của chúng tôi là tạo ra GPT-4.5, điều đó có nghĩa là khả năng của nó phải thông minh hơn GPT-4 gấp 10 lần. Đây là mục tiêu ban đầu chúng tôi đặt ra khoảng 2 năm trước.
Rất nhiều điều đã xảy ra trong quá trình này. Chúng tôi đã suy nghĩ về việc liệu chúng tôi có thể làm tốt hơn hay sẽ tệ hơn dự kiến không? Đây là một quá trình rất phức tạp, nhưng cuối cùng, về mặt tính toán hiệu quả mà chúng tôi đã đầu tư, chúng tôi đã có được một mô hình mà chúng tôi nghĩ rằng đã đạt được thông minh hơn GPT-4 gấp 10 lần.
Amin Tootoonchian: Về mặt thực hiện, thời gian dành cho dự án GPT-4.5 khác xa so với những gì chúng tôi mong đợi ban đầu.
Sam Altman: Tại sao bạn gặp quá nhiều vấn đề khi cụm mở rộng từ 10.000 thẻ lên 100.000 thẻ?
Amin Tootoonchian: Tôi nghĩ rằng nếu các nhà phát triển hệ thống đủ nhạy bén, hầu hết các vấn đề có thể được quan sát thấy ở giai đoạn quy mô nhỏ.
Một số vấn đề không phải là duy nhất đối với giai đoạn đào tạo quy mô lớn, nhưng thường xảy ra trước đây, nhưng sẽ trở thành vấn đề thảm khốc sau khi quy mô tăng lên, đặc biệt là khi nhóm không lường trước được rằng những vấn đề này sẽ trở nên tồi tệ đến mức nào.
Sam Altman: Những điều gì đã gây ra hậu quả thảm khốc?
Amin Tootoonchian: Tôi nghĩ rằng các vấn đề về cơ sở hạ tầng là rất nổi tiếng, cho dù tỷ lệ lỗi, loại lỗi hay tổng số lỗi đều rất cao. Cụm 100.000 thẻ là một nhóm mẫu quy mô lớn, vì vậy chúng tôi cũng đã phát hiện ra các vấn đề mà nhà cung cấp điện toán không quan sát thấy.
Mạng là một trong số đó và các bộ tăng tốc riêng lẻ cũng có thể gặp vấn đề. Nhưng đây cũng là vẻ đẹp của hệ thống này - gần như tất cả các thành phần cần hoạt động như mong đợi để tạo ra kết quả mong đợi. Công việc của chúng tôi là giảm thiểu vấn đề này càng nhiều càng tốt.
Sam Altman: Thật khó để làm việc ở giới hạn kích thước cụm, nhưng tôi cũng nhận thấy rằng việc thực hiện những việc không còn ở tuyến đầu của công nghệ đã trở nên dễ dàng hơn nhiều. Đào tạo GPT-4.5 đòi hỏi hàng trăm người và OpenAI có gần như tất cả mọi người tham gia.
Nhưng ngày nay, nếu bạn chọn đội ngũ nhỏ nhất từ OpenAI và đào tạo lại GPT-4 từ đầu với tất cả kiến thức và công việc hệ thống mà chúng ta biết, thì sẽ cần bao nhiêu người?
Alex Paino: Tôi nghĩ rằng có thể mất khoảng 5 đến 10 người để tạo ra một mô hình cấp GPT-4 ngay bây giờ. Ngăn xếp công nghệ đã được cải thiện rất nhiều trong quá trình hoàn thành GPT-4.5.
Trên thực tế, chúng tôi đã thực hiện những điều tương tự trong quá trình đào tạo GPT-4.5 - chúng tôi đã đào tạo GPT-4o, là một mô hình cấp GPT-4 và đào tạo lại nó bằng cách sử dụng rất nhiều nội dung tương tự từ dự án nghiên cứu GPT-4.5. Ít người hơn đã được sử dụng cho việc đào tạo đó.
Sam Altman: Theo quan điểm của bạn, Dan? Tại sao việc đào tạo các mô hình lớn lại khó khăn?
Daniel Selsam: Tôi nghĩ rằng thật khó để làm bất cứ điều gì mới. Tôi nghĩ rằng ngay cả việc chỉ phát hiện ra rằng người khác đã làm điều gì đó cũng khiến nó dễ dàng hơn nhiều, bởi vì phần khó nhất là có niềm tin để làm điều gì đó ngay từ đầu. Tôi nghĩ rằng chỉ cần biết rằng điều gì đó là khả thi là một mã gian lận siêu đẳng giúp mọi việc dễ dàng hơn nhiều.
Alex Paino: Chúng tôi đang mở rộng quá trình chạy tiền đào tạo GPT lên gấp 10 lần quy mô trước đó và chúng tôi luôn tìm thấy một số điều mới thú vị mà bạn không nhất thiết có thể dự đoán được.
Sam Altman: Cần những gì để đạt được mức tăng trưởng 10x hoặc 100x tiếp theo về quy mô tiền đào tạo?
Daniel Selsam: Hiệu quả dữ liệu. Kiến trúc Transformer (tức là GPT) rất hiệu quả trong việc sử dụng dữ liệu. Nó có thể hấp thụ và nén thông tin tốt và đạt được khái quát hóa. Tính năng lớn nhất của nó là nó có thể hấp thụ thông tin hiệu quả với tài nguyên tính toán.
Tuy nhiên, chiều sâu hiểu biết mà nó có được từ dữ liệu là có hạn. Khi sức mạnh tính toán tăng nhanh và dữ liệu tăng tương đối chậm, dữ liệu trở thành nút thắt cổ chai cho mô hình tiêu chuẩn này. Điều này đòi hỏi sự đổi mới thuật toán để phát triển các phương pháp có thể sử dụng nhiều sức mạnh tính toán hơn để học hỏi nhiều kiến thức hơn từ cùng một lượng dữ liệu.
Sam Altman: Bạn còn nghĩ chúng ta cần gì để duy trì sự mở rộng?
Amin Tootoonchian: Câu trả lời của tôi là về hệ thống. Tôi nghĩ rằng khối lượng công việc khổng lồ cần thiết cho GPT-4.5 về cơ bản là kết quả tất yếu của các thông số kỹ thuật mô hình. Chúng ta không thể đào tạo GPT-4.5 với kiến trúc kỹ thuật giống hệt GPT-4.
Về mặt quản lý trạng thái, vì các tài nguyên tính toán cần thiết đã vượt quá dung lượng của một cụm duy nhất, chúng ta phải chuyển sang kiến trúc đào tạo đa cụm. Để đạt được mục tiêu này, chúng ta phải tích hợp nhiều quy trình làm việc khác nhau trong một khoảng thời gian ngắn.
Mặc dù điều này thực sự đã giúp chúng tôi đạt được những đột phá giai đoạn, nhưng để đạt được mức cải thiện hiệu suất theo bậc tiếp theo, chúng ta vẫn cần giải quyết một số vấn đề kỹ thuật đã biết nhưng tạm thời gác lại - những vấn đề này không thể tránh khỏi. Chính sự đánh đổi kỹ thuật này liên tục kéo dài chu kỳ R&D của hệ thống hoàn hảo và chúng tôi luôn đưa ra những đánh đổi chiến lược trong quá trình theo đuổi kế hoạch triển khai tối ưu.
Cần phải làm rõ rằng bản thân hệ thống không phải là mục tiêu cuối cùng và giá trị đầu ra thực tế của nó là yếu tố cốt lõi cần xem xét. Đối với mức cải thiện hiệu suất 10x tiếp theo, tôi nghĩ rằng đột phá về khả năng chịu lỗi là rất quan trọng. Chúng ta cần xây dựng một cơ chế chịu lỗi có tính hiệp đồng sâu sắc với khối lượng công việc để giảm đáng kể sự lo lắng về vận hành và bảo trì. Độ phức tạp của vận hành và bảo trì của các hệ thống quy mô cực lớn hiện tại về cơ bản khác với các hệ thống trước đây.
Sam Altman: Bạn có biết tỷ lệ lỗi do một số thành phần nhất định gây ra trong quá trình đào tạo GPT-4.5 là bao nhiêu không?
Amin Tootoonchian: Tôi không có số liệu cụ thể để chia sẻ, nhưng nói chung, trong giai đoạn đầu triển khai phần cứng thế hệ mới, hoạt động hệ thống thường phải đối mặt với nhiều thách thức kỹ thuật chưa được hiểu đầy đủ. Chúng tôi đã chọn thúc đẩy dự án trước khi vấn đề được xác định đầy đủ, điều này dẫn đến tỷ lệ lỗi ban đầu cao.
Nhưng kinh nghiệm đã chỉ ra rằng khi nguyên nhân gốc rễ được xác định và giải quyết, tỷ lệ lỗi sẽ giảm đáng kể. Hiện tượng này về cơ bản phản ánh sự hiểu biết sâu sắc hơn của chúng ta về cơ sở hạ tầng - một số người gọi đó là làm sạch cơ sở hạ tầng hoặc hiểu các vấn đề cơ bản của cơ sở hạ tầng.
Các giai đoạn đầu của quá trình thực hiện gần như luôn khá đau đớn. Trong khi thúc đẩy dự án, chúng ta cũng liên tục khám phá và giải quyết các chế độ lỗi mới, nhưng tỷ lệ lỗi sẽ giảm dần và thời gian hoạt động bình thường sẽ trở nên dài hơn.
Đây về cơ bản là vấn đề đánh đổi ưu tiên: Trong giai đoạn đầu của vòng đời cơ sở hạ tầng, rủi ro lỗi của nó thường khó ước tính chính xác; và nếu chúng ta theo đuổi quá mức trạng thái lý tưởng cuối cùng (bản gốc là “City Estate”, thiết kế thành bang lý tưởng), nó có thể dẫn đến hiệu suất khả dụng của hệ thống trong giai đoạn đầu cực kỳ kém.
Sam Altman: Mặc dù mô hình suy luận là một thành phần quan trọng trong ngăn xếp công nghệ tương lai của chúng ta, nhưng hãy tạm thời tập trung vào ranh giới phát triển của mô hình tiền đào tạo truyền thống. Giả sử chúng ta có sức mạnh tính toán GPU không giới hạn, băng thông mạng không giới hạn và nguồn cung cấp điện không giới hạn, nhưng vẫn bị giới hạn bởi các nút thắt cổ chai kỹ thuật hiện có — bao gồm các vấn đề về độ tin cậy của hệ thống, việc thiếu các phương pháp đào tạo chịu lỗi và các hạn chế của bộ dữ liệu hiện có.
Theo quy luật tiến hóa của chúng ta về việc đạt được mức tăng quy mô 100 lần trong mỗi số phiên bản GPT chính, dựa trên các ranh giới kỹ thuật hiện tại, mức độ phát triển của mô hình tiền đào tạo có thể đạt đến mức nào? Cụ thể đối với các mô hình dòng GPT, với hệ thống kiến thức hiện có của chúng ta, chúng ta có thể đào tạo về mặt lý thuyết loại mô hình nào? GPT-5.5 có thể được tạo ra không?
Alex Paino: Từ góc độ máy học và phát triển thuật toán, chúng ta vẫn chưa đạt đến giới hạn trên lý thuyết rõ ràng. Trên thực tế, chúng ta chỉ mới bắt đầu khám phá các thuật toán có hiệu quả dữ liệu cao hơn và cách sử dụng đầy đủ hơn các tài nguyên dữ liệu hiện có. Tình huống này rất thú vị — ngay cả các mô hình như GPT-4 phần lớn được phát triển dưới sự ràng buộc của các tài nguyên tính toán hạn chế, điều này cũng quyết định hướng của hầu hết các nghiên cứu trước đây.
Nhưng tình hình hoàn toàn khác bây giờ. Kể từ GPT-4.5, ở một số khía cạnh chính, dữ liệu chứ không phải điện toán đang trở thành ràng buộc chính. Sự thay đổi này khiến các nghiên cứu liên quan bớt thú vị hơn.
Sam Altman: Nhưng đây thực sự là một tiến bộ đáng kinh ngạc và thế giới có thể không nhận ra đầy đủ rằng tài nguyên tính toán không còn là nút thắt cổ chai chính trong mô hình tốt nhất mà chúng ta có thể xây dựng. Sự thay đổi này rất sâu sắc, xét cho cùng, chúng ta đã sống trong một môi trường bị hạn chế về điện toán quá lâu.
Sam Altman: Kinh nghiệm máy học thú vị nhất mà chúng ta đã học được trong quá trình đào tạo GPT-4.5 là gì? Chỉ cần nói về những gì bạn muốn chia sẻ.
Amin Tootoonchian: Nói chung, những điều đáng suy ngẫm nhất là những tình huống khác với dự đoán của chúng ta — đặc biệt là khi chúng ta cố gắng hiểu tại sao hiệu suất thực tế lại khác với đường cong dự kiến.
Alex Paino: Một trong những phát hiện đáng ngạc nhiên nhất đối với chúng tôi là hiệu suất khả năng mở rộng của các thành phần máy học khác nhau rất khác nhau. Một số bộ phận có thể được mở rộng tốt, trong khi những bộ phận khác thì không thể. Đây là điều mà chúng tôi thực sự nhận ra trong quá trình đào tạo thực tế. Kinh nghiệm này đã cho chúng tôi rất nhiều cảm hứng.
Daniel Selsam: Tôi nghĩ rằng hai tính năng cốt lõi của mô hình GPT là: thứ nhất, tổn thất kiểm tra (một số liệu để đo lường mô hình hoạt động tốt như thế nào trên dữ liệu kiểm tra chưa từng thấy) có thể được dự đoán chính xác; thứ hai, hiệu suất mô hình cho thấy sự cải thiện có thể dự đoán được khi mở rộng quy mô. Kỳ diệu hơn, việc giảm tổn thất kiểm tra sẽ chuyển thành một mức độ thông minh nâng cao toàn diện theo nhiều cách khó định lượng nhưng đáng kinh ngạc.
Sam Altman: Bạn có hoàn toàn lạc quan về điều này không? Bạn có hoàn toàn đồng ý với quan điểm này không?
Daniel Selsam: Trên thực tế, điều tôi muốn nói là chúng tôi đã tìm thấy những hiện tượng đặc biệt thú vị trong bài kiểm tra GPT-4.5 — sau khi kiểm tra lại, mô hình đã cho thấy nhiều khả năng tinh tế hoàn toàn vượt quá mong đợi của mọi người.
Chúng tôi chắc chắn rằng nó sẽ trở nên thông minh hơn theo nhiều cách không thể xác định trước và sau khi triển khai thực tế, chúng ta có thể quan sát những mức độ cải thiện tinh tế này từ sự hài lòng của người dùng: dự trữ kiến thức chung mạnh mẽ hơn, khả năng hiểu ngữ cảnh chính xác hơn và khả năng nắm bắt ngữ nghĩa tinh tế hơn — đây chính xác là sự kỳ diệu do những tổn thất kiểm tra bổ sung đó mang lại. Theo tôi, Luật tỷ lệ đã được xác minh hoàn hảo theo chiều này.
Sam Altman: Khoảnh khắc tích cực nhất trong toàn bộ quá trình đào tạo là gì? Kỷ niệm yêu thích của bạn là gì? Rõ ràng là có rất nhiều đau đớn, nhưng tôi hy vọng những nỗi đau đó đã được xoa dịu.
Alex Paino: Tôi có một khoảnh khắc như vậy. Chúng tôi đã thực hiện rất nhiều công việc máy học trong quá trình đào tạo. Tôi nghĩ rằng một số thay đổi mà chúng tôi đã thực hiện trong quá trình hoạt động đã có tác động khá tốt, có thể tốt hơn mong đợi, đó là một khoảnh khắc rất thú vị đối với chúng tôi.
Amin Tootoonchian: Đối với tôi, đồng thời với việc đào tạo, chúng tôi cũng đang xây dựng cơ sở hạ tầng. Chúng tôi tin chắc rằng chúng ta có thể vượt qua vách đá hiệu suất này và chúng ta có một kế hoạch và mọi người đều đang thực hiện nó, nhưng phải mất một thời gian dài. Đây là công việc khó khăn và chắc chắn khó khăn hơn tôi nghĩ. Dự đoán của tôi là sai và tôi đã đánh giá thấp thời gian cần thiết để giải quyết những vấn đề này.
Khoảnh khắc khi đội ngũ cuối cùng đã vượt qua những vấn đề chính đó và hiệu suất được cải thiện đáng kể vẫn còn mới mẻ trong ký ức của tôi. Bạn có thể cảm nhận rõ ràng sự chuyển đổi năng lượng của toàn bộ đội ngũ - mọi người đột nhiên tràn đầy năng lượng và lao về phía mục tiêu cuối cùng với động lực mới.
Điều kỳ diệu nhất là thời gian hoàn thành ước tính hiển thị trên trình theo dõi trạng thái của chúng ta tiếp tục rút ngắn từ hai năm ban đầu và cuối cùng được khóa vào một nút thời gian rõ ràng. Tiến độ hữu hình này có một sự thúc đẩy không thể đo lường được đối với tinh thần của đội ngũ. Tôi nghĩ đây là vẻ đẹp của nó.
Tôi muốn nhấn mạnh rằng công việc máy học chưa bao giờ dừng lại. Ngay cả sau khi quá trình đào tạo bắt đầu, quá trình đồng thiết kế máy học này vẫn tiếp tục. Đội ngũ máy học không chỉ tích cực theo dõi những vấn đề được đánh dấu là “xử lý tiếp theo” mà còn tiếp tục cung cấp những cải tiến thực sự tối ưu hóa thời gian đào tạo.
Điều này phản ánh hoàn hảo tinh thần đội ngũ của chúng tôi — không có ranh giới công việc “mỗi người quét tuyết trước cửa nhà mình” ở đây, mà là một sự hợp tác thực sự liền mạch và sự gắn kết này là sức mạnh lớn nhất của chúng ta.
Sam Altman: Thế giới bên ngoài đã thảo luận rất nhiều về những thách thức và độ chính xác dự đoán của bản thân quá trình đào tạo này. Nhưng trên thực tế, tất cả điều này đều dựa trên kế hoạch cực kỳ kỹ lưỡng — bạn có thể nói thêm về điều này một cách chi tiết không?
Alex Paino: Đây chắc chắn là kế hoạch kỹ lưỡng nhất của chúng tôi cho đến nay. Như tôi đã nói, chúng tôi đã bắt đầu chuẩn bị cho dự án này một năm trước khi bắt đầu đào tạo chính thức. Trong giai đoạn này, chúng tôi đã tiến hành nhiều thử nghiệm kiểm soát rủi ro quy mô lớn.
Chúng tôi đặc biệt chú ý đến việc giới thiệu dần tất cả các cải tiến: bắt đầu từ cấu hình cơ bản có độ tin cậy cao — có thể hiểu là một kiến trúc trưởng thành tương tự như GPT-4, chúng tôi đã làm chủ hoàn toàn cấu hình này ở cấp độ máy học — và sau đó thêm các tính năng mới theo từng lớp như các khối xây dựng.
Điều quan trọng là phải xác minh nghiêm ngặt khả năng mở rộng của từng cải tiến ở các quy mô khác nhau: không chỉ để xem những cải thiện về hiệu suất mà còn để đảm bảo rằng những cải tiến này tiếp tục có hiệu quả khi quy mô mô hình mở rộng. Nhiều cải tiến hoạt động tốt trong các thử nghiệm quy mô nhỏ, nhưng sẽ thất bại trong các ứng dụng quy mô lớn.
Do đó, chúng tôi đã duy trì mức độ cảnh giác cao trong toàn bộ quá trình và tiếp tục lặp lại và cải thiện phương pháp luận về luật mở rộng của chúng tôi. Thông qua thực hành kiểm soát rủi ro này, chúng tôi đã tích lũy được rất nhiều kinh nghiệm quý giá sẽ tiếp tục hướng dẫn sự phát triển của các mô hình dòng GPT trong tương lai.
Amin Tootoonchian: Tôi nhớ một khoảnh khắc đặc biệt thú vị mà tôi rất nhớ. Bạn biết đấy, chúng tôi gần như luôn gặp phải nhiều lỗi khác nhau mỗi khi bắt đầu một nhiệm vụ đào tạo. Đây đã là chuyện thường ngày. Nhưng điều quan trọng là phải đảm bảo rằng tiến trình không bị chặn và luôn xác nhận rằng tiến trình hiện tại thực sự đang đi đúng hướng và liệu những lỗi này có tác động gây tử vong đến sức khỏe của quá trình đào tạo hay không.
Mặc dù ban đầu chúng tôi rất tự tin rằng có những khiếm khuyết lớn, nhưng thông qua toàn bộ hệ thống giám sát mà chúng tôi đã xây dựng, chúng tôi đã có thể phân biệt chính xác nguyên nhân gốc rễ của vấn đề: Có phải là lỗi phần cứng không? Loại lỗi phần cứng nào? Có phải là hỏng dữ liệu không? Hay đó là một lỗi trong chính mô hình máy học? Hay đó là một tình trạng tranh chấp trong mã?
Vào thời điểm đó, chúng tôi đã mở nhiều khu vực thảo luận về vấn đề cùng một lúc, với nhiều triệu chứng khác nhau. Sau một loạt các bản sửa lỗi, chúng tôi đã bị mắc kẹt: có nhiều vấn đề chưa được giải quyết trước mặt chúng tôi và mọi người đều đang vắt óc — những vấn đề này có phải do các lỗi khác nhau gây ra không? Hay đó là một lỗi đang hoạt động?
Sau đó, chúng tôi đã tổ chức một cuộc bỏ phiếu để các thành viên trong đội bỏ phiếu cho nguyên nhân gốc rễ có khả năng xảy ra nhất. Lựa chọn ít hứa hẹn nhất đã đánh trúng sự thật: hóa ra có một vấn đề với hàm torch.sum ở thượng nguồn của PyTorch, một thao tác tổng đơn giản.
Lỗi này đặc biệt thú vị. Bạn biết đấy, chúng tôi chủ yếu sử dụng hạt nhân Triton và chúng tôi sẽ chỉ quay lại các thao tác torch trong một số tình huống biên không quan trọng. Và lỗi hàm torch.sum được kích hoạt bởi đường dẫn mã cụ thể của chúng ta sẽ vô tình gây ra truy cập bộ nhớ bất hợp pháp do các đặc điểm phân phối dữ liệu — nó đã mắc lỗi khi tính toán độ lệch bộ nhớ.
Điều kịch tính nhất là khi một kỹ sư cuối cùng xác định được vấn đề và gửi bản sửa lỗi, tất cả các báo cáo lỗi có các triệu chứng khác nhau đều biến mất. Mọi người đã hào hứng thay đổi kênh Slack từ “lý thuyết đa lỗi” thành “lý thuyết một lỗi” và khung cảnh rất vui vẻ.
Lỗi này đã ẩn nấp bao lâu? Nó đã tồn tại từ những giai đoạn đầu của quá trình đào tạo và không được xác định cho đến khi thanh tiến trình vượt qua khoảng 40%. Quá trình khám phá cũng đầy kịch tính: vào thời điểm đó, một hạt nhân phức tạp đã gọi tuần tự các chuỗi và cuộc gọi thứ hai đã kích hoạt truy cập bộ nhớ bất hợp pháp.
Mặc dù tần suất sự cố này cực kỳ thấp (nó chỉ xảy ra một lần sau vài trăm hoặc thậm chí hàng nghìn bước đào tạo), nhưng rất dễ bị bỏ qua như một lỗi thỉnh thoảng, nhưng hướng dẫn của đội ngũ chúng tôi là: không bao giờ bỏ qua bất kỳ sự bất thường nào. Phần hay nhất của câu chuyện này nằm ở sự kiên trì không dễ dàng bỏ cuộc này.
Sam Altman: Bạn còn cần phải làm gì sau khi quá trình tiền đào tạo GPT-4.5 được bắt đầu?
Alex Paino: Tất cả chúng ta cần quan sát đường cong mất mát thường xuyên. Ngoài ra, chúng ta cần tiếp tục tối ưu hóa hệ thống và cải thiện sự đồng thiết kế chưa hoàn thành trước khi quá trình đào tạo được bắt đầu. Chúng tôi theo dõi chặt chẽ các số liệu thống kê khác nhau trong quá trình đào tạo để đảm bảo rằng không có xu hướng bất ngờ nào xảy ra. Đồng thời, chúng tôi khám phá các kế hoạch cải tiến có thể từ góc độ máy học. Mặc dù công việc cấp dữ liệu sẽ tạm thời giảm sau khi quá trình tiền đào tạo được bắt đầu, nhưng vẫn còn rất nhiều nhiệm vụ cần được xử lý.
Amin Tootoonchian: Tôi nghĩ rằng máy học phần lớn phụ thuộc vào phán đoán đúng đắn. Sau khi quá trình tiền đào tạo được bắt đầu, đối mặt với một lượng lớn tín hiệu nhiễu, chúng ta giống như những người xem bói giải thích cặn trà và chúng ta cần phán đoán xem hệ thống có khỏe mạnh hay không. Đây là trách nhiệm của chúng ta.
Sam Altman: Ở cấp độ hệ thống, điều gì sẽ giới hạn chúng ta trong việc tiến hành đào tạo mô hình? Có phải là chip, bộ xử lý, bộ nhớ, mạng hay nguồn cung cấp điện không?
Amin Tootoonchian: Vẻ đẹp của hệ thống là, khi thực hiện thiết kế cộng tác, khối lượng công việc có thể thích ứng với cơ sở hạ tầng mà bạn xây dựng. Không có câu nói chung nào rằng mạng là nút thắt cổ chai, hoặc băng thông bộ nhớ là nút thắt cổ chai, v.v. Ngay cả đối với các mô hình có cùng thông số kỹ thuật, chúng ta có thể chọn chuyển yêu cầu tài nguyên. Chúng ta có thể chọn tạo ra một hệ thống cân bằng hơn, nhưng có nhiều băng thông bộ nhớ hơn luôn có lợi. Rất khó để trả lời câu hỏi này mà không có các điều kiện hạn chế.
Khi thiết kế GPT-4.5, chúng ta có thể cần có một thuộc tính nhất định trong hệ thống, thuộc tính này cần được tạo ra thông qua sự hướng dẫn của con người. Do đó, thiết kế cộng tác là rất quan trọng để hình thành kiến trúc mô hình và các yếu tố kiến trúc, và ở một mức độ nhất định kết nối các khía cạnh hệ thống và máy học. Nếu hệ thống có một thuộc tính mà chúng ta không muốn có nhiều. Tình huống lý tưởng của tôi là mọi thứ nên được tách rời để cung cấp cho nhau không gian lớn nhất.
Đôi khi mọi thứ được kết nối với nhau và chúng ta cần đáp ứng các yêu cầu của cơ sở hạ tầng, hoặc mọi thứ nên như thế này. Hầu hết thời gian, chúng ta cần một hệ thống cân bằng, một giao tiếp cân bằng. Và phương tiện điều tiết tốt nhất mà chúng ta có là tất cả các thiết kế cộng tác này.
Sam Altman: Chúng ta còn cách xa mục tiêu hệ thống lý tưởng đó bao xa?
Amin Tootoonchian: Chúng ta còn cách xa mục tiêu đó. Quá trình xây dựng một hệ thống luôn như thế này: đầu tiên có một quan điểm lý tưởng về cách mọi thứ nên hoạt động và sau đó những khác biệt đó được dung hòa với các tài nguyên hiện có.
Tôi không nghĩ chúng ta đang làm điều đó vì lý thuyết vì lợi ích của lý thuyết, mà chỉ để thảo luận về những gì chúng ta muốn nó trở thành, để nhận ra nó và để đến gần lý tưởng đó nhất có thể. Đây có thể là phần thú vị nhất của lĩnh vực hệ thống. Mọi người đã từng nói rằng đây là một thiết kế hệ thống trang nhã và cuối cùng lịch sử sẽ cho chúng ta biết liệu lựa chọn này có đúng hay không.
Sam Altman: Nếu bạn có thể nhận được câu trả lời cho một câu hỏi máy học trước quá trình đào tạo lớn tiếp theo, bạn muốn biết điều gì nhất?
Alex Paino: Tôi muốn biết chúng ta nên sử dụng thuật toán nào trong điều kiện dữ liệu hạn chế và các lĩnh vực cụ thể. Mặc dù đây là một câu hỏi rộng, nhưng nó thực sự là quan trọng nhất.
Sam Altman: Bạn sẽ tiến hành tiền đào tạo đồng bộ với 10 triệu GPU trở lên trong tương lai chứ?
Alex Paino: Tôi nghĩ là sẽ có, nhưng nó có thể không phải là mô hình tiền đào tạo truyền thống. Hình thức của nó có thể rất khác so với các công nghệ hiện có, nhưng nó vẫn sẽ giữ lại cốt lõi của học tập không giám sát.
Amin Tootoonchian: Tôi thích một mô hình bán đồng bộ hơn. Do các định luật vật lý, sự đồng bộ hoàn toàn không thực tế lắm.
Daniel Selsam: Tôi nghĩ rằng nó có nhiều khả năng bị phân cấp hơn. Chắc chắn sẽ có 10 triệu GPU làm việc cùng nhau trong một hệ thống AI học hỏi và thực hiện các nhiệm vụ, nhưng giống như các bộ phận khác nhau của não, chúng có thể không nhất thiết phải giao tiếp với nhau.
Sam Altman: Sự khác biệt giữa các thuật toán tiên tiến nhất hiện tại và hiệu quả dữ liệu của con người là bao nhiêu? Có thể bắt kịp trong tương lai không?
Daniel Selsam: Rất khó để so sánh trực tiếp hai điều này. Khoảng cách trong học ngôn ngữ chắc chắn là rất lớn. Điều quan trọng nằm ở cách xác định lượng thông tin mà dây thần kinh thị giác của con người nhận được. Tôi nghĩ rằng hiệu quả dữ liệu tổng thể của các thuật toán thấp hơn nhiều so với của con người.
Trong nhiều thập kỷ, học sâu đã tập trung vào hiệu quả tính toán. Ngoài sự tăng trưởng của dữ liệu và sức mạnh tính toán, điều thực sự đáng ngạc nhiên là hiệu ứng chồng chéo được tạo ra bởi những cải tiến thuật toán. Mỗi khi hiệu suất thuật toán được cải thiện 10% hoặc 20%, nó sẽ có một hiệu ứng đáng kể khi được xếp chồng lên hiệu quả dữ liệu. Cho đến nay, không có sự huy động nào như vậy xung quanh hiệu quả dữ liệu, bởi vì nó không đáng giá khi dữ liệu không được luân chuyển và sức mạnh tính toán bị hạn chế.
Bây giờ, chúng ta đang bước vào một giai đoạn nghiên cứu AI mới và chúng ta sẽ bắt đầu tích lũy những chiến thắng về hiệu quả dữ liệu. Tôi nghĩ rằng có một chút ngớ ngẩn khi dự đoán ngay bây giờ rằng chúng ta sẽ gặp phải những trở ngại không thể vượt qua. Cách thức hoạt động của não người chắc chắn khác với những cải tiến thuật toán của chúng ta và chúng ta nên thận trọng về vấn đề này. Nhưng tôi nghĩ chúng ta nên lạc quan về sự phát triển trong tương lai của các thuật toán.
Sam Altman: Mối tương quan giữa tiền đào tạo quy mô lớn hơn và khả năng học tập và suy luận mạnh mẽ hơn của mô hình là gì?
Alex Paino: Những gì chúng ta đã quan sát thấy là tiền đào tạo và học tập không giám sát tốt hơn có xu hướng cải thiện trí thông minh tổng thể của mô hình và giúp rất nhiều trong việc khái quát hóa, điều này bổ sung cho khả năng suy luận, trong khi suy luận có thể hơi nhàm chán trong việc cải thiện trí thông minh. Tôi nghĩ chúng bổ sung cho nhau.
Sam Altman: Tiền đào tạo dường như là phổ biến trong nhiều thứ, trong khi đào tạo một mô hình chỉ có thể làm cho nó hoạt động tốt trong một loại thứ, phải không?
Alex Paino: Điều này rất thú vị, nhưng khi bạn thấy dữ liệu đào tạo chúng, bạn sẽ không ngạc nhiên trước tình huống này. Phạm vi bộ dữ liệu tiền đào tạo rất lớn và những gì chúng ta theo đuổi là bề rộng và sự đa dạng. Khi nói đến việc tăng cường học tập mô hình và làm cho nó rõ ràng là có được các tín hiệu phần thưởng tốt và một môi trường đào tạo tốt, tôi nghĩ rằng rất khó để tính đến bề rộng của bộ dữ liệu.
Daniel Selsam: Tôi đồng ý, nhưng tôi nghĩ rằng có một yếu tố khác. Tiền đào tạo về cơ bản là nén dữ liệu, do đó khám phá các kết nối giữa những thứ khác nhau. Đó là về phép loại suy và trừu tượng hơn. Suy luận là một kỹ năng đòi hỏi phải suy nghĩ cẩn thận về một vấn đề cụ thể và cũng có thể có được các giải pháp cho nhiều loại vấn đề. Nhưng trong quá trình tiền đào tạo, kiến thức trừu tượng hơn có thể được học khi nén dữ liệu trên các lĩnh vực khác nhau.
Sam Altman: Tại sao học tập không giám sát lại hiệu quả?
Daniel Selsam: Điều quan trọng là nén. Hình thức lý tưởng của trí thông minh là cảm ứng Solomonov. Nói chung, máy học sẽ xem xét tất cả các khả năng, nhưng có xu hướng bắt đầu với các chương trình đơn giản hơn để thử nghiệm.
Bản chất của tiền đào tạo hiện tại là một quá trình nén, đạt được biểu thức gần đúng bằng cách tìm chương trình đơn giản nhất để giải thích tất cả dữ liệu mà con người đã tạo ra cho đến nay.
Sam Altman: Dự đoán Token tiếp theo giúp đạt được nén như thế nào?
Daniel Selsam: Có một nghịch lý trong thống kê — tại sao các mạng sâu dường như không thể nén nhưng có thể đạt được khái quát hóa? Thông thường, khi bạn có nhiều dữ liệu và một số mô hình nhỏ, các mô hình này phải trải qua quá trình nén để học được điều gì đó.
Trong tiền đào tạo, quy mô của cả dữ liệu và mô hình đều rất lớn. Một số người nghĩ rằng đào tạo này chỉ là bộ nhớ và học nội suy. Trên thực tế, họ bỏ qua một góc nhìn khác về sự hiểu biết về nén — nén tiền tuần tự. Nó giống như một máy nén. Ngay cả khi trọng lượng dữ liệu rất lớn, nhị phân không cần phải lưu trữ thông tin này. Kết quả của dự đoán Token tiếp theo có thể nhanh chóng truy xuất thông tin hữu ích và cải thiện hiệu quả nén.
Sam Altman: Quá trình đào tạo GPT-4.5 tốn rất nhiều nhân lực, thời gian và tiền bạc, điều này thực sự có thể được coi là một thử nghiệm để xác minh Luật tỷ lệ và kết quả chứng minh rằng nó có hiệu quả và sẽ tiếp tục trong một thời gian dài. Tại sao Luật tỷ lệ có thể được gọi là luật của vũ trụ?