Giải mã GPT-4.5: 100.000 GPU và 'vấn đề lớn' | vi

OpenAI gần đây đã chia sẻ chi tiết về quá trình phát triển mô hình GPT-4.5 đầy tham vọng của mình. Tiết lộ này diễn ra hơn một tháng sau khi mô hình được phát hành, trong một cuộc trò chuyện thẳng thắn kéo dài 45 phút với sự tham gia của đồng sáng lập và CEO của OpenAI, Sam Altman, cùng với ba nhân vật kỹ thuật chủ chốt từ dự án GPT-4.5. Cuộc thảo luận đã tiết lộ một loạt các thách thức chưa từng được biết đến trước đây, bao gồm việc vượt quá thời gian biểu đáng kể, các lỗi thường xuyên trong cụm tính toán và các con đường không thể đoán trước để nâng cao hiệu suất.

Nguồn gốc của GPT-4.5: Một hành trình hai năm

Sáng kiến GPT-4.5, được hình thành hai năm trước khi ra mắt, thể hiện nỗ lực được lên kế hoạch tỉ mỉ nhất của OpenAI cho đến nay. Nó đòi hỏi nỗ lực phối hợp của hàng trăm cá nhân, với Altman lưu ý rằng dự án đã thu hút ‘hầu như mọi người’ tại OpenAI. Sự tham gia rộng rãi này nhấn mạnh tầm quan trọng chiến lược của GPT-4.5 trong sứ mệnh rộng lớn hơn của tổ chức.

Trong giai đoạn phát triển, nhóm OpenAI đã gặp phải những gì họ gọi là ‘các vấn đề thảm khốc’. Việc triển khai một cụm 100.000 GPU đã bộc lộ các lỗ hổng cơ sở hạ tầng tiềm ẩn, biểu hiện dưới dạng các lỗi không thường xuyên nhưng sâu sắc. Để đạt được sự cân bằng giữa tính kịp thời và hiệu suất tối ưu, các kỹ sư hệ thống đã áp dụng một phương pháp lặp đi lặp lại, về cơ bản là ‘xây dựng và sửa chữa’ đồng thời. Một lỗi đặc biệt khó nắm bắt đã gây ra cho cụm các lỗi tái phát, vẫn không bị phát hiện cho đến khi quá trình đào tạo đạt khoảng 40%.

Trớ trêu thay, những thử thách này đã góp phần củng cố nền tảng kỹ thuật của OpenAI. Các kiến thức chuyên môn thu được hiện cho phép một nhóm tinh gọn chỉ 5-10 cá nhân sao chép một mô hình có quy mô GPT-4. Bước nhảy vọt về hiệu suất từ GPT-4 lên GPT-4.5, ước tính khoảng gấp mười lần, được đặc trưng bởi ‘trí thông minh được tăng cường toàn diện nhưng khó định lượng’, gây ngạc nhiên ngay cả những người trong OpenAI. Bước nhảy vọt định tính này cho thấy những tiến bộ vượt xa khả năng mở rộng đơn thuần, chỉ ra những cải tiến cơ bản trong khả năng lý luận và hiểu biết của mô hình.

Nhìn về phía trước, OpenAI nhận ra rằng việc đạt được thứ tự độ lớn tiếp theo về hiệu suất sẽ không chỉ phụ thuộc vào sức mạnh tính toán mà còn phụ thuộc vào hiệu quả dữ liệu. Trọng tâm đang chuyển sang phát triển các thuật toán có thể trích xuất nhiều kiến thức hơn từ các bộ dữ liệu hiện có, do đó tối đa hóa tiện ích của tài nguyên tính toán có sẵn.

Hơn nữa, kiến trúc đang phát triển từ một cụm duy nhất sang một thiết kế đa cụm, hình dung các kịch bản đào tạo trong tương lai liên quan đến học tập hợp tác trên tới 10 triệu GPU. Sự chuyển đổi này đòi hỏi những cải tiến đáng kể về khả năng chịu lỗi để đảm bảo tính ổn định và độ tin cậy của các hệ thống phân tán quy mô lớn như vậy.

Cuộc trò chuyện cũng đi sâu vào mối quan hệ giữa ‘đuôi dài’ của dữ liệu và luật mở rộng, lợi thế của sự hợp tác chặt chẽ giữa các nhóm máy học và hệ thống (đồng thiết kế), bản chất của học tập không giám sát và văn hóa giải quyết vấn đề tỉ mỉ.

Những người chơi chính đằng sau GPT-4.5

Bên cạnh Altman, ba thành viên khác trong nhóm OpenAI tham gia cuộc trò chuyện này là:

Alex Paino: Chịu trách nhiệm về các thuật toán máy học tiền đào tạo của GPT-4.5.
Amin Tootoonchian: Kiến trúc sư trưởng hệ thống của OpenAI.
Daniel Selsam: Nghiên cứu hiệu quả dữ liệu và thuật toán.

Nguồn gốc và sự phát triển của GPT-4.5

Sam Altman: Điều gì thực sự cần thiết để xây dựng một mô hình lớn như GPT-4.5?

Alex Paino: Chúng tôi đã khởi xướng dự án này khoảng hai năm trước. Vào thời điểm đó, OpenAI sắp ra mắt một cụm máy tính lớn mới và nhóm của chúng tôi đã thấy cơ hội này và thực hiện một loạt các nhiệm vụ để xác định các chức năng mà mô hình cần bao gồm và tiến hành một số lượng lớn các bài kiểm tra hoạt động giảm thiểu rủi ro.

Chúng tôi đã phát triển một kế hoạch dài hạn cho việc này, liên quan đến toàn bộ ngăn xếp công nghệ từ hệ thống đến máy học. Giảm thiểu rủi ro và chuẩn bị cho đào tạo là một quá trình thực hiện dài và bản thân việc đào tạo cũng là một dự án rất lớn.

Amin Tootoonchian: Tôi nghĩ quá trình này đòi hỏi sự hợp tác chặt chẽ giữa nhóm máy học và nhóm hệ thống ngay từ đầu, cho đến khi chúng tôi biết rõ mô hình nào chúng tôi muốn đào tạo, sau đó bắt đầu đào tạo.

Chúng tôi đã đưa ra các dự đoán trong máy học và hệ thống, cố gắng giảm thiểu khoảng cách giữa kỳ vọng và thực tế. Tuy nhiên, vì nhịp điệu làm việc của chúng tôi rất nhanh và chúng tôi phải sử dụng các tài nguyên tính toán mới nhất, việc đào tạo mô hình đã trở thành một điều khó có thể lên kế hoạch hoàn hảo trước.

Chúng tôi gần như luôn bắt đầu đào tạo với nhiều vấn đề chưa được giải quyết và cố gắng vượt qua các thách thức và đạt được tiến bộ trong quá trình này. Giải pháp chính là tăng thêm tài nguyên tính toán.

Giai đoạn cuối cùng là thực hiện, đòi hỏi nhiều người phải đầu tư rất nhiều năng lượng và động lực trong một thời gian dài để hoàn thành quá trình đào tạo.

Sam Altman: Bạn nghĩ khoảng cách giữa kỳ vọng và thực tế của chúng ta là bao nhiêu?

Amin Tootoonchian: Về mặt hệ thống, ban đầu, chúng ta thường ở rất xa so với trạng thái mong đợi. Chúng tôi luôn phải đối mặt với một lựa chọn: có nên hoãn việc ra mắt và đợi vấn đề được giải quyết hay bắt đầu sớm và giải quyết vấn đề trong quá trình này. Điều này luôn đòi hỏi sự đánh đổi để tránh sự chậm trễ vô lý trong quá trình này.

Nhưng gần như luôn có những vấn đề bất ngờ và những gì chúng ta phải làm là xử lý những nút này nhiều nhất có thể, đối phó với các yếu tố chưa biết và xây dựng một kế hoạch đào tạo mô hình.

Alex Paino: Trong dự án này, mục tiêu của chúng tôi là tạo ra GPT-4.5, có nghĩa là khả năng của nó phải thông minh hơn GPT-4 gấp 10 lần. Đây là mục tiêu ban đầu mà chúng tôi đặt ra khoảng 2 năm trước.

Nhiều điều đã xảy ra trong quá trình này. Chúng tôi đã suy nghĩ về việc liệu chúng ta có thể làm tốt hơn hay tệ hơn dự kiến không? Đây là một quá trình rất phức tạp, nhưng cuối cùng, về mặt tính toán hiệu quả mà chúng tôi đã đưa vào, chúng tôi đã có được một mô hình mà chúng tôi nghĩ là thông minh hơn GPT-4 gấp 10 lần.

Amin Tootoonchian: Về mặt thực hiện, thời gian dành cho dự án GPT-4.5 còn xa so với những gì chúng tôi dự kiến ban đầu.

Cuộc cách mạng đội ngũ tinh gọn: Đào tạo GPT-4 với nguồn lực tối thiểu

Sam Altman: Khi cụm mở rộng từ 10.000 thẻ lên 100.000 thẻ, tại sao bạn gặp phải rất nhiều vấn đề?

Amin Tootoonchian: Tôi nghĩ rằng nếu các nhà phát triển hệ thống đủ nhạy bén, hầu hết các vấn đề có thể được quan sát thấy trong giai đoạn quy mô nhỏ.

Cũng có một số vấn đề không phải là duy nhất đối với giai đoạn đào tạo quy mô lớn, nhưng ban đầu xảy ra thường xuyên, nhưng sẽ trở thành các vấn đề thảm khốc sau khi quy mô tăng lên, đặc biệt là khi nhóm không lường trước rằng những vấn đề này sẽ trở nên tồi tệ đến mức như vậy trước.

Sam Altman: Những điều gì đã gây ra hậu quả tai hại?

Amin Tootoonchian: Tôi nghĩ rằng các vấn đề về cơ sở hạ tầng là điều hiển nhiên. Tỷ lệ thất bại, loại thất bại và tổng số thất bại rất cao. Cụm 100.000 thẻ là một nhóm mẫu quy mô lớn, vì vậy chúng tôi cũng phát hiện ra các vấn đề mà nhà cung cấp điện toán chưa quan sát thấy.

Mạng là một phần trong đó và các bộ tăng tốc riêng lẻ cũng có thể gặp sự cố. Nhưng đây cũng là vẻ đẹp củahệ thống này - gần như tất cả các thành phần cần hoạt động như mong đợi để tạo ra kết quả mong đợi. Công việc của chúng tôi là giảm thiểu vấn đề này càng nhiều càng tốt.

Sam Altman: Thật khó để làm việc ở giới hạn quy mô cụm, nhưng tôi cũng nhận thấy rằng việc làm những việc không còn ở tuyến đầu của công nghệ đã trở nên dễ dàng hơn nhiều. Đào tạo GPT-4.5 đòi hỏi hàng trăm người và hầu như tất cả mọi người trong OpenAI đều tham gia.

Nhưng ngày nay, nếu bạn cho phép bạn chọn một nhóm nhỏ nhất từ OpenAI và đào tạo lại GPT-4 từ đầu với tất cả kiến thức chúng ta biết và tất cả công việc hệ thống, thì sẽ cần bao nhiêu người?

Alex Paino: Tôi nghĩ rằng có thể mất khoảng 5 đến 10 người để tạo ra một mô hình cấp GPT-4 ngay bây giờ. Ngăn xếp công nghệ đã được cải thiện rất nhiều trong quá trình hoàn thành GPT-4.5.

Trên thực tế, chúng tôi đã thực hiện những việc tương tự trong quá trình đào tạo GPT-4.5 - chúng tôi đã đào tạo GPT-4o, một mô hình cấp GPT-4 và đào tạo lại nó bằng nhiều nội dung tương tự từ dự án nghiên cứu GPT-4.5. Ít người hơn đã được sử dụng cho quá trình đào tạo đó.

Hiệu quả dữ liệu: Chìa khóa để mở khóa thế hệ mô hình tiếp theo

Sam Altman: Theo quan điểm của bạn, Dan? Tại sao khó đào tạo các mô hình lớn?

Daniel Selsam: Tôi nghĩ rằng thật khó để làm bất cứ điều gì mới. Tôi nghĩ rằng ngay cả khi chỉ phát hiện ra rằng ai đó khác đã làm điều gì đó, điều đó cũng khiến nó trở nên dễ dàng hơn nhiều, bởi vì phần khó nhất là có niềm tin rằng bạn có thể làm được điều gì đó ngay từ đầu. Tôi nghĩ rằng chỉ cần biết rằng điều gì đó là khả thi là một mã gian lận siêu hạng, giúp mọi thứ trở nên dễ dàng hơn rất nhiều.

Alex Paino: Chúng tôi đang mở rộng hoạt động đào tạo trước GPT lên gấp 10 lần so với trước đây và chúng tôi sẽ luôn tìm thấy một số điều mới thú vị mà bạn không nhất thiết có thể dự đoán được.

Sam Altman: Cần gì để đạt được mức tăng trưởng 10x hoặc 100x tiếp theo về quy mô đào tạo trước?

Daniel Selsam: Hiệu quả dữ liệu. Kiến trúc Transformer (là GPT) rất hiệu quả trong việc sử dụng dữ liệu. Nó có thể hấp thụ và nén thông tin tốt và đạt được khả năng tổng quát hóa. Tính năng lớn nhất của nó là nó có thể hấp thụ thông tin hiệu quả với tài nguyên tính toán.

Tuy nhiên, chiều sâu của cái nhìn sâu sắc mà nó thu được từ dữ liệu là có hạn. Khi sức mạnh tính toán tăng trưởng nhanh chóng trong khi dữ liệu tăng trưởng tương đối chậm, dữ liệu trở thành một nút thắt cổ chai trong mô hình tiêu chuẩn này. Điều này đòi hỏi sự đổi mới thuật toán, phát triển các phương pháp có thể sử dụng nhiều sức mạnh tính toán hơn để học thêm kiến thức từ cùng một lượng dữ liệu.

Sam Altman: Bạn nghĩ chúng ta cần gì khác để duy trì sự mở rộng ngoài điều này?

Amin Tootoonchian: Câu trả lời của tôi là về hệ thống. Tôi nghĩ rằng khối lượng công việc khổng lồ cần thiết cho GPT-4.5 về cơ bản là kết quả tất yếu của các thông số kỹ thuật mô hình. Chúng ta không thể đào tạo GPT-4.5 với kiến trúc kỹ thuật giống hệt như GPT-4.

Về quản lý trạng thái, vì các tài nguyên tính toán cần thiết đã vượt quá khả năng mang tải của một cụm duy nhất, chúng ta phải chuyển sang kiến trúc đào tạo đa cụm. Để đạt được mục tiêu này, chúng ta phải tích hợp nhiều quy trình làm việc khác nhau trong một thời gian ngắn.

Mặc dù điều này đã giúp chúng tôi đạt được một bước đột phá theo giai đoạn, để đạt được thứ tự độ lớn tiếp theo về cải thiện hiệu suất, chúng ta vẫn cần giải quyết một số vấn đề kỹ thuật đã biết nhưng tạm thời gác lại - những vấn đề này không thể tránh khỏi. Chính loại đánh đổi kỹ thuật này liên tục kéo dài chu kỳ phát triển của một hệ thống hoàn hảo. Chúng tôi luôn đưa ra các đánh đổi chiến lược trong quá trình theo đuổi kế hoạch triển khai tối ưu.

Cần phải rõ ràng rằng bản thân hệ thống không phải là mục tiêu cuối cùng. Giá trị đầu ra thực tế của nó là xem xét cốt lõi. Để cải thiện hiệu suất gấp 10 lần tiếp theo, tôi nghĩ rằng bước đột phá trong khả năng chịu lỗi là rất quan trọng. Chúng ta cần xây dựng một cơ chế chịu lỗi hợp tác sâu sắc với khối lượng công việc để giảm đáng kể sự lo lắng về vận hành và bảo trì. Độ phức tạp của vận hành và bảo trì của hệ thống siêu lớn hiện tại về cơ bản khác với các hệ thống trước đây.

Sam Altman: Bạn có biết phần trăm lỗi do một số thành phần gây ra trong quá trình đào tạo GPT-4.5 không?

Amin Tootoonchian: Tôi không có số liệu cụ thể để chia sẻ, nhưng nói chung, việc triển khai ban đầu một thế hệ phần cứng mới thường phải đối mặt với nhiều thách thức kỹ thuật chưa được hiểu đầy đủ. Chúng tôi đã chọn đẩy nhanh dự án trước khi vấn đề được làm rõ hoàn toàn, dẫn đến tỷ lệ thất bại ban đầu cao.

Nhưng kinh nghiệm cho thấy rằng khi nguyên nhân gốc rễ được xác định và giải quyết, tỷ lệ thất bại sẽ giảm đáng kể. Hiện tượng này về cơ bản phản ánh sự hiểu biết sâu sắc hơn của chúng tôi về cơ sở hạ tầng - một số người gọi đó là dọn dẹp cơ sở hạ tầng hoặc hiểu các vấn đề cơ bản của cơ sở hạ tầng.

Các giai đoạn đầu của thực hiện gần như luôn khá đau đớn. Trong khi chúng tôi đang thúc đẩy dự án, chúng tôi cũng liên tục khám phá và giải quyết các chế độ thất bại mới, nhưng cuối cùng tỷ lệ thất bại sẽ giảm dần và thời gian chạy bình thường sẽ tăng lên.

Về cơ bản, đây là một vấn đề về đánh đổi ưu tiên: Trong giai đoạn đầu của vòng đời cơ sở hạ tầng, rủi ro thất bại của nó thường khó ước tính chính xác; và nếu chúng ta theo đuổi quá mức trạng thái lý tưởng cuối cùng (bản gốc là ‘City Estate’, thiết kế thành bang lý tưởng), nó có thể dẫn đến hiệu suất khả dụng ban đầu của hệ thống là cực kỳ kém.

Vượt xa tính toán: Đổi mới thuật toán và tiềm năng chưa được khai thác của dữ liệu

Sam Altman: Mặc dù mô hình suy luận là một thành phần quan trọng trong ngăn xếp công nghệ tương lai của chúng tôi, hãy tạm thời tập trung vào các ranh giới phát triển của các mô hình đào tạo trước truyền thống. Giả sử chúng ta có sức mạnh tính toán GPU không giới hạn, băng thông mạng không giới hạn và nguồn điện không giới hạn, nhưng vẫn bị giới hạn bởi các nút thắt kỹ thuật hiện có - bao gồm các vấn đề về độ tin cậy của hệ thống, thiếu các phương pháp đào tạo chịu lỗi và các hạn chế của bộ dữ liệu hiện có.

Theo quy tắc phát triển của chúng tôi là đạt được mức tăng quy mô gấp 100 lần cho mỗi số phiên bản GPT chính, dựa trên các ranh giới kỹ thuật hiện tại, mức độ phát triển của các mô hình đào tạo trước có thể đạt đến mức nào? Cụ thể, đối với các mô hình sê-ri GPT, dựa trên hệ thống kiến thức hiện có của chúng tôi, loại mô hình nào có thể được đào tạo về mặt lý thuyết? Chúng ta có thể tạo ra GPT-5.5 không?

Alex Paino: Từ góc độ phát triển máy học và thuật toán, chúng ta vẫn chưa đạt đến giới hạn lý thuyết rõ ràng. Trên thực tế, chúng ta mới chỉ bắt đầu khám phá các thuật toán có hiệu quả dữ liệu cao hơn và cách sử dụng đầy đủ hơn các tài nguyên dữ liệu hiện có. Tình huống này rất thú vị - ngay cả các mô hình như GPT-4 phần lớn được phát triển trong điều kiện tài nguyên tính toán hạn chế, điều này đã xác định hướng của hầu hết các nghiên cứu trước đây.

Nhưng tình hình hoàn toàn khác bây giờ. Kể từ GPT-4.5, trong một số khía cạnh chính, dữ liệu chứ không phải tính toán đang trở thành ràng buộc chính. Sự thay đổi này làm cho các nghiên cứu liên quan kém thú vị hơn.

Sam Altman: Nhưng đây thực sự là một tiến bộ đáng kinh ngạc và thế giới có thể không nhận ra đầy đủ rằng tài nguyên tính toán không còn là nút thắt chính đối với mô hình tốt nhất mà chúng ta có thể xây dựng. Sự thay đổi này rất có ý nghĩa, xét cho cùng, chúng ta đã sống trong một môi trường giới hạn về mặt tính toán quá lâu.

Tiết lộ những bất ngờ: Khả năng dự đoán so với trí thông minh không lường trước

Sam Altman: Trải nghiệm máy học thú vị nhất mà chúng tôi đã học được trong quá trình đào tạo GPT-4.5 là gì? Chỉ cần nói những gì bạn muốn chia sẻ.

Amin Tootoonchian: Nói chung, những điều đáng suy ngẫm nhất là những điều đi chệch khỏi dự đoán của chúng ta - đặc biệt là khi chúng ta cố gắng hiểu tại sao hiệu suất thực tế lại khác với đường cong dự kiến.

Alex Paino: Một trong những khám phá đáng ngạc nhiên nhất đối với chúng tôi là các thành phần máy học khác nhau có hiệu suất khả năng mở rộng rất khác nhau. Một số phần có thể được mở rộng rất tốt, trong khi những phần khác thì không. Đây là những gì chúng tôi thực sự nhận ra trong quá trình đào tạo thực tế. Kinh nghiệm này đã cho chúng tôi rất nhiều cảm hứng.

Daniel Selsam: Tôi nghĩ hai đặc điểm cốt lõi của mô hình GPT là: thứ nhất, tổn thất kiểm tra (một số liệu đo lường mức độ hoạt động của mô hình trên dữ liệu kiểm tra chưa từng thấy) có thể được dự đoán chính xác; thứ hai, hiệu suất của mô hình cho thấy sự cải thiện có thể dự đoán được khi quy mô tăng lên. Điều đáng ngạc nhiên hơn nữa là việc giảm tổn thất kiểm tra sẽ được chuyển thành một mức độ trí thông minh được tăng cường toàn diện theo nhiều cách khó định lượng nhưng tuyệt vời và bí ẩn.

Sam Altman: Bạn có hoàn toàn lạc quan về điều này không? Bạn có hoàn toàn đồng ý với quan điểm này không?

Daniel Selsam: Thực tế, điều tôi muốn nói là chúng tôi đã tìm thấy một hiện tượng đặc biệt thú vị trong bài kiểm tra GPT-4.5 - sau khi kiểm tra lại, nhiều khả năng tinh vi được mô hình thể hiện đã vượt quá hoàn toàn mọi người’

Chúng tôi chắc chắn rằng nó sẽ trở nên thông minh hơn theo nhiều cách khác nhau, khó xác định trước và những cải tiến tinh tế này có thể được quan sát thấy từ sự hài lòng của người dùng sau khi triển khai thực tế: dự trữ kiến thức chung mạnh mẽ hơn, khả năng hiểu ngữ cảnh chính xác hơn và nắm bắt ngữ nghĩa tinh tế hơn - đây là điều kỳ diệu do những tổn thất kiểm tra bổ sung đó mang lại. Theo ý kiến của tôi, Luật mở rộng đã được xác minh hoàn hảo trong khía cạnh này.

Sức mạnh của sự hợp tác: Nhóm máy học và hệ thống làm việc hài hòa

Sam Altman: Khoảnh khắc tích cực nhất trong toàn bộ quá trình đào tạo là gì? Kỷ niệm yêu thích của bạn là gì? Rõ ràng là có rất nhiều đau đớn, nhưng tôi hy vọng rằng nỗi đau đó đã được xoa dịu.

Alex Paino: Tôi có một khoảnh khắc như vậy. Chúng tôi đã thực hiện rất nhiều công việc máy học trong quá trình đào tạo và tôi nghĩ rằng một số thay đổi mà chúng tôi đã thực hiện trong quá trình này đã có tác động khá tốt, thậm chí có thể tốt hơn mong đợi, đó là một khoảnh khắc rất thú vị đối với chúng tôi.

Amin Tootoonchian: Đối với tôi, đồng thời với việc đào tạo, chúng tôi cũng đang xây dựng cơ sở hạ tầng. Chúng tôi tin chắc rằng chúng tôi có thể vượt qua vách đá hiệu suất này và chúng tôi có một kế hoạch và mọi người đang thực hiện nó, nhưng phải mất một thời gian dài. Đây là công việc khó khăn và chắc chắn khó khăn hơn tôi nghĩ. Dự đoán của tôi là sai và tôi đã đánh giá thấp thời gian cần thiết để giải quyết những vấn đề này.

Khoảnh khắc mà nhóm cuối cùng đã vượt qua những vấn đề chính đó và hiệu suất được cải thiện đáng kể vẫn còn tươi mới trong ký ức của tôi. Bạn có thể cảm nhận rõ ràng sự thay đổi năng lượng trong toàn bộ nhóm - mọi người đột nhiên tràn đầy năng lượng và lao về phía mục tiêu cuối cùng với động lực mới.

Điều tuyệt vời nhất là thời gian hoàn thành ước tính hiển thị trên trình theo dõi trạng thái của chúng tôi tiếp tục rút ngắn so với hai năm ban đầu và cuối cùng được khóa vào một nút thời gian rõ ràng. Tiến độ hữu hình này là vô giá đối với việc nâng cao tinh thần của nhóm. Tôi nghĩ đây là vẻ đẹp của nó.

Tôi muốn nhấn mạnh rằng công việc máy học chưa bao giờ dừng lại. Ngay cả sau khi quá trình đào tạo bắt đầu, quá trình đồng thiết kế máy học này vẫn đang tiếp diễn. Nhóm máy học không chỉ tích cực theo dõi các vấn đề đã được đánh dấu là ‘xử lý tiếp theo’ mà còn tiếp tục cung cấp những cải tiến thực sự tối ưu hóa thời gian đào tạo.

Điều này thể hiện hoàn hảo tinh thần đồng đội của chúng tôi - ở đây không có ranh giới công việc ‘quét tuyết trước cửa nhà bạn’, mà là một sự hợp tác thực sự liền mạch. Sự gắn kết này là lợi thế lớn nhất của chúng tôi.

Lập kế hoạch tỉ mỉ và theo đuổi không ngừng các bất thường trong đào tạo trước GPT-4.5

Daniel Selsam: Thế giới bên ngoài đã thảo luận rất nhiều về những thách thức và độ chính xác dự đoán của bản thân quá trình đào tạo này. Nhưng trên thực tế, tất cả điều này được xây dựng trên một kế hoạch cực kỳ tỉ mỉ - bạn có thể nói thêm về điều này một cách chi tiết không?

Alex Paino: Đây chắc chắn là kế hoạch tỉ mỉ nhất mà chúng tôi đã thực hiện cho đến nay. Như tôi đã nói, chúng tôi đã bắt đầu chuẩn bị cho dự án này một năm trước khi chính thức ra mắt đào tạo. Trong giai đoạn này, chúng tôi đã tiến hành nhiều đợt chạy thử nghiệm kiểm soát rủi ro quy mô lớn.

Chúng tôi đặc biệt chú ý đến việc dần dần giới thiệu tất cả các cải tiến: bắt đầu từ cấu hình cơ bản có độ tin cậy cao - có thể được hiểu là một kiến trúc trưởng thành tương tự như GPT-4, chúng tôi đã nắm vững hoàn toàn cấu hình này ở cấp độ máy học - và sau đó xếp lớp các tính năng mới như các khối xây dựng.

Điều quan trọng là phải xác minh nghiêm ngặt khả năng mở rộng của từng cải tiến ở các quy mô khác nhau: không chỉ để xem những cải thiện về hiệu suất mà còn để đảm bảo rằng những cải tiến này có thể tiếp tục có hiệu quả khi kích thước mô hình tăng lên. Nhiều cải tiến hoạt động tốt trong các bài kiểm tra quy mô nhỏ, nhưng sẽ thất bại trong các ứng dụng quy mô lớn.

Do đó, chúng tôi đã duy trì mức độ cảnh giác cao trong suốt quá trình và tiếp tục lặp lại và cải thiện phương pháp luận luật mở rộng của chúng tôi. Thông qua thực tế kiểm soát rủi ro này, chúng tôi đã tích lũy được rất nhiều kinh nghiệm quý báu, điều này sẽ tiếp tục hướng dẫn sự phát triển của các mô hình sê-ri GPT trong tương lai.

Amin Tootoonchian: Tôi nhớ một khoảnh khắc đặc biệt thú vị mà tôi rất nhớ. Bạn biết đấy, chúng ta gần như chắc chắn gặp phải nhiều lỗi khác nhau mỗi khi chúng ta bắt đầu một nhiệm vụ đào tạo, điều này là chuyện thường tình. Nhưng điều quan trọng là phải đảm bảo rằng tiến trình không bị cản trở và chúng ta phải luôn xác nhận xem tiến trình hiện tại có thực sự đi đúng hướng hay không và liệu những lỗi này có tác động nghiêm trọng đến sức khỏe của quá trình đào tạo hay không.

Mặc dù ban đầu chúng tôi rất chắc chắn rằng có những sai sót lớn, nhưng thông qua toàn bộ hệ thống giám sát mà chúng tôi đã xây dựng, chúng tôi đã có thể phân biệt chính xác nguyên nhân gốc rễ của vấn đề: Đó có phải là lỗi phần cứng không? Loại lỗi phần cứng nào? Đó có phải là hỏng dữ liệu không? Hoặc đó có phải là một lỗi trong bản thân mô hình máy học không? Hoặc đó có phải là một tình trạng tranh chấp trong mã không?

Vào thời điểm đó, chúng tôi đã mở đồng thời nhiều khu vực thảo luận về vấn đề, với nhiều triệu chứng khác nhau. Sau một loạt các bản sửa lỗi, chúng tôi rơi vào bế tắc: nhiều vấn đề chưa được giải quyết được chất đống trước mặt chúng tôi và mọi người đều vắt óc suy nghĩ - những điều này có phải do các lỗi khác nhau gây ra không? Hay đó là một lỗi đang gây ra rắc rối?

Sau đó, chúng tôi đã tổ chức một cuộc bỏ phiếu và yêu cầu các thành viên trong nhóm bỏ phiếu cho nguyên nhân gốc rễ có khả năng nhất. Kết quả là, tùy chọn ít lạc quan nhất đã đánh trúng sự thật: hóa ra có một vấn đề với hàm torch.sum ở thượng nguồn của PyTorch, một phép tính tổng đơn giản.

Lỗi này rất thú vị. Bạn biết rằng chúng tôi chủ yếu sử dụng hạt nhân Triton và chỉ trong một số kịch bản biên không đáng kể, chúng tôi sẽ quay lại các hoạt động torch. Lỗi hàm torch.sum do đường dẫn mã cụ thể của chúng tôi kích hoạt đôi khi sẽ gây ra truy cập bộ nhớ bất hợp pháp do các đặc điểm phân phối dữ liệu - nó đã mắc lỗi khi tính toán độ lệch bộ nhớ.

Điều kịch tính nhất là khi một kỹ sư cuối cùng đã xác định vị trí của vấn đề và gửi một bản sửa lỗi, tất cả các lỗi với các triệu chứng khác nhau đã biến mất. Mọi người hào hứng thay đổi kênh Slack từ ‘lý thuyết đa lỗi’ thành ‘lý thuyết một lỗi’ và cảnh tượng rất vui vẻ.

Lỗi này đã ẩn nấp bao lâu? Nó đã tồn tại từ những giai đoạn đầu của quá trình đào tạo và không được tìm thấy cho đến khi thanh tiến trình đã vượt qua khoảng 40%. Quá trình khám phá cũng đầy kịch tính: Vào thời điểm đó, một hạt nhân phức tạp liên tục gọi một chuỗi và cuộc gọi thứ hai đã kích hoạt truy cập bộ nhớ bất hợp pháp.

Mặc dù tần suất sự cố này cực kỳ thấp (nó chỉ xảy ra một lần trong vài trăm hoặc thậm chí hàng nghìn bước đào tạo), nhưng rất dễ bị bỏ qua như một lỗi thỉnh thoảng xảy ra, nhưng nguyên tắc của nhóm chúng tôi là: không bao giờ bỏ qua bất kỳ bất thường nào. Phần hay nhất của câu chuyện này nằm ở sự kiên trì không bỏ cuộc một cách dễ dàng này.

Hành trình tìm kiếm các hệ thống lý tưởng: Một chân trời xa xăm

Sam Altman: Sau khi đào tạo trước GPT-4.5 bắt đầu, bạn còn phải làm gì khác?

Alex Paino: Tất cả chúng ta đều cần quan sát đường cong mất mát thường xuyên. Ngoài ra, chúng ta cần liên tục tối ưu hóa hệ thống và cải thiện đồng thiết kế chưa hoàn thành trước khi quá trình đào tạo bắt đầu. Chúng tôi theo dõi chặt chẽ các chỉ số thống kê khác nhau trong quá trình đào tạo để đảm bảo rằng không có xu hướng bất thường bất ngờ nào xảy ra. Đồng thời, chúng tôi khám phá các kế hoạch cải thiện có thể từ góc độ máy học. Mặc dù công việc cấp dữ liệu sẽ tạm thời giảm sau khi quá trình đào tạo trước bắt đầu, nhưng vẫn còn một số lượng lớn các nhiệm vụ cần được xử lý.

Amin Tootoonchian: Tôi nghĩ rằng máy học phần lớn phụ thuộc vào tính chính xác của phán đoán. Sau khi quá trình đào tạo trước bắt đầu, đối mặt với một số lượng lớn các tín hiệu nhiễu, chúng ta giống như những người xem bói giải thích lá trà và chúng ta cần đánh giá xem hệ thống có khỏe mạnh hay không. Đây là trách nhiệm của chúng tôi.

Sam Altman: Ở cấp độ hệ thống, điều gì hạn chế chúng ta thực hiện đào tạo mô hình? Đó là chip, bộ xử lý, bộ nhớ, mạng hay năng lượng?

Amin Tootoonchian: Vẻ đẹp của hệ thống là khi thực hiện đồng thiết kế, khối lượng công việc có thể thích ứng với cơ sở hạ tầng mà bạn xây dựng. Không có một câu nói chung nào ở đây rằng mạng là nút thắt cổ chai, hoặc băng thông bộ nhớ là nút thắt cổ chai, v.v. Ngay cả đối với các mô hình có cùng thông số kỹ thuật, chúng ta có thể chọn chuyển các yêu cầu về tài nguyên và chúng ta có thể chọn tạo một hệ thống cân bằng hơn, nhưng có nhiều băng thông bộ nhớ luôn có lợi. Rất khó để trả lời câu hỏi này mà không có các điều kiện giới hạn.

Khi thiết kế GPT-4.5, chúng ta có thể cần hệ thống có một loại thuộc tính nào đó, cần được tạo ra dưới sự hướng dẫn của con người. Do đó, đồng thiết kế rất quan trọng để hình thành kiến trúc mô hình và các thành phần kiến trúc, và ở một mức độ nào đó kết nối các khía cạnh hệ thống và máy học. Nếu hệ thống có một thuộc tính mà chúng ta không muốn có nhiều, tình huống lý tưởng của tôi là mọi thứ nên được tách rời để mang lại cho nhau không gian tối đa.

Đôi khi mọi thứ được kết nối với nhau và chúng ta cần đáp ứng các yêu cầu của cơ sở hạ tầng, hoặc mọi thứ nên như thế này. Hầu hết thời gian, chúng ta cần một hệ thống cân bằng và giao tiếp cân bằng. Và phương tiện điều chỉnh tốt nhất mà chúng ta có là tất cả những đồng thiết kế này.

Sam Altman: Chúng ta còn cách mục tiêu hệ thống lý tưởng này bao xa?

Amin Tootoonchian: Vẫn còn một chặng đường dài từ mục tiêu đó. Quá trình xây dựng một hệ thống luôn như thế này: đầu tiên có một quan điểm lý tưởng hóa về cách mọi thứ nên hoạt động và sau đó dung hòa những khác biệt đó với các tài nguyên hiện có.

Tôi nghĩ rằng chúng ta không làm điều đó vì lý thuyết cho lý thuyết, mà chỉ để thảo luận về những gì chúng ta muốn nó trở thành, để nhận ra nó và để đến gần lý tưởng đó càng tốt. Đây có lẽ là phần thú vị nhất của lĩnh vực hệ thống. Mọi người thường nói rằng đây là một thiết kế hệ thống thanh lịch và cuối cùng lịch sử sẽ cho chúng ta biết liệu lựa chọn này là đúng hay sai.

Sam Altman: Nếu bạn có thể nhận được câu trả lời cho một vấn đề máy học trước lần đào tạo lớn tiếp theo, bạn muốn biết điều gì nhất?

Alex Paino: Tôi muốn biết những thuật toán nào chúng ta nên sử dụng trong điều kiện dữ liệu hạn chế và các lĩnh vực cụ thể. Mặc dù đây là một câu hỏi rộng, nhưng nó thực sự là câu hỏi quan trọng nhất.

Sam Altman: Bạn sẽ tiến hành đào tạo trước đồng bộ với 10 triệu GPU trở lên trong tương lai chứ?

Alex Paino: Tôi nghĩ là sẽ có, nhưng nó có thể không phải là một mô hình đào tạo trước truyền thống. Hình thức của nó có thể rất khác so với công nghệ hiện có, nhưng nó vẫn sẽ giữ lại cốt lõi của học tập không giám sát.

Amin Tootoonchian: Tôi thích chế độ bán đồng bộ hơn. Do các định luật vật lý, đồng bộ hóa hoàn toàn là không thực tế.

Daniel Selsam: Tôi nghĩ nó có nhiều khả năng được phân cấp hơn. Chắc chắn sẽ có 10 triệu GPU làm việc cùng nhau trong một hệ thống AI để học tập và thực hiện các nhiệm vụ, nhưng giống như các bộ phận khác nhau của bộ não, chúng có thể không nhất thiết phải giao tiếp với nhau.

Sức mạnh hiệp đồng của những cải tiến thuật toán và hiệu quả dữ liệu

Sam Altman: Khoảng cách giữa các thuật toán tiên tiến nhất và hiệu quả dữ liệu của con người lớn đến mức nào? Chúng ta có thể hy vọng đuổi kịp trong tương lai không?

Daniel Selsam: Rất khó để so sánh trực tiếp hai điều này. Khoảng cách trong học ngôn ngữ chắc chắn là rất lớn. Điều quan trọng là làm thế nào để xác định lượng thông tin mà dây thần kinh thị giác của con người nhận được. Tôi nghĩ rằng các thuật toán thường ít hiệu quả hơn nhiều so với con người.

Trong nhiều thập kỷ, học sâu đã tập trung vào hiệu quả sức mạnh tính toán. Ngoài sự tăng trưởng của dữ liệu và sức mạnh tính toán, điều thực sự đáng ngạc nhiên là hiệu ứng hiệp đồng do những cải tiến thuật toán tạo ra. Mỗi khi hiệu suất thuật toán được cải thiện 10% hoặc 20%, nó sẽ có tác động đáng kể khi được chồng lên hiệu quả dữ liệu. Cho đến nay, không có sự huy động nào xung quanh hiệu quả dữ liệu, bởi vì phương pháp này không đáng giá khi dữ liệu không được lưu hành và sức mạnh tính toán bị hạn chế.

Bây giờ, chúng ta đang bước vào một giai đoạn mới của nghiên cứu AI và chúng ta sẽ bắt đầu tích lũy những chiến thắng trong hiệu quả dữ liệu. Tôi nghĩ rằng có một chút ngớ ngẩn khi dự đoán ngay bây giờ rằng chúng ta sẽ gặp phải những trở ngại không thể vượt qua. Cách thức hoạt động của bộ não con người chắc chắn khác với những cải tiến thuật toán của chúng ta và chúng ta nên thận trọng về vấn đề này. Nhưng tôi nghĩ chúng ta nên lạc quan về sự phát triển trong tương lai của các thuật toán.

Sam Altman: Mối tương quan giữa đào tạo trước quy mô lớn hơn và khả năng học tập và lý luận mạnh mẽ hơn của mô hình là gì?

Alex Paino: Những gì chúng tôi đã quan sát được là đào tạo trước và học tập không giám sát tốt hơn thường cải thiện trí thông minh tổng thể của mô hình và rất hữu ích trong việc khái quát hóa. Điều này bổ sung cho khả năng lý luận, trong khi lý luận có thể chậm chạp hơn trong việc cải thiện trí thông minh. Tôi nghĩ chúng bổ sung cho nhau.

Sam Altman: Đào tạo trước dường như là tổng quát trong nhiều thứ, trong khi đào tạo một mô hình chỉ có thể làm cho nó hoạt động tốt trong một loại việc, phải không?

Alex Paino: Điều này rất thú vị, nhưng bạn sẽ không ngạc nhiên về tình huống này khi bạn nhìn thấy dữ liệu huấn luyện chúng. Phạm vi bộ dữ liệu đào tạo trước rất lớn và những gì chúng ta theo đuổi là bề rộng và sự đa dạng. Khi nói đến học tăng cường mô hình và làm cho nó rõ ràng thu được các tín hiệu phần thưởng tốt và một môi trường đào tạo tốt, tôi nghĩ rằng rất khó để cân bằng bề rộng của bộ dữ liệu.

Daniel Selsam: Tôi đồng

cập nhật lúc 2025-04-15

# OpenAI # GPT # AGI