GPT-4.5 thất bại? Tìm hiểu sâu về OpenAI

Quy mô và Phạm vi của GPT-4.5

GPT-4.5 đại diện cho nỗ lực đầy tham vọng nhất của OpenAI cho đến nay về quy mô tuyệt đối. Mặc dù các chi tiết chính xác liên quan đến kiến trúc và dữ liệu đào tạo của nó vẫn còn khan hiếm, nhưng người ta biết rằng quá trình đào tạo tốn nhiều tài nguyên tính toán đến mức cần phải phân phối trên nhiều trung tâm dữ liệu. Điều này cho thấy nguồn lực khổng lồ đã đổ vào việc phát triển nó.

Cấu trúc giá của mô hình càng nhấn mạnh vị trí của nó như một sản phẩm cao cấp. Chi phí cao hơn đáng kể so với các phiên bản tiền nhiệm, vượt quá GPT-4o theo hệ số 15-30X, o1 theo hệ số 3-5X và Claude 3.7 Sonnet theo hệ số 10-25X. Quyền truy cập hiện bị giới hạn đối với người đăng ký ChatGPT Pro (với mức giá đắt đỏ 200 đô la mỗi tháng) và khách hàng API sẵn sàng trả tiền trên cơ sở mỗi token.

Tuy nhiên, mức tăng hiệu suất, ít nhất là trong một số lĩnh vực, vẫn chưa tương xứng với giá thành. Các điểm chuẩn ban đầu cho thấy sự cải thiện khiêm tốn so với GPT-4o và thậm chí cho thấy GPT-4.5 tụt hậu so với các mô hình như o1 và o3-mini trong các tác vụ suy luận.

Hiểu Mục đích Dự kiến của GPT-4.5

Điều quan trọng cần thừa nhận là OpenAI chưa bao giờ quảng cáo rõ ràng GPT-4.5 là mô hình hàng đầu, đa năng của mình. Trên thực tế, các phiên bản đầu tiên của bài đăng trên blog của họ đã làm rõ rằng nó không có ý định trở thành một ‘mô hình tiên phong’ đẩy các ranh giới tuyệt đối của khả năng. Hơn nữa, nó không được thiết kế chủ yếu như một mô hình suy luận, làm cho việc so sánh trực tiếp với các mô hình được tối ưu hóa cho mục đích đó (như o3 và DeepSeek-R1) có phần gây hiểu lầm.

OpenAI đã chỉ ra rằng GPT-4.5 sẽ là mô hình non-chain-of-thought cuối cùng của họ. Điều này có nghĩa là quá trình đào tạo của nó tập trung nhiều vào việc nhúng một lượng lớn kiến thức thế giới và phù hợp với sở thích của người dùng, thay vì phát triển khả năng suy luận phức tạp.

Nơi GPT-4.5 Có thể Tỏa sáng: Kiến thức và Sắc thái

Lợi thế cốt lõi của các mô hình lớn hơn thường nằm ở khả năng mở rộng để tiếp thu kiến thức. GPT-4.5, phù hợp với nguyên tắc này, thể hiện xu hướng giảm ảo giác so với các mô hình nhỏ hơn. Điều này làm cho nó có tiềm năng có giá trị trong các tình huống mà việc tuân thủ nghiêm ngặt các sự kiện và thông tin theo ngữ cảnh là tối quan trọng.

Hơn nữa, GPT-4.5 thể hiện khả năng nâng cao để làm theo hướng dẫn và sở thích của người dùng. Điều này đã được thể hiện trong các bản demo khác nhau của OpenAI và được xác nhận bởi những trải nghiệm của người dùng được chia sẻ trực tuyến. Mô hình dường như nắm bắt được các sắc thái của ý định người dùng hiệu quả hơn, dẫn đến các đầu ra phù hợp và liên quan hơn.

Cuộc tranh luận về Chất lượng Văn xuôi: Tính chủ quan và Tiềm năng

Một cuộc thảo luận sôi nổi đã nổ ra liên quan đến khả năng tạo ra văn xuôi vượt trội của GPT-4.5. Một số giám đốc điều hành của OpenAI đã ca ngợi chất lượng đầu ra của mô hình, với CEO Sam Altman thậm chí còn gợi ý rằng việc tương tác với nó đã mang lại một cái nhìn thoáng qua về ‘AGI’ (Artificial General Intelligence) cho một số người thử nghiệm sành điệu.

Tuy nhiên, phản ứng rộng hơn đã được trộn lẫn một cách rõ ràng. Người đồng sáng lập OpenAI, Andrej Karpathy, đã dự đoán những cải tiến trong các nhiệm vụ ít phụ thuộc vào lý luận thuần túy, nhấn mạnh các lĩnh vực như ‘EQ’ (trí tuệ cảm xúc), sự sáng tạo, tạo sự tương đồng và sự hài hước – những khía cạnh thường bị cản trở bởi kiến thức thế giới và sự hiểu biết chung.

Thật thú vị, một cuộc khảo sát sau đó được thực hiện bởi Karpathy cho thấy người dùng nói chung thích phản hồi của GPT-4o hơn so với GPT-4.5 về chất lượng văn bản. Điều này làm nổi bật tính chủ quan vốn có trong việc đánh giá văn xuôi và gợi ý rằng kỹ thuật prompt khéo léo có thể gợi ra chất lượng tương đương từ các mô hình nhỏ hơn, hiệu quả hơn.

Bản thân Karpathy thừa nhận sự mơ hồ của kết quả, gợi ý nhiều cách giải thích khả thi: những người thử nghiệm ‘có gu cao’ có thể nhận thấy những cải tiến cấu trúc tinh tế mà những người khác bỏ qua, các ví dụ được thử nghiệm có thể không lý tưởng, hoặc sự khác biệt có thể đơn giản là quá tinh tế để nhận ra trong một kích thước mẫu nhỏ.

Giới hạn của Việc Mở rộng Quy mô và Tương lai của LLMs

Việc phát hành GPT-4.5, ở một số khía cạnh, nhấn mạnh những hạn chế tiềm ẩn của việc chỉ đơn giản là mở rộng quy mô các mô hình được đào tạo trên các tập dữ liệu khổng lồ. Ilya Sutskever, một người đồng sáng lập khác của OpenAI và cựu nhà khoa học trưởng, đã tuyên bố nổi tiếng tại NeurIPS 2024 rằng ‘việc đào tạo trước như chúng ta biết chắc chắn sẽ kết thúc… Chúng ta đã đạt đến đỉnh cao của dữ liệu và sẽ không còn nữa. Chúng ta phải đối phó với dữ liệu mà chúng ta có. Chỉ có một internet.’

Lợi nhuận giảm dần được quan sát thấy với GPT-4.5 là một minh chứng cho những thách thức của việc mở rộng quy mô các mô hình đa năng được đào tạo chủ yếu trên dữ liệu internet và được tinh chỉnh để phù hợp thông qua học tăng cường từ phản hồi của con người (RLHF).

Biên giới tiếp theo cho các mô hình ngôn ngữ lớn dường như là test-time scaling (hoặc inference-time scaling). Điều này liên quan đến việc đào tạo các mô hình để ‘suy nghĩ’ trong một khoảng thời gian dài hơn bằng cách tạo ra các token chain-of-thought (CoT). Test-time scaling tăng cường khả năng của mô hình để giải quyết các vấn đề suy luận phức tạp và là một yếu tố quan trọng trong sự thành công của các mô hình như o1 và R1.

Không phải Thất bại, mà là Nền tảng

Mặc dù GPT-4.5 có thể không phải là lựa chọn tối ưu cho mọi tác vụ, nhưng điều quan trọng là phải nhận ra vai trò tiềm năng của nó như một yếu tố nền tảng cho những tiến bộ trong tương lai. Một cơ sở kiến thức mạnh mẽ là điều cần thiết cho sự phát triển của các mô hình suy luận phức tạp hơn.

Ngay cả khi bản thân GPT-4.5 không trở thành mô hình được sử dụng cho hầu hết các ứng dụng, nó có thể đóng vai trò là một khối xây dựng quan trọng cho các mô hình suy luận tiếp theo. Thậm chí có thể hợp lý rằng nó đã được sử dụng trong các mô hình như o3.

Như Mark Chen, Giám đốc Nghiên cứu của OpenAI, giải thích, ‘Bạn cần kiến thức để xây dựng lý luận trên đó. Một mô hình không thể đi vào một cách mù quáng và chỉ học lý luận từ đầu. Vì vậy, chúng tôi thấy hai mô hình này khá bổ sung cho nhau, và chúng tôi nghĩ rằng chúng có các vòng phản hồi lẫn nhau.’

Do đó, sự phát triển của GPT-4.5 không phải là một ngõ cụt, mà là một bước đi chiến lược trong quá trình phát triển liên tục của các mô hình ngôn ngữ lớn. Đó là một minh chứng cho tính chất lặp đi lặp lại của nghiên cứu AI, trong đó mỗi bước, ngay cả khi dường như không đáng kể khi cô lập, đóng góp vào sự tiến bộ rộng lớn hơn đối với các hệ thống AI có khả năng và linh hoạt hơn. Trọng tâm hiện đang chuyển sang việc tận dụng nền tảng kiến thức vững chắc này để xây dựng các mô hình không chỉ có thể nhớ lại thông tin mà còn suy luận và giải quyết vấn đề với hiệu quả chưa từng có. Cuộc hành trình hướng tới AI thực sự thông minh vẫn tiếp tục, và GPT-4.5, bất chấp sự tiếp nhận hỗn hợp của nó, đóng một phần quan trọng trong cuộc hành trình đó.
Trọng tâm bây giờ không chỉ là mô hình biết bao nhiêu, mà là nó có thể sử dụng kiến thức đó tốt như thế nào. Đây là thách thức cốt lõi mà cộng đồng AI đang vật lộn, và GPT-4.5, mặc dù không phải là một giải pháp hoàn hảo, cung cấp những hiểu biết có giá trị và một nền tảng vững chắc cho những đột phá trong tương lai. Con đường phía trước liên quan đến sự kết hợp của các phương pháp tiếp cận: tinh chỉnh các kỹ thuật hiện có, khám phá các kiến trúc mới và phát triển các phương pháp tinh vi hơn để đào tạo và đánh giá. Mục tiêu cuối cùng vẫn không thay đổi: tạo ra các hệ thống AI không chỉ có thể hiểu và tạo ra ngôn ngữ của con người mà còn suy luận, học hỏi và thích ứng theo những cách mà trước đây được coi là lĩnh vực độc quyền của trí thông minh con người.