GPT-4.5 của OpenAI: Nâng cấp đắt đỏ

Cải tiến Hiệu suất: Xem xét Kỹ lưỡng

Các điểm chuẩn nội bộ của OpenAI cho thấy GPT-4.5 thực sự vượt trội hơn GPT-4o ở một số lĩnh vực chính. Một cải tiến đáng chú ý là hiệu suất của nó trong bài kiểm tra MMMLU (kiến thức tổng quát) đa ngôn ngữ. GPT-4.5 đạt điểm 85,1%, vượt qua 81,5% của GPT-4o. Điều này cho thấy sự hiểu biết rộng hơn và sâu hơn về kiến thức chung trên nhiều ngôn ngữ khác nhau.

Ngoài các bài kiểm tra tiêu chuẩn, OpenAI tuyên bố rằng GPT-4.5 cho thấy sự giảm thiểu ‘confabulations’, thường được gọi là ảo giác. Điều này có nghĩa là mô hình ít có xu hướng tạo ra thông tin sai lệch hoặc gây hiểu lầm, một tiến bộ quan trọng cho các ứng dụng đòi hỏi độ chính xác thực tế. Ít trường hợp phản hồi bịa đặt hơn đánh dấu một bước tiến tới độ tin cậy cao hơn.

Trải nghiệm người dùng cũng được cải thiện, mặc dù ở mức độ khiêm tốn. Các đánh giá của OpenAI chỉ ra rằng người dùng thích phản hồi của GPT-4.5 hơn so với GPT-4o trong khoảng 57% tương tác. Mặc dù không phải là một chiến thắng áp đảo, nhưng sự ưu tiên này cho thấy một sự cải thiện đáng chú ý về chất lượng tổng thể và mức độ liên quan của đầu ra của mô hình. Các tương tác cảm thấy tự nhiên hơn và phù hợp với mong đợi của người dùng.

Một bước nhảy vọt đáng kể khác được quan sát thấy trong Simple QA Accuracy (Độ chính xác QA đơn giản). Ở đây, GPT-4.5 đạt 62,5%, tăng đáng kể so với 38,2% của GPT-4o. Điều này cho thấy một sự cải thiện rõ rệt trong khả năng của mô hình để cung cấp câu trả lời chính xác cho các câu hỏi đơn giản, thể hiện khả năng hiểu và truy xuất nâng cao.

Chỉ số Cảm xúc: Tương tác Giống Con người Hơn

GPT-4.5 không chỉ khác biệt thông qua các số liệu hiệu suất thô, mà còn thông qua chỉ số cảm xúc (EQ) được nâng cao. Mô hình được thiết kế để sử dụng giọng điệu tự nhiên và đồng cảm hơn, làm cho các tương tác bớt máy móc và hấp dẫn hơn. Đây là một bước tiến đáng kể hướng tới việc tạo ra AI có cảm giác giống con người hơn trong giao tiếp.

  • Giọng điệu tự nhiên: Các cuộc trò chuyện diễn ra trôi chảy hơn, với các phản hồi bắt chước tốt hơn các mẫu hội thoại của con người.
  • Phản hồi đồng cảm: Mô hình thể hiện khả năng hiểu và phản hồi tốt hơn với các sắc thái cảm xúc của cuộc trò chuyện.
  • Tương tác hấp dẫn: Trải nghiệm tổng thể được thiết kế để thu hút hơn, giữ sự chú ý của người dùng và thúc đẩy tương tác tích cực hơn.

Chỉ số EQ được nâng cao này làm cho GPT-4.5 đặc biệt phù hợp với các ứng dụng mà tương tác giống con người là tối quan trọng. Dịch vụ khách hàng, trợ lý ảo và thậm chí cả các ứng dụng trị liệu có thể hưởng lợi từ cách tiếp cận tinh tế và thông minh về cảm xúc này.

Hơn nữa, GPT-4.5 vượt trội về ‘khả năng điều khiển’ (steerability). Điều này đề cập đến khả năng của mô hình trong việc diễn giải và phản hồi các câu lệnh có sắc thái với độ chính xác cao hơn. Người dùng đã quan sát thấy rằng GPT-4.5 thể hiện khả năng nắm bắt sự tinh tế mạnh mẽ hơn, cho phép nó xử lý các truy vấn phức tạp hoặc mơ hồ hiệu quả hơn. Nó có thể phân biệt tốt hơn ý định cơ bản của một câu hỏi, dẫn đến các phản hồi phù hợp và hữu ích hơn.

Vấn đề lớn: Mối quan tâm về giá cả

Bất chấp những tiến bộ, giá của GPT-4.5 đã trở thành một điểm gây tranh cãi lớn. Mặc dù nó cung cấp những cải tiến so với GPT-4o, nhưng sự chênh lệch về chi phí là rất lớn. Đối với xử lý đầu vào, GPT-4.5 đắt hơn khoảng 30 lần và đối với tạo đầu ra, nó đắt hơn 15 lần. Mô hình định giá này đặt ra những câu hỏi nghiêm túc về giá trị đề xuất của mô hình mới.

Vấn đề cốt lõi là một trong những lợi nhuận giảm dần. Mặc dù GPT-4.5 chắc chắn lớn hơn và phức tạp hơn so với phiên bản tiền nhiệm, nhưng những cải tiến về hiệu suất dường như không tương xứng với mức tăng chi phí. Sự khác biệt này đã khiến nhiều người trong cộng đồng AI đặt câu hỏi liệu những lợi ích cận biên có biện minh cho việc tăng giá theo cấp số nhân hay không.

Giá cả quá cao có ý nghĩa quan trọng đối với khả năng tiếp cận. Nhiều nhà phát triển, đặc biệt là những người làm việc độc lập hoặc cho các doanh nghiệp nhỏ, có thể thấy GPT-4.5 đơn giản là nằm ngoài tầm với. Điều này tạo ra một rào cản gia nhập, có khả năng kìm hãm sự đổi mới và hạn chế việc áp dụng rộng rãi công nghệ.

Hãy xem xét một ví dụ thực tế: tóm tắt một cuốn tiểu thuyết dài 300.000 từ (khoảng 450.000 token) và tạo một báo cáo phân tích dài 50.000 token. Với GPT-4.5, tác vụ này sẽ có giá khoảng 41,25 đô la. Cùng một tác vụ sử dụng GPT-4 sẽ chỉ tốn 1,6 đô la. Sự tương phản rõ rệt này làm nổi bật gánh nặng tài chính mà GPT-4.5 đặt lên người dùng, đặc biệt là đối với các dự án quy mô lớn.

Chiến lược định giá này làm dấy lên lo ngại về khả năng chi trả và tính toàn diện trong bối cảnh phát triển AI. Các thực thể nhỏ hơn và các nhà nghiên cứu cá nhân có thể buộc phải lựa chọn các giải pháp thay thế rẻ hơn, mặc dù kém mạnh mẽ hơn, có khả năng cản trở khả năng cạnh tranh của họ với các tổ chức lớn hơn có thể đủ khả năng chi trả chi phí cao.

Khả năng Suy luận: Một Công việc Đang được Tiến hành

Mặc dù GPT-4.5 thể hiện những tiến bộ trong một số lĩnh vực, điều quan trọng là phải thừa nhận những hạn chế của nó. Mô hình được phát triển bằng cách sử dụng pretraining, supervised fine-tuning, và Reinforcement Learning from Human Feedback (RLHF). Tuy nhiên, nó vẫn chưa được tối ưu hóa cho các tác vụ suy luận nâng cao.

Điều này có nghĩa là bản phát hành hiện tại không mang lại những cải tiến đáng kể trong các lĩnh vực phụ thuộc nhiều vào kỹ năng suy luận mạnh mẽ, chẳng hạn như toán học và mã hóa. Những lĩnh vực này đòi hỏi một mức độ suy luận logic và giải quyết vấn đề sâu hơn mà GPT-4.5, ở trạng thái hiện tại, không có đầy đủ.

Đối với các tác vụ đòi hỏi khả năng suy luận mạnh mẽ, GPT-4o vẫn là mô hình hàng đầu. Có vẻ như chiến lược của OpenAI liên quan đến một cách tiếp cận theo từng giai đoạn, với bản phát hành ban đầu của GPT-4.5 tập trung vào các lĩnh vực như kiến thức chung, trải nghiệm người dùng và trí tuệ cảm xúc. Công ty có khả năng chuyển trọng tâm sang việc áp dụng đào tạo RL bổ sung cho GPT-4.5, đặc biệt để nâng cao khả năng suy luận của nó trong các lần lặp lại tiếp theo. Điều này cho thấy cam kết cải tiến liên tục, với các bản cập nhật trong tương lai có khả năng giải quyết những hạn chế hiện tại trong các tác vụ đòi hỏi nhiều suy luận.
Kỳ vọng là những cải tiến trong tương lai sẽ thu hẹp khoảng cách, cuối cùng định vị GPT-4.5 là một nhà lãnh đạo trong các ứng dụng dựa trên suy luận.

Tổng kết:

Việc phát hành GPT-4.5 thể hiện một bức tranh phức tạp. Nó cho thấy những tiến bộ trong một số lĩnh vực, đặc biệt là về trải nghiệm người dùng và trí tuệ cảm xúc. Tuy nhiên, mô hình định giá đặt ra những lo ngại đáng kể về khả năng tiếp cận và giá trị đề xuất tổng thể. Mặc dù mô hình thể hiện một bước tiến, nhưng hiệu quả chi phí của nó vẫn là một chủ đề tranh luận trong cộng đồng AI. Những hạn chế trong khả năng suy luận cũng làm nổi bật quá trình phát triển đang diễn ra, với các bản cập nhật trong tương lai dự kiến sẽ giải quyết những thiếu sót này. Quỹ đạo của GPT-4.5 sẽ phụ thuộc vào cách OpenAI điều hướng sự cân bằng giữa hiệu suất, chi phí và khả năng tiếp cận, cuối cùng xác định tác động của nó đối với bối cảnh AI rộng lớn hơn.