Baidu ra mắt ERNIE X1 và 4.5

ERNIE X1 và ERNIE 4.5: Những kẻ thách thức mới trong lĩnh vực AI của Baidu

Baidu, một thế lực thống trị trong bối cảnh công nghệ của Trung Quốc, đã tung ra hai bản cập nhật quan trọng cho mô hình nền tảng ERNIE (Enhanced Representation through Knowledge Integration) của mình. Các phiên bản mới này, ERNIE X1ERNIE 4.5, thể hiện phản ứng chiến lược của Baidu trước bối cảnh AI toàn cầu ngày càng cạnh tranh, đặc biệt là những tiến bộ của cả các công ty Trung Quốc và Mỹ. Các mô hình này không chỉ là những nâng cấp gia tăng; chúng được thiết kế để cạnh tranh trực tiếp với một số hệ thống AI tiên tiến nhất hiện có, tự hào với các khả năng mà theo Baidu, ngang bằng hoặc vượt trội so với các đối thủ của họ. Cả hai mô hình đều có thể truy cập được cho người dùng thông qua chatbot ERNIE Bot và Baidu có kế hoạch tích hợp theo từng giai đoạn vào phạm vi sản phẩm rộng hơn của mình, bao gồm cả Baidu Search hàng đầu.

Thời điểm phát hành này là rất quan trọng. Lĩnh vực AI tạo sinh đang trải qua giai đoạn đổi mới nhanh chóng và cạnh tranh gay gắt, đặc biệt tập trung vào sự năng động giữa Trung Quốc và Hoa Kỳ. DeepSeek, một công ty khởi nghiệp AI của Trung Quốc, đã thu hút sự chú ý của ngành vào đầu năm 2025 với R1, một mô hình suy luận nguồn mở được cho là vượt trội hơn các mô hình AI hàng đầu với chi phí thấp hơn đáng kể. Động thái này đã đưa DeepSeek vượt lên trước các đối thủ cạnh tranh ở cả Trung Quốc và Hoa Kỳ, bao gồm cả Baidu. Tuy nhiên, Baidu là một trong những công ty Trung Quốc đầu tiên giới thiệu đối thủ cạnh tranh với ChatGPT, ERNIE Bot.

ERNIE X1 và ERNIE 4.5: Cái nhìn cận cảnh hơn về các mô hình mới của Baidu

ERNIE X1 và ERNIE 4.5, mặc dù cả hai đều được phát triển bởi Baidu, là các mô hình nền tảng riêng biệt được thiết kế cho các ứng dụng khác nhau:

  • ERNIE X1: Mô hình này được định vị là một công cụ suy luận hiệu quả cao, thách thức trực tiếp các mô hình như DeepSeek R1 và o3 mini của OpenAI. Nó được thiết kế cho các tác vụ đòi hỏi xử lý logic phức tạp và giải quyết vấn đề nhiều bước.

  • ERNIE 4.5: Mô hình này là một AI đa phương thức lớn, có khả năng xử lý và hiểu các dạng phương tiện khác nhau – văn bản, hình ảnh, âm thanh và video. Nó cạnh tranh với các mô hình như GPT-4o và Gemini của Google.

Sự xuất hiện của R1 của DeepSeek đã thúc đẩy sự thay đổi trong các ưu tiên của những người chơi AI lớn như Google, OpenAI, Anthropic và xAI. Các công ty này bắt đầu tập trung vào hiệu quả và khả năng chi trả, cùng với quy mô mô hình thô. Việc Baidu giới thiệu ERNIE X1, đặc biệt, thể hiện sự gia nhập của họ vào cuộc đua AI toàn cầu này, cung cấp hiệu suất tương đương với R1 và các mô hình khác, có khả năng ở mức giá cạnh tranh hơn nữa.

Baidu nhấn mạnh rằng năm 2025 là một năm then chốt cho sự phát triển của các mô hình ngôn ngữ lớn và các công nghệ liên quan. Thông cáo báo chí của công ty nhấn mạnh cam kết liên tục đầu tư vào trí tuệ nhân tạo, trung tâm dữ liệu và cơ sở hạ tầng đám mây, nhằm nâng cao hơn nữa khả năng AI của mình và phát triển các mô hình thế hệ tiếp theo thậm chí còn mạnh mẽ hơn.

ERNIE X1: Đi sâu vào suy luận tư duy sâu

ERNIE X1 là một mô hình ngôn ngữ được thiết kế đặc biệt cho “suy luận tư duy sâu”. Điều này phân biệt nó với các mô hình ngôn ngữ truyền thống vượt trội trong việc tạo ra các phản hồi nhanh, dựa trên mẫu. Ngược lại, các mô hình suy luận được thiết kế để phân tích các vấn đề phức tạp thành một loạt các bước logic. Chúng đánh giá các giải pháp tiềm năng khác nhau và tinh chỉnh câu trả lời của mình trước khi đưa ra kết quả cuối cùng. Điều này làm cho chúng đặc biệt phù hợp với các tác vụ liên quan đến lập kế hoạch nhiều bước, suy luận logic và giải quyết vấn đề phức tạp.

Baidu cho rằng khả năng suy luận của ERNIE X1 là nhờ một số kỹ thuật tiên tiến, bao gồm:

  • Progressive Reinforcement Learning: Điều này cho thấy một quá trình học lặp đi lặp lại, trong đó mô hình liên tục cải thiện hiệu suất của mình thông qua phản hồi.
  • End-to-End Training: Điều này ngụ ý một phương pháp đào tạo toàn diện, trong đó toàn bộ mô hình được tối ưu hóa đồng thời, thay vì theo từng giai đoạn riêng biệt.
  • Chains of Thought and Action: Kỹ thuật này có khả năng cho phép mô hình tuân theo một chuỗi các bước logic, bắt chước quá trình suy nghĩ của con người.
  • Unified Multi-faceted Reward System: Điều này cho thấy một hệ thống tinh vi để đánh giá và khen thưởng hiệu suất của mô hình trên các khía cạnh khác nhau của suy luận.

Mặc dù Baidu chưa tiết lộ chi tiết kỹ thuật đầy đủ, nhưng các phương pháp này cho thấy sự tập trung vào học tập lặp đi lặp lại, hiểu ngữ cảnh và suy luận có cấu trúc – những điểm mạnh cũng là đặc điểm của các mô hình suy luận thành công khác.

Trong các ứng dụng thực tế, Baidu tuyên bố ERNIE X1 thể hiện “khả năng nâng cao trong việc hiểu, lập kế hoạch, phản ánh và phát triển”. Công ty nhấn mạnh sự thành thạo của mình trong các lĩnh vực như:

  • Literary Creation: Tạo các định dạng văn bản sáng tạo.
  • Manuscript Writing: Hỗ trợ soạn thảo các tài liệu dài hơn.
  • Dialogue: Tham gia vào các cuộc hội thoại tự nhiên và mạch lạc.
  • Logical Reasoning: Giải quyết các vấn đề đòi hỏi suy luận logic.
  • Complex Calculations: Thực hiện các phép toán phức tạp.
  • ‘Chinese Knowledge’: Khả năng không được chỉ định này có thể đề cập đến sự hiểu biết sâu sắc về ngôn ngữ, văn hóa và bối cảnh Trung Quốc.

Do đó, ERNIE X1 được hình dung để cung cấp năng lượng cho một loạt các ứng dụng đa dạng, bao gồm:

  • Search Engines: Nâng cao kết quả tìm kiếm với sự hiểu biết sắc thái hơn.
  • Document Summarization and Q&A: Cung cấp các bản tóm tắt ngắn gọn và câu trả lời chính xác cho các câu hỏi.
  • Image Understanding and Generation: Giải thích và tạo nội dung trực quan.
  • Code Interpretation: Phân tích và hiểu mã lập trình.
  • Webpage Analysis: Trích xuất thông tin chính từ các trang web.
  • Mind Mapping: Tạo các biểu diễn trực quan của các ý tưởng và khái niệm.
  • Academic Research: Hỗ trợ các nhiệm vụ nghiên cứu trên nhiều lĩnh vực khác nhau.
  • Business and Franchise Information Search: Cung cấp thông tin liên quan cho các yêu cầu kinh doanh.

ERNIE X1: Điểm chuẩn so với đối thủ cạnh tranh

Mặc dù Baidu chưa công bố điểm chuẩn cụ thể hoặc đánh giá chi tiết cho ERNIE X1, nhưng họ khẳng định rằng hiệu suất của mô hình “ngang bằng với” DeepSeek R1, trong khi được cung cấp với “chỉ bằng một nửa giá”. Hiện tại, Baidu chưa cung cấp so sánh với các mô hình suy luận khác trên thị trường. Việc thiếu dữ liệu so sánh chi tiết này khiến việc đánh giá đầy đủ vị thế cạnh tranh của ERNIE X1 trở nên khó khăn, nhưng tuyên bố về hiệu suất tương đương với chi phí thấp hơn chắc chắn là đáng chú ý.

ERNIE 4.5: Nắm bắt khả năng đa phương thức gốc

ERNIE 4.5 được Baidu giới thiệu là một “mô hình đa phương thức gốc”. Điều này có nghĩa là nó được thiết kế để tích hợp và hiểu liền mạch các dạng phương tiện khác nhau – văn bản, hình ảnh, âm thanh và video – trong một khung thống nhất. Không giống như nhiều hệ thống AI xử lý các loại phương tiện khác nhau một cách riêng biệt, ERNIE 4.5 được thiết kế để kết hợp các phương thức này và thậm chí chuyển đổi giữa chúng (ví dụ: văn bản sang âm thanh và ngược lại).

Baidu nhấn mạnh rằng ERNIE 4.5 “đạt được tối ưu hóa hợp tác thông qua mô hình hóa chung của nhiều phương thức, thể hiện khả năng hiểu đa phương thức đặc biệt”. Điều này cho thấy một phương pháp tinh vi, trong đó mô hình học cách hiểu và liên hệ thông tin trên các loại phương tiện khác nhau.

Ngoài khả năng đa phương thức, ERNIE 4.5 còn tự hào có “kỹ năng ngôn ngữ tinh tế”, nâng cao khả năng hiểu và tạo, cũng như khả năng suy luận logic, bộ nhớ và mã hóa. Baidu cũng nhấn mạnh “trí thông minh mạnh mẽ” và “nhận thức ngữ cảnh” của mô hình, đặc biệt là khả năng nhận ra nội dung sắc thái như meme trên internet và phim hoạt hình châm biếm. Điều này cho thấy sự tập trung vào việc không chỉ hiểu nghĩa đen của nội dung mà còn cả bối cảnh văn hóa và xã hội của nó.

Hơn nữa, Baidu tuyên bố rằng ERNIE 4.5 ít bị “ảo giác” hơn – một vấn đề phổ biến trong AI, nơi các mô hình tạo ra thông tin sai lệch hoặc gây hiểu lầm có thể có vẻ hợp lý ngay từ cái nhìn đầu tiên. Đây là một cải tiến quan trọng, vì ảo giác có thể làm suy yếu độ tin cậy và độ tin cậy của các hệ thống AI.

Baidu ghi nhận những tiến bộ này cho một số công nghệ chính, bao gồm:

  • Spatiotemporal Representation Compression: Điều này có thể đề cập đến các kỹ thuật để biểu diễn và xử lý hiệu quả thông tin thay đổi theo thời gian và không gian, chẳng hạn như nội dung video.
  • Knowledge-Centric Training Data Construction: Điều này cho thấy sự tập trung vào việc xây dựng các tập dữ liệu đào tạo phong phú về kiến thức thực tế.
  • Self-Feedback Enhanced Post-Training: Điều này ngụ ý một cơ chế mà mô hình có thể học hỏi từ đầu ra của chính nó và cải thiện hiệu suất của nó theo thời gian.
  • Heterogeneous Multimodal Mixture-of-Experts (MoE): Phương pháp này sử dụng các mô hình “chuyên gia” nhỏ hơn, chuyên biệt chỉ được kích hoạt khi cần thiết. Điều này tối ưu hóa hiệu suất và giảm chi phí tính toán. Các mô hình MoE thường nhỏ hơn và tiết kiệm chi phí hơn so với các mô hình dựa trên biến áp truyền thống, nhưng chúng có thể đạt được hiệu suất tương đương hoặc thậm chí vượt trội, khiến chúng trở thành một lựa chọn hấp dẫn cho phát triển AI.

Trong tương lai, các báo cáo chỉ ra rằng Baidu có kế hoạch phát hành ERNIE 5 vào cuối năm 2025, hứa hẹn “những cải tiến lớn” trong khả năng đa phương thức của nó. Điều này cho thấy cam kết liên tục vượt qua các ranh giới của AI đa phương thức.

ERNIE 4.5: Phân tích so sánh

Baidu đã so sánh trực tiếp khả năng đa phương thức của ERNIE 4.5 với GPT-4o của OpenAI. Công ty tuyên bố rằng ERNIE 4.5 vượt trội hơn GPT-4o trong hầu hết các bài kiểm tra, ngoại trừ MMU (Massive Multi-discipline Understanding). MMU đánh giá các mô hình trên một loạt các tác vụ cấp đại học đòi hỏi kiến thức chuyên sâu về chủ đề và suy luận có chủ ý. Điều này cho thấy rằng trong khi ERNIE 4.5 vượt trội trong nhiều lĩnh vực, GPT-4o vẫn có thể giữ lợi thế trong các tác vụ đòi hỏi kiến thức học thuật chuyên biệt.

Baidu cũng trình bày kết quả điểm chuẩn cho thấy ERNIE 4.5 vượt trội hơn GPT-4o và GPT-4.5 của OpenAI, cũng như V3 của DeepSeek, trong một số lĩnh vực khác, bao gồm:

  • C-Eval: Điểm chuẩn này đánh giá kiến thức và khả năng suy luận nâng cao trên nhiều lĩnh vực khác nhau, từ nhân văn đến khoa học và kỹ thuật. Hiệu suất mạnh mẽ của ERNIE 4.5 ở đây cho thấy sự hiểu biết rộng về các chủ đề đa dạng.
  • CMMLU: Điểm chuẩn này đánh giá kiến thức và khả năng suy luận trong bối cảnh cụ thể của ngôn ngữ và văn hóa Trung Quốc. Thành công của ERNIE 4.5 ở đây làm nổi bật sự thành thạo của nó trong lĩnh vực này.
  • GSM8K: Điểm chuẩn này đánh giá suy luận nhiều bước bằng cách sử dụng các bài toán cấp tiểu học. Hiệu suất của ERNIE 4.5 cho thấy khả năng mạnh mẽ trong suy luận toán học.
  • DROP: Điểm chuẩn này đo lường khả năng đọc hiểu của LLM. Kết quả của ERNIE 4.5 cho thấy mức độ hiểu văn bản cao.

Tuy nhiên, điều quan trọng cần thừa nhận là nhiều điểm chuẩn mà ERNIE 4.5 thể hiện hiệu suất vượt trội đã được tập trung cụ thể vào ngôn ngữ và văn hóa Trung Quốc. Điều này có thể giải thích một phần lý do tại sao GPT-4o và GPT-4.5, các mô hình được phát triển bởi một công ty Mỹ, không hoạt động tốt. Tuy nhiên, ERNIE 4.5 cũng vượt trội hơn DeepSeek-V3, một mô hình được phát triển bởi một công ty Trung Quốc, trên nhiều điểm chuẩn này, cho thấy lợi thế cạnh tranh thực sự trong bối cảnh Trung Quốc.

Ngược lại, ERNIE 4.5 được báo cáo là không hoạt động tốt trên một số điểm chuẩn khác, bao gồm:

  • MMLU-Pro: Điểm chuẩn này đánh giá sự hiểu biết ngôn ngữ trên một tập hợp các tác vụ rộng hơn và thách thức hơn. GPT-4.5 vượt trội hơn ERNIE 4.5 ở đây, cho thấy lợi thế tiềm năng trong việc hiểu ngôn ngữ chung.
  • GPQA: Điểm chuẩn này bao gồm một tập dữ liệu các câu hỏi trắc nghiệm được viết bởi các chuyên gia về sinh học, vật lý và hóa học. GPT-4.5 một lần nữa vượt trội hơn ERNIE 4.5, cho thấy sự hiểu biết mạnh mẽ hơn về kiến thức khoa học chuyên ngành.
  • Math-500: Điểm chuẩn này kiểm tra khả năng giải các bài toán cấp trung học phổ thông đầy thách thức. Cả DeepSeek-V3 và GPT-4.5 đều vượt trội hơn ERNIE 4.5, cho thấy cần phải cải thiện hơn nữa trong suy luận toán học nâng cao.
  • LiveCodeBench: Điểm chuẩn này đo lường khả năng mã hóa. GPT-4.5 vượt trội hơn ERNIE 4.5, cho thấy lợi thế tiềm năng trong việc tạo và hiểu mã.

Mặc dù GPT-4.5 có hiệu suất vượt trội trên một số điểm chuẩn, Baidu nhấn mạnh rằng ERNIE 4.5 có giá chỉ bằng 1% so với mô hình của OpenAI. Sự khác biệt đáng kể về chi phí này có thể khiến ERNIE 4.5 trở thành một lựa chọn rất hấp dẫn cho các doanh nghiệp và nhà phát triển đang tìm kiếm một giải pháp AI đa phương thức hiệu quả về chi phí.

Truy cập ERNIE X1 và ERNIE 4.5

ERNIE 4.5 hiện có thể truy cập thông qua API của nó và trên nền tảng MaaS (Model-as-a-Service) của Baidu AI Cloud, Qianfan. Giá đầu vào bắt đầu từ 0,004 RMB trên một nghìn token và giá đầu ra bắt đầu từ 0,016 RMB trên một nghìn token. Baidu tuyên bố rằng ERNIE X1 sẽ có mặt trên nền tảng “sớm”, với giá đầu vào bắt đầu từ 0,002 RMB trên một nghìn token và giá đầu ra bắt đầu từ 0,008 RMB trên một nghìn token.

Người dùng cũng có thể tương tác với cả hai mô hình thông qua chatbot của Baidu, ERNIE Bot, cung cấp giao diện thuận tiện và thân thiện với người dùng để khám phá khả năng của chúng.

Cấu trúc giá cụ thể và chi tiết về tính khả dụng làm nổi bật cam kết của Baidu trong việc làm cho các mô hình AI tiên tiến này có thể truy cập được cho nhiều người dùng, từ các nhà phát triển cá nhân đến các doanh nghiệp lớn. Giá cả cạnh tranh, đặc biệt là đối với ERNIE X1, định vị Baidu là một đối thủ mạnh mẽ trên thị trường AI toàn cầu, cung cấp một giải pháp thay thế hấp dẫn cho các mô hình từ các gã khổng lồ công nghệ Mỹ.