Vào bình minh năm 2025, một sự kiện chấn động đã xảy ra trong lĩnh vực trí tuệ nhân tạo: sự ra mắt của DeepSeek-R1 bởi nhóm nghiên cứu Trung Quốc, DeepSeek. Mô hình ngôn ngữ mã nguồn mở với 671 tỷ tham số này nhanh chóng khẳng định mình là một đối thủ đáng gờm, cạnh tranh với các mô hình hàng đầu của OpenAI trong các lĩnh vực quan trọng như toán học, lập trình và suy luận logic. Khả năng giải quyết các vấn đề phức tạp của DeepSeek-R1 đặc biệt đáng chú ý, nhờ việc sử dụng học tăng cường. Giấy phép MIT của mô hình này cũng phá vỡ bối cảnh bằng cách dỡ bỏ các rào cản thương mại. Tiếng vang từ sự ra mắt của DeepSeek-R1 đã lan rộng khắp thế giới công nghệ và thậm chí cả thị trường tài chính, được cho là đã gây ra sự sụt giảm đáng kể trong cổ phiếu AI trong vòng một tuần sau khi phát hành.
DeepSeek-R1 biểu thị một bước tiến đáng kể cho phong trào AI mã nguồn mở của Trung Quốc trong lĩnh vực các mô hình ngôn ngữ cao cấp. Thách thức bất ngờ này đã thúc đẩy các nhà lãnh đạo AI toàn cầu từ Hoa Kỳ và Trung Quốc đẩy nhanh các sáng kiến của họ, tiết lộ các chiến lược của họ cả về công nghệ và định vị thị trường. Điều này đã bắt đầu một cuộc đua AI xung quanh mô hình DeepSeek-R1.
Hãy xem xét cách các công ty lớn trong lĩnh vực AI – Meta, Google, OpenAI, Anthropic, Alibaba và Baidu – đã phản ứng với sự cạnh tranh mới này.
Meta: Tận Dụng Quy Mô và Hiệu Quả với LLaMA 4
Meta, một công ty đi đầu trong cộng đồng mô hình mã nguồn mở, đã phản ứng với DeepSeek R1 bằng cách giới thiệu LLaMA 4. Vào tháng 4 năm 2025, Meta đã ra mắt LLaMA 4, mô hình mạnh mẽ nhất của họ cho đến nay, cung cấp quyền truy cập API thông qua các nền tảng như Cloudflare. LLaMA 4 sử dụng kiến trúc Mixture-of-Experts (MoE), chia mô hình thành các mô hình con và chỉ kích hoạt một phần trong số chúng trong mỗi lần suy luận. Thiết kế này cân bằng các tham số quy mô lớn với hiệu quả suy luận.
Dòng LLaMA 4 có một số mô hình con, bao gồm "Scout", với tổng số 109 tỷ tham số và chỉ 17 tỷ tham số hoạt động, cho phép nó chạy trên một thẻ H100 duy nhất. Mô hình "Maverick" có tổng số 400 tỷ tham số (128 chuyên gia) nhưng vẫn chỉ có 17 tỷ tham số hoạt động, yêu cầu một cụm DGX. Thiết kế này cho phép LLaMA 4 hỗ trợ các cửa sổ ngữ cảnh lên đến 10 triệu mã thông báo, khiến nó trở thành một trong những mô hình mã nguồn mở đầu tiên cung cấp khả năng này. Điều này đặc biệt hữu ích để tóm tắt các tài liệu dài và phân tích các kho mã lớn.
LLaMA 4 duy trì thời gian phản hồi nhanh chóng và hỗ trợ các đầu vào đa phương thức cho hình ảnh, âm thanh và video, nhờ kiến trúc MoE của nó. Meta đã chọn một chiến lược hiệu quả, tăng cường khả năng đa phương thức và hợp lý hóa các hoạt động của mình, để củng cố vị thế của mình trong lĩnh vực mã nguồn mở trong khi DeepSeek tập trung vào khả năng suy luận.
Google: Sự Phát Triển của Gemini Hướng Tới Các Tác Nhân Thông Minh Tự Động
Đối mặt với áp lực kết hợp từ OpenAI và DeepSeek, Google đã chọn một chiến lược đổi mới công nghệ. Vào tháng 2 năm 2025, Google đã giới thiệu dòng Gemini 2.0, bao gồm các phiên bản Flash, Pro và Lite, báo hiệu một động thái hướng tới khả năng "tác nhân thông minh".
Khả năng tác nhân của Gemini 2.0 thể hiện một bước tiến đáng kể. Mô hình có thể hiểu nhiều phương thức và chủ động sử dụng các công cụ tìm kiếm, hộp cát mã và duyệt web. Dự án Mariner của Google cho phép các hoạt động trình duyệt Chrome do AI điều khiển, cho phép AI điền vào các biểu mẫu và nhấp vào các nút.
Google cũng đã giới thiệu giao thức Agent2Agent, cho phép các tác nhân thông minh khác nhau giao tiếp và làm việc cùng nhau, để hỗ trợ hệ sinh thái tác nhân của mình. Ngoài ra, họ đã tạo ra Agent Garden, một công cụ và bộ phát triển để khuyến khích các nhà phát triển bên thứ ba tham gia.
Google đang xác định lại các kịch bản cốt lõi của kỷ nguyên tiếp theo bằng cách tập trung vào sự hợp tác của các tác nhân thông minh khi AI phát triển hướng tới các khả năng dựa trên công cụ và tự động, trái ngược với việc tập trung vào cuộc đua tham số với DeepSeek và OpenAI. Sự phát triển của Gemini thể hiện một sự thay đổi chiến lược và không chỉ là một bản nâng cấp mô hình.
OpenAI: Lặp Lại Mô Hình và Tích Hợp Hệ Sinh Thái để Đảm Bảo Độ Tin Cậy và Khả Năng Lãnh Đạo
OpenAI đã tăng tốc độ lặp lại mô hình và triển khai sản phẩm của mình để đáp ứng với DeepSeek R1. Vào tháng 2 năm 2025, OpenAI đã ra mắt GPT-4.5, một phiên bản tạm thời của GPT-4, cải thiện tính nhất quán logic và độ chính xác thực tế, đồng thời mở đường cho GPT-5.
GPT-4.5 được coi là mô hình chính cuối cùng không bao gồm suy luận chuỗi tư duy. GPT-5 sẽ kết hợp các tính năng của mô hình suy luận thử nghiệm o3-mini và dòng GPT để tạo ra một "mô hình nhận thức chung" thống nhất. OpenAI cũng đã tuyên bố rằng GPT-5 sẽ có mức độ thông minh và khả năng sử dụng công cụ có thể điều chỉnh cao.
OpenAI quyết định cho phép người dùng miễn phí của ChatGPT sử dụng phiên bản cơ bản của GPT-5, trong khi người dùng trả phí sẽ có quyền truy cập vào các tính năng nâng cao hơn để giảm nguy cơ người dùng chuyển sang các giải pháp thay thế mã nguồn mở. Chiến lược này nhằm mục đích giữ chân người dùng bằng phạm vi phủ sóng rộng.
OpenAI cũng đang tích hợp các khả năng như plugin, trình duyệt và trình thực thi mã vào mô hình lõi GPT, trái ngược với việc giữ chúng riêng biệt, để tạo ra một "AI đầy đủ tính năng". OpenAI đang đáp ứng thách thức của R1 bằng cách tích hợp và tăng mật độ thông minh một cách có hệ thống.
Anthropic: Làm Sâu Sắc Trí Thông Minh Mạnh Mẽ với Ngân Sách Suy Luận và Tư Duy Hỗn Hợp
Anthropic đã giới thiệu Claude 3.7 Sonnet vào tháng 2 năm 2025, tập trung vào "suy luận hỗn hợp" và "ngân sách tư duy". Người dùng có thể chọn "chế độ tiêu chuẩn" để có phản hồi nhanh hoặc bật "chế độ mở rộng" để tư duy sâu hơn, từng bước.
Phương pháp này tương tự như "suy nghĩ nhiều hơn" khi mọi người phải đối mặt với những nhiệm vụ khó khăn, vì nó cho phép AI mất nhiều thời gian hơn để suy luận nhằm cải thiện độ chính xác. Anthropic cũng cho phép người dùng đặt "thời gian suy nghĩ" để cân bằng độ sâu suy luận và chi phí gọi.
Claude 3.7 vượt trội so với người tiền nhiệm của nó, 3.5, trong các nhiệm vụ khó khăn như lập trình và suy luận, và là một trong số ít các mô hình trong ngành tập trung vào tính minh bạch của quá trình suy luận. Khả năng mã của nó cũng đạt được tỷ lệ chính xác 70,3% trong các đánh giá gần đây nhất.
Claude 3.7 thể hiện cam kết của Anthropic đối với "trí thông minh có thể kiểm soát" bằng cách tập trung vào việc tạo ra các mô hình có mô hình tư duy có thể giải thích, ổn định và tùy chỉnh, trái ngược với việc theo đuổi xếp chồng tham số. Anthropic đang tiến bộ đều đặn theo tốc độ của riêng mình trong "cuộc đua suy luận" do R1 thúc đẩy.
Alibaba: Xây Dựng Hệ Sinh Thái Mã Nguồn Mở Của Trung Quốc với Qwen
Damo Academy của Alibaba đã nhanh chóng cập nhật dòng mô hình Qwen của mình chỉ một tuần sau khi DeepSeek R1 được phát hành, phát hành dòng Qwen 2.5 vào tháng 2 năm 2025 và dòng Qwen 3 mới vào cuối tháng 4, thể hiện khả năng đáp ứng sản phẩm mạnh mẽ và tầm nhìn chiến lược.
Dòng Qwen 3 bao gồm các phiên bản mô hình từ 600 triệu đến 235 tỷ tham số. Nó sử dụng kiến trúc MoE để duy trì hiệu suất mô hình trong khi sử dụng ít tài nguyên tính toán hơn. Mô hình hàng đầu, Qwen3-235B-A22B, chỉ yêu cầu bốn GPU hiệu suất cao để triển khai bằng cách tối ưu hóa các tham số kích hoạt, giảm đáng kể rào cản gia nhập để các doanh nghiệp triển khai các mô hình lớn. Trong một số thử nghiệm tiêu chuẩn, hiệu suất tổng thể của Qwen 3 vượt trội so với các mô hình quốc tế hàng đầu như DeepSeek R1, OpenAI o1 và Gemini 2.5 Pro.
Alibaba đặc biệt chú trọng đến việc xây dựng một hệ sinh thái mã nguồn mở, ngoài khả năng cạnh tranh công nghệ. Qwen 3 hoàn toàn là mã nguồn mở theo giấy phép Apache 2.0, với trọng số mở, mã đào tạo và công cụ triển khai, hỗ trợ các ứng dụng đa ngôn ngữ (119 ngôn ngữ) và đa phương thức, với mục tiêu tạo ra một mô hình nền tảng có thể được sử dụng và tùy chỉnh trực tiếp bởi các nhà phát triển toàn cầu.
Chiến lược "công nghệ + hệ sinh thái" của Alibaba bổ sung cho phong cách đột phá gọn nhẹ của DeepSeek. Một bên nhấn mạnh sự lặp lại nhanh chóng và suy luận hàng đầu, trong khi bên kia nhấn mạnh xây dựng hệ sinh thái và cân bằng quy mô và sự đa dạng. Qwen đang dần khẳng định mình là "trung tâm hệ sinh thái" của các mô hình lớn mã nguồn mở trên thị trường nội địa, một phản ứng ổn định đối với sự gián đoạn ngành do DeepSeek gây ra.
Baidu: Nâng Cao Đa Phương Thức và Các Công Cụ Plugin với Bản Nâng Cấp của ERNIE Bot
Baidu đã nâng cấp đáng kể mô hình hàng đầu của mình, ERNIE Bot, vào tháng 3, phát hành ERNIE Bot 4.5 và ERNIE X1 để thử nghiệm công khai. ERNIE X1 được định vị là một "mô hình tư duy sâu sắc", tập trung vào việc nâng cao khả năng hiểu, lập kế hoạch và thực hiện các nhiệm vụ phức tạp của AI.
ERNIE 4.5 là mô hình lớn đa phương thức gốc đầu tiên của Baidu, hỗ trợ mô hình hóa chung văn bản, hình ảnh, âm thanh và video. Phiên bản này cũng giảm đáng kể việc tạo ra ảo giác và cải thiện khả năng hiểu mã và suy luận logic, vượt qua mức GPT-4.5 trong nhiều tác vụ kịch bản tiếng Trung.
Baidu đang xây dựng một "hệ sinh thái công cụ AI" hữu ích hơn. Mô hình X1 có thể sử dụng các chức năng tìm kiếm, hỏi đáp tài liệu, đọc PDF, thực thi mã, nhận dạng hình ảnh, truy cập web và truy vấn thông tin kinh doanh để thực sự nhận ra "khả năng thực hành" của AI, lặp lại lộ trình tác nhân của Google Gemini.
Baidu cũng thông báo rằng họ sẽ mở mã nguồn một số tham số của mô hình ERNIE vào cuối tháng 6 năm 2025 và tiếp tục mở rộng tích hợp ứng dụng với khách hàng cấp doanh nghiệp. Dòng ERNIE đang chuyển đổi từ một sản phẩm vòng kín sang một hệ sinh thái nền tảng, thu hút các nhà phát triển và doanh nghiệp thông qua API và hệ thống plugin.
Thay vì cạnh tranh trực tiếp với R1 và Qwen trong không gian mã nguồn mở, Baidu đang tận dụng sự tích lũy sâu sắc của mình trong nội dung tiếng Trung, dịch vụ tìm kiếm và biểu đồ tri thức để tích hợp sâu sắc mô hình với các kịch bản sản phẩm như tìm kiếm, văn phòng và luồng thông tin, tạo ra một danh mục sản phẩm AI bản địa hóa hơn.
Tóm lại, việc phát hành DeepSeek R1 không chỉ là một bước đột phá về công nghệ; nó là một chất xúc tác trong đấu trường AI toàn cầu. Nó đã buộc các gã khổng lồ phải cải thiện hiệu suất suy luận, thúc đẩy các công ty trong nước cạnh tranh để có mã nguồn mở và thúc đẩy các công ty Mỹ đẩy nhanh sự phát triển của các tác nhân, tích hợp và đa phương thức.
Mặc dù các phản ứng của các gã khổng lồ AI Trung Quốc và Mỹ khác nhau, nhưng mục tiêu của họ là như nhau: tạo ra các mô hình lớn mạnh mẽ hơn, đáng tin cậy hơn và linh hoạt hơn và giành chiến thắng trong cuộc cạnh tranh ba bên về công nghệ, hệ sinh thái và người dùng. Quá trình này còn lâu mới kết thúc. Khi GPT-5, Gemini 3, Claude 4 và thậm chí DeepSeek R2 và Qwen 4 được phát hành liên tiếp, AI toàn cầu đang bước vào một giai đoạn mới của "sự trỗi dậy xoắn ốc".
Đối với người dùng doanh nghiệp và nhà phát triển, cuộc cạnh tranh này sẽ mang lại nhiều lựa chọn hơn, chi phí thấp hơn và các công cụ mô hình lớn mạnh mẽ hơn. Khả năng AI toàn cầu đang lan rộng và dân chủ hóa với tốc độ chưa từng có và bước đột phá công nghệ quyết định tiếp theo có thể đã trên đường đi.