Giải mã DeepSeek: Sự trỗi dậy của cường quốc AI Trung Quốc

Nguồn gốc của DeepSeek: Từ Quỹ đầu cơ đến Phòng thí nghiệm AI

Nguồn gốc của DeepSeek gắn liền với thế giới tài chính định lượng. Nó được hỗ trợ bởi High-Flyer Capital Management, một quỹ đầu cơ Trung Quốc nổi tiếng với việc sử dụng AI trong việc đưa ra các quyết định giao dịch dựa trên dữ liệu.

Liang Wenfeng, một người đam mê AI với kinh nghiệm giao dịch trong thời gian học tại Đại học Chiết Giang, đồng sáng lập High-Flyer vào năm 2015. Năm 2019, ông ra mắt High-Flyer Capital Management với tư cách là một quỹ đầu cơ tập trung cụ thể vào việc phát triển và triển khai các thuật toán AI cho các ứng dụng tài chính.

Năm 2023, High-Flyer ươm tạo DeepSeek như một phòng thí nghiệm nghiên cứu AI chuyên dụng, hoạt động độc lập với hoạt động kinh doanh tài chính cốt lõi của mình. Sau đó, với High-Flyer là một nhà đầu tư chính, phòng thí nghiệm được tách ra thành một thực thể riêng biệt, giữ lại tên DeepSeek.

Ngay từ khi thành lập, DeepSeek đã ưu tiên thiết lập các cụm trung tâm dữ liệu của riêng mình để tạo điều kiện thuận lợi cho việc đào tạo mô hình. Tuy nhiên, tương tự như các công ty AI khác hoạt động tại Trung Quốc, DeepSeek đã gặp phải những thách thức do các hạn chế xuất khẩu của Hoa Kỳ đối với phần cứng tiên tiến. Do đó, để đào tạo các mô hình gần đây hơn, công ty đã phải sử dụng chip Nvidia H800, một biến thể kém mạnh mẽ hơn của chip H100, sẵn có cho các công ty Hoa Kỳ.

Đội ngũ kỹ thuật của DeepSeek được biết đến với sự trẻ trung và năng động. Công ty tích cực tuyển dụng các nhà nghiên cứu AI có bằng tiến sĩ từ các trường đại học hàng đầu của Trung Quốc. Hơn nữa, DeepSeek sử dụng những cá nhân từ nhiều nền tảng khác nhau, thậm chí những người không có chuyên môn về khoa học máy tính, để đảm bảo rằng công nghệ của họ có thể hiểu và phục vụ hiệu quả cho nhiều chủ đề khác nhau, theo báo cáo của The New York Times.

Các mô hình AI của DeepSeek: Thách thức hiện trạng

DeepSeek đã công bố bộ mô hình ban đầu của mình – DeepSeek Coder, DeepSeek LLM và DeepSeek Chat – vào tháng 11 năm 2023. Tuy nhiên, chính việc phát hành dòng mô hình DeepSeek-V2 thế hệ tiếp theo vào mùa xuân đã thực sự thu hút sự chú ý của ngành công nghiệp AI.

DeepSeek-V2, một hệ thống linh hoạt có khả năng phân tích cả văn bản và hình ảnh, đã thể hiện hiệu suất ấn tượng trên nhiều tiêu chuẩn AI khác nhau. Đáng chú ý, nó đã đạt được hiệu suất này với chi phí thấp hơn đáng kể so với các mô hình cạnh tranh có sẵn vào thời điểm đó. Điều này đã thúc đẩy các đối thủ trong nước của DeepSeek, bao gồm ByteDance và Alibaba, giảm giá một số mô hình của họ và cung cấp những mô hình khác hoàn toàn miễn phí.

DeepSeek V3 đã thể hiện hiệu suất vượt trội so với cả các mô hình mã nguồn mở có thể tải xuống như Llama của Meta và các mô hình "đóng" chỉ có thể truy cập thông qua API, chẳng hạn như GPT-4o của OpenAI.

Một điểm đáng chú ý không kém là mô hình "lý luận" R1 của DeepSeek. Được ra mắt vào tháng Giêng, DeepSeek khẳng định rằng R1 đạt được hiệu suất tương đương với mô hình o1 của OpenAI trên các tiêu chuẩn chính.

Là một mô hình lý luận, R1 kết hợp các cơ chế tự kiểm tra, giảm thiểu một số cạm bẫy phổ biến liên quan đến các mô hình tiêu chuẩn. Mặc dù các mô hình lý luận có thể yêu cầu thời gian xử lý lâu hơn một chút để đưa ra các giải pháp (từ vài giây đến vài phút), nhưng chúng có xu hướng thể hiện độ tin cậy cao hơn trong các lĩnh vực như vật lý, khoa học và toán học.

Tuy nhiên, các mô hình của DeepSeek, bao gồm R1 và DeepSeek V3, phải tuân theo sự giám sát của cơ quan quản lý internet của Trung Quốc, đảm bảo rằng các phản hồi của họ phù hợp với "các giá trị xã hội chủ nghĩa cốt lõi". Ví dụ, trong ứng dụng chatbot của DeepSeek, R1 sẽ không giải quyết các câu hỏi liên quan đến Quảng trường Thiên An Môn hoặc quyền tự trị của Đài Loan.

Vào tháng Ba, lưu lượng truy cập trang web của DeepSeek đã vượt quá 16,5 triệu lượt truy cập. Mặc dù giảm 25% lưu lượng truy cập so với tháng Hai, DeepSeek vẫn đứng thứ hai về số lượt truy cập hàng ngày, theo David Carr, biên tập viên tại Similarweb. Tuy nhiên, con số này vẫn còn thua xa ChatGPT, vốn đã vượt qua 500 triệu người dùng hoạt động hàng tuần vào tháng Ba.

Một cách tiếp cận đột phá đối với bối cảnh AI

Mô hình kinh doanh của DeepSeek vẫn còn hơi bí ẩn. Công ty định giá các sản phẩm và dịch vụ của mình thấp hơn đáng kể so với giá trị thị trường và thậm chí còn cung cấp một số sản phẩm miễn phí. Hơn nữa, nó đã chống lại nguồn vốn bên ngoài mặc dù có sự quan tâm đáng kể từ các công ty đầu tư mạo hiểm.

DeepSeek cho rằng khả năng cạnh tranh về chi phí cực cao của mình là do những đột phá về hiệu quả. Tuy nhiên, một số chuyên gia đã đặt câu hỏi về tính chính xác của các số liệu do công ty cung cấp.

Bất kể, các nhà phát triển đã chấp nhận các mô hình của DeepSeek, mặc dù không phải là mã nguồn mở theo nghĩa truyền thống, nhưng chúng có sẵn theo giấy phép cho phép sử dụng thương mại. Theo Clem Delangue, Giám đốc điều hành của Hugging Face, các nhà phát triển trên nền tảng đã tạo ra hơn 500 mô hình phái sinh của R1, tích lũy tổng cộng 2,5 triệu lượt tải xuống.

Thành công của DeepSeek trước các đối thủ lớn hơn, có uy tín hơn đã được mô tả là vừa "lật đổ AI" vừa "được thổi phồng quá mức". Thành tích của công ty một phần là nguyên nhân khiến giá cổ phiếu của Nvidia giảm 18% vào tháng Giêng và thúc đẩy phản hồi công khai từ Giám đốc điều hành OpenAI Sam Altman. Vào tháng Ba, các văn phòng của Bộ Thương mại Hoa Kỳ đã báo cáo cấm DeepSeek trên các thiết bị của chính phủ, theo Reuters.

Microsoft đã tích hợp DeepSeek vào dịch vụ Azure AI Foundry của mình, một nền tảng hợp nhất các dịch vụ AI cho các doanh nghiệp. Trong cuộc gọi thu nhập quý đầu tiên của Meta, Giám đốc điều hành Mark Zuckerberg tuyên bố rằng các khoản đầu tư vào cơ sở hạ tầng AI sẽ tiếp tục là một "lợi thế chiến lược" cho công ty, khi được hỏi về tác động tiềm tàng của DeepSeek đối với chi tiêu AI của Meta. Vào tháng Ba, OpenAI đã gọi DeepSeek là "được nhà nước trợ cấp" và "do nhà nước kiểm soát", đồng thời khuyến nghị chính phủ Hoa Kỳ xem xét cấm các mô hình của nó.

Trong cuộc gọi thu nhập quý IV của Nvidia, Giám đốc điều hành Jensen Huang đã nhấn mạnh "sự đổi mới xuất sắc" của DeepSeek, lưu ý rằng các mô hình lý luận của nó đòi hỏi sức mạnh tính toán lớn hơn đáng kể, mang lại lợi ích cho Nvidia.

Ngược lại, một số công ty, quốc gia và chính phủ, bao gồm Hàn Quốc và bang New York, đã cấm sử dụng DeepSeek trên các thiết bị của chính phủ.

Vào tháng Năm, Phó chủ tịch kiêm Chủ tịch Microsoft Brad Smith đã làm chứng trước Thượng viện rằng nhân viên Microsoft bị cấm sử dụng DeepSeek do lo ngại về bảo mật dữ liệu và khả năng tuyên truyền.

Tương lai không chắc chắn của DeepSeek

Quỹ đạo tương lai của DeepSeek vẫn chưa chắc chắn. Mặc dù những cải tiến mô hình hơn nữa được dự đoán, chính phủ Hoa Kỳ dường như ngày càng cảnh giác với ảnh hưởng nước ngoài có hại bị coi là. Vào tháng Ba, The Wall Street Journal đưa tin rằng Hoa Kỳ có khả năng cấm DeepSeek trên các thiết bị của chính phủ.

Sự trỗi dậy nhanh chóng của DeepSeek đã làm rung chuyển nền tảng của ngành công nghiệp AI một cách không thể phủ nhận, thúc đẩy việc đánh giá lại động lực cạnh tranh và tiềm năng cho sự đổi mới đột phá. Liệu nó có thể duy trì động lực hiện tại của mình trước sự giám sát ngày càng tăng và những thách thức về quy định hay không vẫn còn phải xem. Những năm tới sẽ là then chốt trong việc xác định tác động lâu dài của DeepSeek đối với bối cảnh AI toàn cầu. Khả năng điều hướng sự tương tác phức tạp giữa tiến bộ công nghệ, các cân nhắc địa chính trị và các mối quan tâm về đạo đức cuối cùng sẽ xác định di sản của nó. Thế giới AI sẽ theo dõi chặt chẽ.

Câu chuyệnDeepSeek là một lời nhắc nhở rằng trong thế giới trí tuệ nhân tạo phát triển nhanh chóng, những người chơi mới có thể nổi lên nhanh chóng và thách thức trật tự đã được thiết lập. Thành công của công ty, được thúc đẩy bởi công nghệ sáng tạo và sẵn sàng phá vỡ các mô hình kinh doanh truyền thống, đã buộc ngành công nghiệp phải chú ý. Khi DeepSeek tiếp tục phát triển và mở rộng phạm vi tiếp cận của mình, nó chắc chắn sẽ đóng một vai trò quan trọng trong việc định hình tương lai của AI.