Cuộc Chơi Đầy Rủi Ro Trong Cuộc Đua Phần Cứng AI Toàn Cầu
Bối cảnh phát triển trí tuệ nhân tạo ngày càng được định hình không chỉ bởi những đột phá về thuật toán mà còn bởi khả năng tiếp cận phần cứng tinh vi cần thiết để huấn luyện và chạy các mô hình khổng lồ. Trung tâm của phương trình phần cứng này là bộ xử lý đồ họa (GPU), một thành phần ban đầu được thiết kế để kết xuất hình ảnh nhưng giờ đây không thể thiếu cho các yêu cầu xử lý song song của AI. Trong nhiều năm, Nvidia Corporation đã đứng vững như một gã khổng lồ không thể tranh cãi trong lĩnh vực này, các GPU tiên tiến của họ trở thành tiêu chuẩn vàng, thúc đẩy sự đổi mới trên khắp Silicon Valley và xa hơn nữa. Tuy nhiên, sự thống trị này đã đặt công ty, và khách hàng của họ, trực tiếp vào tầm ngắm của những căng thẳng địa chính trị.
Việc Washington áp đặt các biện pháp kiểm soát xuất khẩu nghiêm ngặt nhằm hạn chế quyền truy cập của Trung Quốc vào công nghệ bán dẫn tiên tiến đã định hình lại thị trường một cách cơ bản. Những hạn chế này đặc biệt nhắm vào các GPU hiệu năng cao, như những sản phẩm do Nvidia sản xuất, được coi là quan trọng đối với các ứng dụng AI tiên tiến, bao gồm cả những ứng dụng có tiềm năng quân sự. Hiệu ứng tức thời là một cuộc tranh giành trong lĩnh vực công nghệ đang phát triển mạnh mẽ của Trung Quốc. Các công ty đầu tư mạnh vào AI, từ những gã khổng lồ đã thành danh đến các công ty khởi nghiệp đầy tham vọng, phải đối mặt với viễn cảnh đột ngột bị cắt đứt khỏi các công cụ thiết yếu thúc đẩy làn sóng tiến bộ công nghệ tiếp theo. Điều này tạo ra một mệnh lệnh cấp bách: tìm các giải pháp thay thế khả thi hoặc có nguy cơ tụt hậu trong một lĩnh vực cạnh tranh toàn cầu. Thách thức không chỉ đơn thuần là thay thế chip này bằng chip khác; nó liên quan đến việc điều hướng một mạng lưới phức tạp gồm các khác biệt về hiệu suất, vấn đề tương thích phần mềm và quy mô tuyệt đối cần thiết để huấn luyện các mô hình với hàng trăm tỷ, hoặc thậm chí hàng nghìn tỷ tham số.
Ant Group Vạch Ra Lộ Trình Hướng Tới Độc Lập Tính Toán
Trong bối cảnh chuỗi cung ứng không chắc chắn và sự cạnh tranh công nghệ ngày càng leo thang, Ant Group, gã khổng lồ fintech liên kết với Alibaba Group Holding, đã báo hiệu một bước tiến đáng kể hướng tới sự tự chủ tính toán lớn hơn. Những tiết lộ gần đây, được trình bày chi tiết trong một bài báo nghiên cứu của nhóm Ling của công ty – bộ phận đi đầu trong các sáng kiến mô hình ngôn ngữ lớn (LLM) – cho thấy một sự chuyển hướng thành công khỏi con đường phụ thuộc vào Nvidia. Cốt lõi của thành tựu này nằm ở khả năng huấn luyện hiệu quả một mô hình AI phức tạp bằng cách sử dụng GPU sản xuất trong nước.
Mô hình được đề cập, có tên là Ling-Plus-Base, không hề nhẹ ký. Nó được thiết kế bằng kiến trúc Mixture-of-Experts (MoE), một kỹ thuật đang ngày càng phổ biến vì hiệu quả trong việc mở rộng quy mô LLM. Tự hào với 300 tỷ tham số đáng kể, Ling-Plus-Base hoạt động trong cùng một giải đấu với các mô hình nổi bật khác trên toàn cầu. Tuy nhiên, yếu tố khác biệt quan trọng là phần cứng làm nền tảng cho quá trình huấn luyện của nó. Theo kết quả nghiên cứu, mô hình mạnh mẽ này có thể được nuôi dưỡng đến độ trưởng thành trên cái mà nhóm mô tả là “các thiết bị hiệu suất thấp hơn”. Cụm từ được lựa chọn cẩn thận này chỉ trực tiếp đến việc sử dụng các đơn vị xử lý nằm ngoài phạm vi hạn chế xuất khẩu của Hoa Kỳ, ám chỉ mạnh mẽ việc sử dụng các chip được thiết kế và sản xuất tại Trung Quốc.
Sự phát triển này không chỉ là một giải pháp kỹ thuật; nó đại diện cho một trục chiến lược tiềm năng. Bằng cách chứng minh khả năng huấn luyện các mô hình tiên tiến mà không hoàn toàn dựa vào phần cứng nước ngoài bị hạn chế, cấp cao nhất, Ant Group không chỉ giảm thiểu rủi ro chuỗi cung ứng mà còn có khả năng mở khóa hiệu quả chi phí đáng kể.
Phương Trình Kinh Tế: Cắt Giảm Chi Phí Huấn Luyện
Một trong những con số hấp dẫn nhất xuất hiện từ nghiên cứu của nhóm Ling là mức giảm 20% chi phí điện toán được báo cáo trong giai đoạn tiền huấn luyện (pre-training) quan trọng của mô hình Ling-Plus-Base. Tiền huấn luyện nổi tiếng là tốn nhiều tài nguyên, bao gồm việc cung cấp cho mô hình các bộ dữ liệu khổng lồ để học các mẫu ngôn ngữ, ngữ cảnh và kiến thức. Nó chiếm một phần lớn trong tổng chi phí liên quan đến việc phát triển các LLM nền tảng. Do đó, việc giảm một phần năm chi phí trong giai đoạn này đồng nghĩa với việc tiết kiệm đáng kể, có khả năng giải phóng vốn cho nghiên cứu, phát triển sâu hơn hoặc triển khai ở quy mô lớn.
Làm thế nào để đạt được việc tiết kiệm chi phí này? Mặc dù bài báo không nêu chi tiết phân tích chi phí chính xác, một số yếu tố có thể đóng góp:
- Mua sắm Phần cứng: Các GPU sản xuất trong nước, ngay cả khi kém mạnh mẽ hơn về mặt cá nhân so với các sản phẩm hàng đầu của Nvidia, có thể có giá mua thấp hơn hoặc cung cấp chiết khấu khối lượng thuận lợi hơn trong thị trường Trung Quốc, đặc biệt là khi xem xét nguồn cung hạn chế của chip Nvidia cao cấp.
- Hiệu quả Năng lượng: Mặc dù không được nêu rõ ràng, việc tối ưu hóa quá trình huấn luyện cho các chip nội địa có khả năng tiêu thụ ít năng lượng hơn (mặc dù có thể kém hiệu quả hơn trên mỗi đơn vị) có thể góp phần giảm chi phí năng lượng vận hành, một yếu tố quan trọng trong việc vận hành các trung tâm dữ liệu lớn.
- Tối ưu hóa Thuật toán và Kiến trúc: Việc sử dụng kiến trúc MoE là chìa khóa. Các mô hình MoE chỉ kích hoạt các mạng con “chuyên gia” cụ thể cho một đầu vào nhất định, thay vì задействовать toàn bộ mô hình như các kiến trúc dày đặc. Tính thưa thớt vốn có này có thể làm giảm đáng kể tải tính toán trong cả quá trình huấn luyện và suy luận (inference), giúp đạt được kết quả tốt ngay cả với sức mạnh xử lý thô trên mỗi chip ít hơn. Thành công của Ant cho thấy sự tinh chỉnh phần mềm và thuật toán phức tạp để tối đa hóa hiệu quả của phần cứng nội địa có sẵn.
Việc giảm chi phí này không chỉ đơn thuần là lợi ích kế toán; nó hạ thấp rào cản gia nhập để phát triển các mô hình quy mô lớn và có thể đẩy nhanh tốc độ đổi mới AI trong công ty và có khả năng lan rộng ra hệ sinh thái công nghệ Trung Quốc rộng lớn hơn nếu các phương pháp này chứng tỏ có thể nhân rộng.
Ngang Bằng Hiệu Suất: Thu Hẹp Khoảng Cách Phần Cứng?
Tiết kiệm chi phí rất hấp dẫn, nhưng chúng có ít ý nghĩa nếu mô hình AI kết quả hoạt động kém hiệu quả đáng kể. Nhóm Ling của Ant giải quyết trực tiếp vấn đề này, khẳng định rằng Ling-Plus-Base đạt được hiệu suất tương đương với các mô hình uy tín khác trong lĩnh vực này. Cụ thể, họ đã đánh giá (benchmark) sản phẩm của mình so với các mô hình như Qwen2.5-72B-Instruct (do công ty mẹ Alibaba phát triển) và DeepSeek-V2.5-1210-Chat, một LLM nổi bật khác của Trung Quốc.
Tuyên bố về “hiệu suất tương đương” mặc dù sử dụng “các thiết bị hiệu suất thấp hơn” là đáng chú ý. Nó cho thấy rằng Ant có khả năng đã tìm ra những cách hiệu quả để bù đắp cho bất kỳ sự thiếu hụt tính toán thô nào thông qua:
- Kiến trúc Mô hình Tiên tiến: Thiết kế MoE đóng vai trò quan trọng ở đây, phân phối khối lượng công việc một cách hiệu quả.
- Tối ưu hóa Phần mềm: Việc điều chỉnh ngăn xếp phần mềm huấn luyện (như các khung song song hóa và thư viện số) đặc biệt cho kiến trúc của các GPU nội địa đang được sử dụng là rất quan trọng. Điều này thường đòi hỏi nỗ lực kỹ thuật đáng kể.
- Quản lý Dữ liệu và Kỹ thuật Huấn luyện: Các phương pháp tinh vi để lựa chọn dữ liệu huấn luyện và tinh chỉnh chính quy trình huấn luyện có thể tác động đáng kể đến chất lượng mô hình cuối cùng, đôi khi bù đắp cho những hạn chế về phần cứng.
Điều quan trọng là phải tiếp cận các tuyên bố về hiệu suất một cách tinh tế. “Tương đương” có thể bao gồm một loạt các kết quả trên các bài kiểm tra đánh giá khác nhau (ví dụ: hiểu ngôn ngữ, suy luận, tạo sinh, viết mã). Nếu không có quyền truy cập vào kết quả đánh giá chi tiết trên nhiều bài kiểm tra tiêu chuẩn hóa, việc so sánh chính xác vẫn còn khó khăn. Tuy nhiên, bản thân lời khẳng định này báo hiệu sự tự tin của Ant rằng cách tiếp cận của họ không đòi hỏi sự đánh đổi gây tê liệt giữa chi phí/khả năng tiếp cận và năng lực. Nó chứng tỏ một con đường để duy trì khả năng cạnh tranh ngay cả trong những hạn chế do hạn chế phần cứng gây ra.
Chính các nhà nghiên cứu đã nhấn mạnh những hàm ý rộng lớn hơn: “Những kết quả này chứng minh tính khả thi của việc huấn luyện các mô hình MoE quy mô lớn, tiên tiến trên phần cứng kém mạnh mẽ hơn, cho phép một cách tiếp cận linh hoạt và tiết kiệm chi phí hơn để phát triển mô hình nền tảng đối với việc lựa chọn tài nguyên điện toán.” Điều này hướng tới một sự dân chủ hóa nào đó, cho phép phát triển AI tiên tiến tiếp tục ngay cả khi quyền truy cập vào đỉnh cao tuyệt đối của sức mạnh xử lý bị hạn chế.
Hiểu Rõ Ưu Điểm Của Mixture-of-Experts (MoE)
Kiến trúc Mixture-of-Experts là trung tâm của thành công được báo cáo của Ant Group. Nó đại diện cho một sự khác biệt so với các mô hình mạng nơ-ron “dày đặc” truyền thống, nơi mọi đầu vào đều kích hoạt mọi tham số. Trong một mô hình MoE:
- Mô hình bao gồm nhiều mạng “chuyên gia” nhỏ hơn, chuyên biệt hóa.
- Một cơ chế “mạng cổng” (gating network) hoặc “bộ định tuyến” (router) học cách hướng dữ liệu đầu vào (token, trong trường hợp LLM) đến (các) chuyên gia phù hợp nhất để xử lý.
- Chỉ (các) chuyên gia được chọn – thường chỉ một hoặc hai trong số hàng trăm chuyên gia tiềm năng – thực hiện các phép tính cho phần dữ liệu cụ thể đó.
Cách tiếp cận này mang lại một số lợi thế chính, đặc biệt phù hợp trong bối cảnh hạn chế về phần cứng:
- Khả năng mở rộng (Scalability): MoE cho phép các mô hình phát triển đến số lượng tham số khổng lồ (hàng nghìn tỷ đang trở nên khả thi) mà không cần tăng tương ứng chi phí tính toán để xử lý mỗi token đầu vào trong quá trình suy luận hoặc thậm chí trong các bước huấn luyện. Điều này là do chỉ một phần nhỏ trong tổng số tham số hoạt động tại bất kỳ thời điểm nào.
- Hiệu quả Huấn luyện: Mặc dù việc huấn luyện các mô hình MoE có những phức tạp riêng (như cân bằng tải giữa các chuyên gia), việc giảm tính toán trên mỗi token có thể chuyển thành thời gian huấn luyện nhanh hơn hoặc, như Ant chứng minh, khả năng huấn luyện hiệu quả trên phần cứng kém mạnh mẽ hơn trong các khung thời gian hợp lý.
- Chuyên môn hóa: Mỗi chuyên gia có khả năng chuyên môn hóa về các loại dữ liệu, nhiệm vụ hoặc lĩnh vực kiến thức khác nhau, có khả năng dẫn đến kết quả đầu ra chất lượng cao hơn trong các lĩnh vực cụ thể.
Các phòng thí nghiệm AI hàng đầu trên toàn thế giới đã áp dụng MoE, bao gồm Google (GShard, Switch Transformer), Mistral AI (các mô hình Mixtral), và tại Trung Quốc, các công ty như DeepSeek và Alibaba (các mô hình Qwen của họ kết hợp các yếu tố MoE). Ling-Plus-Base của Ant đặt vững chắc nó vào đội tiên phong này, tận dụng sự đổi mới kiến trúc để điều hướng thực tế phần cứng.
Hệ Sinh Thái Phần Cứng Nội Địa: Lấp Đầy Khoảng Trống Nvidia
Mặc dù bài báo nghiên cứu của Ant không nêu tên rõ ràng phần cứng được sử dụng, các báo cáo sau đó, đáng chú ý là của Bloomberg, chỉ ra rằng thành tích này liên quan đến các chip được thiết kế trong nước. Điều này bao gồm các bộ xử lý có khả năng bắt nguồn từ công ty liên kết của Ant, Alibaba, vốn có đơn vị thiết kế chip riêng T-Head (sản xuất các CPU như Yitian 710 và trước đây đã khám phá các bộ tăng tốc AI), và quan trọng là Huawei Technologies.
Huawei, mặc dù phải đối mặt với các lệnh trừng phạt gay gắt của Hoa Kỳ, đã tích cực phát triển dòng máy gia tốc AI Ascend của mình (như Ascend 910B) như một giải pháp thay thế trực tiếp cho các sản phẩm của Nvidia tại thị trường Trung Quốc. Các chip này được cho là đang được các công ty công nghệ lớn của Trung Quốc áp dụng. Khả năng của Ant Group trong việc sử dụng hiệu quả phần cứng như vậy cho một mô hình lớn như Ling-Plus-Base sẽ đại diện cho một sự xác nhận đáng kể về các giải pháp thay thế trong nước này.
Điều quan trọng cần lưu ý là Ant Group chưa hoàn toàn từ bỏ Nvidia. Các báo cáo cho thấy rằng chip Nvidia vẫn là một phần trong bộ công cụ phát triển AI của Ant, có khả năng được sử dụng cho các tác vụ mà đặc tính hiệu suất cụ thể hoặc hệ sinh thái phần mềm trưởng thành của chúng (như CUDA) mang lại lợi thế, hoặc cho các hệ thống cũ. Động thái này không nhất thiết là về việc thay thế hoàn toàn chỉ sau một đêm mà là về việc xây dựng các con đường song song, khả thi giúp giảm thiểu lỗ hổng chiến lược và kiểm soát chi phí. Cách tiếp cận kết hợp này cho phép công ty tận dụng các công cụ tốt nhất hiện có đồng thời nuôi dưỡng sự độc lập. Bản thân Ant Group duy trì một mức độ kín đáo của công ty, từ chối bình luận chính thức về các chip cụ thể được sử dụng.
Xu Hướng Rộng Hơn: Nỗ Lực Tập Thể Của Trung Quốc Vì Tự Cường AI
Sáng kiến của Ant Group không diễn ra một cách biệt lập. Nó phản ánh một nỗ lực chiến lược rộng lớn hơn trên toàn ngành công nghệ Trung Quốc nhằm đổi mới xung quanh những hạn chế do các biện pháp kiểm soát xuất khẩu của Hoa Kỳ áp đặt. “Cuộc chiến công nghệ” đã xúc tác các nỗ lực nhằm đạt được sự tự chủ lớn hơn trong các công nghệ quan trọng, đặc biệt là bán dẫn và AI.
Các công ty lớn khác đang theo đuổi các mục tiêu tương tự:
- ByteDance: Công ty mẹ của TikTok cũng được cho là đang nỗ lực đảm bảo và sử dụng các chip thay thế, bao gồm cả các lựa chọn trong nước, cho tham vọng AI của mình, bao gồm các thuật toán đề xuất, AI tạo sinh, v.v.
- DeepSeek: Công ty khởi nghiệp AI này, nổi tiếng với các mô hình mã nguồn mở mạnh mẽ, đề cập rõ ràng đến hiệu quả huấn luyện và đã phát triển các mô hình sử dụng kiến trúc MoE, phù hợp với các chiến lược ít phụ thuộc hơn vào việc chỉ có các đội ngũ lớn gồm các GPU mạnh nhất.
- Baidu, Tencent, và những công ty khác: Tất cả các công ty công nghệ và đám mây lớn của Trung Quốc đều đang đầu tư mạnh vào AI và chắc chắn đang khám phá các chiến lược đa dạng hóa phần cứng, bao gồm tối ưu hóa cho chip nội địa và có khả năng phát triển silicon tùy chỉnh của riêng họ.
Thông điệp chung rất rõ ràng: trong khi việc tiếp cận các sản phẩm hàng đầu của Nvidia vẫn là điều mong muốn, ngành công nghệ Trung Quốc đang tích cực phát triển và xác nhận các giải pháp thay thế. Điều này liên quan đến một cách tiếp cận đa hướng: áp dụng các kiến trúc mô hình hiệu quả như MoE, tối ưu hóa phần mềm mạnh mẽ cho các phần cứng phụ trợ khác nhau, và hỗ trợ phát triển và áp dụng các chip sản xuất trong nước.
Vượt Ra Ngoài Mô Hình Ngôn Ngữ: Mở Rộng AI Của Ant Trong Lĩnh Vực Chăm Sóc Sức Khỏe
Nỗ lực AI của Ant Group vượt ra ngoài các LLM nền tảng. Đồng thời với tin tức về hiệu quả huấn luyện của mình, công ty đã công bố những nâng cấp đáng kể cho bộ giải pháp AI phù hợp với lĩnh vực chăm sóc sức khỏe. Sáng kiến này tận dụng một mô hình AI riêng biệt, tự phát triển tập trung vào chăm sóc sức khỏe.
Các giải pháp nâng cấp có khả năng đa phương thức (xử lý các loại dữ liệu khác nhau như văn bản, hình ảnh và có khả năng là các dữ liệu y tế khác) và khả năng suy luận y tế tinh vi. Chúng được tích hợp vào cái mà Ant mô tả là “máy tất cả trong một”, có lẽ là các thiết bị hoặc nền tảng được thiết kế cho môi trường lâm sàng hoặc quản lý sức khỏe.
Mặc dù có vẻ tách biệt với tin tức về LLM Ling-Plus-Base, nhưng có một mối liên hệ tiềm ẩn. Khả năng huấn luyện các mô hình AI mạnh mẽ một cách hiệu quả hơn về chi phí, có khả năng sử dụng hỗn hợp phần cứng bao gồm các lựa chọn trong nước, có thể củng cố tính khả thi kinh tế của việc phát triển và triển khai các mô hình chuyên biệt cho các lĩnh vực như chăm sóc sức khỏe. Việc giảm chi phí nền tảng của phát triển AI cho phép các nguồn lực được chuyển vào các ứng dụng dành riêng cho từng lĩnh vực, có khả năng đẩy nhanh việc triển khai các công cụ AI thực tế trong các ngành công nghiệp quan trọng. Động lực chăm sóc sức khỏe này nhấn mạnh tham vọng của Ant trong việc áp dụng rộng rãi chuyên môn AI của mình, vượt ra ngoài nguồn gốc fintech.
Hàm Ý Cho Tương Lai: Một Ngã Rẽ Trên Con Đường AI?
Việc Ant Group huấn luyện thành công một mô hình MoE quy mô lớn bằng cách sử dụng các GPU không phải của Nvidia, có khả năng là GPU nội địa, mang những hàm ý quan trọng:
- Xác nhận cho Chip Nội địa: Nó đóng vai trò là bằng chứng quan trọng cho tính khả thi của các bộ tăng tốc AI do Trung Quốc thiết kế như Ascend của Huawei, có khả năng thúc đẩy việc áp dụng chúng tại Trung Quốc.
- Bối cảnh Cạnh tranh: Nó chứng tỏ rằng các công ty Trung Quốc có thể duy trì khả năng cạnh tranh trong phát triển AI tiên tiến bất chấp các hạn chế, tận dụng sự đổi mới về kiến trúc và phần mềm.
- Động lực Chi phí: Việc giảm 20% chi phí làm nổi bật lợi thế cạnh tranh tiềm năng cho các công ty có khả năng sử dụng hiệu quả phần cứng thay thế, có khả năng ảnh hưởng đến giá cả và khả năng tiếp cận AI toàn cầu.
- Vị thế của Nvidia: Mặc dù Nvidia vẫn thống trị trên toàn cầu, xu hướng này nhấn mạnh những thách thức mà hãng phải đối mặt tại thị trường Trung Quốc quan trọng do các quy định và sự trỗi dậy của các đối thủ cạnh tranh địa phương. Nó có thể đẩy nhanh việc Nvidia phát triển các chip tuân thủ quy định xuất khẩu phù hợp với Trung Quốc, nhưng cũng xác nhận con đường thay thế.
- Phân nhánh Công nghệ?: Về lâu dài, sự phân kỳ liên tục trong việc tiếp cận phần cứng và tối ưu hóa phần mềm có thể dẫn đến các hệ sinh thái AI phần nào khác biệt, với các mô hình và công cụ được tối ưu hóa cho các loại silicon cơ bản khác nhau.
Hành trình mà nhóm Ling của Ant Group thực hiện là biểu tượng cho sự tháo vát được thúc đẩy bởi những hạn chế địa chính trị. Bằng cách kết hợp khéo léo các kiến trúc mô hình tiên tiến như MoE với sự sẵn lòng tối ưu hóa và sử dụng phần cứng nội địa có sẵn, họ đã vạch ra một lộ trình đảm bảo sự tiến bộ liên tục trong lĩnh vực trí tuệ nhân tạo quan trọng, có khả năng định hình lại cấu trúc chi phí và sự phụ thuộc chiến lược xác định ngành công nghiệp. Đó là một minh chứng cho ý tưởng rằng sự đổi mới thường phát triển mạnh mẽ nhất dưới áp lực.