Chiến lược bán dẫn đa dạng của Ant Group cho AI

Trong đấu trường đầy cạnh tranh của phát triển trí tuệ nhân tạo (AI), việc tiếp cận công nghệ bán dẫn tiên tiến thường quyết định tốc độ đổi mới. Đối với các gã khổng lồ công nghệ Trung Quốc, việc tiếp cận này ngày càng trở nên phức tạp, bị định hình bởi căng thẳng địa chính trị và các biện pháp kiểm soát xuất khẩu nghiêm ngặt do Hoa Kỳ áp đặt. Giữa bối cảnh đầy thách thức này, Ant Group, gã khổng lồ fintech liên kết với Alibaba, đang tạo ra một con đường riêng biệt. Công ty đang triển khai chiến lược một hỗn hợp không đồng nhất các chất bán dẫn, có nguồn gốc từ cả nhà cung cấp Mỹ và trong nước, để thúc đẩy tham vọng AI của mình, đặc biệt tập trung vào việc nâng cao hiệu quả và hiệu quả chi phí của việc huấn luyện các mô hình AI phức tạp.

Cách tiếp cận có tính toán này không chỉ là một giải pháp kỹ thuật; nó đại diện cho một sự thích ứng chiến lược cơ bản. Bằng cách cố tình tích hợp chip từ nhiều nhà sản xuất khác nhau, bao gồm cả các lựa chọn thay thế tự sản xuất, Ant Group nhằm mục đích giảm thiểu rủi ro liên quan đến gián đoạn chuỗi cung ứng và giảm sự phụ thuộc vào bất kỳ nhà cung cấp đơn lẻ nào, đặc biệt là những nhà cung cấp chịu sự hạn chế thương mại quốc tế. Sự đa dạng hóa này rất quan trọng để đảm bảo tính liên tục và khả năng phục hồi của quy trình nghiên cứu và phát triển AI của công ty. Mục tiêu cốt lõi là kép: duy trì đà đổi mới AI đồng thời tối ưu hóa các chi phí đáng kể thường liên quan đến việc huấn luyện các mô hình quy mô lớn.

Sức mạnh của Chuyên môn hóa: Áp dụng Mixture of Experts (MoE)

Trọng tâm trong chiến lược phần cứng của Ant Group là việc áp dụng kiến trúc AI tiên tiến được gọi là Mixture of Experts (MoE). Kỹ thuật này đại diện cho một sự khác biệt đáng kể so với các mô hình AI nguyên khối truyền thống, nơi một mạng nơ-ron khổng lồ duy nhất cố gắng học và xử lý tất cả các khía cạnh của một nhiệm vụ nhất định. Ngược lại, phương pháp MoE sử dụng một cấu trúc phân tán và chuyên biệt hơn. Nó hoạt động giống như một ủy ban gồm các chuyên gia hơn là một nhà tổng quát duy nhất.

Hãy tưởng tượng một vấn đề phức tạp đòi hỏi kiến thức đa dạng. Thay vì dựa vào một nhà bác học duy nhất, bạn tập hợp một đội: một nhà toán học, một nhà ngôn ngữ học, một nhà sử học và có lẽ là một nhà vật lý. Một ‘mạng cổng’ (gating network) hoạt động như một người điều phối, phân tích các nhiệm vụ hoặc điểm dữ liệu đến và định tuyến chúng một cách thông minh đến mô hình ‘chuyên gia’ phù hợp nhất trong hệ thống lớn hơn. Mỗi mô hình chuyên gia được huấn luyện để xuất sắc trong các loại đầu vào hoặc nhiệm vụ phụ cụ thể. Ví dụ, trong một mô hình ngôn ngữ, một chuyên gia có thể chuyên về hiểu biệt ngữ kỹ thuật, một chuyên gia khác về phong cách viết sáng tạo và một chuyên gia thứ ba về đối thoại hội thoại.

Ưu điểm chính của thiết kế mô-đun này nằm ở hiệu quả tính toán của nó. Trong quá trình huấn luyện hoặc suy luận (khi mô hình đưa ra dự đoán), chỉ các mô hình chuyên gia có liên quan và mạng cổng được kích hoạt cho một đầu vào nhất định. Tính toán chọn lọc này hoàn toàn trái ngược với các mô hình dày đặc (dense models), nơi toàn bộ mạng, với hàng tỷ hoặc thậm chí hàng nghìn tỷ tham số, phải được tham gia vào mọi phép tính đơn lẻ. Do đó, các mô hình MoE có thể đạt được hiệu suất tương đương hoặc thậm chí vượt trội so với các đối tác dày đặc của chúng trong khi yêu cầu ít sức mạnh tính toán hơn đáng kể và do đó, ít năng lượng hơn.

Ant Group đã tận dụng lợi thế kiến trúc này một cách hiệu quả. Nghiên cứu nội bộ và ứng dụng thực tế đã chứng minh rằng MoE cho phép công ty đạt được kết quả huấn luyện mạnh mẽ ngay cả khi sử dụng phần cứng kém mạnh hơn, sẵn có hơn hoặc chi phí thấp hơn. Theo những phát hiện được công ty chia sẻ, việc triển khai chiến lược MoE này đã cho phép giảm đáng kể 20% chi phí điện toán liên quan đến việc huấn luyện các mô hình AI của mình. Việc tối ưu hóa chi phí này không chỉ là một khoản tiết kiệm nhỏ; đó là một yếu tố hỗ trợ chiến lược, cho phép Ant theo đuổi các dự án AI đầy tham vọng mà không nhất thiết phải chỉ dựa vào các bộ xử lý đồ họa (GPU) đắt tiền nhất, hàng đầu mà các công ty Trung Quốc ngày càng khó mua được. Lợi ích về hiệu quả này trực tiếp giải quyết các hạn chế về phần cứng do môi trường bên ngoài áp đặt.

Một Tấm thảm Silicon: Danh mục Phần cứng của Ant

Việc triển khai thực tế chiến lược của Ant Group liên quan đến việc điều hướng một bối cảnh bán dẫn phức tạp. Cơ sở hạ tầng huấn luyện AI của công ty được cho là được cung cấp bởi một loạt các chip đa dạng, phản ánh cam kết của họ đối với sự linh hoạt và khả năng phục hồi. Điều này bao gồm silicon được thiết kế nội bộ bởi công ty liên kết của nó, Alibaba, có khả năng đề cập đến các chip được phát triển bởi đơn vị bán dẫn T-Head của Alibaba. Hơn nữa, Ant kết hợp các chip từ Huawei, một gã khổng lồ công nghệ khác của Trung Quốc đã đầu tư mạnh vào việc phát triển các bộ tăng tốc AI của riêng mình (như dòng Ascend) để đối phó với các lệnh trừng phạt của Mỹ.

Mặc dù Ant Group trong lịch sử đã sử dụng các GPU hiệu năng cao từ Nvidia, nhà lãnh đạo không thể tranh cãi trong thị trường huấn luyện AI, các biện pháp kiểm soát xuất khẩu đang thay đổi của Mỹ đã đòi hỏi một sự thay đổi. Các quy định này đặc biệt hạn chế việc bán các bộ tăng tốc AI tiên tiến nhất cho các thực thể Trung Quốc, với lý do lo ngại về an ninh quốc gia. Mặc dù Nvidia vẫn có thể cung cấp các chip có thông số kỹ thuật thấp hơn cho thị trường Trung Quốc, Ant Group dường như đang tích cực mở rộng cơ sở nhà cung cấp của mình để bù đắp cho việc hạn chế tiếp cận các sản phẩm Nvidia hàng đầu.

Sự đa dạng hóa này nổi bật với các chip từ Advanced Micro Devices (AMD). AMD đã nổi lên như một đối thủ cạnh tranh đáng kể với Nvidia trong lĩnh vực điện toán hiệu năng cao và AI, cung cấp các GPU mạnh mẽ là một giải pháp thay thế khả thi cho một số khối lượng công việc nhất định. Bằng cách kết hợp phần cứng AMD cùng với các tùy chọn trong nước từ Alibaba và Huawei, Ant xây dựng một môi trường điện toán không đồng nhất. Cách tiếp cận kết hợp này, mặc dù có khả năng tăng thêm độ phức tạp trong tối ưu hóa phần mềm và quản lý khối lượng công việc, nhưng lại cung cấp sự linh hoạt quan trọng. Nó cho phép công ty điều chỉnh việc sử dụng phần cứng dựa trên tính sẵn có, chi phí và nhu cầu tính toán cụ thể của các mô hình và nhiệm vụ AI khác nhau, do đó tránh được các tắc nghẽn do phụ thuộc vào một nguồn duy nhất, bị hạn chế.

Bối cảnh của chiến lược này là mạng lưới phức tạp của các biện pháp kiểm soát xuất khẩu của Mỹ. Các biện pháp này đã được thắt chặt dần dần, nhằm mục đích kiềm chế sự tiến bộ của Trung Quốc trong sản xuất bán dẫn tiên tiến và phát triển AI. Mặc dù ban đầu tập trung vào các chip cao cấp nhất tuyệt đối, các hạn chế đã phát triển, ảnh hưởng đến một loạt phần cứng và thiết bị sản xuất bán dẫn rộng hơn. Ví dụ, Nvidia đã phải tạo ra các phiên bản cụ thể, hiệu năng thấp hơn của các chip AI hàng đầu của mình (như A800 và H800, có nguồn gốc từ A100 và H100) cho thị trường Trung Quốc để tuân thủ các quy định này. Chiến lược của Ant trong việc chấp nhận các giải pháp thay thế từ AMD và các công ty trong nước là một phản ứng trực tiếp, thực dụng đối với áp lực pháp lý này, thể hiện nỗ lực duy trì khả năng cạnh tranh AI trong các ràng buộc nhất định.

AI trong Hành động: Chuyển đổi Dịch vụ Chăm sóc Sức khỏe

Những tiến bộ của Ant Group về hiệu quả AI không chỉ là những bài tập lý thuyết; chúng đang được tích cực chuyển đổi thành các ứng dụng trong thế giới thực, với sự tập trung đáng chú ý vào lĩnh vực chăm sóc sức khỏe. Công ty gần đây đã công bố những cải tiến đáng kể cho các giải pháp AI phù hợp với ngành chăm sóc sức khỏe, nhấn mạnh tác động thực tế của chiến lược công nghệ cơ bản của mình.

Các khả năng AI nâng cấp này được cho là đã được sử dụng tại một số cơ sở chăm sóc sức khỏe nổi tiếng ở các thành phố lớn của Trung Quốc, bao gồm Beijing, Shanghai, Hangzhou (trụ sở của Ant) và Ningbo. Bảy bệnh viện và tổ chức chăm sóc sức khỏe lớn đang tận dụng AI của Ant để cải thiện các khía cạnh khác nhau trong hoạt động và chăm sóc bệnh nhân của họ.

Nền tảng của mô hình AI chăm sóc sức khỏe của Ant tự nó là một ví dụ về sự đổi mới hợp tác và tận dụng các thế mạnh công nghệ đa dạng. Nó được xây dựng dựa trên sự kết hợp của các mô hình ngôn ngữ lớn (LLM) mạnh mẽ:

  • Các mô hình R1 và V3 của DeepSeek: DeepSeek là một công ty nghiên cứu AI đáng chú ý của Trung Quốc được biết đến với việc phát triển các mô hình mã nguồn mở có năng lực, thường đạt được các điểm chuẩn hiệu suất mạnh mẽ.
  • Qwen của Alibaba: Đây là dòng mô hình ngôn ngữ lớn độc quyền được phát triển bởi công ty liên kết của Ant, Alibaba, bao gồm nhiều kích cỡ và khả năng khác nhau.
  • Mô hình BaiLing của chính Ant: Điều này cho thấy những nỗ lực nội bộ của Ant Group trong việc phát triển các mô hình AI riêng biệt phù hợp với nhu cầu cụ thể của mình, có khả năng kết hợp dữ liệu và chuyên môn về tài chính và có thể cả về chăm sóc sức khỏe.

Nền tảng đa mô hình này cho phép giải pháp AI chăm sóc sức khỏe khai thác một cơ sở kiến thức và khả năng rộng lớn. Theo Ant Group, hệ thống này thành thạo trong việc giải quyết các truy vấn về một loạt các chủ đề y tế, có khả năng phục vụ như một công cụ có giá trị cho cả các chuyên gia chăm sóc sức khỏe tìm kiếm thông tin nhanh chóng và bệnh nhân tìm kiếm kiến thức y tế tổng quát (mặc dù việc phân định rõ ràng vai trò của nó so với tư vấn y tế chuyên nghiệp là rất quan trọng).

Ngoài việc truy xuất thông tin, công ty tuyên bố rằng mô hình AI được thiết kế để nâng cao dịch vụ bệnh nhân. Mặc dù các chi tiết cụ thể đang được hé lộ, điều này có thể bao gồm một loạt các ứng dụng, chẳng hạn như:

  • Phân loại Thông minh: Hỗ trợ ưu tiên nhu cầu của bệnh nhân dựa trên các triệu chứng được mô tả.
  • Lên lịch và Quản lý Cuộc hẹn: Tự động hóa và tối ưu hóa quy trình đặt lịch.
  • Theo dõi Sau Xuất viện: Cung cấp lời nhắc tự động hoặc kiểm tra tiến trình hồi phục của bệnh nhân.
  • Hỗ trợ Hành chính: Giúp nhân viên y tế với các nhiệm vụ tài liệu, tóm tắt hoặc nhập dữ liệu, giải phóng thời gian cho việc chăm sóc bệnh nhân trực tiếp.

Việc triển khai tại các bệnh viện lớn đánh dấu một bước quan trọng trong việc xác nhận tiện ích của công nghệ và điều hướng sự phức tạp của lĩnh vực chăm sóc sức khỏe, vốn liên quan đến các yêu cầu nghiêm ngặt về độ chính xác, độ tin cậy và quyền riêng tư dữ liệu.

Vạch ra một Lộ trình Vượt ra ngoài các GPU Cao cấp

Nhìn về phía trước, chiến lược của Ant Group dường như phù hợp với một tham vọng rộng lớn hơn trong ngành công nghệ Trung Quốc: đạt được hiệu suất AI tiên tiến mà không chỉ dựa vào các GPU tiên tiến nhất, thường bị hạn chế. Công ty được cho là có kế hoạch mô phỏng con đường được thực hiện bởi các tổ chức như DeepSeek, tập trung vào các phương pháp để mở rộng quy mô các mô hình AI hiệu suất cao ‘mà không cần GPU cao cấp’.

Tham vọng này báo hiệu niềm tin rằng những đổi mới về kiến trúc (như MoE), tối ưu hóa phần mềm và việc sử dụng thông minh phần cứng đa dạng, có khả năng kém mạnh hơn có thể cùng nhau thu hẹp khoảng cách hiệu suất do hạn chế tiếp cận silicon hàng đầu tạo ra. Đó là một chiến lược một phần xuất phát từ sự cần thiết do kiểm soát xuất khẩu, nhưng nó cũng phản ánh một con đường tiềm năng bền vững hướng tới phát triển AI hiệu quả hơn về chi phí và dân chủ hóa hơn.

Để đạt được mục tiêu này bao gồm việc khám phá các con đường khác nhau ngoài MoE:

  • Hiệu quả Thuật toán: Phát triển các thuật toán AI mới yêu cầu ít sức mạnh tính toán hơn để huấn luyện và suy luận.
  • Kỹ thuật Tối ưu hóa Mô hình: Sử dụng các phương pháp như lượng tử hóa (quantization - giảm độ chính xác của các số được sử dụng trong tính toán) và cắt tỉa (pruning - loại bỏ các phần dư thừa của mạng nơ-ron) để làm cho mô hình nhỏ hơn và nhanh hơn mà không làm giảm hiệu suất đáng kể.
  • Khung Phần mềm: Tạo ra phần mềm tinh vi có thể quản lý và phân phối hiệu quả khối lượng công việc AI trên các môi trường phần cứng không đồng nhất, tối đa hóa việc sử dụng các tài nguyên điện toán có sẵn.
  • Phần cứng Nội địa Chuyên dụng: Tiếp tục đầu tư và sử dụng các bộ tăng tốc AI được phát triển bởi các công ty Trung Quốc như Huawei (Ascend), Alibaba (T-Head) và có thể cả những công ty khác, được thiết kế đặc biệt cho các nhiệm vụ AI.

Việc Ant Group theo đuổi con đường này, cùng với những người khác trong hệ sinh thái công nghệ của Trung Quốc, có thể có những tác động đáng kể. Nếu thành công, nó có thể chứng minh rằng vị trí dẫn đầu trong AI không chỉ phụ thuộc vào việc có quyền truy cập vào các chip nhanh nhất tuyệt đối, mà còn phụ thuộc vào sự đổi mới trong phần mềm, kiến trúc và tối ưu hóa cấp hệ thống. Nó đại diện cho một nỗ lực kiên quyết nhằm xây dựng một năng lực AI tự cường và tự chủ, điều hướng sự phức tạp của bối cảnh công nghệ toàn cầu hiện tại thông qua đa dạng hóa chiến lược và đổi mới không ngừng. Việc tích hợp các chất bán dẫn của Mỹ và Trung Quốc, được tối ưu hóa thông qua các kỹ thuật như MoE và áp dụng vào các lĩnh vực quan trọng như chăm sóc sức khỏe, cho thấy một cách tiếp cận thực dụng và thích ứng để duy trì tiến bộ AI dưới áp lực.