Đột phá AI của Huawei: Phương pháp mới vượt DeepSeek

Huawei Technologies, một công ty đang đối mặt với những rào cản công nghệ đáng kể do các lệnh trừng phạt của Hoa Kỳ, được cho là đã đạt được một bước đột phá trong việc huấn luyện mô hình trí tuệ nhân tạo (AI). Các nhà nghiên cứu làm việc trên mô hình ngôn ngữ lớn (LLM) Pangu của Huawei tuyên bố đã phát triển một phương pháp nâng cao vượt trội so với phương pháp luận ban đầu của DeepSeek. Phương pháp sáng tạo này tận dụng phần cứng độc quyền của Huawei, giảm sự phụ thuộc của công ty vào công nghệ của Hoa Kỳ, một mục tiêu quan trọng trong bối cảnh địa chính trị hiện tại.

Sự trỗi dậy của Mixture of Grouped Experts (MoGE)

Nền tảng của sự tiến bộ của Huawei nằm ở khái niệm Mixture of Grouped Experts (MoGE). Kỹ thuật mới này, được trình bày chi tiết trong một bài báo được xuất bản bởi nhóm Pangu của Huawei, được giới thiệu như một phiên bản nâng cấp của kỹ thuật Hỗn hợp các Chuyên gia (MoE). MoE đã được chứng minh là công cụ hữu ích trong việc tạo ra các mô hình AI hiệu quả về chi phí, như đã được chứng minh bởi thành công của DeepSeek.

MoE mang lại lợi thế cho các tham số mô hình lớn, dẫn đến khả năng học tập nâng cao. Tuy nhiên, các nhà nghiên cứu của Huawei đã xác định sự kém hiệu quả phát sinh từ việc kích hoạt không đồng đều của “các chuyên gia”, các thành phần quan trọng trong đào tạo AI, có thể cản trở hiệu suất khi chạy các tác vụ trên nhiều thiết bị đồng thời. MoGE của Huawei giải quyết một cách chiến lược những thách thức này.

Giải quyết sự kém hiệu quả trong các mô hình MoE truyền thống

Hệ thống MoGE được thiết kế phức tạp để tối ưu hóa việc phân phối khối lượng công việc. Ý tưởng trung tâm là “nhóm” các chuyên gia lại với nhau trong quá trình lựa chọn, dẫn đến việc phân phối khối lượng công việc cân bằng hơn. Bằng cách phân phối đồng đều hơn gánh nặng tính toán, các nhà nghiên cứu đã báo cáo một sự cải thiện đáng kể về hiệu suất của môi trường tính toán song song, một khía cạnh quan trọng của đào tạo AI hiện đại.

Khái niệm “chuyên gia” trong đào tạo AI đề cập đến các mô hình con hoặc thành phần chuyên biệt trong một mô hình lớn hơn, toàn diện hơn. Mỗi chuyên gia được thiết kế tỉ mỉ để xử lý các tác vụ hoặc loại dữ liệu rất cụ thể. Cách tiếp cận này khai thác chuyên môn chuyên biệt khác nhau, cho phép hệ thống AI tổng thể cải thiện đáng kể hiệu suất tổng thể của nó.

Ý nghĩa đối với sự tiến bộ AI của Trung Quốc

Sự tiến bộ này đặc biệt kịp thời. Các công ty AI Trung Quốc, mặc dù phải đối mặt với các hạn chế của Hoa Kỳ đối với việc nhập khẩu chip AI tiên tiến như chip từ Nvidia, đang tích cực theo đuổi các phương pháp để tăng cường khả năng huấn luyện mô hình và hiệu quả suy luận. Các phương pháp này bao gồm không chỉ các cải tiến thuật toán mà còn cả sự tích hợp hiệp đồng của phần cứng và phần mềm.

Các nhà nghiên cứu của Huawei đã thử nghiệm nghiêm ngặt kiến trúc MoGE trên bộ xử lý thần kinh Ascend (NPU) của họ, được thiết kế đặc biệt để tăng tốc các tác vụ AI. Kết quả chỉ ra rằng MoGE đạt được sự cân bằng tải chuyên gia vượt trội và thực thi hiệu quả hơn, cho cả giai đoạn huấn luyện mô hình và suy luận. Đây là một sự xác nhận đáng kể về lợi ích của việc tối ưu hóa đồng thời ngăn xếp phần cứng và phần mềm.

So sánh Pangu với các mô hình AI hàng đầu

Mô hình Pangu của Huawei, được củng cố bởi kiến trúc MoGE và Ascend NPU, đã được so sánh với các mô hình AI hàng đầu. Chúng bao gồm DeepSeek-V3, Qwen2.5-72B của Alibaba Group Holding và Llama-405B của Meta Platforms. Kết quả của điểm chuẩn cho thấy Pangu đạt được hiệu suất hiện đại trên một loạt các tiêu chuẩn tiếng Anh chung, và nó vượt trội trên tất cả các tiêu chuẩn tiếng Trung. Pangu cũng thể hiện hiệu quả cao hơn trong việc xử lý đào tạo theo ngữ cảnh dài, một lĩnh vực có ý nghĩa quan trọng đối với các tác vụ xử lý ngôn ngữ tự nhiên phức tạp.

Hơn nữa, mô hình Pangu đã chứng minh khả năng đặc biệt trong các tác vụ hiểu ngôn ngữ chung, với những điểm mạnh đặc biệt trong các tác vụ suy luận. Khả năng nắm bắt sắc thái và trích xuất ý nghĩa từ ngôn ngữ phức tạp này thể hiện những tiến bộ mà Huawei đã đạt được trong AI.

Ý nghĩa chiến lược của Huawei

Tiến bộ của Huawei trong kiến trúc mô hình AI mang ý nghĩa chiến lược. Với các lệnh trừng phạt đang diễn ra, công ty có trụ sở tại Thâm Quyến đang tìm cách giảm sự phụ thuộc vào công nghệ của Hoa Kỳ một cách chiến lược. Các chip Ascend do Huawei phát triển được coi là giải pháp thay thế nội địa khả thi cho bộ xử lý từ Nvidia và là một thành phần quan trọng của sự độc lập này.

Pangu Ultra, một mô hình ngôn ngữ lớn với 135 tỷ tham số được tối ưu hóa cho NPU, nhấn mạnh hiệu quả của việc sắp xếp hợp lý kiến trúc và hệ thống của Huawei đồng thời thể hiện khả năng của NPU của nó. Chứng minh hiệu quả của việc tích hợp phần cứng-phần mềm là một phần quan trọng trong việc thể hiện khả năng AI của Huawei.

Quy trình đào tạo chi tiết

Theo Huawei, quy trình đào tạo được chia thành ba giai đoạn chính: đào tạo trước, mở rộng ngữ cảnh dài và đào tạo sau. Đào tạo trước bao gồm đào tạo ban đầu mô hình trên một bộ dữ liệu khổng lồ gồm 13,2 nghìn tỷ mã thông báo. Mở rộng ngữ cảnh dài sau đó mở rộng khả năng của mô hình để xử lý các văn bản dài hơn và phức tạp hơn và xây dựng dựa trên khả năng nhận dạng dữ liệu ban đầu. Giai đoạn này sử dụng xử lý phân tán quy mô lớn trên 8.192 chip Ascend.

Huawei tiết lộ rằng mô hình và hệ thống sẽ sớm được cung cấp cho khách hàng thương mại của mình, mở ra những cơ hội mới để tích hợp và phát triển với các đối tác của mình.

Đi sâu vào Mixture of Experts (MoE) và những hạn chế của nó

Để đánh giá đầy đủ tầm quan trọng của MoGE của Huawei, điều quan trọng là phải hiểu nền tảng mà nó xây dựng: kiến trúc Mixture of Experts (MoE). MoE đại diện cho một sự thay đổi mô hình trong cách các mô hình AI lớn được thiết kế và đào tạo, cung cấp một con đường để mở rộng quy mô kích thước và độ phức tạp của mô hình mà không cần tăng tỷ lệ chi phí tính toán.

Trong một mạng nơ-ron truyền thống, mọi đầu vào đều được xử lý bởi mọi nơ-ron trong mọi lớp. Mặc dù cách tiếp cận này có thể mang lại độ chính xác cao, nhưng nó trở nên quá tốn kém về mặt tính toán đối với các mô hình rất lớn. Ngược lại, MoE giới thiệu khái niệm “chuyên gia” - các mạng nơ-ron nhỏ hơn, chuyên biệt tập trung vào các tập hợp con cụ thể của dữ liệu đầu vào.

Một mạng “cổng” định tuyến động mỗi đầu vào đến (các) chuyên gia phù hợp nhất. Kích hoạt có chọn lọc này cho phép tính toán thưa thớt, có nghĩa là chỉ một phần nhỏ các tham số của mô hình được sử dụng cho bất kỳ đầu vào nhất định nào. Độ thưa thớt này làm giảm đáng kể chi phí tính toán của suy luận (sử dụng mô hình để dự đoán) và đào tạo. Hơn nữa, vì các chuyên gia khác nhau có thể tác động đến các phần khác nhau của dữ liệu đầu vào, nên nó cho phép chuyên môn hóa lớn hơn trong mô hình.

Mặc dù có những ưu điểm của MoE, một số hạn chế phải được giải quyết để khai thác hết tiềm năng của nó. Việc kích hoạt không đồng đều của các chuyên gia là một mối quan tâm hàng đầu. Trong nhiều triển khai MoE, một số chuyên gia được sử dụng nhiều, trong khi những người khác vẫn tương đối nhàn rỗi. Sự mất cân bằng này bắt nguồn từ các đặc điểm vốn có của dữ liệu và thiết kế của mạng cổng.

Sự mất cân bằng này có thể dẫn đến sự kém hiệu quả trong môi trường tính toán song song. Vì khối lượng công việc không được phân phối đều cho các chuyên gia nên một số đơn vị xử lý bị bỏ qua trong khi những đơn vị khác bị quá tải. Sự khác biệt này cản trở khả năng mở rộng của MoE và làm giảm hiệu suất tổng thể của nó. Ngoài ra, sự mất cân bằng này thường bắt nguồn từ sự sai lệch trong dữ liệu đào tạo, dẫn đến việc đại diện không đầy đủ và đào tạo không đầy đủ của các chuyên gia ít hoạt động hơn. Điều này dẫn đến một mô hình không tối ưu về lâu dài.

Một vấn đề phổ biến khác khi xử lý MoE bao gồm sự phức tạp tăng thêm khi thiết kế mạng cổng. Mạng cổng yêu cầu các kỹ thuật phức tạp để đảm bảo rằng các chuyên gia được lựa chọn đúng cách, nếu không, MoE có thể không hoạt động như mong đợi và gây ra chi phí không cần thiết.

Grouped Experts (MoGE): Giải quyết những thách thức của MoE

Kiến trúc Mixture of Grouped Experts (MoGE) của Huawei cung cấp một giải pháp thay thế tinh tế cho MoE truyền thống bằng cách tập trung vào cân bằng tải và thực thi song song hiệu quả. Phương pháp này bao gồm việc nhóm các chuyên gia một cách chiến lược, điều này làm thay đổi quá trình định tuyến dữ liệu đầu vào, dẫn đến phân phối khối lượng công việc đồng đều hơn.

Bằng cách nhóm các chuyên gia trong quá trình lựa chọn, MoGE đảm bảo rằng mỗi nhóm chuyên gia nhận được khối lượng công việc cân bằng hơn. Thay vì định tuyến từng đầu vào một cách độc lập, mạng cổng hiện hướng các nhóm đầu vào đến các nhóm chuyên gia. Cách tiếp cận này thúc đẩy sự phân phối công bằng hơn về gánh nặng tính toán.

Cơ chế nhóm cũng giúp giảm thiểu ảnh hưởng của sai lệch dữ liệu. Bằng cách đảm bảo rằng tất cả các chuyên gia trong một nhóm được đào tạo trên một tập hợp đầu vào đa dạng, MoGE làm giảm nguy cơ đại diện không đầy đủ và đào tạo không đầy đủ. Hơn nữa, việc nhóm các chuyên gia cho phép sử dụng tài nguyên tốt hơn. Vì mỗi nhóm xử lý khối lượng công việc nhất quán hơn, nên việc phân bổ tài nguyên tính toán hiệu quả hơn, dẫn đến hiệu suất tổng thể tốt hơn.

Kết quả cuối cùng là cân bằng tải chuyên gia tốt hơn và thực thi hiệu quả hơn cho cả huấn luyện mô hình và suy luận. Điều này chuyển thành thời gian đào tạo nhanh hơn, chi phí tính toán thấp hơn và hiệu suất tổng thể được cải thiện.

Ascend NPU: Tăng tốc phần cứng cho AI

Ascend NPU (Neural Processing Unit) đóng một vai trò quan trọng trong chiến lược AI của Huawei. Các bộ xử lý này được thiết kế đặc biệt để tăng tốc các tác vụ AI, bao gồm huấn luyện và suy luận mô hình. Chúng cung cấp một loạt các tính năng được tối ưu hóa cho khối lượng công việc học sâu, chẳng hạn như băng thông bộ nhớ cao, các đơn vị xử lý chuyên dụng để nhân ma trận và các giao diện giao tiếp có độ trễ thấp. Hơn nữa, Ascend NPU của Huawei hỗ trợ một loạt các loại dữ liệu và mức độ chính xác, cho phép kiểm soát chi tiết hiệu suất và độ chính xác.

Sự kết hợp hiệp đồng của MoGE và Ascend NPU tạo ra một nền tảng mạnh mẽ cho sự đổi mới AI. MoGE tối ưu hóa phía phần mềm bằng cách cải thiện cân bằng tải và thực thi song song, trong khi Ascend NPU cung cấp khả năng tăng tốc phần cứng cần thiết để nhận ra những lợi ích này. Cách tiếp cận tích hợp này cho phép Huawei đẩy lùi ranh giới của hiệu suất và hiệu quả AI.

Ascend NPU được đặc trưng bởi mật độ tính toán cao và hiệu quả năng lượng. Các tính năng này rất quan trọng để triển khai các mô hình AI trong nhiều cài đặt khác nhau, từ các máy chủ đám mây mạnh mẽ đến các thiết bị biên có ngân sách năng lượng hạn chế.

Điểm chuẩn và số liệu hiệu suất

Kết quả điểm chuẩn của Huawei chứng minh tính hiệu quả của kiến trúc MoGE và Ascend NPU. Bằng cách so sánh Pangu với các mô hình AI hàng đầu như DeepSeek-V3, Qwen2.5-72B và Llama-405B, Huawei đã chứng minh rằng công nghệ của họ đạt được hiệu suất hiện đại trên nhiều tác vụ.

Thành công của Pangu trên các tiêu chuẩn tiếng Anh và tiếng Trung chung làm nổi bật tính linh hoạt và khả năng thích ứng của nó. Khả năng thành thạo của mô hình trong đào tạo theo ngữ cảnh dài đặc biệt đáng chú ý vì nó phản ánh khả năng xử lý dữ liệu trong thế giới thực. Hơn nữa, hiệu suất mạnh mẽ của Pangu trong các tác vụ suy luận nhấn mạnh khả năng hiểu và xử lý các mối quan hệ phức tạp của nó.

Những điểm chuẩn này không chỉ là các bài tập học thuật, chúng cung cấp bằng chứng hữu hình về những bước tiến công nghệ mà Huawei đã thực hiện. Chúng củng cố tuyên bố của công ty là đi đầu trong đổi mới AI và củng cố vị thế của mình trên thị trường toàn cầu.

Ý nghĩa đối với tương lai của Huawei

Những tiến bộ của Huawei trong đào tạo mô hình AI có ý nghĩa quan trọng trong tầm nhìn chiến lược của công ty để thiết lập chủ quyền công nghệ trong trí tuệ nhân tạo. Khi công ty giảm thiểu sự phụ thuộc vào công nghệ của Hoa Kỳ trong bối cảnh xung đột thương mại đang diễn ra, việc phát triển chip Ascend đóng vai trò là giải pháp thay thế cho bộ xử lý từ Nvidia và AMD. Pangu Ultra, một LLM có 135 tỷ tham số cho NPU, làm nổi bật hiệu quả của việc sắp xếp hợp lý kiến trúc và hệ thống của Huawei bằng cách thể hiện khả năng của các chip tiên tiến của mình.

Những nỗ lực này dự kiến sẽ đóng góp vào khả năng cạnh tranh tổng thể của Huawei trong dài hạn, khi họ cố gắng phục vụ một thị trường lớn hơn cho AI, đặc biệt là ở Trung Quốc. Bằng cách tiếp tục tập trung đầu tư vào nghiên cứu và phát triển, Huawei hy vọng sẽ tự đẩy mình lên vị trí dẫn đầu trong không gian AI, vượt qua những hạn chế của thị trường hiện tại.

Nghiên cứu trong tương lai

Những cải tiến liên tục của Huawei trong kiến trúc mô hình AI thông qua tối ưu hóa ở cấp độ hệ thống và thuật toán, cùng với các phát triển phần cứng như chip Ascend, đánh dấu tầm quan trọng của nó trong việc dẫn đầu đường cong công nghệ trong trí tuệ nhân tạo. Mặc dù các điểm chuẩn như Pangu chứng minh nó là một mô hình hiện đại, nhưng vẫn còn rất nhiều cải tiến có thể được thực hiện. Việc tinh chỉnh thêm kiến trúc MoGE có thể cho phép nó đẩy đến các tính toán lớn hơn và phức tạp hơn. Nhiều công việc hơn trong việc chuyên môn hóa kiến trúc Ascend NPU có thể đẩy nhanh hơn nữa các quy trình học sâu và giảm chi phí. Nghiên cứu trong tương lai sẽ thấy những nỗ lực liên tục để xây dựng các mô hình AI tốt hơn và cải thiện những mô hình hiện có.