Sự tiến bộ không ngừng của sự phát triển AI đã liên tục chứng minh rằng các mô hình lớn hơn có xu hướng thông minh hơn, nhưng nhu cầu vận hành của chúng cũng leo thang. Điều này tạo ra một thách thức đáng kể, đặc biệt là ở những khu vực có quyền truy cập hạn chế vào các chip AI tiên tiến. Tuy nhiên, bất kể những hạn chế về địa lý, có một xu hướng ngày càng tăng trong số các nhà phát triển mô hình là áp dụng kiến trúc Mixture of Experts (MoE) kết hợp với các kỹ thuật nén sáng tạo. Mục tiêu? Giảm đáng kể các tài nguyên tính toán cần thiết để triển khai và chạy các Mô hình Ngôn ngữ Lớn (LLM) mở rộng này. Khi chúng ta tiến gần đến kỷ niệm ba năm sự bùng nổ AI tạo sinh do ChatGPT gây ra, ngành công nghiệp cuối cùng cũng bắt đầu nghiêm túc xem xét các tác động kinh tế của việc duy trì hoạt động của các mô hình ngốn điện này.
Trong khi các mô hình MoE, như các mô hình từ Mistral AI, đã xuất hiện được một thời gian, thì bước đột phá thực sự của chúng đã xảy ra trong năm ngoái. Chúng ta đã chứng kiến một làn sóng LLM mã nguồn mở mới từ các gã khổng lồ công nghệ như Microsoft, Google, IBM, Meta, DeepSeek và Alibaba, tất cả đều tận dụng một số hình thức kiến trúc MoE. Sự hấp dẫn rất đơn giản: Kiến trúc MoE cung cấp một giải pháp thay thế hiệu quả hơn nhiều so với kiến trúc mô hình "dày đặc" truyền thống.
Vượt Qua Các Hạn Chế Về Bộ Nhớ
Nền tảng của kiến trúc MoE có từ đầu những năm 1990, với việc xuất bản "Adaptive Mixtures of Local Experts." Ý tưởng cốt lõi xoay quanh việc phân phối các tác vụ cho một hoặc nhiều mô hình con chuyên biệt hoặc "chuyên gia", thay vì dựa vào một mô hình duy nhất, đồ sộ được đào tạo trên một phạm vi dữ liệu rộng.
Về lý thuyết, mỗi chuyên gia có thể được tối ưu hóa tỉ mỉ cho một miền cụ thể, từ mã hóa và toán học đến viết sáng tạo. Tuy nhiên, điều đáng chú ý là hầu hết các nhà phát triển mô hình cung cấp thông tin chi tiết hạn chế về các chuyên gia cụ thể trong mô hình MoE của họ và số lượng chuyên gia khác nhau giữa các mô hình. Điều quan trọng là chỉ một phần nhỏ của mô hình tổng thể được tích cực tham gia tại bất kỳ thời điểm nào.
Hãy xem xét mô hình V3 của DeepSeek, bao gồm 256 chuyên gia được định tuyến cùng với một chuyên gia được chia sẻ. Trong quá trình xử lý mã thông báo, chỉ có tám chuyên gia được định tuyến, cộng với một chuyên gia được chia sẻ, được kích hoạt. Sự kích hoạt chọn lọc này có nghĩa là các mô hình MoE có thể không phải lúc nào cũng đạt được mức chất lượng tương đương với các mô hình dày đặc có kích thước tương tự. Ví dụ: mô hình Qwen3-30B-A3B MoE của Alibaba liên tục hoạt động kém hơn mô hình Qwen3-32B dày đặc trong các bài kiểm tra điểm chuẩn của Alibaba.
Tuy nhiên, điều cần thiết là phải đặt độ sụt giảm nhỏ này về chất lượng trong bối cảnh so với những cải tiến đáng kể về hiệu quả do kiến trúc MoE mang lại. Việc giảm các tham số hoạt động dẫn đến các yêu cầu về băng thông bộ nhớ không còn tỷ lệ thuận với dung lượng cần thiết để lưu trữ trọng số của mô hình. Về cơ bản, mặc dù các mô hình MoE vẫn có thể yêu cầu bộ nhớ đáng kể, nhưng chúng không nhất thiết cần nó phải là Bộ nhớ băng thông cao (HBM) nhanh nhất và đắt nhất.
Hãy minh họa điều này bằng một so sánh. Hãy xem xét mô hình "dày đặc" lớn nhất của Meta, Llama 3.1 405B và Llama 4 Maverick, một mô hình tương đương sử dụng kiến trúc MoE với 17 tỷ tham số hoạt động. Mặc dù nhiều yếu tố, chẳng hạn như kích thước lô, hiệu suất dấu phẩy động và bộ nhớ đệm khóa-giá trị, góp phần vào hiệu suất thực tế, chúng ta có thể ước tính các yêu cầu băng thông tối thiểu bằng cách nhân kích thước của mô hình tính bằng gigabyte ở độ chính xác nhất định (1 byte trên mỗi tham số cho mô hình 8 bit) với số lượng mã thông báo mục tiêu trên giây ở kích thước lô là một.
Việc chạy phiên bản lượng tử hóa 8 bit của Llama 3.1 405B sẽ cần hơn 405 GB vRAM và ít nhất 20 TB/s băng thông bộ nhớ để tạo văn bản ở 50 mã thông báo mỗi giây. Các hệ thống dựa trên HGX H100 của Nvidia, cho đến gần đây có giá từ 300.000 đô la trở lên, chỉ cung cấp 640 GB HBM3 và khoảng 26,8 TB/s băng thông tổng hợp. Việc chạy mô hình 16 bit đầy đủ sẽ yêu cầu ít nhất hai trong số các hệ thống này.
Ngược lại, Llama 4 Maverick, trong khi tiêu thụ cùng một lượng bộ nhớ, yêu cầu ít hơn 1 TB/s băng thông để đạt được hiệu suất tương đương. Điều này là do chỉ có 17 tỷ tham số giá trị của các chuyên gia mô hình tích cực tham gia vào việc tạo ra đầu ra. Điều này chuyển thành mức tăng theo bậc độ lớn về tốc độ tạo văn bản trên cùng một phần cứng.
Ngược lại, nếu hiệu suất tuyệt đối không phải là mối quan tâm chính, thì nhiều mô hình trong số này hiện có thể chạy trên bộ nhớ GDDR6, GDDR7 hoặc thậm chí DDR rẻ hơn, mặc dù chậm hơn, như đã thấy trong các Xeon mới nhất của Intel.
Các Máy chủ RTX Pro mới của Nvidia, được công bố tại Computex, được thiết kế riêng cho kịch bản này. Thay vì dựa vào HBM tốn kém và ngốn điện, yêu cầu đóng gói tiên tiến, mỗi một trong số tám GPU RTX Pro 6000 trong các hệ thống này được trang bị 96 GB bộ nhớ GDDR7, cùng loại được tìm thấy trong thẻ chơi game hiện đại.
Các hệ thống này cung cấp tối đa 768 GB vRAM và 12,8 TB/s băng thông tổng hợp, đủ để chạy Llama 4 Maverick ở hàng trăm mã thông báo mỗi giây. Mặc dù Nvidia chưa tiết lộ giá, nhưng phiên bản máy trạm của các thẻ này được bán lẻ với giá khoảng 8.500 đô la, cho thấy rằng các máy chủ này có thể có giá thấp hơn một nửa chi phí của HGX H100 đã qua sử dụng.
Tuy nhiên, MoE không biểu thị sự kết thúc của GPU xếp chồng HBM. Hãy mong đợi Llama 4 Behemoth, giả sử nó được xuất xưởng, sẽ yêu cầu một giá đầy GPU do kích thước tuyệt đối của nó.
Mặc dù nó có khoảng một nửa số tham số hoạt động so với Llama 3.1 405B, nhưng nó tự hào có tổng cộng 2 nghìn tỷ tham số. Hiện tại, không có máy chủ GPU thông thường nào trên thị trường có thể chứa mô hình 16 bit đầy đủ và cửa sổ ngữ cảnh từ một triệu mã thông báo trở lên.
Sự Phục Hưng CPU trong AI?
Tùy thuộc vào ứng dụng cụ thể, GPU có thể không phải lúc nào cũng cần thiết, đặc biệt là ở những khu vực mà việc tiếp cận với bộ tăng tốc cao cấp bị hạn chế.
Intel đã giới thiệu một nền tảng Xeon 6 ổ cắm kép được trang bị MCRDIMM 8800 MT/s vào tháng Tư. Cấu hình này đạt được thông lượng 240 mã thông báo mỗi giây trong Llama 4 Maverick, với độ trễ đầu ra trung bình dưới 100 ms trên mỗi mã thông báo.
Nói một cách đơn giản, nền tảng Xeon có thể duy trì 10 mã thông báo mỗi giây trở lên cho mỗi người dùng cho khoảng 24 người dùng đồng thời.
Intel không tiết lộ số liệu hiệu suất của một người dùng, vì chúng ít liên quan hơn trong các kịch bản thực tế. Tuy nhiên, các ước tính cho thấy hiệu suất cao nhất khoảng 100 mã thông báo mỗi giây.
Tuy nhiên, trừ khi không có giải pháp thay thế tốt hơn hoặc các yêu cầu cụ thể, thì tính kinh tế của suy luận dựa trên CPU vẫn phụ thuộc nhiều vào trường hợp sử dụng.
Giảm Trọng Lượng: Cắt Tỉa và Lượng Tử Hóa
Kiến trúc MoE có thể giảm băng thông bộ nhớ cần thiết để phục vụ các mô hình lớn, nhưng chúng không làm giảm lượng bộ nhớ cần thiết để lưu trữ trọng số của chúng. Ngay cả ở độ chính xác 8 bit, Llama 4 Maverick yêu cầu hơn 400 GB bộ nhớ để chạy, bất kể số lượng tham số hoạt động.
Các kỹ thuật cắt tỉa và phương pháp lượng tử hóa mới nổi có khả năng giảm một nửa yêu cầu đó mà không làm giảm chất lượng.
Nvidia đã là một người ủng hộ việc cắt tỉa, phát hành các phiên bản cắt tỉa của mô hình Llama 3 của Meta, đã loại bỏ các trọng số dư thừa.
Nvidia cũng là một trong những công ty đầu tiên hỗ trợ các loại dữ liệu dấu phẩy động 8 bit vào năm 2022 và một lần nữa với dấu phẩy động 4 bit với việc ra mắt kiến trúc Blackwell vào năm 2024. Các chip đầu tiên của AMD cung cấp hỗ trợ FP4 gốc dự kiến sẽ được phát hành sớm.
Mặc dù không hoàn toàn cần thiết, nhưng hỗ trợ phần cứng gốc cho các loại dữ liệu này thường làm giảm khả năng gặp phải các tắc nghẽn tính toán, đặc biệt là khi phục vụ ở quy mô lớn.
Chúng ta đã chứng kiến ngày càng có nhiều nhà phát triển mô hình áp dụng các loại dữ liệu có độ chính xác thấp hơn, với Meta, Microsoft và Alibaba cung cấp các phiên bản lượng tử hóa 8 bit và thậm chí 4 bit cho mô hình của họ.
Lượng tử hóa liên quan đến việc nén trọng số mô hình từ độ chính xác gốc của chúng, thường là BF16, thành FP8 hoặc INT4. Điều này làm giảm hiệu quả băng thông bộ nhớ và các yêu cầu về dung lượng của mô hình xuống một nửa hoặc thậm chí ba phần tư, với chi phí là một số chất lượng.
Các tổn thất liên quan đến việc chuyển đổi từ 16 bit sang 8 bit thường không đáng kể và một số nhà xây dựng mô hình, bao gồm DeepSeek, đã bắt đầu đào tạo ở độ chính xác FP8 ngay từ đầu. Tuy nhiên, việc giảm độ chính xác thêm bốn bit có thể dẫn đến sự suy giảm chất lượng đáng kể. Do đó, nhiều phương pháp lượng tử hóa sau đào tạo, chẳng hạn như GGUF, không nén tất cả các trọng số như nhau, để lại một số ở mức độ chính xác cao hơn để giảm thiểu tổn thất chất lượng.
Google gần đây đã chứng minh việc sử dụng đào tạo nhận biết lượng tử hóa (QAT) để giảm mô hình Gemma 3 của mình theo hệ số 4x trong khi vẫn duy trì mức chất lượng gần với BF16 gốc.
QAT mô phỏng các hoạt động có độ chính xác thấp trong quá trình đào tạo. Bằng cách áp dụng kỹ thuật này trong khoảng 5.000 bước trên một mô hình phi đủ điều kiện, Google đã có thể giảm mức giảm độ phức tạp, một số liệu để đo lường các tổn thất liên quan đến lượng tử hóa, xuống 54% khi chuyển đổi sang INT4.
Một phương pháp dựa trên QAT khác để lượng tử hóa, được gọi là Bitnet, hướng đến các mức độ chính xác thậm chí còn thấp hơn, nén các mô hình chỉ còn 1,58 bit, hoặc khoảng một phần mười kích thước ban đầu của chúng.
Sự Hợp Lực Của Các Công Nghệ
Sự kết hợp giữa MoE và lượng tử hóa 4 bit mang lại những lợi thế đáng kể, đặc biệt là khi băng thông bị hạn chế.
Đối với những người khác không bị hạn chế về băng thông, tuy nhiên, một trong hai công nghệ, cho dù là MoE hay lượng tử hóa, đều có thể giảm đáng kể chi phí thiết bị và vận hành để chạy các mô hình lớn hơn và mạnh hơn; điều này giả định rằng một dịch vụ có giá trị có thể được tìm thấy để chúng thực hiện.
Và nếu không, bạn có thể yên tâm rằng bạn không đơn độc - một cuộc khảo sát gần đây của IBM cho thấy chỉ một trong bốn triển khai AI đã mang lại lợi tức đầu tư như đã hứa.