Tái tư duy chip AI và hạ tầng hậu DeepSeek

Sự đổi mới nhanh chóng trong công nghệ AI, được minh chứng bởi những tiến bộ của DeepSeek, đòi hỏi một sự đánh giá lại cơ bản về cách chúng ta xây dựng các trung tâm dữ liệu, chip và hệ thống để cung cấp sức mạnh tính toán cần thiết. Các cải tiến kỹ thuật của DeepSeek đã giảm đáng kể chi phí tính toán AI, thúc đẩy một cuộc thảo luận rộng hơn về tương lai của cơ sở hạ tầng AI.

Mặc dù DeepSeek có thể không mở rộng đáng kể ranh giới của công nghệ AI, nhưng ảnh hưởng của nó đối với thị trường AI là rất lớn. Các công nghệ như Mixture of Experts (MoE), Multi-Layer Attention (MLA) và Multi-Token Prediction (MTP) đã trở nên nổi bật cùng với DeepSeek. Mặc dù không phải tất cả các công nghệ này đều được DeepSeek tiên phong, nhưng việc triển khai thành công của chúng đã thúc đẩy sự chấp nhận rộng rãi. Đặc biệt, MLA đã trở thành một điểm nóng thảo luận trên nhiều nền tảng khác nhau, từ các thiết bị biên đến điện toán đám mây.

MLA và thách thức của đổi mới thuật toán

Elad Raz, CEO của NextSilicon, gần đây đã chỉ ra rằng mặc dù MLA cải thiện hiệu quả bộ nhớ, nhưng nó cũng có thể làm tăng khối lượng công việc cho các nhà phát triển và làm phức tạp việc ứng dụng AI trong môi trường sản xuất. Người dùng GPU có thể cần tham gia vào tối ưu hóa ‘mã tay’ cho MLA. Ví dụ này nhấn mạnh sự cần thiết phải suy nghĩ lại việc triển khai chip AI và kiến trúc cơ sở hạ tầng trong kỷ nguyên hậu DeepSeek.

Để hiểu được tầm quan trọng của MLA, điều cần thiết là phải nắm bắt các khái niệm cơ bản của Mô hình ngôn ngữ lớn (LLM). Khi tạo phản hồi cho đầu vào của người dùng, LLM dựa rất nhiều vào các vectơ KV - khóa và giá trị - cho phép mô hình tập trung vào dữ liệu có liên quan. Trong cơ chế chú ý, mô hình so sánh các yêu cầu mới với các khóa để xác định nội dung phù hợp nhất.

Elad Raz sử dụng một phép loại suy về một cuốn sách, khóa giống như ‘tiêu đề chương của một cuốn sách, cho biết mỗi phần nói về điều gì, với giá trị là các bản tóm tắt chi tiết hơn bên dưới các tiêu đề đó. Vì vậy, khi người dùng đưa ra yêu cầu, nó sẽ yêu cầu một cụm từ tìm kiếm để giúp tạo ra câu trả lời. Nó đang hỏi, ‘Theo cốt truyện này, chương nào phù hợp nhất?’’

MLA nén các tiêu đề chương (khóa) và tóm tắt (giá trị) này, đẩy nhanh quá trình tìm kiếm câu trả lời và tăng hiệu quả. Cuối cùng, MLA giúp DeepSeek giảm mức sử dụng bộ nhớ từ 5-13%. Thông tin chi tiết hơn có thể được tìm thấy trong bài báo chính thức của DeepSeek. Hội nghị nhà phát triển của MediaTek thậm chí còn thảo luận về hỗ trợ MLA trong chip di động Dimensity của họ, nhấn mạnh ảnh hưởng sâu rộng của DeepSeek.

Các công nghệ như MLA đại diện cho những đổi mới thuật toán điển hình trong kỷ nguyên AI. Tuy nhiên, tốc độ phát triển nhanh chóng của công nghệ AI dẫn đến một dòng đổi mới liên tục, từ đó tạo ra những thách thức mới, đặc biệt khi những đổi mới này được điều chỉnh cho các nền tảng cụ thể. Trong trường hợp của MLA, người dùng GPU không phải của NVIDIA yêu cầu mã hóa thủ công thêm để tận dụng công nghệ này.

Mặc dù các công nghệ của DeepSeek thể hiện sự đổi mới và giá trị của kỷ nguyên AI, phần cứng và phần mềm phải thích ứng với những đổi mới này. Theo Elad Raz, sự thích ứng như vậy nên giảm thiểu sự phức tạp cho các nhà phát triển và môi trường sản xuất. Nếu không, chi phí cho mỗi đổi mới trở nên quá cao.

Câu hỏi sau đó trở thành: ‘Điều gì xảy ra nếu đổi mới thuật toán tiếp theo không chuyển đổi tốt và đơn giản sang các kiến trúc hiện có?’

Xung đột giữa thiết kế chip và đổi mới thuật toán

Trong vài năm qua, các nhà sản xuất chip AI liên tục báo cáo rằng việc thiết kế chip AI lớn mất ít nhất 1-2 năm. Điều này có nghĩa là thiết kế chip phải bắt đầu trước khi chip được tung ra thị trường. Với những tiến bộ nhanh chóng trong công nghệ AI, thiết kế chip AI phải có tầm nhìn xa. Chỉ tập trung vào các nhu cầu hiện tại sẽ dẫn đến các chip AI lỗi thời, không thể thích ứng với những đổi mới ứng dụng mới nhất.

Đổi mới thuật toán ứng dụng AI hiện diễn ra hàng tuần. Như đã đề cập trong các bài viết trước, sức mạnh tính toán cần thiết để các mô hình AI đạt được các khả năng tương tự giảm từ 4-10 lần mỗi năm. Chi phí suy luận của các mô hình AI đạt chất lượng tương tự như GPT-3 đã giảm 1200 lần trong ba năm qua. Hiện tại, các mô hình với 2B tham số có thể đạt được cùng mức độ như GPT-3 170B tham số của năm ngoái. Sự đổi mới nhanh chóng này ở các lớp trên của ngăn xếp công nghệ AI đặt ra những thách thức đáng kể cho việc lập kế hoạch và thiết kế kiến trúc chip truyền thống.

Elad Raz tin rằng ngành công nghiệp cần nhận ra những đổi mới như DeepSeek MLA là tiêu chuẩn cho công nghệ AI. ‘Tính toán thế hệ tiếp theo không chỉ cần tối ưu hóa cho khối lượng công việc ngày nay mà còn phải đáp ứng những đột phá trong tương lai.’ Quan điểm này không chỉ áp dụng cho ngành công nghiệp chip mà còn cho toàn bộ cơ sở hạ tầng trung đến thấp hơn của ngăn xếp công nghệ AI.

‘DeepSeek và các đổi mới khác đã chứng minh sự tiến bộ nhanh chóng của đổi mới thuật toán’, Elad Raz nói. ‘Các nhà nghiên cứu và nhà khoa học dữ liệu cần các công cụ linh hoạt và đàn hồi hơn để thúc đẩy những hiểu biết và khám phá mới. Thị trường cần các nền tảng tính toán phần cứng được xác định bằng phần mềm thông minh, cho phép khách hàng ‘thay thế trực tiếp’ các giải pháp tăng tốc hiện có, đồng thời cho phép các nhà phát triển chuyển công việc của họ một cách dễ dàng.’

Để giải quyết tình trạng này, ngành công nghiệp phải thiết kế cơ sở hạ tầng tính toán thông minh hơn, thích ứng và linh hoạt hơn.

Tính linh hoạt và hiệu quả thường là những mục tiêu mâu thuẫn. CPU rất linh hoạt nhưng có hiệu quả tính toán song song thấp hơn đáng kể so với GPU. GPU, với khả năng lập trình của chúng, có thể kém hiệu quả hơn so với các chip ASIC AI chuyên dụng.

Elad Raz lưu ý rằng NVIDIA hy vọng các giá đỡ trung tâm dữ liệu AI sẽ đạt mức tiêu thụ điện năng 600kW trong thời gian tới. Để so sánh, 75% các trung tâm dữ liệu doanh nghiệp tiêu chuẩn chỉ có mức tiêu thụ điện năng tối đa là 15-20kW cho mỗi giá đỡ. Bất kể những lợi ích tiềm năng về hiệu quả trong AI, điều này đặt ra một thách thức đáng kể cho các trung tâm dữ liệu xây dựng hệ thống cơ sở hạ tầng tính toán.

Theo quan điểm của Elad Raz, các GPU và bộ tăng tốc AI hiện tại có thể không đủ để đáp ứng các nhu cầu tiềm năng của AI và Điện toán hiệu năng cao (HPC). ‘Nếu chúng ta không suy nghĩ lại một cách cơ bản về cách chúng ta cải thiện hiệu quả tính toán, ngành công nghiệp có nguy cơ đạt đến các giới hạn vật lý và kinh tế. Bức tường này cũng sẽ có tác dụng phụ, hạn chế quyền truy cập vào AI và HPC cho nhiều tổ chức hơn, cản trở sự đổi mới ngay cả với những tiến bộ trong thuật toán hoặc kiến trúc GPU truyền thống.’

Các khuyến nghị và yêu cầu đối với cơ sở hạ tầng tính toán thế hệ tiếp theo

Dựa trên những quan sát này, Elad Raz đề xuất ‘bốn trụ cột’ để xác định cơ sở hạ tầng tính toán thế hệ tiếp theo:

(1) Khả năng thay thế Plug-and-Play: ‘Lịch sử đã chỉ ra rằng các quá trình chuyển đổi kiến trúc phức tạp, như việc di chuyển từ CPU sang GPU, có thể mất hàng thập kỷ để triển khai đầy đủ. Do đó, kiến trúc tính toán thế hệ tiếp theo nên hỗ trợ quá trình di chuyển suôn sẻ.’ Đối với khả năng thay thế ‘plug-and-play’, Elad Raz gợi ý rằng các kiến trúc tính toán mới nên học hỏi từ hệ sinh thái x86 và Arm, đạt được sự chấp nhận rộng rãi hơn thông qua khả năng tương thích ngược.

Các thiết kế hiện đại cũng nên tránh yêu cầu các nhà phát triển viết lại một lượng lớn mã hoặc tạo sự phụ thuộc vào các nhà cung cấp cụ thể. ‘Ví dụ: hỗ trợ cho các công nghệ mới nổi như MLA nên được tiêu chuẩn hóa, thay vì yêu cầu các điều chỉnh thủ công bổ sung như trường hợp với các GPU không phải của NVIDIA. Các hệ thống thế hệ tiếp theo nên hiểu và tối ưu hóa khối lượng công việc mới ngay lập tức, mà không yêu cầu sửa đổi mã thủ công hoặc điều chỉnh API đáng kể.’

(2) Tối ưu hóa hiệu suất thích ứng, thời gian thực: Elad Raz tin rằng ngành công nghiệp nên tránh xa các bộ tăng tốc chức năng cố định. ‘Ngành công nghiệp cần xây dựng trên nền tảng phần cứng được xác định bằng phần mềm thông minh, có thể tự động tối ưu hóa trong thời gian chạy.’

‘Bằng cách liên tục học hỏi từ khối lượng công việc, các hệ thống tương lai có thể tự điều chỉnh theo thời gian thực, tối đa hóa việc sử dụng và duy trì hiệu suất, bất kể khối lượng công việc ứng dụng cụ thể nào. Khả năng thích ứng động này có nghĩa là cơ sở hạ tầng có thể cung cấp hiệu quả nhất quán trong các tình huống thực tế, cho dù đó là chạy mô phỏng HPC, mô hình AI phức tạp hay hoạt động cơ sở dữ liệu vectơ.’

(3) Hiệu quả có thể mở rộng: ‘Bằng cách tách rời phần cứng và phần mềm và tập trung vào tối ưu hóa thời gian thực thông minh, các hệ thống tương lai sẽ đạt được mức sử dụng cao hơn và mức tiêu thụ năng lượng tổng thể thấp hơn. Điều này sẽ làm cho cơ sở hạ tầng hiệu quả hơn về chi phí và có thể mở rộng để đáp ứng nhu cầu ngày càng tăng của khối lượng công việc mới.’

(4) Thiết kế tương lai: Điểm này tương ứng với yêu cầu hướng tới tương lai đối với cơ sở hạ tầng AI, đặc biệt là thiết kế chip. ‘Các thuật toán tiên tiến ngày nay có thể lỗi thời vào ngày mai.’ ‘Cho dù đó là mạng lưới thần kinh AI hay mô hình LLM dựa trên Transformer, cơ sở hạ tầng tính toán thế hệ tiếp theo cần phải có khả năng thích ứng, đảm bảo rằng các khoản đầu tư công nghệ của doanh nghiệp vẫn có khả năng phục hồi trong nhiều năm tới.’

Những gợi ý này đưa ra một góc nhìn tương đối lý tưởng nhưng đầy kích thích tư duy. Phương pháp luận hướng dẫn này nên được xem xét cho sự phát triển trong tương lai của các công nghệ AI và HPC, ngay cả khi một số mâu thuẫn vốn có vẫn là những vấn đề lâu dài trong ngành. ‘Để giải phóng tiềm năng của AI, HPC và các khối lượng công việc chuyên sâu về dữ liệu và tính toán trong tương lai khác, chúng ta phải suy nghĩ lại về cơ sở hạ tầng và áp dụng các giải pháp năng động và thông minh để hỗ trợ đổi mới và những người tiên phong.’