Arm Kleidi: Tối ưu hóa suy luận AI trên CPU Arm
Sự phát triển nhanh chóng của AI đang mở ra một kỷ nguyên mới của các mô hình đa phương thức. Các hệ thống phức tạp này có khả năng xử lý và diễn giải thông tin từ nhiều nguồn khác nhau, bao gồm văn bản, hình ảnh, âm thanh, video và thậm chí cả dữ liệu cảm biến. Tuy nhiên, việc triển khai các mô hình mạnh mẽ này trên các thiết bị biên đặt ra những rào cản đáng kể. Những hạn chế vốn có về năng lượng và dung lượng bộ nhớ của phần cứng biên, kết hợp với nhiệm vụ phức tạp là xử lý đồng thời các loại dữ liệu đa dạng, tạo ra một thách thức phức tạp.
Arm Kleidi được thiết kế đặc biệt để giải quyết thách thức này, cung cấp khả năng tối ưu hóa hiệu suất liền mạch cho tất cả các khối lượng công việc suy luận AI chạy trên CPU Arm. Trọng tâm của Kleidi là KleidiAI, một bộ các quy trình Arm mã nguồn mở, hiệu quả cao, được xây dựng để tăng tốc AI.
KleidiAI đã được tích hợp vào các phiên bản mới nhất của các framework AI được sử dụng rộng rãi cho các thiết bị biên. Chúng bao gồm ExecuTorch, Llama.cpp, LiteRT thông qua XNNPACK và MediaPipe. Sự tích hợp rộng rãi này mang lại lợi thế đáng kể cho hàng triệu nhà phát triển, những người giờ đây có thể tự động hưởng lợi từ việc tối ưu hóa hiệu suất AI mà không cần thêm bất kỳ nỗ lực nào.
Hợp tác với Alibaba: Mô hình Qwen2-VL-2B-Instruct
Một cột mốc mới trong sự tiến bộ của AI đa phương thức trên các thiết bị biên đã đạt được thông qua sự hợp tác chặt chẽ với MNN. MNN là một framework deep learning mã nguồn mở, nhẹ, được phát triển và duy trì bởi Alibaba. Sự hợp tác này đã dẫn đến việc tích hợp thành công KleidiAI, cho phép khối lượng công việc AI đa phương thức chạy hiệu quả trên các thiết bị di động sử dụng CPU Arm. Chìa khóa cho thành tựu này là mô hình Qwen2-VL-2B-Instruct 2B tham số được điều chỉnh theo hướng dẫn của Alibaba. Mô hình này được thiết kế đặc biệt để hiểu hình ảnh, suy luận từ văn bản sang hình ảnh và tạo đa phương thức trên nhiều ngôn ngữ, tất cả đều được điều chỉnh cho các ràng buộc của thiết bị biên.
Mức tăng hiệu suất có thể đo lường được
Việc tích hợp KleidiAI với MNN đã mang lại những cải thiện hiệu suất đáng kể, có thể đo lường được cho mô hình Qwen2-VL-2B-Instruct. Thời gian phản hồi nhanh hơn đã được quan sát thấy trên các trường hợp sử dụng AI đa phương thức quan trọng ở biên. Những cải tiến này mở ra trải nghiệm người dùng nâng cao trong nhiều ứng dụng tập trung vào khách hàng của Alibaba. Ví dụ bao gồm:
- Chatbot cho dịch vụ khách hàng: Cung cấp phản hồi nhanh hơn và hiệu quả hơn cho các câu hỏi của khách hàng.
- Ứng dụng mua sắm điện tử: Cho phép tìm kiếm từ ảnh sang hàng hóa, cho phép khách hàng nhanh chóng tìm thấy các mặt hàng họ đang tìm kiếm bằng cách tải lên một hình ảnh.
Tốc độ nâng cao trong các ứng dụng này là kết quả trực tiếp của mức tăng hiệu suất đáng kể:
- Cải thiện Pre-fill: Đã đạt được mức cải thiện hiệu suất đáng kể 57% trong pre-fill. Điều này đề cập đến giai đoạn quan trọng nơi các mô hình AI xử lý đầu vào prompt đa nguồn trước khi tạo ra phản hồi.
- Cải thiện Decode: Đã quan sát thấy mức cải thiện hiệu suất đáng kể 28% trong decode. Đây là quá trình mô hình AI tạo văn bản sau khi xử lý một prompt.
Ngoài tốc độ, tích hợp KleidiAI cũng góp phần xử lý hiệu quả hơn các khối lượng công việc AI ở biên. Điều này đạt được bằng cách giảm chi phí tính toán tổng thể liên quan đến khối lượng công việc đa phương thức. Những lợi ích về hiệu suất và hiệu quả này có thể dễ dàng truy cập được đối với hàng triệu nhà phát triển. Bất kỳ nhà phát triển nào chạy ứng dụng và khối lượng công việc trên framework MNN, cũng như các framework AI phổ biến khác cho các thiết bị biên nơi KleidiAI được tích hợp, đều có thể hưởng lợi ngay lập tức.
Trình diễn thực tế: Trưng bày tại MWC
Khả năng thực tế của mô hình Qwen2-VL-2B-Instruct, được hỗ trợ bởi tích hợp KleidiAI mới với MNN, đã được giới thiệu tại Mobile World Congress (MWC). Một bản demo tại gian hàng của Arm đã làm nổi bật khả năng của mô hình trong việc hiểu các kết hợp đa dạng của đầu vào hình ảnh và văn bản. Mô hình sau đó đã trả lời bằng một bản tóm tắt ngắn gọn về nội dung hình ảnh. Toàn bộ quá trình này được thực hiện trên CPU Arm của điện thoại thông minh, thể hiện sức mạnh và hiệu quả của giải pháp. Những chiếc điện thoại thông minh này được xây dựng trên hệ thống trên chip (SoC) di động Dimensity 9400 do Arm cung cấp của MediaTek, bao gồm cả dòng vivo X200.
Một bước tiến đáng kể trong trải nghiệm người dùng
Việc tích hợp KleidiAI của Arm với framework MNN cho mô hình Qwen2-VL-2B-Instruct của Alibaba thể hiện một bước nhảy vọt đáng kể trong trải nghiệm người dùng cho khối lượng công việc AI đa phương thức. Sự tiến bộ này mang lại những trải nghiệm nâng cao này trực tiếp tại biên, tất cả đều được cung cấp bởi CPU Arm. Các khả năng này có sẵn trên các thiết bị di động, với các ứng dụng hàng đầu hướng tới khách hàng đã tận dụng lợi ích của KleidiAI.
Tương lai của AI đa phương thức trên thiết bị biên
Trong tương lai, việc tối ưu hóa liền mạch của KleidiAI cho khối lượng công việc AI sẽ tiếp tục trao quyền cho hàng triệu nhà phát triển. Họ sẽ có thể tạo ra những trải nghiệm đa phương thức ngày càng tinh vi trên các thiết bị biên. Sự đổi mới liên tục này sẽ mở đường cho làn sóng điện toán thông minh tiếp theo, đánh dấu một bước tiến đáng kể trong sự phát triển không ngừng của AI.
Trích dẫn từ lãnh đạo Alibaba
‘Chúng tôi rất vui khi thấy sự hợp tác giữa mô hình ngôn ngữ lớn Qwen của Alibaba Cloud, Arm KleidiAI và MNN. Việc tích hợp framework suy luận trên thiết bị của MNN với Arm KleidiAI đã cải thiện đáng kể độ trễ và hiệu quả năng lượng của Qwen. Quan hệ đối tác này xác nhận tiềm năng của LLM trên thiết bị di động và nâng cao trải nghiệm người dùng AI. Chúng tôi mong muốn tiếp tục nỗ lực trong việc thúc đẩy điện toán AI trên thiết bị.’ - Dong Xu, GM of Tongyi Large Model Business, Alibaba Cloud.
‘Việc tích hợp kỹ thuật giữa framework suy luận MNN và Arm KleidiAI đánh dấu một bước đột phá lớn trong việc tăng tốc trên thiết bị. Với việc tối ưu hóa chung kiến trúc, chúng tôi đã cải thiện đáng kể hiệu quả suy luận trên thiết bị của Tongyi LLM, thu hẹp khoảng cách giữa sức mạnh tính toán di động hạn chế và khả năng AI tiên tiến. Thành tựu này làm nổi bật chuyên môn kỹ thuật và sự hợp tác liên ngành của chúng tôi. Chúng tôi mong muốn tiếp tục mối quan hệ đối tác này để nâng cao hệ sinh thái điện toán trên thiết bị, mang lại trải nghiệm AI mượt mà và hiệu quả hơn trên thiết bị di động.’ - Xiaotang Jiang, Head of MNN, Taobao and Tmall Group, Alibaba.
Tìm hiểu sâu hơn về các khía cạnh kỹ thuật
Để đánh giá đầy đủ tầm quan trọng của sự hợp tác này, cần phải xem xét một số chi tiết kỹ thuật cơ bản.
Vai trò của MNN
Triết lý thiết kế của MNN tập trung vào hiệu quả và tính di động. Nó đạt được điều này thông qua một số tính năng chính:
- Kiến trúc nhẹ: MNN được thiết kế để có footprint nhỏ, giảm thiểu yêu cầu lưu trữ và bộ nhớ trên các thiết bị biên.
- Hoạt động được tối ưu hóa: Framework này kết hợp các hoạt động toán học được tối ưu hóa cao, được điều chỉnh đặc biệt cho CPU Arm, tối đa hóa hiệu suất.
- Khả năng tương thích đa nền tảng: MNN hỗ trợ nhiều hệ điều hành và nền tảng phần cứng, làm cho nó trở thành một lựa chọn linh hoạt cho các nhà phát triển.
Đóng góp của KleidiAI
KleidiAI bổ sung cho các thế mạnh của MNN bằng cách cung cấp một tập hợp các quy trình chuyên biệt giúp tăng tốc hơn nữa suy luận AI. Các quy trình này tận dụng kinh nghiệm sâu rộng của Arm trong kiến trúc CPU để mở khóa mức tăng hiệu suất mà khó có thể đạt được bằng cách khác. Các khía cạnh chính trong đóng góp của KleidiAI bao gồm:
- Kernel được tối ưu hóa cao: KleidiAI cung cấp các kernel được tối ưu hóa cao cho các hoạt động AI phổ biến, chẳng hạn như nhân ma trận và tích chập. Các kernel này được điều chỉnh tỉ mỉ để tận dụng các tính năng cụ thể của CPU Arm.
- Tích hợp tự động: Việc tích hợp liền mạch KleidiAI vào các framework AI phổ biến có nghĩa là các nhà phát triển không cần phải kết hợp thủ công các tối ưu hóa này. Các lợi ích về hiệu suất được áp dụng tự động, đơn giản hóa quá trình phát triển.
- Cải tiến liên tục: Arm cam kết liên tục cập nhật và cải tiến KleidiAI, đảm bảo rằng nó vẫn đi đầu trong công nghệ tăng tốc AI.
Qwen2-VL-2B-Instruct: Một mô hình đa phương thức mạnh mẽ
Mô hình Qwen2-VL-2B-Instruct là một minh chứng cho chuyên môn của Alibaba trong các mô hình ngôn ngữ lớn và AI đa phương thức. Các tính năng chính của nó bao gồm:
- Điều chỉnh theo hướng dẫn: Mô hình được điều chỉnh đặc biệt để làm theo hướng dẫn, làm cho nó có khả năng thích ứng cao với nhiều tác vụ.
- Khả năng đa phương thức: Nó vượt trội trong việc hiểu và xử lý cả thông tin hình ảnh và văn bản, cho phép các ứng dụng như chú thích hình ảnh và trả lời câu hỏi trực quan.
- Hỗ trợ đa ngôn ngữ: Mô hình được thiết kế để hoạt động với nhiều ngôn ngữ, mở rộng khả năng ứng dụng của nó trên các khu vực và cơ sở người dùng khác nhau.
- Tối ưu hóa cho thiết bị biên: Mặc dù có khả năng mạnh mẽ, mô hình được thiết kế cẩn thận để hoạt động trong các ràng buộc tài nguyên của thiết bị biên.
Mở rộng phạm vi của AI đa phương thức
Những tiến bộ được thảo luận ở đây không giới hạn ở điện thoại thông minh. Các nguyên tắc và công nghệ tương tự có thể được áp dụng cho nhiều loại thiết bị biên, bao gồm:
- Thiết bị nhà thông minh: Cho phép trợ lý giọng nói, nhận dạng hình ảnh cho camera an ninh và các tính năng thông minh khác.
- Thiết bị đeo được: Hỗ trợ theo dõi sức khỏe, theo dõi thể dục và các ứng dụng thực tế tăng cường.
- IoT công nghiệp: Tạo điều kiện bảo trì dự đoán, kiểm soát chất lượng và tự động hóa trong môi trường sản xuất.
- Ô tô: Tăng cường hệ thống hỗ trợngười lái, giải trí trong cabin và khả năng lái xe tự động.
Các ứng dụng tiềm năng của AI đa phương thức ở biên là rất lớn và tiếp tục mở rộng. Khi các mô hình trở nên tinh vi hơn và phần cứng trở nên mạnh mẽ hơn, chúng ta có thể mong đợi thấy nhiều trường hợp sử dụng sáng tạo và có tác động hơn nữa xuất hiện. Sự hợp tác giữa Arm và Alibaba là một bước quan trọng theo hướng đó, mang sức mạnh của AI đa phương thức đến với nhiều đối tượng hơn và cho phép một thế hệ thiết bị thông minh mới. Việc tập trung vào hiệu quả, hiệu suất và khả năng tiếp cận của nhà phát triển đảm bảo rằng những tiến bộ này sẽ có tác động rộng lớn và lâu dài đến tương lai của công nghệ.