Bối cảnh trí tuệ nhân tạo đang trải qua một sự chuyển đổi đáng kể. Trong nhiều năm, nhu cầu tính toán khổng lồ của các mô hình AI phức tạp, đặc biệt là các mô hình ngôn ngữ lớn (LLMs), đã buộc hoạt động của chúng chủ yếu phải dựa vào các máy chủ mạnh mẽ, tiêu tốn nhiều năng lượng được đặt trong các trung tâm dữ liệu rộng lớn. Việc truy cập thường bao gồm việc gửi truy vấn qua internet và chờ đợi phản hồi được xử lý từ xa. Tuy nhiên, một sự thay đổi hấp dẫn hướng tới tính toán cục bộ đang ngày càng trở nên phổ biến, được thúc đẩy bởi những tiến bộ trong công nghệ bộ xử lý và mối lo ngại ngày càng tăng về quyền riêng tư dữ liệu và độ trễ. Advanced Micro Devices (AMD), một đối thủ đáng gờm trong lĩnh vực bán dẫn, đang tích cực đón nhận xu hướng này, tìm cách trao quyền cho người dùng khai thác khả năng của AI tạo sinh trực tiếp trên máy tính cá nhân của họ. Sáng kiến mới nhất của công ty trong lĩnh vực này là một dự án mã nguồn mở có tên gọi hấp dẫn là GAIA, viết tắt của ‘Generative AI Is Awesome’.
Mở ra Kỷ nguyên Xử lý AI Cục bộ
Sức hấp dẫn của việc chạy các mô hình AI tạo sinh cục bộ là đa diện. Thứ nhất, nó giải quyết các mối lo ngại ngày càng tăng về quyền riêng tư. Khi dữ liệu được xử lý trên thiết bị của chính người dùng, nhu cầu truyền thông tin nhạy cảm tiềm ẩn đến máy chủ của bên thứ ba sẽ bị loại bỏ, mang lại một mô hình hoạt động vốn đã an toàn hơn. Thứ hai, thực thi cục bộ có thể giảm đáng kể độ trễ; khoảng thời gian trễ giữa đầu vào và đầu ra được giảm thiểu khi công việc tính toán nặng nề diễn ra chỉ cách giao diện người dùng vài milimet, thay vì có khả năng phải đi qua các lục địa. Thứ ba, nó dân chủ hóa quyền truy cập. Trong khi AI dựa trên đám mây thường liên quan đến phí đăng ký hoặc giới hạn sử dụng, xử lý trên thiết bị tận dụng phần cứng mà người dùng đã sở hữu, có khả năng hạ thấp rào cản gia nhập để thử nghiệm và sử dụng các công cụ AI.
Nhận thức được tiềm năng này, AMD đã tích hợp một cách chiến lược các lõi xử lý chuyên dụng được thiết kế rõ ràng cho khối lượng công việc AI vào kiến trúc bộ xử lý của mình. Đỉnh cao của những nỗ lực này thể hiện rõ trong các bộ xử lý Ryzen AI 300 series mới nhất của họ, có các Bộ xử lý Thần kinh (NPUs) nâng cao. Các NPU này được thiết kế để xử lý các loại phép toán cụ thể phổ biến trong các tác vụ học máy, thực hiện điều đó với hiệu quả cao hơn đáng kể - cả về tốc độ và mức tiêu thụ điện năng - so với các lõi CPU truyền thống. Chính phần cứng chuyên dụng này mà AMD hướng tới việc mở khóa cho người dùng phổ thông thông qua dự án GAIA của mình. Victoria Godsoe, Giám đốc Hỗ trợ Nhà phát triển AI của AMD, đã nhấn mạnh mục tiêu này, nói rằng GAIA ‘tận dụng sức mạnh của Bộ xử lý Thần kinh Ryzen AI (NPU) để chạy các mô hình ngôn ngữ lớn (LLMs) riêng tư và cục bộ’. Bà còn nhấn mạnh thêm những lợi ích: ‘Sự tích hợp này cho phép xử lý nhanh hơn, hiệu quả hơn - tức là tiêu thụ điện năng thấp hơn - đồng thời giữ cho dữ liệu của bạn cục bộ và an toàn’.
Giới thiệu GAIA: Đơn giản hóa việc Triển khai LLM trên Thiết bị
GAIA nổi lên như câu trả lời của AMD cho câu hỏi: Làm thế nào người dùng có thể dễ dàng khai thác khả năng NPU của các máy tính mới được trang bị Ryzen AI để chạy các mô hình AI phức tạp? Được giới thiệu dưới dạng một ứng dụng mã nguồn mở, GAIA cung cấp một giao diện được sắp xếp hợp lý, được thiết kế đặc biệt để triển khai và tương tác với các LLM quy mô nhỏ trực tiếp trên PC Windows được trang bị phần cứng AMD mới nhất. Dự án có ý thức xây dựng dựa trên các framework mã nguồn mở hiện có, đặc biệt trích dẫn Lemonade làm nền tảng, thể hiện tinh thần hợp tác trong cộng đồng phát triển rộng lớn hơn.
Chức năng cốt lõi của GAIA là trừu tượng hóa phần lớn sự phức tạp thường liên quan đến việc thiết lập và chạy LLMs. Người dùng được cung cấp một môi trường dễ tiếp cận hơn, được tối ưu hóa từ đầu cho kiến trúc Ryzen AI của AMD. Sự tối ưu hóa này rất quan trọng; nó đảm bảo rằng phần mềm sử dụng hiệu quả NPU, tối đa hóa hiệu suất và giảm thiểu dấu chân năng lượng. Mặc dù mục tiêu chính là dòng Ryzen AI 300 series với NPU mạnh mẽ, AMD không hoàn toàn loại trừ người dùng các cấu hình phần cứng cũ hơn hoặc khác.
Dự án hỗ trợ các họ LLM phổ biến và tương đối nhỏ gọn, bao gồm các mô hình dựa trên kiến trúc Llama và Phi được truy cập rộng rãi. Các mô hình này, mặc dù có thể không sở hữu quy mô tuyệt đối của những gã khổng lồ như GPT-4, nhưng lại có khả năng đáng kể cho nhiều tác vụ trên thiết bị. AMD đề xuất các trường hợp sử dụng tiềm năng từ chatbot tương tác có khả năng trò chuyện tự nhiên đến các nhiệm vụ suy luận phức tạp hơn, thể hiện tính linh hoạt được hình dung cho AI cục bộ do GAIA cung cấp.
Khám phá Khả năng của GAIA: Các Agent và Sức mạnh Hybrid
Để giới thiệu các ứng dụng thực tế và làm cho công nghệ trở nên hữu ích ngay lập tức, GAIA đi kèm với một lựa chọn các ‘agent’ được xác định trước, mỗi agent được điều chỉnh cho một chức năng cụ thể:
- Chaty: Như tên gọi cho thấy, agent này cung cấp trải nghiệm AI đàm thoại, hoạt động như một chatbot cho tương tác và đối thoại chung. Nó tận dụng khả năng của LLM cơ bản để tạo ra các phản hồi văn bản giống như con người.
- Clip: Agent này tập trung vào các tác vụ trả lời câu hỏi. Đáng chú ý, nó kết hợp khả năng Retrieval-Augmented Generation (RAG), cho phép nó có khả năng tìm nạp thông tin từ các nguồn bên ngoài như bản ghi YouTube để cung cấp câu trả lời đầy đủ thông tin hơn hoặc phù hợp với ngữ cảnh hơn. Chức năng RAG này tăng cường đáng kể cơ sở kiến thức của agent vượt ra ngoài dữ liệu đào tạo ban đầu của LLM.
- Joker: Một agent dựa trên RAG khác, Joker được thiết kế đặc biệt cho sự hài hước, có nhiệm vụ tạo ra những câu chuyện cười. Điều này thể hiện tiềm năng cho các ứng dụng chuyên biệt, sáng tạo của LLMs cục bộ.
- Simple Prompt Completion: Agent này cung cấp một đường dẫn trực tiếp hơn đến LLM cơ sở, cho phép người dùng nhập lời nhắc và nhận các phần hoàn thành đơn giản mà không có các lớp đàm thoại hoặc tác vụ cụ thể của các agent khác. Nó đóng vai trò như một giao diện cơ bản để tương tác trực tiếp với mô hình.
Việc thực thi các agent này, cụ thể là quá trình suy luận nơi mô hình tạo ra phản hồi, chủ yếu được xử lý bởi NPU trên các chip Ryzen AI 300 series tương thích. Điều này đảm bảo hoạt động hiệu quả, tiêu thụ điện năng thấp. Tuy nhiên, AMD cũng đã kết hợp một chế độ ‘hybrid’ tiên tiến hơn cho một số mô hình được hỗ trợ nhất định. Cách tiếp cận sáng tạo này tự động kích hoạt bộ xử lý đồ họa tích hợp (iGPU) của bộ xử lý cùng với NPU. Bằng cách tận dụng sức mạnh xử lý song song của iGPU, chế độ hybrid này có thể mang lại sự tăng cường hiệu suất đáng kể cho các tác vụ AI đòi hỏi khắt khe, cung cấp cho người dùng một cách để tăng tốc độ suy luận vượt xa những gì NPU có thể đạt được một mình.
Nhận thức được bối cảnh phần cứng đa dạng, AMD cũng cung cấp một tùy chọn dự phòng. Một biến thể của GAIA tồn tại chỉ dựa vào các lõi CPU để tính toán. Mặc dù chậm hơn đáng kể và kém hiệu quả về năng lượng hơn so với chế độ NPU hoặc hybrid, phiên bản chỉ dành cho CPU này đảm bảo khả năng tiếp cận rộng rãi hơn, cho phép người dùng không có phần cứng Ryzen AI mới nhất thử nghiệm với GAIA, mặc dù có sự suy giảm về hiệu suất.
Định vị Chiến lược và Lợi thế Mã nguồn Mở
Việc ra mắt GAIA có thể được nhìn nhận trong bối cảnh rộng lớn hơn của thị trường bán dẫn cạnh tranh, đặc biệt là liên quan đến tăng tốc AI. Trong một thời gian dài, NVIDIA đã giữ vị trí thống trị trong không gian AI, phần lớn là do các GPU mạnh mẽ và hệ sinh thái phần mềm CUDA (Compute Unified Device Architecture) trưởng thành, đã trở thành một tiêu chuẩn thực tế cho học máy hiệu suất cao. Việc chạy các mô hình lớn hơn một cách hiệu quả trên phần cứng tiêu dùng thường hướng các nhà phát triển và những người đam mê đến các sản phẩm của NVIDIA.
Sáng kiến GAIA của AMD, kết hợp với phần cứng NPU chuyên dụng trong chip Ryzen AI, đại diện cho một động thái chiến lược nhằm thách thức sự thống trị này, đặc biệt là trong thị trường đang phát triển mạnh mẽ cho AI trên thiết bị trên máy tính xách tay và máy tính để bàn. Bằng cách cung cấp một công cụ dễ sử dụng, được tối ưu hóa và mã nguồn mở, AMD nhằm mục đích xây dựng một hệ sinh thái xung quanh khả năng phần cứng AI của riêng mình, làm cho các nền tảng Ryzen AI trở nên hấp dẫn hơn đối với các nhà phát triển và người dùng cuối quan tâm đến việc thực thi AI cục bộ. Việc tập trung rõ ràng vào tối ưu hóa NPU phân biệt nó với các phương pháp tiếp cận tập trung vào GPU và làm nổi bật lợi ích về hiệu quả năng lượng vốn có trong các bộ xử lý thần kinh chuyên dụng cho các tác vụ AI cụ thể.
Quyết định phát hành GAIA theo giấy phép mã nguồn mở MIT dễ dãi cũng có ý nghĩa chiến lược. Nó mời gọi sự hợp tác và đóng góp từ cộng đồng nhà phát triển toàn cầu. Cách tiếp cận này có thể đẩy nhanh quá trình phát triển của dự án, dẫn đến việc tích hợp các tính năng và mô hình mới, và nuôi dưỡng một cộng đồng đầu tư vào nền tảng AI của AMD. AMD rõ ràng hoan nghênh các yêu cầu kéo (pull requests) để sửa lỗi và cải tiến tính năng, báo hiệu cam kết phát triển GAIA thông qua nỗ lực tập thể. Việc mở nguồn làm giảm rào cản cho các nhà phát triển thử nghiệm, tích hợp và có khả năng xây dựng các ứng dụng thương mại dựa trên framework GAIA, tiếp tục kích thích hệ sinh thái xung quanh Ryzen AI.
Mặc dù phiên bản hiện tại tập trung vào các LLM nhỏ hơn phù hợp để thực thi trên thiết bị, nền tảng do GAIA đặt ra có thể mở đường cho việc hỗ trợ các mô hình và ứng dụng phức tạp hơn khi công nghệ NPU tiếp tục phát triển. Nó đại diện cho một tuyên bố rõ ràng về ý định từ AMD: trở thành một thế lực lớn trong kỷ nguyên trí tuệ nhân tạo cá nhân, cục bộ, cung cấp phần cứng và các công cụ phần mềm dễ tiếp cận cần thiết để đưa khả năng AI trực tiếp vào tay người dùng, một cách an toàn và hiệu quả. Biệt danh ‘Generative AI Is Awesome’, mặc dù có lẽ không trang trọng, nhấn mạnh sự nhiệt tình và tham vọng của công ty trong lĩnh vực công nghệ đang phát triển nhanh chóng này.