Các doanh nghiệp và nhà cung cấp dịch vụ đang triển khai các ứng dụng và tác nhân AI với tốc độ kỷ lục, tập trung vào việc cung cấp…
NeuReality, một công ty tiên phong trong việc tái cấu trúc kiến trúc suy luận AI để đáp ứng nhu cầu của các mô hình và khối lượng công việc AI hiện nay, đã công bố rằng thiết bị suy luận NR1 của họ hiện được tải sẵn với các mô hình AI doanh nghiệp phổ biến, bao gồm Llama, Mistral, Qwen, Granite 1 và hỗ trợ đám mây AI tạo sinh riêng và các cụm cục bộ. Thiết bị sẵn sàng cho AI tạo sinh và dựa trên tác nhân này khởi động và chạy trong vòng chưa đầy 30 phút, mang lại tốc độ nhận ra giá trị nhanh hơn gấp 3 lần, cho phép khách hàng đổi mới nhanh hơn. Các PoC (chứng minh khái niệm) hiện tại cho thấy thông lượng token có thể cao hơn tới 6,5 lần so với các máy chủ suy luận dựa trên CPU x86 trong cùng một phạm vi chi phí và năng lượng, cho phép các doanh nghiệp và chính phủ thuộc mọi quy mô truy cập và sử dụng AI một cách kinh tế hơn.
Bên trong thiết bị, chip NR1® là AI-CPU thực sự đầu tiên, được xây dựng cho việc điều phối suy luận - quản lý dữ liệu, tác vụ và tích hợp - với phần mềm, dịch vụ và API tích hợp. Nó không chỉ hợp nhất các kiến trúc CPU và NIC truyền thống vào một mà còn đóng gói khả năng xử lý gấp 6 lần vào chip để theo kịp sự phát triển nhanh chóng của GPU, đồng thời loại bỏ các tắc nghẽn CPU truyền thống.
Chip NR1, khi được kết hợp với bất kỳ GPU hoặc bộ tăng tốc AI nào trong thiết bị của nó, mang lại hiệu quả đột phá về chi phí, năng lượng và không gian, điều này rất quan trọng để áp dụng AI doanh nghiệp rộng rãi. Ví dụ: so sánh cùng một mô hình Llama 3.3-70B và cùng một thiết lập GPU hoặc bộ tăng tốc AI, thiết bị được hỗ trợ bởi AI-CPU của NeuReality đạt được tổng chi phí trên một triệu token AI thấp hơn so với máy chủ dựa trên CPU x86.
Moshe Tanach, Đồng sáng lập kiêm Giám đốc điều hành của NeuReality, cho biết: “Không ai nghi ngờ tiềm năng to lớn của AI. Thách thức là làm cho việc triển khai suy luận AI trở nên khả thi về mặt kinh tế. Công nghệ AI-CPU mang tính đột phá của NeuReality loại bỏ các tắc nghẽn, cho phép chúng tôi cung cấp hiệu suất bổ sung cần thiết để giải phóng toàn bộ sức mạnh của GPU, đồng thời điều phối các truy vấn và token AI để tối đa hóa hiệu suất và ROI của các hệ thống AI đắt tiền này.”
Tanach tiếp tục: “Giờ đây, chúng tôi đang nâng cao tính dễ sử dụng lên một tầm cao mới với thiết bị suy luận AI từ silicon đến phần mềm tích hợp của chúng tôi. Nó được tải sẵn các mô hình AI và tất cả các công cụ để giúp các nhà phát triển phần mềm AI triển khai AI nhanh hơn, dễ dàng hơn và rẻ hơn bao giờ hết, cho phép họ chuyển nguồn lực sang ứng dụng AI trong doanh nghiệp của họ thay vì tích hợp và tối ưu hóa cơ sở hạ tầng.”
Một nghiên cứu gần đây cho thấy khoảng 70% doanh nghiệp báo cáo sử dụng AI tạo sinh trong ít nhất một chức năng kinh doanh, cho thấy nhu cầu tăng lên. Tuy nhiên, chỉ có 25% doanh nghiệp có các quy trình được AI hỗ trợ hoàn toàn và đạt được áp dụng rộng rãi, chỉ có một phần ba đã bắt đầu triển khai các trường hợp sử dụng AI hạn chế.
Ngày nay, các tắc nghẽn hiệu suất CPU trên các máy chủ quản lý khối lượng công việc đa phương thức và mô hình ngôn ngữ lớn là một yếu tố chính dẫn đến tỷ lệ sử dụng GPU trung bình thấp tới 30-40%. Điều này dẫn đến lãng phí silicon đắt tiền trong các triển khai AI và một thị trường chưa được phục vụ vẫn phải đối mặt với các rào cản về độ phức tạp và chi phí.
Rashid Attar, Phó chủ tịch cấp cao về kỹ thuật tại Qualcomm Technologies, Inc., cho biết: “Các doanh nghiệp và nhà cung cấp dịch vụ đang triển khai các ứng dụng và tác nhân AI với tốc độ kỷ lục và đang tập trung vào việc cung cấp hiệu suất một cách kinh tế. Bằng cách tích hợp bộ tăng tốc Qualcomm Cloud AI 100 Ultra với kiến trúc AI-CPU của NeuReality, người dùng có thể đạt được các mức hiệu quả chi phí và hiệu suất AI mới mà không ảnh hưởng đến tính dễ dàng triển khai và mở rộng quy mô.”
Thiết bị NR1 của NeuReality đã được triển khai với khách hàng dịch vụ đám mây và tài chính và được thiết kế đặc biệt để tăng tốc việc áp dụng AI thông qua tính kinh tế, khả năng truy cập và hiệu quả không gian của nó, phù hợp cho cả các tùy chọn suy luận dưới dạng dịch vụ tại chỗ và trên đám mây. Ngoài các mô hình AI tạo sinh và dựa trên tác nhân được tải sẵn mới và các bản phát hành mới hàng quý, nó còn hoàn toàn tối ưu hóa các bộ công cụ phát triển phần mềm và API được cấu hình sẵn để thị giác máy tính, AI đàm thoại hoặc hỗ trợ các yêu cầu tùy chỉnh cho các trường hợp sử dụng và thị trường kinh doanh khác nhau, chẳng hạn như dịch vụ tài chính, khoa học đời sống, chính phủ, nhà cung cấp dịch vụ đám mây.
Thiết bị NR1 đầu tiên thống nhất mô-đun NR1® (thẻ PCIe) với bộ tăng tốc Qualcomm® Cloud AI 100 Ultra.
NeuReality sẽ trưng bày tại InnoVEX (đồng tổ chức với Computex) từ ngày 20 đến 23 tháng 5 năm 2025 tại Đài Bắc, Đài Loan, gian hàng số S0912 tại Gian hàng Israel, Hall 2 (gần sân khấu trung tâm). Công ty sẽ tổ chức các buổi trình diễn trực tiếp về thiết bị suy luận NR1, bao gồm di chuyển ứng dụng trò chuyện trong vài phút và trình diễn hiệu suất của chip NR1 chạy Smooth Factory Models và DeepSeek-R1-Distill-Llama-8B.
NeuReality, được thành lập vào năm 2019, là công ty tiên phong trong kiến trúc suy luận AI chuyên dụng được hỗ trợ bởi chip NR1® - AI-CPU đầu tiên để điều phối suy luận. Dựa trên kiến trúc mở, dựa trên tiêu chuẩn, NR1 hoàn toàn tương thích với bất kỳ bộ tăng tốc AI nào. Nhiệm vụ của NeuReality là làm cho AI có thể truy cập và phổ biến bằng cách giảm các rào cản liên quan đến chi phí, mức tiêu thụ điện năng và độ phức tạp cao, đồng thời tận dụng công nghệ đột phá của mình để mở rộng việc áp dụng suy luận AI. Công ty có 80 nhân viên tại các văn phòng ở Israel, Ba Lan và Hoa Kỳ.
1 Các mô hình AI được tải sẵn và tối ưu hóa cho khách hàng doanh nghiệp bao gồm: Llama 3.3 70B, Llama 3.1 8B (sê-ri Llama 4 sắp ra mắt); Mistral 7B, Mistral 8x7B và Mistral Small; Qwen 2.5, bao gồm Coder (Qwen 3 sắp ra mắt); DeepSeek R1**-**Distill-Llama 8B, R1 Distill-Llama 70b; và Granite 3, 3.1 8B (Granite 3.3 sắp ra mắt).
Cuộc Cách Mạng AI của NeuReality: Sự Hội Tụ của Hiệu Suất, Chi Phí Hiệu Quả và Dễ Sử Dụng
Khi trí tuệ nhân tạo (AI) tiếp tục thâm nhập vào các ngành công nghiệp khác nhau, các doanh nghiệp phải đối mặt với thách thức triển khai các giải pháp suy luận AI một cách khả thi và hiệu quả về mặt kinh tế. NeuReality đang làm gián đoạn nền kinh tế AI bằng phương pháp tiếp cận sáng tạo của mình, tập trung vào việc cung cấp quyền truy cập LLM (mô hình ngôn ngữ lớn) tức thì, sẵn sàng sử dụng, đồng thời giảm đáng kể tổng chi phí suy luận AI. Thiết bị suy luận NR1 hàng đầu của NeuReality mang đến cho các doanh nghiệp hiệu suất, chi phí hiệu quả và dễ sử dụng chưa từng có bằng cách tối ưu hóa kiến trúc suy luận AI và tải sẵn các mô hình AI doanh nghiệp phổ biến.
Thiết Bị Suy Luận NR1: Một Bước Đột Phá
Trọng tâm của thiết bị suy luận NR1 là AI-CPU được xây dựng có mục đích của NeuReality, đóng vai trò là trung tâm điều khiển tập trung cho dữ liệu, tác vụ và tích hợp. Không giống như các kiến trúc CPU và NIC truyền thống, chip NR1 tích hợp các thành phần này vào một đơn vị, giảm tắc nghẽn và tối đa hóa khả năng xử lý. Phương pháp tích hợp này cho phép chip theo kịp sự phát triển nhanh chóng của GPU đồng thời tối ưu hóa các truy vấn và mã thông báo AI để cải thiện hiệu suất và lợi tức đầu tư.
AI Sẵn Sàng Sử Dụng: Đơn Giản Hóa Việc Triển Khai
Để nâng cao hơn nữa tính dễ sử dụng, thiết bị suy luận NR1 được tải sẵn với các mô hình AI doanh nghiệp phổ biến, bao gồm Llama, Mistral, Qwen và Granite. Tính năng này loại bỏ sự phức tạp của việc cấu hình và tối ưu hóa, cho phép các nhà phát triển phần mềm AI tập trung vào việc ứng dụng AI trong doanh nghiệp của họ thay vì dành thời gian cho việc tích hợp cơ sở hạ tầng. Thiết bị có thể khởi động và chạy trong vòng chưa đầy 30 phút, mang đến cho khách hàng thời gian nhanh chóng để nhận ra giá trị.
AI Giá Cả Phải Chăng: Đẩy Nhanh Việc Áp Dụng
Công nghệ của NeuReality giúp các doanh nghiệp truy cập và sử dụng AI một cách kinh tế hơn bằng cách cung cấp tổng chi phí trên một triệu mã thông báo AI thấp hơn so với các máy chủ dựa trên CPU x86. Tính hiệu quả về chi phí này là rất quan trọng đối với các doanh nghiệp và chính phủ thuộc mọi quy mô, vì nó làm giảm rào cản đối với việc triển khai AI và cho phép các ứng dụng rộng rãi hơn.
Hợp Tác Với Qualcomm Technologies: Mở Khóa Các Cấp Hiệu Suất Mới
Quan hệ đối tác chiến lược giữa NeuReality và Qualcomm Technologies tiếp tục nâng cao khả năng của thiết bị suy luận NR1. Bằng cách tích hợp bộ tăng tốc Qualcomm Cloud AI 100 Ultra với kiến trúc AI-CPU của NeuReality, người dùng có thể đạt được các mức hiệu quả chi phí và hiệu suất AI mới mà không ảnh hưởng đến tính dễ dàng triển khai và mở rộng quy mô. Phương pháp cộng tác này thể hiện cam kết của NeuReality trong việc tận dụng các công nghệ tiên tiến để tối ưu hóa các giải pháp suy luận AI.
Giải Quyết Các Thách Thức Về AI Của Doanh Nghiệp: Cải Thiện Việc Sử Dụng GPU
NeuReality đang giải quyết một thách thức đáng kể mà các doanh nghiệp phải đối mặt: tắc nghẽn hiệu suất CPU trên các máy chủ làm giảm tỷ lệ sử dụng GPU. Theo truyền thống, các máy chủ quản lý khối lượng công việc đa phương thức và mô hình ngôn ngữ lớn có tỷ lệ sử dụng GPU trung bình thấp tới 30-40%. Tỷ lệ sử dụng thấp này dẫn đến lãng phí silicon đắt tiền trong các triển khai AI và hạn chế việc áp dụng AI trong các thị trường chưa được phục vụ. Công nghệ AI-CPU của NeuReality giải quyết vấn đề này bằng cách loại bỏ các tắc nghẽn hiệu suất, cho phép các doanh nghiệp khai thác toàn bộ sức mạnh của GPU của họ trong các ứng dụng AI.
Đáp Ứng Nhu Cầu Về AI Tạo Sinh: Tăng Cường Sử Dụng
Các giải pháp của NeuReality được định vị tốt để đáp ứng thị trường AI tạo sinh đang phát triển nhanh chóng. Các nghiên cứu gần đây cho thấy khoảng 70% doanh nghiệp báo cáo sử dụng AI tạo sinh trong ít nhất một chức năng kinh doanh. Tuy nhiên, chỉ có 25% doanh nghiệp có các quy trình được AI hỗ trợ hoàn toàn và đạt được áp dụng rộng rãi. Thiết bị suy luận NR1 của NeuReality cho phép các doanh nghiệp đẩy nhanh các sáng kiến AI tạo sinh của họ bằng cách loại bỏ các rào cản đối với việc áp dụng thông qua cải thiện tính dễ sử dụng, hiệu quả chi phí và hiệu suất.
Dễ Sử Dụng: Giảm Các Rào Cản Triển Khai
Ngoài hiệu suất và hiệu quả chi phí, tính dễ sử dụng là yếu tố quan trọng thúc đẩy các giải pháp AI của NeuReality. Thiết bị suy luận NR1 được tải sẵn các mô hình AI và bộ công cụ phát triển phần mềm, đơn giản hóa quy trình triển khai và giảm nhu cầu tích hợp và tối ưu hóa cơ sở hạ tầng. Tính dễ sử dụng này cho phép các nhà phát triển phần mềm AI tập trung vào việc xây dựng và triển khai các ứng dụng AI sáng tạo thay vì dành thời gian cho cơ sở hạ tầng phức tạp.
Ứng Dụng Rộng Rãi: Nhiều Ngành
Thiết bị suy luận NR1 của NeuReality được thiết kế để hỗ trợ nhiều trường hợp sử dụng và thị trường kinh doanh khác nhau. Thiết bị này được tối ưu hóa cho thị giác máy tính, AI đàm thoại và các yêu cầu tùy chỉnh thông qua các bộ công cụ phát triển phần mềm và API được cấu hình sẵn. Tính linh hoạt này làm cho thiết bị suy luận NR1 phù hợp với nhiều ngành công nghiệp, bao gồm dịch vụ tài chính, khoa học đời sống, chính phủ và nhà cung cấp dịch vụ đám mây.
Đẩy Nhanh Việc Áp Dụng AI: Khả Năng Chi Trả, Khả Năng Truy Cập và Hiệu Quả Không Gian
Thiết bị NR1 của NeuReality thúc đẩy việc áp dụng AI bằng cách đồng thời cung cấp khả năng chi trả và khả năng truy cập, khiến nó phù hợp với cả cơ sở hạ tầng tại chỗ và trên đám mây. Nhiều tổ chức đang phải vật lộn để mở rộng các sáng kiến AI của họ do chi phí và độ phức tạp cao, nhưng giải pháp của NeuReality giải quyết những rào cản này bằng cách cung cấp một nền tảng mở dựa trên chi phí hiệu quả giúp đơn giản hóa việc phát triển và triển khai AI.
Điểm Nổi Bật Của Bản Trình Diễn
NeuReality sẽ giới thiệu công cụ suy luận NR1 của mình tại InnoVEX, được tổ chức cùng với Computex ở Đài Bắc, Đài Loan từ ngày 20 đến ngày 23 tháng 5 năm 2025, thể hiện khả năng của nó. Tại sự kiện, công ty sẽ trình diễn tính dễ dàng di chuyển các ứng dụng trò chuyện trong vài phút và thể hiện hiệu suất của chip NR1 trong Smooth Factory Models và DeepSeek-R1-Distill-Llama-8B.
Đổi Mới Liên Tục: Chuẩn Bị Cho Tương Lai
NeuReality cam kết nâng cao khả năng của thiết bị suy luận NR1 của mình thông qua các bản phát hành thường xuyên các mô hình AI tạo sinh và dựa trên tác nhân mới cũng như các bộ công cụ phát triển phần mềm được tối ưu hóa. Đổi mới liên tục này cho phép các doanh nghiệp luôn cập nhật các công nghệ AI mới nhất và đảm bảo rằng cơ sở hạ tầng AI của họ được tối ưu hóa cho khối lượng công việc trong tương lai.
NeuReality: Trao Quyền Cho Các Doanh Nghiệp Nắm Bắt Tiềm Năng Của AI
Công nghệ AI-CPU mang tính đột phá của NeuReality cung cấp các phương tiện hiệu quả về chi phí để triển khai các triển khai AI suy luận, tối đa hóa hiệu suất của GPU đồng thời tối ưu hóa các truy vấn và mã thông báo AI để đạt được hiệu suất và ROI tối đa. Khi NeuReality tiếp tục đổi mới và mở rộng khả năng của thiết bị suy luận NR1, công ty sẵn sàng trở thành một đồng minh quan trọng cho các doanh nghiệp phát triển mạnh trong thế giới AI đang phát triển mạnh mẽ.
Bằng cách kết hợp sự tập trung vào hiệu suất, hiệu quả chi phí và dễ sử dụng với cam kết đổi mới liên tục, NeuReality đang định vị mình để định hình lại nền kinh tế AI và trao quyền cho các doanh nghiệp thuộc mọi quy mô để nắm bắt tiềm năng của AI.