NeuReality是一家在重新构想AI推理架构以满足当今AI模型和工作负载需求的先驱,该公司宣布其NR1推理设备现在预装了流行的企业AI模型,包括Llama、Mistral、Qwen、Granite 1,并支持私有生成AI云和本地集群。该生成式和代理式AI就绪设备在不到30分钟的时间内启动并运行,提供了3倍的价值实现速度,从而使客户能够更快地进行创新。目前的PoC(概念验证)表明,与基于x86 CPU的推理服务器相比,在相同的成本和功率范围内,token输出量最多可提高6.5倍,从而使各种规模的企业和政府都能以更经济实惠的方式访问和使用AI。
在设备内部,NR1®芯片是首款真正的AI-CPU,专为推理编排而构建——数据、任务和集成的管理——具有内置的软件、服务和API。它不仅将传统的CPU和NIC架构整合为一个,而且还将6倍的处理能力封装到芯片上,以跟上GPU的快速发展,同时消除了传统的CPU瓶颈。
NR1芯片与其设备内的任何GPU或AI加速器配对,可提供突破性的成本、能源和房地产效率,这对于广泛的企业AI采用至关重要。例如,比较相同的Llama 3.3-70B模型和相同的GPU或AI加速器设置,NeuReality的AI-CPU驱动设备实现了比基于x86 CPU的服务器更低的每百万AI token的总成本。
NeuReality的联合创始人兼首席执行官Moshe Tanach表示:“没有人会质疑AI的巨大潜力。挑战在于如何使AI推理的部署在经济上可行。NeuReality的颠覆性AI-CPU技术消除了瓶颈,使我们能够提供所需的额外性能,以释放GPU的全部功能,同时协调AI查询和token,从而最大限度地提高这些昂贵AI系统的性能和投资回报率。”
Tanach继续说道:“现在,我们通过集成的硅到软件的AI推理设备将易用性提升到了一个新的水平。它预装了AI模型和所有工具,可帮助AI软件开发人员比以往更快、更容易、更便宜地部署AI,从而使他们能够将资源转移到在其业务中应用AI,而不是在基础设施集成和优化方面。”
最近的一项研究发现,大约70%的企业报告说在至少一项业务功能中使用生成式AI,这表明需求增加了。但是,只有25%的企业拥有由AI完全启用的流程,并且实现了广泛采用,只有三分之一的企业开始实施有限的AI用例。
如今,服务器上管理多模式和大型语言模型工作负载的CPU性能瓶颈是导致GPU平均利用率低至30-40%的主要因素。这导致AI部署中昂贵的硅浪费,以及仍然面临复杂性和成本障碍的 underserved 市场。
高通技术公司工程高级副总裁Rashid Attar表示:“企业和服务提供商正以创纪录的速度部署AI应用程序和代理,并且专注于以经济的方式提供性能。通过将高通Cloud AI 100 Ultra加速器与NeuReality的AI-CPU架构集成,用户可以实现新的成本效率和AI性能水平,而不会影响部署和扩展的简便性。”
NeuReality的NR1设备已与云和金融服务客户一起部署,经过专门设计,可通过其经济性、可访问性和空间效率来加速AI的采用,适用于本地和云推理即服务选项。除了新的预加载的生成式和代理式AI模型,以及每个季度的新版本外,它还完全优化了预配置的软件开发工具包和API,用于计算机视觉、对话式AI或支持各种业务用例和市场的自定义请求(例如金融服务、生命科学、政府、云服务提供商)。
首款NR1设备将NR1®模块(PCIe卡)与高通® Cloud AI 100 Ultra加速器统一起来。
NeuReality将于2025年5月20日至23日在台北台湾举行的InnoVEX(与Computex共同举办)的以色列馆,2号馆S0912展位(靠近中央舞台)展出。该公司将举办NR1推理设备的现场演示,包括在几分钟内迁移聊天应用程序以及NR1芯片运行Smooth Factory Models和DeepSeek-R1-Distill-Llama-8B的性能演示。
NeuReality成立于2019年,是一家由NR1®芯片(首款用于推理编排的AI-CPU)驱动的专用AI推理架构的先驱。基于开放的、基于标准的体系结构,NR1与任何AI加速器完全兼容。NeuReality的使命是通过降低与高昂的成本、功耗和复杂性相关的障碍,并利用其颠覆性技术来扩大AI推理的采用范围,从而使AI具有可访问性和普遍性。该公司在以色列、波兰和美国的工厂拥有80名员工。
预加载并针对企业客户进行了优化的1 AI模型包括:Llama 3.3 70B、Llama 3.1 8B(Llama 4系列即将推出);Mistral 7B、Mistral 8x7B和Mistral Small;Qwen 2.5,包括Coder(Qwen 3即将推出);DeepSeek R1**-**Distill-Llama 8B、R1 Distill-Llama 70b;以及Granite 3、3.1 8B(Granite 3.3即将推出)。
NR1 推理设备:游戏规则改变者
NR1 推理设备的核心是 NeuReality 专门构建的 AI-CPU,它充当数据、任务和集成的集中式控制中心。与传统的 CPU 和 NIC 架构不同,NR1 芯片将这些组件集成到一个单元中,从而减少了瓶颈并最大限度地提高了处理能力。这种集成方法使该芯片能够跟上GPU的快速发展,同时优化AI查询和令牌,以提高性能和投资回报率。NeuReality 的 AI-CPU 不仅仅是一个处理器,它还是一个专为 AI 推理工作负载设计的系统级解决方案。它集成了数据管理、任务调度和加速器接口等关键功能,从而简化了 AI 模型的部署和运行。这种集成减少了延迟,提高了吞吐量,并降低了总体拥有成本。
传统的 CPU 在处理大规模 AI 模型时常常面临瓶颈,因为它们的设计并非专门针对这些工作负载。NR1 芯片通过提供专用的硬件加速和优化的软件堆栈,显著提升了 AI 推理的效率。它能够有效地处理大量数据,并快速执行复杂的计算,从而加快了 AI 应用的响应速度。
此外,NR1 芯片的架构允许其灵活地与其他硬件加速器(如 GPU 和专用 AI 芯片)协同工作。这种灵活性使企业能够根据其特定的 AI 工作负载需求选择最佳的硬件配置。NeuReality 的目标是创建一个开放的生态系统,允许不同的硬件组件无缝地集成在一起,从而最大限度地提高 AI 推理的性能和效率。
开箱即用的AI:简化部署
为了进一步增强易用性,NR1 推理设备预装了流行的企业AI模型,包括 Llama、Mistral、Qwen 和 Granite。 此功能消除了配置和优化的复杂性,允许 AI 软件开发人员专注于在业务中应用 AI,而不是花费时间进行基础设施集成。 该设备可以在不到 30 分钟内启动并运行,从而为客户提供了快速的价值实现。预装 AI 模型极大地简化了 AI 部署流程。传统上,企业需要花费大量时间和精力来配置和优化 AI 模型,然后才能将其投入使用。NeuReality 通过提供ready-to-use的 AI 模型,消除了这些复杂性,使企业能够更快地开始利用 AI 的优势。
预装的 AI 模型经过精心挑选,以满足各种企业用例的需求。Llama、Mistral、Qwen 和 Granite 等模型在自然语言处理、计算机视觉和生成式 AI 等领域表现出色。通过提供这些流行的 AI 模型,NeuReality 使企业能够轻松地尝试不同的 AI 应用,并找到最适合其业务需求的解决方案。
此外,NR1 推理设备还提供了一个易于使用的界面,允许 AI 软件开发人员快速地部署和管理 AI 模型。该界面提供了各种工具和 API,可帮助开发人员监控 AI 模型的性能,并根据需要进行调整。NeuReality 的目标是使 AI 部署尽可能简单和直观,从而降低 AI 应用的采用门槛。
经济实惠的 AI:加速采用
NeuReality 的技术通过提供比基于 x86 CPU 的服务器更高的每百万 AI 令牌的总成本,使企业可以更经济地访问和使用 AI。 这种成本效益对于各种规模的企业和政府来说至关重要,因为它可以降低 AI 部署的障碍,并使更广泛的应用成为可能。AI 推理的成本一直是企业采用 AI 的一个主要障碍。传统的 AI 推理解决方案通常需要昂贵的硬件和大量的功耗,这使得它们对于许多企业来说难以承受。NeuReality 通过提供一种更经济高效的 AI 推理解决方案,正在改变这一现状。
NR1 推理设备使用专用的 AI-CPU,该 CPU 经过优化,可提供更高的性能和更低的功耗。与基于 x86 CPU 的服务器相比,它实现了更高的每百万 AI 令牌的总成本,从而使企业能够以更少的资金获得更多的 AI 推理能力。这种成本效益对于各种规模的企业和政府来说都至关重要,因为它降低了 AI 部署的障碍,并使更广泛的应用成为可能。
此外,NR1 推理设备还具有高度可扩展性,允许企业根据其不断变化的需求调整其 AI 推理能力。企业可以从小规模部署开始,然后根据需要逐步增加其 AI 推理能力。这种灵活性使企业能够更好地管理其 AI 成本,并确保他们始终拥有足够的 AI 推理能力来满足其业务需求。
与高通技术公司合作:解锁新性能水平
NeuReality 与高通技术公司之间的战略合作伙伴关系进一步增强了 NR1 推理设备的功能。通过将高通 Cloud AI 100 Ultra 加速器与 NeuReality 的 AI-CPU 架构集成,用户可以实现新的成本效率和 AI 性能水平,而不会影响部署和扩展的简便性。这种协作方法展示了 NeuReality 致力于利用尖端技术来优化 AI 推理解决方案。高通 Cloud AI 100 Ultra 加速器是一款高性能的 AI 加速器,专为云端和边缘端的 AI 推理工作负载而设计。它提供强大的计算能力和高效的能效,使其成为 NR1 推理设备的理想补充。
通过将高通 Cloud AI 100 Ultra 加速器与 NeuReality 的 AI-CPU 架构集成,用户可以获得更高的 AI 推理性能和更低的延迟。这种集成还简化了 AI 模型的部署和管理,因为 NeuReality 的 AI-CPU 可以有效地协调高通 Cloud AI 100 Ultra 加速器的工作。NeuReality 与高通技术公司之间的合作展示了该公司致力于利用尖端技术来优化 AI 推理解决方案。通过与行业领导者合作,NeuReality 能够为客户提供最先进的 AI 技术,并帮助他们实现其 AI 目标。
解决企业 AI 挑战:提高 GPU 利用率
NeuReality 正解决企业面临的一个重大挑战:服务器上的 CPU 性能瓶颈,这些瓶颈会降低 GPU 利用率。传统上,管理多模式和大型语言模型工作负载的服务器的 GPU 平均利用率低至 30-40%。 这种低利用率导致 AI 部署中昂贵的硅浪费,并限制了 underserved 市场的 AI 采用。NeuReality 的 AI-CPU 技术通过消除性能瓶颈来解决此问题,从而使企业能够在 AI 应用中充分利用其 GPU 的功能。GPU 在 AI 推理中扮演着至关重要的角色,因为它们擅长执行大规模并行计算。然而,当 CPU 无法有效地管理和调度 AI 工作负载时,GPU 的潜力将无法充分发挥。
NeuReality 的 AI-CPU 通过提供专用的硬件加速和优化的软件堆栈,显著提高了 GPU 利用率。它可以有效地管理 AI 工作负载,并确保 GPU 始终处于高负荷状态。这种改进的 GPU 利用率使企业能够获得更高的 AI 推理性能,并降低其 AI 部署的总体成本。
此外,NeuReality 的 AI-CPU 还支持各种 GPU 供应商的硬件加速器,从而使企业能够选择最适合其特定 AI 工作负载需求的 GPU。这种灵活性使企业能够最大限度地提高其 AI 投资的回报,并确保他们始终拥有足够的 AI 推理能力来满足其业务需求。
满足生成式 AI 的需求:利用率的增加
NeuReality 的解决方案与快速增长的生成式 AI 市场前景良好。最近的研究表明,大约 70% 的企业报告说在至少一项业务功能中使用生成式 AI。 但是,只有 25% 的企业拥有由 AI 完全启用的流程,并且实现了广泛采用。NeuReality 的 NR1 推理设备使企业能够加速其生成式 AI 计划,通过提高易用性、成本效益和性能来消除采用的障碍。生成式 AI 是一种新兴的 AI 技术,它可以生成逼真的图像、文本、音频和视频。它在各种行业中都有广泛的应用,包括营销、广告、娱乐和教育。
然而,生成式 AI 模型的部署和运行可能具有挑战性,因为它们需要大量的计算资源和专业知识。NeuReality 的 NR1 推理设备通过提供一种易于使用、经济高效且高性能的解决方案,正在简化生成式 AI 的采用。
通过预装流行的生成式 AI 模型,并提供专用的硬件加速和优化的软件堆栈,NeuReality 的 NR1 推理设备使企业能够快速轻松地部署和运行生成式 AI 应用。这种简化的采用过程使企业能够更快地获得生成式 AI 的优势,并推动创新。
易用性:降低部署障碍
除了性能和成本效益外,易用性也是 NeuReality AI 解决方案的关键驱动因素。 NR1 推理设备预装了 AI 模型和软件开发工具包,从而简化了部署流程,并减少了基础设施集成和优化的需求。 这种易用性使 AI 软件开发人员能够专注于构建和部署创新 AI 应用程序,而不是花费时间处理复杂的基础设施。传统上,AI 部署是一个复杂且耗时的过程,需要大量的专业知识和资源。企业需要配置和优化硬件,安装和配置软件,以及集成不同的组件。
NeuReality 通过提供一种开箱即用的解决方案来简化 AI 部署流程。NR1 推理设备预装了 AI 模型和软件开发工具包,从而消除了配置和集成需求。企业只需将 NR1 推理设备连接到其网络,然后就可以开始部署和运行 AI 应用。这种简化的部署过程使 AI 软件开发人员能够专注于构建和部署创新 AI 应用程序,而不是花费时间处理复杂的基础设施。
广泛的应用:多个行业
NeuReality 的 NR1 推理设备专为支持各种业务用例和市场而设计。 该设备通过预配置的软件开发工具包和 API 优化了计算机视觉、对话式 AI 和自定义请求。 这种多功能性使 NR1 推理设备适合各种行业,包括金融服务、生命科学、政府和云服务提供商。NR1 推理设备的灵活性使其能够满足不同行业和用例的需求。
在金融服务行业,NR1 推理设备可用于欺诈检测、风险管理和客户服务等应用。在生命科学领域,NR1 推理设备可用于药物发现、基因组学和医学影像分析等应用。在政府部门,NR1 推理设备可用于安全、交通管理和公共服务等应用。在云服务提供商领域,NR1 推理设备可用于提供 AI 即服务解决方案,并支持各种客户用例。
通过提供广泛的软件开发工具包和 API,NeuReality 使企业能够轻松地构建和部署定制的 AI 应用,以满足其特定的业务需求。
加速AI的采用:经济适用性、可访问性和空间效率
NeuReality 的 NR1 设备通过同时提供经济适用性和可访问性来促进 AI 的采用,这使其适合本地和云基础架构。 许多组织都在努力扩展其 AI 计划,因为其高昂的成本和复杂性,但 NeuReality 的解决方案通过提供成本有效的开放标准平台来解决这些障碍,从而简化了 AI 的开发和部署。高昂的成本和复杂性是企业采用 AI 的主要障碍。NeuReality 通过提供一种经济高效、易于使用和可扩展的解决方案来解决这些问题。
NR1 推理设备使用专用的 AI-CPU,该 CPU 经过优化,可提供更高的性能和更低的功耗。它还预装了 AI 模型和软件开发工具包,从而简化了部署流程,并减少了基础设施集成和优化的需求。此外,NR1 推理设备具有高度可扩展性,允许企业根据其不断变化的需求调整其 AI 推理能力。
通过提供一种经济高效、易于使用和可扩展的解决方案,NeuReality 正在加速 AI 的采用,使各种规模的企业都能从 AI 的优势中受益。
演示亮点
NeuReality 将在 2025 年 5 月 20 日至 23 日在台湾台北举行的台湾电脑展的 InnoVEX 上展示其 NR1 推理引擎,展示其功能。在活动中,该公司将演示如何在几分钟内轻松迁移聊天应用程序,并展示 NR1 芯片在 Smooth Factory Models 和 DeepSeek-R1-Distill-Llama-8B 中的性能。此次演示将为与会者提供一个机会,亲身体验 NR1 推理设备的功能,并了解其如何能够加速 AI 的采用。
持续创新:为未来做好准备
NeuReality 致力于通过定期发布新的生成式和代理 AI 模型以及优化后的软件开发工具包,来提升其 NR1 推理设备的功能。这种持续创新使企业能够随时了解最新的 AI 技术,并确保其 AI 基础设施针对未来的工作负载进行了优化。AI 技术正在迅速发展,企业需要不断创新,才能保持竞争力。NeuReality 致力于持续创新,并通过定期发布新的 AI 模型和软件开发工具包,来提升其 NR1 推理设备的功能。
这种持续创新使企业能够随时了解最新的 AI 技术,并确保其 AI 基础设施针对未来的工作负载进行了优化。通过与 NeuReality 合作,企业可以获得最先进的 AI 技术,并确保他们始终拥有足够的 AI 推理能力来满足其业务需求。
NeuReality:赋能企业掌握AI的潜力
NeuReality 的颠覆性 AI-CPU 技术提供经济高效的方式来部署推理 AI 部署,从而最大限度地发挥 GPU 的性能,同时优化 AI 查询和令牌,以实现最大的性能和投资回报率。随着 NeuReality 继续创新并扩大 NR1 推理设备的功能,它将成为企业在蓬勃发展的 AI 世界中蓬勃发展的关键盟友。NeuReality 的目标是通过提供一种经济高效、易于使用和可扩展的解决方案,使 AI 成为所有人都能获得的技术。NR1 推理设备采用了一系列创新技术,包括专用的 AI-CPU、预 loadedde AI 模型和优化的软件开发工具包。这些技术共同作用,简化了 AI 部署流程,并降低了 AI 推理的总体成本。
通过与 NeuReality 合作,企业可以释放 AI 的潜力,并推动创新。NeuReality 致力于提供卓越的客户服务和支持,并帮助企业成功地实施 AI 解决方案。
通过将对性能、成本效益和易用性的关注与致力于持续创新的承诺相结合,NeuReality 定位于重塑 AI 经济学,并使各种规模的企业都能掌握 AI 的潜力。NeuReality 不仅仅是一家 AI 硬件供应商,它还是一个战略合作伙伴,致力于帮助企业在 AI 领域取得成功。通过提供全面的解决方案和卓越的客户服务,NeuReality 正在加速 AI 的采用,并赋能企业掌握 AI 的潜力。NeuReality正在通过创新性的技术和战略性的合作伙伴关系,重塑AI的未来。