Arm与阿里巴巴合作,增强边缘多模态AI

Arm Kleidi:优化 Arm CPU 上的 AI 推理

人工智能的快速发展正在开启多模态模型的新时代。这些复杂的系统能够处理和解释来自各种来源的信息,包括文本、图像、音频、视频,甚至是传感器数据。然而,在边缘设备上部署这些强大的模型存在着巨大的障碍。边缘硬件在功耗和内存容量方面固有的局限性,再加上同时处理多种数据类型的复杂任务,构成了一个复杂的挑战。

Arm Kleidi 专门为应对这一挑战而设计,为所有在 Arm CPU 上运行的 AI 推理工作负载提供无缝的性能优化。Kleidi 的核心是 KleidiAI,这是一个精简的高效开源 Arm 例程套件,旨在加速 AI。

KleidiAI 已经集成到广泛使用的边缘设备 AI 框架的最新版本中。其中包括 ExecuTorch、Llama.cpp、通过 XNNPACK 的 LiteRT 以及 MediaPipe。这种广泛的集成给数百万开发人员带来了显著的优势,他们现在可以自动受益于 AI 性能优化,而无需任何额外的工作。

与阿里巴巴的合作:Qwen2-VL-2B-Instruct 模型

通过与 MNN 的密切合作,在边缘设备上推进多模态 AI 方面取得了新的里程碑。MNN 是由阿里巴巴开发和维护的轻量级开源深度学习框架。此次合作促成了 KleidiAI 的成功集成,使得多模态 AI 工作负载能够在 Arm CPU 的移动设备上高效运行。这一成就的关键在于阿里巴巴的指令调优 2B 参数 Qwen2-VL-2B-Instruct 模型。该模型专为图像理解、文本到图像推理以及跨多种语言的多模态生成而设计,所有这些都是为边缘设备的限制量身定制的。

可衡量的性能提升

KleidiAI 与 MNN 的集成为 Qwen2-VL-2B-Instruct 模型带来了显著的、可衡量的性能改进。在边缘的关键 AI 多模态用例中,观察到了更快的响应时间。这些改进为各种以客户为中心的阿里巴巴应用程序带来了增强的用户体验。例如:

  • 用于客户服务的聊天机器人: 为客户查询提供更快、更有效的响应。
  • 电商应用程序: 支持以图搜货,允许客户通过简单地上传图像来快速找到他们正在寻找的商品。

这些应用程序速度的提升是显著性能提升的直接结果:

  • 预填充改进: 在预填充方面实现了 57% 的显著性能提升。这是指 AI 模型在生成响应之前处理多源提示输入的关键阶段。
  • 解码增强: 在解码方面观察到了 28% 的显著性能提升。这是 AI 模型在处理提示后生成文本的过程。

除了速度之外,KleidiAI 集成还有助于在边缘更有效地处理 AI 工作负载。这是通过降低与多模态工作负载相关的总体计算成本来实现的。数百万开发人员可以轻松获得这些性能和效率提升。任何在 MNN 框架以及集成了 KleidiAI 的其他流行的边缘设备 AI 框架上运行应用程序和工作负载的开发人员都可以立即受益。

真实世界的演示:MWC 展示

Qwen2-VL-2B-Instruct 模型由与 MNN 的新 KleidiAI 集成提供支持,其实际功能在世界移动通信大会 (MWC) 上得到了展示。在 Arm 展位上的演示突出了该模型理解视觉和文本输入的不同组合的能力。然后,该模型以图像内容的简明摘要作为响应。整个过程在智能手机的 Arm CPU 上执行,展示了该解决方案的强大功能和效率。这些智能手机基于联发科采用 Arm 技术的 Dimensity 9400 移动片上系统 (SoC),包括 vivo X200 系列。

用户体验的重大进步

Arm 的 KleidiAI 与 MNN 框架集成的阿里巴巴 Qwen2-VL-2B-Instruct 模型代表了多模态 AI 工作负载用户体验的巨大飞跃。这一进步直接在边缘提供了这些增强的体验,所有这些都由 Arm CPU 提供支持。这些功能在移动设备上随时可用,领先的面向客户的应用程序已经在利用 KleidiAI 的优势。

边缘设备上多模态 AI 的未来

展望未来,KleidiAI 对 AI 工作负载的无缝优化将继续为数百万开发人员提供支持。他们将能够在边缘设备上创建越来越复杂的多模态体验。这种持续的创新将为下一波智能计算铺平道路,标志着 AI 持续发展的重要一步。

阿里巴巴领导层的引言

‘我们很高兴看到阿里云的大语言模型 Qwen、Arm KleidiAI 和 MNN 之间的合作。将 MNN 的端侧推理框架与 Arm KleidiAI 集成,显著提高了 Qwen 的延迟和能效。这种伙伴关系验证了 LLM 在移动设备上的潜力,并增强了 AI 用户体验。我们期待继续努力推进端侧 AI 计算。’ - 阿里巴巴云通义大模型业务总经理徐栋。

‘MNN 推理框架与 Arm KleidiAI 之间的技术集成标志着端侧加速的重大突破。通过对架构的联合优化,我们极大地提高了通义 LLM 的端侧推理效率,弥合了有限的移动计算能力与先进的 AI 功能之间的差距。这一成就突出了我们的技术专长和跨行业合作。我们期待继续这种伙伴关系,以增强端侧计算生态系统,在移动设备上提供更流畅、更高效的 AI 体验。’ - 阿里巴巴淘宝天猫集团 MNN 负责人蒋晓棠。

深入研究技术方面

为了充分理解此次合作的重要性,有必要研究一些潜在的技术细节。

MNN 的作用

MNN 的设计理念以效率和可移植性为中心。它通过几个关键特性实现了这一点:

  • 轻量级架构: MNN 的设计旨在占用较小的空间,最大限度地减少边缘设备上的存储和内存需求。
  • 优化的操作: 该框架结合了专门为 Arm CPU 量身定制的高度优化的数学运算,最大限度地提高了性能。
  • 跨平台兼容性: MNN 支持广泛的操作系统和硬件平台,使其成为开发人员的多功能选择。

KleidiAI 的贡献

KleidiAI 通过提供一组专门的例程来进一步加速 AI 推理,从而补充了 MNN 的优势。这些例程利用 Arm 在 CPU 架构方面的丰富经验来释放性能提升,而这些提升很难通过其他方式实现。KleidiAI 贡献的关键方面包括:

  • 高度优化的内核: KleidiAI 为常见的 AI 操作(如矩阵乘法和卷积)提供了高度优化的内核。这些内核经过精心调整,以利用 Arm CPU 的特定功能。
  • 自动集成: KleidiAI 无缝集成到流行的 AI 框架中,这意味着开发人员无需手动合并这些优化。性能优势会自动应用,从而简化了开发过程。
  • 持续改进: Arm 致力于不断更新和改进 KleidiAI,确保其始终处于 AI 加速技术的前沿。

Qwen2-VL-2B-Instruct:强大的多模态模型

Qwen2-VL-2B-Instruct 模型证明了阿里巴巴在大语言模型和多模态 AI 方面的专业知识。其主要特点包括:

  • 指令调优: 该模型经过专门调优以遵循指令,使其能够高度适应各种任务。
  • 多模态能力: 它擅长理解和处理视觉和文本信息,从而支持图像字幕和视觉问答等应用。
  • 多语言支持: 该模型旨在与多种语言一起使用,从而扩大了其在不同地区和用户群中的适用性。
  • 针对边缘设备进行了优化: 尽管该模型功能强大,但它经过精心设计,可以在边缘设备的资源限制内运行。

扩大多模态 AI 的范围

这里讨论的进步不仅限于智能手机。相同的原理和技术可以应用于各种边缘设备,包括:

  • 智能家居设备: 支持语音助手、用于安全摄像头的图像识别以及其他智能功能。
  • 可穿戴设备: 支持健康监测、健身追踪和增强现实应用。
  • 工业物联网: 促进制造环境中的预测性维护、质量控制和自动化。
  • 汽车: 增强驾驶员辅助系统、车内娱乐和自动驾驶能力。

边缘多模态 AI 的潜在应用非常广泛,并且还在不断扩大。随着模型变得越来越复杂,硬件变得越来越强大,我们可以期待看到更多创新和有影响力的用例出现。Arm 和阿里巴巴之间的此次合作是朝着这个方向迈出的重要一步,将多模态 AI 的力量带给了更广泛的受众,并支持了新一代智能设备。对效率、性能和开发人员可访问性的关注确保了这些进步将对技术的未来产生广泛而持久的影响。