Gemma 3n:开启AI新纪元

Google 的 Gemma 3n 横空出世,标志着生成式 AI 迈入了一个全新的纪元。这款模型身形小巧、速度惊人,更令人称道的是,它能在手机上离线运行,将先进的人工智能技术带入我们日常使用的设备之中。Gemma 3n 不仅能够理解音频、图像和文本,其准确性也十分出色,在 Chatbot Arena 上的表现甚至超越了 GPT-4.1 Nano。

Gemma 3n 的创新架构

为了迎接设备端 AI 的未来,Google DeepMind 与高通技术公司、联发科技和三星系统 LSI 等移动硬件领域的领军企业紧密合作,共同开发了一种全新的架构。

该架构旨在优化生成式 AI 在资源受限设备(如手机、平板电脑和笔记本电脑)上的性能。为实现这一目标,该架构采用了三项关键创新:逐层嵌入 (PLE) 缓存MatFormer 架构条件参数加载

PLE 缓存:突破内存限制

PLE 缓存是一种巧妙的机制,它允许模型将逐层嵌入参数卸载到快速的外部存储器中,从而在不牺牲性能的前提下显著降低内存使用量。这些参数在模型的操作内存之外生成,并在执行过程中根据需要进行检索,从而即使在资源有限的设备上也能实现高效运行。

想象一下,您正在运行一个复杂的 AI 模型,但是您的设备内存有限。PLE 缓存就像一个智能的图书管理员,将不常用的书籍(参数)存储在附近的仓库(外部存储器)中。当模型需要这些参数时,图书管理员会迅速将其取回,确保模型能够顺利运行,而无需占用宝贵的内存空间。

具体来说,PLE 缓存通过以下方式来优化内存使用和性能:

  • 降低内存占用: 通过将不常用的参数存储在外部存储器中,PLE 缓存可以减少模型在运行时所需的内存量。这使得在资源受限的设备上运行大型 AI 模型成为可能。

  • 提高性能: 虽然从外部存储器检索参数需要一定的时间,但 PLE 缓存通过智能地预测哪些参数将在未来使用,并提前将其加载到缓存中,从而最大限度地减少延迟。这确保了模型能够以接近实时的速度运行。

  • 支持更大的模型: 通过降低内存要求,PLE 缓存使我们能够构建更大、更复杂的 AI 模型。这些模型具有更强的表达能力,能够完成更复杂的任务。

MatFormer 架构:俄罗斯套娃般的精妙设计

Matryoshka Transformer (MatFormer) 架构引入了一种嵌套的 Transformer 设计,其中较小的子模型嵌入在较大的模型中,类似于俄罗斯套娃。这种结构允许选择性地激活子模型,使模型能够根据任务动态调整其大小和计算需求。这种灵活性降低了计算成本、响应时间和能耗,使其非常适合边缘和云部署。

MatFormer 架构的核心思想是,并非所有任务都需要完整的 AI 模型。对于简单的任务,只需激活较小的子模型即可,从而节省计算资源。对于复杂的任务,可以激活更大的子模型,以获得更高的准确性。

让我们通过一个例子来说明 MatFormer 架构的优势。假设您正在使用一个 AI 模型来识别图像中的物体。对于简单的图像,例如只包含一个物体的图像,可以激活一个较小的子模型,该子模型专门用于识别该特定类型的物体。对于复杂的图像,例如包含多个物体的图像,可以激活一个更大的子模型,该子模型能够识别各种不同的物体。

MatFormer 架构的优势在于:

  • 降低计算成本: 通过仅激活所需的子模型,MatFormer 架构可以显著降低计算成本。这对于在资源受限的设备上运行 AI 模型至关重要。

  • 缩短响应时间: 由于 MatFormer 架构可以根据任务动态调整模型大小,因此可以缩短响应时间。这使得 AI 模型能够更快地响应用户请求。

  • 降低能耗: 通过降低计算成本,MatFormer 架构还可以降低能耗。这对于延长电池寿命至关重要。

条件参数加载:按需加载,优化资源

条件参数加载允许开发人员跳过将未使用的参数(例如用于音频或视觉处理的参数)加载到内存中。如果需要,可以在运行时动态加载这些参数,从而进一步优化内存使用,并使模型能够适应各种设备和任务。

想象一下,您正在使用一个 AI 模型来处理文本。如果您的任务不需要任何音频或视觉处理,那么加载用于音频或视觉处理的参数将是浪费资源。条件参数加载允许模型仅加载所需的参数,从而最大限度地减少内存使用并提高性能。

条件参数加载的工作原理如下:

  1. 模型分析当前任务,确定需要哪些参数。
  2. 模型仅加载所需的参数到内存中。
  3. 当任务完成时,模型释放不再需要的参数。

条件参数加载的优势在于:

  • 优化内存使用: 通过仅加载所需的参数,条件参数加载可以显著优化内存使用。这对于在资源受限的设备上运行 AI 模型至关重要。

  • 提高性能: 通过减少加载的参数数量,条件参数加载可以提高性能。这使得 AI 模型能够更快地响应用户请求。

  • 支持更广泛的设备: 通过优化内存使用,条件参数加载使 AI 模型能够在更广泛的设备上运行,包括内存有限的设备。

Gemma 3n 的卓越特性

Gemma 3n 引入了多项创新技术和特性,这些技术和特性重新定义了设备端 AI 的可能性。

让我们深入了解其关键功能:

  1. 优化的设备端性能和效率: Gemma 3n 比其前身(Gemma 3 4B)快约 1.5 倍,同时保持了显著更高的输出质量。这意味着您可以在设备上更快地获得更准确的结果,而无需依赖云连接。

  2. PLE 缓存: PLE 缓存系统使 Gemma 3n 能够将参数存储在快速的本地存储器中,从而减少内存占用并提高性能。

  3. MatFormer 架构: Gemma 3n 采用 MatFormer 架构,该架构根据特定请求选择性地激活模型参数。这使得模型能够动态调整其大小和计算需求,从而优化资源利用率。

  4. **条件参数加载:**为了节省内存资源,Gemma 3n 可以绕过加载不必要的参数,例如在不需要视觉或音频时,可以不加载相应的参数。这进一步提高了效率并降低了功耗。

  5. 隐私优先和离线就绪: 无需互联网连接即可在本地运行 AI 功能,确保用户隐私。这意味着您的数据不会离开您的设备,并且您可以在没有网络连接的情况下使用 AI 功能。

  6. 多模态理解: Gemma 3n 提供对音频、文本、图像和视频输入的高级支持,从而实现复杂的实时多模态交互。这使得 AI 模型能够理解和响应各种不同的输入,从而提供更自然和直观的用户体验。

  7. 音频功能: 它提供自动语音识别 (ASR) 和语音到文本翻译,具有高质量的转录和多语言支持。这意味着您可以使用 Gemma 3n 将口语转换为文本,并将一种语言的语音翻译成另一种语言。

  8. 改进的多语言能力: 显著提高了日语、德语、韩语、西班牙语和法语等语言的性能。这使得 Gemma 3n 能够更准确地理解和生成各种不同的语言的文本。

  9. 32K 令牌上下文: 它可以处理单个请求中的大量数据,从而实现更长的对话和更复杂的任务。这意味着您可以向 Gemma 3n 提供更长的文本输入,而无需担心超出其上下文窗口。

快速上手 Gemma 3n

开始使用 Gemma 3n 非常简单,开发人员可以通过两种主要方法来探索和集成这个强大的模型。

1. Google AI Studio:快速原型设计

只需登录 Google AI Studio,转到工作室,选择 Gemma 3n E4B 模型,然后即可开始探索 Gemma 3n 的功能。该工作室非常适合希望在全面实施之前快速进行原型设计和测试想法的开发人员。

您可以获取 API 密钥,并将模型集成到您的本地 AI 聊天机器人中,特别是通过 Msty 应用程序。

此外,您可以使用 Google GenAI Python SDK,只需几行代码即可将模型集成到您的应用程序中。这使得将 Gemma 3n 集成到您的项目中变得非常容易。

2. 使用 Google AI Edge 进行设备端开发:构建本地应用程序

对于希望将 Gemma 3n 直接集成到其应用程序中的开发人员,Google AI Edge 提供了在 Android 和 Chrome 设备上进行设备端开发所需的工具和库。此方法非常适合构建在本地利用 Gemma 3n 功能的应用程序。

Google AI Edge 提供了一系列工具和库,使开发人员能够轻松地将 Gemma 3n 集成到他们的应用程序中。这些工具包括:

  • TensorFlow Lite: 用于在移动设备上运行 AI 模型的轻量级框架。
  • ML Kit: 用于在移动应用程序中添加机器学习功能的 API 集合。
  • Android Neural Networks API (NNAPI): 用于利用设备上的硬件加速器来运行 AI 模型的 API。

通过使用 Google AI Edge,开发人员可以构建各种创新的应用程序,包括:

  • 离线语音识别: 允许用户在没有互联网连接的情况下使用语音命令控制他们的设备。
  • 实时图像识别: 允许用户识别图像中的物体,而无需将图像上传到云端。
  • 智能文本生成: 允许用户生成各种类型的文本,例如电子邮件、文章和代码。