IBM发布Granite 4.0 Tiny预览版

IBM 近期宣布了 Granite 4.0 Tiny 的预览版发布,这是其即将推出的 Granite 4.0 系列语言模型中最紧凑的版本。该模型以宽松的 Apache 2.0 license 分发,经过精心设计,兼顾了长上下文处理和指令驱动的应用,在资源效率、开放可访问性和强大性能之间实现了精妙的平衡。此次发布强调了 IBM 对基础模型开发和部署的持续承诺,这些模型不仅开放透明,而且专门为企业级应用量身定制。

Granite 4.0 Tiny Preview 包含两个不同的版本:Base-Preview,展示了一种创新的仅解码器架构;以及 Tiny-Preview (Instruct),经过改进,可用于对话和多语言交互。尽管参数数量最少,但 Granite 4.0 Tiny 在一系列推理和生成基准测试中取得了具有竞争力的结果,突显了其混合设计的有效性。

架构深入解析:采用 Mamba-2 启发式动态的混合专家混合框架

Granite 4.0 Tiny 的核心是一个复杂的 混合专家混合 (MoE) 架构,总共包含 70 亿个参数,但在每次前向传递中只有 10 亿个参数处于活跃状态。这种固有的稀疏性使模型能够在显著降低计算需求的同时提供可扩展的性能,使其特别适合在资源受限的环境中部署以及用于基于边缘的推理场景。

Base-Preview 变体利用了 仅解码器架构,并采用 Mamba-2 风格的层进行了增强,从而提供了传统注意力机制的线性循环替代方案。这种架构创新使模型能够随着输入长度的增加而更有效地扩展,从而提高了其在长上下文任务中的功效,例如深入的文档分析、全面的对话摘要和知识密集型问答。

另一个值得注意的架构决策是 NoPE (No Positional Encodings) 的实现。该模型没有依赖固定或学习的位置嵌入,而是将位置信息直接合并到其层动态中。这种方法促进了跨不同输入长度的改进泛化,并有助于在整个长序列生成过程中保持一致性。

基准性能:效率与能力兼顾

即使作为预览版发布,Granite 4.0 Tiny 已经展示了相对于 IBM Granite 系列中先前模型的显着性能改进。在基准评估中,Base-Preview 表现出:

  • 在 DROP(段落离散推理)上增加了 5.6 个点,这是一个广泛认可的多跳问答基准,用于评估模型在文本的多个片段中进行推理以得出答案的能力。
  • 在 AGIEval 上提高了 3.8 个点,这是一个旨在评估通用语言理解和推理能力的综合基准,涵盖了广泛的语言和认知任务。

这些性能提升可归因于模型先进的架构及其广泛的预训练方案,据报道该方案涉及处理来自不同领域和语言结构的 2.5 万亿个 tokens。这种广泛的预训练使模型能够捕获数据中的各种模式和关系,从而提高跨各种任务的泛化和性能。

指令调整变体:为对话、清晰性和广泛的多语言支持量身定制

Granite-4.0-Tiny-Preview (Instruct) 变体通过 监督式微调 (SFT)强化学习 (RL) 相结合,在基础模型之上构建,利用了包含开放和合成生成的对话的 Tülu 风格数据集。这种量身定制的方法优化了模型以用于指令遵循和交互式应用。

该模型支持 8,192 个 token 输入窗口8,192 个 token 生成长度,可在扩展交互中保持连贯性和保真度。与通常牺牲可解释性以换取性能提升的编码器-解码器混合模型不同,此处的仅解码器设置产生 更清晰、更可追溯的输出,使其对于企业和安全关键型应用特别有价值,在这些应用中,透明度和可预测性至关重要。

详细的评估指标:

  • IFEval 上为 86.1,表明在指令遵循基准测试中表现出色,反映了模型准确有效地执行复杂指令的能力。
  • GSM8K 上为 70.05,这是一个专注于小学数学问题解决的基准,展示了模型在定量推理和算术运算方面的能力。
  • HumanEval 上为 82.41,衡量 Python 代码生成准确性,展示了模型生成语法正确且语义有意义的代码片段的能力。

此外,Instruct 模型支持 跨 12 种语言的多语言交互,从而促进了在客户服务、企业自动化和教育工具中的全球部署。这种多语言能力扩展了模型的覆盖范围和适用性,使其能够满足不同语言环境中各种各样的用户和用例。支持的语言包括英语、西班牙语、法语、德语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语和阿拉伯语,涵盖了世界上很大一部分人口。

开源可用性的重要性

IBM 决定以 Apache 2.0 license 发布两个 Granite 4.0 Tiny 模型,这是朝着在 AI 社区内促进透明度和协作迈出的重要一步。通过提供对模型权重、配置文件和示例使用脚本的开放访问,IBM 使研究人员、开发人员和组织能够自由地试验、微调并将模型集成到他们自己的 NLP 工作流程中。这种开源方法不仅加速了创新,而且还促进了对模型能力和局限性的更深入理解。

Apache 2.0 license 特别有利,因为它允许对软件进行商业和非商业用途,而无需用户披露任何修改或衍生作品。这种宽松的 license 鼓励广泛采用和试验,从而围绕 Granite 4.0 Tiny 模型形成一个充满活力的生态系统。此外,这些模型在 Hugging Face(一个流行的用于共享和发现预训练模型的平台)上的可用性确保了它们可以轻松地被广泛的受众访问。

Granite 4.0 Tiny 的开源可用性也符合 IBM 对负责任的 AI 开发的更广泛承诺。通过使模型透明且可审计,IBM 使用户能够审查其行为、识别潜在的偏见并确保它们以安全且合乎道德的方式使用。这种对透明度的承诺对于建立对 AI 系统的信任并在各个领域促进其负责任的部署至关重要。

为 Granite 4.0 奠定基础:展望未来

Granite 4.0 Tiny Preview 提供了 IBM 下一代语言模型套件的全面战略的早期迹象。通过集成 高效的 MoE 架构强大的长上下文支持以指令为中心的微调,Granite 4.0 模型系列旨在以可管理和资源优化的软件包提供最先进的功能。这种方法强调了 IBM 对开发不仅强大而且实用且易于访问的 AI 解决方案的承诺。

这三个关键要素(高效架构、长上下文支持和以指令为中心的微调)的结合使 Granite 4.0 成为一种通用且适应性强的语言模型,适用于各种各样的应用。高效的 MoE 架构使模型能够随着数据和复杂性的增加而有效地扩展,而长上下文支持使其能够处理和理解冗长的文档和对话。另一方面,以指令为中心的微调确保模型能够准确有效地执行复杂指令,使其非常适合诸如问答、文本摘要和代码生成之类的任务。

随着 Granite 4.0 的更多变体被推出,我们可以预期 IBM 将进一步巩固其对负责任和开放 AI 的投资,从而将自己确立为塑造企业和研究应用透明且高性能语言模型轨迹的关键力量。这项持续的投资反映了 IBM 的信念,即应该以既合乎道德又有益于社会的方式开发和部署 AI。通过优先考虑透明度、问责制和公平性,IBM 旨在构建不仅强大而且值得信赖且符合人类价值观的 AI 系统。

Granite 4.0 系列代表了语言模型发展中的一个重大进步,提供了性能、效率和透明度的引人注目的组合。随着 IBM 继续在该领域进行创新,我们可以期待看到更多突破性的发展,这些发展将进一步改变我们与 AI 互动和利用 AI 的方式。Granite 4.0 Tiny Preview 仅仅是一个开始,语言模型的未来比以往任何时候都更加光明。特别强调长上下文能力为 AI 应用在诸如科学研究、法律分析和历史文档分析等领域开辟了新的可能性,在这些领域中,处理和理解冗长而复杂的文本的能力至关重要。

此外,Granite 4.0 模型的多语言能力使其非常适合在从客户服务到教育的各个行业中进行全球部署。通过支持广泛的语言,IBM 正在确保其 AI 解决方案可以被不同的受众访问,无论他们的母语是什么。这种对包容性的承诺对于促进 AI 的广泛采用并确保所有人都能分享其好处至关重要。

除了其技术能力外,Granite 4.0 系列还反映了 IBM 对负责任的 AI 开发的承诺。通过优先考虑透明度、问责制和公平性,IBM 正在构建不仅强大而且值得信赖且符合人类价值观的 AI 系统。这种对负责任的 AI 的承诺对于建立公众对 AI 的信任并确保将其用于造福社会至关重要。

综上所述,Granite 4.0 Tiny Preview 展现了 IBM 在语言模型领域的最新进展,尤其是在模型效率、长上下文处理和多语言支持方面。其开源特性也为更广泛的研究和应用铺平了道路,有望推动 AI 技术的进步并服务于社会。IBM 的长期投入和对负责任 AI 的承诺,预示着 Granite 4.0 系列将在未来的 AI 发展中扮演重要角色。