微软研究:知识注入LLM的新方法

知识集成的新架构

微软的研究部门开创了一种将外部知识整合到大型语言模型 (LLM) 中的突破性方法。这个名为Knowledge Base-Augmented Language Models (KBLaM) 的创新系统,采用了’即插即用’的理念,无需改变现有的模型。这标志着与传统技术的重大背离,为知识增强提供了一种更精简、更有效的方法。

与传统方法的分道扬镳

目前的方法,如检索增强生成 (RAG) 和上下文学习 (In-Context Learning),通常依赖于单独的检索机制来访问和整合外部信息。相比之下,KBLaM 避开了这些外部系统。它巧妙地将知识转化为向量对,通过微软称之为’矩形注意力’的新技术,将它们无缝地编织到模型的核心架构中。

这种知识在模型内部的直接整合,绕过了外部检索过程,从而产生了明显更快、更有效的响应。这是优于传统系统的一个关键优势,传统系统由于需要查询外部数据库,经常受到延迟和计算开销的影响。

解决二次方扩展问题

现有的 RAG 系统经常受到二次方扩展问题的困扰,这是其自注意力机制的固有结果。这种机制要求每个 token 都与所有其他 token 交互,导致计算需求随着输入大小的增长呈指数级增长。

为了说明这一点,考虑一个场景,其中来自知识库的 1,000 个 token 被引入到上下文中。然后,模型被迫处理惊人的一百万个 token 对。如果 token 数量增加到 10,000 个,计算负担将激增到 1 亿次交互。这种二次方扩展迅速成为瓶颈,限制了 RAG 系统在大型知识库中的实际应用。

矩形注意力的效率

KBLaM 巧妙地避开了这个计算困境。其创新的’矩形注意力’机制允许用户的输入访问所有知识 token,但关键的是,这些知识 token 不会相互交互或与输入交互。这种战略性的设计选择对可扩展性产生了深远的影响。

随着知识库的扩展,所需的计算能力仅线性增加,这与传统方法的二次方扩展形成鲜明对比。KBLaM 背后的研究人员断言,单个 GPU 可以轻松处理超过 10,000 个知识三元组,相当于大约 200,000 个 token。这代表了知识集成效率的重大飞跃。

有希望的实验结果

KBLaM 的初步测试产生了令人鼓舞的结果。在涉及大约 200 个知识项的实验中,与传统模型相比,KBLaM 表现出更强的减轻幻觉(产生虚假或无意义信息)的能力。

此外,KBLaM 表现出更大的倾向,即避免回答它缺乏足够信息的问题。这种’认知谦逊’是 LLM 中一个理想的特性,因为它提高了准确性和可信度。

KBLaM 的另一个显著优势是其增强的透明度。与上下文学习不同,KBLaM 可以轻松地将特定知识元素链接到相应的 token,从而更深入地了解模型的推理过程。

开源可用性和未来方向

支撑 KBLaM 的代码和数据集已在 GitHub 上公开发布,促进了社区内的协作和进一步研究。该系统旨在与几个广泛使用的模型兼容,包括 Meta 的 Llama 3 和微软自己的 Phi-3。还有计划扩展对 Hugging Face Transformers 的支持,这是一个用于构建和部署 LLM 的流行平台。

虽然初步结果令人鼓舞,但研究人员强调,KBLaM 尚未成熟到可以广泛部署的程度。它擅长处理简单的问答场景,但需要进一步开发以解决更复杂的推理任务。

上下文窗口的悖论和 RAG 的兴起

LLM 面临着一个有趣的悖论:它们的上下文窗口(它们一次可以处理的信息量)正在不断扩大,但可靠地处理这种快速增长的数据量仍然是一个艰巨的挑战。

这一挑战已将检索增强生成 (RAG) 推到了前沿,成为以合理的可靠性向模型注入特定信息的首选解决方案。RAG 系统充当中间人,从外部来源检索相关信息并将其输入 LLM,从而增强其知识和准确性。

KBLaM:潜在的范式转变

然而,KBLaM 提出了一种引人注目的替代方案,暗示了一条可能更有效、更优雅的前进道路。通过将知识直接集成到模型的架构中,KBLaM 提供了更快、更具可扩展性和更透明的知识增强型 LLM 的前景。

深入研究 KBLaM 的机制

KBLaM 的核心创新在于其’矩形注意力’机制。要理解这一点,首先考虑许多 LLM 采用的标准自注意力机制是有帮助的。

在自注意力机制中,输入序列中的每个 token 都会关注所有其他 token,包括它自己。这允许模型捕获输入不同部分之间的关系,但它也导致了前面提到的二次方扩展问题。

相比之下,矩形注意力将注意力过程分为两个不同的部分:

  1. 用户输入注意力: 用户的输入关注所有知识 token,允许模型从知识库访问相关信息。
  2. 知识 Token 注意力: 知识 token 相互关注或关注用户输入。这是 KBLaM 效率的关键。

通过防止知识 token 之间的交互,KBLaM 大大减少了所需的计算量。这使得模型可以随着知识库的大小线性扩展,从而可以整合大量的外部信息。

直接知识集成的好处

将知识直接集成到模型的架构中具有以下几个优点:

  • 减少延迟: 由于 KBLaM 不依赖于外部检索系统,它可以比基于 RAG 的模型响应得更快。
  • 提高效率: KBLaM 的线性扩展使其在计算上比传统方法更有效。
  • 增强透明度: KBLaM 可以将知识链接到特定 token,从而更容易理解模型是如何得出答案的。
  • 减少幻觉: KBLaM 已经显示出更强的避免产生虚假或无意义信息的能力。

局限性和未来研究

虽然 KBLaM 代表了一项重大进步,但重要的是要承认其当前的局限性:

  • 复杂推理: KBLaM 目前最适合简单的问答任务。需要更多的研究来将其能力扩展到更复杂的推理场景。
  • 知识表示: KBLaM 的当前实现使用知识三元组,这可能不适用于所有类型的知识。探索替代的知识表示格式是未来工作的一个领域。
  • 实际部署: KBLaM 仍然是一个研究项目,尚未准备好进行广泛部署。在将其用于实际应用之前,需要进行进一步的测试和改进。

对人工智能领域的更广泛影响

KBLaM 的发展对人工智能 (AI) 的更广泛领域具有重大影响。它代表着朝着创建不仅强大而且还具有以下特点的 LLM 迈出了一步:

  • 更博学: 通过有效地整合大量外部知识,KBLaM 可以增强 LLM 的事实准确性和全面性。
  • 更可靠: KBLaM 减少的幻觉率和增加的透明度有助于提高可靠性和可信度。
  • 更具可扩展性: KBLaM 的线性扩展为构建可以处理真正大量信息的 LLM 开辟了可能性。

KBLaM 和类似方法的持续研究和开发有望进一步模糊 LLM 和知识库之间的界限,为新一代既智能又信息丰富的 AI 系统铺平道路。该项目的开源性质鼓励协作并加速了这一激动人心领域的创新步伐。