AI上下文竞赛:大模型越大越好吗?

人工智能社区正在进行一场激烈的辩论,焦点是不断涌现的更大规模的语言模型 (LLMs),这些模型正在突破百万 token 的界限。 拥有巨大 token 容量的模型,例如 MiniMax-Text-01 的 400 万 token 和 Gemini 1.5 Pro 同时处理 200 万 token 的能力,正在掀起波澜。 这些模型预示着革命性的应用,有潜力一次性分析广泛的代码库、复杂的法律文件和深入的研究论文。

这场讨论的关键因素是上下文长度——AI 模型在任何给定时间可以处理和保留的文本量。 更长的上下文窗口允许 ML 模型在单个请求中管理更多信息,从而减少了分解文档或分割对话的需要。 打个比方,一个具有 400 万 token 容量的模型理论上可以一次性消化大约 10,000 页的书籍。

理论上,这种扩展的上下文应该可以提高理解能力和更复杂的推理能力。 然而,关键问题仍然是:这些巨大的上下文窗口是否转化为切实的商业价值?

随着企业评估扩展基础设施的成本与生产力和准确性方面潜在收益之间的关系,根本问题是我们是否真正解锁了 AI 推理的新水平,或者仅仅是在没有取得有意义进展的情况下推动 token 内存的边界。 本文深入探讨了技术和经济方面的权衡、基准测试的困难以及塑造大型上下文 LLM 未来的不断发展的企业工作流程。

上下文长度的军备竞赛:为什么 AI 公司要竞争

包括 OpenAI、Google DeepMind 和 MiniMax 在内的领先 AI 组织正在进行一场激烈的竞争,以增加上下文长度,这直接关系到 AI 模型在单个实例中可以处理的文本量。 承诺是,更大的上下文长度将能够实现更深入的理解,减少幻觉(捏造),并创建更无缝的交互。

对于企业而言,这意味着 AI 可以分析整个合同、调试大型代码库或总结冗长的报告,而不会丢失上下文。 预计通过消除诸如分块或检索增强生成 (RAG) 之类的解决方法,AI 工作流程可以变得更顺畅、更高效。

“大海捞针” 问题:查找关键信息

‘大海捞针’ 问题突出了 AI 在识别隐藏在海量数据集(’大海’)中的关键信息(’针’)时面临的困难。 LLM 经常难以识别关键细节,从而导致各个领域效率低下:

  • 搜索和知识检索: AI 助手通常难以从广泛的文档存储库中提取最相关的事实。

  • 法律和合规性: 律师需要跟踪冗长合同中的条款依赖关系。

  • 企业分析: 金融分析师冒着忽略隐藏在复杂报告中的关键见解的风险。

更大的上下文窗口有助于模型保留更多信息,从而减少幻觉,提高准确性,并实现:

  • 跨文档合规性检查: 单个 256K token 的 prompt 可以将整个策略手册与新法规进行比较。

  • 医学文献综合: 研究人员可以利用 128K+ token 窗口来比较几十年来的药物试验结果。

  • 软件开发: 当 AI 可以扫描数百万行代码而不丢失依赖关系时,调试得到改善。

  • 金融研究: 分析师可以在单个查询中分析完整的收益报告和市场数据。

  • 客户支持: 具有更长记忆力的聊天机器人可以提供更具上下文意识的交互。

增加上下文窗口还有助于模型更好地参考相关细节,从而降低生成不正确或捏造信息的可能性。 斯坦福大学 2024 年的一项研究发现,在分析并购协议时,与 RAG 系统相比,128K token 模型的幻觉率降低了 18%。

尽管存在这些潜在好处,但早期采用者报告了挑战。 摩根大通的研究表明,模型在其大约 75% 的上下文中表现不佳,超过 32K token 后,复杂金融任务的性能几乎降至零。 模型仍然难以进行远程召回,通常优先考虑最近的数据而不是更深入的见解。

这提出了关键问题:一个 400 万 token 的窗口是否真正增强了推理能力,或者它仅仅是内存的昂贵扩展? 该模型实际使用了多少这种大量输入? 收益是否超过了不断上涨的计算成本?

RAG 与大型 Prompts:经济权衡

检索增强生成 (RAG) 将 LLM 的功能与从数据库或文档存储等外部来源获取相关信息的检索系统相结合。 这使模型能够根据其预先存在的知识和动态检索的数据生成响应。

随着公司集成 AI 来执行复杂的任务,他们面临着一个根本性的决定:他们应该使用带有大上下文窗口的大型 prompts,还是应该依靠 RAG 来实时获取相关信息?

  • 大型 Prompts: 带有大 token 窗口的模型在单个通道中处理所有内容,从而减少了维护外部检索系统的需求并捕获跨文档见解。 然而,这种方法在计算上是昂贵的,导致更高的推理成本和增加的内存需求。

  • RAG: RAG 不是一次处理整个文档,而是仅检索最相关的部分,然后再生成响应。 这大大减少了 token 使用量和成本,使其更适合实际应用。

推理成本:多步检索与大型单个 Prompts

虽然大型 prompts 简化了工作流程,但它们需要更多的 GPU 功率和内存,这使得它们在规模上实施起来很昂贵。 基于 RAG 的方法尽管需要多个检索步骤,但通常会减少总体 token 消耗,从而在不牺牲准确性的情况下降低推理成本。

对于大多数企业而言,理想的方法取决于具体的用例:

  • 需要对文档进行深入分析? 大型上下文模型可能是更好的选择。
  • 需要用于动态查询的可扩展、经济高效的 AI? RAG 可能是更明智的选择。

在以下情况下,大型上下文窗口尤其有价值:

  • 必须一次分析全文,例如在合同审查或代码审计中。
  • 最大限度地减少检索错误至关重要,例如,在法规遵从中。
  • 延迟不如准确性重要,例如在战略研究中。

根据谷歌的研究,使用 128K token 窗口分析 10 年收益记录的股票预测模型比 RAG 高出 29%。 相反,GitHub Copilot 的内部测试表明,对于 monorepo 迁移,使用大型 prompts 的任务完成速度比 RAG 快 2.3 倍。

大型上下文模型的局限性:延迟、成本和可用性

虽然大型上下文模型提供了令人印象深刻的功能,但真正有益的额外上下文量是有限制的。 随着上下文窗口的扩展,三个关键因素发挥作用:

  • 延迟: 模型处理的 token 越多,推理速度就越慢。 较大的上下文窗口会导致明显的延迟,尤其是在需要实时响应时。

  • 成本: 计算成本随着处理的每个额外 token 而增加。 扩展基础设施以处理这些更大的模型可能会变得非常昂贵,特别是对于具有大量工作负载的企业而言。

  • 可用性: 随着上下文的增长,模型有效’聚焦’于最相关信息的能力会降低。 这可能导致低效处理,其中不太相关的数据会影响模型的性能,从而导致准确性和效率的回报递减。

谷歌的 Infini-attention 技术试图通过以有限的内存存储任意长度上下文的压缩表示来缓解这些权衡。 然而,压缩不可避免地会导致信息丢失,并且模型难以平衡即时信息和历史信息,从而导致与传统 RAG 相比性能下降和成本增加。

虽然 4M token 模型令人印象深刻,但企业应该将其视为专用工具,而不是通用解决方案。 未来的方向在于根据特定任务要求自适应地在 RAG 和大型 prompts 之间进行选择的混合系统。

企业应根据推理复杂性、成本考虑和延迟要求在大型上下文模型和 RAG 之间进行选择。 大型上下文窗口非常适合需要深入理解的任务,而 RAG 对于更简单、基于事实的任务更具成本效益和效率。 为了有效地管理成本,企业应设置明确的成本限制,例如每个任务 0.50 美元,因为大型模型可能会很快变得昂贵。 此外,大型 prompts 更适合离线任务,而 RAG 系统擅长于需要快速响应的实时应用程序。

诸如 GraphRAG 之类的新兴创新可以通过将知识图与传统的向量检索方法集成来进一步增强这些自适应系统。 这种集成改善了复杂关系的捕获,与仅向量方法相比,导致增强的细微推理和高达 35% 的答案精度。 Lettria 等公司最近的实施表明准确性得到了显着提高,从传统 RAG 的 50% 提高到使用混合检索系统中的 GraphRAG 的 80% 以上。

正如 Yuri Kuratov 恰当地警告说,’扩大上下文而不提高推理能力就像为无法转向的汽车建造更宽的高速公路。’ AI 的真正未来在于真正理解任何上下文大小的关系的模型,而不仅仅是可以处理大量数据的模型。 这关乎智能,而不仅仅是记忆。