企业AI应用构建的真正挑战

企业AI应用构建的真正挑战

每年都有无数资源投入到大型语言模型(LLM)的训练中,但仍然存在一个重大障碍:如何有效地将这些模型集成到实用、有用的应用程序中。

微调的假象

微调和检索增强生成(RAG)通常被认为是增强预训练AI模型的知识和能力的成熟方法。然而,Aleph Alpha首席执行官Jonas Andrulis指出,现实情况更为复杂。

“一年前,人们普遍认为微调是一种神奇的解决方案。如果AI系统没有达到预期的效果,答案很简单,就是微调。但事情并非如此简单,”他解释说。

虽然微调可以修改模型的风格或行为,但它并不是教授新信息的最有效方法。认为仅靠微调就能解决所有AI应用问题的期望是一种误解。

RAG:一种替代方法

RAG提供了一种替代方案,它的功能类似于从外部档案中检索信息的图书管理员。这种方法允许更新和更改数据库中的信息,而无需重新训练或微调模型。此外,生成的结果可以被引用和审计,以确保准确性。

“具体的知识应该始终被记录下来,而不是存储在LLM的参数中,”Andrulis强调说。

虽然RAG提供了许多好处,但它的成功取决于关键流程、程序和机构知识的正确文档化,并以模型可以理解的格式呈现。不幸的是,情况往往并非如此。

即使文档存在,如果文档或流程依赖于超出分布范围的数据(即与用于训练基础模型的数据显著不同的数据),企业也可能会遇到问题。例如,一个仅在英语数据集上训练的模型将难以处理德语文档,尤其是当它包含科学公式时。在许多情况下,模型可能根本无法解释数据。

因此,Andrulis建议,通常需要结合微调和RAG才能取得有意义的结果。这种混合方法利用了两种方法的优势,以克服它们各自的局限性。

弥合差距

Aleph Alpha的目标是成为欧洲的DeepMind,通过解决阻止企业和国家开发自己的主权AI的挑战来脱颖而出。

主权AI指的是使用一个国家内部的数据集,在境内构建或部署的硬件上训练或微调的模型。这种方法确保了数据隐私、安全和控制,这对许多组织和政府至关重要。

“我们努力成为操作系统,成为企业和政府构建自己的主权AI战略的基础,”Andrulis说。“我们的目标是在必要时进行创新,同时尽可能地利用开源和最先进的技术。”

虽然这偶尔会涉及到训练模型,例如Aleph的Pharia-1-LLM,但Andrulis强调,他们并不是试图复制现有的模型,如Llama或DeepSeek。他们的重点是创建独特的解决方案,以解决特定的挑战。

“我总是指导我们的研究专注于有意义的不同之处,而不是仅仅复制别人正在做的事情,因为这些已经存在了,”Andrulis说。“我们不需要构建另一个Llama或DeepSeek,因为它们已经存在了。”

相反,Aleph Alpha专注于构建简化和精简这些技术采用的框架。最近的一个例子是他们新的无分词器或“T-Free”训练架构,该架构旨在更有效地微调可以理解超出分布范围数据的模型。

传统上,基于分词器的方法通常需要大量的超出分布范围的数据才能有效地微调模型。这在计算上是昂贵的,并且假设有足够的数据可用。

Aleph Alpha的T-Free架构通过消除分词器来绕过这个问题。在芬兰语的Pharia LLM上的早期测试表明,与基于分词器的方法相比,训练成本和碳足迹减少了70%。这种创新方法使微调更易于访问和更可持续。

Aleph Alpha还开发了工具来解决文档化知识中的差距,这些差距可能导致不准确或无益的结论。

例如,如果与合规性问题相关的两份合同相互矛盾,“系统可以与人联系并说,’我发现了一个差异……请您提供反馈,说明这是否是一个实际的冲突?’”Andrulis解释说。

通过这个名为Pharia Catch的框架收集的信息可以反馈到应用程序的知识库中,或者用于微调更有效的模型。这种反馈循环可以提高AI系统的准确性和可靠性。

根据Andrulis的说法,这些工具已经吸引了普华永道、德勤、凯捷和Supra等合作伙伴,他们与最终客户合作实施Aleph Alpha的技术。这些合作伙伴关系证明了Aleph Alpha的解决方案在实际应用中的价值和实用性。

硬件因素

软件和数据并不是主权AI采用者面临的唯一挑战。硬件是另一个关键考虑因素。

不同的企业和国家可能有特定的要求,需要在国内开发的硬件上运行,或者可能只是规定工作负载可以在哪里运行。这些约束可能会显著影响硬件和基础设施的选择。

这意味着Andrulis和他的团队必须支持各种各样的硬件选项。Aleph Alpha已经吸引了一群不拘一格的硬件合作伙伴,包括AMD、Graphcore和Cerebras。

上个月,Aleph Alpha宣布与AMD合作,使用其MI300系列加速器。此次合作将利用AMD的先进硬件来加速AI训练和推理。

Andrulis还强调了与Graphcore(已被软银收购)和Cerebras的合作,后者的CS-3晶圆级加速器被用于训练德国武装部队的AI模型。这些合作伙伴关系表明了Aleph Alpha致力于与不同的硬件供应商合作,以满足其客户的特定需求。

尽管有这些合作,Andrulis坚持认为Aleph Alpha的目标不是成为托管服务或云提供商。“我们永远不会成为云提供商,”他说。“我希望我的客户是自由的,并且不受锁定。”这种对客户自由和灵活性的承诺使Aleph Alpha与许多其他AI公司区分开来。

前进的道路:日益复杂

展望未来,Andrulis预计,随着行业从聊天机器人转向能够进行更复杂问题解决的代理AI系统,构建AI应用程序将变得更加复杂。

代理AI在过去一年中受到了广泛关注,模型构建者、软件开发人员和硬件供应商承诺提供可以异步完成多步骤流程的系统。早期的例子包括OpenAI的Operator和Anthropic的计算机使用API。这些代理AI系统代表了AI能力的重大进步。

“去年,我们主要关注文档摘要或写作辅助等简单的任务,”他说。“现在,随着一些乍一看甚至不像是genAI问题的事情,用户体验不是聊天机器人,这变得更加令人兴奋。”这种向更复杂和集成的AI应用程序的转变为行业带来了新的挑战和机遇。

构建企业AI应用的关键挑战:

  • 弥合模型训练和应用集成之间的差距: 有效地将LLM的能力转化为实际应用仍然是一个重大障碍。
  • 克服微调的局限性: 仅靠微调通常不足以教AI模型新的信息或使它们适应特定的任务。
  • 确保数据的质量和可访问性: RAG依赖于良好记录和易于访问的数据,而这在许多组织中往往缺乏。
  • 处理超出分布范围的数据: AI模型必须能够处理与它们训练的数据不同的数据,这需要专门的技术。
  • 解决硬件约束: 不同的企业和国家有不同的硬件要求,必须加以考虑。
  • 维护数据隐私和安全: 主权AI需要确保数据在国家境内安全地处理和存储。
  • 开发代理AI系统: 构建可以异步执行复杂多步骤流程的AI应用程序是一个具有挑战性但很有希望的研究领域。

构建企业AI应用的关键机遇:

  • 开发创新的AI解决方案: 构建企业AI应用程序的挑战为开发解决特定需求的创新解决方案创造了机会。
  • 利用开源技术: 开源技术可以帮助降低成本并加速AI应用程序的开发。
  • 与硬件合作伙伴合作: 与硬件合作伙伴合作可以帮助确保AI应用程序针对特定的硬件平台进行优化。
  • 构建主权AI能力: 主权AI可以为国家和组织提供对其数据和AI基础设施的更大控制权。
  • 通过AI转型行业: AI有潜力通过自动化任务、改进决策制定以及创建新的产品和服务来转型行业。

企业AI应用的未来:

企业AI应用的未来可能具有以下特征:

  • 日益复杂: AI应用程序将变得更加复杂和集成,需要专业的知识和工具。
  • 更加关注数据质量: 随着AI应用程序依赖于准确和可靠的数据,数据质量将变得越来越重要。
  • 更加强调安全和隐私: 随着AI应用程序处理敏感数据,安全和隐私将至关重要。
  • 更广泛地采用代理AI: 随着组织寻求自动化复杂的任务,代理AI系统将变得更加普遍。
  • 持续创新: AI领域将继续快速发展,从而带来新的突破和机遇。

通过应对挑战并抓住机遇,组织可以利用AI的力量来转型其业务并创造更美好的未来。