AI格局变迁:推理计算或成新淘金热

人工智能领域的创新步伐永不停歇,确保了自满绝无可能。正当既有方法论看似稳固之时,新的发展便会涌现,挑战现状。一个典型的例子发生在2025年初,当时一家名气较小的中国AI实验室 DeepSeek 发布了一个模型,它不仅引人注目,更在金融市场引发了明显的震动。该公告发布后,Nvidia 股价迅速暴跌17%,并拖累了其他与蓬勃发展的AI数据中心生态系统相关的公司。市场评论员迅速将这种剧烈反应归因于 DeepSeek 所展示出的实力——即在没有通常与美国顶尖研究实验室相关的巨额预算的情况下,创造出高质量的AI模型。这一事件立即引发了关于AI基础设施未来架构和经济学的激烈辩论。

要充分理解 DeepSeek 的出现所预示的潜在颠覆,必须将其置于更广阔的背景下:AI开发流程面临的不断变化的制约因素。影响行业轨迹的一个重要因素是高质量、新颖训练数据的日益稀缺。AI领域的主要参与者迄今已消化了大量公开可用的互联网数据来训练他们的基础模型。因此,易于获取的信息源泉正开始枯竭,使得通过传统预训练方法在模型性能上实现进一步的重大飞跃变得越来越困难和昂贵。这一新出现的瓶颈正迫使行业进行战略转向。模型开发者越来越多地探索 “测试时计算”(test-time compute, TTC) 的潜力。这种方法强调在推理阶段增强模型的推理能力——实质上是允许模型在收到查询时投入更多的计算精力来“思考”和完善其响应,而不是仅仅依赖其预训练的知识。研究界越来越相信,TTC 可能会开启一种新的扩展范式,有可能复制先前通过扩展预训练数据和参数所实现的显著性能提升。这种对推理时处理的关注很可能代表着人工智能变革性进步的下一个前沿。

这些近期事件标志着AI领域正在发生两个根本性的转变。首先,越来越明显的是,即使是运营资源相对较少,或者至少没有大肆宣传其财务实力的组织,现在也能够开发和部署与最先进水平相媲美的模型。传统上由少数资金雄厚的巨头主导的竞争格局似乎正在趋于平缓。其次,战略重点正果断地转向优化推理点的计算(TTC),将其作为未来AI进步的主要引擎。让我们更深入地探讨这两个关键趋势,并探索它们对竞争、市场动态以及更广泛的AI生态系统内各个细分领域的潜在影响。

重塑硬件格局

向测试时计算的战略重新定位对支撑AI革命的硬件具有深远影响,可能重塑对 GPUs、专用芯片以及整体计算基础设施的要求。我们认为这种转变可能通过以下几种关键方式显现:

  • 从专用训练中心向动态推理能力的过渡: 行业的焦点可能会逐渐从构建越来越大的、专门用于计算密集型模型预训练任务的单一 GPU 集群,转向战略性地将投资重新分配到增强其推理能力上。这并不一定意味着 GPU 总量减少,而是其部署和管理方式的改变。支持 TTC 不断增长的需求需要强大的推理基础设施,能够处理动态的、通常不可预测的工作负载。虽然推理无疑仍需要大量 GPU,但这些任务的基本性质与训练显著不同。训练通常涉及在较长时间内运行的大型、可预测的批处理作业。而推理,特别是通过 TTC 增强的推理,往往更具 “尖峰性”且对延迟敏感,其特点是基于实时用户交互的需求模式波动。这种固有的不可预测性给容量规划和资源管理带来了新的复杂性,需要比传统的面向批处理的训练设置更敏捷、更具可扩展性的解决方案。

  • 专用推理加速器的崛起: 随着性能瓶颈日益转向推理,我们预计对专门为此任务优化的硬件的需求将激增。推理阶段对低延迟、高吞吐量计算的强调,为通用 GPU 之外的替代架构创造了沃土。我们可能会见证 专用集成电路(Application-Specific Integrated Circuits, ASICs) 以及其他新型加速器类型的采用显著增加,这些芯片是为推理工作负载精心设计的。与更通用的 GPU 相比,这些专用芯片通常在特定推理操作上承诺更高的每瓦性能或更低的延迟。如果在推理时高效执行复杂推理任务(TTC)的能力成为比原始训练能力更关键的竞争优势,那么通用 GPU 目前的主导地位——因其在训练和推理方面的灵活性而备受重视——可能会受到侵蚀。这种不断变化的格局可能极大地惠及开发和制造专用推理芯片的公司,有可能瓜分相当大的市场份额。

云平台:质量与效率的新战场

超大规模云提供商(如 AWS、Azure 和 GCP)以及其他云算力服务正处于这场变革的交汇点。向 TTC 的转变以及强大的推理模型的普及,可能会重塑云市场的客户期望和竞争动态:

  • 服务质量(Quality of Service, QoS)成为决定性竞争优势: 除了对准确性和可靠性的固有担忧之外,阻碍复杂AI模型在企业中更广泛采用的一个持续挑战在于推理 API 的性能往往不可预测。依赖这些 API 的企业经常遇到令人沮丧的问题,例如 响应时间(延迟)的高度可变性、意外的速率限制导致使用受阻、难以有效管理并发用户请求,以及适应模型提供商频繁更改 API 端点所带来的运营开销。与复杂的 TTC 技术相关的计算需求增加,有可能加剧这些现有的痛点。在这种环境下,一个不仅能提供强大模型访问权限,还能提供可靠 服务质量(QoS)保证——确保一致的低延迟、可预测的吞吐量、可靠的正常运行时间和无缝的可扩展性——的云平台将拥有强大的竞争优势。寻求部署关键任务AI应用的企业将倾向于那些能够在严苛的实际条件下提供可靠性能的提供商。

  • 效率悖论:推动云消费增加? 这似乎有悖常理,但更高效的训练和(关键是)推理大型语言模型(LLMs)的方法的出现,可能不会导致对AI硬件和云资源的总体需求减少。相反,我们可能会目睹一种类似于 杰文斯悖论(Jevons Paradox) 的现象。这一历史上观察到的经济学原理指出,资源效率的提高往往会导致更高的总体消耗率,因为更低的成本或更高的易用性会鼓励更广泛的采用和新的应用。在AI的背景下,高效的推理模型,可能得益于像 DeepSeek 这样的实验室开创的 TTC 突破,可以显著降低每次查询或每个任务的成本。这种可负担性反过来又可能激励更广泛的开发者和组织将复杂的推理能力集成到他们的产品和工作流程中。最终效果可能是对基于云的AI计算的总需求大幅增加,这既包括大规模执行这些高效推理模型的需求,也包括持续需要训练更小、更专业的模型以适应特定任务或领域的需求。因此,近期的进步可能非但不会抑制,反而会助长整体云AI支出。

基础模型:变化的护城河

基础模型提供商的竞争舞台——目前由 OpenAI、Anthropic、Cohere、Google 和 Meta 等巨头主导,现在又加入了 DeepSeek 和 Mistral 等新兴参与者——也准备迎接重大变革:

  • 重新思考预训练的可防御性: 领先AI实验室享有的传统竞争优势或“护城河”,在很大程度上依赖于它们积累海量数据集和部署巨大计算资源来预训练越来越大的模型的能力。然而,如果像 DeepSeek 这样的颠覆性参与者能够以显著降低的报告支出,证明其可以达到相当甚至前沿水平的性能,那么专有预训练模型作为唯一差异化因素的战略价值可能会减弱。如果模型架构、训练方法或(关键是)测试时计算优化方面的创新技术允许其他公司更有效地达到相似的性能水平,那么训练大型模型的能力可能不再是独特的优势。我们应该预期通过 TTC 增强 transformer 模型能力的持续快速创新,并且正如 DeepSeek 的出现所表明的那样,这些突破可能来自远超现有行业巨头圈子之外的地方。这表明尖端AI开发可能实现民主化,从而培育一个更加多元化和竞争激烈的生态系统。

企业AI采用与应用层

这些转变的影响波及到企业软件领域以及AI在企业内部的更广泛采用,特别是关于软件即服务(Software-as-a-Service, SaaS)应用层:

  • **应对安全和隐私障碍:**像 DeepSeek 这样的新进入者的地缘政治背景不可避免地带来了复杂性,特别是在数据安全和隐私方面。鉴于 DeepSeek 总部设在中国,其产品,特别是其直接的 API 服务和聊天机器人应用,很可能面临来自北美、欧洲和其他西方国家潜在企业客户的严格审查。已有报道指出,许多组织正在主动阻止对 DeepSeek 服务的访问,作为预防措施。即使 DeepSeek 的模型由西方数据中心的第三方云提供商托管,关于数据治理、潜在国家影响以及遵守严格隐私法规(如 GDPR 或 CCPA)的持续担忧,也可能阻碍其在企业中的广泛采用。此外,研究人员正在积极调查并强调与 越狱(jailbreaking,绕过安全控制)、模型输出中固有的偏见以及生成潜在有害或不当内容相关的潜在漏洞。尽管由于模型的技术能力,企业研发团队内部可能会进行实验和评估,但考虑到这些重大的信任和安全因素,企业买家似乎不太可能仅仅因为 DeepSeek 当前的产品就迅速放弃像 OpenAI 或 Anthropic 这样成熟、值得信赖的提供商。

  • 垂直专业化找到更坚实的基础: 从历史上看,为特定行业或业务功能(垂直应用)构建AI驱动应用的开发者主要专注于围绕现有的通用基础模型创建复杂的工作流。诸如使用 检索增强生成(Retrieval-Augmented Generation, RAG) 来注入领域特定知识、智能模型路由以选择适合给定任务的最佳 LLM、函数调用以集成外部工具,以及实施强大的护栏以确保安全和相关输出等技术,一直是将这些强大但通用的模型应用于专业需求的核心。这些方法取得了相当大的成功。然而,一种持续的焦虑一直笼罩着应用层:担心底层基础模型能力的突然、戏剧性飞跃可能会立即使这些精心打造的应用特定创新变得过时——这种情况被 OpenAI 的 Sam Altman 著名地称为“碾压”(steamrolling)。

    然而,如果AI进步的轨迹确实在发生变化,最重要的收益现在预期来自优化测试时计算,而不是预训练的指数级改进,那么对应用层价值的生存威胁就会减弱。在一个进步越来越源于 TTC 优化 的格局中,为专注于特定领域的公司开辟了新的途径。专注于 领域特定的后训练算法 的创新——例如开发针对特定行业术语优化的结构化提示技术、为实时应用创建延迟感知推理策略,或设计针对特定类型数据量身定制的高效采样方法——可以在目标垂直市场中产生显著的性能优势。

    这种领域特定优化的潜力对于新一代以推理为重点的模型尤其重要,例如 OpenAI 的 GPT-4o 或 DeepSeek 的 R 系列模型,这些模型虽然强大,但通常表现出明显的延迟,有时需要几秒钟才能生成响应。在需要近乎实时交互的应用中(例如,客户服务机器人、交互式数据分析工具),在特定领域背景下降低这种延迟并同时提高推理输出的质量和相关性,代表着一个重要的竞争差异化因素。因此,拥有深厚垂直专业知识的应用层公司可能会发现自己扮演着越来越重要的角色,不仅是构建工作流,而且是积极优化推理效率并为其特定细分市场微调模型行为。它们成为将原始AI能力转化为有形商业价值不可或缺的合作伙伴。

DeepSeek 的出现有力地证明了一个更广泛的趋势:对纯粹预训练规模作为获得卓越模型质量唯一途径的依赖正在下降。相反,它的成功凸显了优化推理阶段计算——即测试时计算时代——日益增长的重要性。虽然 DeepSeek 的特定模型在西方企业软件中的直接采用可能仍受到持续的安全和地缘政治审查的限制,但它们的间接影响已经显现。它们所展示的技术和可能性无疑正在催化现有AI实验室内部的研究和工程努力,迫使它们整合类似的 TTC 优化策略,以补充其在规模和资源方面的现有优势。正如预期的那样,这种竞争压力似乎有望降低复杂模型推理的有效成本,而根据杰文斯悖论,这很可能有助于在整个数字经济中促进更广泛的实验和增加对先进AI能力的总体使用。