随着人工智能的快速发展及其在各个行业的整合,企业面临着一个关键挑战:如何最大限度地提高从这些强大技术中获得的价值。这一挑战的一个关键方面在于理解推理的经济性,即使用经过训练的AI模型从新数据中生成预测或输出的过程。
推理与模型训练相比,提出了独特的计算需求。虽然训练涉及处理大量数据集和识别模式的巨大前期成本,但推理每次交互都会产生持续成本。提交给模型的每个提示或输入都会触发令牌的生成,即数据的基本单位,并且每个令牌都带有计算成本。
因此,随着AI模型变得更加复杂和被广泛使用,生成的令牌数量增加,导致更高的计算成本。对于寻求有效利用AI的组织而言,目标是以最佳速度、准确性和服务质量生成大量令牌,同时控制计算成本。
AI生态系统一直在积极寻求降低推理成本和提高效率的策略。模型优化方面的进步,加上节能加速计算基础设施和全面的全栈解决方案的开发,促成了过去一年推理成本的下降趋势。
根据斯坦福大学以人为本人工智能研究所发布的《2025年AI指数报告》,具有GPT-3.5级别性能的系统的推理成本在2022年11月至2024年10月期间大幅下降。硬件成本也有所下降,能源效率逐年提高。此外,开放权重模型正在缩小与封闭模型之间的性能差距,进一步降低了采用先进AI的障碍。
随着模型的发展并产生更多需求和产生更多令牌,组织必须扩展其加速计算资源,以提供下一代AI推理工具。否则可能会导致成本和能源消耗的增加。
本文提供了对推理经济学的基本理解,使组织能够开发高效、经济且可扩展的AI解决方案。
AI推理经济学的关键概念
熟悉AI推理经济学的基本术语对于理解其重要性至关重要。
令牌(Tokens): AI模型中的核心数据单位,源自训练期间的文本、图像、音频和视频。令牌化涉及将数据分解为更小、更易于管理的单位。在训练期间,模型学习令牌之间的关系,使其能够执行推理并生成准确的输出。
吞吐量(Throughput): 模型可以在特定时间范围内处理和输出的数据量,通常以每秒令牌数衡量。更高的吞吐量表明更有效地利用了基础设施资源。
延迟(Latency): 输入提示和接收模型响应之间的时间延迟。较低的延迟转化为更快的响应和更好的用户体验。关键延迟指标包括:
- 首个令牌时间(Time to First Token, TTFT): 模型在收到用户提示后生成第一个输出令牌所需的时间,反映了初始处理时间。
- 每个输出令牌的时间(Time per Output Token, TPOT): 生成后续令牌的平均时间,也称为“令牌间延迟”或“令牌到令牌延迟”。
虽然TTFT和TPOT是有用的基准,但仅关注它们可能导致次优性能或增加成本。
有效吞吐量(Goodput): 一种整体指标,用于衡量在维持目标TTFT和TPOT水平时实现的吞吐量。Goodput提供了系统性能的更全面的视图,确保吞吐量、延迟和成本之间保持一致,以支持运营效率和积极的用户体验。
能源效率(Energy Efficiency): 衡量AI系统将电力转化为计算输出的效率的指标,表示为每瓦性能。加速计算平台可以帮助组织最大限度地提高每瓦令牌数并最大限度地减少能源消耗。
缩放定律与推理成本
三个AI缩放定律进一步深入了解了推理的经济性:
预训练缩放(Pretraining Scaling): 最初的缩放定律,表明增加训练数据集大小、模型参数计数和计算资源会导致模型智能和准确性的可预测改进。
后训练(Post-training): 模型针对特定任务和应用程序进行微调的过程。诸如检索增强生成(Retrieval-Augmented Generation, RAG)之类的技术可以通过从企业数据库中检索相关信息来提高准确性。
测试时缩放(Test-time Scaling): 也称为“长期思考”或“推理”,该技术涉及在推理期间分配额外的计算资源,以评估多个可能的结果,然后再选择最佳答案。
虽然后训练和测试时缩放技术正变得越来越复杂,但预训练仍然是缩放模型和支持这些先进技术的关键方面。
通过全栈方法实现盈利性AI
利用测试时缩放的模型会生成多个令牌来解决复杂问题,与仅经过预训练和后训练的模型相比,会产生更准确和相关的输出,但也产生更高的计算成本。
更智能的AI解决方案需要生成更多令牌来解决复杂任务,而高质量的用户体验需要尽可能快地生成这些令牌。AI模型越智能、速度越快,它为企业和客户提供的价值就越大。
组织需要扩展其加速计算资源,以提供能够处理复杂问题解决、编码和多步骤规划的AI推理工具,而不会产生过高的成本。
这需要先进的硬件和完全优化的软件堆栈。NVIDIA的AI工厂产品路线图旨在满足这些计算需求并解决推理的复杂性,同时提高效率。
AI工厂集成了高性能AI基础设施、高速网络和优化的软件,以实现大规模智能。这些组件被设计为灵活和可编程的,允许企业优先考虑对其模型或推理需求至关重要的领域。
为了简化部署大规模AI推理模型时的操作,AI工厂运行在高性能、低延迟的推理管理系统上。该系统确保以尽可能低的成本满足AI推理所需的速度和吞吐量,从而最大限度地提高令牌收入的产生。
通过理解和解决推理的经济性,组织可以释放AI的全部潜力并获得显着的投资回报。考虑到关键指标、缩放定律和全栈解决方案重要性的战略方法对于构建高效、经济且盈利的AI应用程序至关重要。