新石器时代革命:播下创新的种子
大约12000年前,我们的祖先从游牧的狩猎采集者转变为定居的农业耕作者,种植作物和饲养动物以维持生计。农业,或者说耕作,代表了一种原始的食物工厂,依靠阳光、水和空气来促进植物和动物的生长。“Firma”这个词,在中世纪时期表示为土地耕作支付的固定租金,后来成了农业的同义词。
农业需要有等级的社会结构,才能高效地进行耕作活动。文字作为一种行政工具应运而生,便于追踪这些食物工厂中的投入和产出,并建立社会规则。随着时间的推移,文字扩展到包括各种不同的领域,并且仍然是传递复杂信息的一种有效手段。
从我们用锄头、耙子和犁代替弓箭和长矛,并在粘土或石头上刻下第一个象征性的文字的那一刻起,人工智能的出现,以及随之而来的AI工厂,就成为不可避免的。这仅仅是一个时间问题。
工业革命:为大规模生产铺平道路
几千年来,人类磨练了农业技能,产生了盈余,从而促进了一个商业阶层的出现——他们是从事为他人制造商品的人,也就是“制造”,这个词源于拉丁语“用手工作”。这导致了货币的发展,货币是一种交换媒介,加速了易货贸易,并将其转变为现代经济。在全球探索时代之后,全球化将区域和国家经济连接在一起。
随后的几波全球化浪潮重塑了农业和制造业。工厂是标准化制造的中心,其核心转变是将生产过程划分为离散的步骤,以提高速度和可重复性。这场工业革命恰逢启蒙运动,其特点是识字率飙升,因为工厂需要受过教育的工人来最大限度地提高效率并最大限度地减少浪费。教育成为一种必需品,促进了对赋权、私有财产权、宗教自由、安全、言论以及迅速审判权的认可。
这些在21世纪不言而喻的原则,其起源要归功于18世纪。
工厂将制造业带入室内,利用蒸汽和电力为装配线和精益生产技术提供动力。这使得以可承受的价格生产商品成为可能,提高了生活水平,并促进了中产阶级的成长,推动了经济扩张,超越了农业社会的能力。
AI 革命:数据成为新的前沿
互联网的出现将个人连接在一起,并产生了一种新的资源:数据,这些数据可以进行富有洞察力的分析。
AI革命的关键在于对大量文本、图像、视频和音频的数字化,以及用于处理这些数据的经济实惠的计算能力。大数据与大规模并行GPU和高内存带宽相结合,能够创建对我们理解世界的神经网络进行编码,从而实现人工智能。
从本质上讲,大数据为在GPU引擎上运行的AI算法提供了原材料,以构建功能性神经网络。
这些元素必须同时汇聚。在20世纪80年代,研究人员拥有神经网络算法,但缺乏实施这些算法所需的计算资源和数据。因此,在满足这三个条件之前,AI在很大程度上仍然是理论上的。
AI 工厂:一种字面意义上的转变
“AI工厂”一词不仅仅是一个比喻,而是对在商业环境中运行的现代AI超级计算机的精确描述。它从根本上改变了企业计算和数据分析——将数据合成为可操作的信息。
AI工厂就像农业革命一样不可避免,农业革命中,集体努力确保了粮食生产。这场革命带来的社会和文化转变赋予了人类闲暇时间进行思考和创新。现在,机器可以访问和处理所有人类知识,从而实现对话式搜索,并反向应用AI算法以生成各种格式的新数据。
企业和个人将可以直接或通过分时安排的方式访问AI工厂。这些AI工厂将产生新颖的想法、愿景,并增强个人的创造能力。
AI工厂的变革潜力是包罗万象的。聊天机器人、用于模型训练和推理的并行计算引擎的开发者,以及OpenAI、Anthropic、Google和Mistral等模型创建者都一致认为,AI将重塑我们生活的方方面面。尽管在全球各种问题上存在分歧,但AI的变革性影响得到了普遍认可。
制造洞察和行动
AI工厂有两个主要功能。第一个是训练基础模型,从而为业务和个人改进提供见解。第二个,也是更重要的功能,是将新的数据和问题输入到这些模型中,以推断新的答案,生成新的token,并驱动行动。
围绕AI的大部分讨论都集中在训练不断扩展的基础模型上,这些模型拥有数千亿到数万亿个参数以及庞大的数据集。token数量表示知识的广度,而参数反映了理解的深度。较小的参数计数与较大的token集配对会产生更快、更简单的答案。相反,较大的参数计数和较小的token集会提供对有限领域的更细致的见解。链式推理模型本质上是多模态的,它们将专门的模型组合起来以考虑驱动其他输入的输出,从而生成全面的答案。
AI工厂利用人类创建的所有内容和AI模型生成的合成数据作为原材料。从这些数据中获得的见解被人类和AI代理利用来驱动行动。个人不是在工厂工作,而是利用它,利用AI模型的知识和速度来增强他们的技能,从而获得更多、更好、更快的结果。
根据NVIDIA联合创始人兼首席执行官黄仁勋的说法,“世界正在竞相建设最先进的大型AI工厂。”建立AI工厂是一项非凡的工程壮举,需要大量的资源、人力和物力。
建造AI工厂需要大量的资本投资。一个典型的配置包括一个基于多个DGX系统机架的NVIDIA DGX SuperPOD,该系统具有GPU、CPU、高速互连和存储。
凭借众多的DGX系统,SuperPOD可提供强大的性能,并拥有可观的内存容量和带宽。可以通过添加更多系统来扩展性能。
NVIDIA的另一个AI工厂蓝图侧重于NVIDIA GB200 NVL72平台,这是一个集成了GPU、CPU、DPU、SuperNIC、NVLink和NVSwitch以及高速网络的机架级系统。该平台为AI模型提供更大的共享GPU内存域和更高的计算密度,需要液体冷却。
GB200 NVL72以全量发货,代表了一种能够以各种格式构建模型和生成数据的独立系统。
GB200 NVL72包含一个MGX服务器节点,该节点具有一个与Blackwell GPU配对的NVIDIA Grace CPU。其中两个服务器节点在NVL72机架中形成一个计算托盘,其中十八个计算托盘容纳了大量的GPU和CPU。
GB200 NVL72机架级系统将Grace CPU与Blackwell GPU结合在一起,并通过高速NVLink连接互连。NVLink端口和NVSwitch芯片将所有GPU链接在一个共享内存配置中,非常适合基础模型训练和链式推理。
由九个NVLink交换机托盘促进的NVLink结构使AI应用程序能够将所有GPU芯片作为统一的GPU进行访问。
GB200 NVL72系统具有大量的Arm内核,用于主机处理和强大的浮点处理能力。GB200 NVL72系统拥有连接到GPU的显着的HBM3e内存,具有较高的总带宽。Grace CPU具有LPDDR5X内存,可通过NVLink访问。
NVIDIA GB200 NVL72反映了System/360对在线交易处理的变革性影响,主要区别在于NVL72可以通过InfiniBand互连进行扩展。
基于NVL72机架级系统的DGX SuperPOD配置需要相当大的功率,但可在多个计算架中提供强大的计算能力和内存容量。可以通过添加更多机架来扩展性能。
NVL72机架的计算密度需要专门的液体冷却和数据中心基础设施,这代表着回归过去使用水冷机器来最大限度地提高性能的做法。
随着推理成为各种应用程序不可或缺的一部分,AI工厂将需要更多的计算能力,尤其是在转向链式推理模型的情况下。
AI工厂不仅包含硬件,还包含系统和开发软件。
DGX GB200系统和DGX SuperPOD AI超级计算机需要管理和建模,这可以通过NVIDIA Mission Control等工具来实现,这些工具可以协调AI工作负载并自动恢复作业。Mission Control监控系统运行状况并优化功耗。
NVIDIA AI Enterprise是系统软件套件,包括针对NVIDIA GPU和网络优化的库、模型和框架。AI工厂堆栈还具有NVIDIA Dynamo,这是一个用于跨NVLink和DGX SuperPOD基础设施运行推理的开源框架。DGX Expert Service and Support帮助客户实施这些技术,从而缩短了首次获得token的时间。NVIDIA为其Omniverse“数字孪生”环境提供AI工厂蓝图,以模拟和优化数据中心设计。
AI工厂的一个关键方面是它们所产生的思维方式转变,NVIDIA优先考虑系统增长的余量。
NVIDIA网络高级副总裁Gilad Shainer表示:“现在,生成token相当于为许多公司创造收入。”数据中心正在从成本中心转变为生产性资产。
而这,归根结底,就是建造工厂的本质。