华为技术公司,一家因美国制裁而面临重大技术挑战的公司,据报道在人工智能(AI)模型训练方面取得了突破。华为大型语言模型(LLM)盘古的研究人员声称,他们开发了一种增强的方法,其性能优于DeepSeek的原始方法。这种创新方法利用华为自己的专有硬件,减少了公司对美国技术的依赖,这是当前地缘政治形势下的一个关键目标。
Mixture of Grouped Experts (MoGE) 的出现
华为进步的基石在于 Mixture of Grouped Experts (MoGE) 的概念。华为盘古团队发表的一篇论文详细介绍了这项新技术,它被认为是专家混合(MoE)技术的升级版。事实证明,MoE 在创建具有成本效益的 AI 模型方面发挥了重要作用,DeepSeek 的成功就证明了这一点。
MoE 为大型模型参数提供了优势,从而提高了学习能力。然而,华为的研究人员发现,在跨多个设备同时运行任务时,AI 训练中的关键组件——“专家”的激活不均匀会导致效率低下,从而阻碍性能。华为的 MoGE 战略性地解决了这些挑战。
解决传统 MoE 模型中的效率低下问题
MoGE 系统的设计非常复杂,旨在优化工作负载分配。其核心思想是在选择过程中将专家“分组”在一起,从而实现更平衡的工作负载分配。研究人员报告说,通过更公平地分配计算负担,并行计算环境的性能得到了显着增强,这是现代 AI 训练的关键方面。
AI 训练中的“专家”概念是指更大、更全面的模型中的专门子模型或组件。每个专家都经过精心设计,以处理非常特定的任务或数据类型。这种方法利用了各种专业的知识,使整个 AI 系统能够显着提高其整体性能。
对中国人工智能发展的影响
这一进展非常及时。尽管受到美国对英伟达等公司先进 AI 芯片进口的限制,但中国 AI 公司仍在积极寻求提高模型训练和推理效率的方法。这些方法不仅包括算法改进,还包括硬件和软件的协同集成。
华为的研究人员在其昇腾神经处理单元 (NPU) 上严格测试了 MoGE 架构,该架构专门设计用于加速 AI 任务。结果表明,MoGE 在模型训练和推理阶段都实现了卓越的专家负载平衡和更高效的执行。这有力地验证了同时优化硬件和软件堆栈的好处。
盘古与领先 AI 模型进行基准测试
华为的盘古模型在 MoGE 架构和昇腾 NPU 的支持下,与领先的 AI 模型进行了基准测试。其中包括 DeepSeek-V3、阿里巴巴集团控股公司的 Qwen2.5-72B 和 Meta Platforms 的 Llama-405B。基准测试结果表明,盘古在各种通用英语基准测试中都取得了最先进的性能,并且在所有中文基准测试中都表现出色。盘古在处理长上下文训练方面也表现出更高的效率,这对于复杂的自然语言处理任务而言至关重要。
此外,盘古模型在通用语言理解任务中表现出卓越的能力,尤其是在推理任务中。这种掌握细微差别并从复杂语言中提取含义的能力证明了华为在 AI 方面取得的进步。
华为的战略意义
华为在 AI 模型架构方面的进步具有战略意义。鉴于持续的制裁,这家总部位于深圳的公司正在战略性地寻求减少对美国技术的依赖。华为开发的昇腾芯片被认为是英伟达处理器的可行国内替代品,是实现这一自主的关键组成部分。
盘古 Ultra 是一个拥有 1350 亿个参数的大型语言模型,针对 NPU 进行了优化,它强调了华为架构和系统精简的有效性,同时展示了其 NPU 的功能。展示其硬件-软件集成的有效性是展示华为 AI 功能的重要组成部分。
详细的培训过程
据华为介绍,训练过程分为三个主要阶段:预训练、长上下文扩展和后训练。预训练涉及首先在包含 13.2 万亿个 token 的海量数据集上训练模型。然后,长上下文扩展扩展模型处理更长、更复杂文本的能力,并建立在初始数据识别的基础上。此阶段使用跨 8,192 个昇腾芯片的大规模分布式处理。
华为披露,该模型和系统很快将向其商业客户提供,从而为其合作伙伴的集成和开发开辟新的机会。
深入了解专家混合(MoE)及其局限性
要充分理解华为 MoGE 的重要性,必须了解其构建的基础:专家混合(MoE)架构。MoE 代表了大型 AI 模型设计和训练方式的范式转变,它提供了一种在不按比例增加计算成本的情况下扩展模型规模和复杂性的途径。
在传统的神经网络中,每个输入都由每一层中的每个神经元处理。虽然这种方法可以产生高精度,但对于非常大的模型来说,它在计算上变得令人望而却步。相比之下,MoE 引入了“专家”的概念——更小、更专业的神经网络,专注于输入数据的特定子集。
“门控”网络动态地将每个输入路由到最相关的专家。这种选择性激活允许稀疏计算,这意味着对于任何给定的输入,只有一小部分模型的参数被激活。这种稀疏性显着降低了推理(使用模型进行预测)和训练的计算成本。此外,由于不同的专家可以处理输入数据的不同部分,因此可以实现模型中更大的专业化。
尽管 MoE 具有优势,但必须解决几个限制才能充分发挥其潜力。“专家”的激活不均匀是一个主要问题。在许多 MoE 实现中,一些专家被大量使用,而另一些专家则相对空闲。这种不平衡源于数据的固有特征和门控网络的设计。
这种不平衡会导致并行计算环境中的效率低下。由于工作负载没有均匀地分配给各个专家,因此一些处理单元未得到充分利用,而另一些处理单元则不堪重负。这种差异阻碍了 MoE 的可扩展性并降低了其整体性能。此外,这种不平衡通常源于训练数据中的偏差,导致活跃度较低的专家表示不足和训练不足。从长远来看,这会导致模型不佳。
处理 MoE 时的另一个常见问题包括设计门控网络时增加的复杂性。门控网络需要复杂的技术来确保正确选择专家,否则,MoE 可能无法达到预期效果并导致不必要的开销。
分组专家(MoGE):应对 MoE 的挑战
华为的 Mixture of Grouped Experts (MoGE) 架构通过专注于负载平衡和高效的并行执行,提供了对传统 MoE 的改进替代方案。该方法涉及战略性地对专家进行分组,从而改变输入数据的路由过程,从而实现更均匀的工作负载分配。
通过在选择期间对专家进行分组,MoGE 确保每组专家接收到更平衡的工作负载。门控网络现在不是独立地路由每个输入,而是将输入组定向到专家组。这种方法促进了计算负担的更公平分配。
分组机制还有助于减轻数据偏差的影响。通过确保组内的所有专家都接受过各种输入的训练,MoGE 降低了表示不足和训练不足的风险。此外,分组专家可以更好地利用资源。由于每组处理更一致的工作负载,因此可以更轻松地高效分配计算资源,从而提高整体性能。
最终结果是更好的专家负载平衡和更高效的模型训练和推理执行。这转化为更快的训练时间、更低的计算成本和更好的整体性能。
昇腾 NPU:用于 AI 的硬件加速
昇腾 NPU(神经处理单元)在华为的 AI 战略中发挥着关键作用。这些处理器专门设计用于加速 AI 任务,包括模型训练和推理。它们提供了各种针对深度学习工作负载优化的功能,例如高内存带宽、用于矩阵乘法的专用处理单元和低延迟通信接口。此外,华为的昇腾 NPU 支持各种数据类型和精度级别,从而可以对性能和准确性进行细粒度控制。
MoGE 和昇腾 NPU 的协同组合为 AI 创新创建了一个强大的平台。MoGE 通过改善负载平衡和并行执行来优化软件方面,而昇腾 NPU 提供实现这些优势所需的硬件加速。这种集成方法使华为能够突破 AI 性能和效率的界限。
昇腾 NPU 的特点是高计算密度和能源效率。这些功能对于在各种环境中部署 AI 模型至关重要,从强大的云服务器到具有有限功率预算的边缘设备。
基准和性能指标
华为的基准测试结果证明了 MoGE 架构和昇腾 NPU 的有效性。通过将盘古与 DeepSeek-V3、Qwen2.5-72B 和 Llama-405B 等领先的 AI 模型进行比较,华为表明其技术在各种任务中都实现了最先进的性能。
盘古在通用英语和中文基准测试中的成功突显了其多功能性和适应性。该模型在长上下文训练方面的熟练程度尤其值得注意,因为它反映了处理真实世界数据的能力。此外,盘古在推理任务方面的强大性能凸显了其理解和处理复杂关系的能力。
这些基准测试不仅是学术练习,它们还为华为取得的技术进步提供了切实的证据。它们增强了公司在 AI 创新前沿的地位,并巩固了其在全球市场中的地位。
对华为未来的影响
华为在 AI 模型训练方面的进步对该公司在人工智能领域建立技术主权的战略愿景具有重要意义。随着该公司在持续的贸易冲突中最大限度地减少对美国技术的依赖,昇腾芯片的开发成为英伟达和 AMD 处理器的替代品。盘古 Ultra 是一款拥有 1350 亿个 NPU 参数的 LLM,它通过展示其尖端芯片的功能,突出了华为架构和系统精简的有效性。
随着华为努力满足人工智能的更大市场需求,特别是在中国,预计这些努力将有助于华为的长期整体竞争力。通过继续将投资重点放在研发上,华为希望将自己打造成人工智能领域的领导者,克服当前的市场制约。
未来研究
华为通过系统和算法层面的优化不断增强 AI 模型架构,以及昇腾芯片等硬件开发,标志着其在引领人工智能技术曲线方面的重要性。虽然盘古等基准证明它是一种最先进的模型,但仍有很大的改进空间。进一步改进 MoGE 架构可能会使其能够推动更大、更复杂的计算。进一步专门研究昇腾 NPU 的架构可以进一步加速深度学习过程并降低成本。未来的研究将看到不断努力构建更好的 AI 模型并改进现有模型。