AI革命:微软1位LLM赋能日常CPU高效生成式AI

在人工智能的动态发展中,微软研究院的一项突破性进展有望重新定义生成式AI的可访问性和效率。他们最近的论文介绍了BitNet b1.58 2B4T,这是一款开创性的大型语言模型(LLM),其特点是使用“1位”权重(更准确地说,是1-trit权重)进行原生训练。 这种创新方法标志着与传统方法的背离,后者依赖于最初以全精度训练的模型进行量化。

克服传统LLM的局限性

传统的LLM尽管性能卓越,但仍面临着阻碍其广泛应用的重大障碍。 这些限制主要源于其庞大的内存占用、巨大的能源消耗和显著的推理延迟。 因此,在边缘设备、资源受限的环境中以及实时应用中部署这些模型变得不切实际。

为了缓解这些挑战,AI社区越来越关注探索量化模型。 这些模型是通过将权重转换为较低位格式而从全精度模型派生而来的。 虽然量化提供了一种减少模型大小和计算需求的途径,但它通常以精度损失为代价,可能会损害模型的准确性和整体性能。

BitNet b1.58 2B4T架构

BitNet b1.58 2B4T代表了LLM设计中的范式转变,它通过从头开始使用1位权重训练模型,规避了与量化相关的精度损失。 这种方法使模型能够保留较小权重的优势,包括减少内存占用和降低计算成本。

微软研究人员通过在4万亿个token的大规模语料库上训练BitNet b1.58 2B4T,开始了这项雄心勃勃的尝试。 这个庞大的训练数据集确保了该模型能够有效地学习复杂的语言模式,并对人类交流的细微差别形成全面的理解。

性能评估和基准测试

为了评估BitNet b1.58 2B4T的功效,微软进行了严格的基准测试,将其性能与同等规模的领先的开放权重全精度模型进行了比较。 结果表明,该新型号在广泛的任务中表现相当,包括语言理解和推理、世界知识、阅读理解、数学和代码以及指令遵循和对话。

这些发现强调了1位LLM在实现与其全精度模型相当的性能方面的潜力,同时在效率和资源利用率方面提供了显著优势。

关键架构创新

BitNet b1.58 2B4T的核心在于其创新架构,它用自定义的_BitLinear_层取代了标准的完整精度线性层。 这些层采用1.58位表示来在正向传递期间将权重编码为三进制值(trits)。

使用三进制值(表示为{-1, 0, +1})可以大幅减少模型大小并促进高效的数学运算。 这是通过绝对平均值(absmean)量化方案实现的,该方案将权重映射到这些三进制值。

除了BitLinear层之外,BitNet b1.58 2B4T还集成了几种已建立的LLM技术,例如平方ReLU激活函数、旋转位置嵌入和偏差项删除。 这些技术进一步有助于减小模型的大小并提高训练稳定性。

提高训练稳定性和效率

BitLinear层中采用的另外两种技术——激活量化和归一化——在减小模型大小和提高训练稳定性方面发挥着至关重要的作用。 激活量化降低了激活的精度,而归一化技术有助于防止激活变得太大或太小。

这些技术与1位权重的结合,使BitNet b1.58 2B4T能够更有效、更高效地进行训练,即使在大型数据集上也是如此。

训练方法

对于训练,BitNet b1.58 2B4T利用了三种关键技术:大规模预训练、监督微调和直接偏好优化。

大规模预训练

此初始阶段涉及在大量的文本和代码数据集上训练模型,使其能够学习通用的语言模式并对世界形成广泛的理解。

监督微调

在此阶段,模型在较小、更特定的数据集上进行微调,该数据集专门针对特定任务或领域。 这使模型能够将其知识和技能适应任务的特定要求。

直接偏好优化

此技术涉及训练模型以直接针对人类偏好进行优化,如通过反馈或评级表达的那样。 这有助于确保模型的输出与人类价值观和期望保持一致。

研究人员指出,未来将探索更先进的技术,例如近端策略优化或组相对策略优化,以增强数学能力和链式思维推理。

Bitnet.cpp推理库

鉴于BitNet b1.58 2B4T独特的量化方案,该模型无法与llama.cpp等标准深度学习库一起使用,并且需要专门的内核。 为了应对这一挑战,微软开发了一个开源的专用推理库bitnet.cpp。

bitnet.cpp是1位LLM(如BitNet b1.58)的官方推理框架。 它提供了一套优化的内核,支持在CPU上对1.58位模型进行快速、无损的推理,并计划在未来扩展到对NPU和GPU的支持。

此推理库对于支持在更广泛的设备和平台上部署BitNet b1.58 2B4T至关重要,使其对开发人员和研究人员更具可访问性。

未来研究方向

研究人员承认,当前的GPU硬件并未针对1位模型进行优化,并且通过结合低位运算的专用逻辑可以实现进一步的性能提升。 这表明未来的硬件架构可能会专门设计用于支持1位LLM,从而带来更高的效率和性能。

除了硬件优化之外,未来的研究方向还包括训练更大的模型、添加多语言功能和多模态集成,以及扩展上下文窗口长度。 这些进步将进一步增强BitNet b1.58 2B4T和其他1位LLM的功能和通用性。

影响和潜在影响

BitNet b1.58 2B4T的开发对AI的未来具有重大影响,尤其是在生成式AI领域。 通过证明仅使用1位权重训练高性能LLM是可能的,微软为创建更高效、更易于访问的AI系统开辟了新的可能性。

这一突破可能导致AI模型部署在更广泛的设备上,包括智能手机、物联网设备和其他资源受限的平台。 它还可以实现更节能的AI系统的开发,从而减少其对环境的影响。

此外,使用1位权重训练LLM的能力可以使为特定应用定制和个性化AI模型变得更容易。 这可能会导致开发更有效、更用户友好的AI系统,这些系统可以根据个人用户和组织的独特需求量身定制。

结论

微软的BitNet b1.58 2B4T代表着在寻求更高效、更易于访问的AI方面迈出了重要一步。 通过证明仅使用1位权重训练高性能LLM是可能的,微软挑战了传统智慧,并为AI的未来开辟了新的可能性。

随着该领域研究的不断深入,我们可以期待看到1位LLM的更多创新应用,从而创造一个AI更加普及、高效并有益于整个社会的未来。