专业化的挑战:为技术前沿调整 AI
大型语言模型 (LLMs) 无疑彻底改变了我们与信息互动以及自动化处理自然语言任务的方式。像 Llama 和 Mistral 这样的巨头,即使是开源版本,在理解和生成文本方面也展现出非凡的流畅性,其水平常常能与人类媲美。它们的能力覆盖了从日常对话到复杂摘要的广阔领域。然而,当涉足科学和工程等专业化、术语密集的领域——例如材料科学或生物材料组学——时,便会遇到独特的障碍。
这些技术领域需要的不仅仅是通用知识;它们要求深入、细致的理解,基于特定原理进行推理的能力,以及对专业术语和数据结构的熟悉度。标准的 LLMs通常基于广泛的网络语料库进行训练,在面对这些需求时往往力不从心。因此,挑战在于领域适应 (domain adaptation):我们如何有效地将这些强大的通用模型调整为特定领域的专家助手?
仅仅输入更多专业数据并非总是答案,也并非总是可行。从头开始训练这些庞然大物的成本高得令人望而却步,而且用于它们初始预训练的原始海量数据集通常是无法获取的。对于流行的开源模型来说尤其如此,尽管它们具有一定的透明度,但完整的配方——预训练、微调和对齐过程中使用的确切数据混合和顺序——在很大程度上仍然是专有的。研究人员和工程师需要稳健、高效的策略,为现有模型注入新的专业知识,同时关键地保留其在初始训练中获得的广泛通用能力。这种精妙的平衡对于为科学发现和工程创新创造真正有用的人工智能工具至关重要,例如开发能够进行多模态推理的引擎,以探索跨越不同尺度和背景的生物材料设计灵感。
规划训练蓝图:从预训练到偏好优化
探索通往领域特定 LLM 专业知识的路径涉及多种微调策略工具箱。每种方法都提供了塑造模型知识和行为的不同方式。
持续预训练 (Continued Pre-Training, CPT): 该策略涉及扩展初始预训练阶段,但这次使用的是专注于目标领域的语料库——例如材料科学研究论文集。目标是让模型沉浸在特定领域的语言、概念和知识结构中,使其能够比仅通过任务特定微调更深入地吸收领域特定信息。它为相关知识奠定了基础。
监督微调 (Supervised Fine-Tuning, SFT): 在 CPT 之后或从基础模型开始,SFT 直接教导模型如何执行特定任务。这是通过使用精心策划的输入-输出对数据集来实现的,这些数据集通常格式化为指令和期望的响应,或与领域相关的问题和准确答案。SFT 磨练模型遵循指令、在专业背景下准确回答问题以及遵守期望输出格式的能力。
低秩适应 (Low-Rank Adaptation, LoRA): 虽然不是本文的主要焦点,但 LoRA 代表了一种高效的替代或补充方案。LoRA 并非重新训练整个模型,而是引入了小型、可训练的’适配器’层。这允许以低得多的计算成本进行显著的适应,尽管与 CPT 相比,它在整合根本性新知识方面的能力可能有限。
基于偏好的优化 (Preference-Based Optimization): 超越简单的任务完成,偏好优化旨在使模型的输出更接近人类判断或特定标准,如帮助性、无害性和推理准确性。这些方法不是仅仅依赖预定义的’正确’答案(如 SFT),而是从比较中学习。
- 直接偏好优化 (Direct Preference Optimization, DPO): DPO 直接从成对的响应中学习,其中一个响应优于另一个(例如,由人类评估者或另一个 AI 评判)。它优化模型以增加生成偏好响应的可能性,而无需单独的奖励模型,从而简化了传统的人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF) 流程。
- 优势比偏好优化 (Odds Ratio Preference Optimization, ORPO): 作为一种较新的方法,ORPO 修改了优化目标,有时与 DPO 相比能产生更好的性能或稳定性,特别是在将模型对齐到领域内的特定风格或推理标准方面。
这些技术并非相互排斥;它们通常按顺序或组合使用,形成复杂的训练流程。一个常见的顺序可能涉及 CPT 以构建领域知识,然后是 SFT 以实现任务熟练度,最后是 DPO 或 ORPO 进行对齐和细化。然而,最佳的组合和顺序仍然是活跃的研究领域,特别是在专业科学领域实现峰值性能方面。
超越简单微调:模型合并的前景
虽然通过顺序训练阶段改进单个模型可以带来显著提升,但另一个引人入胜的途径已经出现:模型合并 (model merging)。这种做法涉及将两个或多个独立训练的模型,并将其参数——即内部的’权重’——结合起来,创建一个单一的、新的混合模型。
为什么要尝试这种融合?核心思想是协同结合父模型的优势。想象一下,一个模型通过 CPT 和 SFT 专业训练于材料科学文献,而另一个通用’指令 (instruct)’模型非常擅长遵循复杂指令和进行连贯对话。将它们合并可能潜在地创造出一个既拥有深厚领域知识 又 具备出色对话和指令遵循能力的模型。
早期的探索暗示这个过程可能不仅仅是简单的平均。合并可能不仅仅是混合能力,还可能潜在地解锁全新的涌现功能 (emergent functionalities)——这些能力在任何一个父模型中都没有明确存在。这表明在合并过程中参数之间存在高度非线性的相互作用,可能导致整体大于部分之和。如果被证明有效且可控,模型合并可能代表一种强大、变革性的工具,用于推动 LLM 能力的边界,为复杂、现实世界的科学和工程挑战量身定制高度适应性和强大的 AI 系统。
揭示 SLERP 的力量:一种几何化的合并方法
模型合并的有效性关键取决于父模型的参数如何组合。简单的线性平均(通常称为线性插值或 LERP)看似直观,但往往导致次优结果甚至性能下降。这很可能是因为 LLMs 的高维参数空间不是平坦的;它具有复杂、弯曲的几何形状。线性插值有风险穿过这个空间内的’死区’或高损失区域,从而有效地扰乱了父模型精心学习到的表示。
球面线性插值 (Spherical Linear Interpolation, SLERP) 应运而生。SLERP 最初是为计算机图形学中旋转的平滑动画而开发的,它提供了一种几何上更复杂的方法,通过沿着超球面表面的最短路径在两个点(在这种情况下是两个模型的参数向量)之间进行插值。
想象一下两个父模型的参数集是巨大球面上的两个点。
- LERP 会画一条穿过球体连接这两点的直线。这条路径可能不会停留在表面上,并且可能穿过代表性能不佳模型的区域。
- SLERP 则沿着球体本身的曲面行进。这条路径固有地尊重了参数空间的底层几何结构。
为什么这种球面路径可能更适合合并 LLMs?
- 结构保持: 通过保持’在球面上’,SLERP 比线性路径更有效地维持参数之间的几何关系,从而保留了每个父模型内部学习到的结构。
- 避免高损失区域: 弯曲路径不太可能与参数空间中与高预测错误(损失)相关的区域相交。
- 非线性组合: SLERP 的插值公式本质上是非线性的。这允许来自父模型的参数之间发生复杂的、协同的相互作用,可能解锁代表新颖能力的组合。一个合并后的参数可能以任何一个父模型都无法单独实现的方式激活特征。
- 平滑过渡: SLERP 在父模型的状态之间提供了数学上平滑的过渡,可能导致合并模型具有更好的泛化能力。
因为 SLERP 尊重模型的内在几何结构并促进非线性参数相互作用,它有潜力不仅仅是平均能力,而是以一种促进涌现特性的方式真正地融合它们。这使其成为合并面向材料科学等复杂领域模型的特别有希望的候选者,在这些领域中,微妙的相互作用和细致的理解是关键。
理论付诸实践:Llama 和 Mistral 实验
为了严格研究这些微调和合并策略,我们使用流行的开源模型系列进行了一系列系统性实验:Llama 3.1 (80 亿参数) 和 Mistral (70 亿参数)。目标是比较不同的训练流程并评估 SLERP 合并的影响。
实验设计涉及几个关键步骤:
- 基础模型: 实验从 Llama 和 Mistral 系列的基础 (base) 模型(预训练但未进行指令微调)和指令 (instruct) 版本(已为聊天和指令遵循进行微调)开始。
- 领域语料库: 编译了一个专注于材料科学的专业语料库,来源包括科学出版物和处理过的数据。
- 训练流程: 应用了各种训练技术的组合:
- 仅 CPT
- CPT 后接 SFT (CPT-SFT)
- CPT-SFT 后接 ORPO (CPT-SFT-ORPO)
- CPT-SFT 后接 DPO (CPT-SFT-DPO)
- 一些直接从 Instruct 模型开始的变体(例如,Instruct-CPT-SFT-DPO)。
- 模型合并: 对许多微调后的模型执行了 SLERP 合并,通常是将领域适应模型与同一家族对应的通用’指令’模型合并(例如,将 CPT-SFT-DPO Llama 模型与标准的 Llama 3.1 Instruct 模型合并)。
- 评估: 使用一套相关的基准测试来评估所有结果模型(合并和非合并模型)的性能,这些基准旨在测试领域知识、推理能力和指令遵循能力。
跨 Llama 和 Mistral 的主要发现:
- SLERP 合并持续提升性能: 在两个模型系列和各种训练流程中,通过 SLERP 合并增强的模型通常在评估基准上获得最高准确率。这有力地支持了 SLERP 是结合模型优势的有效技术的假设。
- 协同效应得到证实: SLERP 合并模型的性能经常超过两个父模型性能的简单平均值。将实际得分与预期平均值绘制成图表显示出显著的正偏差,证实了合并过程常常能解锁协同增益和涌现能力。合并后的实体被证明比其各部分之和更强大。
- 偏好优化增加价值: 加入偏好优化阶段(DPO 或 ORPO)通常会带来额外的性能提升,特别是与 SLERP 合并结合使用时。像 CPT-SFT-DPO-SLERP 或 CPT-SFT-ORPO-SLERP 这样的策略经常是表现最佳者之一。
- 最佳非合并策略因模型而异: 在不进行合并的情况下,表现最佳的策略在不同模型系列之间略有不同。对于 Llama 3.1,Instruct-CPT-SFT-DPO 显示出强大的结果,而对于 Mistral,Base-CPT-SFT 的表现与其 Instruct 对应版本相当。
- CPT 时长的影响: 对 Mistral 模型的进一步分析表明,性能通常随着持续预训练 (Continued Pre-Training) 的更多轮次(最多测试了五轮)而提高,特别是从 Instruct 模型开始时,这加强了 CPT 期间充分领域暴露的价值。
这些结果描绘了一幅清晰的图景:虽然顺序微调很有价值,但使用 SLERP 进行战略性模型合并提供了一条强大的途径来显著增强 LLM 性能,特别是对于专业领域,并且常常产生超越简单聚合的能力。
深入探讨:合并为何有效?
SLERP 合并的持续成功促使我们更仔细地审视其底层机制和影响因素。为什么这种几何方法能产生如此强大的结果,以及哪些条件能优化其有效性?
非线性相互作用: 正如理论所述,SLERP 在参数空间中的非线性路径似乎至关重要。它允许合并后的模型探索线性平均会错过的参数组合。这些组合可以代表学习特征之间的新颖相互作用,从而产生针对该领域的涌现推理或解决问题的能力。想象一下合并分别代表理解’材料强度’和’生物结构’的参数——SLERP 可能会找到一个组合,有效地代表’仿生高强度材料’,而这是任何一个父模型都未明确做到的。
多样性的作用: 父模型应该有多大的差异?分析表明存在复杂的关系。虽然极端的差异似乎有益,但一些相关性表明,在某些情况下(如 Llama 模型),父模型之间更高的性能多样性可能会略微减少对后续 SFT 的依赖,也许是因为合并已经捕获了更广泛的能力集。这种相互作用是微妙的,并且可能取决于用于父模型的具体微调方法。
Base 与 Instruct 起始点: 起始模型的选择很重要。在 Llama 实验中,表现最佳的合并模型源自 Instruct 版本。相反,对于 Mistral,一个表现优异的模型是在进行 CPT、SFT 和合并之前从 Base 模型派生出来的。这表明 Llama 和 Mistral 系列的架构差异或初始预训练构成的变化会影响它们对特定微调和合并流程的响应。没有一个普遍适用的’最佳’起始点;它需要经验测试。
CPT 中的数据质量: 在持续预训练 (Continued Pre-Training) 期间奠定的基础至关重要。使用更大但’更嘈杂’的 CPT 数据集(包含更多格式错误或光学字符识别产生的伪影)进行的实验导致性能低于使用更小、更干净的数据集。这强调了高质量、经过良好处理的领域特定数据对于 CPT 阶段有效性的重要性。垃圾进,垃圾出仍然适用。
微调 SLERP 参数: SLERP 本身也有参数,特别是插值系数(通常表示为 ‘t’,范围从 0 到 1),它决定了给予每个父模型的权重。此外,合并不必在所有模型层上都统一进行。实验探索了对自注意力层和多层感知器 (MLP) 层采用不同的插值因子,甚至在模型深度上逐步改变它。结果表明,特定的非均匀加权方案可以优于标准的均匀方法,这表明通过仔细调整跨网络架构的合并过程,存在进一步优化的潜力。在 Llama 的一个案例中,跨层权重的简单线性递增被证明是有效的。
正则化效应: SLERP 也可能起到一种正则化的作用。通过在两个可能专业化的模型之间找到一条平滑路径,它可能会抑制对任一父模型训练数据特质的过拟合,从而在未见过的领域特定问题上实现更好的泛化。它也可能有助于减轻’灾难性遗忘’,即在一个任务上进行微调会抹去先前任务的知识。
本质上,SLERP 的有效性源于其智能地导航 LLM 参数空间复杂几何结构的能力,促进有益的非线性相互作用,同时保留学习到的知识结构。然而,优化其使用需要仔细考虑父模型的选择、训练历史、数据质量,甚至可能包括合并本身的细粒度细节。
规模重要吗?探索小型模型的扩展效应
在 70 亿和 80 亿参数模型上观察到的令人印象深刻的协同效应提出了一个自然的问题:这些由 SLERP 合并解锁的涌现能力是否也出现在更小的语言模型中?或者是否存在一个规模阈值,低于该阈值,这种魔力就会消失?
为了研究这一点,我们使用 SmolLM 模型系列 进行了类似的实验,特别是仅有 17 亿参数 的变体。这个模型明显更小,使其适用于资源受限的环境,如移动设备或边缘计算,但可能缺乏其较大同类模型的参数丰富性。
SmolLM 模型经历了相同的流程:使用材料科学语料库进行 CPT,然后是 SFT 和 DPO(对于这种较小的架构,DPO 被证明比 ORPO 更有效)。然后应用 SLERP 合并,将微调后的 SmolLM 与其基础版本或其他变体合并。
SmolLM 的发现:
- 微调仍然有帮助: CPT-SFT-DPO 流程确实提高了 SmolLM 模型在领域任务上的性能,相对于其原始状态有所提升。微调过程本身是有益的,增强了其专业知识。
- 涌现现象基本缺失: 然而,与 Llama 和 Mistral 的实验不同,SLERP 合并的 SmolLM 模型通常没有表现出显著的协同效应。它们的性能通常接近父模型的简单平均值,或仅略高于平均值。在 7B/8B 模型中看到的显著性能飞跃和涌现能力的明显迹象都缺失了。
启示:
这种对比表明,模型规模可能是实现 SLERP 合并产生涌现特性全部潜力的关键因素。较小的模型,其参数空间不那么复杂且维度较低,可能缺乏在合并过程中发生这些强大的非线性相互作用所需的表示能力或丰富性。与较大的模型相比,发现新颖、有益的参数组合的’空间’似乎受到了显著限制。
这些结果与深度学习中关于规模定律 (scaling laws) 的更广泛观察结果一致,即某些定性能力通常只有在模型达到一定规模阈值后才会出现。看来,SLERP 合并的协同力量可能是这样一种能力,它关键地依赖于足够的模型规模和复杂性。
量化收益:仔细观察合并带来的性能提升
虽然基准测试显示合并模型通常整体表现最佳,但量化它们与其父模型相比究竟好多少是很有用的。具体来说,合并后的模型是否始终优于用于创建它的两个模型中更强的那个?
为了分析这一点,我们计算了每个 SLERP 合并模型的性能偏差。该偏差定义为:
性能偏差 = 性能(合并模型) - Max(性能(父模型 1), 性能(父模型 2))
- 正偏差(用蓝色阴影可视化)意味着 SLERP 模型表现优于其最佳父模型——这是协同作用的明确证据。
- 负偏差(用红色可视化)意味着 SLERP 模型表现差于至少一个父模型,表明合并是有害的,或者充其量只是平均水平。
分析揭示:
在涉及 Llama 3.1 (8B) 和 Mistral (7B) 模型的大多数实验中,性能偏差主要是正的。在许多情况下,特别是对于经过良好优化的流程(例如,涉及 CPT、SFT、偏好优化和 SLERP 的流程),合并模型显示出显著的正偏差,表明它们显著超越了即使是最强父模型的能力。
也存在一些情况,特别是对于优化程度较低的父模型或可能次优的合并参数,偏差略微为负或接近于零。然而,总体趋势是明确的:战略性的 SLERP 合并经常提供超越任一父模型单独所能达到的真正性能提升。 这强化了合并不仅仅是平均,而是一个能够合成更优越能力的过程的观点。相比之下,SmolLM (1.7B) 的结果会显示出小得多或负的偏差,这与在该规模下缺乏强烈的涌现效应是一致的。
从基准到头脑风暴:材料设计中的交互式应用
除了定量基准测试之外,这些领域适应模型的真正价值在于它们协助完成现实世界任务的能力,例如科学推理和创造性设计。为了评估这种定性方面,我们与几个表现最佳的模型(包括合并和非合并变体)进行了交互式聊天会话。
设置包括提供一个一致的系统提示,指示模型扮演材料科学专家的角色,然后是一个旨在测试创造性、跨领域推理的用户提示。一个典型的任务涉及要求模型:
- 考虑两个看似不相关的生物概念(例如,胶原蛋白的结构和叶脉的模式)。
- 结合这两个概念的原理,构思新颖的材料设计。
- 解释所提出设计背后的推理。
- 以结构化格式(如 JSON)输出建议,以便进行潜在的下游处理。
定性观察:
- 强大的领域理解: 所有经过微调的模型都展示了对底层生物学和材料科学概念的扎实掌握,使用了恰当的术语并引用了相关原理。CPT 和 SFT 阶段显然赋予了显著的领域知识。
- 创造性综合: 模型通常能够弥合不同输入(如胶原蛋白和叶子)之间的概念鸿沟,提出创新的材料结构或功能。这展示了它们在专业领域内进行类比推理的能力。
- 结构化输出: 模型成功地遵守了要求结构化输出 (JSON) 的指令,表明了良好的指令遵循能力,特别是对于那些通过 SFT 和偏好优化进行细化或源自 Instruct 基础的模型。
- 深度和清晰度的差异: 虽然所有模型都完成了核心任务,但在提供的推理深度、提出设计的新颖性和实用性以及解释的整体清晰度和连贯性方面出现了差异。经历了更全面训练流程的模型,特别是那些包含偏好优化和 SLERP 合并的模型,通常提供更丰富、更有见地、更具创造性的响应。
- 合并的影响: 合并模型通常在领域特定准确性和对话流畅性/创造性之间表现出良好的平衡,似乎将领域微调父模型的知识与通用 Instruct 父模型的交互技能结合了起来。
这些交互式会话提供了有价值的定性证据,表明微调和合并策略转化为在需要领域特定推理和创造力的实际、开放式任务中的切实改进。它们展示了这些量身定制的 LLMs 在材料科学等领域作为科学探索和设计构思中有价值合作者的潜力。