解鎖領域專長:大型語言模型的微調、合併與能力湧現

專業化的挑戰:為技術前沿調整 AI

大型語言模型 (LLMs) 無疑徹底改變了我們與資訊互動以及自動化處理自然語言任務的方式。像 Llama 和 Mistral 這樣的巨頭,即使是開源版本,在理解和生成文本方面也展現出卓越的流暢性,其表現往往能與人類媲美。它們的能力涵蓋了從日常對話到複雜摘要的廣泛領域。然而,當涉足科學和工程等充滿專業術語的領域——例如材料科學或生物材料學——時,便會遇到獨特的障礙。

這些技術領域不僅需要一般知識;它們還要求深入、細緻的理解,能夠基於特定原理進行推理,並熟悉專業術語和數據結構。標準的 LLMs 通常基於廣泛的網路語料庫進行訓練,在面對這些需求時往往會力不從心。因此,挑戰在於領域適應 (domain adaptation):我們如何有效地將這些強大的通用模型調整為特定領域的專家助手?

僅僅輸入更多專業數據並非總是答案,也並非總是可行。從頭開始訓練這些龐然大物成本高昂得令人望而卻步,而且用於其初始預訓練的原始、龐大數據集通常無法取得。對於流行的開源模型來說尤其如此,儘管它們具有一定的透明度,但完整的配方——預訓練、微調和對齊過程中使用的確切數據混合和順序——在很大程度上仍然是專有的。研究人員和工程師需要穩健、高效的策略,為現有模型注入新的專業知識,同時關鍵地保留其在初始訓練中獲得的廣泛通用能力。這種微妙的平衡對於為科學發現和工程創新創造真正有用的 AI 工具至關重要,例如開發能夠進行多模態推理的引擎,以探索跨越不同尺度和背景的生物材料設計靈感。

描繪訓練藍圖:從預訓練到偏好優化

探索通往領域特定 LLM 專業知識的道路涉及探索多樣化的微調策略工具包。每種方法都提供了塑造模型知識和行為的不同方式。

  • 持續預訓練 (Continued Pre-Training, CPT): 此策略涉及擴展初始預訓練階段,但這次使用專注於目標領域的語料庫——例如材料科學研究論文的集合。目標是讓模型沉浸在該領域的特定語言、概念和知識結構中,使其能夠比僅透過任務特定微調更深入地吸收領域特定資訊。它為相關知識奠定了基礎。

  • 監督式微調 (Supervised Fine-Tuning, SFT): 在 CPT 之後或從基礎模型開始,SFT 直接教導模型如何執行特定任務。這是透過使用精心策劃的輸入-輸出對數據集來實現的,這些數據集通常格式化為指令和期望的回應,或與領域相關的問題和準確答案。SFT 磨練模型遵循指令、在專業背景下準確回答問題以及遵守期望輸出格式的能力。

  • 低秩適應 (Low-Rank Adaptation, LoRA): 雖然不是這裡的主要焦點,但 LoRA 代表了一種高效的替代或補充方案。LoRA 並非重新訓練整個模型,而是引入了小型、可訓練的「適配器」層。這允許以低得多的計算成本進行顯著的適應,儘管與 CPT 相比,它在整合根本性新知識的能力方面可能存在局限性。

  • 基於偏好的優化 (Preference-Based Optimization): 超越簡單的任務完成,偏好優化旨在使模型的輸出更接近人類的判斷或特定標準,如在推理中的有用性、無害性和準確性。這些方法不再僅僅依賴預定義的「正確」答案(如 SFT),而是從比較中學習。

    • 直接偏好優化 (Direct Preference Optimization, DPO): DPO 直接從成對的回應中學習,其中一個回應比另一個更受偏好(例如,由人類評估者或其他 AI 評估)。它優化模型以增加生成偏好回應的可能性,而無需單獨的獎勵模型,從而簡化了傳統的從人類反饋中進行強化學習 (RLHF) 的流程。
    • 優勢比偏好優化 (Odds Ratio Preference Optimization, ORPO): 作為一個較新的方法,ORPO 修改了優化目標,有時相較於 DPO 能產生更好的性能或穩定性,特別是在將模型對齊到領域內的特定風格或推理標準方面。

這些技術並非相互排斥;它們通常按順序或組合使用,形成複雜的訓練流程。一個常見的順序可能涉及 CPT 以建立領域知識,接著是 SFT 以實現任務熟練度,最後是 DPO 或 ORPO 以進行對齊和精煉。然而,最佳的組合和順序仍然是活躍的研究領域,特別是對於在專業科學領域實現巔峰性能而言。

超越簡單微調:模型合併的前景

雖然透過順序訓練階段精煉單一模型可以帶來顯著的改進,但另一個引人入勝的途徑已經出現:模型合併 (model merging)。這種做法涉及將兩個或多個獨立訓練的模型,並將它們的參數——它們內部的「權重」——結合起來,創建一個單一的、新的混合模型。

為什麼要嘗試這樣的融合?核心思想是協同結合父模型的優勢。想像一下,一個模型透過 CPT 和 SFT 精心訓練於材料科學文獻,而另一個通用目的的「指令 (instruct)」模型則非常擅長遵循複雜指令和進行連貫對話。將它們合併可能潛在地創造出一個既擁有深厚領域知識具備出色對話和指令遵循能力的模型。

早期的探索暗示這個過程可能不僅僅是簡單的平均。合併可能不僅僅是混合能力,還可能潛在地解鎖全新的湧現功能 (emergent functionalities)——這些能力在任一父模型中都未明確存在。這表明在合併過程中,參數之間存在高度非線性的相互作用,可能導致整體大於部分之和。如果證明有效且可控,模型合併可能代表一種強大、變革性的工具,用於推動 LLM 能力的邊界,創造出為複雜、真實世界的科學和工程挑戰量身定制的高度適應性和強大的 AI 系統。

揭示 SLERP 的力量:一種幾何化的合併方法

模型合併的有效性關鍵取決於父模型的參數如何組合。簡單的線性平均(通常稱為線性插值或 LERP)看似直觀,但往往導致次優結果甚至性能下降。這很可能是因為 LLMs 的高維參數空間並非平坦的;它具有複雜、彎曲的幾何結構。線性插值有風險遍歷此空間內的「死區」或高損失區域,從而有效地擾亂了父模型精心學習到的表示。

於是球面線性插值 (Spherical Linear Interpolation, SLERP) 應運而生。SLERP 最初是為計算機圖形學中平滑旋轉動畫而開發的,它提供了一種幾何上更為精巧的方式,透過沿著超球面表面的最短路徑在兩個點(在此案例中是兩個模型的參數向量)之間進行插值。

想像一下兩個父模型的參數集如同一個巨大球面上的兩個點。

  • LERP 會畫一條穿過球體連接這兩個點的直線。這條路徑可能不會停留在表面上,並且可能穿過代表性能不佳模型的區域。
  • SLERP 則相反,它沿著球體本身的曲面行進。這條路徑內在地尊重了參數空間的底層幾何結構。

為什麼這種球面路徑對於合併 LLMs 可能更優越?

  1. 結構保持 (Structure Preservation): 透過保持「在球面上」,SLERP 比線性路徑更有效地維持參數之間的幾何關係,從而保留了每個父模型內部學習到的結構。
  2. 避免高損失區域 (Avoiding High-Loss Regions): 彎曲路徑不太可能與參數空間中與高預測錯誤(損失)相關的區域相交。
  3. 非線性組合 (Non-Linear Combination): SLERP 的插值公式本質上是非線性的。這允許來自父模型的參數之間發生複雜的、協同的相互作用,可能解鎖代表新穎能力的組合。一個合併後的參數可能以任一父模型都無法單獨實現的方式激活特徵。
  4. 平滑過渡 (Smooth Transitions): SLERP 在父模型的狀態之間提供了數學上平滑的過渡,可能導致合併後模型具有更好的泛化能力。

因為 SLERP 尊重模型的內在幾何結構並促進非線性參數相互作用,它有潛力不僅僅是平均能力,而是以一種促進湧現特性的方式真正地融合它們。這使其成為合併旨在處理像材料科學這樣複雜領域的模型的特別有前途的候選者,在這些領域中,微妙的相互作用和細緻的理解是關鍵。

將理論付諸實踐:Llama 與 Mistral 實驗

為了嚴謹地研究這些微調和合併策略,我們使用流行的開源模型家族進行了一系列系統性的實驗:Llama 3.1 (80 億參數)Mistral (70 億參數)。目標是比較不同的訓練流程並評估 SLERP 合併的影響。

實驗設計涉及幾個關鍵步驟:

  1. 基礎模型 (Base Models): 實驗從 Llama 和 Mistral 家族的基礎「base」模型(預訓練但未經指令微調)和「instruct」版本(已經過聊天和指令遵循微調)開始。
  2. 領域語料庫 (Domain Corpus): 編譯了一個專注於材料科學的專業語料庫,來源於科學出版物和處理過的數據。
  3. 訓練流程 (Training Pipelines): 應用了各種訓練技術的組合:
    • 僅 CPT
    • CPT 後接 SFT (CPT-SFT)
    • CPT-SFT 後接 ORPO (CPT-SFT-ORPO)
    • CPT-SFT 後接 DPO (CPT-SFT-DPO)
    • 一些直接從 Instruct 模型開始的變體(例如,Instruct-CPT-SFT-DPO)。
  4. 模型合併 (Model Merging): 對於許多微調後的模型,執行了 SLERP 合併,通常將領域適應模型與同一家族對應的通用「instruct」模型合併(例如,將 CPT-SFT-DPO Llama 模型與標準 Llama 3.1 Instruct 模型合併)。
  5. 評估 (Evaluation): 所有產生的模型(合併和非合併)的性能都在一套相關的基準測試中進行了評估,這些基準旨在測試領域知識、推理能力和指令遵循能力。

跨 Llama 和 Mistral 的主要發現:

  • SLERP 合併持續提升性能: 在兩個模型家族和各種訓練流程中,透過 SLERP 合併增強的模型通常在評估基準上獲得最高準確率。這有力地支持了 SLERP 是結合模型優勢的有效技術的假設。
  • 協同效應得到證實: SLERP 合併模型的性能經常超過兩個父模型性能的簡單平均值。將實際達到的分數與這個預期平均值繪製出來,顯示出顯著的正偏差,證實了合併過程常常解鎖協同增益和湧現能力。合併後的實體顯然比其各部分之和更具能力。
  • 偏好優化增加價值: 納入偏好優化階段(DPO 或 ORPO)通常能提供額外的性能提升,特別是當與 SLERP 合併結合時。像 CPT-SFT-DPO-SLERP 或 CPT-SFT-ORPO-SLERP 這樣的策略經常是表現最佳者之一。
  • 最佳非合併策略因模型而異: 在不進行合併的情況下,表現最佳的策略在不同模型家族之間略有不同。對於 Llama 3.1,Instruct-CPT-SFT-DPO 顯示出強勁的結果,而對於 Mistral,Base-CPT-SFT 的表現與其 Instruct 對應版本相當。
  • CPT 持續時間的影響: 對 Mistral 模型的進一步分析顯示,性能通常隨著持續預訓練 (Continued Pre-Training) 的更多輪次(最多測試了五輪)而提高,特別是從 Instruct 模型開始時,這加強了在 CPT 期間進行充分領域暴露的價值。

這些結果描繪了一幅清晰的圖景:雖然順序微調很有價值,但使用 SLERP 進行策略性模型合併提供了一條強大的途徑,可以顯著增強 LLM 的性能,特別是對於專業領域,並且常常產生超越簡單聚合的能力。

深入探討:合併為何有效?

SLERP 合併的持續成功促使我們更仔細地審視其底層機制和影響因素。為什麼這種幾何方法能產生如此強大的結果,以及哪些條件能優化其有效性?

  • 非線性相互作用 (Non-Linear Interactions): 正如理論所述,SLERP 在參數空間中的非線性路徑似乎至關重要。它允許合併後的模型探索線性平均會錯過的參數組合。這些組合可以代表學習到的特徵之間的新穎相互作用,從而導致針對該領域的湧現推理或解決問題的能力。想像一下結合分別代表理解「材料強度」和「生物結構」的參數——SLERP 可能會找到一種組合,有效地代表「仿生高強度材料」,而這是任一父模型都未明確做到的。

  • 多樣性的作用 (The Role of Diversity): 父模型應該有多大的差異?分析表明存在複雜的關係。雖然極端的多樣性似乎有益,但一些相關性表明,在某些情況下(如 Llama 模型),父模型之間較高的性能多樣性可能會略微減少對後續 SFT 的依賴,也許是因為合併已經捕獲了更廣泛的能力集。這種相互作用是微妙的,並且可能取決於用於父模型的具體微調方法。

  • Base 與 Instruct 起始點 (Base vs. Instruct Starting Point): 起始模型的選擇很重要。在 Llama 實驗中,表現最佳的合併模型源自 Instruct 版本。相反,對於 Mistral,一個表現優異的模型是在進行 CPT、SFT 和合併之前從 Base 模型衍生出來的。這表明 Llama 和 Mistral 家族的架構差異或初始預訓練構成的變化會影響它們對特定微調和合併流程的反應。沒有一個普遍適用的「最佳」起始點;它需要經驗性測試。

  • CPT 中的數據質量 (Data Quality in CPT): 在持續預訓練 (Continued Pre-Training) 期間奠定的基礎至關重要。使用更大但「更嘈雜」的 CPT 數據集(包含更多格式錯誤或光學字符識別產生的偽影)進行的實驗,其性能相較於使用更小、更乾淨的數據集有所下降。這突顯了為 CPT 階段提供高質量、處理良好的領域特定數據的重要性。「垃圾進,垃圾出」的原則仍然適用。

  • 微調 SLERP 參數 (Fine-Tuning SLERP Parameters): SLERP 本身也有參數,特別是插值係數(通常表示為 ‘t’,範圍從 0 到 1),它決定了給予每個父模型的權重。此外,合併不必在所有模型層上都保持一致。實驗探索了對自註意力層與多層感知器 (MLP) 層使用不同的插值因子,甚至在模型的深度上逐步改變它。結果表明,特定的非均勻權重方案可以勝過標準的均勻方法,這表明透過仔細調整跨網絡架構的合併過程,存在進一步優化的潛力。在一個 Llama 案例中,跨層權重的簡單線性遞增被證明是有效的。

  • 正則化效應 (Regularization Effect): SLERP 可能也起到了一種正則化的作用。透過在兩個可能專業化的模型之間找到一條平滑的路徑,它可能會抑制對任一父模型訓練數據特質的過度擬合,從而導致在未見過的領域特定問題上具有更好的泛化能力。它也可能有助於緩解「災難性遺忘」,即在一個任務上進行微調會抹去先前任務的知識。

本質上,SLERP 的有效性源於其能夠智能地導航 LLM 參數空間的複雜幾何結構,促進有益的非線性相互作用,同時保留學習到的知識結構。然而,優化其使用需要仔細考慮父模型的選擇、訓練歷史、數據質量,甚至可能包括合併本身的細粒度細節。

規模重要嗎?探索較小模型的縮放效應

在 70 億和 80 億參數模型上觀察到的令人印象深刻的協同效應引出了一個自然的問題:這些由 SLERP 合併解鎖的湧現能力是否也體現在更小的語言模型中?或者是否存在一個規模閾值,低於該閾值,這種魔力就會消失?

為了研究這個問題,我們使用 SmolLM 模型系列進行了類似的實驗,特別是僅有 17 億參數的變體。這個模型顯著更小,使其適用於資源受限的環境,如移動設備或邊緣計算,但可能缺乏其較大同類模型的參數豐富性。

SmolLM 模型經歷了相同的流程:使用材料科學語料庫進行 CPT,接著是 SFT 和 DPO(對於這種較小的架構,DPO 被證明比 ORPO 更有效)。然後應用 SLERP 合併,將微調後的 SmolLM 與其基礎版本或其他變體合併。

SmolLM 的發現:

  • 微調仍然有幫助: CPT-SFT-DPO 流程確實提高了 SmolLM 模型在領域任務上的性能,相對於其原始狀態。微調過程本身是有益的,增強了其專業知識。
  • 湧現現象基本缺失: 然而,與 Llama 和 Mistral 實驗不同,SLERP 合併的 SmolLM 模型通常沒有表現出顯著的協同效應。它們的性能通常接近父模型的簡單平均值,或僅略高於平均值。在 7B/8B 模型中看到的顯著性能飛躍和湧現能力的清晰跡象都消失了。

啟示:

這種對比表明,模型規模很可能是實現 SLERP 合併產生湧現特性全部潛力的關鍵因素。較小的模型,其參數空間不那麼複雜且維度較低,可能缺乏在合併過程中發生這些強大的非線性相互作用所需的表示能力或豐富性。與較大模型相比,發現新穎、有益的參數組合的「空間」似乎受到了顯著限制。

這些結果與關於深度學習中縮放定律 (scaling laws) 的更廣泛觀察結果一致,即某些質的能力通常只有在模型達到一定規模閾值後才會出現。看來,SLERP 合併的協同力量可能是這樣一種能力,它關鍵地依賴於足夠的模型規模和複雜性。

量化收益:仔細觀察合併帶來的性能提升

雖然基準測試顯示合併模型通常整體表現最佳,但量化它們相較於其父模型究竟好多少是很有用的。具體來說,合併後的模型是否始終優於用於創建它的兩個模型中較強的那個?

為了分析這一點,我們計算了每個 SLERP 合併模型的性能偏差。該偏差定義為:

性能偏差 = 性能(合併模型) - Max(性能(父模型 1), 性能(父模型 2))

  • 正偏差(以藍色陰影顯示)意味著 SLERP 模型表現優於其最佳父模型——這是協同作用的明確證據。
  • 負偏差(以紅色顯示)意味著 SLERP 模型表現差於至少一個父模型,表明合併是有害的,或者充其量只是平均水平。

分析揭示:

在涉及 Llama 3.1 (8B) 和 Mistral (7B) 模型的大多數實驗中,性能偏差主要為正。在許多情況下,特別是對於經過良好優化的流程(例如,涉及 CPT、SFT、偏好優化和 SLERP 的流程),合併模型顯示出顯著的正偏差,表明它們顯著超越了即使是最強父模型的能力。

也存在一些情況,特別是對於優化程度較低的父模型或可能次優的合併參數,偏差略微為負或接近於零。然而,總體趨勢是明確的:策略性的 SLERP 合併經常提供真正的性能提升,超越了任一父模型單獨所能達到的水平。 這再次強調了合併不僅僅是平均,而是一個能夠綜合出更優越能力的過程。相比之下,SmolLM (1.7B) 的結果會顯示出小得多或負的偏差,這與在該規模下缺乏強烈的湧現效應是一致的。

從基準測試到腦力激盪:材料設計中的互動應用

除了量化基準測試之外,這些領域適應模型的真正價值在於它們協助完成現實世界任務的能力,例如科學推理和創意設計。為了評估這種質的方面,我們與幾個表現最佳的模型(包括合併和非合併變體)進行了互動式聊天會話。

設置包括提供一個一致的系統提示,指示模型扮演材料科學專家的角色,然後是一個旨在測試創意、跨領域推理的用戶提示。一個典型的任務涉及要求模型:

  1. 考慮兩個看似不相關的生物概念(例如,膠原蛋白的結構和葉脈的脈絡模式)。
  2. 透過結合來自這兩個概念的原理,腦力激盪出新穎的材料設計。
  3. 解釋所提出設計背後的推理。
  4. 以結構化格式(如 JSON)輸出建議,以便進行潛在的下游處理。

質性觀察:

  • 紮實的領域理解: 所有經過微調的模型都展示了對底層生物學和材料科學概念的紮實掌握,使用了適當的術語並引用了相關原理。CPT 和 SFT 階段顯然傳授了重要的領域知識。
  • 創意綜合: 這些模型通常能夠彌合不同輸入(如膠原蛋白和葉子)之間的概念鴻溝,提出創新的材料架構或功能。這展示了它們在專業領域內進行類比推理的能力。
  • 結構化輸出: 模型成功地遵守了要求結構化輸出 (JSON) 的指令,表明具有良好的指令遵循能力,特別是那些經過 SFT 和偏好優化精煉或源自 Instruct 基礎的模型。
  • 深度和清晰度的差異: 雖然所有模型都完成了核心任務,但在提供的推理深度、提出設計的新穎性和實用性,以及解釋的整體清晰度和連貫性方面出現了差異。經歷了更全面訓練流程的模型,特別是那些包含偏好優化和 SLERP 合併的模型,通常提供更豐富、更有見地、更具創意的回應。
  • 合併的影響: 合併模型通常在領域特定準確性與對話流暢性/創造力之間表現出良好的平衡,似乎將來自領域調整父模型的知識與通用 Instruct 父模型的互動技巧相結合。

這些互動式會話提供了有價值的質性證據,表明微調和合併策略轉化為在需要領域特定推理和創造力的實際、開放式任務中的切實改進。它們展示了這些量身定制的 LLMs 在材料科學等領域作為科學探索和設計構思中有價值合作者的潛力。