LLMの専門化:ファインチューニング、マージ、創発的能力

専門化の課題:技術的フロンティアへのAI適応

大規模言語モデル(LLM)は、私たちが情報と対話し、自然言語を含むタスクを自動化する方法に、紛れもなく革命をもたらしました。オープンソース形式であっても、LlamaやMistralのような巨大モデルは、しばしば人間のアウトプットに匹敵するテキストを理解し生成する驚くべき流暢さを示しています。その能力は、日常会話から複雑な要約まで、広大な領域に及びます。しかし、材料科学やバイオマテリオミクスのような、科学技術の専門的で専門用語が豊富な領域に足を踏み入れることは、特有のハードルを提示します。

これらの技術ドメインは、一般的な知識以上のものを要求します。それらは、深く、ニュアンスに富んだ理解、特定の原理に基づいた推論能力、そして専門用語やデータ構造への精通を必要とします。広範なウェブコーパスで訓練された標準的なLLMは、これらの要求に直面するとしばしば失敗します。したがって、課題はドメイン適応にあります。これらの強力なジェネラリストモデルを、高度に専門的な分野でエキスパートアシスタントとなるように、どのように効果的に調整できるでしょうか?

単に専門的なデータをさらに供給することが常に答えであるとは限らず、また常に実現可能であるとも限りません。これらの巨大モデルをゼロから訓練することは法外に高価であり、初期の事前訓練に使用された元の巨大なデータセットは通常アクセスできません。これは、人気のあるオープンソースモデルにおいて特に当てはまります。ある程度の透明性があるにもかかわらず、事前訓練、ファインチューニング、アライメント中に使用された正確なデータミックスやシーケンスといった完全なレシピは、大部分が依然としてプロプライエタリです。研究者やエンジニアは、既存のモデルに新しい専門知識を注入しつつ、初期訓練中に獲得した広範な一般的能力を決定的に維持するための、堅牢で効率的な戦略を必要としています。この繊細なバランス調整は、多様なスケールと文脈にわたる生物学的材料設計のインスピレーションを探求するためのマルチモーダル推論エンジンを開発するなど、科学的発見と工学的革新のための真に有用なAIツールを作成するために最も重要です。

トレーニングランドスケープの図示:事前訓練から嗜好最適化まで

ドメイン固有のLLM専門知識への道をナビゲートするには、多様なファインチューニング戦略のツールキットを探求することが含まれます。各アプローチは、モデルの知識と行動を形成するための異なる方法を提供します。

  • 継続的事前訓練 (CPT - Continued Pre-Training): この戦略は、初期の事前訓練フェーズを延長することを含みますが、今回はターゲットドメインに焦点を当てたコーパス(例えば、材料科学の研究論文のコレクション)を使用します。目標は、モデルをその分野の特定の言語、概念、知識構造に浸し、タスク固有のファインチューニングだけでは不可能なほど深くドメイン固有の情報を吸収させることです。それは関連知識の基盤を築きます。

  • 教師ありファインチューニング (SFT - Supervised Fine-Tuning): CPTの後、またはベースモデルから開始して、SFTはモデルに特定のタスクを実行する方法を直接教えます。これは、キュレーションされた入力と出力のペアのデータセットを使用して達成され、しばしば指示と望ましい応答、またはドメインに関連する質問と正確な回答としてフォーマットされます。SFTは、モデルが指示に従い、専門的な文脈内で質問に正確に答え、望ましい出力形式を遵守する能力を磨きます。

  • 低ランク適応 (LoRA - Low-Rank Adaptation): ここでの主要な焦点ではありませんが、LoRAは効率的な代替または補完策を表します。モデル全体を再訓練する代わりに、LoRAは小さく訓練可能な「アダプター」レイヤーを導入します。これにより、はるかに低い計算コストで大幅な適応が可能になりますが、CPTと比較して根本的に新しい知識をどれだけ統合できるかについては限界があるかもしれません。

  • 嗜好に基づく最適化 (Preference-Based Optimization): 単純なタスク完了を超えて、嗜好最適化は、モデルの出力を人間の判断や、有用性、無害性、推論の正確さなどの特定の基準により密接に整合させることを目指します。事前に定義された「正解」のみに依存する(SFTのように)のではなく、これらのメソッドは比較から学習します。

    • 直接嗜好最適化 (DPO - Direct Preference Optimization): DPOは、一方の応答が他方よりも好まれる(例えば、人間の評価者や別のAIによって)応答のペアから直接学習します。別の報酬モデルを必要とせずに、好ましい応答を生成する可能性を高めるようにモデルを最適化し、従来の人間フィードバックからの強化学習(RLHF)パイプラインを簡素化します。
    • オッズ比嗜好最適化 (ORPO - Odds Ratio Preference Optimization): より新しい手法であるORPOは、最適化目標を変更し、特にドメイン内の特定のスタイルや推論基準に向けてモデルを調整する際に、DPOと比較してパフォーマンスや安定性が向上することがあります。

これらの技術は相互に排他的ではありません。それらはしばしば順次または組み合わせて使用され、複雑なトレーニングパイプラインを形成します。一般的なシーケンスには、ドメイン知識を構築するためのCPT、タスク習熟のためのSFT、そして最後にアライメントと洗練のためのDPOまたはORPOが含まれる場合があります。しかし、最適な組み合わせとシーケンスは、特に専門的な科学ドメインで最高のパフォーマンスを達成するために、活発な研究分野であり続けています。

単純なチューニングを超えて:モデルマージの可能性

単一のモデルを連続的なトレーニング段階を経て洗練させることで大幅な改善が得られますが、もう一つの興味深い道筋が現れました:モデルマージです。この実践は、別々に訓練された2つ以上のモデルを取り、それらのパラメータ(内部の「重み」)を組み合わせて、単一の新しいハイブリッドモデルを作成することを含みます。

なぜそのような融合を試みるのでしょうか?中心的なアイデアは、親モデルの強みを相乗的に組み合わせることです。材料科学の文献で専門的に訓練されたモデル(CPTとSFT経由)と、複雑な指示に従い、一貫した対話を行うことに非常に長けた汎用「インストラクト」モデルを想像してみてください。それらをマージすることで、深いドメイン知識優れた会話能力および指示追従能力の両方を持つモデルを作成できる可能性があります。

初期の探求は、このプロセスが単純な平均化以上のものである可能性を示唆しました。単に能力を混ぜ合わせるだけでなく、マージは潜在的に全く新しい、創発的な機能、つまりどちらの親モデルにも明示的に存在しなかった能力を解き放つ可能性があります。これは、マージ中のパラメータ間の高度に非線形な相互作用を示唆しており、潜在的に部分の合計よりも大きな全体につながる可能性があります。効果的で制御可能であることが証明されれば、モデルマージは、LLM能力の限界を押し広げ、複雑で現実世界の科学的および工学的課題に合わせて調整された、非常に適応性が高く強力なAIシステムを作成するための、強力で変革的なツールとなる可能性があります。

SLERPの力を解き明かす:マージへの幾何学的アプローチ

モデルマージの有効性は、親モデルのパラメータがどのように組み合わされるかに決定的に依存します。単純な線形平均化(しばしば線形補間またはLERPと呼ばれる)は直感的に思えるかもしれませんが、しばしば最適ではない結果につながるか、パフォーマンスを低下させることさえあります。これは、LLMの高次元パラメータ空間が平坦ではなく、複雑で湾曲した幾何学を持っているためと考えられます。線形補間は、この空間内の「デッドゾーン」または高損失領域を通過するリスクがあり、親モデルの注意深く学習された表現を効果的に混乱させます。

そこで登場するのが**球面線形補間 (SLERP - Spherical Linear Interpolation)**です。元々はコンピュータグラフィックスにおける回転のスムーズなアニメーションのために開発されたSLERPは、超球面の表面に沿った最短経路をたどることによって、2つの点(この場合は2つのモデルのパラメータベクトル)間を補間するための幾何学的に洗練された方法を提供します。

2つの親モデルのパラメータセットを、巨大な球の表面上の2つの点として想像してください。

  • LERPは、点を結ぶ直線を球の中を通って描きます。この経路は表面上にとどまらず、パフォーマンスの低いモデルを表す領域を通過する可能性があります。
  • SLERPは、逆に、球の湾曲した表面自体に沿って移動します。この経路は、パラメータ空間の根底にある幾何学的構造を本質的に尊重します。

なぜこの球面経路がLLMのマージに優れている可能性があるのでしょうか?

  1. 構造保存: 「球面上に」とどまることにより、SLERPはパラメータ間の幾何学的関係を維持し、線形経路よりも各親モデル内の学習された構造をより効果的に保存します。
  2. 高損失領域の回避: 湾曲した経路は、高い予測誤差(損失)に関連するパラメータ空間の領域と交差する可能性が低くなります。
  3. 非線形結合: SLERPの補間式は本質的に非線形です。これにより、親モデルからのパラメータ間で複雑で相乗的な相互作用が可能になり、新しい能力を表す組み合わせを解き放つ可能性があります。マージされたパラメータは、どちらの親も単独ではできなかった方法で特徴を活性化するかもしれません。
  4. スムーズな遷移: SLERPは、親モデルの状態間の数学的にスムーズな遷移を提供し、マージされたモデルでのより良い汎化につながる可能性があります。

SLERPはモデル固有の幾何学を尊重し、非線形なパラメータ相互作用を促進するため、単に能力を平均化するだけでなく、創発的な特性を育む方法でそれらを真に融合させる可能性を秘めています。これにより、微妙な相互作用とニュアンスのある理解が鍵となる材料科学のような複雑なドメインを対象としたモデルのマージにおいて、特に有望な候補となります。

理論の実証:LlamaとMistralでの実験

これらのファインチューニングおよびマージ戦略を厳密に調査するために、人気のあるオープンソースモデルファミリーである**Llama 3.1 (80億パラメータ)Mistral (70億パラメータ)**を使用して、体系的な一連の実験が実施されました。目標は、異なるトレーニングパイプラインを比較し、SLERPマージの影響を評価することでした。

実験計画には、いくつかの重要なステップが含まれていました:

  1. ベースモデル: 実験は、LlamaとMistralの両ファミリーについて、基礎となる「ベース」モデル(事前訓練済みだが指示チューニングされていない)と「インストラクト」バージョン(チャットと指示追従のために既にファインチューニング済み)の両方から開始されました。
  2. ドメインコーパス: 材料科学に焦点を当てた専門コーパスが、科学出版物と処理済みデータから編集されました。
  3. トレーニングパイプライン: 様々なトレーニング技術の組み合わせが適用されました:
    • CPTのみ
    • CPTに続くSFT (CPT-SFT)
    • CPT-SFTに続くORPO (CPT-SFT-ORPO)
    • CPT-SFTに続くDPO (CPT-SFT-DPO)
    • Instructモデルから直接開始するいくつかのバリエーション(例:Instruct-CPT-SFT-DPO)。
  4. モデルマージ: ファインチューニングされたモデルの多くについて、SLERPマージが実行されました。通常、ドメイン適応されたモデルを、同じファミリーの対応する汎用「インストラクト」モデルと組み合わせました(例:CPT-SFT-DPO Llamaモデルを標準のLlama 3.1 Instructモデルとマージ)。
  5. 評価: 結果として得られたすべてのモデル(マージされたモデルとマージされていないモデルの両方)のパフォーマンスが、ドメイン知識、推論、指示追従をテストするために設計された関連ベンチマークスイート全体で評価されました。

LlamaとMistral全体での主な発見:

  • SLERPマージは一貫してパフォーマンスを向上させる: 両方のモデルファミリーと様々なトレーニングパイプラインにわたって、SLERPマージによって強化されたモデルは、一般的に評価ベンチマークで最高の精度を達成しました。これは、SLERPがモデルの強みを組み合わせるための効果的な技術であるという仮説を強く支持します。
  • 相乗効果の確認: SLERPマージされたモデルのパフォーマンスは、しばしば2つの親モデルのパフォーマンスの単純な平均を超えました。実際に達成されたスコアをこの期待される平均に対してプロットすると、有意な正の偏差が明らかになり、マージプロセスがしばしば相乗的な利益と創発的な能力を解き放つことを確認しました。マージされたエンティティは、その部分の合計よりも明らかに能力が高いことが実証されました。
  • 嗜好最適化は価値を追加する: 嗜好最適化ステージ(DPOまたはORPO)を組み込むことは、特にSLERPマージと組み合わせた場合に、しばしば追加のパフォーマンス向上をもたらしました。CPT-SFT-DPO-SLERPやCPT-SFT-ORPO-SLERPのような戦略は、しばしばトップパフォーマーの中にありました。
  • 最適な非マージ戦略は異なる: マージなしでは、最高のパフォーマンスを発揮する戦略はモデルファミリー間でわずかに異なりました。Llama 3.1では、Instruct-CPT-SFT-DPOが強力な結果を示しましたが、Mistralでは、Base-CPT-SFTがそのInstruct対応物と同等によく機能しました。
  • CPT期間の影響: Mistralモデルに関するさらなる分析では、特にInstructモデルから開始した場合、継続的事前訓練のエポック数が増えるにつれて(テストされた5エポックまで)、パフォーマンスが一般的に向上することが示され、CPT中の十分なドメインへの曝露の価値を裏付けました。

これらの結果は明確な像を描き出しています:連続的なファインチューニングは価値がありますが、SLERPを使用した戦略的なモデルマージは、特に専門ドメインにおいてLLMのパフォーマンスを大幅に向上させる強力な経路を提供し、しばしば単純な集約を超えた能力をもたらします。

深掘り:マージが機能する理由

SLERPマージの一貫した成功は、根底にあるメカニズムと影響要因をより詳しく調べることを促します。なぜこの幾何学的なアプローチはこれほど強力な結果を生み出すのでしょうか?そして、どのような条件がその有効性を最適化するのでしょうか?

  • 非線形相互作用: 理論化されたように、SLERPのパラメータ空間を通る非線形経路は重要であるように見えます。これにより、マージされたモデルは、線形平均化が見逃すであろうパラメータの組み合わせを探求することができます。これらの組み合わせは、学習された特徴間の新しい相互作用を表し、ドメインに合わせて調整された創発的な推論や問題解決能力につながる可能性があります。「材料強度」と「生物学的構造」を個別に理解することを表すパラメータを組み合わせることを想像してみてください。SLERPは、どちらの親モデルも明示的に行わなかった方法で、「バイオインスパイアード高強度材料」を効果的に表す組み合わせを見つけるかもしれません。

  • 多様性の役割: 親モデルはどの程度異なるべきでしょうか?分析は複雑な関係を示唆しました。極端な多様性が有益に見えるかもしれませんが、いくつかの相関関係は、特定の文脈(Llamaモデルなど)では、親間のパフォーマンスの多様性が高いと、後続のSFTへの依存がわずかに減少する可能性があることを示しました。これはおそらく、マージがすでにより広範な能力セットを捉えているためです。相互作用は微妙であり、親に使用された特定のファインチューニング方法に依存する可能性があります。

  • ベース vs インストラクト開始点: 開始モデルの選択は重要です。Llamaの実験では、最高のパフォーマンスを発揮したマージモデルはInstructバージョンから派生しました。逆に、Mistralでは、トップパフォーマーの1つは、CPT、SFT、およびマージを受ける前にBaseモデルから派生しました。これは、LlamaとMistralファミリーの初期の事前訓練構成におけるアーキテクチャの違いやバリエーションが、特定のファインチューニングおよびマージパイプラインにどのように応答するかに影響を与えることを示唆しています。単一の普遍的な「最良の」開始点はありません。経験的なテストが必要です。

  • CPTにおけるデータ品質: 継続的事前訓練中に築かれた基盤は重要です。より大きく「ノイズの多い」CPTデータセット(より多くのフォーマットエラーや光学文字認識からのアーティファクトを含む)を使用した実験では、より小さくクリーンなデータセットを使用した場合と比較してパフォーマンスが低下しました。これは、CPTステージが効果的であるためには、高品質で適切に処理されたドメイン固有のデータの重要性を強調しています。「ゴミを入力すれば、ゴミが出力される」は依然として当てはまります。

  • SLERPパラメータの微調整: SLERP自体にもパラメータがあり、特に各親モデルに与えられる重みを決定する補間係数(しばしば’t’と表記され、0から1の範囲)があります。さらに、マージはすべてのモデルレイヤーで均一である必要はありません。実験では、自己注意レイヤーと多層パーセプトロン(MLP)レイヤーで補間係数を異なって変化させたり、モデルの深さを通して段階的に変化させたりすることが探求されました。結果は、特定の不均一な重み付けスキームが標準的な均一アプローチを上回る可能性があることを示し、ネットワークのアーキテクチャ全体でマージプロセスを注意深く調整することによるさらなる最適化の可能性を示唆しています。レイヤー全体での重みの単純な線形進行は、あるLlamaのケースで効果的であることが証明されました。

  • 正則化効果: SLERPは正則化の一形態としても機能する可能性があります。2つの潜在的に専門化されたモデル間のスムーズな経路を見つけることにより、どちらかの親のトレーニングデータの特異性への過剰適合を抑制し、未知のドメイン固有の問題に対するより良い汎化につながる可能性があります。また、あるタスクでのファインチューニングが以前のタスクからの知識を消去してしまう「壊滅的忘却」を軽減するのにも役立つかもしれません。

本質的に、SLERPの有効性は、LLMパラメータ空間の複雑な幾何学をインテリジェントにナビゲートし、学習された知識構造を維持しながら有益な非線形相互作用を促進する能力に由来します。しかし、その使用を最適化するには、親モデルの選択、トレーニング履歴、データ品質、そして潜在的にはマージ自体の詳細な検討が必要です。

サイズは重要か?小規模モデルでのスケーリング効果の探求

70億および80億パラメータモデルで観察された印象的な相乗効果は、自然な疑問を提起します:SLERPマージによって解き放たれたこれらの創発的な能力は、はるかに小さな言語モデルでも現れるのでしょうか?それとも、魔法が消えるスケールの閾値があるのでしょうか?

これを調査するために、SmolLMモデルシリーズ、具体的にはわずか17億パラメータのバリアントを使用して同様の実験が行われました。このモデルは大幅に小さく、モバイルデバイスやエッジコンピューティングのようなリソースに制約のある環境に適していますが、より大きなモデルのパラメータの豊富さに欠ける可能性があります。

SmolLMモデルは同じパイプラインを経ました:材料科学コーパスを用いたCPT、それに続くSFTとDPO(この小さなアーキテクチャではORPOよりも効果的であることが証明されました)。その後、SLERPマージが適用され、ファインチューニングされたSmolLMとそのベースバージョンまたは他のバリアントが組み合わされました。

SmolLMでの発見:

  • ファインチューニングは依然として役立つ: CPT-SFT-DPOパイプラインは、SmolLMモデルのドメインタスクにおけるパフォーマンスを元の状態と比較して改善しました。ファインチューニングプロセス自体は有益であり、その専門知識を強化しました。
  • 創発はほとんど見られない: しかし、LlamaとMistralの実験とは異なり、SLERPマージされたSmolLMモデルは一般的に顕著な相乗効果を示しませんでした。それらのパフォーマンスは通常、親モデルの単純な平均に近いか、わずかに上回る程度でした。7B/8Bモデルで見られた劇的なパフォーマンスの飛躍と創発的な能力の明確な兆候は欠けていました。

示唆:

この対照は、モデルスケールが創発的な特性を生み出すためのSLERPマージの可能性を最大限に引き出す上で、おそらく重要な要因であることを示唆しています。より小さく、より単純で低次元のパラメータ空間を持つモデルは、マージ中にこれらの強力な非線形相互作用が発生するために必要な表現能力や豊かさを欠いている可能性があります。新しい有益なパラメータの組み合わせを発見するための「余地」は、より大きなモデルと比較して大幅に制約されているように見えます。

これらの結果は、深層学習におけるスケーリング則に関する広範な観察と一致しており、特定の質的な能力はしばしばモデルがあるサイズの閾値に達して初めて現れます。SLERPマージの相乗的な力は、十分なモデルスケールと複雑さに決定的に依存するそのような能力の1つであるように思われます。

ゲインの定量化:マージによるパフォーマンス向上を詳しく見る

ベンチマークはマージされたモデルがしばしば全体的に最高のパフォーマンスを発揮することを示していますが、それらが親と比較してどれだけ優れているかを正確に定量化することは有用です。具体的には、マージされたモデルは、それを作成するために使用された2つのモデルのうちより強力なモデルさえも一貫して上回るのでしょうか?

これを分析するために、各SLERPマージモデルについてパフォーマンス偏差が計算されました。この偏差は次のように定義されました:

パフォーマンス偏差 = パフォーマンス(マージモデル) - Max(パフォーマンス(親1), パフォーマンス(親2))

  • 正の偏差(青色の濃淡で視覚化)は、SLERPモデルがその親の最良のものよりも優れたパフォーマンスを発揮したことを意味します – 相乗効果の明確な証拠です。
  • 負の偏差(赤色で視覚化)は、SLERPモデルが少なくとも一方の親よりも劣ったパフォーマンスを発揮したことを意味し、マージが悪影響を及ぼしたか、せいぜい平均化であったことを示します。

分析が明らかにしたこと:

Llama 3.1 (8B) および Mistral (7B) モデルを含む実験の大部分において、パフォーマンス偏差は主に正でした。多くの場合、特に最適化されたパイプライン(例:CPT、SFT、嗜好最適化、SLERPを含むもの)では、マージされたモデルは実質的な正の偏差を示し、それらが最も強力な親の能力さえも大幅に上回ったことを示しました。

最適化されていない親モデルや、おそらく最適ではないマージパラメータを用いた場合など、偏差がわずかに負またはゼロに近いインスタンスもありました。しかし、全体的な傾向は明らかでした:戦略的なSLERPマージは、しばしばどちらの親モデルも単独では達成できなかったパフォーマンスの真の向上を提供します。 これは、マージが単なる平均化ではなく、優れた能力を合成できるプロセスであるという考えを補強します。対照的に、SmolLM (1.7B) の結果は、そのスケールでの強力な創発効果の欠如と一致して、はるかに小さいか負の偏差を示すでしょう。

ベンチマークからブレインストーミングへ:材料設計におけるインタラクティブな応用

定量的なベンチマークを超えて、これらのドメイン適応モデルの真の価値は、科学的推論や創造的デザインなどの実世界のタスクを支援する能力にあります。この定性的な側面を評価するために、トップパフォーマンスを発揮したいくつかのモデル(マージされたバリアントとマージされていないバリアントの両方を含む)とのインタラクティブなチャットセッションが実施されました。

セットアップには、モデルに材料科学の専門家として振る舞うように指示する一貫したシステムプロンプトを提供し、その後、創造的で分野横断的な推論をテストするために設計されたユーザープロンプトが続きました。典型的なタスクには、モデルに次のことを依頼することが含まれていました:

  1. 一見異質に見える2つの生物学的概念(例:コラーゲンの構造と葉の葉脈パターン)を考慮する。
  2. 両方の概念からの原理を組み合わせることに触発された、新しい材料設計をブレインストーミングする。
  3. 提案された設計の背後にある推論を説明する。
  4. 潜在的な下流処理のために、提案を構造化された形式(JSONなど)で出力する。

定性的観察:

  • 強力なドメイン理解: ファインチューニングされたすべてのモデルは、適切な専門用語を使用し、関連する原理を参照して、根底にある生物学的および材料科学的概念をしっかりと把握していることを示しました。CPTおよびSFTステージは、明らかに重要なドメイン知識を付与しました。
  • 創造的統合: モデルは一般的に、異質な入力(コラーゲンと葉など)間の概念的なギャップを埋め、革新的な材料アーキテクチャや機能を提案することができました。これは、専門ドメイン内での類推的推論を実行する能力を示しました。
  • 構造化出力: モデルは、構造化出力(JSON)を要求する指示に成功裏に従いました。これは、特にSFTと嗜好最適化で洗練されたモデルやInstructベース