LLM 도메인 전문성 확보: 파인튜닝, 병합, 능력 발현

전문화의 도전: 기술 프론티어를 위한 AI 적응

대형 언어 모델(LLM)은 우리가 정보와 상호작용하고 자연어 관련 작업을 자동화하는 방식에 혁신을 가져왔습니다. Llama나 Mistral과 같은 거대 모델들은 오픈 소스 형태에서도 종종 인간의 결과물에 필적하는 놀라운 텍스트 이해 및 생성 능력을 보여줍니다. 이들의 능력은 일상 대화부터 복잡한 요약까지 광범위한 영역에 걸쳐 있습니다. 그러나 재료 과학이나 생체재료학 같은 과학 및 공학 분야의 전문 용어가 풍부한 영역으로 진입하는 것은 독특한 장애물을 제시합니다.

이러한 기술 도메인은 일반적인 지식 이상을 요구합니다. 특정 원리에 대한 깊고 미묘한 이해, 특정 원리에 대한 추론 능력, 전문 용어 및 데이터 구조에 대한 친숙함이 필요합니다. 광범위한 웹 코퍼스로 훈련된 표준 LLM은 이러한 요구 사항에 직면했을 때 종종 어려움을 겪습니다. 따라서 도전 과제는 **도메인 적응(domain adaptation)**에 있습니다. 어떻게 이 강력한 범용 모델을 효과적으로 조정하여 고도로 특화된 분야의 전문가 조수로 만들 수 있을까요?

단순히 더 많은 전문 데이터를 제공하는 것이 항상 답은 아니며, 항상 가능한 것도 아닙니다. 이러한 거대 모델을 처음부터 훈련하는 것은 엄청난 비용이 들며, 초기 사전 훈련에 사용된 방대한 원본 데이터 세트는 일반적으로 접근할 수 없습니다. 이는 특히 인기 있는 오픈 소스 모델의 경우 더욱 그렇습니다. 일부 투명성에도 불구하고 사전 훈련, 파인튜닝, 정렬 중에 사용된 정확한 데이터 혼합 및 순서와 같은 전체 레시피는 대부분 독점적으로 유지됩니다. 연구자와 엔지니어는 기존 모델에 새롭고 전문화된 지식을 주입하는 동시에 초기 훈련 중에 습득한 방대한 일반 능력을 결정적으로 보존할 수 있는 강력하고 효율적인 전략이 필요합니다. 이 섬세한 균형 작업은 다양한 규모와 맥락에 걸쳐 생물학적 재료 설계 영감을 탐색하기 위한 다중 모드 추론 엔진 개발과 같이 과학적 발견과 공학 혁신을 위한 진정으로 유용한 AI 도구를 만드는 데 가장 중요합니다.

훈련 환경 탐색: 사전 훈련부터 선호도 최적화까지

도메인 특화 LLM 전문성으로 가는 길을 탐색하는 것은 다양한 파인튜닝 전략 도구 키트를 탐색하는 것을 포함합니다. 각 접근 방식은 모델의 지식과 행동을 형성하는 다른 방법을 제공합니다.

  • 지속적 사전 훈련 (Continued Pre-Training, CPT): 이 전략은 초기 사전 훈련 단계를 확장하는 것을 포함하지만, 이번에는 재료 과학 연구 논문 모음과 같이 목표 도메인에 집중된 코퍼스를 사용합니다. 목표는 모델을 해당 분야의 특정 언어, 개념 및 지식 구조에 몰입시켜 작업별 파인튜닝만으로는 불가능한 수준으로 도메인별 정보를 더 깊이 흡수하도록 하는 것입니다. 이는 관련 지식의 기초를 다집니다.

  • 지도 파인튜닝 (Supervised Fine-Tuning, SFT): CPT 이후 또는 기본 모델에서 시작하여 SFT는 모델에게 특정 작업을 수행하는 방법을 직접 가르칩니다. 이는 종종 지침과 원하는 응답, 또는 도메인 관련 질문과 정확한 답변으로 형식화된 선별된 입력-출력 쌍 데이터 세트를 사용하여 달성됩니다. SFT는 모델이 지침을 따르고, 전문화된 맥락 내에서 질문에 정확하게 답하고, 원하는 출력 형식을 준수하는 능력을 연마합니다.

  • 저랭크 적응 (Low-Rank Adaptation, LoRA): 여기서 주요 초점은 아니지만, LoRA는 효율적인 대안 또는 보완책을 나타냅니다. 전체 모델을 재훈련하는 대신, LoRA는 작고 훈련 가능한 ‘어댑터’ 레이어를 도입합니다. 이를 통해 훨씬 낮은 계산 비용으로 상당한 적응이 가능하지만, CPT에 비해 근본적으로 새로운 지식을 얼마나 통합할 수 있는지에는 한계가 있을 수 있습니다.

  • 선호도 기반 최적화 (Preference-Based Optimization): 단순한 작업 완료를 넘어, 선호도 최적화는 모델의 출력을 인간의 판단이나 유용성, 무해성, 추론의 정확성과 같은 특정 기준에 더 가깝게 정렬하는 것을 목표로 합니다. 미리 정의된 ‘정답’(SFT에서처럼)에만 의존하는 대신, 이러한 방법은 비교를 통해 학습합니다.

    • 직접 선호도 최적화 (Direct Preference Optimization, DPO): DPO는 한 응답이 다른 응답보다 선호되는(예: 인간 평가자 또는 다른 AI에 의해) 응답 쌍에서 직접 학습합니다. 별도의 보상 모델 없이 선호되는 응답을 생성할 가능성을 높이도록 모델을 최적화하여 전통적인 인간 피드백 기반 강화 학습(RLHF) 파이프라인을 단순화합니다.
    • 승산비 선호도 최적화 (Odds Ratio Preference Optimization, ORPO): 최신 기술인 ORPO는 최적화 목표를 수정하여 때때로 DPO에 비해 향상된 성능이나 안정성을 제공하며, 특히 도메인 내 특정 스타일이나 추론 기준으로 모델을 정렬하는 데 유용합니다.

이러한 기술들은 상호 배타적이지 않습니다. 종종 순차적으로 또는 조합하여 사용되어 복잡한 훈련 파이프라인을 형성합니다. 일반적인 순서는 도메인 지식을 구축하기 위한 CPT, 작업 숙련도를 위한 SFT, 마지막으로 정렬 및 개선을 위한 DPO 또는 ORPO를 포함할 수 있습니다. 그러나 최적의 조합과 순서는 특히 전문 과학 도메인에서 최고 성능을 달성하기 위한 활발한 연구 영역으로 남아 있습니다.

단순한 튜닝을 넘어서: 모델 병합의 가능성

단일 모델을 순차적 훈련 단계를 통해 개선하는 것이 상당한 향상을 가져올 수 있지만, 또 다른 흥미로운 길이 등장했습니다: 모델 병합(model merging). 이 관행은 별도로 훈련된 두 개 이상의 모델을 가져와 그 파라미터(내부 ‘가중치’)를 결합하여 단일의 새로운 하이브리드 모델을 만드는 것을 포함합니다.

왜 이러한 융합을 시도할까요? 핵심 아이디어는 부모 모델의 강점을 시너지 효과를 내며 결합하는 것입니다. 재료 과학 문헌에 대해 전문적으로 훈련된 모델(CPT 및 SFT를 통해)과 복잡한 지침을 따르고 일관된 대화에 능숙한 다른 범용 ‘instruct’ 모델을 상상해 보십시오. 이들을 병합하면 깊은 도메인 지식 뛰어난 대화 및 지침 준수 능력을 모두 갖춘 모델을 잠재적으로 만들 수 있습니다.

초기 탐색에서는 이 과정이 단순한 평균 이상일 수 있음을 시사했습니다. 단순히 능력을 혼합하는 대신, 병합은 잠재적으로 완전히 새롭고 창발적인 기능(emergent functionalities), 즉 어느 부모 모델에도 명시적으로 존재하지 않았던 능력을 발현시킬 수 있습니다. 이는 병합 중 파라미터 간의 매우 비선형적인 상호 작용을 시사하며, 잠재적으로 부분의 합보다 더 큰 전체로 이어질 수 있습니다. 효과적이고 제어 가능함이 입증된다면, 모델 병합은 LLM 능력의 경계를 넓히고 복잡한 실제 과학 및 공학 문제에 맞춰진 매우 적응력 있고 강력한 AI 시스템을 만드는 강력하고 변혁적인 도구를 나타낼 수 있습니다.

SLERP의 힘 밝히기: 병합에 대한 기하학적 접근

모델 병합의 효과는 부모 모델의 파라미터가 어떻게 결합되는지에 결정적으로 달려 있습니다. 단순한 선형 평균화(종종 Linear Interpolation 또는 LERP라고 함)는 직관적으로 보일 수 있지만, 종종 차선의 결과를 초래하거나 심지어 성능을 저하시킵니다. 이는 LLM의 고차원 파라미터 공간이 평평하지 않고 복잡하고 구부러진 기하학적 구조를 가지고 있기 때문일 가능성이 높습니다. 선형 보간은 이 공간 내의 ‘데드 존’ 또는 고손실 영역을 통과할 위험이 있으며, 부모 모델의 신중하게 학습된 표현을 효과적으로 뒤섞을 수 있습니다.

**구면 선형 보간(Spherical Linear Interpolation, SLERP)**이 등장합니다. 원래 컴퓨터 그래픽에서 회전의 부드러운 애니메이션을 위해 개발된 SLERP는 초구 표면을 따라 최단 경로를 따라 두 점(이 경우 두 모델의 파라미터 벡터) 사이를 보간하는 기하학적으로 정교한 방법을 제공합니다.

두 부모 모델의 파라미터 세트를 거대한 구 표면 위의 두 점으로 상상해 보십시오.

  • LERP는 점들을 연결하는 구 내부를 통과하는 직선을 그립니다. 이 경로는 표면에 머무르지 않을 수 있으며 성능이 낮은 모델을 나타내는 영역을 통과할 수 있습니다.
  • SLERP는 반대로 구 자체의 곡면을 따라 이동합니다. 이 경로는 본질적으로 파라미터 공간의 기본 기하학적 구조를 존중합니다.

왜 이 구면 경로가 LLM 병합에 잠재적으로 더 우수할까요?

  1. 구조 보존: ‘구 위에’ 머무름으로써 SLERP는 파라미터 간의 기하학적 관계를 유지하여 각 부모 모델 내에서 학습된 구조를 선형 경로보다 더 효과적으로 보존합니다.
  2. 고손실 영역 회피: 곡선 경로는 높은 예측 오류(손실)와 관련된 파라미터 공간 영역과 교차할 가능성이 적습니다.
  3. 비선형 조합: SLERP의 보간 공식은 본질적으로 비선형적입니다. 이를 통해 부모 모델의 파라미터 간에 복잡하고 시너지적인 상호 작용이 가능하며, 잠재적으로 새로운 능력을 나타내는 조합을 발현시킬 수 있습니다. 병합된 파라미터는 어느 부모도 단독으로 할 수 없었던 방식으로 기능을 활성화할 수 있습니다.
  4. 부드러운 전환: SLERP는 부모 모델 상태 간의 수학적으로 부드러운 전환을 제공하여 병합된 모델에서 더 나은 일반화로 이어질 수 있습니다.

SLERP는 모델의 본질적인 기하학을 존중하고 비선형 파라미터 상호 작용을 촉진하기 때문에 단순히 능력을 평균화하는 것이 아니라 창발적 속성을 육성하는 방식으로 진정으로 혼합할 수 있는 잠재력을 가지고 있습니다. 이는 미묘한 상호 작용과 미묘한 이해가 핵심인 재료 과학과 같은 복잡한 도메인을 목표로 하는 모델 병합에 특히 유망한 후보가 됩니다.

이론 검증: Llama 및 Mistral 실험

이러한 파인튜닝 및 병합 전략을 엄격하게 조사하기 위해 인기 있는 오픈 소스 모델 제품군인 Llama 3.1 (80억 파라미터) 및 **Mistral (70억 파라미터)**을 사용하여 체계적인 일련의 실험을 수행했습니다. 목표는 다양한 훈련 파이프라인을 비교하고 SLERP 병합의 영향을 평가하는 것이었습니다.

실험 설계에는 몇 가지 주요 단계가 포함되었습니다.

  1. 기본 모델: 실험은 Llama 및 Mistral 제품군 모두에 대해 기초적인 ‘base’ 모델(사전 훈련되었지만 지침 튜닝되지 않음)과 ‘instruct’ 버전(이미 채팅 및 지침 준수를 위해 파인튜닝됨)으로 시작했습니다.
  2. 도메인 코퍼스: 과학 출판물 및 처리된 데이터에서 재료 과학에 초점을 맞춘 전문 코퍼스를 편집했습니다.
  3. 훈련 파이프라인: 다양한 훈련 기술 조합이 적용되었습니다.
    • CPT만
    • CPT 후 SFT (CPT-SFT)
    • CPT-SFT 후 ORPO (CPT-SFT-ORPO)
    • CPT-SFT 후 DPO (CPT-SFT-DPO)
    • Instruct 모델에서 직접 시작하는 일부 변형 (예: Instruct-CPT-SFT-DPO).
  4. 모델 병합: 파인튜닝된 많은 모델에 대해 SLERP 병합이 수행되었으며, 일반적으로 도메인 적응 모델을 동일한 제품군의 해당 범용 ‘instruct’ 모델과 결합했습니다(예: CPT-SFT-DPO Llama 모델을 표준 Llama 3.1 Instruct 모델과 병합).
  5. 평가: 결과로 나온 모든 모델(병합 및 비병합 모두)의 성능은 도메인 지식, 추론 및 지침 준수를 테스트하도록 설계된 관련 벤치마크 스위트에서 평가되었습니다.

Llama 및 Mistral 전반의 주요 결과:

  • SLERP 병합은 일관되게 성능 향상: 두 모델 제품군과 다양한 훈련 파이프라인 전반에 걸쳐 SLERP 병합을 통해 향상된 모델이 일반적으로 평가 벤치마크에서 가장 높은 정확도를 달성했습니다. 이는 SLERP가 모델 강점을 결합하는 효과적인 기술이라는 가설을 강력하게 뒷받침합니다.
  • 시너지 효과 확인: SLERP 병합 모델의 성능은 종종 두 부모 모델 성능의 단순 평균을 초과했습니다. 실제 달성된 점수를 이 예상 평균과 비교하여 플로팅한 결과 상당한 양의 편차가 나타났으며, 이는 병합 프로세스가 종종 시너지 이득과 창발적 능력을 발현시킨다는 것을 확인시켜 줍니다. 병합된 개체는 부분의 합보다 명백히 더 유능했습니다.
  • 선호도 최적화의 부가 가치: 선호도 최적화 단계(DPO 또는 ORPO)를 통합하면 종종 추가적인 성능 향상을 제공했으며, 특히 SLERP 병합과 결합될 때 더욱 그렇습니다. CPT-SFT-DPO-SLERP 또는 CPT-SFT-ORPO-SLERP와 같은 전략이 종종 최고 성능 모델 중 하나였습니다.
  • 최적의 비병합 전략은 다양함: 병합 없이는 최고 성능 전략이 모델 제품군 간에 약간 달랐습니다. Llama 3.1의 경우 Instruct-CPT-SFT-DPO가 강력한 결과를 보였고, Mistral의 경우 Base-CPT-SFT가 Instruct 대응 모델과 비교할 만한 성능을 보였습니다.
  • CPT 기간의 영향: Mistral 모델에 대한 추가 분석에 따르면, 특히 Instruct 모델에서 시작할 때 지속적 사전 훈련(CPT) 에포크가 많을수록(테스트된 5 에포크까지) 성능이 일반적으로 향상되어 CPT 중 충분한 도메인 노출의 가치를 강화했습니다.

이러한 결과는 명확한 그림을 그립니다. 순차적 파인튜닝이 가치 있지만, SLERP를 사용한 전략적 모델 병합은 특히 전문 도메인에 대해 LLM 성능을 크게 향상시키는 강력한 경로를 제공하며, 종종 단순한 집계를 넘어서는 능력을 산출합니다.

심층 분석: 병합이 작동하는 이유

SLERP 병합의 일관된 성공은 기본 메커니즘과 영향 요인에 대한 면밀한 조사를 촉발합니다. 왜 이 기하학적 접근 방식이 그토록 강력한 결과를 낳으며, 어떤 조건이 그 효과를 최적화할까요?

  • 비선형 상호 작용: 이론화된 바와 같이, SLERP의 파라미터 공간을 통과하는 비선형 경로는 결정적인 것으로 보입니다. 이를 통해 병합된 모델은 선형 평균화가 놓칠 수 있는 파라미터 조합을 탐색할 수 있습니다. 이러한 조합은 학습된 특징 간의 새로운 상호 작용을 나타낼 수 있으며, 도메인에 맞춰진 창발적 추론 또는 문제 해결 능력으로 이어질 수 있습니다. 개별적으로 ‘재료 강도’와 ‘생물학적 구조’ 이해를 나타내는 파라미터를 결합한다고 상상해 보십시오. SLERP는 어느 부모 모델도 명시적으로 하지 않았던 방식으로 ‘생체 모방 고강도 재료’를 효과적으로 나타내는 조합을 찾을 수 있습니다.

  • 다양성의 역할: 부모 모델은 얼마나 달라야 할까요? 분석 결과 복잡한 관계가 시사되었습니다. 극단적인 다양성이 유익해 보일 수 있지만, 일부 상관 관계는 특정 맥락(예: Llama 모델)에서 부모 간의 성능 다양성이 높을수록 후속 SFT에 대한 의존도를 약간 줄일 수 있음을 나타냈습니다. 이는 아마도 병합이 이미 더 넓은 능력 세트를 포착하기 때문일 것입니다. 상호 작용은 미묘하며 부모에 사용된 특정 파인튜닝 방법에 따라 달라질 가능성이 높습니다.

  • Base 대 Instruct 시작점: 시작 모델의 선택이 중요합니다. Llama 실험의 경우 최고 성능의 병합 모델은 Instruct 버전에서 비롯되었습니다. 반대로 Mistral의 경우 최고 성능 모델 중 하나는 CPT, SFT 및 병합을 거치기 전에 Base 모델에서 파생되었습니다. 이는 Llama 및 Mistral 제품군의 아키텍처 차이 또는 초기 사전 훈련 구성의 차이가 특정 파인튜닝 및 병합 파이프라인에 반응하는 방식에 영향을 미친다는 것을 시사합니다. 단일한 보편적인 ‘최고의’ 시작점은없으며 경험적 테스트가 필요합니다.

  • CPT의 데이터 품질: 지속적 사전 훈련(CPT) 중에 놓인 기초는 중요합니다. 더 크지만 ‘노이즈가 많은’ CPT 데이터 세트(광학 문자 인식(OCR)으로 인한 더 많은 서식 오류 또는 아티팩트 포함)를 사용한 실험은 더 작고 깨끗한 데이터 세트를 사용하는 것에 비해 성능 저하를 초래했습니다. 이는 CPT 단계가 효과적이려면 고품질의 잘 처리된 도메인별 데이터의 중요성을 강조합니다. ‘쓰레기가 들어가면 쓰레기가 나온다’는 원칙은 여전히 적용됩니다.

  • SLERP 파라미터 파인튜닝: SLERP 자체에는 파라미터가 있으며, 특히 각 부모 모델에 부여되는 가중치를 결정하는 보간 계수(종종 ‘t’로 표시되며 0에서 1까지의 범위)가 있습니다. 또한 병합이 모든 모델 레이어에 걸쳐 균일할 필요는 없습니다. 실험에서는 자기 주의(self-attention) 레이어와 다층 퍼셉트론(MLP) 레이어에 대해 보간 계수를 다르게 변경하거나 모델 깊이에 따라 점진적으로 변경하는 것을 탐색했습니다. 결과는 특정 비균일 가중치 방식이 표준 균일 접근 방식보다 성능이 우수할 수 있음을 보여주었으며, 네트워크 아키텍처 전반에 걸쳐 병합 프로세스를 신중하게 조정함으로써 추가적인 최적화 가능성을 시사했습니다. 레이어 전반에 걸친 단순한 선형 가중치 진행은 한 Llama 사례에서 효과적이었습니다.

  • 정규화 효과: SLERP는 일종의 정규화 역할을 할 수도 있습니다. 두 개의 잠재적으로 전문화된 모델 사이의 부드러운 경로를 찾음으로써 어느 부모의 훈련 데이터의 특이성에 과적합되는 것을 방지하여 보이지 않는 도메인별 문제에 대한 더 나은 일반화로 이어질 수 있습니다. 또한 한 작업에 대한 파인튜닝이 이전 작업의 지식을 지우는 ‘파국적 망각(catastrophic forgetting)’을 완화하는 데 도움이 될 수도 있습니다.

본질적으로 SLERP의 효과는 LLM 파라미터 공간의 복잡한 기하학을 지능적으로 탐색하여 학습된 지식 구조를 보존하면서 유익한 비선형 상호 작용을 촉진하는 능력에서 비롯됩니다. 그러나 그 사용을 최적화하려면 부모 모델 선택, 훈련 이력, 데이터 품질, 그리고 잠재적으로 병합 자체의 세부 사항까지 신중하게 고려해야 합니다.

크기가 중요할까? 더 작은 모델로 스케일링 효과 탐색

70억 및 80억 파라미터 모델에서 관찰된 인상적인 시너지 효과는 자연스러운 질문을 제기합니다. SLERP 병합에 의해 발현된 이러한 창발적 능력은 훨씬 작은 언어 모델에서도 나타날까요? 아니면 마법이 사라지는 규모 임계값이 있을까요?

이를 조사하기 위해 SmolLM 모델 시리즈, 특히 17억 파라미터에 불과한 변형을 사용하여 유사한 실험을 수행했습니다. 이 모델은 훨씬 작아서 모바일 장치나 엣지 컴퓨팅과 같은 자원 제약 환경에 적합하지만, 더 큰 모델의 파라미터 풍부함이 부족할 수 있습니다.

SmolLM 모델은 동일한 파이프라인을 거쳤습니다. 재료 과학 코퍼스를 사용한 CPT, 이어서 SFT 및 DPO(이 작은 아키텍처에는 ORPO보다 더 효과적임이 입증됨). 그런 다음 SLERP 병합이 적용되어 파인튜닝된 SmolLM을 기본 버전 또는 다른 변형과 결합했습니다.

SmolLM 결과:

  • 파인튜닝은 여전히 도움됨: CPT-SFT-DPO 파이프라인은 SmolLM 모델의 도메인 작업 성능을 원래 상태에 비해 향상시켰습니다. 파인튜닝 프로세스 자체는 유익했으며 전문 지식을 향상시켰습니다.
  • 창발성 거의 없음: 그러나 Llama 및 Mistral 실험과 달리 SLERP 병합된 SmolLM 모델은 일반적으로 상당한 시너지 효과를 나타내지 않았습니다. 성능은 일반적으로 부모 모델의 단순 평균에 가깝거나 약간 위에 머물렀습니다. 7B/8B 모델에서 보였던 극적인 성능 도약과 창발적 능력의 명확한 징후는 없었습니다.

시사점:

이러한 대조는 모델 규모가 창발적 속성을 생성하기 위한 SLERP 병합의 잠재력을 최대한 실현하는 데 핵심 요소일 가능성이 높다는 것을 시사합니다. 더 작고 덜 복잡하며 저차원 파라미터 공간을 가진 모델은 병합 중에 이러한 강력한 비선형 상호 작용이 발생하기에 필요한 표현 능력이나 풍부함이 부족할 수 있습니다. 새롭고 유익한 파라미터 조합을 발견할 수 있는 ‘여지’가 더 큰 모델에 비해 상당히 제한적인 것으로 보입니다.

이러한 결과는 딥 러닝의 **스케일링 법칙(scaling laws)**에 대한 광범위한 관찰과 일치합니다. 특정 질적 능력은 종종 모델이 특정 크기 임계값에 도달해야만 나타납니다. SLERP 병합의 시너지 효과는 충분한 모델 규모와 복잡성에 결정적으로 의존하는 그러한 능력 중 하나일 수 있습니다.

이득 정량화: 병합으로 인한 성능 향상 자세히 보기

벤치마크는 병합된 모델이 종종 전반적으로 최고의 성능을 보인다는 것을 보여주지만, 부모 모델과 비교하여 정확히 얼마나 더 나은지 정량화하는 것이 유용합니다. 구체적으로, 병합된 모델은 그것을 만드는 데 사용된 두 모델 중 더 강한 모델보다 일관되게 성능이 뛰어날까요?

이를 분석하기 위해 각 SLERP 병합 모델에 대한 성능 편차를 계산했습니다. 이 편차는 다음과 같이 정의되었습니다.

성능 편차 = 성능(병합 모델) - Max(성능(부모 1), 성능(부모 2))

  • 양의 편차(파란색 음영으로 시각화됨)는 SLERP 모델이 부모 중 최고보다 더 나은 성능을 보였음을 의미합니다. 이는 시너지 효과의 명확한 증거입니다.
  • 음의 편차(빨간색으로 시각화됨)는 SLERP 모델이 적어도 부모 중 하나보다 더 나쁜 성능을 보였음을 의미하며, 이는 병합이 해롭거나 기껏해야 평균화되었음을 나타냅니다.

분석 결과:

Llama 3.1 (8B) 및 Mistral (7B) 모델과 관련된 대부분의 실험에서 성능 편차는 주로 양수였습니다. 많은 경우, 특히 잘 최적화된 파이프라인(예: CPT, SFT, 선호도 최적화 및 SLERP 포함)의 경우 병합된 모델은 상당한 양의 편차를 보여 가장 강력한 부모의 능력조차 크게 능가했음을 나타냅니다.

덜 최적화된 부모 모델이나 최적이 아닌 병합 파라미터를 사용한 경우 편차가 약간 음수이거나 0에 가까운 경우가 있었습니다. 그러나 전반적인 추세는 분명했습니다. 전략적 SLERP 병합은 종종 어느 부모 모델도 단독으로 달성할 수 있는 것 이상의 진정한 성능 향상을 제공합니다. 이는 병합이 단순한 평균화가 아니라 우수한 능력을 합성할 수 있는 프로세스라는 생각을 강화합니다. 대조적으로 SmolLM (1.7B) 결과는 해당 규모에서 강력한 창발 효과가 부족하다는 점과 일치하게 훨씬 작거나 음의 편차를 보일 것입니다.

벤치마크에서 브레인스토밍까지: 재료 설계에서의 상호작용 응용

정량적 벤치마크를 넘어, 이러한 도메인 적응 모델의 진정한 가치는 과학적 추론 및 창의적 설계와 같은 실제 작업을 지원하는 능력에 있습니다. 이러한 질적 측면을 평가하기 위해 최고 성능 모델 중 일부(병합 및 비병합 변형 포함)와 상호작용 채팅 세션을 수행했습니다.

설정에는 모델에게 재료 과학 전문가 역할을 하도록 지시하는 일관된 시스템 프롬프트를 제공한 다음, 창의적이고 교차 도메인 추론을 테스트하도록 설계된 사용자 프롬프트를 제공하는 것이 포함되었습니다. 일반적인 작업은 모델에게 다음을 요청하는 것이었습니다.

  1. 겉보기에 관련 없어 보이는 두 가지 생물학적 개념(예: 콜라겐 구조와 잎의 엽맥 패턴)을 고려합니다.
  2. 두 개념의 원리를 결합하여 영감을 받은 새로운 재료 설계를 브레인스토밍합니다.
  3. 제안된 설계의 근거를 설명합니다.
  4. 잠재적인 후속 처리를 위해 제안 사항을 구조화된 형식(예: JSON)으로 출력합니다.

질적 관찰:

  • 강력한 도메인 이해: 모든 파인튜닝된 모델은 적절한 용어를 사용하고 관련 원리를 참조하면서 기본 생물학 및 재료 과학 개념에 대한 확실한 이해를 보여주었습니다. CPT 및 SFT 단계는 분명히 상당한 도메인 지식을 부여했습니다.
  • 창의적 합성: 모델은 일반적으로 관련 없는 입력(예: 콜라겐과 잎) 사이의 개념적 격차를 해소하여 혁신적인 재료 구조 또는 기능을 제안할 수 있었습니다. 이는 전문 도메인 내에서 유추적 추론을 수행하는 능력을 보여주었습니다.
  • 구조화된 출력: 모델은 구조화된 출력(JSON)을 요청하는 지침을 성공적으로 준수했으며, 특히 SFT 및 선호도 최적화로 개선되었거나 Instruct 기반에서 비롯된 모델의 경우 우수한 지침 준수 능력을 나타냈습니다.
  • 다양한 깊이와 명확성: 모든 모델이 핵심 작업을 수행했지만, 제공된 추론의 깊이, 제안된 디자인의 참신성과 실용성, 설명의 전반적인 명확성과 일관성에서 차이가 나타났습니다. 특히 선호도 최적화 및 SLERP 병합을 포함한 보다 포괄적인 훈련 파이프라인을 거친 모델은 종종 더 풍부하고 통찰력 있으며 창의적인 응답을 제공했습니다.
  • 병합의 영향: 병합된 모델은 종종 도메인별 정확성과 대화 유창성/창의성 사이의 좋은 균형을 보였으며, 도메인 튜닝된 부모의 지식과 범용 instruct 부모의 상호 작용 기술을 통합하는 것으로 보입니다.

이러한 상호작용 세션은 파인튜닝 및 병합 전략이 도메인별 추론과 창의성이 필요한 실용적이고 개방형 작업에서 실질적인 개선으로 이어진다는 귀중한 질적 증거를 제공했습니다. 이는 재료 과학과 같은 분야에서 과학적 탐구 및 설계 아이디어 구상에 있어 이러한 맞춤형 LLM이 귀중한 협력자 역할을 할 수 있는 잠재력을 보여주었습니다.