การปรับแต่ง การรวม และความสามารถใหม่ของ LLMs

ความท้าทายของการสร้างความเชี่ยวชาญเฉพาะทาง: การปรับ AI สำหรับพรมแดนทางเทคนิค

ปฏิเสธไม่ได้ว่า Large Language Models (LLMs) ได้ปฏิวัติวิธีที่เราโต้ตอบกับข้อมูลและทำงานอัตโนมัติที่เกี่ยวข้องกับภาษาธรรมชาติ โมเดลยักษ์ใหญ่อย่าง Llama และ Mistral แม้ในรูปแบบ open-source ก็แสดงให้เห็นถึงความคล่องแคล่วที่น่าทึ่งในการทำความเข้าใจและสร้างข้อความที่มักจะเทียบเท่ากับผลงานของมนุษย์ ความสามารถของพวกมันครอบคลุมภูมิทัศน์อันกว้างใหญ่ ตั้งแต่การสนทนาในชีวิตประจำวันไปจนถึงการสรุปที่ซับซ้อน อย่างไรก็ตาม การก้าวเข้าสู่ขอบเขตเฉพาะทางที่เต็มไปด้วยศัพท์เฉพาะของวิทยาศาสตร์และวิศวกรรม—สาขาต่างๆ เช่น วัสดุศาสตร์ หรือชีววัสดุศาสตร์ (biomateriomics)—นำเสนออุปสรรคที่ไม่เหมือนใคร

โดเมนทางเทคนิคเหล่านี้ต้องการมากกว่าความรู้ทั่วไป พวกมันต้องการความเข้าใจที่ลึกซึ้งและละเอียดอ่อน ความสามารถในการให้เหตุผลตามหลักการเฉพาะ และความคุ้นเคยกับคำศัพท์เฉพาะทางและโครงสร้างข้อมูล LLMs มาตรฐาน ซึ่งฝึกฝนจากคลังข้อมูลเว็บที่กว้างขวาง มักจะล้มเหลวเมื่อเผชิญกับความต้องการเหล่านี้ ดังนั้น ความท้าทายจึงอยู่ที่ การปรับให้เข้ากับโดเมน (domain adaptation): เราจะปรับแต่งโมเดลทั่วไปที่ทรงพลังเหล่านี้ให้กลายเป็นผู้ช่วยผู้เชี่ยวชาญในสาขาเฉพาะทางได้อย่างมีประสิทธิภาพได้อย่างไร?

การป้อนข้อมูลเฉพาะทางเพิ่มเติมเพียงอย่างเดียวไม่ใช่คำตอบเสมอไป และไม่ใช่เรื่องที่เป็นไปได้เสมอไป การฝึกฝนโมเดลขนาดมหึมาเหล่านี้ตั้งแต่ต้นนั้นมีค่าใช้จ่ายสูงมาก และชุดข้อมูลขนาดใหญ่ดั้งเดิมที่ใช้สำหรับการ pre-training เริ่มต้นมักจะไม่สามารถเข้าถึงได้ โดยเฉพาะอย่างยิ่งสำหรับโมเดล open-source ยอดนิยม ซึ่งแม้จะมีความโปร่งใสอยู่บ้าง แต่สูตรทั้งหมด—ส่วนผสมข้อมูลและลำดับที่แน่นอนที่ใช้ในระหว่างการ pre-training, fine-tuning และ alignment—ส่วนใหญ่ยังคงเป็นกรรมสิทธิ์ นักวิจัยและวิศวกรต้องการกลยุทธ์ที่แข็งแกร่งและมีประสิทธิภาพเพื่อปลูกฝังความรู้เฉพาะทางใหม่ๆ ให้กับโมเดลที่มีอยู่ ขณะเดียวกันก็ต้องรักษาความสามารถทั่วไปอันกว้างใหญ่ที่ได้รับระหว่างการฝึกฝนเริ่มต้นไว้อย่างสำคัญ การรักษาสมดุลที่ละเอียดอ่อนนี้เป็นสิ่งสำคัญยิ่งสำหรับการสร้างเครื่องมือ AI ที่มีประโยชน์อย่างแท้จริงสำหรับการค้นพบทางวิทยาศาสตร์และนวัตกรรมทางวิศวกรรม เช่น การพัฒนาเครื่องมือที่สามารถให้เหตุผลแบบหลายรูปแบบ (multimodal reasoning) เพื่อสำรวจแรงบันดาลใจในการออกแบบวัสดุชีวภาพในระดับและบริบทที่หลากหลาย

สำรวจภูมิทัศน์การฝึกสอน: จาก Pre-Training สู่ Preference Optimization

การนำทางไปสู่ความเชี่ยวชาญ LLM เฉพาะทางเกี่ยวข้องกับการสำรวจชุดเครื่องมือที่หลากหลายของกลยุทธ์ fine-tuning แต่ละแนวทางนำเสนอวิธีที่แตกต่างกันในการปรับแต่งความรู้และพฤติกรรมของโมเดล

  • Continued Pre-Training (CPT): กลยุทธ์นี้เกี่ยวข้องกับการขยายระยะ pre-training เริ่มต้น แต่คราวนี้ใช้คลังข้อมูลที่มุ่งเน้นไปที่โดเมนเป้าหมายโดยตรง—เช่น ชุดของบทความวิจัยด้านวัสดุศาสตร์ เป้าหมายคือการทำให้โมเดลซึมซับภาษา แนวคิด และโครงสร้างความรู้เฉพาะของสาขานั้นๆ ช่วยให้สามารถดูดซับข้อมูลเฉพาะทางได้ลึกซึ้งกว่าที่เป็นไปได้ด้วยการ fine-tuning เฉพาะงานเพียงอย่างเดียว มันเป็นการวางรากฐานของความรู้ที่เกี่ยวข้อง

  • Supervised Fine-Tuning (SFT): หลังจาก CPT หรือเริ่มต้นจากโมเดลพื้นฐาน SFT จะสอนโมเดลโดยตรงถึงวิธีการทำงานเฉพาะ สิ่งนี้ทำได้โดยใช้ชุดข้อมูลที่คัดสรรมาอย่างดีของคู่ input-output ซึ่งมักจะอยู่ในรูปแบบของคำสั่งและคำตอบที่ต้องการ หรือคำถามและคำตอบที่ถูกต้องที่เกี่ยวข้องกับโดเมน SFT ช่วยปรับปรุงความสามารถของโมเดลในการทำตามคำสั่ง ตอบคำถามได้อย่างแม่นยำในบริบทเฉพาะทาง และปฏิบัติตามรูปแบบผลลัพธ์ที่ต้องการ

  • Low-Rank Adaptation (LoRA): แม้ว่าจะไม่ใช่จุดสนใจหลักในที่นี้ LoRA เป็นทางเลือกหรือส่วนเสริมที่มีประสิทธิภาพ แทนที่จะฝึกโมเดลทั้งหมดใหม่ LoRA จะแนะนำชั้น ‘adapter’ ขนาดเล็กที่สามารถฝึกได้ สิ่งนี้ช่วยให้สามารถปรับเปลี่ยนได้อย่างมีนัยสำคัญด้วยต้นทุนการคำนวณที่ต่ำกว่ามาก แม้ว่าอาจมีข้อจำกัดในการบูรณาการความรู้ใหม่ๆ โดยพื้นฐานเมื่อเทียบกับ CPT

  • Preference-Based Optimization: ก้าวไปไกลกว่าการทำงานให้เสร็จสิ้น การปรับให้เหมาะสมตามความชอบ (preference optimization) มีเป้าหมายเพื่อปรับผลลัพธ์ของโมเดลให้สอดคล้องกับการตัดสินของมนุษย์หรือเกณฑ์เฉพาะ เช่น ความเป็นประโยชน์ ความไม่เป็นอันตราย และความแม่นยำในการให้เหตุผล แทนที่จะอาศัยเพียงคำตอบที่ ‘ถูกต้อง’ ที่กำหนดไว้ล่วงหน้า (เช่นใน SFT) วิธีการเหล่านี้เรียนรู้จากการเปรียบเทียบ

    • Direct Preference Optimization (DPO): DPO เรียนรู้โดยตรงจากคู่ของคำตอบที่คำตอบหนึ่งเป็นที่ต้องการมากกว่าอีกคำตอบหนึ่ง (เช่น โดยผู้ประเมินที่เป็นมนุษย์หรือ AI อื่น) มันปรับโมเดลให้เหมาะสมเพื่อเพิ่มโอกาสในการสร้างคำตอบที่ต้องการโดยไม่จำเป็นต้องมี reward model แยกต่างหาก ทำให้กระบวนการ Reinforcement Learning from Human Feedback (RLHF) แบบดั้งเดิมง่ายขึ้น
    • Odds Ratio Preference Optimization (ORPO): เป็นแนวทางที่ใหม่กว่า ORPO ปรับเปลี่ยนวัตถุประสงค์ของการปรับให้เหมาะสม บางครั้งให้ประสิทธิภาพหรือความเสถียรที่ดีขึ้นเมื่อเทียบกับ DPO โดยเฉพาะอย่างยิ่งในการปรับโมเดลให้เข้ากับรูปแบบหรือเกณฑ์การให้เหตุผลเฉพาะภายในโดเมน

เทคนิคเหล่านี้ไม่ได้แยกออกจากกัน มักจะถูกนำมาใช้ตามลำดับหรือผสมผสานกัน ก่อตัวเป็นกระบวนการฝึกที่ซับซ้อน ลำดับทั่วไปอาจเกี่ยวข้องกับ CPT เพื่อสร้างความรู้เฉพาะทาง ตามด้วย SFT เพื่อความเชี่ยวชาญในงาน และสุดท้าย DPO หรือ ORPO เพื่อการปรับแนวและการปรับปรุง อย่างไรก็ตาม การผสมผสานและลำดับที่เหมาะสมที่สุดยังคงเป็นประเด็นการวิจัยที่ดำเนินการอยู่ โดยเฉพาะอย่างยิ่งเพื่อให้ได้ประสิทธิภาพสูงสุดในโดเมนทางวิทยาศาสตร์เฉพาะทาง

เหนือกว่าการปรับแต่งแบบง่าย: ศักยภาพของการรวมโมเดล

ในขณะที่การปรับปรุงโมเดลเดียวผ่านขั้นตอนการฝึกตามลำดับสามารถให้การปรับปรุงที่สำคัญได้ แต่ก็มีอีกแนวทางหนึ่งที่น่าสนใจเกิดขึ้น: การรวมโมเดล (model merging) แนวทางปฏิบัตินี้เกี่ยวข้องกับการนำโมเดลที่ฝึกแยกกันตั้งแต่สองโมเดลขึ้นไปมารวมพารามิเตอร์—‘น้ำหนัก’ ภายใน—เพื่อสร้างโมเดลไฮบริดใหม่เพียงโมเดลเดียว

ทำไมต้องพยายามหลอมรวมเช่นนี้? แนวคิดหลักคือการรวมจุดแข็งของโมเดลแม่เข้าด้วยกันอย่างเสริมฤทธิ์ ลองนึกภาพโมเดลหนึ่งที่ฝึกฝนอย่างเชี่ยวชาญเกี่ยวกับวรรณกรรมด้านวัสดุศาสตร์ (ผ่าน CPT และ SFT) และอีกโมเดล ‘instruct’ ทั่วไปที่มีความเชี่ยวชาญสูงในการทำตามคำสั่งที่ซับซ้อนและมีส่วนร่วมในการสนทนาที่สอดคล้องกัน การรวมพวกมันเข้าด้วยกันอาจสร้างโมเดลที่มีทั้งความรู้เฉพาะทางที่ลึกซึ้ง และ ความสามารถในการสนทนาและการทำตามคำสั่งที่ยอดเยี่ยม

การสำรวจเบื้องต้นชี้ให้เห็นว่ากระบวนการนี้อาจเป็นมากกว่าการหาค่าเฉลี่ยธรรมดา แทนที่จะเป็นเพียงการผสมผสานความสามารถ การรวมอาจปลดล็อก ฟังก์ชันการทำงานใหม่ๆ ที่เกิดขึ้นเอง (emergent functionalities)—ความสามารถที่ไม่ได้มีอยู่อย่างชัดเจนในโมเดลแม่ทั้งสอง สิ่งนี้ชี้ให้เห็นถึงปฏิสัมพันธ์ที่ไม่ใช่เชิงเส้นอย่างสูงระหว่างพารามิเตอร์ในระหว่างการรวม ซึ่งอาจนำไปสู่ผลลัพธ์ที่ยิ่งใหญ่กว่าผลรวมของส่วนต่างๆ หากพิสูจน์แล้วว่ามีประสิทธิภาพและควบคุมได้ การรวมโมเดลอาจเป็นเครื่องมือที่ทรงพลังและเปลี่ยนแปลงได้สำหรับการผลักดันขอบเขตความสามารถของ LLM สร้างระบบ AI ที่ปรับเปลี่ยนได้สูงและมีศักยภาพซึ่งปรับให้เหมาะกับความท้าทายทางวิทยาศาสตร์และวิศวกรรมที่ซับซ้อนในโลกแห่งความเป็นจริง

เผยพลังของ SLERP: แนวทางเชิงเรขาคณิตสู่การรวมโมเดล

ประสิทธิภาพของการรวมโมเดลขึ้นอยู่กับ วิธี ที่พารามิเตอร์ของโมเดลแม่ถูกรวมเข้าด้วยกัน การหาค่าเฉลี่ยเชิงเส้นอย่างง่าย (มักเรียกว่า Linear Interpolation หรือ LERP) อาจดูเหมือนเป็นธรรมชาติ แต่มักจะนำไปสู่ผลลัพธ์ที่ไม่เหมาะสมหรือแม้กระทั่งทำให้ประสิทธิภาพลดลง นี่อาจเป็นเพราะปริภูมิพารามิเตอร์มิติสูงของ LLMs ไม่ได้แบนราบ มันมีรูปทรงเรขาคณิตที่ซับซ้อนและโค้งงอ การประมาณค่าเชิงเส้นเสี่ยงต่อการเดินทางผ่าน ‘โซนตาย’ หรือบริเวณที่มี loss สูงภายในปริภูมินี้ ซึ่งทำลายการแทนค่าที่เรียนรู้อย่างระมัดระวังของโมเดลแม่ได้อย่างมีประสิทธิภาพ

เข้าสู่ Spherical Linear Interpolation (SLERP) เดิมทีพัฒนาขึ้นเพื่อการเคลื่อนไหวที่ราบรื่นของการหมุนในคอมพิวเตอร์กราฟิก SLERP นำเสนอวิธีการประมาณค่าระหว่างจุดสองจุด (ในกรณีนี้คือเวกเตอร์พารามิเตอร์ของสองโมเดล) ที่ซับซ้อนทางเรขาคณิต โดยการตามเส้นทางที่สั้นที่สุดตามพื้นผิวของทรงกลมหลายมิติ (hypersphere)

ลองนึกภาพชุดพารามิเตอร์ของโมเดลแม่ทั้งสองเป็นจุดสองจุดบนพื้นผิวของทรงกลมยักษ์

  • LERP จะลากเส้นตรง ผ่าน ทรงกลมเชื่อมต่อจุดต่างๆ เส้นทางนี้อาจไม่ได้อยู่บนพื้นผิวและอาจผ่านบริเวณที่แสดงถึงโมเดลที่มีประสิทธิภาพต่ำ
  • SLERP ในทางกลับกัน เดินทางไปตามพื้นผิวโค้งของทรงกลมเอง เส้นทางนี้เคารพโครงสร้างทางเรขาคณิตพื้นฐานของปริภูมิพารามิเตอร์โดยเนื้อแท้

ทำไมเส้นทางทรงกลมนี้จึงอาจเหนือกว่าสำหรับการรวม LLMs?

  1. การรักษาโครงสร้าง (Structure Preservation): โดยการอยู่ ‘บนทรงกลม’ SLERP รักษาความสัมพันธ์ทางเรขาคณิตระหว่างพารามิเตอร์ รักษาโครงสร้างที่เรียนรู้ภายในโมเดลแม่แต่ละโมเดลได้อย่างมีประสิทธิภาพมากกว่าเส้นทางเชิงเส้น
  2. การหลีกเลี่ยงบริเวณที่มี Loss สูง: เส้นทางโค้งมีโอกาสน้อยที่จะตัดกับบริเวณของปริภูมิพารามิเตอร์ที่เกี่ยวข้องกับข้อผิดพลาดในการทำนายสูง (loss)
  3. การผสมผสานที่ไม่ใช่เชิงเส้น (Non-Linear Combination): สูตรการประมาณค่าสำหรับ SLERP นั้นไม่ใช่เชิงเส้นโดยเนื้อแท้ สิ่งนี้ช่วยให้เกิดปฏิสัมพันธ์ที่ซับซ้อนและเสริมฤทธิ์กันระหว่างพารามิเตอร์จากโมเดลแม่ ซึ่งอาจปลดล็อกการผสมผสานที่แสดงถึงความสามารถใหม่ๆ พารามิเตอร์ที่รวมกันอาจเปิดใช้งานคุณลักษณะในลักษณะที่ไม่มีโมเดลแม่ใดทำได้เพียงลำพัง
  4. การเปลี่ยนผ่านที่ราบรื่น (Smooth Transitions): SLERP ให้การเปลี่ยนผ่านที่ราบรื่นทางคณิตศาสตร์ระหว่างสถานะของโมเดลแม่ ซึ่งอาจนำไปสู่การสรุปผลที่ดีขึ้นในโมเดลที่รวมกัน

เนื่องจาก SLERP เคารพรูปทรงเรขาคณิตภายในของโมเดลและอำนวยความสะดวกในการปฏิสัมพันธ์ของพารามิเตอร์ที่ไม่ใช่เชิงเส้น จึงมีศักยภาพที่ไม่เพียงแต่หาค่าเฉลี่ยความสามารถเท่านั้น แต่ยังผสมผสานความสามารถเหล่านั้นอย่างแท้จริงในลักษณะที่ส่งเสริมคุณสมบัติที่เกิดขึ้นเอง สิ่งนี้ทำให้เป็นตัวเลือกที่มีแนวโน้มเป็นพิเศษสำหรับการรวมโมเดลที่มุ่งเป้าไปที่โดเมนที่ซับซ้อน เช่น วัสดุศาสตร์ ซึ่งปฏิสัมพันธ์ที่ละเอียดอ่อนและความเข้าใจที่ลึกซึ้งเป็นกุญแจสำคัญ

ทดสอบทฤษฎี: การทดลองกับ Llama และ Mistral

เพื่อตรวจสอบกลยุทธ์ fine-tuning และการรวมเหล่านี้อย่างเข้มงวด ได้มีการดำเนินการชุดการทดลองอย่างเป็นระบบโดยใช้ตระกูลโมเดล open-source ยอดนิยม: Llama 3.1 (8 พันล้านพารามิเตอร์) และ Mistral (7 พันล้านพารามิเตอร์) เป้าหมายคือการเปรียบเทียบกระบวนการฝึกที่แตกต่างกันและประเมินผลกระทบของการรวมแบบ SLERP

การออกแบบการทดลองเกี่ยวข้องกับขั้นตอนสำคัญหลายประการ:

  1. โมเดลพื้นฐาน (Base Models): การทดลองเริ่มต้นด้วยทั้งโมเดล ‘base’ พื้นฐาน (pre-trained แต่ยังไม่ได้ instruction-tuned) และเวอร์ชัน ‘instruct’ (fine-tuned แล้วสำหรับการแชทและการทำตามคำสั่ง) สำหรับทั้งตระกูล Llama และ Mistral
  2. คลังข้อมูลโดเมน (Domain Corpus): รวบรวมคลังข้อมูลเฉพาะทางที่เน้นด้านวัสดุศาสตร์จากสิ่งพิมพ์ทางวิทยาศาสตร์และข้อมูลที่ประมวลผลแล้ว
  3. กระบวนการฝึก (Training Pipelines): ใช้การผสมผสานเทคนิคการฝึกต่างๆ:
    • CPT เท่านั้น
    • CPT ตามด้วย SFT (CPT-SFT)
    • CPT-SFT ตามด้วย ORPO (CPT-SFT-ORPO)
    • CPT-SFT ตามด้วย DPO (CPT-SFT-DPO)
    • บางรูปแบบเริ่มต้นโดยตรงจากโมเดล Instruct (เช่น Instruct-CPT-SFT-DPO)
  4. การรวมโมเดล (Model Merging): สำหรับโมเดลที่ fine-tuned หลายตัว ได้ทำการรวมแบบ SLERP โดยทั่วไปจะรวมโมเดลที่ปรับให้เข้ากับโดเมนกับโมเดล ‘instruct’ ทั่วไปที่สอดคล้องกันจากตระกูลเดียวกัน (เช่น โมเดล Llama แบบ CPT-SFT-DPO ที่รวมกับโมเดล Llama 3.1 Instruct มาตรฐาน)
  5. การประเมินผล (Evaluation): ประเมินประสิทธิภาพของโมเดลผลลัพธ์ทั้งหมด (ทั้งแบบรวมและไม่รวม) โดยใช้ชุดเกณฑ์มาตรฐานที่เกี่ยวข้องซึ่งออกแบบมาเพื่อทดสอบความรู้เฉพาะทาง การให้เหตุผล และการทำตามคำสั่ง

ข้อค้นพบสำคัญจาก Llama และ Mistral:

  • การรวม SLERP ช่วยเพิ่มประสิทธิภาพอย่างสม่ำเสมอ: ในทั้งสองตระกูลโมเดลและกระบวนการฝึกต่างๆ โมเดลที่ปรับปรุงผ่านการรวม SLERP โดยทั่วไปได้คะแนนความแม่นยำสูงสุดในเกณฑ์มาตรฐานการประเมินผล สิ่งนี้สนับสนุนสมมติฐานอย่างยิ่งว่า SLERP เป็นเทคนิคที่มีประสิทธิภาพในการรวมจุดแข็งของโมเดล
  • ยืนยันผลกระทบเสริมฤทธิ์ (Synergistic Effects): ประสิทธิภาพของโมเดลที่รวมด้วย SLERP มักจะสูงกว่าค่าเฉลี่ยอย่างง่ายของประสิทธิภาพของโมเดลแม่ทั้งสอง การพล็อตคะแนนที่ทำได้จริงเทียบกับค่าเฉลี่ยที่คาดหวังนี้เผยให้เห็นความเบี่ยงเบนเชิงบวกอย่างมีนัยสำคัญ ยืนยันว่ากระบวนการรวมมักจะปลดล็อก ผลประโยชน์เสริมฤทธิ์และความสามารถที่เกิดขึ้นเอง หน่วยที่รวมกันแสดงให้เห็นว่ามีความสามารถมากกว่าผลรวมของส่วนต่างๆ
  • Preference Optimization เพิ่มคุณค่า: การรวมขั้นตอน preference optimization (DPO หรือ ORPO) มักจะช่วยเพิ่มประสิทธิภาพเพิ่มเติม โดยเฉพาะอย่างยิ่งเมื่อรวมกับการรวม SLERP กลยุทธ์เช่น CPT-SFT-DPO-SLERP หรือ CPT-SFT-ORPO-SLERP มักจะเป็นหนึ่งในกลุ่มที่ทำผลงานได้ดีที่สุด
  • กลยุทธ์ที่ไม่รวมที่ดีที่สุดแตกต่างกันไป: หากไม่มีการรวม กลยุทธ์ที่ทำผลงานได้ดีที่สุดจะแตกต่างกันเล็กน้อยระหว่างตระกูลโมเดล สำหรับ Llama 3.1, Instruct-CPT-SFT-DPO แสดงผลลัพธ์ที่แข็งแกร่ง ในขณะที่สำหรับ Mistral, Base-CPT-SFT ทำผลงานได้ดีเทียบเท่ากับคู่ Instruct
  • ผลกระทบของระยะเวลา CPT: การวิเคราะห์เพิ่มเติมเกี่ยวกับโมเดล Mistral แสดงให้เห็นว่าประสิทธิภาพโดยทั่วไปดีขึ้นตามจำนวน epochs ของ Continued Pre-Training ที่มากขึ้น (สูงสุดห้าครั้งที่ทดสอบ) โดยเฉพาะอย่างยิ่งเมื่อเริ่มต้นจากโมเดล Instruct ซึ่งตอกย้ำคุณค่าของการได้รับข้อมูลโดเมนที่เพียงพอในระหว่าง CPT

ผลลัพธ์เหล่านี้วาดภาพที่ชัดเจน: ในขณะที่การ fine-tuning ตามลำดับมีคุณค่า การรวมโมเดลเชิงกลยุทธ์โดยใช้ SLERP นำเสนอเส้นทางที่ทรงพลังในการเพิ่มประสิทธิภาพ LLM อย่างมีนัยสำคัญ โดยเฉพาะอย่างยิ่งสำหรับโดเมนเฉพาะทาง ซึ่งมักจะให้ความสามารถที่เหนือกว่าการรวมแบบง่ายๆ

เจาะลึก: อะไรทำให้การรวมโมเดลได้ผล?

ความสำเร็จอย่างต่อเนื่องของการรวม SLERP กระตุ้นให้พิจารณากลไกพื้นฐานและปัจจัยที่มีอิทธิพลอย่างใกล้ชิดยิ่งขึ้น เหตุใดแนวทางเชิงเรขาคณิตนี้จึงให้ผลลัพธ์ที่ทรงพลังเช่นนี้ และเงื่อนไขใดที่ปรับปรุงประสิทธิภาพให้เหมาะสมที่สุด?

  • ปฏิสัมพันธ์ที่ไม่ใช่เชิงเส้น (Non-Linear Interactions): ตามทฤษฎี เส้นทางที่ไม่ใช่เชิงเส้นของ SLERP ผ่านปริภูมิพารามิเตอร์ดูเหมือนจะมีความสำคัญ มันช่วยให้โมเดลที่รวมกันสามารถสำรวจการผสมผสานของพารามิเตอร์ที่การหาค่าเฉลี่ยเชิงเส้นจะพลาดไป การผสมผสานเหล่านี้สามารถแสดงถึงปฏิสัมพันธ์ใหม่ๆ ระหว่างคุณลักษณะที่เรียนรู้ นำไปสู่ความสามารถในการให้เหตุผลหรือการแก้ปัญหาที่เกิดขึ้นเองซึ่งปรับให้เหมาะกับโดเมน ลองนึกภาพการรวมพารามิเตอร์ที่แต่ละตัวแทนความเข้าใจเกี่ยวกับ ‘ความแข็งแรงของวัสดุ’ และ ‘โครงสร้างทางชีวภาพ’ – SLERP อาจพบการผสมผสานที่แสดงถึง ‘วัสดุความแข็งแรงสูงที่ได้แรงบันดาลใจจากชีวภาพ’ ได้อย่างมีประสิทธิภาพในลักษณะที่ไม่มีโมเดลแม่ใดทำได้อย่างชัดเจน

  • บทบาทของความหลากหลาย (The Role of Diversity): โมเดลแม่ควรแตกต่างกันแค่ไหน? การวิเคราะห์ชี้ให้เห็นถึงความสัมพันธ์ที่ซับซ้อน ในขณะที่ความหลากหลายที่สูงมากอาจดูเหมือนเป็นประโยชน์ แต่ความสัมพันธ์บางอย่างบ่งชี้ว่าในบางบริบท (เช่น โมเดล Llama) ความหลากหลายของประสิทธิภาพที่สูงขึ้นระหว่างโมเดลแม่อาจลดการพึ่งพา SFT ที่ตามมาเล็กน้อย อาจเป็นเพราะการรวมได้จับชุดความสามารถที่กว้างขึ้นแล้ว ปฏิสัมพันธ์นั้นละเอียดอ่อนและน่าจะขึ้นอยู่กับวิธีการ fine-tuning เฉพาะที่ใช้สำหรับโมเดลแม่

  • จุดเริ่มต้น Base เทียบกับ Instruct: การเลือกโมเดลเริ่มต้นมีความสำคัญ สำหรับการทดลอง Llama โมเดลที่รวมกันที่ทำผลงานได้ดีที่สุดมาจากเวอร์ชัน Instruct ในทางกลับกัน สำหรับ Mistral โมเดลที่ทำผลงานได้ดีที่สุดตัวหนึ่งมาจากโมเดล Base ก่อนที่จะผ่าน CPT, SFT และการรวม สิ่งนี้ชี้ให้เห็นว่าความแตกต่างทางสถาปัตยกรรมหรือความแปรปรวนในการแต่งหน้า pre-training เริ่มต้นของตระกูล Llama และ Mistral มีอิทธิพลต่อวิธีที่พวกมันตอบสนองต่อกระบวนการ fine-tuning และการรวมเฉพาะ ไม่ได้มีจุดเริ่มต้น ‘ดีที่สุด’ สากลเพียงจุดเดียว มันต้องมีการทดสอบเชิงประจักษ์

  • คุณภาพข้อมูลใน CPT: รากฐานที่วางไว้ในระหว่าง Continued Pre-Training มีความสำคัญอย่างยิ่ง การทดลองโดยใช้ชุดข้อมูล CPT ที่ใหญ่กว่าแต่ ‘มีสัญญาณรบกวน’ มากกว่า (มีข้อผิดพลาดในการจัดรูปแบบหรือสิ่งแปลกปลอมจากการรู้จำอักขระด้วยแสง (optical character recognition) มากกว่า) ส่งผลให้ประสิทธิภาพลดลงเมื่อเทียบกับการใช้ชุดข้อมูลที่เล็กกว่าและสะอาดกว่า สิ่งนี้ตอกย้ำความสำคัญของข้อมูลเฉพาะทางคุณภาพสูงที่ประมวลผลอย่างดีเพื่อให้ขั้นตอน CPT มีประสิทธิภาพ ขยะเข้า ขยะออก ยังคงใช้ได้

  • การปรับพารามิเตอร์ SLERP: SLERP เองก็มีพารามิเตอร์ โดยเฉพาะอย่างยิ่ง สัมประสิทธิ์การประมาณค่า (มักแสดงด้วย ‘t’ อยู่ในช่วง 0 ถึง 1) ซึ่งกำหนดว่าจะให้น้ำหนักแก่โมเดลแม่แต่ละตัวเท่าใด นอกจากนี้ การรวมไม่จำเป็นต้องสม่ำเสมอในทุกชั้นของโมเดล การทดลองสำรวจการเปลี่ยนแปลงปัจจัยการประมาณค่าที่แตกต่างกันสำหรับชั้น self-attention เทียบกับชั้น multilayer perceptron (MLP) หรือแม้กระทั่งการเปลี่ยนแปลงอย่างต่อเนื่องตามความลึกของโมเดล ผลลัพธ์แสดงให้เห็นว่ารูปแบบการถ่วงน้ำหนักที่ไม่สม่ำเสมอเฉพาะสามารถทำได้ดีกว่าแนวทางสม่ำเสมอมาตรฐาน ซึ่งชี้ให้เห็นถึงศักยภาพในการปรับให้เหมาะสมเพิ่มเติมโดยการปรับแต่งกระบวนการรวมอย่างระมัดระวังตามสถาปัตยกรรมของเครือข่าย การไล่ระดับน้ำหนักเชิงเส้นอย่างง่ายตามชั้นต่างๆ พิสูจน์แล้วว่ามีประสิทธิภาพในกรณีหนึ่งของ Llama

  • ผลกระทบการทำให้เป็นมาตรฐาน (Regularization Effect): SLERP อาจทำหน้าที่เป็นรูปแบบหนึ่งของการทำให้เป็นมาตรฐาน (regularization) ด้วยการหาเส้นทางที่ราบรื่นระหว่างโมเดลเฉพาะทางสองโมเดลที่เป็นไปได้ มันอาจกีดกันการ overfitting กับลักษณะเฉพาะของข้อมูลการฝึกของโมเดลแม่แต่ละตัว นำไปสู่การสรุปผลที่ดีขึ้นสำหรับปัญหาเฉพาะทางที่ไม่เคยเห็นมาก่อน นอกจากนี้ยังอาจช่วยลด ‘การลืมอย่างรุนแรง (catastrophic forgetting)’ ซึ่งการ fine-tuning ในงานหนึ่งจะลบความรู้จากงานก่อนหน้า

โดยสรุป ประสิทธิภาพของ SLERP เกิดจากความสามารถในการนำทางรูปทรงเรขาคณิตที่ซับซ้อนของปริภูมิพารามิเตอร์ LLM อย่างชาญฉลาด ส่งเสริมปฏิสัมพันธ์ที่ไม่ใช่เชิงเส้นที่เป็นประโยชน์ในขณะที่รักษาโครงสร้างความรู้ที่เรียนรู้ไว้ อย่างไรก็ตาม การปรับการใช้งานให้เหมาะสมที่สุดต้องพิจารณาอย่างรอบคอบเกี่ยวกับการเลือกโมเดลแม่ ประวัติการฝึก คุณภาพข้อมูล และอาจรวมถึงรายละเอียดปลีกย่อยของการรวมเองด้วย

ขนาดสำคัญหรือไม่? สำรวจผลกระทบของขนาดกับโมเดลที่เล็กกว่า

ผลกระทบเสริมฤทธิ์ที่น่าประทับใจที่สังเกตได้จากโมเดล 7 พันล้านและ 8 พันล้านพารามิเตอร์ทำให้เกิดคำถามตามธรรมชาติ: ความสามารถที่เกิดขึ้นเองเหล่านี้ที่ปลดล็อกโดยการรวม SLERP ปรากฏในโมเดลภาษาที่เล็กกว่ามากด้วยหรือไม่? หรือมีเกณฑ์ขนาดที่ต่ำกว่าซึ่งความมหัศจรรย์จะจางหายไป?

เพื่อตรวจสอบสิ่งนี้ ได้มีการดำเนินการทดลองที่คล้ายกันโดยใช้ ซีรีส์โมเดล SmolLM โดยเฉพาะอย่างยิ่งรุ่นที่มีเพียง 1.7 พันล้านพารามิเตอร์ โมเดลนี้มีขนาดเล็กกว่าอย่างมีนัยสำคัญ ทำให้เหมาะสำหรับสภาพแวดล้อมที่มีทรัพยากรจำกัด เช่น อุปกรณ์เคลื่อนที่หรือ edge computing แต่อาจขาดความสมบูรณ์ของพารามิเตอร์เมื่อเทียบกับรุ่นที่ใหญ่กว่า

โมเดล SmolLM ผ่านกระบวนการเดียวกัน: CPT ด้วยคลังข้อมูลวัสดุศาสตร์ ตามด้วย SFT และ DPO (ซึ่งพิสูจน์แล้วว่ามีประสิทธิภาพมากกว่า ORPO สำหรับสถาปัตยกรรมขนาดเล็กนี้) จากนั้นจึงใช้การรวม SLERP โดยรวม SmolLM ที่ fine-tuned เข้ากับเวอร์ชันพื้นฐานหรือรุ่นอื่นๆ

ข้อค้นพบกับ SmolLM:

  • Fine-tuning ยังคงช่วยได้: กระบวนการ CPT-SFT-DPO ได้ปรับปรุงประสิทธิภาพของโมเดล SmolLM ในงานเฉพาะทางเมื่อเทียบกับสถานะเดิม กระบวนการ fine-tuning เองมีประโยชน์ ช่วยเพิ่มพูนความรู้เฉพาะทาง
  • การเกิดขึ้นเองส่วนใหญ่หายไป: อย่างไรก็ตาม ไม่เหมือนกับการทดลอง Llama และ Mistral โมเดล SmolLM ที่รวมด้วย SLERP โดยทั่วไป ไม่ แสดงผลกระทบเสริมฤทธิ์อย่างมีนัยสำคัญ ประสิทธิภาพของพวกมันมักจะใกล้เคียงกับค่าเฉลี่ยอย่างง่ายของโมเดลแม่ หรือสูงกว่าเพียงเล็กน้อย การก้าวกระโดดด้านประสิทธิภาพอย่างมากและสัญญาณที่ชัดเจนของความสามารถที่เกิดขึ้นเองที่เห็นในโมเดล 7B/8B นั้นหายไป

นัยยะ:

ความแตกต่างนี้ชี้ให้เห็นว่า ขนาดของโมเดลน่าจะเป็นปัจจัยสำคัญ ในการตระหนักถึงศักยภาพสูงสุดของการรวม SLERP สำหรับการสร้างคุณสมบัติที่เกิดขึ้นเอง โมเดลขนาดเล็กที่มีปริภูมิพารามิเตอร์ที่ซับซ้อนน้อยกว่าและมีมิติต่ำกว่า อาจขาดความสามารถในการแทนค่าหรือความสมบูรณ์ที่จำเป็นสำหรับปฏิสัมพันธ์ที่ไม่ใช่เชิงเส้นที่มีศักยภาพเหล่านี้ที่จะเกิดขึ้นในระหว่างการรวม ‘พื้นที่’ สำหรับการค้นพบการผสมผสานพารามิเตอร์ใหม่ๆ ที่เป็นประโยชน์ดูเหมือนจะถูกจำกัดอย่างมีนัยสำคัญเมื่อเทียบกับโมเดลขนาดใหญ่

ผลลัพธ์เหล่านี้สอดคล้องกับการสังเกตการณ์ที่กว้างขึ้นเกี่ยวกับ กฎการปรับขนาด (scaling laws) ในการเรียนรู้เชิงลึก ซึ่งความสามารถเชิงคุณภาพบางอย่างมักจะเกิดขึ้นเมื่อโมเดลมีขนาดถึงเกณฑ์ที่กำหนดเท่านั้น ดูเหมือนว่าพลังเสริมฤทธิ์ของการรวม SLERP อาจเป็นหนึ่งในความสามารถดังกล่าวที่ขึ้นอยู่กับขนาดและความซับซ้อนของโมเดลที่เพียงพออย่างยิ่ง

การวัดผลประโยชน์เชิงปริมาณ: การพิจารณาประสิทธิภาพที่เพิ่มขึ้นจากการรวมโมเดล

ในขณะที่เกณฑ์มาตรฐานแสดงให้เห็นว่าโมเดลที่รวมกันมักจะทำผลงานได้ดีที่สุดโดยรวม แต่ก็มีประโยชน์ที่จะวัดปริมาณว่าพวกมันดีกว่าโมเดลแม่มากน้อยเพียงใด โดยเฉพาะอย่างยิ่ง โมเดลที่รวมกันทำผลงานได้ดีกว่าโมเดลที่ แข็งแกร่งกว่า ในสองโมเดลที่ใช้สร้างมันขึ้นมาอย่างสม่ำเสมอหรือไม่?

เพื่อวิเคราะห์สิ่งนี้ ได้คำนวณค่าเบี่ยงเบนประสิทธิภาพสำหรับโมเดลที่รวมด้วย SLERP แต่ละโมเดล ค่าเบี่ยงเบนนี้ถูกกำหนดเป็น:

ค่าเบี่ยงเบนประสิทธิภาพ = ประสิทธิภาพ(โมเดลที่รวม) - Max(ประสิทธิภาพ(โมเดลแม่ 1), ประสิทธิภาพ(โมเดลแม่ 2))

  • ค่าเบี่ยงเบนเชิงบวก (แสดงด้วยเฉดสีน้ำเงิน) หมายความว่าโมเดล SLERP ทำผลงานได้ ดีกว่า โมเดลที่ดีที่สุดของโมเดลแม่ – เป็นหลักฐานที่ชัดเจนของการเสริมฤทธิ์
  • ค่าเบี่ยงเบนเชิงลบ (แสดงด้วยสีแดง) หมายความว่าโมเดล SLERP ทำผลงานได้ แย่กว่า อย่างน้อยหนึ่งในโมเดลแม่ ซึ่งบ่งชี้ว่าการรวมนั้นส่งผลเสีย หรืออย่างดีที่สุดคือการหาค่าเฉลี่ย

การวิเคราะห์เผยให้เห็น:

ในการทดลองส่วนใหญ่ที่เกี่ยวข้องกับโมเดล Llama 3.1 (8B) และ Mistral (7B) ค่าเบี่ยงเบนประสิทธิภาพ ส่วนใหญ่เป็นบวก ในหลายกรณี โดยเฉพาะอย่างยิ่งสำหรับกระบวนการที่ปรับให้เหมาะสมอย่างดี (เช่น กระบวนการที่เกี่ยวข้องกับ CPT, SFT, preference optimization และ SLERP) โมเดลที่รวมกันแสดงค่าเบี่ยงเบนเชิงบวกอย่างมาก ซึ่งบ่งชี้ว่าพวกมันมีความสามารถเหนือกว่าโมเดลแม่ที่แข็งแกร่งที่สุดอย่างมีนัยสำคัญ

มีบางกรณี โดยเฉพาะอย่างยิ่งกับโมเดลแม่ที่ปรับให้เหมาะสมน้อยกว่า หรืออาจเป็นพารามิเตอร์การรวมที่ไม่เหมาะสม ที่ค่าเบี่ยงเบนเป็นลบเล็กน้อยหรือใกล้ศูนย์ อย่างไรก็ตาม แนวโน้มโดยรวมชัดเจน: การรวม SLERP เชิงกลยุทธ์มักจะให้การเพิ่มประสิทธิภาพอย่างแท้จริงเหนือกว่าสิ่งที่โมเดลแม่แต่ละตัวสามารถทำได้เพียงลำพัง สิ่งนี้ตอกย้ำแนวคิดที่ว่าการรวมไม่ใช่แค่การหาค่าเฉลี่ย แต่เป็นกระบวนการที่สามารถสังเคราะห์ความสามารถที่เหนือกว่าได้ ผลลัพธ์ของ SmolLM (1.7B) ในทางตรงกันข้าม จะแสดงค่าเบี่ยงเบนที่เล็กกว่ามากหรือเป็นลบ ซึ่งสอดคล้องกับการขาดผลกระทบที่เกิดขึ้นเองอย่างรุนแรงในระดับนั้น

จากเกณฑ์มาตรฐานสู่การระดมสมอง: การประยุกต์ใช้เชิงโต้ตอบในการออกแบบวัสดุ

นอกเหนือจากเกณฑ์มาตรฐานเชิงปริมาณแล้ว คุณค่าที่แท้จริงของโมเดลที่ปรับให้เข้ากับโดเมนเหล่านี้อยู่ที่ความสามารถในการช่วยเหลืองานในโลกแห่งความเป็นจริง เช่น การให้เหตุผลทางวิทยาศาสตร์และการออกแบบเชิงสร้างสรรค์ เพื่อประเมินลักษณะเชิงคุณภาพนี้ ได้มีการดำเนินการเซสชันแชทเชิงโต้ตอบกับโมเดลที่ทำผลงานได้ดีที่สุดหลายตัว (รวมถึงทั้งรุ่นที่รวมและไม่รวม)

การตั้งค่าเกี่ยวข้องกับการให้ system prompt ที่ส