ความท้าทายของการสร้างความเชี่ยวชาญเฉพาะทาง: การปรับ AI สำหรับพรมแดนทางเทคนิค
ปฏิเสธไม่ได้ว่า Large Language Models (LLMs) ได้ปฏิวัติวิธีที่เราโต้ตอบกับข้อมูลและทำงานอัตโนมัติที่เกี่ยวข้องกับภาษาธรรมชาติ โมเดลยักษ์ใหญ่อย่าง Llama และ Mistral แม้ในรูปแบบ open-source ก็แสดงให้เห็นถึงความคล่องแคล่วที่น่าทึ่งในการทำความเข้าใจและสร้างข้อความที่มักจะเทียบเท่ากับผลงานของมนุษย์ ความสามารถของพวกมันครอบคลุมภูมิทัศน์อันกว้างใหญ่ ตั้งแต่การสนทนาในชีวิตประจำวันไปจนถึงการสรุปที่ซับซ้อน อย่างไรก็ตาม การก้าวเข้าสู่ขอบเขตเฉพาะทางที่เต็มไปด้วยศัพท์เฉพาะของวิทยาศาสตร์และวิศวกรรม—สาขาต่างๆ เช่น วัสดุศาสตร์ หรือชีววัสดุศาสตร์ (biomateriomics)—นำเสนออุปสรรคที่ไม่เหมือนใคร
โดเมนทางเทคนิคเหล่านี้ต้องการมากกว่าความรู้ทั่วไป พวกมันต้องการความเข้าใจที่ลึกซึ้งและละเอียดอ่อน ความสามารถในการให้เหตุผลตามหลักการเฉพาะ และความคุ้นเคยกับคำศัพท์เฉพาะทางและโครงสร้างข้อมูล LLMs มาตรฐาน ซึ่งฝึกฝนจากคลังข้อมูลเว็บที่กว้างขวาง มักจะล้มเหลวเมื่อเผชิญกับความต้องการเหล่านี้ ดังนั้น ความท้าทายจึงอยู่ที่ การปรับให้เข้ากับโดเมน (domain adaptation): เราจะปรับแต่งโมเดลทั่วไปที่ทรงพลังเหล่านี้ให้กลายเป็นผู้ช่วยผู้เชี่ยวชาญในสาขาเฉพาะทางได้อย่างมีประสิทธิภาพได้อย่างไร?
การป้อนข้อมูลเฉพาะทางเพิ่มเติมเพียงอย่างเดียวไม่ใช่คำตอบเสมอไป และไม่ใช่เรื่องที่เป็นไปได้เสมอไป การฝึกฝนโมเดลขนาดมหึมาเหล่านี้ตั้งแต่ต้นนั้นมีค่าใช้จ่ายสูงมาก และชุดข้อมูลขนาดใหญ่ดั้งเดิมที่ใช้สำหรับการ pre-training เริ่มต้นมักจะไม่สามารถเข้าถึงได้ โดยเฉพาะอย่างยิ่งสำหรับโมเดล open-source ยอดนิยม ซึ่งแม้จะมีความโปร่งใสอยู่บ้าง แต่สูตรทั้งหมด—ส่วนผสมข้อมูลและลำดับที่แน่นอนที่ใช้ในระหว่างการ pre-training, fine-tuning และ alignment—ส่วนใหญ่ยังคงเป็นกรรมสิทธิ์ นักวิจัยและวิศวกรต้องการกลยุทธ์ที่แข็งแกร่งและมีประสิทธิภาพเพื่อปลูกฝังความรู้เฉพาะทางใหม่ๆ ให้กับโมเดลที่มีอยู่ ขณะเดียวกันก็ต้องรักษาความสามารถทั่วไปอันกว้างใหญ่ที่ได้รับระหว่างการฝึกฝนเริ่มต้นไว้อย่างสำคัญ การรักษาสมดุลที่ละเอียดอ่อนนี้เป็นสิ่งสำคัญยิ่งสำหรับการสร้างเครื่องมือ AI ที่มีประโยชน์อย่างแท้จริงสำหรับการค้นพบทางวิทยาศาสตร์และนวัตกรรมทางวิศวกรรม เช่น การพัฒนาเครื่องมือที่สามารถให้เหตุผลแบบหลายรูปแบบ (multimodal reasoning) เพื่อสำรวจแรงบันดาลใจในการออกแบบวัสดุชีวภาพในระดับและบริบทที่หลากหลาย
สำรวจภูมิทัศน์การฝึกสอน: จาก Pre-Training สู่ Preference Optimization
การนำทางไปสู่ความเชี่ยวชาญ LLM เฉพาะทางเกี่ยวข้องกับการสำรวจชุดเครื่องมือที่หลากหลายของกลยุทธ์ fine-tuning แต่ละแนวทางนำเสนอวิธีที่แตกต่างกันในการปรับแต่งความรู้และพฤติกรรมของโมเดล
Continued Pre-Training (CPT): กลยุทธ์นี้เกี่ยวข้องกับการขยายระยะ pre-training เริ่มต้น แต่คราวนี้ใช้คลังข้อมูลที่มุ่งเน้นไปที่โดเมนเป้าหมายโดยตรง—เช่น ชุดของบทความวิจัยด้านวัสดุศาสตร์ เป้าหมายคือการทำให้โมเดลซึมซับภาษา แนวคิด และโครงสร้างความรู้เฉพาะของสาขานั้นๆ ช่วยให้สามารถดูดซับข้อมูลเฉพาะทางได้ลึกซึ้งกว่าที่เป็นไปได้ด้วยการ fine-tuning เฉพาะงานเพียงอย่างเดียว มันเป็นการวางรากฐานของความรู้ที่เกี่ยวข้อง
Supervised Fine-Tuning (SFT): หลังจาก CPT หรือเริ่มต้นจากโมเดลพื้นฐาน SFT จะสอนโมเดลโดยตรงถึงวิธีการทำงานเฉพาะ สิ่งนี้ทำได้โดยใช้ชุดข้อมูลที่คัดสรรมาอย่างดีของคู่ input-output ซึ่งมักจะอยู่ในรูปแบบของคำสั่งและคำตอบที่ต้องการ หรือคำถามและคำตอบที่ถูกต้องที่เกี่ยวข้องกับโดเมน SFT ช่วยปรับปรุงความสามารถของโมเดลในการทำตามคำสั่ง ตอบคำถามได้อย่างแม่นยำในบริบทเฉพาะทาง และปฏิบัติตามรูปแบบผลลัพธ์ที่ต้องการ
Low-Rank Adaptation (LoRA): แม้ว่าจะไม่ใช่จุดสนใจหลักในที่นี้ LoRA เป็นทางเลือกหรือส่วนเสริมที่มีประสิทธิภาพ แทนที่จะฝึกโมเดลทั้งหมดใหม่ LoRA จะแนะนำชั้น ‘adapter’ ขนาดเล็กที่สามารถฝึกได้ สิ่งนี้ช่วยให้สามารถปรับเปลี่ยนได้อย่างมีนัยสำคัญด้วยต้นทุนการคำนวณที่ต่ำกว่ามาก แม้ว่าอาจมีข้อจำกัดในการบูรณาการความรู้ใหม่ๆ โดยพื้นฐานเมื่อเทียบกับ CPT
Preference-Based Optimization: ก้าวไปไกลกว่าการทำงานให้เสร็จสิ้น การปรับให้เหมาะสมตามความชอบ (preference optimization) มีเป้าหมายเพื่อปรับผลลัพธ์ของโมเดลให้สอดคล้องกับการตัดสินของมนุษย์หรือเกณฑ์เฉพาะ เช่น ความเป็นประโยชน์ ความไม่เป็นอันตราย และความแม่นยำในการให้เหตุผล แทนที่จะอาศัยเพียงคำตอบที่ ‘ถูกต้อง’ ที่กำหนดไว้ล่วงหน้า (เช่นใน SFT) วิธีการเหล่านี้เรียนรู้จากการเปรียบเทียบ
- Direct Preference Optimization (DPO): DPO เรียนรู้โดยตรงจากคู่ของคำตอบที่คำตอบหนึ่งเป็นที่ต้องการมากกว่าอีกคำตอบหนึ่ง (เช่น โดยผู้ประเมินที่เป็นมนุษย์หรือ AI อื่น) มันปรับโมเดลให้เหมาะสมเพื่อเพิ่มโอกาสในการสร้างคำตอบที่ต้องการโดยไม่จำเป็นต้องมี reward model แยกต่างหาก ทำให้กระบวนการ Reinforcement Learning from Human Feedback (RLHF) แบบดั้งเดิมง่ายขึ้น
- Odds Ratio Preference Optimization (ORPO): เป็นแนวทางที่ใหม่กว่า ORPO ปรับเปลี่ยนวัตถุประสงค์ของการปรับให้เหมาะสม บางครั้งให้ประสิทธิภาพหรือความเสถียรที่ดีขึ้นเมื่อเทียบกับ DPO โดยเฉพาะอย่างยิ่งในการปรับโมเดลให้เข้ากับรูปแบบหรือเกณฑ์การให้เหตุผลเฉพาะภายในโดเมน
เทคนิคเหล่านี้ไม่ได้แยกออกจากกัน มักจะถูกนำมาใช้ตามลำดับหรือผสมผสานกัน ก่อตัวเป็นกระบวนการฝึกที่ซับซ้อน ลำดับทั่วไปอาจเกี่ยวข้องกับ CPT เพื่อสร้างความรู้เฉพาะทาง ตามด้วย SFT เพื่อความเชี่ยวชาญในงาน และสุดท้าย DPO หรือ ORPO เพื่อการปรับแนวและการปรับปรุง อย่างไรก็ตาม การผสมผสานและลำดับที่เหมาะสมที่สุดยังคงเป็นประเด็นการวิจัยที่ดำเนินการอยู่ โดยเฉพาะอย่างยิ่งเพื่อให้ได้ประสิทธิภาพสูงสุดในโดเมนทางวิทยาศาสตร์เฉพาะทาง
เหนือกว่าการปรับแต่งแบบง่าย: ศักยภาพของการรวมโมเดล
ในขณะที่การปรับปรุงโมเดลเดียวผ่านขั้นตอนการฝึกตามลำดับสามารถให้การปรับปรุงที่สำคัญได้ แต่ก็มีอีกแนวทางหนึ่งที่น่าสนใจเกิดขึ้น: การรวมโมเดล (model merging) แนวทางปฏิบัตินี้เกี่ยวข้องกับการนำโมเดลที่ฝึกแยกกันตั้งแต่สองโมเดลขึ้นไปมารวมพารามิเตอร์—‘น้ำหนัก’ ภายใน—เพื่อสร้างโมเดลไฮบริดใหม่เพียงโมเดลเดียว
ทำไมต้องพยายามหลอมรวมเช่นนี้? แนวคิดหลักคือการรวมจุดแข็งของโมเดลแม่เข้าด้วยกันอย่างเสริมฤทธิ์ ลองนึกภาพโมเดลหนึ่งที่ฝึกฝนอย่างเชี่ยวชาญเกี่ยวกับวรรณกรรมด้านวัสดุศาสตร์ (ผ่าน CPT และ SFT) และอีกโมเดล ‘instruct’ ทั่วไปที่มีความเชี่ยวชาญสูงในการทำตามคำสั่งที่ซับซ้อนและมีส่วนร่วมในการสนทนาที่สอดคล้องกัน การรวมพวกมันเข้าด้วยกันอาจสร้างโมเดลที่มีทั้งความรู้เฉพาะทางที่ลึกซึ้ง และ ความสามารถในการสนทนาและการทำตามคำสั่งที่ยอดเยี่ยม
การสำรวจเบื้องต้นชี้ให้เห็นว่ากระบวนการนี้อาจเป็นมากกว่าการหาค่าเฉลี่ยธรรมดา แทนที่จะเป็นเพียงการผสมผสานความสามารถ การรวมอาจปลดล็อก ฟังก์ชันการทำงานใหม่ๆ ที่เกิดขึ้นเอง (emergent functionalities)—ความสามารถที่ไม่ได้มีอยู่อย่างชัดเจนในโมเดลแม่ทั้งสอง สิ่งนี้ชี้ให้เห็นถึงปฏิสัมพันธ์ที่ไม่ใช่เชิงเส้นอย่างสูงระหว่างพารามิเตอร์ในระหว่างการรวม ซึ่งอาจนำไปสู่ผลลัพธ์ที่ยิ่งใหญ่กว่าผลรวมของส่วนต่างๆ หากพิสูจน์แล้วว่ามีประสิทธิภาพและควบคุมได้ การรวมโมเดลอาจเป็นเครื่องมือที่ทรงพลังและเปลี่ยนแปลงได้สำหรับการผลักดันขอบเขตความสามารถของ LLM สร้างระบบ AI ที่ปรับเปลี่ยนได้สูงและมีศักยภาพซึ่งปรับให้เหมาะกับความท้าทายทางวิทยาศาสตร์และวิศวกรรมที่ซับซ้อนในโลกแห่งความเป็นจริง
เผยพลังของ SLERP: แนวทางเชิงเรขาคณิตสู่การรวมโมเดล
ประสิทธิภาพของการรวมโมเดลขึ้นอยู่กับ วิธี ที่พารามิเตอร์ของโมเดลแม่ถูกรวมเข้าด้วยกัน การหาค่าเฉลี่ยเชิงเส้นอย่างง่าย (มักเรียกว่า Linear Interpolation หรือ LERP) อาจดูเหมือนเป็นธรรมชาติ แต่มักจะนำไปสู่ผลลัพธ์ที่ไม่เหมาะสมหรือแม้กระทั่งทำให้ประสิทธิภาพลดลง นี่อาจเป็นเพราะปริภูมิพารามิเตอร์มิติสูงของ LLMs ไม่ได้แบนราบ มันมีรูปทรงเรขาคณิตที่ซับซ้อนและโค้งงอ การประมาณค่าเชิงเส้นเสี่ยงต่อการเดินทางผ่าน ‘โซนตาย’ หรือบริเวณที่มี loss สูงภายในปริภูมินี้ ซึ่งทำลายการแทนค่าที่เรียนรู้อย่างระมัดระวังของโมเดลแม่ได้อย่างมีประสิทธิภาพ
เข้าสู่ Spherical Linear Interpolation (SLERP) เดิมทีพัฒนาขึ้นเพื่อการเคลื่อนไหวที่ราบรื่นของการหมุนในคอมพิวเตอร์กราฟิก SLERP นำเสนอวิธีการประมาณค่าระหว่างจุดสองจุด (ในกรณีนี้คือเวกเตอร์พารามิเตอร์ของสองโมเดล) ที่ซับซ้อนทางเรขาคณิต โดยการตามเส้นทางที่สั้นที่สุดตามพื้นผิวของทรงกลมหลายมิติ (hypersphere)
ลองนึกภาพชุดพารามิเตอร์ของโมเดลแม่ทั้งสองเป็นจุดสองจุดบนพื้นผิวของทรงกลมยักษ์
- LERP จะลากเส้นตรง ผ่าน ทรงกลมเชื่อมต่อจุดต่างๆ เส้นทางนี้อาจไม่ได้อยู่บนพื้นผิวและอาจผ่านบริเวณที่แสดงถึงโมเดลที่มีประสิทธิภาพต่ำ
- SLERP ในทางกลับกัน เดินทางไปตามพื้นผิวโค้งของทรงกลมเอง เส้นทางนี้เคารพโครงสร้างทางเรขาคณิตพื้นฐานของปริภูมิพารามิเตอร์โดยเนื้อแท้
ทำไมเส้นทางทรงกลมนี้จึงอาจเหนือกว่าสำหรับการรวม LLMs?
- การรักษาโครงสร้าง (Structure Preservation): โดยการอยู่ ‘บนทรงกลม’ SLERP รักษาความสัมพันธ์ทางเรขาคณิตระหว่างพารามิเตอร์ รักษาโครงสร้างที่เรียนรู้ภายในโมเดลแม่แต่ละโมเดลได้อย่างมีประสิทธิภาพมากกว่าเส้นทางเชิงเส้น
- การหลีกเลี่ยงบริเวณที่มี Loss สูง: เส้นทางโค้งมีโอกาสน้อยที่จะตัดกับบริเวณของปริภูมิพารามิเตอร์ที่เกี่ยวข้องกับข้อผิดพลาดในการทำนายสูง (loss)
- การผสมผสานที่ไม่ใช่เชิงเส้น (Non-Linear Combination): สูตรการประมาณค่าสำหรับ SLERP นั้นไม่ใช่เชิงเส้นโดยเนื้อแท้ สิ่งนี้ช่วยให้เกิดปฏิสัมพันธ์ที่ซับซ้อนและเสริมฤทธิ์กันระหว่างพารามิเตอร์จากโมเดลแม่ ซึ่งอาจปลดล็อกการผสมผสานที่แสดงถึงความสามารถใหม่ๆ พารามิเตอร์ที่รวมกันอาจเปิดใช้งานคุณลักษณะในลักษณะที่ไม่มีโมเดลแม่ใดทำได้เพียงลำพัง
- การเปลี่ยนผ่านที่ราบรื่น (Smooth Transitions): SLERP ให้การเปลี่ยนผ่านที่ราบรื่นทางคณิตศาสตร์ระหว่างสถานะของโมเดลแม่ ซึ่งอาจนำไปสู่การสรุปผลที่ดีขึ้นในโมเดลที่รวมกัน
เนื่องจาก SLERP เคารพรูปทรงเรขาคณิตภายในของโมเดลและอำนวยความสะดวกในการปฏิสัมพันธ์ของพารามิเตอร์ที่ไม่ใช่เชิงเส้น จึงมีศักยภาพที่ไม่เพียงแต่หาค่าเฉลี่ยความสามารถเท่านั้น แต่ยังผสมผสานความสามารถเหล่านั้นอย่างแท้จริงในลักษณะที่ส่งเสริมคุณสมบัติที่เกิดขึ้นเอง สิ่งนี้ทำให้เป็นตัวเลือกที่มีแนวโน้มเป็นพิเศษสำหรับการรวมโมเดลที่มุ่งเป้าไปที่โดเมนที่ซับซ้อน เช่น วัสดุศาสตร์ ซึ่งปฏิสัมพันธ์ที่ละเอียดอ่อนและความเข้าใจที่ลึกซึ้งเป็นกุญแจสำคัญ
ทดสอบทฤษฎี: การทดลองกับ Llama และ Mistral
เพื่อตรวจสอบกลยุทธ์ fine-tuning และการรวมเหล่านี้อย่างเข้มงวด ได้มีการดำเนินการชุดการทดลองอย่างเป็นระบบโดยใช้ตระกูลโมเดล open-source ยอดนิยม: Llama 3.1 (8 พันล้านพารามิเตอร์) และ Mistral (7 พันล้านพารามิเตอร์) เป้าหมายคือการเปรียบเทียบกระบวนการฝึกที่แตกต่างกันและประเมินผลกระทบของการรวมแบบ SLERP
การออกแบบการทดลองเกี่ยวข้องกับขั้นตอนสำคัญหลายประการ:
- โมเดลพื้นฐาน (Base Models): การทดลองเริ่มต้นด้วยทั้งโมเดล ‘base’ พื้นฐาน (pre-trained แต่ยังไม่ได้ instruction-tuned) และเวอร์ชัน ‘instruct’ (fine-tuned แล้วสำหรับการแชทและการทำตามคำสั่ง) สำหรับทั้งตระกูล Llama และ Mistral
- คลังข้อมูลโดเมน (Domain Corpus): รวบรวมคลังข้อมูลเฉพาะทางที่เน้นด้านวัสดุศาสตร์จากสิ่งพิมพ์ทางวิทยาศาสตร์และข้อมูลที่ประมวลผลแล้ว
- กระบวนการฝึก (Training Pipelines): ใช้การผสมผสานเทคนิคการฝึกต่างๆ:
- CPT เท่านั้น
- CPT ตามด้วย SFT (CPT-SFT)
- CPT-SFT ตามด้วย ORPO (CPT-SFT-ORPO)
- CPT-SFT ตามด้วย DPO (CPT-SFT-DPO)
- บางรูปแบบเริ่มต้นโดยตรงจากโมเดล Instruct (เช่น Instruct-CPT-SFT-DPO)
- การรวมโมเดล (Model Merging): สำหรับโมเดลที่ fine-tuned หลายตัว ได้ทำการรวมแบบ SLERP โดยทั่วไปจะรวมโมเดลที่ปรับให้เข้ากับโดเมนกับโมเดล ‘instruct’ ทั่วไปที่สอดคล้องกันจากตระกูลเดียวกัน (เช่น โมเดล Llama แบบ CPT-SFT-DPO ที่รวมกับโมเดล Llama 3.1 Instruct มาตรฐาน)
- การประเมินผล (Evaluation): ประเมินประสิทธิภาพของโมเดลผลลัพธ์ทั้งหมด (ทั้งแบบรวมและไม่รวม) โดยใช้ชุดเกณฑ์มาตรฐานที่เกี่ยวข้องซึ่งออกแบบมาเพื่อทดสอบความรู้เฉพาะทาง การให้เหตุผล และการทำตามคำสั่ง
ข้อค้นพบสำคัญจาก Llama และ Mistral:
- การรวม SLERP ช่วยเพิ่มประสิทธิภาพอย่างสม่ำเสมอ: ในทั้งสองตระกูลโมเดลและกระบวนการฝึกต่างๆ โมเดลที่ปรับปรุงผ่านการรวม SLERP โดยทั่วไปได้คะแนนความแม่นยำสูงสุดในเกณฑ์มาตรฐานการประเมินผล สิ่งนี้สนับสนุนสมมติฐานอย่างยิ่งว่า SLERP เป็นเทคนิคที่มีประสิทธิภาพในการรวมจุดแข็งของโมเดล
- ยืนยันผลกระทบเสริมฤทธิ์ (Synergistic Effects): ประสิทธิภาพของโมเดลที่รวมด้วย SLERP มักจะสูงกว่าค่าเฉลี่ยอย่างง่ายของประสิทธิภาพของโมเดลแม่ทั้งสอง การพล็อตคะแนนที่ทำได้จริงเทียบกับค่าเฉลี่ยที่คาดหวังนี้เผยให้เห็นความเบี่ยงเบนเชิงบวกอย่างมีนัยสำคัญ ยืนยันว่ากระบวนการรวมมักจะปลดล็อก ผลประโยชน์เสริมฤทธิ์และความสามารถที่เกิดขึ้นเอง หน่วยที่รวมกันแสดงให้เห็นว่ามีความสามารถมากกว่าผลรวมของส่วนต่างๆ
- Preference Optimization เพิ่มคุณค่า: การรวมขั้นตอน preference optimization (DPO หรือ ORPO) มักจะช่วยเพิ่มประสิทธิภาพเพิ่มเติม โดยเฉพาะอย่างยิ่งเมื่อรวมกับการรวม SLERP กลยุทธ์เช่น CPT-SFT-DPO-SLERP หรือ CPT-SFT-ORPO-SLERP มักจะเป็นหนึ่งในกลุ่มที่ทำผลงานได้ดีที่สุด
- กลยุทธ์ที่ไม่รวมที่ดีที่สุดแตกต่างกันไป: หากไม่มีการรวม กลยุทธ์ที่ทำผลงานได้ดีที่สุดจะแตกต่างกันเล็กน้อยระหว่างตระกูลโมเดล สำหรับ Llama 3.1, Instruct-CPT-SFT-DPO แสดงผลลัพธ์ที่แข็งแกร่ง ในขณะที่สำหรับ Mistral, Base-CPT-SFT ทำผลงานได้ดีเทียบเท่ากับคู่ Instruct
- ผลกระทบของระยะเวลา CPT: การวิเคราะห์เพิ่มเติมเกี่ยวกับโมเดล Mistral แสดงให้เห็นว่าประสิทธิภาพโดยทั่วไปดีขึ้นตามจำนวน epochs ของ Continued Pre-Training ที่มากขึ้น (สูงสุดห้าครั้งที่ทดสอบ) โดยเฉพาะอย่างยิ่งเมื่อเริ่มต้นจากโมเดล Instruct ซึ่งตอกย้ำคุณค่าของการได้รับข้อมูลโดเมนที่เพียงพอในระหว่าง CPT
ผลลัพธ์เหล่านี้วาดภาพที่ชัดเจน: ในขณะที่การ fine-tuning ตามลำดับมีคุณค่า การรวมโมเดลเชิงกลยุทธ์โดยใช้ SLERP นำเสนอเส้นทางที่ทรงพลังในการเพิ่มประสิทธิภาพ LLM อย่างมีนัยสำคัญ โดยเฉพาะอย่างยิ่งสำหรับโดเมนเฉพาะทาง ซึ่งมักจะให้ความสามารถที่เหนือกว่าการรวมแบบง่ายๆ
เจาะลึก: อะไรทำให้การรวมโมเดลได้ผล?
ความสำเร็จอย่างต่อเนื่องของการรวม SLERP กระตุ้นให้พิจารณากลไกพื้นฐานและปัจจัยที่มีอิทธิพลอย่างใกล้ชิดยิ่งขึ้น เหตุใดแนวทางเชิงเรขาคณิตนี้จึงให้ผลลัพธ์ที่ทรงพลังเช่นนี้ และเงื่อนไขใดที่ปรับปรุงประสิทธิภาพให้เหมาะสมที่สุด?
ปฏิสัมพันธ์ที่ไม่ใช่เชิงเส้น (Non-Linear Interactions): ตามทฤษฎี เส้นทางที่ไม่ใช่เชิงเส้นของ SLERP ผ่านปริภูมิพารามิเตอร์ดูเหมือนจะมีความสำคัญ มันช่วยให้โมเดลที่รวมกันสามารถสำรวจการผสมผสานของพารามิเตอร์ที่การหาค่าเฉลี่ยเชิงเส้นจะพลาดไป การผสมผสานเหล่านี้สามารถแสดงถึงปฏิสัมพันธ์ใหม่ๆ ระหว่างคุณลักษณะที่เรียนรู้ นำไปสู่ความสามารถในการให้เหตุผลหรือการแก้ปัญหาที่เกิดขึ้นเองซึ่งปรับให้เหมาะกับโดเมน ลองนึกภาพการรวมพารามิเตอร์ที่แต่ละตัวแทนความเข้าใจเกี่ยวกับ ‘ความแข็งแรงของวัสดุ’ และ ‘โครงสร้างทางชีวภาพ’ – SLERP อาจพบการผสมผสานที่แสดงถึง ‘วัสดุความแข็งแรงสูงที่ได้แรงบันดาลใจจากชีวภาพ’ ได้อย่างมีประสิทธิภาพในลักษณะที่ไม่มีโมเดลแม่ใดทำได้อย่างชัดเจน
บทบาทของความหลากหลาย (The Role of Diversity): โมเดลแม่ควรแตกต่างกันแค่ไหน? การวิเคราะห์ชี้ให้เห็นถึงความสัมพันธ์ที่ซับซ้อน ในขณะที่ความหลากหลายที่สูงมากอาจดูเหมือนเป็นประโยชน์ แต่ความสัมพันธ์บางอย่างบ่งชี้ว่าในบางบริบท (เช่น โมเดล Llama) ความหลากหลายของประสิทธิภาพที่สูงขึ้นระหว่างโมเดลแม่อาจลดการพึ่งพา SFT ที่ตามมาเล็กน้อย อาจเป็นเพราะการรวมได้จับชุดความสามารถที่กว้างขึ้นแล้ว ปฏิสัมพันธ์นั้นละเอียดอ่อนและน่าจะขึ้นอยู่กับวิธีการ fine-tuning เฉพาะที่ใช้สำหรับโมเดลแม่
จุดเริ่มต้น Base เทียบกับ Instruct: การเลือกโมเดลเริ่มต้นมีความสำคัญ สำหรับการทดลอง Llama โมเดลที่รวมกันที่ทำผลงานได้ดีที่สุดมาจากเวอร์ชัน Instruct ในทางกลับกัน สำหรับ Mistral โมเดลที่ทำผลงานได้ดีที่สุดตัวหนึ่งมาจากโมเดล Base ก่อนที่จะผ่าน CPT, SFT และการรวม สิ่งนี้ชี้ให้เห็นว่าความแตกต่างทางสถาปัตยกรรมหรือความแปรปรวนในการแต่งหน้า pre-training เริ่มต้นของตระกูล Llama และ Mistral มีอิทธิพลต่อวิธีที่พวกมันตอบสนองต่อกระบวนการ fine-tuning และการรวมเฉพาะ ไม่ได้มีจุดเริ่มต้น ‘ดีที่สุด’ สากลเพียงจุดเดียว มันต้องมีการทดสอบเชิงประจักษ์
คุณภาพข้อมูลใน CPT: รากฐานที่วางไว้ในระหว่าง Continued Pre-Training มีความสำคัญอย่างยิ่ง การทดลองโดยใช้ชุดข้อมูล CPT ที่ใหญ่กว่าแต่ ‘มีสัญญาณรบกวน’ มากกว่า (มีข้อผิดพลาดในการจัดรูปแบบหรือสิ่งแปลกปลอมจากการรู้จำอักขระด้วยแสง (optical character recognition) มากกว่า) ส่งผลให้ประสิทธิภาพลดลงเมื่อเทียบกับการใช้ชุดข้อมูลที่เล็กกว่าและสะอาดกว่า สิ่งนี้ตอกย้ำความสำคัญของข้อมูลเฉพาะทางคุณภาพสูงที่ประมวลผลอย่างดีเพื่อให้ขั้นตอน CPT มีประสิทธิภาพ ขยะเข้า ขยะออก ยังคงใช้ได้
การปรับพารามิเตอร์ SLERP: SLERP เองก็มีพารามิเตอร์ โดยเฉพาะอย่างยิ่ง สัมประสิทธิ์การประมาณค่า (มักแสดงด้วย ‘t’ อยู่ในช่วง 0 ถึง 1) ซึ่งกำหนดว่าจะให้น้ำหนักแก่โมเดลแม่แต่ละตัวเท่าใด นอกจากนี้ การรวมไม่จำเป็นต้องสม่ำเสมอในทุกชั้นของโมเดล การทดลองสำรวจการเปลี่ยนแปลงปัจจัยการประมาณค่าที่แตกต่างกันสำหรับชั้น self-attention เทียบกับชั้น multilayer perceptron (MLP) หรือแม้กระทั่งการเปลี่ยนแปลงอย่างต่อเนื่องตามความลึกของโมเดล ผลลัพธ์แสดงให้เห็นว่ารูปแบบการถ่วงน้ำหนักที่ไม่สม่ำเสมอเฉพาะสามารถทำได้ดีกว่าแนวทางสม่ำเสมอมาตรฐาน ซึ่งชี้ให้เห็นถึงศักยภาพในการปรับให้เหมาะสมเพิ่มเติมโดยการปรับแต่งกระบวนการรวมอย่างระมัดระวังตามสถาปัตยกรรมของเครือข่าย การไล่ระดับน้ำหนักเชิงเส้นอย่างง่ายตามชั้นต่างๆ พิสูจน์แล้วว่ามีประสิทธิภาพในกรณีหนึ่งของ Llama
ผลกระทบการทำให้เป็นมาตรฐาน (Regularization Effect): SLERP อาจทำหน้าที่เป็นรูปแบบหนึ่งของการทำให้เป็นมาตรฐาน (regularization) ด้วยการหาเส้นทางที่ราบรื่นระหว่างโมเดลเฉพาะทางสองโมเดลที่เป็นไปได้ มันอาจกีดกันการ overfitting กับลักษณะเฉพาะของข้อมูลการฝึกของโมเดลแม่แต่ละตัว นำไปสู่การสรุปผลที่ดีขึ้นสำหรับปัญหาเฉพาะทางที่ไม่เคยเห็นมาก่อน นอกจากนี้ยังอาจช่วยลด ‘การลืมอย่างรุนแรง (catastrophic forgetting)’ ซึ่งการ fine-tuning ในงานหนึ่งจะลบความรู้จากงานก่อนหน้า
โดยสรุป ประสิทธิภาพของ SLERP เกิดจากความสามารถในการนำทางรูปทรงเรขาคณิตที่ซับซ้อนของปริภูมิพารามิเตอร์ LLM อย่างชาญฉลาด ส่งเสริมปฏิสัมพันธ์ที่ไม่ใช่เชิงเส้นที่เป็นประโยชน์ในขณะที่รักษาโครงสร้างความรู้ที่เรียนรู้ไว้ อย่างไรก็ตาม การปรับการใช้งานให้เหมาะสมที่สุดต้องพิจารณาอย่างรอบคอบเกี่ยวกับการเลือกโมเดลแม่ ประวัติการฝึก คุณภาพข้อมูล และอาจรวมถึงรายละเอียดปลีกย่อยของการรวมเองด้วย
ขนาดสำคัญหรือไม่? สำรวจผลกระทบของขนาดกับโมเดลที่เล็กกว่า
ผลกระทบเสริมฤทธิ์ที่น่าประทับใจที่สังเกตได้จากโมเดล 7 พันล้านและ 8 พันล้านพารามิเตอร์ทำให้เกิดคำถามตามธรรมชาติ: ความสามารถที่เกิดขึ้นเองเหล่านี้ที่ปลดล็อกโดยการรวม SLERP ปรากฏในโมเดลภาษาที่เล็กกว่ามากด้วยหรือไม่? หรือมีเกณฑ์ขนาดที่ต่ำกว่าซึ่งความมหัศจรรย์จะจางหายไป?
เพื่อตรวจสอบสิ่งนี้ ได้มีการดำเนินการทดลองที่คล้ายกันโดยใช้ ซีรีส์โมเดล SmolLM โดยเฉพาะอย่างยิ่งรุ่นที่มีเพียง 1.7 พันล้านพารามิเตอร์ โมเดลนี้มีขนาดเล็กกว่าอย่างมีนัยสำคัญ ทำให้เหมาะสำหรับสภาพแวดล้อมที่มีทรัพยากรจำกัด เช่น อุปกรณ์เคลื่อนที่หรือ edge computing แต่อาจขาดความสมบูรณ์ของพารามิเตอร์เมื่อเทียบกับรุ่นที่ใหญ่กว่า
โมเดล SmolLM ผ่านกระบวนการเดียวกัน: CPT ด้วยคลังข้อมูลวัสดุศาสตร์ ตามด้วย SFT และ DPO (ซึ่งพิสูจน์แล้วว่ามีประสิทธิภาพมากกว่า ORPO สำหรับสถาปัตยกรรมขนาดเล็กนี้) จากนั้นจึงใช้การรวม SLERP โดยรวม SmolLM ที่ fine-tuned เข้ากับเวอร์ชันพื้นฐานหรือรุ่นอื่นๆ
ข้อค้นพบกับ SmolLM:
- Fine-tuning ยังคงช่วยได้: กระบวนการ CPT-SFT-DPO ได้ปรับปรุงประสิทธิภาพของโมเดล SmolLM ในงานเฉพาะทางเมื่อเทียบกับสถานะเดิม กระบวนการ fine-tuning เองมีประโยชน์ ช่วยเพิ่มพูนความรู้เฉพาะทาง
- การเกิดขึ้นเองส่วนใหญ่หายไป: อย่างไรก็ตาม ไม่เหมือนกับการทดลอง Llama และ Mistral โมเดล SmolLM ที่รวมด้วย SLERP โดยทั่วไป ไม่ แสดงผลกระทบเสริมฤทธิ์อย่างมีนัยสำคัญ ประสิทธิภาพของพวกมันมักจะใกล้เคียงกับค่าเฉลี่ยอย่างง่ายของโมเดลแม่ หรือสูงกว่าเพียงเล็กน้อย การก้าวกระโดดด้านประสิทธิภาพอย่างมากและสัญญาณที่ชัดเจนของความสามารถที่เกิดขึ้นเองที่เห็นในโมเดล 7B/8B นั้นหายไป
นัยยะ:
ความแตกต่างนี้ชี้ให้เห็นว่า ขนาดของโมเดลน่าจะเป็นปัจจัยสำคัญ ในการตระหนักถึงศักยภาพสูงสุดของการรวม SLERP สำหรับการสร้างคุณสมบัติที่เกิดขึ้นเอง โมเดลขนาดเล็กที่มีปริภูมิพารามิเตอร์ที่ซับซ้อนน้อยกว่าและมีมิติต่ำกว่า อาจขาดความสามารถในการแทนค่าหรือความสมบูรณ์ที่จำเป็นสำหรับปฏิสัมพันธ์ที่ไม่ใช่เชิงเส้นที่มีศักยภาพเหล่านี้ที่จะเกิดขึ้นในระหว่างการรวม ‘พื้นที่’ สำหรับการค้นพบการผสมผสานพารามิเตอร์ใหม่ๆ ที่เป็นประโยชน์ดูเหมือนจะถูกจำกัดอย่างมีนัยสำคัญเมื่อเทียบกับโมเดลขนาดใหญ่
ผลลัพธ์เหล่านี้สอดคล้องกับการสังเกตการณ์ที่กว้างขึ้นเกี่ยวกับ กฎการปรับขนาด (scaling laws) ในการเรียนรู้เชิงลึก ซึ่งความสามารถเชิงคุณภาพบางอย่างมักจะเกิดขึ้นเมื่อโมเดลมีขนาดถึงเกณฑ์ที่กำหนดเท่านั้น ดูเหมือนว่าพลังเสริมฤทธิ์ของการรวม SLERP อาจเป็นหนึ่งในความสามารถดังกล่าวที่ขึ้นอยู่กับขนาดและความซับซ้อนของโมเดลที่เพียงพออย่างยิ่ง
การวัดผลประโยชน์เชิงปริมาณ: การพิจารณาประสิทธิภาพที่เพิ่มขึ้นจากการรวมโมเดล
ในขณะที่เกณฑ์มาตรฐานแสดงให้เห็นว่าโมเดลที่รวมกันมักจะทำผลงานได้ดีที่สุดโดยรวม แต่ก็มีประโยชน์ที่จะวัดปริมาณว่าพวกมันดีกว่าโมเดลแม่มากน้อยเพียงใด โดยเฉพาะอย่างยิ่ง โมเดลที่รวมกันทำผลงานได้ดีกว่าโมเดลที่ แข็งแกร่งกว่า ในสองโมเดลที่ใช้สร้างมันขึ้นมาอย่างสม่ำเสมอหรือไม่?
เพื่อวิเคราะห์สิ่งนี้ ได้คำนวณค่าเบี่ยงเบนประสิทธิภาพสำหรับโมเดลที่รวมด้วย SLERP แต่ละโมเดล ค่าเบี่ยงเบนนี้ถูกกำหนดเป็น:
ค่าเบี่ยงเบนประสิทธิภาพ = ประสิทธิภาพ(โมเดลที่รวม) - Max(ประสิทธิภาพ(โมเดลแม่ 1), ประสิทธิภาพ(โมเดลแม่ 2))
- ค่าเบี่ยงเบนเชิงบวก (แสดงด้วยเฉดสีน้ำเงิน) หมายความว่าโมเดล SLERP ทำผลงานได้ ดีกว่า โมเดลที่ดีที่สุดของโมเดลแม่ – เป็นหลักฐานที่ชัดเจนของการเสริมฤทธิ์
- ค่าเบี่ยงเบนเชิงลบ (แสดงด้วยสีแดง) หมายความว่าโมเดล SLERP ทำผลงานได้ แย่กว่า อย่างน้อยหนึ่งในโมเดลแม่ ซึ่งบ่งชี้ว่าการรวมนั้นส่งผลเสีย หรืออย่างดีที่สุดคือการหาค่าเฉลี่ย
การวิเคราะห์เผยให้เห็น:
ในการทดลองส่วนใหญ่ที่เกี่ยวข้องกับโมเดล Llama 3.1 (8B) และ Mistral (7B) ค่าเบี่ยงเบนประสิทธิภาพ ส่วนใหญ่เป็นบวก ในหลายกรณี โดยเฉพาะอย่างยิ่งสำหรับกระบวนการที่ปรับให้เหมาะสมอย่างดี (เช่น กระบวนการที่เกี่ยวข้องกับ CPT, SFT, preference optimization และ SLERP) โมเดลที่รวมกันแสดงค่าเบี่ยงเบนเชิงบวกอย่างมาก ซึ่งบ่งชี้ว่าพวกมันมีความสามารถเหนือกว่าโมเดลแม่ที่แข็งแกร่งที่สุดอย่างมีนัยสำคัญ
มีบางกรณี โดยเฉพาะอย่างยิ่งกับโมเดลแม่ที่ปรับให้เหมาะสมน้อยกว่า หรืออาจเป็นพารามิเตอร์การรวมที่ไม่เหมาะสม ที่ค่าเบี่ยงเบนเป็นลบเล็กน้อยหรือใกล้ศูนย์ อย่างไรก็ตาม แนวโน้มโดยรวมชัดเจน: การรวม SLERP เชิงกลยุทธ์มักจะให้การเพิ่มประสิทธิภาพอย่างแท้จริงเหนือกว่าสิ่งที่โมเดลแม่แต่ละตัวสามารถทำได้เพียงลำพัง สิ่งนี้ตอกย้ำแนวคิดที่ว่าการรวมไม่ใช่แค่การหาค่าเฉลี่ย แต่เป็นกระบวนการที่สามารถสังเคราะห์ความสามารถที่เหนือกว่าได้ ผลลัพธ์ของ SmolLM (1.7B) ในทางตรงกันข้าม จะแสดงค่าเบี่ยงเบนที่เล็กกว่ามากหรือเป็นลบ ซึ่งสอดคล้องกับการขาดผลกระทบที่เกิดขึ้นเองอย่างรุนแรงในระดับนั้น
จากเกณฑ์มาตรฐานสู่การระดมสมอง: การประยุกต์ใช้เชิงโต้ตอบในการออกแบบวัสดุ
นอกเหนือจากเกณฑ์มาตรฐานเชิงปริมาณแล้ว คุณค่าที่แท้จริงของโมเดลที่ปรับให้เข้ากับโดเมนเหล่านี้อยู่ที่ความสามารถในการช่วยเหลืองานในโลกแห่งความเป็นจริง เช่น การให้เหตุผลทางวิทยาศาสตร์และการออกแบบเชิงสร้างสรรค์ เพื่อประเมินลักษณะเชิงคุณภาพนี้ ได้มีการดำเนินการเซสชันแชทเชิงโต้ตอบกับโมเดลที่ทำผลงานได้ดีที่สุดหลายตัว (รวมถึงทั้งรุ่นที่รวมและไม่รวม)
การตั้งค่าเกี่ยวข้องกับการให้ system prompt ที่ส