Mở khóa Chuyên môn: Tinh chỉnh, Hợp nhất và Năng lực LLM

Thách thức của Chuyên môn hóa: Điều chỉnh AI cho các Lĩnh vực Kỹ thuật Tiên phong

Các Mô hình Ngôn ngữ Lớn (LLMs) đã cách mạng hóa cách chúng ta tương tác với thông tin và tự động hóa các tác vụ liên quan đến ngôn ngữ tự nhiên. Những gã khổng lồ như Llama và Mistral, ngay cả ở dạng mã nguồn mở, cũng thể hiện sự trôi chảy đáng kể trong việc hiểu và tạo ra văn bản thường sánh ngang với con người. Khả năng của chúng bao trùm một phạm vi rộng lớn, từ hội thoại hàng ngày đến tóm tắt phức tạp. Tuy nhiên, việc dấn thân vào các lĩnh vực chuyên sâu, giàu thuật ngữ của khoa học và kỹ thuật—như khoa học vật liệu hay vật liệu sinh học—lại đặt ra một rào cản đặc biệt.

Các lĩnh vực kỹ thuật này đòi hỏi nhiều hơn kiến thức tổng quát; chúng yêu cầu sự hiểu biết sâu sắc, tinh tế, khả năng suy luận dựa trên các nguyên tắc cụ thể, và sự quen thuộc với thuật ngữ chuyên ngành cũng như cấu trúc dữ liệu. Các LLM tiêu chuẩn, được huấn luyện trên kho dữ liệu web rộng lớn, thường gặp khó khăn khi đối mặt với những yêu cầu này. Do đó, thách thức nằm ở thích ứng miền (domain adaptation): làm thế nào chúng ta có thể điều chỉnh hiệu quả các mô hình tổng quát mạnh mẽ này để trở thành những trợ lý chuyên gia trong các lĩnh vực cực kỳ cụ thể?

Việc chỉ cung cấp thêm dữ liệu chuyên ngành không phải lúc nào cũng là câu trả lời, và cũng không phải lúc nào cũng khả thi. Huấn luyện những mô hình khổng lồ này từ đầu là cực kỳ tốn kém, và các bộ dữ liệu gốc khổng lồđược sử dụng cho quá trình tiền huấn luyện ban đầu thường không thể truy cập được. Điều này đặc biệt đúng với các mô hình mã nguồn mở phổ biến, nơi mà mặc dù có một số sự minh bạch, công thức đầy đủ—sự pha trộn dữ liệu chính xác và các chuỗi được sử dụng trong quá trình tiền huấn luyện, tinh chỉnh và căn chỉnh—phần lớn vẫn là độc quyền. Các nhà nghiên cứu và kỹ sư cần những chiến lược mạnh mẽ, hiệu quả để truyền đạt kiến thức chuyên môn mới cho các mô hình hiện có, đồng thời bảo tồn một cách quan trọng các khả năng tổng quát rộng lớn đã có được trong quá trình huấn luyện ban đầu. Hành động cân bằng tinh tế này là tối quan trọng để tạo ra các công cụ AI thực sự hữu ích cho khám phá khoa học và đổi mới kỹ thuật, chẳng hạn như phát triển các công cụ có khả năng suy luận đa phương thức để khám phá nguồn cảm hứng thiết kế vật liệu sinh học trên các quy mô và bối cảnh đa dạng.

Phác thảo Bối cảnh Huấn luyện: Từ Tiền huấn luyện đến Tối ưu hóa Ưu tiên

Việc điều hướng con đường đến chuyên môn LLM theo miền cụ thể bao gồm việc khám phá một bộ công cụ đa dạng gồm các chiến lược tinh chỉnh. Mỗi phương pháp cung cấp một cách khác nhau để định hình kiến thức và hành vi của mô hình.

  • Tiền huấn luyện Tiếp tục (Continued Pre-Training - CPT): Chiến lược này bao gồm việc mở rộng giai đoạn tiền huấn luyện ban đầu, nhưng lần này sử dụng một kho dữ liệu tập trung hoàn toàn vào miền mục tiêu—như một bộ sưu tập các bài báo nghiên cứu khoa học vật liệu. Mục tiêu là để mô hình đắm mình vào ngôn ngữ, khái niệm và cấu trúc kiến thức cụ thể của lĩnh vực, cho phép nó hấp thụ thông tin chuyên ngành sâu hơn so với việc chỉ tinh chỉnh theo tác vụ cụ thể. Nó đặt nền tảng kiến thức liên quan.

  • Tinh chỉnh Có giám sát (Supervised Fine-Tuning - SFT): Sau CPT hoặc bắt đầu từ một mô hình cơ sở, SFT trực tiếp dạy mô hình cách thực hiện các tác vụ cụ thể. Điều này đạt được bằng cách sử dụng các bộ dữ liệu được tuyển chọn gồm các cặp đầu vào-đầu ra, thường được định dạng dưới dạng hướng dẫn và phản hồi mong muốn, hoặc câu hỏi và câu trả lời chính xác liên quan đến miền. SFT mài giũa khả năng của mô hình trong việc tuân theo hướng dẫn, trả lời câu hỏi chính xác trong bối cảnh chuyên ngành và tuân thủ các định dạng đầu ra mong muốn.

  • Thích ứng Hạng thấp (Low-Rank Adaptation - LoRA): Mặc dù không phải là trọng tâm chính ở đây, LoRA đại diện cho một giải pháp thay thế hoặc bổ sung hiệu quả. Thay vì huấn luyện lại toàn bộ mô hình, LoRA giới thiệu các lớp “adapter” nhỏ, có thể huấn luyện được. Điều này cho phép thích ứng đáng kể với chi phí tính toán thấp hơn nhiều, mặc dù nó có thể có những hạn chế về lượng kiến thức mới cơ bản có thể được tích hợp so với CPT.

  • Tối ưu hóa Dựa trên Ưu tiên (Preference-Based Optimization): Vượt ra ngoài việc hoàn thành tác vụ đơn giản, tối ưu hóa ưu tiên nhằm mục đích căn chỉnh kết quả đầu ra của mô hình gần hơn với đánh giá của con người hoặc các tiêu chí cụ thể như tính hữu ích, vô hại và độ chính xác trong suy luận. Thay vì chỉ dựa vào các câu trả lời “đúng” được xác định trước (như trong SFT), các phương pháp này học hỏi từ các so sánh.

    • Tối ưu hóa Ưu tiên Trực tiếp (Direct Preference Optimization - DPO): DPO học trực tiếp từ các cặp phản hồi trong đó một phản hồi được ưu tiên hơn phản hồi kia (ví dụ: bởi người đánh giá là con người hoặc một AI khác). Nó tối ưu hóa mô hình để tăng khả năng tạo ra các phản hồi được ưu tiên mà không cần mô hình phần thưởng riêng biệt, đơn giản hóa quy trình Học tăng cường từ Phản hồi của Con người (Reinforcement Learning from Human Feedback - RLHF) truyền thống.
    • Tối ưu hóa Ưu tiên Tỷ lệ Cược (Odds Ratio Preference Optimization - ORPO): Một phương pháp mới hơn, ORPO sửa đổi mục tiêu tối ưu hóa, đôi khi mang lại hiệu suất hoặc độ ổn định được cải thiện so với DPO, đặc biệt là trong việc căn chỉnh các mô hình theo các tiêu chí phong cách hoặc suy luận cụ thể trong một miền.

Những kỹ thuật này không loại trừ lẫn nhau; chúng thường được sử dụng tuần tự hoặc kết hợp, tạo thành các quy trình huấn luyện phức tạp. Một trình tự phổ biến có thể bao gồm CPT để xây dựng kiến thức miền, tiếp theo là SFT để thành thạo tác vụ, và cuối cùng là DPO hoặc ORPO để căn chỉnh và tinh chỉnh. Tuy nhiên, sự kết hợp và trình tự tối ưu vẫn là lĩnh vực nghiên cứu tích cực, đặc biệt là để đạt được hiệu suất cao nhất trong các lĩnh vực khoa học chuyên ngành.

Vượt ra ngoài Tinh chỉnh Đơn giản: Triển vọng của Việc Hợp nhất Mô hình

Trong khi việc tinh chỉnh một mô hình duy nhất thông qua các giai đoạn huấn luyện tuần tự có thể mang lại những cải tiến đáng kể, một hướng đi hấp dẫn khác đã xuất hiện: hợp nhất mô hình (model merging). Thực tiễn này bao gồm việc lấy hai hoặc nhiều mô hình được huấn luyện riêng biệt và kết hợp các tham số của chúng—các “trọng số” bên trong—để tạo ra một mô hình lai duy nhất, mới.

Tại sao lại cố gắng thực hiện sự hợp nhất như vậy? Ý tưởng cốt lõi là kết hợp một cách hiệp đồng các điểm mạnh của các mô hình gốc. Hãy tưởng tượng một mô hình được huấn luyện chuyên sâu về tài liệu khoa học vật liệu (thông qua CPT và SFT) và một mô hình “hướng dẫn” (instruct) đa năng khác rất thành thạo trong việc tuân theo các hướng dẫn phức tạp và tham gia vào cuộc đối thoại mạch lạc. Việc hợp nhất chúng có khả năng tạo ra một mô hình sở hữu cả kiến thức miền sâu sắc khả năng đối thoại và tuân theo hướng dẫn xuất sắc.

Những khám phá ban đầu gợi ý rằng quá trình này có thể không chỉ đơn giản là lấy trung bình. Thay vì chỉ pha trộn các khả năng, việc hợp nhất có khả năng mở khóa hoàn toàn các chức năng mới, nổi bật (emergent functionalities)—những khả năng không hiện diện rõ ràng trong bất kỳ mô hình gốc nào. Điều này cho thấy một sự tương tác phi tuyến tính cao giữa các tham số trong quá trình hợp nhất, có khả năng dẫn đến một tổng thể lớn hơn tổng các bộ phận của nó. Nếu được chứng minh là hiệu quả và có thể kiểm soát được, việc hợp nhất mô hình có thể đại diện cho một công cụ mạnh mẽ, mang tính chuyển đổi để đẩy lùi ranh giới của khả năng LLM, tạo ra các hệ thống AI có khả năng thích ứng cao và mạnh mẽ được thiết kế riêng cho các thách thức khoa học và kỹ thuật phức tạp trong thế giới thực.

Hé lộ Sức mạnh của SLERP: Phương pháp Tiếp cận Hình học để Hợp nhất

Hiệu quả của việc hợp nhất mô hình phụ thuộc rất nhiều vào cách các tham số của các mô hình gốc được kết hợp. Việc lấy trung bình tuyến tính đơn giản (thường được gọi là Nội suy Tuyến tính hoặc LERP) có vẻ trực quan, nhưng nó thường dẫn đến kết quả dưới mức tối ưu hoặc thậm chí làm suy giảm hiệu suất. Điều này có khả năng là do không gian tham số chiều cao của LLM không phẳng; nó sở hữu một hình học cong, phức tạp. Nội suy tuyến tính có nguy cơ đi qua các “vùng chết” hoặc vùng tổn thất cao trong không gian này, làm xáo trộn hiệu quả các biểu diễn đã được học cẩn thận của các mô hình gốc.

Hãy đến với Nội suy Tuyến tính Hình cầu (Spherical Linear Interpolation - SLERP). Ban đầu được phát triển để tạo hoạt ảnh mượt mà cho các phép quay trong đồ họa máy tính, SLERP cung cấp một cách nội suy tinh vi về mặt hình học giữa hai điểm (trong trường hợp này là các vectơ tham số của hai mô hình) bằng cách đi theo đường đi ngắn nhất dọc theo bề mặt của một siêu cầu.

Hãy tưởng tượng các tập hợp tham số của hai mô hình gốc là hai điểm trên bề mặt của một quả cầu khổng lồ.

  • LERP sẽ vẽ một đường thẳng xuyên qua quả cầu nối các điểm. Đường đi này có thể không nằm trên bề mặt và có thể đi qua các vùng đại diện cho các mô hình hoạt động kém.
  • SLERP, ngược lại, di chuyển dọc theo bề mặt cong của chính quả cầu. Đường đi này vốn tôn trọng cấu trúc hình học cơ bản của không gian tham số.

Tại sao đường đi hình cầu này lại có khả năng vượt trội hơn để hợp nhất các LLM?

  1. Bảo tồn Cấu trúc: Bằng cách “ở trên mặt cầu”, SLERP duy trì các mối quan hệ hình học giữa các tham số, bảo tồn các cấu trúc đã học trong mỗi mô hình gốc hiệu quả hơn so với đường đi tuyến tính.
  2. Tránh các Vùng Tổn thấtCao: Đường đi cong ít có khả năng giao cắt với các vùng của không gian tham số liên quan đến lỗi dự đoán cao (tổn thất).
  3. Kết hợp Phi tuyến tính: Công thức nội suy cho SLERP vốn dĩ là phi tuyến tính. Điều này cho phép các tương tác phức tạp, hiệp đồng giữa các tham số từ các mô hình gốc, có khả năng mở khóa các kết hợp đại diện cho các khả năng mới lạ. Một tham số được hợp nhất có thể kích hoạt các tính năng theo cách mà không mô hình gốc nào có thể làm được một mình.
  4. Chuyển tiếp Mượt mà: SLERP cung cấp một sự chuyển tiếp mượt mà về mặt toán học giữa các trạng thái của mô hình gốc, có khả năng dẫn đến sự khái quát hóa tốt hơn trong mô hình được hợp nhất.

Bởi vì SLERP tôn trọng hình học nội tại của mô hình và tạo điều kiện cho các tương tác tham số phi tuyến tính, nó có tiềm năng không chỉ lấy trung bình các khả năng mà còn thực sự pha trộn chúng theo cách thúc đẩy các thuộc tính nổi bật. Điều này làm cho nó trở thành một ứng cử viên đặc biệt hứa hẹn để hợp nhất các mô hình nhắm vào các lĩnh vực phức tạp như khoa học vật liệu, nơi các tương tác tinh tế và sự hiểu biết sâu sắc là chìa khóa.

Đưa Lý thuyết vào Thử nghiệm: Các Thí nghiệm với Llama và Mistral

Để điều tra một cách nghiêm ngặt các chiến lược tinh chỉnh và hợp nhất này, một loạt thí nghiệm có hệ thống đã được tiến hành bằng cách sử dụng các họ mô hình mã nguồn mở phổ biến: Llama 3.1 (8 tỷ tham số)Mistral (7 tỷ tham số). Mục tiêu là so sánh các quy trình huấn luyện khác nhau và đánh giá tác động của việc hợp nhất SLERP.

Thiết kế thử nghiệm bao gồm một số bước chính:

  1. Mô hình Cơ sở: Các thí nghiệm bắt đầu với cả mô hình “cơ sở” nền tảng (đã được tiền huấn luyện nhưng chưa được tinh chỉnh theo hướng dẫn) và các phiên bản “hướng dẫn” (instruct) (đã được tinh chỉnh cho trò chuyện và tuân theo hướng dẫn) cho cả hai họ Llama và Mistral.
  2. Kho Dữ liệu Miền: Một kho dữ liệu chuyên ngành tập trung vào khoa học vật liệu đã được biên soạn từ các ấn phẩm khoa học và dữ liệu đã xử lý.
  3. Quy trình Huấn luyện: Các kết hợp khác nhau của các kỹ thuật huấn luyện đã được áp dụng:
    • Chỉ CPT
    • CPT sau đó là SFT (CPT-SFT)
    • CPT-SFT sau đó là ORPO (CPT-SFT-ORPO)
    • CPT-SFT sau đó là DPO (CPT-SFT-DPO)
    • Một số biến thể bắt đầu trực tiếp từ mô hình Instruct (ví dụ: Instruct-CPT-SFT-DPO).
  4. Hợp nhất Mô hình: Đối với nhiều mô hình đã được tinh chỉnh, việc hợp nhất SLERP đã được thực hiện, thường kết hợp mô hình được điều chỉnh theo miền với mô hình “hướng dẫn” đa năng tương ứng từ cùng một họ (ví dụ: mô hình Llama CPT-SFT-DPO được hợp nhất với mô hình Llama 3.1 Instruct tiêu chuẩn).
  5. Đánh giá: Hiệu suất của tất cả các mô hình kết quả (cả đã hợp nhất và chưa hợp nhất) đã được đánh giá trên một bộ các bài kiểm tra liên quan được thiết kế để kiểm tra kiến thức miền, khả năng suy luận và tuân theo hướng dẫn.

Những Phát hiện Chính trên Llama và Mistral:

  • Hợp nhất SLERP Liên tục Tăng cường Hiệu suất: Trên cả hai họ mô hình và các quy trình huấn luyện khác nhau, các mô hình được tăng cường thông qua hợp nhất SLERP thường đạt được độ chính xác cao nhất trên các bài kiểm tra đánh giá. Điều này ủng hộ mạnh mẽ giả thuyết rằng SLERP là một kỹ thuật hiệu quả để kết hợp các điểm mạnh của mô hình.
  • Hiệu ứng Hiệp đồng được Xác nhận: Hiệu suất của các mô hình được hợp nhất bằng SLERP thường vượt quá mức trung bình đơn giản của hiệu suất của hai mô hình gốc. Việc vẽ biểu đồ điểm số thực tế đạt được so với mức trung bình dự kiến này cho thấy một độ lệch dương đáng kể, xác nhận rằng quá trình hợp nhất thường mở khóa lợi ích hiệp đồng và các khả năng nổi bật. Thực thể được hợp nhất rõ ràng có khả năng hơn chỉ là tổng các bộ phận của nó.
  • Tối ưu hóa Ưu tiên Bổ sung Giá trị: Việc kết hợp các giai đoạn tối ưu hóa ưu tiên (DPO hoặc ORPO) thường mang lại sự cải thiện hiệu suất bổ sung, đặc biệt khi kết hợp với hợp nhất SLERP. Các chiến lược như CPT-SFT-DPO-SLERP hoặc CPT-SFT-ORPO-SLERP thường nằm trong số những chiến lược hoạt động tốt nhất.
  • Chiến lược Tối ưu Không Hợp nhất Thay đổi: Nếu không hợp nhất, chiến lược hoạt động tốt nhất khác nhau một chút giữa các họ mô hình. Đối với Llama 3.1, Instruct-CPT-SFT-DPO cho thấy kết quả mạnh mẽ, trong khi đối với Mistral, Base-CPT-SFT hoạt động tốt tương đương với đối tác Instruct của nó.
  • Tác động của Thời lượng CPT: Phân tích sâu hơn trên các mô hình Mistral cho thấy hiệu suất thường được cải thiện với nhiều epoch Tiền huấn luyện Tiếp tục hơn (lên đến năm epoch được thử nghiệm), đặc biệt khi bắt đầu từ mô hình Instruct, củng cố giá trị của việc tiếp xúc đủ với miền trong quá trình CPT.

Những kết quả này vẽ nên một bức tranh rõ ràng: trong khi tinh chỉnh tuần tự là có giá trị, việc hợp nhất mô hình chiến lược bằng SLERP cung cấp một con đường mạnh mẽ để tăng cường đáng kể hiệu suất LLM, đặc biệt đối với các miền chuyên ngành, thường mang lại các khả năng vượt ra ngoài sự tổng hợp đơn giản.

Tìm hiểu Sâu hơn: Điều gì Làm cho Việc Hợp nhất Hoạt động?

Sự thành công nhất quán của việc hợp nhất SLERP thúc đẩy một cái nhìn sâu hơn về cơ chế cơ bản và các yếu tố ảnh hưởng. Tại sao phương pháp tiếp cận hình học này lại mang lại kết quả mạnh mẽ như vậy, và những điều kiện nào tối ưu hóa hiệu quả của nó?

  • Tương tác Phi tuyến tính: Như đã được lý thuyết hóa, đường đi phi tuyến tính của SLERP qua không gian tham số dường như rất quan trọng. Nó cho phép mô hình được hợp nhất khám phá các kết hợp tham số mà việc lấy trung bình tuyến tính sẽ bỏ lỡ. Những kết hợp này có thể đại diện cho các tương tác mới lạ giữa các đặc trưng đã học, dẫn đến khả năng suy luận hoặc giải quyết vấn đề nổi bật được điều chỉnh cho phù hợp với miền. Hãy tưởng tượng việc kết hợp các tham số mà riêng lẻ đại diện cho sự hiểu biết về ‘độ bền vật liệu’ và ‘cấu trúc sinh học’ – SLERP có thể tìm thấy một sự kết hợp đại diện hiệu quả cho ‘vật liệu cường độ cao lấy cảm hứng từ sinh học’ theo cách mà không mô hình gốc nào làm được một cách rõ ràng.

  • Vai trò của Sự Đa dạng: Các mô hình gốc nên khác nhau như thế nào? Phân tích cho thấy các mối quan hệ phức tạp. Mặc dù sự đa dạng cực đoan có vẻ có lợi, một số mối tương quan chỉ ra rằng trong các bối cảnh nhất định (như mô hình Llama), sự đa dạng hiệu suất cao hơn giữa các mô hình gốc có thể làm giảm nhẹ sự phụ thuộc vào SFT tiếp theo, có lẽ vì việc hợp nhất đã nắm bắt được một bộ khả năng rộng hơn. Sự tương tác này rất tinh tế và có khả năng phụ thuộc vào các phương pháp tinh chỉnh cụ thể được sử dụng cho các mô hình gốc.

  • Điểm Bắt đầu Cơ sở (Base) so với Hướng dẫn (Instruct): Việc lựa chọn mô hình bắt đầu rất quan trọng. Đối với các thí nghiệm Llama, mô hình được hợp nhất hoạt động tốt nhất bắt nguồn từ phiên bản Instruct. Ngược lại, đối với Mistral, một mô hình hoạt động hàng đầu được bắt nguồn từ mô hình Base trước khi trải qua CPT, SFT và hợp nhất. Điều này cho thấy sự khác biệt về kiến trúc hoặc sự thay đổi trong cấu trúc tiền huấn luyện ban đầu của các họ Llama và Mistral ảnh hưởng đến cách chúng phản ứng với các quy trình tinh chỉnh và hợp nhất cụ thể. Không có một điểm bắt đầu “tốt nhất” phổ quát duy nhất; nó đòi hỏi thử nghiệm thực nghiệm.

  • Chất lượng Dữ liệu trong CPT: Nền tảng được đặt trong quá trình Tiền huấn luyện Tiếp tục là rất quan trọng. Các thí nghiệm sử dụng bộ dữ liệu CPT lớn hơn nhưng “nhiễu” hơn (chứa nhiều lỗi định dạng hoặc tạo tác từ nhận dạng ký tự quang học) dẫn đến hiệu suất giảm so với việc sử dụng bộ dữ liệu nhỏ hơn, sạch hơn. Điều này nhấn mạnh tầm quan trọng của dữ liệu chuyên ngành chất lượng cao, được xử lý tốt để giai đoạn CPT có hiệu quả. Nguyên tắc “rác vào, rác ra” vẫn được áp dụng.

  • Tinh chỉnh Tham số SLERP: Bản thân SLERP cũng có các tham số, đáng chú ý là hệ số nội suy (thường được ký hiệu là ‘t’, nằm trong khoảng từ 0 đến 1) xác định trọng số được gán cho mỗi mô hình gốc. Hơn nữa, việc hợp nhất không nhất thiết phải đồng nhất trên tất cả các lớp của mô hình. Các thí nghiệm đã khám phá việc thay đổi hệ số nội suy khác nhau cho các lớp tự chú ý (self-attention) so với các lớp perceptron đa lớp (MLP), hoặc thậm chí thay đổi nó một cách lũy tiến qua độ sâu của mô hình. Kết quả cho thấy các lược đồ trọng số không đồng nhất cụ thể có thể vượt trội hơn phương pháp đồng nhất tiêu chuẩn, cho thấy tiềm năng tối ưu hóa hơn nữa bằng cách điều chỉnh cẩn thận quy trình hợp nhất trên kiến trúc của mạng. Một sự tiến triển tuyến tính đơn giản của trọng số qua các lớp đã chứng tỏ hiệu quả trong một trường hợp Llama.

  • Hiệu ứng Điều chuẩn (Regularization): SLERP cũng có thể hoạt động như một hình thức điều chuẩn. Bằng cách tìm ra một đường đi mượt mà giữa hai mô hình có khả năng chuyên biệt hóa, nó có thể ngăn chặn việc khớp quá mức (overfitting) với các đặc điểm riêng của dữ liệu huấn luyện của một trong hai mô hình gốc, dẫn đến sự khái quát hóa tốt hơn đối với các vấn đề chuyên ngành chưa từng thấy. Nó cũng có thể giúp giảm thiểu “sự quên lãng thảm khốc” (catastrophic forgetting), nơi việc tinh chỉnh trên một tác vụ xóa bỏ kiến thức từ một tác vụ trước đó.

Về bản chất, hiệu quả của SLERP bắt nguồn từ khả năng điều hướng hình học phức tạp của không gian tham số LLM một cách thông minh, thúc đẩy các tương tác phi tuyến tính có lợi đồng thời bảo tồn các cấu trúc kiến thức đã học. Tuy nhiên, việc tối ưu hóa việc sử dụng nó đòi hỏi phải xem xét cẩn thận việc lựa chọn mô hình gốc, lịch sử huấn luyện, chất lượng dữ liệu và thậm chí có thể cả các chi tiết tinh vi của chính quá trình hợp nhất.

Kích thước có Quan trọng không? Khám phá Hiệu ứng Quy mô với các Mô hình Nhỏ hơn

Các hiệu ứng hiệp đồng ấn tượng được quan sát thấy với các mô hình 7 tỷ và 8 tỷ tham số đặt ra một câu hỏi tự nhiên: liệu những khả năng nổi bật được mở khóa bởi việc hợp nhất SLERP này có biểu hiện ở các mô hình ngôn ngữ nhỏ hơn nhiều không? Hay có một ngưỡng quy mô mà dưới đó phép màu biến mất?

Để điều tra điều này, các thí nghiệm tương tự đã được tiến hành bằng cách sử dụng dòng mô hình SmolLM, cụ thể là một biến thể chỉ có 1.7 tỷ tham số. Mô hình này nhỏ hơn đáng kể, phù hợp với các môi trường hạn chế tài nguyên như thiết bị di động hoặc điện toán biên, nhưng có khả năng thiếu sự phong phú về tham số của các mô hình lớn hơn.

Các mô hình SmolLM đã trải qua cùng một quy trình: CPT với kho dữ liệu khoa học vật liệu, tiếp theo là SFT và DPO (chứng tỏ hiệu quả hơn ORPO đối với kiến trúc nhỏ hơn này). Sau đó, việc hợp nhất SLERP đã được áp dụng, kết hợp SmolLM đã được tinh chỉnh với phiên bản cơ sở của nó hoặc các biến thể khác.

Những Phát hiện với SmolLM:

  • Tinh chỉnh Vẫn Hữu ích: Quy trình CPT-SFT-DPO đã cải thiện hiệu suất của mô hình SmolLM đối với các tác vụ miền so với trạng thái ban đầu của nó. Bản thân quá trình tinh chỉnh đã có lợi, nâng cao kiến thức chuyên ngành của nó.
  • Sự Nổi bật Phần lớn Vắng mặt: Tuy nhiên, không giống như các thí nghiệm Llama và Mistral, các mô hình SmolLM được hợp nhất bằng SLERP thường không thể hiện các hiệu ứng hiệp đồng đáng kể. Hiệu suất của chúng thường nằm gần mức trung bình đơn giản của các mô hình gốc, hoặc chỉ cao hơn một chút. Những bước nhảy vọt về hiệu suất và dấu hiệu rõ ràng về các khả năng nổi bật được thấy trong các mô hình 7B/8B đã bị thiếu.

Hàm ý:

Sự tương phản này cho thấy rằng quy mô mô hình có khả năng là một yếu tố then chốt trong việc hiện thực hóa toàn bộ tiềm năng của việc hợp nhất SLERP để tạo ra các thuộc tính nổi bật. Các mô hình nhỏ hơn, với không gian tham số ít phức tạp hơn và chiều thấp hơn, có thể thiếu khả năng biểu diễn hoặc sự phong phú cần thiết để các tương tác phi tuyến tính mạnh mẽ này xảy ra trong quá trình hợp nhất. “Không gian” để khám phá các kết hợp tham số mới lạ, có lợi dường như bị hạn chế đáng kể so với các mô hình lớn hơn.

Những kết quả này phù hợp với các quan sát rộng hơn về quy luật tỷ lệ (scaling laws) trong học sâu, nơi một số khả năng định tính nhất định thường chỉ xuất hiện khi mô hình đạt đến một ngưỡng kích thước nhất định. Có vẻ như sức mạnh hiệp đồng của việc hợp nhất SLERP có thể là một khả năng như vậy phụ thuộc chủ yếu vào quy mô và độ phức tạp đủ của mô hình.

Định lượng Lợi ích: Nhìn kỹ hơn vào Sự Nâng cao Hiệu suất từ Việc Hợp nhất

Trong khi các bài kiểm tra cho thấy các mô hình được hợp nhất thường hoạt động tốt nhất về tổng thể, việc định lượng chính xác chúng tốt hơn bao nhiêu so với các mô hình gốc là rất hữu ích. Cụ thể, liệu mô hình được hợp nhất có luôn vượt trội hơn cả mô hình mạnh hơn trong số hai mô hình được sử dụng để tạo ra nó không?

Để phân tích điều này, độ lệch hiệu suất đã được tính toán cho mỗi mô hình được hợp nhất bằng SLERP. Độ lệch này được định nghĩa là:

Độ lệch Hiệu suất = Hiệu suất(Mô hình Hợp nhất) - Max(Hiệu suất(Mô hình Gốc 1), Hiệu suất(Mô hình Gốc 2))

  • Độ lệch dương (được hình dung bằng các sắc thái xanh lam) có nghĩa là mô hình SLERP hoạt động tốt hơn so với mô hình tốt nhất trong số các mô hình gốc của nó – bằng chứng rõ ràng về sự hiệp đồng.
  • Độ lệch âm (được hình dung bằng màu đỏ) có nghĩa là mô hình SLERP hoạt động kém hơn so với ít nhất một trong các mô hình gốc của nó, cho thấy việc hợp nhất có hại hoặc tốt nhất là chỉ lấy trung bình.

Phân tích Tiết lộ:

Trên phần lớn các thí nghiệm liên quan đến các mô hình Llama 3.1 (8B) và Mistral (7B), độ lệch hiệu suất chủ yếu là dương. Trong nhiều trường hợp, đặc biệt đối với các quy trình được tối ưu hóa tốt (ví dụ: những quy trình liên quan đến CPT, SFT, tối ưu hóa ưu tiên và SLERP), các mô hình được hợp nhất cho thấy độ lệch dương đáng kể, cho thấy chúng vượt trội đáng kể so với khả năng của ngay cả mô hình gốc mạnh nhất của chúng.

Có những trường hợp, đặc biệt với các mô hình gốc ít được tối ưu hóa hơn hoặc có lẽ các tham số hợp nhất dưới mức tối ưu, độ lệch hơi âm hoặc gần bằng không. Tuy nhiên, xu hướng bao trùm là rõ ràng: việc hợp nhất SLERP chiến lược thường xuyên mang lại sự nâng cao hiệu suất thực sự vượt ra ngoài những gì mà một trong hai mô hình gốc có thể đạt được một mình. Điều này củng cố ý tưởng rằng hợp nhất không chỉ là lấy trung bình, mà là một quá trình có khả năng tổng hợp các khả năng vượt trội. Kết quả của SmolLM (1.7B), ngược lại, sẽ cho thấy độ lệch nhỏ hơn nhiều hoặc âm, phù hợp với sự thiếu vắng các hiệu ứng nổi bật mạnh mẽ ở quy mô đó.

Từ Bài kiểm tra đến Động não: Ứng dụng Tương tác trong Thiết kế Vật liệu

Ngoài các bài kiểm tra định lượng, giá trị thực sự của các mô hình được điều chỉnh theo miền này nằm ở khả năng hỗ trợ các tác vụ trong thế giới thực, chẳng hạn như suy luận khoa học và thiết kế sáng tạo. Để đánh giá khía cạnh định tính này, các phiên trò chuyện tương tác đã được tiến hành với một số mô hình hoạt động tốt nhất (bao gồm cả các biến thể đã hợp nhất và chưa hợp nhất).

Thiết lập bao gồm việc cung cấp một lời nhắc hệ thống nhất quán hướng dẫn mô hình hoạt động như một chuyên gia khoa học vật liệu, tiếp theo là một lời nhắc của người dùng được thiết kế để kiểm tra khả năng suy luận sáng tạo, liên miền. Một nhiệm vụ điển hình bao gồm yêu cầu mô hình:

  1. Xem xét hai khái niệm sinh học có vẻ khác biệt (ví dụ: cấu trúc của collagen và mô hình gân lá).
  2. Động não các thiết kế vật liệu mới lạ lấy cảm hứng từ việc kết hợp các nguyên tắc từ cả hai khái niệm.
  3. Giải thích lý do đằng sau các thiết kế được đề xuất.
  4. Xuất các đề xuất ở định dạng có cấu trúc (như JSON) để xử lý tiềm năng ở các bước sau.

Quan sát Định tính:

  • Hiểu biết Miền Mạnh mẽ: Tất cả các mô hình được tinh chỉnh đều thể hiện sự nắm bắt vững chắc các khái niệm sinh học và khoa học vật liệu cơ bản, sử dụng thuật ngữ phù hợp và tham chiếu các nguyên tắc liên quan. Các giai đoạn CPT và SFT rõ ràng đã truyền đạt kiến thức miền đáng kể.
  • Tổng hợp Sáng tạo: Các mô hình nói chung có khả năng bắc cầu khoảng cách khái niệm giữa các đầu vào khác biệt (như collagen và lá) để đề xuất các kiến trúc hoặc chức năng vật liệu đổi mới. Điều này thể hiện khả năng thực hiện suy luận tương tự trong miền chuyên ngành.
  • Đầu ra Có cấu trúc: Các mô hình đã tuân thủ thành công các hướng dẫn yêu cầu đầu ra có cấu trúc (JSON), cho thấy khả năng tuân theo hướng dẫn tốt, đặc biệt đối với những mô hình được tinh chỉnh bằng SFT và tối ưu hóa ưu tiên hoặc bắt nguồn từ cơ sở Instruct.
  • Độ sâu và Rõ ràng Thay đổi: Mặc dù tất cả đều thực hiện nhiệm vụ cốt lõi, sự khác biệt đã xuất hiện về độ sâu của lý luận được cung cấp, tính mới lạ và tính thực tiễn của các thiết kế được đề xuất, cũng như sự rõ ràng và mạch lạc tổng thể của lời giải thích. Các mô hình đã trải qua các quy trình huấn luyện toàn diện hơn, đặc biệt là những mô hình bao gồm tối ưu hóa ưu tiên và hợp nhất SLERP, thường cung cấp các phản hồi phong phú hơn, sâu sắc hơn và sáng tạo hơn.
  • Ảnh hưởng của Việc Hợp nhất: Các mô hình được hợp nhất thường thể hiện sự cân bằng tốt giữa độ chính xác theo miền cụ thể và sự trôi chảy/sáng tạo trong hội thoại, dường như tích hợp kiến thức từ mô hình gốc được điều chỉnh theo miền với các kỹ năng tương tác của mô hình gốc hướng dẫn đa năng.

Các phiên tương tác này cung cấp bằng chứng định tính có giá trị rằng các chiến lược tinh chỉnh và hợp nhất chuyển thành những cải tiến hữu hình trong các tác vụ thực tế, có kết thúc mở đòi hỏi khả năng suy luận và sáng tạo theo miền cụ thể. Chúng đã chứng minh tiềm năng của các LLM