Keahlian Domain LLM: Fine-Tuning, Gabung & Kemampuan Baru

Tantangan Spesialisasi: Mengadaptasi AI untuk Batas Teknis

Large Language Models (LLMs) tidak dapat disangkal telah merevolusi cara kita berinteraksi dengan informasi dan mengotomatisasi tugas yang melibatkan bahasa alami. Raksasa seperti Llama dan Mistral, bahkan dalam bentuk sumber terbukanya, menunjukkan kefasihan yang luar biasa dalam memahami dan menghasilkan teks yang sering kali menyaingi hasil karya manusia. Kehebatan mereka mencakup lanskap yang luas, dari percakapan sehari-hari hingga peringkasan yang kompleks. Namun, merambah ke wilayah sains dan teknik yang terspesialisasi dan kaya jargon—bidang seperti ilmu material atau biomateriomik—menghadirkan rintangan unik.

Domain teknis ini menuntut lebih dari sekadar pengetahuan umum; mereka membutuhkan pemahaman yang mendalam dan bernuansa, kemampuan untuk bernalar atas prinsip-prinsip spesifik, dan keakraban dengan terminologi khusus serta struktur data. LLM standar, yang dilatih pada korpus web yang luas, sering kali gagal ketika dihadapkan pada tuntutan ini. Oleh karena itu, tantangannya terletak pada adaptasi domain: bagaimana kita dapat secara efektif menyesuaikan model generalis yang kuat ini untuk menjadi asisten ahli di bidang yang sangat spesifik?

Sekadar memberikan lebih banyak data khusus tidak selalu menjadi jawaban, juga tidak selalu layak. Melatih raksasa ini dari awal sangat mahal, dan kumpulan data asli yang masif yang digunakan untuk pra-pelatihan awal mereka biasanya tidak dapat diakses. Hal ini terutama berlaku untuk model sumber terbuka populer di mana, meskipun ada transparansi, resep lengkapnya—campuran data yang tepat dan urutan yang digunakan selama pra-pelatihan, fine-tuning, dan penyelarasan—sebagian besar tetap menjadi hak milik. Peneliti dan insinyur membutuhkan strategi yang kuat dan efisien untuk menanamkan pengetahuan baru yang terspesialisasi ke dalam model yang ada sambil secara krusial mempertahankan kemampuan umum yang luas yang diperoleh selama pelatihan awal mereka. Tindakan penyeimbangan yang rumit ini sangat penting untuk menciptakan alat AI yang benar-benar berguna untuk penemuan ilmiah dan inovasi teknik, seperti mengembangkan mesin yang mampu melakukan penalaran multimodal untuk mengeksplorasi inspirasi desain material biologis di berbagai skala dan konteks.

Memetakan Lanskap Pelatihan: Dari Pra-Pelatihan hingga Optimasi Preferensi

Menavigasi jalur menuju keahlian LLM khusus domain melibatkan penjelajahan beragam perangkat strategi fine-tuning. Setiap pendekatan menawarkan cara berbeda untuk membentuk pengetahuan dan perilaku model.

  • Continued Pre-Training (CPT): Strategi ini melibatkan perpanjangan fase pra-pelatihan awal, tetapi kali ini menggunakan korpus yang berfokus langsung pada domain target—seperti kumpulan makalah penelitian ilmu material. Tujuannya adalah untuk membenamkan model dalam bahasa, konsep, dan struktur pengetahuan spesifik bidang tersebut, memungkinkannya menyerap informasi spesifik domain lebih dalam daripada yang dimungkinkan dengan fine-tuning khusus tugas saja. Ini meletakkan dasar pengetahuan yang relevan.

  • Supervised Fine-Tuning (SFT): Mengikuti CPT atau dimulai dari model dasar, SFT secara langsung mengajarkan model cara melakukan tugas tertentu. Ini dicapai menggunakan kumpulan data pasangan input-output yang dikurasi, sering kali diformat sebagai instruksi dan respons yang diinginkan, atau pertanyaan dan jawaban akurat yang relevan dengan domain. SFT mengasah kemampuan model untuk mengikuti instruksi, menjawab pertanyaan secara akurat dalam konteks khusus, dan mematuhi format output yang diinginkan.

  • Low-Rank Adaptation (LoRA): Meskipun bukan fokus utama di sini, LoRA mewakili alternatif atau suplemen yang efisien. Alih-alih melatih ulang seluruh model, LoRA memperkenalkan lapisan ‘adaptor’ kecil yang dapat dilatih. Hal ini memungkinkan adaptasi yang signifikan dengan biaya komputasi yang jauh lebih rendah, meskipun mungkin memiliki keterbatasan dalam seberapa banyak pengetahuan baru yang mendasar dapat diintegrasikan dibandingkan dengan CPT.

  • Preference-Based Optimization: Bergerak melampaui penyelesaian tugas sederhana, optimasi preferensi bertujuan untuk menyelaraskan output model lebih dekat dengan penilaian manusia atau kriteria spesifik seperti kebermanfaatan, ketidakberbahayaan, dan akurasi dalam penalaran. Alih-alih hanya mengandalkan jawaban ‘benar’ yang telah ditentukan sebelumnya (seperti dalam SFT), metode ini belajar dari perbandingan.

    • Direct Preference Optimization (DPO): DPO belajar langsung dari pasangan respons di mana satu lebih disukai daripada yang lain (misalnya, oleh evaluator manusia atau AI lain). Ini mengoptimalkan model untuk meningkatkan kemungkinan menghasilkan respons yang disukai tanpa memerlukan model hadiah terpisah, menyederhanakan pipeline Reinforcement Learning from Human Feedback (RLHF) tradisional.
    • Odds Ratio Preference Optimization (ORPO): Pendatang baru, ORPO memodifikasi tujuan optimasi, terkadang menghasilkan peningkatan kinerja atau stabilitas dibandingkan dengan DPO, terutama dalam menyelaraskan model ke arah kriteria gaya atau penalaran tertentu dalam suatu domain.

Teknik-teknik ini tidak saling eksklusif; mereka sering digunakan secara berurutan atau dalam kombinasi, membentuk pipeline pelatihan yang kompleks. Urutan umum mungkin melibatkan CPT untuk membangun pengetahuan domain, diikuti oleh SFT untuk kemahiran tugas, dan akhirnya DPO atau ORPO untuk penyelarasan dan penyempurnaan. Namun, kombinasi dan urutan optimal tetap menjadi area penelitian aktif, terutama untuk mencapai kinerja puncak dalam domain ilmiah khusus.

Melampaui Tuning Sederhana: Janji Penggabungan Model

Meskipun menyempurnakan satu model melalui tahapan pelatihan berurutan dapat menghasilkan peningkatan yang signifikan, jalan menarik lainnya telah muncul: penggabungan model (model merging). Praktik ini melibatkan pengambilan dua atau lebih model yang dilatih secara terpisah dan menggabungkan parameter mereka—‘bobot’ internal mereka—untuk menciptakan satu model hibrida baru.

Mengapa mencoba fusi seperti itu? Ide intinya adalah untuk menggabungkan kekuatan model induk secara sinergis. Bayangkan satu model yang dilatih secara ahli pada literatur ilmu material (melalui CPT dan SFT) dan model ‘instruksi’ tujuan umum lainnya yang sangat mahir dalam mengikuti instruksi kompleks dan terlibat dalam dialog yang koheren. Menggabungkannya berpotensi menciptakan model yang memiliki pengetahuan domain yang mendalam dan kemampuan percakapan dan mengikuti instruksi yang sangat baik.

Eksplorasi awal mengisyaratkan bahwa proses ini mungkin lebih dari sekadar rata-rata sederhana. Alih-alih hanya memadukan kemampuan, penggabungan berpotensi membuka fungsionalitas baru yang muncul (emergent functionalities)—kemampuan yang tidak secara eksplisit ada di salah satu model induk. Ini menunjukkan interaksi yang sangat non-linear antara parameter selama penggabungan, berpotensi mengarah pada keseluruhan yang lebih besar dari jumlah bagian-bagiannya. Jika terbukti efektif dan dapat dikendalikan, penggabungan model dapat mewakili alat transformatif yang kuat untuk mendorong batas kemampuan LLM, menciptakan sistem AI yang sangat mudah beradaptasi dan kuat yang disesuaikan untuk tantangan ilmiah dan teknik dunia nyata yang kompleks.

Mengungkap Kekuatan SLERP: Pendekatan Geometris untuk Penggabungan

Efektivitas penggabungan model sangat bergantung pada bagaimana parameter model induk digabungkan. Rata-rata linier sederhana (sering disebut Linear Interpolation atau LERP) mungkin tampak intuitif, tetapi sering kali mengarah pada hasil suboptimal atau bahkan menurunkan kinerja. Ini kemungkinan karena ruang parameter dimensi tinggi LLM tidak datar; ia memiliki geometri melengkung yang kompleks. Interpolasi linier berisiko melintasi ‘zona mati’ atau wilayah dengan kerugian tinggi (high-loss) dalam ruang ini, yang secara efektif mengacak representasi yang dipelajari dengan cermat dari model induk.

Masuklah Spherical Linear Interpolation (SLERP). Awalnya dikembangkan untuk animasi rotasi yang mulus dalam grafis komputer, SLERP menawarkan cara yang canggih secara geometris untuk menginterpolasi antara dua titik (dalam hal ini, vektor parameter dari dua model) dengan mengikuti jalur terpendek di sepanjang permukaan hypersphere.

Bayangkan himpunan parameter dari dua model induk sebagai dua titik di permukaan bola raksasa.

  • LERP akan menggambar garis lurus melalui bola yang menghubungkan titik-titik tersebut. Jalur ini mungkin tidak tetap berada di permukaan dan dapat melewati wilayah yang mewakili model berkinerja buruk.
  • SLERP, sebaliknya, berjalan di sepanjang permukaan melengkung bola itu sendiri. Jalur ini secara inheren menghormati struktur geometris yang mendasari ruang parameter.

Mengapa jalur sferis ini berpotensi lebih unggul untuk menggabungkan LLM?

  1. Pelestarian Struktur: Dengan tetap ‘di atas bola’, SLERP mempertahankan hubungan geometris antar parameter, melestarikan struktur yang dipelajari dalam setiap model induk secara lebih efektif daripada jalur linier.
  2. Menghindari Wilayah Kerugian Tinggi: Jalur melengkung cenderung tidak memotong wilayah ruang parameter yang terkait dengan kesalahan prediksi tinggi (kerugian).
  3. Kombinasi Non-Linear: Rumus interpolasi untuk SLERP secara inheren non-linear. Hal ini memungkinkan interaksi sinergis yang kompleks antara parameter dari model induk, berpotensi membuka kombinasi yang mewakili kemampuan baru. Parameter gabungan mungkin mengaktifkan fitur dengan cara yang tidak dapat dilakukan oleh salah satu induk saja.
  4. Transisi Mulus: SLERP menyediakan transisi matematis yang mulus antara status model induk, berpotensi mengarah pada generalisasi yang lebih baik dalam model gabungan.

Karena SLERP menghormati geometri intrinsik model dan memfasilitasi interaksi parameter non-linear, ia memiliki potensi untuk tidak hanya merata-ratakan kemampuan tetapi juga benar-benar memadukannya dengan cara yang mendorong sifat-sifat emergen. Hal ini menjadikannya kandidat yang sangat menjanjikan untuk menggabungkan model yang ditujukan untuk domain kompleks seperti ilmu material, di mana interaksi halus dan pemahaman bernuansa adalah kuncinya.

Menguji Teori: Eksperimen Llama dan Mistral

Untuk menyelidiki strategi fine-tuning dan penggabungan ini secara ketat, serangkaian eksperimen sistematis dilakukan menggunakan keluarga model sumber terbuka populer: Llama 3.1 (8 miliar parameter) dan Mistral (7 miliar parameter). Tujuannya adalah untuk membandingkan pipeline pelatihan yang berbeda dan menilai dampak penggabungan SLERP.

Desain eksperimental melibatkan beberapa langkah kunci:

  1. Model Dasar: Eksperimen dimulai dengan model ‘dasar’ (pra-terlatih tetapi tidak disesuaikan instruksi) dan versi ‘instruksi’ (sudah di-fine-tuning untuk obrolan dan mengikuti instruksi) untuk keluarga Llama dan Mistral.
  2. Korpus Domain: Korpus khusus yang berfokus pada ilmu material disusun dari publikasi ilmiah dan data yang diproses.
  3. Pipeline Pelatihan: Berbagai kombinasi teknik pelatihan diterapkan:
    • Hanya CPT
    • CPT diikuti oleh SFT (CPT-SFT)
    • CPT-SFT diikuti oleh ORPO (CPT-SFT-ORPO)
    • CPT-SFT diikuti oleh DPO (CPT-SFT-DPO)
    • Beberapa variasi dimulai langsung dari model Instruct (misalnya, Instruct-CPT-SFT-DPO).
  4. Penggabungan Model: Untuk banyak model yang di-fine-tuning, penggabungan SLERP dilakukan, biasanya menggabungkan model yang diadaptasi domain dengan model ‘instruksi’ tujuan umum yang sesuai dari keluarga yang sama (misalnya, model Llama CPT-SFT-DPO digabungkan dengan model Llama 3.1 Instruct standar).
  5. Evaluasi: Kinerja semua model yang dihasilkan (baik yang digabung maupun yang tidak digabung) dinilai berdasarkan serangkaian tolok ukur relevan yang dirancang untuk menguji pengetahuan domain, penalaran, dan kepatuhan instruksi.

Temuan Kunci di Llama dan Mistral:

  • Penggabungan SLERP Secara Konsisten Meningkatkan Kinerja: Di kedua keluarga model dan berbagai pipeline pelatihan, model yang ditingkatkan melalui penggabungan SLERP umumnya mencapai akurasi tertinggi pada tolok ukur evaluasi. Ini sangat mendukung hipotesis bahwa SLERP adalah teknik yang efektif untuk menggabungkan kekuatan model.
  • Efek Sinergis Terkonfirmasi: Kinerja model gabungan SLERP sering kali melebihi rata-rata sederhana dari kinerja kedua model induk. Memplot skor aktual yang dicapai terhadap rata-rata yang diharapkan ini mengungkapkan deviasi positif yang signifikan, mengonfirmasi bahwa proses penggabungan sering kali membuka keuntungan sinergis dan kemampuan emergen. Entitas gabungan terbukti lebih mampu daripada sekadar jumlah bagian-bagiannya.
  • Optimasi Preferensi Menambah Nilai: Memasukkan tahapan optimasi preferensi (DPO atau ORPO) sering kali memberikan peningkatan kinerja tambahan, terutama bila dikombinasikan dengan penggabungan SLERP. Strategi seperti CPT-SFT-DPO-SLERP atau CPT-SFT-ORPO-SLERP sering kali termasuk di antara yang berkinerja terbaik.
  • Strategi Non-Gabungan Optimal Bervariasi: Tanpa penggabungan, strategi berkinerja terbaik sedikit berbeda antar keluarga model. Untuk Llama 3.1, Instruct-CPT-SFT-DPO menunjukkan hasil yang kuat, sementara untuk Mistral, Base-CPT-SFT berkinerja sebanding dengan rekan Instruct-nya.
  • Dampak Durasi CPT: Analisis lebih lanjut pada model Mistral menunjukkan bahwa kinerja umumnya meningkat dengan lebih banyak epoch Continued Pre-Training (hingga lima yang diuji), terutama ketika dimulai dari model Instruct, memperkuat nilai paparan domain yang cukup selama CPT.

Hasil ini memberikan gambaran yang jelas: meskipun fine-tuning berurutan berharga, penggabungan model strategis menggunakan SLERP menawarkan jalur yang kuat untuk secara signifikan meningkatkan kinerja LLM, terutama untuk domain khusus, sering kali menghasilkan kemampuan di luar agregasi sederhana.

Penelusuran Lebih Dalam: Apa yang Membuat Penggabungan Berhasil?

Keberhasilan konsisten penggabungan SLERP mendorong peninjauan lebih dekat pada mekanisme dasar dan faktor-faktor yang memengaruhinya. Mengapa pendekatan geometris ini menghasilkan hasil yang begitu kuat, dan kondisi apa yang mengoptimalkan efektivitasnya?

  • Interaksi Non-Linear: Seperti yang diteorikan, jalur non-linear SLERP melalui ruang parameter tampaknya krusial. Ini memungkinkan model gabungan untuk menjelajahi kombinasi parameter yang akan dilewatkan oleh rata-rata linier. Kombinasi ini dapat mewakili interaksi baru antara fitur yang dipelajari, yang mengarah pada kemampuan penalaran atau pemecahan masalah emergen yang disesuaikan dengan domain. Bayangkan menggabungkan parameter yang, secara individual, mewakili pemahaman ‘kekuatan material’ dan ‘struktur biologis’ – SLERP mungkin menemukan kombinasi yang secara efektif mewakili ‘material berkekuatan tinggi yang terinspirasi bio’ dengan cara yang tidak dilakukan secara eksplisit oleh model induk mana pun.

  • Peran Keanekaragaman: Seberapa berbedakah seharusnya model induk? Analisis menyarankan hubungan yang kompleks. Meskipun keragaman ekstrem mungkin tampak bermanfaat, beberapa korelasi menunjukkan bahwa dalam konteks tertentu (seperti model Llama), keragaman kinerja yang lebih tinggi antar induk mungkin sedikit mengurangi ketergantungan pada SFT berikutnya, mungkin karena penggabungan sudah menangkap serangkaian kemampuan yang lebih luas. Interaksi ini halus dan kemungkinan bergantung pada metode fine-tuning spesifik yang digunakan untuk induk.

  • Titik Awal Base vs. Instruct: Pilihan model awal penting. Untuk eksperimen Llama, model gabungan berkinerja terbaik berasal dari versi Instruct. Sebaliknya, untuk Mistral, salah satu yang berkinerja terbaik berasal dari model Base sebelum menjalani CPT, SFT, dan penggabungan. Ini menunjukkan perbedaan arsitektur atau variasi dalam susunan pra-pelatihan awal keluarga Llama dan Mistral memengaruhi cara mereka merespons pipeline fine-tuning dan penggabungan tertentu. Tidak ada satu titik awal ‘terbaik’ universal; itu membutuhkan pengujian empiris.

  • Kualitas Data dalam CPT: Fondasi yang diletakkan selama Continued Pre-Training sangat penting. Eksperimen menggunakan dataset CPT yang lebih besar tetapi ‘lebih berisik’ (mengandung lebih banyak kesalahan format atau artefak dari pengenalan karakter optik) menghasilkan penurunan kinerja dibandingkan dengan menggunakan dataset yang lebih kecil dan lebih bersih. Ini menggarisbawahi pentingnya data spesifik domain berkualitas tinggi yang diproses dengan baik agar tahap CPT efektif. Sampah masuk, sampah keluar masih berlaku.

  • Fine-Tuning Parameter SLERP: SLERP sendiri memiliki parameter, terutama koefisien interpolasi (sering dilambangkan sebagai ‘t’, berkisar dari 0 hingga 1) yang menentukan berapa banyak bobot yang diberikan pada setiap model induk. Selanjutnya, penggabungan tidak harus seragam di semua lapisan model. Eksperimen mengeksplorasi variasi faktor interpolasi secara berbeda untuk lapisan self-attention versus lapisan multilayer perceptron (MLP), atau bahkan memvariasikannya secara progresif melalui kedalaman model. Hasil menunjukkan bahwa skema pembobotan non-uniform spesifik dapat mengungguli pendekatan uniform standar, menunjukkan potensi optimasi lebih lanjut dengan menyesuaikan proses penggabungan secara cermat di seluruh arsitektur jaringan. Progresi linier sederhana bobot di seluruh lapisan terbukti efektif dalam satu kasus Llama.

  • Efek Regularisasi: SLERP mungkin juga bertindak sebagai bentuk regularisasi. Dengan menemukan jalur mulus antara dua model yang berpotensi terspesialisasi, ini mungkin mencegah overfitting terhadap kekhasan data pelatihan salah satu induk, yang mengarah pada generalisasi yang lebih baik pada masalah spesifik domain yang tidak terlihat. Ini mungkin juga membantu mengurangi ‘catastrophic forgetting’, di mana fine-tuning pada satu tugas menghapus pengetahuan dari tugas sebelumnya.

Intinya, efektivitas SLERP berasal dari kemampuannya untuk menavigasi geometri kompleks ruang parameter LLM secara cerdas, mendorong interaksi non-linear yang bermanfaat sambil melestarikan struktur pengetahuan yang dipelajari. Namun, mengoptimalkan penggunaannya memerlukan pertimbangan cermat terhadap pilihan model induk, riwayat pelatihan, kualitas data, dan bahkan mungkin detail halus dari penggabungan itu sendiri.

Apakah Ukuran Penting? Menjelajahi Efek Penskalaan dengan Model yang Lebih Kecil

Efek sinergis mengesankan yang diamati dengan model parameter 7 miliar dan 8 miliar menimbulkan pertanyaan alami: apakah kemampuan emergen yang dibuka oleh penggabungan SLERP ini juga muncul pada model bahasa yang jauh lebih kecil? Atau adakah ambang batas skala di bawahnya keajaiban itu memudar?

Untuk menyelidiki hal ini, eksperimen serupa dilakukan menggunakan seri model SmolLM, khususnya varian dengan hanya 1,7 miliar parameter. Model ini secara signifikan lebih kecil, membuatnya cocok untuk lingkungan dengan sumber daya terbatas seperti perangkat seluler atau komputasi tepi, tetapi berpotensi kekurangan kekayaan parameter dari sepupunya yang lebih besar.

Model SmolLM menjalani pipeline yang sama: CPT dengan korpus ilmu material, diikuti oleh SFT dan DPO (yang terbukti lebih efektif daripada ORPO untuk arsitektur yang lebih kecil ini). Penggabungan SLERP kemudian diterapkan, menggabungkan SmolLM yang telah di-fine-tuning dengan versi dasarnya atau varian lainnya.

Temuan dengan SmolLM:

  • Fine-tuning Masih Membantu: Pipeline CPT-SFT-DPO memang meningkatkan kinerja model SmolLM pada tugas domain relatif terhadap keadaan aslinya. Proses fine-tuning itu sendiri bermanfaat, meningkatkan pengetahuan khususnya.
  • Kemunculan Sebagian Besar Tidak Ada: Namun, tidak seperti eksperimen Llama dan Mistral, model SmolLM yang digabungkan dengan SLERP umumnya tidak menunjukkan efek sinergis yang signifikan. Kinerja mereka biasanya mendekati rata-rata sederhana dari model induk, atau hanya sedikit di atasnya. Lompatan kinerja dramatis dan tanda-tanda jelas kemampuan emergen yang terlihat pada model 7B/8B hilang.

Implikasi:

Kontras ini menunjukkan bahwa skala model kemungkinan merupakan faktor kunci dalam mewujudkan potensi penuh penggabungan SLERP untuk menghasilkan properti emergen. Model yang lebih kecil, dengan ruang parameter yang kurang kompleks dan berdimensi lebih rendah, mungkin kekurangan kapasitas representasi atau kekayaan yang diperlukan agar interaksi non-linear yang kuat ini terjadi selama penggabungan. ‘Ruang’ untuk menemukan kombinasi parameter baru yang bermanfaat tampaknya jauh lebih terbatas dibandingkan dengan model yang lebih besar.

Hasil ini sejalan dengan pengamatan yang lebih luas tentang hukum penskalaan (scaling laws) dalam deep learning, di mana kemampuan kualitatif tertentu sering kali hanya muncul setelah model mencapai ambang batas ukuran tertentu. Tampaknya kekuatan sinergis penggabungan SLERP mungkin merupakan salah satu kemampuan yang sangat bergantung pada skala dan kompleksitas model yang memadai.

Mengukur Peningkatan: Melihat Lebih Dekat Peningkatan Kinerja dari Penggabungan

Meskipun tolok ukur menunjukkan model gabungan sering kali berkinerja terbaik secara keseluruhan, ada baiknya untuk mengukur secara tepat seberapa lebih baik mereka dibandingkan dengan induknya. Secara khusus, apakah model gabungan secara konsisten mengungguli bahkan model yang lebih kuat dari dua model yang digunakan untuk membuatnya?

Untuk menganalisis ini, deviasi kinerja dihitung untuk setiap model gabungan SLERP. Deviasi ini didefinisikan sebagai:

Deviasi Kinerja = Kinerja(Model Gabungan) - Maks(Kinerja(Induk 1), Kinerja(Induk 2))

  • Deviasi positif (divisualisasikan dalam nuansa biru) berarti model SLERP berkinerja lebih baik daripada yang terbaik dari induknya – bukti nyata sinergi.
  • Deviasi negatif (divisualisasikan dalam warna merah) berarti model SLERP berkinerja lebih buruk daripada setidaknya salah satu induknya, menunjukkan penggabungan itu merugikan atau, paling banter, merata-rata.

Analisis Mengungkapkan:

Di sebagian besar eksperimen yang melibatkan model Llama 3.1 (8B) dan Mistral (7B), deviasi kinerja didominasi positif. Dalam banyak kasus, terutama untuk pipeline yang dioptimalkan dengan baik (misalnya, yang melibatkan CPT, SFT, optimasi preferensi, dan SLERP), model gabungan menunjukkan deviasi positif yang substansial, menunjukkan bahwa mereka secara signifikan melampaui kemampuan bahkan induk terkuat mereka.

Ada beberapa contoh, terutama dengan model induk yang kurang optimal atau mungkin parameter penggabungan suboptimal, di mana deviasi sedikit negatif atau mendekati nol. Namun, tren keseluruhannya jelas: penggabungan SLERP strategis sering kali memberikan peningkatan kinerja sejati di luar apa yang dapat dicapai oleh salah satu model induk saja. Ini memperkuat gagasan bahwa penggabungan bukan hanya rata-rata, tetapi proses yang mampu mensintesis kemampuan superior. Hasil SmolLM (1.7B), sebaliknya, akan menunjukkan deviasi yang jauh lebih kecil atau negatif, konsisten dengan kurangnya efek emergen yang kuat pada skala tersebut.

Dari Tolok Ukur ke Brainstorming: Aplikasi Interaktif dalam Desain Material

Di luar tolok ukur kuantitatif, nilai sebenarnya dari model yangdiadaptasi domain ini terletak pada kemampuan mereka untuk membantu tugas-tugas dunia nyata, seperti penalaran ilmiah dan desain kreatif. Untuk menilai aspek kualitatif ini, sesi obrolan interaktif dilakukan dengan beberapa model berkinerja terbaik (termasuk varian gabungan dan non-gabungan).

Pengaturan melibatkan penyediaan prompt sistem yang konsisten yang menginstruksikan model untuk bertindak sebagai ahli ilmu material, diikuti oleh prompt pengguna yang dirancang untuk menguji penalaran kreatif lintas domain. Tugas tipikal melibatkan meminta model untuk:

  1. Mempertimbangkan dua konsep biologis yang tampaknya berbeda (misalnya, struktur kolagen dan pola venasi daun).
  2. Melakukan brainstorming desain material baru yang terinspirasi dengan menggabungkan prinsip-prinsip dari kedua konsep tersebut.
  3. Menjelaskan alasan di balik desain yang diusulkan.
  4. Menghasilkan saran dalam format terstruktur (seperti JSON) untuk potensi pemrosesan hilir.

Observasi Kualitatif:

  • Pemahaman Domain yang Kuat: Semua model yang di-fine-tuning menunjukkan pemahaman yang solid tentang konsep biologi dan ilmu material yang mendasarinya, menggunakan terminologi yang sesuai dan merujuk prinsip-prinsip yang relevan. Tahapan CPT dan SFT jelas menanamkan pengetahuan domain yang signifikan.
  • Sintesis Kreatif: Model-model tersebut umumnya mampu menjembatani kesenjangan konseptual antara input yang berbeda (seperti kolagen dan daun) untuk mengusulkan arsitektur atau fungsionalitas material yang inovatif. Ini menunjukkan kemampuan mereka untuk melakukan penalaran analogis dalam domain khusus.
  • Output Terstruktur: Model berhasil mematuhi instruksi yang meminta output terstruktur (JSON), menunjukkan kemampuan mengikuti instruksi yang baik, terutama bagi mereka yang disempurnakan dengan SFT dan optimasi preferensi atau berasal dari basis Instruct.
  • Kedalaman dan Kejelasan Bervariasi: Meskipun semua melakukan tugas inti, perbedaan muncul dalam kedalaman penalaran yang diberikan, kebaruan dan kepraktisan desain yang diusulkan, serta kejelasan dan koherensi penjelasan secara keseluruhan. Model yang menjalani pipeline pelatihan yang lebih komprehensif, terutama yang mencakup optimasi preferensi dan penggabungan SLERP, sering kali memberikan respons yang lebih kaya, lebih berwawasan, dan lebih kreatif.
  • Pengaruh Penggabungan: Model gabungan sering kali menunjukkan keseimbangan yang baik antara akurasi spesifik domain dan kefasihan/kreativitas percakapan, tampaknya mengintegrasikan pengetahuan dari induk yang disesuaikan domain dengan keterampilan interaksi dari induk instruksi tujuan umum.

Sesi interaktif ini memberikan bukti kualitatif yang berharga bahwa strategi fine-tuning dan penggabungan diterjemahkan menjadi peningkatan nyata dalam tugas-tugas praktis dan terbuka yang membutuhkan penalaran dan kreativitas spesifik domain. Mereka menunjukkan potensi LLM yang disesuaikan ini untuk bertindak sebagai kolaborator berharga dalam eksplorasi ilmiah dan ideasi desain dalam bidang-bidang seperti ilmu material.