Kepakaran Domain LLM: Penalaan, Gabungan & Keupayaan Baru

Cabaran Pengkhususan: Menyesuaikan AI untuk Sempadan Teknikal

Model Bahasa Besar (LLM) tidak dapat dinafikan telah merevolusikan cara kita berinteraksi dengan maklumat dan mengautomasikan tugas yang melibatkan bahasa semula jadi. Gergasi seperti Llama dan Mistral, walaupun dalam bentuk sumber terbukanya, menunjukkan kefasihan yang luar biasa dalam memahami dan menjana teks yang sering menyaingi hasil manusia. Kehebatan mereka merangkumi landskap yang luas, daripada perbualan harian kepada ringkasan yang kompleks. Walau bagaimanapun, meneroka wilayah sains dan kejuruteraan yang khusus dan kaya dengan jargon—bidang seperti sains bahan atau biomateriomik—menghadirkan halangan yang unik.

Domain teknikal ini menuntut lebih daripada pengetahuan am; ia memerlukan pemahaman yang mendalam dan bernuansa, keupayaan untuk menaakul berdasarkan prinsip khusus, dan kebiasaan dengan terminologi dan struktur data yang khusus. LLM standard, yang dilatih pada korpora web yang luas, sering goyah apabila berhadapan dengan tuntutan ini. Oleh itu, cabarannya terletak pada penyesuaian domain: bagaimana kita boleh menyesuaikan model generalis yang berkuasa ini secara berkesan untuk menjadi pembantu pakar dalam bidang yang sangat spesifik?

Hanya menyuapkan lebih banyak data khusus tidak selalunya jawapannya, dan ia juga tidak selalunya boleh dilaksanakan. Melatih gergasi ini dari awal adalah sangat mahal, dan set data asal yang besar yang digunakan untuk pra-latihan awal mereka biasanya tidak dapat diakses. Ini benar terutamanya untuk model sumber terbuka yang popular di mana, walaupun terdapat sedikit ketelusan, resipi penuh—campuran data yang tepat dan urutan yang digunakan semasa pra-latihan, penalaan halus, dan penjajaran—sebahagian besarnya kekal proprietari. Penyelidik dan jurutera memerlukan strategi yang mantap dan cekap untuk menerapkan pengetahuan baharu yang khusus kepada model sedia ada sambil mengekalkan keupayaan umum yang luas yang diperoleh semasa latihan awal mereka secara kritikal. Tindakan pengimbangan yang halus ini adalah penting untuk mencipta alat AI yang benar-benar berguna untuk penemuan saintifik dan inovasi kejuruteraan, seperti membangunkan enjin yang mampu melakukan penaakulan multimodal untuk meneroka inspirasi reka bentuk bahan biologi merentasi skala dan konteks yang pelbagai.

Memetakan Landskap Latihan: Daripada Pra-Latihan kepada Pengoptimuman Keutamaan

Menavigasi laluan ke kepakaran LLM khusus domain melibatkan penerokaan kit alat strategi penalaan halus yang pelbagai. Setiap pendekatan menawarkan cara yang berbeza untuk membentuk pengetahuan dan tingkah laku model.

  • Pra-Latihan Berterusan (CPT): Strategi ini melibatkan pelanjutan fasa pra-latihan awal, tetapi kali ini menggunakan korpus yang tertumpu sepenuhnya pada domain sasaran—seperti koleksi kertas penyelidikan sains bahan. Matlamatnya adalah untuk menenggelamkan model dalam bahasa, konsep, dan struktur pengetahuan khusus bidang tersebut, membolehkannya menyerap maklumat khusus domain dengan lebih mendalam daripada yang mungkin dilakukan dengan penalaan halus khusus tugas sahaja. Ia meletakkan asas pengetahuan yang relevan.

  • Penalaan Halus Terselia (SFT): Mengikuti CPT atau bermula daripada model asas, SFT secara langsung mengajar model cara melaksanakan tugas tertentu. Ini dicapai menggunakan set data pasangan input-output yang disusun rapi, sering diformatkan sebagai arahan dan respons yang dikehendaki, atau soalan dan jawapan tepat yang relevan dengan domain. SFT mengasah keupayaan model untuk mengikut arahan, menjawab soalan dengan tepat dalam konteks khusus, dan mematuhi format output yang dikehendaki.

  • Adaptasi Pangkat Rendah (LoRA): Walaupun bukan fokus utama di sini, LoRA mewakili alternatif atau tambahan yang cekap. Daripada melatih semula keseluruhan model, LoRA memperkenalkan lapisan ‘penyesuai’ kecil yang boleh dilatih. Ini membolehkan penyesuaian yang ketara dengan kos pengiraan yang jauh lebih rendah, walaupun ia mungkin mempunyai batasan dalam berapa banyak pengetahuan baharu secara asasnya boleh disepadukan berbanding CPT.

  • Pengoptimuman Berasaskan Keutamaan: Melangkaui penyelesaian tugas mudah, pengoptimuman keutamaan bertujuan untuk menyelaraskan output model dengan lebih dekat dengan pertimbangan manusia atau kriteria khusus seperti kebergunaan, ketidakberbahayaan, dan ketepatan dalam penaakulan. Daripada bergantung semata-mata pada jawapan ‘betul’ yang telah ditetapkan (seperti dalam SFT), kaedah ini belajar daripada perbandingan.

    • Pengoptimuman Keutamaan Langsung (DPO): DPO belajar secara langsung daripada pasangan respons di mana satu lebih diutamakan daripada yang lain (cth., oleh penilai manusia atau AI lain). Ia mengoptimumkan model untuk meningkatkan kemungkinan menjana respons pilihan tanpa memerlukan model ganjaran yang berasingan, memudahkan saluran paip Pembelajaran Pengukuhan daripada Maklum Balas Manusia (RLHF) tradisional.
    • Pengoptimuman Keutamaan Nisbah Odds (ORPO): Peserta yang lebih baharu, ORPO mengubah suai objektif pengoptimuman, kadangkala menghasilkan prestasi atau kestabilan yang lebih baik berbanding DPO, terutamanya dalam menyelaraskan model ke arah kriteria gaya atau penaakulan tertentu dalam domain.

Teknik-teknik ini tidak saling eksklusif; ia sering digunakan secara berurutan atau gabungan, membentuk saluran paip latihan yang kompleks. Urutan biasa mungkin melibatkan CPT untuk membina pengetahuan domain, diikuti oleh SFT untuk kecekapan tugas, dan akhirnya DPO atau ORPO untuk penjajaran dan penambahbaikan. Walau bagaimanapun, gabungan dan urutan optimum kekal sebagai bidang penyelidikan aktif, terutamanya untuk mencapai prestasi puncak dalam domain saintifik khusus.

Melangkaui Penalaan Mudah: Janji Penggabungan Model

Walaupun memperhalusi satu model melalui peringkat latihan berurutan boleh menghasilkan peningkatan yang ketara, satu lagi jalan menarik telah muncul: penggabungan model. Amalan ini melibatkan pengambilan dua atau lebih model yang dilatih secara berasingan dan menggabungkan parameter mereka—‘pemberat’ dalaman mereka—untuk mencipta satu model hibrid baharu.

Mengapa mencuba gabungan sedemikian? Idea terasnya adalah untuk menggabungkan kekuatan model induk secara sinergistik. Bayangkan satu model yang dilatih secara pakar mengenai literatur sains bahan (melalui CPT dan SFT) dan satu lagi model ‘instruct’ tujuan umum yang sangat mahir dalam mengikuti arahan kompleks dan terlibat dalam dialog yang koheren. Menggabungkannya berpotensi mencipta model yang memiliki kedua-dua pengetahuan domain yang mendalam dan keupayaan perbualan dan mengikuti arahan yang sangat baik.

Penerokaan awal membayangkan bahawa proses ini mungkin lebih daripada sekadar purata mudah. Daripada hanya menggabungkan keupayaan, penggabungan berpotensi membuka kunci fungsi baharu yang muncul sepenuhnya—keupayaan yang tidak ada secara eksplisit dalam mana-mana model induk. Ini menunjukkan interaksi yang sangat tidak linear antara parameter semasa penggabungan, berpotensi membawa kepada keseluruhan yang lebih besar daripada jumlah bahagiannya. Jika terbukti berkesan dan bolehdikawal, penggabungan model boleh mewakili alat yang berkuasa dan transformatif untuk menolak sempadan keupayaan LLM, mencipta sistem AI yang sangat mudah disesuaikan dan kuat yang disesuaikan untuk cabaran saintifik dan kejuruteraan dunia nyata yang kompleks.

Mendedahkan Kuasa SLERP: Pendekatan Geometri untuk Penggabungan

Keberkesanan penggabungan model bergantung secara kritikal pada bagaimana parameter model induk digabungkan. Purata linear mudah (sering dipanggil Interpolasi Linear atau LERP) mungkin kelihatan intuitif, tetapi ia sering membawa kepada hasil suboptimal atau bahkan merendahkan prestasi. Ini mungkin kerana ruang parameter dimensi tinggi LLM tidak rata; ia mempunyai geometri melengkung yang kompleks. Interpolasi linear berisiko melintasi ‘zon mati’ atau kawasan kerugian tinggi dalam ruang ini, secara berkesan mengacaukan perwakilan yang dipelajari dengan teliti bagi model induk.

Masukkan Interpolasi Linear Sfera (SLERP). Asalnya dibangunkan untuk animasi putaran yang lancar dalam grafik komputer, SLERP menawarkan cara yang canggih secara geometri untuk menginterpolasi antara dua titik (dalam kes ini, vektor parameter dua model) dengan mengikuti laluan terpendek di sepanjang permukaan hipersfera.

Bayangkan set parameter kedua-dua model induk sebagai dua titik pada permukaan sfera gergasi.

  • LERP akan melukis garis lurus melalui sfera yang menghubungkan titik-titik tersebut. Laluan ini mungkin tidak kekal di permukaan dan boleh melalui kawasan yang mewakili model berprestasi buruk.
  • SLERP, sebaliknya, bergerak di sepanjang permukaan melengkung sfera itu sendiri. Laluan ini secara semula jadi menghormati struktur geometri asas ruang parameter.

Mengapa laluan sfera ini berpotensi lebih unggul untuk menggabungkan LLM?

  1. Pemeliharaan Struktur: Dengan kekal ‘di atas sfera’, SLERP mengekalkan hubungan geometri antara parameter, memelihara struktur yang dipelajari dalam setiap model induk dengan lebih berkesan daripada laluan linear.
  2. Mengelakkan Kawasan Kerugian Tinggi: Laluan melengkung kurang berkemungkinan bersilang dengan kawasan ruang parameter yang dikaitkan dengan ralat ramalan tinggi (kerugian).
  3. Gabungan Tidak Linear: Formula interpolasi untuk SLERP sememangnya tidak linear. Ini membolehkan interaksi sinergistik yang kompleks antara parameter daripada model induk, berpotensi membuka kunci gabungan yang mewakili keupayaan baharu. Parameter yang digabungkan mungkin mengaktifkan ciri dengan cara yang tidak dapat dilakukan oleh mana-mana induk sahaja.
  4. Peralihan Lancar: SLERP menyediakan peralihan yang lancar secara matematik antara keadaan model induk, berpotensi membawa kepada generalisasi yang lebih baik dalam model yang digabungkan.

Kerana SLERP menghormati geometri intrinsik model dan memudahkan interaksi parameter tidak linear, ia berpotensi untuk bukan sahaja mempuratakan keupayaan tetapi untuk benar-benar menggabungkannya dengan cara yang memupuk sifat-sifat yang muncul. Ini menjadikannya calon yang sangat menjanjikan untuk menggabungkan model yang ditujukan untuk domain kompleks seperti sains bahan, di mana interaksi halus dan pemahaman bernuansa adalah kunci.

Menguji Teori: Eksperimen Llama dan Mistral

Untuk menyiasat strategi penalaan halus dan penggabungan ini secara teliti, satu siri eksperimen sistematik telah dijalankan menggunakan keluarga model sumber terbuka yang popular: Llama 3.1 (8 bilion parameter) dan Mistral (7 bilion parameter). Matlamatnya adalah untuk membandingkan saluran paip latihan yang berbeza dan menilai kesan penggabungan SLERP.

Reka bentuk eksperimen melibatkan beberapa langkah utama:

  1. Model Asas: Eksperimen bermula dengan kedua-dua model ‘asas’ asas (pra-latihan tetapi tidak ditala arahan) dan versi ‘instruct’ (sudah ditala halus untuk sembang dan mengikuti arahan) untuk kedua-dua keluarga Llama dan Mistral.
  2. Korpus Domain: Korpus khusus yang tertumpu pada sains bahan telah disusun daripada penerbitan saintifik dan data yang diproses.
  3. Saluran Paip Latihan: Pelbagai kombinasi teknik latihan telah digunakan:
    • CPT sahaja
    • CPT diikuti oleh SFT (CPT-SFT)
    • CPT-SFT diikuti oleh ORPO (CPT-SFT-ORPO)
    • CPT-SFT diikuti oleh DPO (CPT-SFT-DPO)
    • Beberapa variasi bermula terus daripada model Instruct (cth., Instruct-CPT-SFT-DPO).
  4. Penggabungan Model: Untuk kebanyakan model yang ditala halus, penggabungan SLERP telah dilakukan, biasanya menggabungkan model yang disesuaikan domain dengan model ‘instruct’ tujuan umum yang sepadan daripada keluarga yang sama (cth., model CPT-SFT-DPO Llama digabungkan dengan model Llama 3.1 Instruct standard).
  5. Penilaian: Prestasi semua model yang terhasil (kedua-dua yang digabungkan dan tidak digabungkan) dinilai merentasi satu set penanda aras relevan yang direka untuk menguji pengetahuan domain, penaakulan, dan pematuhan arahan.

Penemuan Utama Merentasi Llama dan Mistral:

  • Penggabungan SLERP Secara Konsisten Meningkatkan Prestasi: Merentasi kedua-dua keluarga model dan pelbagai saluran paip latihan, model yang dipertingkatkan melalui penggabungan SLERP secara amnya mencapai ketepatan tertinggi pada penanda aras penilaian. Ini menyokong kuat hipotesis bahawa SLERP adalah teknik yang berkesan untuk menggabungkan kekuatan model.
  • Kesan Sinergistik Disahkan: Prestasi model gabungan SLERP kerap kali melebihi purata mudah prestasi kedua-dua model induk. Memplot skor sebenar yang dicapai berbanding purata jangkaan ini mendedahkan sisihan positif yang ketara, mengesahkan bahawa proses penggabungan sering membuka kunci keuntungan sinergistik dan keupayaan yang muncul. Entiti yang digabungkan terbukti lebih berkebolehan daripada sekadar jumlah bahagiannya.
  • Pengoptimuman Keutamaan Menambah Nilai: Menggabungkan peringkat pengoptimuman keutamaan (DPO atau ORPO) sering memberikan peningkatan prestasi tambahan, terutamanya apabila digabungkan dengan penggabungan SLERP. Strategi seperti CPT-SFT-DPO-SLERP atau CPT-SFT-ORPO-SLERP kerap kali berada di kalangan yang berprestasi terbaik.
  • Strategi Tidak Digabungkan Optimum Bervariasi: Tanpa penggabungan, strategi berprestasi terbaik berbeza sedikit antara keluarga model. Untuk Llama 3.1, Instruct-CPT-SFT-DPO menunjukkan hasil yang kukuh, manakala untuk Mistral, Base-CPT-SFT menunjukkan prestasi yang setanding dengan rakan Instructnya.
  • Kesan Tempoh CPT: Analisis lanjut pada model Mistral menunjukkan bahawa prestasi secara amnya bertambah baik dengan lebih banyak epok Latihan Pra-Berterusan (sehingga lima yang diuji), terutamanya apabila bermula daripada model Instruct, mengukuhkan nilai pendedahan domain yang mencukupi semasa CPT.

Hasil ini memberikan gambaran yang jelas: walaupun penalaan halus berurutan adalah berharga, penggabungan model strategik menggunakan SLERP menawarkan laluan yang berkuasa untuk meningkatkan prestasi LLM dengan ketara, terutamanya untuk domain khusus, sering menghasilkan keupayaan di luar agregasi mudah.

Penerokaan Lebih Mendalam: Apa yang Membuat Penggabungan Berfungsi?

Kejayaan konsisten penggabungan SLERP mendorong pemeriksaan lebih dekat terhadap mekanik asas dan faktor-faktor yang mempengaruhi. Mengapa pendekatan geometri ini menghasilkan keputusan yang begitu hebat, dan apakah keadaan yang mengoptimumkan keberkesanannya?

  • Interaksi Tidak Linear: Seperti yang diteorikan, laluan tidak linear SLERP melalui ruang parameter kelihatan penting. Ia membolehkan model yang digabungkan meneroka gabungan parameter yang akan terlepas oleh purata linear. Gabungan ini boleh mewakili interaksi baharu antara ciri yang dipelajari, membawa kepada penaakulan atau kebolehan menyelesaikan masalah yang muncul yang disesuaikan dengan domain. Bayangkan menggabungkan parameter yang, secara individu, mewakili pemahaman ‘kekuatan bahan’ dan ‘struktur biologi’ – SLERP mungkin menemui gabungan yang secara berkesan mewakili ‘bahan berkekuatan tinggi yang diilhamkan oleh bio’ dengan cara yang tidak dilakukan secara eksplisit oleh mana-mana model induk.

  • Peranan Kepelbagaian: Sejauh mana perbezaan model induk sepatutnya? Analisis mencadangkan hubungan yang kompleks. Walaupun kepelbagaian yang melampau mungkin kelihatan bermanfaat, beberapa korelasi menunjukkan bahawa dalam konteks tertentu (seperti model Llama), kepelbagaian prestasi yang lebih tinggi antara induk mungkin sedikit mengurangkan pergantungan pada SFT berikutnya, mungkin kerana penggabungan sudah menangkap set keupayaan yang lebih luas. Interaksi ini halus dan mungkin bergantung pada kaedah penalaan halus khusus yang digunakan untuk induk.

  • Titik Permulaan Asas lwn. Instruct: Pilihan model permulaan adalah penting. Untuk eksperimen Llama, model gabungan berprestasi terbaik berasal daripada versi Instruct. Sebaliknya, untuk Mistral, model berprestasi terbaik diperoleh daripada model Asas sebelum menjalani CPT, SFT, dan penggabungan. Ini menunjukkan perbezaan seni bina atau variasi dalam solekan pra-latihan awal keluarga Llama dan Mistral mempengaruhi cara mereka bertindak balas terhadap saluran paip penalaan halus dan penggabungan tertentu. Tidak ada satu titik permulaan ‘terbaik’ universal tunggal; ia memerlukan ujian empirikal.

  • Kualiti Data dalam CPT: Asas yang diletakkan semasa Latihan Pra-Berterusan adalah kritikal. Eksperimen menggunakan set data CPT yang lebih besar tetapi ‘lebih bising’ (mengandungi lebih banyak ralat pemformatan atau artifak daripada pengecaman aksara optik) mengakibatkan penurunan prestasi berbanding menggunakan set data yang lebih kecil dan lebih bersih. Ini menekankan kepentingan data khusus domain berkualiti tinggi yang diproses dengan baik agar peringkat CPT menjadi berkesan. Sampah masuk, sampah keluar masih terpakai.

  • Menala Halus Parameter SLERP: SLERP sendiri mempunyai parameter, terutamanya pekali interpolasi (sering dilambangkan sebagai ‘t’, antara 0 hingga 1) yang menentukan berapa banyak pemberat diberikan kepada setiap model induk. Tambahan pula, penggabungan tidak semestinya seragam merentasi semua lapisan model. Eksperimen meneroka variasi faktor interpolasi secara berbeza untuk lapisan perhatian kendiri berbanding lapisan perceptron berbilang lapisan (MLP), atau bahkan memvariasikannya secara progresif melalui kedalaman model. Hasil menunjukkan bahawa skema pemberat tidak seragam tertentu boleh mengatasi pendekatan seragam standard, mencadangkan potensi pengoptimuman selanjutnya dengan menyesuaikan proses penggabungan secara teliti merentasi seni bina rangkaian. Progresi linear mudah pemberat merentasi lapisan terbukti berkesan dalam satu kes Llama.

  • Kesan Regularisasi: SLERP juga mungkin bertindak sebagai satu bentuk regularisasi. Dengan mencari laluan lancar antara dua model yang berpotensi khusus, ia mungkin tidak menggalakkan penyesuaian berlebihan terhadap keanehan data latihan mana-mana induk, membawa kepada generalisasi yang lebih baik pada masalah khusus domain yang tidak kelihatan. Ia juga mungkin membantu mengurangkan ‘kelupaan malapetaka’, di mana penalaan halus pada satu tugas memadamkan pengetahuan daripada tugas sebelumnya.

Pada dasarnya, keberkesanan SLERP berpunca daripada keupayaannya untuk menavigasi geometri kompleks ruang parameter LLM secara bijak, memupuk interaksi tidak linear yang bermanfaat sambil memelihara struktur pengetahuan yang dipelajari. Walau bagaimanapun, mengoptimumkan penggunaannya memerlukan pertimbangan teliti terhadap pilihan model induk, sejarah latihan, kualiti data, dan berpotensi juga butiran terperinci penggabungan itu sendiri.

Adakah Saiz Penting? Meneroka Kesan Penskalaan dengan Model Lebih Kecil

Kesan sinergistik yang mengagumkan yang diperhatikan dengan model parameter 7 bilion dan 8 bilion menimbulkan persoalan semula jadi: adakah keupayaan muncul yang dibuka kunci oleh penggabungan SLERP ini juga termanifestasi dalam model bahasa yang jauh lebih kecil? Atau adakah terdapat ambang skala di bawahnya keajaiban itu pudar?

Untuk menyiasat perkara ini, eksperimen serupa telah dijalankan menggunakan siri model SmolLM, khususnya varian dengan hanya 1.7 bilion parameter. Model ini jauh lebih kecil, menjadikannya sesuai untuk persekitaran terhad sumber seperti peranti mudah alih atau pengkomputeran pinggir, tetapi berpotensi kekurangan kekayaan parameter sepupunya yang lebih besar.

Model SmolLM menjalani saluran paip yang sama: CPT dengan korpus sains bahan, diikuti oleh SFT dan DPO (yang terbukti lebih berkesan daripada ORPO untuk seni bina yang lebih kecil ini). Penggabungan SLERP kemudiannya digunakan, menggabungkan SmolLM yang ditala halus dengan versi asasnya atau varian lain.

Penemuan dengan SmolLM:

  • Penalaan Halus Masih Membantu: Saluran paip CPT-SFT-DPO memang meningkatkan prestasi model SmolLM pada tugas domain berbanding keadaan asalnya. Proses penalaan halus itu sendiri bermanfaat, meningkatkan pengetahuan khususnya.
  • Kemunculan Sebahagian Besarnya Tidak Hadir: Walau bagaimanapun, tidak seperti eksperimen Llama dan Mistral, model SmolLM gabungan SLERP secara amnya tidak menunjukkan kesan sinergistik yang ketara. Prestasi mereka biasanya hampir dengan purata mudah model induk, atau hanya sedikit di atas. Lonjakan prestasi dramatik dan tanda-tanda jelas keupayaan muncul yang dilihat dalam model 7B/8B tiada.

Implikasi:

Kontras ini menunjukkan bahawa skala model kemungkinan merupakan faktor utama dalam merealisasikan potensi penuh penggabungan SLERP untuk menjana sifat-sifat yang muncul. Model yang lebih kecil, dengan ruang parameter yang kurang kompleks dan berdimensi lebih rendah, mungkin kekurangan kapasiti perwakilan atau kekayaan yang diperlukan untuk interaksi tidak linear yang kuat ini berlaku semasa penggabungan. ‘Ruang’ untuk menemui gabungan parameter baharu yang bermanfaat kelihatan jauh lebih terhad berbanding model yang lebih besar.

Hasil ini sejajar dengan pemerhatian yang lebih luas tentang hukum penskalaan dalam pembelajaran mendalam, di mana keupayaan kualitatif tertentu sering hanya muncul sebaik sahaja model mencapai ambang saiz tertentu. Nampaknya kuasa sinergistik penggabungan SLERP mungkin merupakan salah satu keupayaan sedemikian yang bergantung secara kritikal pada skala dan kerumitan model yang mencukupi.

Mengukur Peningkatan: Pemeriksaan Lebih Dekat pada Peningkatan Prestasi daripada Penggabungan

Walaupun penanda aras menunjukkan model yang digabungkan sering berprestasi terbaik secara keseluruhan, adalah berguna untuk mengukur dengan tepat berapa banyak lebih baiknya ia berbanding dengan induknya. Secara khusus, adakah model yang digabungkan secara konsisten mengatasi prestasi model yang lebih kuat daripada kedua-dua model yang digunakan untuk menciptanya?

Untuk menganalisis ini, sisihan prestasi dikira untuk setiap model gabungan SLERP. Sisihan ini ditakrifkan sebagai:

Sisihan Prestasi = Prestasi(Model Digabungkan) - Maks(Prestasi(Induk 1), Prestasi(Induk 2))

  • Sisihan positif (digambarkan dalam warna biru) bermakna model SLERP berprestasi lebih baik daripada yang terbaik daripada induknya – bukti jelas sinergi.
  • Sisihan negatif (digambarkan dalam warna merah) bermakna model SLERP berprestasi lebih teruk daripada sekurang-kurangnya salah satu induknya, menunjukkan penggabungan itu memudaratkan atau, paling baik, purata.

Analisis Mendedahkan:

Merentasi majoriti eksperimen yang melibatkan model Llama 3.1 (8B) dan Mistral (7B), sisihan prestasi adalah sebahagian besarnya positif. Dalam banyak kes, terutamanya untuk saluran paip yang dioptimumkan dengan baik (cth., yang melibatkan CPT, SFT, pengoptimuman keutamaan, dan SLERP), model yang digabungkan menunjukkan sisihan positif yang ketara, menunjukkan ia jauh mengatasi keupayaan walaupun induk terkuatnya.

Terdapat keadaan, terutamanya dengan model induk yang kurang dioptimumkan atau mungkin parameter penggabungan suboptimal, di mana sisihan sedikit negatif atau hampir sifar. Walau bagaimanapun, trend menyeluruh adalah jelas: penggabungan SLERP strategik kerap kali memberikan peningkatan prestasi tulen melebihi apa yang boleh dicapai oleh mana-mana model induk sahaja. Ini mengukuhkan idea bahawapenggabungan bukan sekadar purata, tetapi proses yang mampu mensintesis keupayaan unggul. Hasil SmolLM (1.7B), sebaliknya, akan menunjukkan sisihan yang jauh lebih kecil atau negatif, selaras dengan kekurangan kesan kemunculan yang kuat pada skala itu.

Daripada Penanda Aras kepada Percambahan Fikiran: Aplikasi Interaktif dalam Reka Bentuk Bahan

Di luar penanda aras kuantitatif, nilai sebenar model yang disesuaikan domain ini terletak pada keupayaan mereka untuk membantu dengan tugas dunia nyata, seperti penaakulan saintifik dan reka bentuk kreatif. Untuk menilai aspek kualitatif ini, sesi sembang interaktif telah dijalankan dengan beberapa model berprestasi terbaik (termasuk kedua-dua varian yang digabungkan dan tidak digabungkan).

Persediaan melibatkan penyediaan gesaan sistem yang konsisten mengarahkan model untuk bertindak sebagai pakar sains bahan, diikuti oleh gesaan pengguna yang direka untuk menguji penaakulan kreatif merentas domain. Tugas biasa melibatkan meminta model untuk:

  1. Mempertimbangkan dua konsep biologi yang kelihatan berbeza (cth., struktur kolagen dan corak venasi daun).
  2. Mencetuskan idea reka bentuk bahan baharu yang diilhamkan dengan menggabungkan prinsip daripada kedua-dua konsep.
  3. Menjelaskan penaakulan di sebalik reka bentuk yang dicadangkan.
  4. Mengeluarkan cadangan dalam format berstruktur (seperti JSON) untuk potensi pemprosesan hiliran.

Pemerhatian Kualitatif:

  • Pemahaman Domain yang Kuat: Semua model yang ditala halus menunjukkan pemahaman yang kukuh tentang konsep biologi dan sains bahan asas, menggunakan terminologi yang sesuai dan merujuk prinsip yang relevan. Peringkat CPT dan SFT jelas memberikan pengetahuan domain yang signifikan.
  • Sintesis Kreatif: Model-model tersebut secara amnya mampu merapatkan jurang konsep antara input yang berbeza (seperti kolagen dan daun) untuk mencadangkan seni bina atau fungsi bahan yang inovatif. Ini menunjukkan keupayaan mereka untuk melakukan penaakulan analogi dalam domain khusus.
  • Output Berstruktur: Model berjaya mematuhi arahan yang meminta output berstruktur (JSON), menunjukkan keupayaan mengikuti arahan yang baik, terutamanya bagi model yang diperhalusi dengan SFT dan pengoptimuman keutamaan atau berasal daripada asas Instruct.
  • Kedalaman dan Kejelasan yang Bervariasi: Walaupun semua melaksanakan tugas teras, perbezaan muncul dalam kedalaman penaakulan yang diberikan, kebaharuan dan kepraktisan reka bentuk yang dicadangkan, serta kejelasan dan koheren keseluruhan penjelasan. Model yang menjalani saluran paip latihan yang lebih komprehensif, terutamanya yang termasuk pengoptimuman keutamaan dan penggabungan SLERP, sering memberikan respons yang lebih kaya, lebih mendalam, dan lebih kreatif.
  • Pengaruh Penggabungan: Model yang digabungkan sering menunjukkan keseimbangan yang baik antara ketepatan khusus domain dan kefasihan/kreativiti perbualan, seolah-olah mengintegrasikan pengetahuan daripada induk yang ditala domain dengan kemahiran interaksi induk instruct tujuan umum.

Sesi interaktif ini memberikan bukti kualitatif yang berharga bahawa strategi penalaan halus dan penggabungan diterjemahkan kepada peningkatan ketara dalam tugas praktikal dan terbuka yang memerlukan penaakulan dan kreativiti khusus domain. Mereka menunjukkan potensi LLM yang disesuaikan ini untuk bertindak sebagai kolaborator berharga dalam penerokaan saintifik dan penjanaan idea reka bentuk dalam bidang seperti sains bahan.