LLM क्षमता: फाइन-ट्यूनिंग, मर्जिंग आणि डोमेन कौशल्य

विशेषीकरणाचे आव्हान: तांत्रिक सीमांसाठी AI चे अनुकूलन

लार्ज लँग्वेज मॉडेल्स (LLMs) ने निःसंशयपणे माहितीशी संवाद साधण्याच्या आणि नैसर्गिक भाषेचा वापर करून कार्ये स्वयंचलित करण्याच्या पद्धतीत क्रांती घडवून आणली आहे. Llama आणि Mistral सारखे मोठे मॉडेल्स, त्यांच्या ओपन-सोर्स स्वरूपातही, मानवी आउटपुटला टक्कर देणारी मजकूर समजून घेण्याची आणि तयार करण्याची उल्लेखनीय क्षमता दर्शवतात. त्यांची क्षमता सामान्य संभाषणांपासून ते जटिल सारांशनापर्यंत पसरलेली आहे. तथापि, विज्ञान आणि अभियांत्रिकीच्या विशेष, तांत्रिक शब्दांनी भरलेल्या क्षेत्रांमध्ये – जसे की मटेरियल सायन्स किंवा बायोमटेरिओमिक्स – प्रवेश करणे एक अद्वितीय आव्हान आहे.

या तांत्रिक डोमेनना सामान्य ज्ञानापेक्षा अधिक आवश्यक आहे; त्यांना खोल, सूक्ष्म समज, विशिष्ट तत्त्वांवर तर्क करण्याची क्षमता आणि विशेष परिभाषा आणि डेटा संरचनांची ओळख आवश्यक आहे. सामान्य LLMs, जे विस्तृत वेब कॉर्पोरावर प्रशिक्षित आहेत, या मागण्या पूर्ण करण्यात अनेकदा अपयशी ठरतात. आव्हान, म्हणून, डोमेन अ‍ॅडॅप्टेशन (domain adaptation) मध्ये आहे: आपण या शक्तिशाली सामान्य मॉडेल्सना अत्यंत विशिष्ट क्षेत्रांमध्ये तज्ञ सहाय्यक बनवण्यासाठी प्रभावीपणे कसे तयार करू शकतो?

फक्त अधिक विशेष डेटा देणे हे नेहमीच उत्तर नसते, किंवा ते नेहमीच व्यवहार्य नसते. या प्रचंड मॉडेल्सना सुरवातीपासून प्रशिक्षित करणे अत्यंत महाग आहे आणि त्यांच्या सुरुवातीच्या प्री-ट्रेनिंगसाठी वापरलेले मूळ, प्रचंड डेटासेट सामान्यतः उपलब्ध नसतात. हे विशेषतः लोकप्रिय ओपन-सोर्स मॉडेल्ससाठी खरे आहे जिथे, काही पारदर्शकता असूनही, संपूर्ण रेसिपी—प्री-ट्रेनिंग, फाइन-ट्यूनिंग आणि अलाइनमेंट दरम्यान वापरलेले अचूक डेटा मिश्रण आणि क्रम—मोठ्या प्रमाणावर मालकीचे राहते. संशोधक आणि अभियंत्यांना विद्यमान मॉडेल्समध्ये नवीन, विशेष ज्ञान समाविष्ट करण्यासाठी मजबूत, कार्यक्षम धोरणांची आवश्यकता आहे, तसेच त्यांच्या सुरुवातीच्या प्रशिक्षणादरम्यान मिळवलेल्या विशाल सामान्य क्षमता जतन करणे महत्त्वाचे आहे. वैज्ञानिक शोध आणि अभियांत्रिकी नवोपक्रमासाठी खऱ्या अर्थाने उपयुक्त AI साधने तयार करण्यासाठी हा नाजूक समतोल साधणे अत्यंत महत्त्वाचे आहे, जसे की विविध स्केल आणि संदर्भांमध्ये जैविक मटेरियल डिझाइन प्रेरणा एक्सप्लोर करण्यासाठी मल्टीमोडल रिझनिंगसाठी सक्षम इंजिन विकसित करणे.

प्रशिक्षण पद्धतींचा आढावा: प्री-ट्रेनिंग ते प्रेफरन्स ऑप्टिमायझेशन

डोमेन-विशिष्ट LLM कौशल्याच्या मार्गावर नेव्हिगेट करण्यासाठी फाइन-ट्यूनिंग धोरणांच्या विविध साधनांचा शोध घेणे समाविष्ट आहे. प्रत्येक दृष्टिकोन मॉडेलचे ज्ञान आणि वर्तन आकारण्याचा एक वेगळा मार्ग प्रदान करतो.

  • कंटिन्युड प्री-ट्रेनिंग (Continued Pre-Training - CPT): या धोरणामध्ये सुरुवातीच्या प्री-ट्रेनिंग टप्प्याचा विस्तार करणे समाविष्ट आहे, परंतु यावेळी लक्ष्य डोमेनवर केंद्रित असलेल्या कॉर्पसचा वापर केला जातो—जसे की मटेरियल सायन्स संशोधन पेपर्सचा संग्रह. मॉडेलला क्षेत्रातील विशिष्ट भाषा, संकल्पना आणि ज्ञान संरचनांमध्ये बुडवून घेणे हे ध्येय आहे, ज्यामुळे ते केवळ कार्य-विशिष्ट फाइन-ट्यूनिंगपेक्षा अधिक खोलवर डोमेन-विशिष्ट माहिती शोषू शकेल. हे संबंधित ज्ञानाचा पाया घालते.

  • सुपरवाइज्ड फाइन-ट्यूनिंग (Supervised Fine-Tuning - SFT): CPT नंतर किंवा बेस मॉडेलपासून सुरुवात करून, SFT मॉडेलला विशिष्ट कार्ये कशी करावी हे थेट शिकवते. हे इनपुट-आउटपुट जोड्यांच्या क्युरेटेड डेटासेटचा वापर करून साधले जाते, जे अनेकदा सूचना आणि इच्छित प्रतिसाद किंवा डोमेनशी संबंधित प्रश्न आणि अचूक उत्तरे म्हणून स्वरूपित केले जातात. SFT मॉडेलची सूचनांचे पालन करण्याची, विशेष संदर्भात अचूकपणे प्रश्नांची उत्तरे देण्याची आणि इच्छित आउटपुट फॉरमॅटचे पालन करण्याची क्षमता सुधारते.

  • लो-रँक अ‍ॅडॅप्टेशन (Low-Rank Adaptation - LoRA): जरी येथे प्राथमिक लक्ष नसले तरी, LoRA एक कार्यक्षम पर्याय किंवा पूरक आहे. संपूर्ण मॉडेलला पुन्हा प्रशिक्षित करण्याऐवजी, LoRA लहान, प्रशिक्षण करण्यायोग्य ‘अ‍ॅडॅप्टर’ लेयर्स सादर करते. हे खूप कमी संगणकीय खर्चात महत्त्वपूर्ण अनुकूलनास अनुमती देते, जरी CPT च्या तुलनेत किती मूलभूत नवीन ज्ञान एकत्रित केले जाऊ शकते यात मर्यादा असू शकतात.

  • प्रेफरन्स-बेस्ड ऑप्टिमायझेशन (Preference-Based Optimization): साध्या कार्य पूर्ततेच्या पलीकडे जाऊन, प्रेफरन्स ऑप्टिमायझेशन मॉडेलच्या आउटपुटला मानवी निर्णयांसह किंवा उपयुक्तता, निरुपद्रवीपणा आणि तर्कातील अचूकता यासारख्या विशिष्ट निकषांशी अधिक जवळून जुळवण्याचे उद्दिष्ट ठेवते. केवळ पूर्वनिर्धारित ‘बरोबर’ उत्तरांवर (SFT प्रमाणे) अवलंबून राहण्याऐवजी, या पद्धती तुलनेतून शिकतात.

    • डायरेक्ट प्रेफरन्स ऑप्टिमायझेशन (Direct Preference Optimization - DPO): DPO थेट प्रतिसादांच्या जोड्यांमधून शिकते जिथे एकाला दुसऱ्यापेक्षा प्राधान्य दिले जाते (उदा. मानवी मूल्यांककाद्वारे किंवा दुसर्‍या AI द्वारे). हे वेगळ्या रिवॉर्ड मॉडेलची आवश्यकता न ठेवता प्राधान्यकृत प्रतिसाद निर्माण करण्याची शक्यता वाढवण्यासाठी मॉडेलला ऑप्टिमाइझ करते, ज्यामुळे पारंपरिक रीइन्फोर्समेंट लर्निंग फ्रॉम ह्युमन फीडबॅक (RLHF) पाइपलाइन सुलभ होते.
    • ऑड्स रेशो प्रेफरन्स ऑप्टिमायझेशन (Odds Ratio Preference Optimization - ORPO): एक नवीन प्रवेशक, ORPO ऑप्टिमायझेशन उद्दिष्टांमध्ये बदल करते, कधीकधी DPO च्या तुलनेत सुधारित कार्यप्रदर्शन किंवा स्थिरता देते, विशेषतः डोमेनमधील विशिष्ट शैलीत्मक किंवा तार्किक निकषांकडे मॉडेल्स संरेखित करताना.

ही तंत्रे परस्पर अनन्य नाहीत; ती अनेकदा क्रमाने किंवा संयोजनात वापरली जातात, ज्यामुळे जटिल प्रशिक्षण पाइपलाइन तयार होतात. एक सामान्य क्रम CPT डोमेन ज्ञान तयार करण्यासाठी, त्यानंतर SFT कार्य प्रवीणतेसाठी आणि शेवटी DPO किंवा ORPO संरेखन आणि परिष्करणासाठी असू शकतो. तथापि, विशेष वैज्ञानिक डोमेनमध्ये उत्कृष्ट कार्यप्रदर्शन प्राप्त करण्यासाठी इष्टतम संयोजन आणि क्रम सक्रिय संशोधनाचे क्षेत्र आहेत.

साध्या ट्यूनिंगच्या पलीकडे: मॉडेल्स मर्ज करण्याचे वचन

एकाच मॉडेलला अनुक्रमिक प्रशिक्षण टप्प्यांद्वारे परिष्कृत केल्याने महत्त्वपूर्ण सुधारणा होऊ शकतात, परंतु आणखी एक मनोरंजक मार्ग समोर आला आहे: मॉडेल मर्जिंग (model merging). या प्रॅक्टिसमध्ये दोन किंवा अधिक स्वतंत्रपणे प्रशिक्षित मॉडेल्स घेणे आणि त्यांचे पॅरामीटर्स—त्यांचे अंतर्गत ‘वेट्स’—एकत्र करून एकच, नवीन हायब्रिड मॉडेल तयार करणे समाविष्ट आहे.

असे फ्यूजन का करावे? मूळ कल्पना म्हणजे पालक मॉडेल्सच्या सामर्थ्यांना एकत्रित करणे. कल्पना करा की एक मॉडेल मटेरियल सायन्स साहित्यावर (CPT आणि SFT द्वारे) कुशलतेने प्रशिक्षित आहे आणि दुसरे सामान्य-उद्देशीय ‘इंस्ट्रक्ट’ मॉडेल जटिल सूचनांचे पालन करण्यात आणि सुसंगत संवादात गुंतण्यात अत्यंत निपुण आहे. त्यांना मर्ज केल्याने संभाव्यतः असे मॉडेल तयार होऊ शकते ज्यामध्ये खोल डोमेन ज्ञान आणि उत्कृष्ट संभाषण आणि सूचना-पालन क्षमता दोन्ही असतील.

सुरुवातीच्या अन्वेषणांनी सूचित केले की ही प्रक्रिया साध्या सरासरीपेक्षा अधिक असू शकते. केवळ क्षमतांचे मिश्रण करण्याऐवजी, मर्जिंग संभाव्यतः पूर्णपणे नवीन, उदयोन्मुख कार्यक्षमता (emergent functionalities) अनलॉक करू शकते—अशा क्षमता ज्या दोन्ही पालक मॉडेल्समध्ये स्पष्टपणे उपस्थित नव्हत्या. हे मर्ज दरम्यान पॅरामीटर्समधील अत्यंत नॉन-लिनियर परस्परसंवादाचे सूचक आहे, ज्यामुळे संभाव्यतः भागांच्या बेरजेपेक्षा मोठे काहीतरी मिळू शकते. जर प्रभावी आणि नियंत्रण करण्यायोग्य सिद्ध झाले, तर मॉडेल मर्जिंग LLM क्षमतांच्या सीमांना पुढे ढकलण्यासाठी एक शक्तिशाली, परिवर्तनात्मक साधन ठरू शकते, ज्यामुळे जटिल, वास्तविक-जगातील वैज्ञानिक आणि अभियांत्रिकी आव्हानांसाठी अत्यंत अनुकूल आणि शक्तिशाली AI प्रणाली तयार होतील.

SLERP ची शक्ती उलगडणे: मर्जिंगसाठी एक भूमितीय दृष्टीकोन

मॉडेल मर्जिंगची प्रभावीता पालक मॉडेल्सचे पॅरामीटर्स कसे एकत्र केले जातात यावर गंभीरपणे अवलंबून असते. एक साधी लिनियर सरासरी (ज्याला अनेकदा Linear Interpolation किंवा LERP म्हणतात) अंतर्ज्ञानी वाटू शकते, परंतु ती अनेकदा उप-इष्टतम परिणामांकडे नेते किंवा कार्यप्रदर्शन खराब करते. याचे कारण असे की LLMs चे उच्च-आयामी पॅरामीटर स्पेस सपाट नाही; त्यात एक जटिल, वक्र भूमिती आहे. लिनियर इंटरपोलेशन या स्पेसमध्ये ‘डेड झोन’ किंवा उच्च-लॉस क्षेत्रांमधून जाण्याचा धोका पत्करते, ज्यामुळे पालक मॉडेल्सच्या काळजीपूर्वक शिकलेल्या प्रतिनिधित्वांना प्रभावीपणे विस्कळीत करते.

येथे स्फेरिकल लिनियर इंटरपोलेशन (Spherical Linear Interpolation - SLERP) येते. मूळतः संगणक ग्राफिक्समध्ये रोटेशनच्या गुळगुळीत अ‍ॅनिमेशनसाठी विकसित केलेले, SLERP दोन बिंदूंमध्ये (या प्रकरणात, दोन मॉडेल्सचे पॅरामीटर व्हेक्टर) हायपरस्फीअरच्या पृष्ठभागावरील सर्वात लहान मार्गाचे अनुसरण करून इंटरपोलेट करण्याचा भूमितीयदृष्ट्या अत्याधुनिक मार्ग प्रदान करते.

दोन पालक मॉडेल्सच्या पॅरामीटर सेट्सची कल्पना एका विशाल गोलाच्या पृष्ठभागावरील दोन बिंदू म्हणून करा.

  • LERP गोलाच्या मधून बिंदूंना जोडणारी सरळ रेषा काढेल. हा मार्ग पृष्ठभागावर राहणार नाही आणि खराब कार्यप्रदर्शन करणाऱ्या मॉडेल्सचे प्रतिनिधित्व करणाऱ्या प्रदेशांमधून जाऊ शकतो.
  • SLERP, याउलट, गोलाच्या वक्र पृष्ठभागावरच प्रवास करते. हा मार्ग पॅरामीटर स्पेसच्या अंतर्निहित भूमितीय संरचनेचा स्वाभाविकपणे आदर करतो.

LLMs मर्ज करण्यासाठी हा गोलाकार मार्ग संभाव्यतः श्रेष्ठ का आहे?

  1. संरचना जतन (Structure Preservation): ‘गोलावर’ राहून, SLERP पॅरामीटर्समधील भूमितीय संबंध टिकवून ठेवते, ज्यामुळे प्रत्येक पालक मॉडेलमधील शिकलेल्या संरचना लिनियर मार्गापेक्षा अधिक प्रभावीपणे जतन होतात.
  2. उच्च-लॉस क्षेत्र टाळणे (Avoiding High-Loss Regions): वक्र मार्ग पॅरामीटर स्पेसच्या उच्च भविष्यवाणी त्रुटी (लॉस) शी संबंधित असलेल्या प्रदेशांना छेदण्याची शक्यता कमी असते.
  3. नॉन-लिनियर संयोजन (Non-Linear Combination): SLERP साठी इंटरपोलेशन सूत्र स्वाभाविकपणे नॉन-लिनियर आहे. हे पालक मॉडेल्समधील पॅरामीटर्स दरम्यान जटिल, सिनर्जिस्टिक परस्परसंवादांना अनुमती देते, संभाव्यतः नवीन क्षमतांचे प्रतिनिधित्व करणारे संयोजन अनलॉक करते. मर्ज केलेले पॅरामीटर अशा प्रकारे वैशिष्ट्ये सक्रिय करू शकते जे दोन्ही पालक एकटे करू शकत नाहीत.
  4. गुळगुळीत संक्रमण (Smooth Transitions): SLERP पालक मॉडेल्सच्या स्थितींमध्ये गणितीदृष्ट्या गुळगुळीत संक्रमण प्रदान करते, ज्यामुळे मर्ज केलेल्या मॉडेलमध्ये संभाव्यतः चांगले सामान्यीकरण होते.

कारण SLERP मॉडेलच्या आंतरिक भूमितीचा आदर करते आणि नॉन-लिनियर पॅरामीटर परस्परसंवादांना सुलभ करते, त्यात केवळ क्षमतांची सरासरी काढण्याचीच नव्हे तर त्यांना खऱ्या अर्थाने अशा प्रकारे मिसळण्याची क्षमता आहे जी उदयोन्मुख गुणधर्मांना प्रोत्साहन देते. यामुळे मटेरियल सायन्ससारख्या जटिल डोमेनसाठी मॉडेल्स मर्ज करण्यासाठी ते विशेषतः आश्वासक उमेदवार बनते, जिथे सूक्ष्म परस्परसंवाद आणि सूक्ष्म समज महत्त्वाची असते.

सिद्धांतांची चाचणी: Llama आणि Mistral प्रयोग

या फाइन-ट्यूनिंग आणि मर्जिंग धोरणांची कठोरपणे तपासणी करण्यासाठी, लोकप्रिय ओपन-सोर्स मॉडेल कुटुंबांचा वापर करून प्रयोगांची एक पद्धतशीर मालिका आयोजित केली गेली: Llama 3.1 (8 अब्ज पॅरामीटर्स) आणि Mistral (7 अब्ज पॅरामीटर्स). भिन्न प्रशिक्षण पाइपलाइनची तुलना करणे आणि SLERP मर्जिंगच्या प्रभावाचे मूल्यांकन करणे हे ध्येय होते.

प्रायोगिक डिझाइनमध्ये अनेक महत्त्वाचे टप्पे समाविष्ट होते:

  1. बेस मॉडेल्स (Base Models): प्रयोग दोन्ही मूलभूत ‘बेस’ मॉडेल्स (प्री-ट्रेन्ड परंतु इंस्ट्रक्शन-ट्यून केलेले नाही) आणि ‘इंस्ट्रक्ट’ आवृत्त्या (चॅट आणि इंस्ट्रक्शन फॉलो करण्यासाठी आधीच फाइन-ट्यून केलेले) Llama आणि Mistral दोन्ही कुटुंबांसाठी सुरू झाले.
  2. डोमेन कॉर्पस (Domain Corpus): वैज्ञानिक प्रकाशने आणि प्रक्रिया केलेल्या डेटामधून मटेरियल सायन्सवर केंद्रित एक विशेष कॉर्पस संकलित केले गेले.
  3. प्रशिक्षण पाइपलाइन (Training Pipelines): प्रशिक्षण तंत्रांचे विविध संयोजन लागू केले गेले:
    • फक्त CPT
    • CPT नंतर SFT (CPT-SFT)
    • CPT-SFT नंतर ORPO (CPT-SFT-ORPO)
    • CPT-SFT नंतर DPO (CPT-SFT-DPO)
    • काही बदल थेट इंस्ट्रक्ट मॉडेलपासून सुरू होतात (उदा. Instruct-CPT-SFT-DPO).
  4. मॉडेल मर्जिंग (Model Merging): अनेक फाइन-ट्यून केलेल्या मॉडेल्ससाठी, SLERP मर्जिंग केले गेले, सामान्यतः डोमेन-अ‍ॅडॅप्टेड मॉडेलला त्याच कुटुंबातील संबंधित सामान्य-उद्देशीय ‘इंस्ट्रक्ट’ मॉडेलसह एकत्र केले गेले (उदा. CPT-SFT-DPO Llama मॉडेलला मानक Llama 3.1 Instruct मॉडेलसह मर्ज केले).
  5. मूल्यांकन (Evaluation): सर्व परिणामी मॉडेल्सचे (मर्ज केलेले आणि न-मर्ज केलेले दोन्ही) कार्यप्रदर्शन डोमेन ज्ञान, तर्क आणि सूचना पालन तपासण्यासाठी डिझाइन केलेल्या संबंधित बेंचमार्कच्या संचावर मूल्यांकन केले गेले.

Llama आणि Mistral मधील मुख्य निष्कर्ष:

  • SLERP मर्जिंग सातत्याने कार्यप्रदर्शन वाढवते: दोन्ही मॉडेल कुटुंबे आणि विविध प्रशिक्षण पाइपलाइनमध्ये, SLERP मर्जिंगद्वारे वर्धित केलेल्या मॉडेल्सनी सामान्यतः मूल्यांकन बेंचमार्कवर सर्वोच्च अचूकता प्राप्त केली. हे SLERP मॉडेल सामर्थ्ये एकत्र करण्यासाठी एक प्रभावी तंत्र आहे या गृहीतकाला जोरदार समर्थन देते.
  • सिनर्जिस्टिक प्रभावांचीपुष्टी: SLERP-मर्ज केलेल्या मॉडेल्सचे कार्यप्रदर्शन अनेकदा दोन पालक मॉडेल्सच्या कार्यप्रदर्शनाच्या साध्या सरासरीपेक्षा जास्त होते. या अपेक्षित सरासरीच्या विरूद्ध वास्तविक प्राप्त स्कोअर प्लॉट केल्याने महत्त्वपूर्ण सकारात्मक विचलन दिसून आले, ज्यामुळे मर्जिंग प्रक्रिया अनेकदा सिनर्जिस्टिक लाभ आणि उदयोन्मुख क्षमता (emergent capabilities) अनलॉक करते याची पुष्टी झाली. मर्ज केलेली संस्था तिच्या भागांच्या बेरजेपेक्षा स्पष्टपणे अधिक सक्षम होती.
  • प्रेफरन्स ऑप्टिमायझेशन मूल्य वाढवते: प्रेफरन्स ऑप्टिमायझेशन टप्पे (DPO किंवा ORPO) समाविष्ट केल्याने अनेकदा अतिरिक्त कार्यप्रदर्शन वाढले, विशेषतः जेव्हा SLERP मर्जिंगसह एकत्र केले जाते. CPT-SFT-DPO-SLERP किंवा CPT-SFT-ORPO-SLERP सारख्या धोरणा नेहमीच अव्वल कामगिरी करणाऱ्यांमध्ये होत्या.
  • इष्टतम नॉन-मर्ज धोरण बदलते: मर्जिंगशिवाय, सर्वोत्तम कामगिरी करणारी धोरण मॉडेल कुटुंबांमध्ये थोडी वेगळी होती. Llama 3.1 साठी, Instruct-CPT-SFT-DPO ने मजबूत परिणाम दर्शविले, तर Mistral साठी, Base-CPT-SFT ने त्याच्या Instruct समकक्षाइतकेच चांगले प्रदर्शन केले.
  • CPT कालावधीचा प्रभाव: Mistral मॉडेल्सवरील पुढील विश्लेषणाने दर्शविले की कार्यप्रदर्शन सामान्यतः कंटिन्यूड प्री-ट्रेनिंगच्या अधिक इपॉक्ससह (चाचणी केलेल्या पाच पर्यंत) सुधारले, विशेषतः इंस्ट्रक्ट मॉडेलपासून सुरुवात करताना, CPT दरम्यान पुरेशा डोमेन एक्सपोजरचे मूल्य अधोरेखित करते.

हे परिणाम एक स्पष्ट चित्र रंगवतात: अनुक्रमिक फाइन-ट्यूनिंग मौल्यवान असले तरी, SLERP वापरून धोरणात्मक मॉडेल मर्जिंग LLM कार्यप्रदर्शन लक्षणीयरीत्या वाढविण्यासाठी एक शक्तिशाली मार्ग प्रदान करते, विशेषतः विशेष डोमेनसाठी, अनेकदा साध्या एकत्रीकरणाच्या पलीकडे क्षमता प्रदान करते.

सखोल विचार: मर्जिंग कशामुळे कार्य करते?

SLERP मर्जिंगच्या सातत्यपूर्ण यशामुळे अंतर्निहित यांत्रिकी आणि प्रभावी घटकांवर अधिक बारकाईने लक्ष देण्यास प्रवृत्त करते. हा भूमितीय दृष्टीकोन इतके प्रभावी परिणाम का देतो आणि कोणत्या परिस्थिती त्याची प्रभावीता ऑप्टिमाइझ करतात?

  • नॉन-लिनियर परस्परसंवाद (Non-Linear Interactions): सिद्धांतानुसार, पॅरामीटर स्पेसद्वारे SLERP चा नॉन-लिनियर मार्ग महत्त्वपूर्ण दिसतो. हे मर्ज केलेल्या मॉडेलला पॅरामीटर्सच्या संयोजनांचा शोध घेण्यास अनुमती देते जे लिनियर सरासरी चुकवेल. हे संयोजन शिकलेल्या वैशिष्ट्यांमधील नवीन परस्परसंवादांचे प्रतिनिधित्व करू शकतात, ज्यामुळे डोमेनसाठी तयार केलेली उदयोन्मुख तर्क किंवा समस्या सोडवण्याची क्षमता निर्माण होते. कल्पना करा की पॅरामीटर्स एकत्र करणे जे वैयक्तिकरित्या ‘मटेरियल स्ट्रेंथ’ आणि ‘बायोलॉजिकल स्ट्रक्चर्स’ ची समज दर्शवतात – SLERP कदाचित असे संयोजन शोधू शकेल जे ‘बायो-इन्स्पायर्ड हाय-स्ट्रेंथ मटेरियल्स’ चे प्रभावीपणे प्रतिनिधित्व करते, जे दोन्ही पालक मॉडेल्सने स्पष्टपणे केले नाही.

  • विविधतेची भूमिका (The Role of Diversity): पालक मॉडेल्स किती भिन्न असावेत? विश्लेषणाने जटिल संबंध सूचित केले. अत्यंत विविधता फायदेशीर वाटू शकते, तरीही काही सहसंबंधांनी सूचित केले की विशिष्ट संदर्भांमध्ये (जसे की Llama मॉडेल्स), पालकांमधील उच्च कार्यप्रदर्शन विविधता नंतरच्या SFT वरील अवलंबित्व किंचित कमी करू शकते, कदाचित कारण मर्जिंग आधीच व्यापक क्षमता संच कॅप्चर करते. परस्परसंवाद सूक्ष्म आहे आणि संभाव्यतः पालकांसाठी वापरल्या जाणार्‍या विशिष्ट फाइन-ट्यूनिंग पद्धतींवर अवलंबून असतो.

  • बेस वि. इंस्ट्रक्ट प्रारंभ बिंदू (Base vs. Instruct Starting Point): प्रारंभ मॉडेलची निवड महत्त्वाची आहे. Llama प्रयोगांसाठी, शीर्ष-कार्यक्षम मर्ज केलेले मॉडेल इंस्ट्रक्ट आवृत्तीतून आले. याउलट, Mistral साठी, एक शीर्ष कामगिरी करणारा बेस मॉडेलमधून CPT, SFT आणि मर्जिंगमधून जाण्यापूर्वी आला होता. हे सूचित करते की Llama आणि Mistral कुटुंबांच्या सुरुवातीच्या प्री-ट्रेनिंग मेकअपमधील आर्किटेक्चरल फरक किंवा भिन्नता विशिष्ट फाइन-ट्यूनिंग आणि मर्जिंग पाइपलाइनला ते कसे प्रतिसाद देतात यावर प्रभाव टाकतात. एकच सार्वत्रिक ‘सर्वोत्तम’ प्रारंभ बिंदू नाही; त्यासाठी अनुभवजन्य चाचणी आवश्यक आहे.

  • CPT मधील डेटा गुणवत्ता (Data Quality in CPT): कंटिन्यूड प्री-ट्रेनिंग दरम्यान घातलेला पाया महत्त्वपूर्ण आहे. मोठ्या परंतु ‘नॉइझी’ CPT डेटासेटचा (ज्यात अधिक फॉरमॅटिंग त्रुटी किंवा ऑप्टिकल कॅरेक्टर रेकग्निशनमधील कलाकृती आहेत) वापर करून केलेल्या प्रयोगांमुळे लहान, स्वच्छ डेटासेट वापरण्याच्या तुलनेत कार्यप्रदर्शन कमी झाले. हे CPT टप्पा प्रभावी होण्यासाठी उच्च-गुणवत्तेच्या, चांगल्या-प्रक्रिया केलेल्या डोमेन-विशिष्ट डेटाचे महत्त्व अधोरेखित करते. कचरा आत, कचरा बाहेर अजूनही लागू होते.

  • फाइन-ट्यूनिंग SLERP पॅरामीटर्स (Fine-Tuning SLERP Parameters): SLERP मध्ये स्वतः पॅरामीटर्स आहेत, विशेषतः इंटरपोलेशन गुणांक (अनेकदा ‘t’ म्हणून दर्शविला जातो, 0 ते 1 पर्यंत असतो) जो प्रत्येक पालक मॉडेलला किती वजन दिले जाते हे ठरवतो. शिवाय, मर्जिंग सर्व मॉडेल लेयर्सवर एकसमान असणे आवश्यक नाही. प्रयोगांनी सेल्फ-अटेन्शन लेयर्स विरुद्ध मल्टीलेयर पर्सेप्ट्रॉन (MLP) लेयर्ससाठी इंटरपोलेशन फॅक्टर वेगळ्या प्रकारे बदलणे किंवा मॉडेलच्या डेप्थमधून प्रगतीशीलपणे बदलणे शोधले. परिणामांनी दर्शविले की विशिष्ट नॉन-युनिफॉर्म वेटिंग योजना मानक युनिफॉर्म दृष्टिकोनापेक्षा चांगली कामगिरी करू शकतात, ज्यामुळे नेटवर्कच्या आर्किटेक्चरमध्ये मर्ज प्रक्रियेला काळजीपूर्वक तयार करून पुढील ऑप्टिमायझेशनची क्षमता सूचित होते. एका Llama केसमध्ये लेयर्सवर वेट्सची साधी लिनियर प्रगती प्रभावी ठरली.

  • नियमितीकरण प्रभाव (Regularization Effect): SLERP नियमितीकरणाचा एक प्रकार म्हणून देखील कार्य करू शकते. दोन संभाव्यतः विशेषीकृत मॉडेल्समधील गुळगुळीत मार्ग शोधून, ते दोन्ही पालकांच्या प्रशिक्षण डेटाच्या वैशिष्ट्यांमध्ये ओव्हरफिटिंगला परावृत्त करू शकते, ज्यामुळे न पाहिलेल्या डोमेन-विशिष्ट समस्यांवर चांगले सामान्यीकरण होते. हे ‘कॅटास्ट्रॉफिक फरगेटिंग’ कमी करण्यास देखील मदत करू शकते, जिथे एका कार्यावर फाइन-ट्यूनिंग केल्याने मागील कार्याचे ज्ञान पुसले जाते.

थोडक्यात, SLERP ची प्रभावीता LLM पॅरामीटर स्पेसच्या जटिल भूमितीमध्ये हुशारीने नेव्हिगेट करण्याच्या क्षमतेतून येते, शिकलेल्या ज्ञान संरचना जतन करताना फायदेशीर नॉन-लिनियर परस्परसंवादांना प्रोत्साहन देते. तथापि, त्याचा वापर ऑप्टिमाइझ करण्यासाठी पालक मॉडेल निवड, प्रशिक्षण इतिहास, डेटा गुणवत्ता आणि संभाव्यतः मर्जच्या सूक्ष्म तपशीलांचा काळजीपूर्वक विचार करणे आवश्यक आहे.

आकार महत्त्वाचा आहे का? लहान मॉडेल्ससह स्केलिंग इफेक्ट्सचा शोध

7-अब्ज आणि 8-अब्ज पॅरामीटर मॉडेल्ससह पाहिलेले प्रभावी सिनर्जिस्टिक इफेक्ट्स एक नैसर्गिक प्रश्न उपस्थित करतात: SLERP मर्जिंगद्वारे अनलॉक केलेल्या या उदयोन्मुख क्षमता खूप लहान भाषा मॉडेल्समध्ये देखील प्रकट होतात का? किंवा अशी कोणती स्केल थ्रेशोल्ड आहे ज्याच्या खाली जादू फिकी पडते?

याची तपासणी करण्यासाठी, SmolLM मॉडेल सिरीज वापरून समान प्रयोग केले गेले, विशेषतः फक्त 1.7 अब्ज पॅरामीटर्स असलेल्या व्हेरिएंटसह. हे मॉडेल लक्षणीयरीत्या लहान आहे, ज्यामुळे ते मोबाइल डिव्हाइस किंवा एज कंप्युटिंगसारख्या संसाधन-मर्यादित वातावरणासाठी योग्य ठरते, परंतु संभाव्यतः त्याच्या मोठ्या भावंडांच्या पॅरामीटर समृद्धीचा अभाव असतो.

SmolLM मॉडेल्स त्याच पाइपलाइनमधून गेले: मटेरियल सायन्स कॉर्पससह CPT, त्यानंतर SFT आणि DPO (जे या लहान आर्किटेक्चरसाठी ORPO पेक्षा अधिक प्रभावी ठरले). नंतर SLERP मर्जिंग लागू केले गेले, फाइन-ट्यून केलेले SmolLM त्याच्या बेस आवृत्ती किंवा इतर व्हेरिएंटसह एकत्र केले.

SmolLM सह निष्कर्ष:

  • फाइन-ट्यूनिंग अजूनही मदत करते: CPT-SFT-DPO पाइपलाइनने SmolLM मॉडेलचे डोमेन कार्यांवरील कार्यप्रदर्शन त्याच्या मूळ स्थितीच्या तुलनेत सुधारले. फाइन-ट्यूनिंग प्रक्रिया स्वतःच फायदेशीर होती, तिचे विशेष ज्ञान वाढवत होती.
  • उदयोन्मुखता मोठ्या प्रमाणावर अनुपस्थित: तथापि, Llama आणि Mistral प्रयोगांच्या विपरीत, SLERP-मर्ज केलेल्या SmolLM मॉडेल्सनी सामान्यतः महत्त्वपूर्ण सिनर्जिस्टिक इफेक्ट्स दर्शविले नाहीत. त्यांचे कार्यप्रदर्शन सामान्यतः पालक मॉडेल्सच्या साध्या सरासरीच्या जवळ किंवा फक्त किंचित वर आले. 7B/8B मॉडेल्समध्ये दिसणारे नाट्यमय कार्यप्रदर्शन झेप आणि उदयोन्मुख क्षमतांची स्पष्ट चिन्हे गहाळ होती.

निहितार्थ:

हा विरोधाभास सूचित करतो की उदयोन्मुख गुणधर्म निर्माण करण्यासाठी SLERP मर्जिंगच्या पूर्ण क्षमतेची जाणीव होण्यासाठी मॉडेल स्केल संभाव्यतः एक महत्त्वाचा घटक आहे. लहान मॉडेल्स, त्यांच्या कमी जटिल आणि कमी-आयामी पॅरामीटर स्पेससह, मर्जिंग दरम्यान या शक्तिशाली नॉन-लिनियर परस्परसंवादांसाठी आवश्यक असलेली प्रतिनिधीत्व क्षमता किंवा समृद्धीचा अभाव असू शकतो. नवीन, फायदेशीर पॅरामीटर संयोजन शोधण्यासाठी ‘जागा’ मोठ्या मॉडेल्सच्या तुलनेत लक्षणीयरीत्या मर्यादित दिसते.

हे परिणाम डीप लर्निंगमधील स्केलिंग लॉज (scaling laws) बद्दलच्या व्यापक निरीक्षणांशी जुळतात, जिथे विशिष्ट गुणात्मक क्षमता अनेकदा मॉडेल्स एका विशिष्ट आकाराच्या थ्रेशोल्डवर पोहोचल्यावरच उदयास येतात. असे दिसते की SLERP मर्जिंगची सिनर्जिस्टिक शक्ती अशी एक क्षमता असू शकते जी पुरेशा मॉडेल स्केल आणि जटिलतेवर गंभीरपणे अवलंबून असते.

नफ्याचे प्रमाण मोजणे: मर्जिंगमधून कार्यप्रदर्शन वाढीवर एक जवळून नजर

बेंचमार्क दर्शवतात की मर्ज केलेले मॉडेल्स अनेकदा एकूण सर्वोत्तम कामगिरी करतात, तरीही ते त्यांच्या पालकांच्या तुलनेत नेमके किती चांगले आहेत हे मोजणे उपयुक्त आहे. विशेषतः, मर्ज केलेले मॉडेल ते तयार करण्यासाठी वापरलेल्या दोन मॉडेल्सपैकी सर्वात मजबूत मॉडेलपेक्षा सातत्याने चांगली कामगिरी करते का?

याचे विश्लेषण करण्यासाठी, प्रत्येक SLERP-मर्ज केलेल्या मॉडेलसाठी कार्यप्रदर्शन विचलन (performance deviation) मोजले गेले. हे विचलन असे परिभाषित केले गेले:

कार्यप्रदर्शन विचलन = कार्यप्रदर्शन(मर्ज केलेले मॉडेल) - कमाल(कार्यप्रदर्शन(पालक 1), कार्यप्रदर्शन(पालक 2))

  • सकारात्मक विचलन (निळ्या रंगाच्या छटांमध्ये दर्शविलेले) म्हणजे SLERP मॉडेलने त्याच्या पालकांपैकी सर्वोत्कृष्टपेक्षा चांगली कामगिरी केली – सिनर्जीचा स्पष्ट पुरावा.
  • नकारात्मक विचलन (लाल रंगात दर्शविलेले) म्हणजे SLERP मॉडेलने त्याच्या किमान एका पालकापेक्षा वाईट कामगिरी केली, जे दर्शवते की मर्ज हानिकारक होते किंवा सर्वोत्तम परिस्थितीत, सरासरी होते.

विश्लेषणातून उघड झाले:

Llama 3.1 (8B) आणि Mistral (7B) मॉडेल्सचा समावेश असलेल्या बहुतेक प्रयोगांमध्ये, कार्यप्रदर्शन विचलन प्रामुख्याने सकारात्मक होते. अनेक प्रकरणांमध्ये, विशेषतः चांगल्या-ऑप्टिमाइझ केलेल्या पाइपलाइनसाठी (उदा. CPT, SFT, प्रेफरन्स ऑप्टिमायझेशन आणि SLERP समाविष्ट असलेल्या), मर्ज केलेल्या मॉडेल्सनी भरीव सकारात्मक विचलन दर्शविले, जे दर्शवते की त्यांनी त्यांच्या सर्वात मजबूत पालकांच्या क्षमतांनाही लक्षणीयरीत्या मागे टाकले.

अशी उदाहरणे होती, विशेषतः कमी ऑप्टिमाइझ केलेल्या पालक मॉडेल्ससह किंवा कदाचित उप-इष्टतम मर्जिंग पॅरामीटर्ससह, जिथे विचलन किंचित नकारात्मक किंवा शून्याच्या जवळ होते. तथापि, व्यापक कल स्पष्ट होता: धोरणात्मक SLERP मर्जिंग अनेकदा दोन्ही पालक मॉडेल्स एकट्याने साध्य करू शकतील त्यापलीकडे खरी कार्यप्रदर्शन वाढ प्रदान करते. हे या कल्पनेला बळकटी देते की मर्जिंग केवळ सरासरी नाही, तर उत्कृष्ट क्षमता संश्लेषित करण्यास सक्षम असलेली प्रक्रिया आहे. याउलट, SmolLM (1.7B) परिणाम खूप लहान किंवा नकारात्मक विचलन दर्शवतील, जे त्या स्केलवर मजबूत उदयोन्मुख प्रभावांच्या अभावाशी सुसंगत आहे.

बेंचमार्कपासून विचारमंथनापर्यंत: मटेरियल डिझाइनमधील इंटरॅक्टिव्ह ऍप्लिकेशन्स

परिमाणात्मक बेंचमार्कच्या पलीकडे, या डोमेन-अ‍ॅडॅप्टेड मॉडेल्सचे खरे मूल्य वैज्ञानिक तर्क आणि सर्जनशील डिझाइन यासारख्या वास्तविक-जगातील कार्यांमध्ये मदत करण्याच्या त्यांच्या क्षमतेमध्ये आहे. या गुणात्मक पैलूचे मूल्यांकन करण्यासाठी, अनेक शीर्ष-कार्यक्षम मॉडेल्ससह (मर्ज केलेले आणि न-मर्ज केलेले दोन्ही प्रकारांसह) इंटरॅक्टिव्ह चॅट सत्रे आयोजित केली गेली.

सेटअपमध्ये मॉडेलला मटेरियल सायन्स तज्ञ म्हणून काम करण्याची सूचना देणारा एक सुसंगत सिस्टम प्रॉम्प्ट प्रदान करणे समाविष्ट होते, त्यानंतर सर्जनशील, क्रॉस-डोमेन तर्क तपासण्यासाठी डिझाइन केलेला वापरकर्ता प्रॉम्प्ट होता. एका विशिष्ट कार्यामध्ये मॉडेलला विचारणे समाविष्ट होते:

  1. दोन वरवर पाहता भिन्न जैविक संकल्पनांचा विचार करा (उदा. कोलेजनची रचना आणि पानांच्या शिरांचे नमुने).
  2. दोन्ही संकल्पनांमधील तत्त्वे एकत्र करून प्रेरित नवीन मटेरियल डिझाइनवर विचारमंथन करा.
  3. प्रस्तावित डिझाइनमागील तर्क स्पष्ट करा.
  4. संभाव्य डाउनस्ट्रीम प्रक्रियेसाठी सूचना संरचित स्वरूपात (जसे की JSON) आउटपुट करा.

गुणात्मक निरीक्षणे:

  • मजबूत डोमेन समज: सर्व फाइन-ट्यून केलेल्या मॉडेल्सनी योग्य परिभाषा वापरून आणि संबंधित तत्त्वांचा संदर्भ देऊन अंतर्निहित जैविक आणि मटेरियल सायन्स संकल्पनांची ठोस पकड दर्शविली. CPT आणि SFT टप्प्यांनी स्पष्टपणे महत्त्वपूर्ण डोमेन ज्ञान प्रदान केले.
  • सर्जनशील संश्लेषण: मॉडेल्स सामान्यतः भिन्न इनपुटमधील (जसे की कोलेजन आणि पाने) वैचारिक अंतर भरून काढण्यास आणि नाविन्यपूर्ण मटेरियल आर्किटेक्चर किंवा कार्यक्षमता प्रस्तावित करण्यास सक्षम होते. याने विशेष डोमेनमध्ये अनुरूप तर्क करण्याची त्यांची क्षमता दर्शविली.
  • संरचित आउटपुट: मॉडेल्सनी संरचित आउटपुट (JSON) ची विनंती करणाऱ्या सूचनांचे यशस्वीरित्या पालन केले, जे चांगल्या सूचना-पालन क्षमता दर्शवते, विशेषतः SFT आणि प्रेफरन्स ऑप्टिमायझेशनसह परिष्कृत केलेल्या किंवा इंस्ट्रक्ट बेसपासून आलेल्या मॉडेल्ससाठी.
  • वेगवेगळी खोली आणि स्पष्टता: जरी सर्वांनी मूळ कार्य केले असले तरी, प्रदान केलेल्या तर्काच्या खोलीत, प्रस्तावित डिझाइनची नवीनता आणि व्यावहारिकता आणि स्पष्टीकरणाची एकूण स्पष्टता आणि सुसंगतता यात फरक दिसून आले. अधिक व्यापक प्रशिक्षण पाइपलाइनमधून गेलेल्या मॉडेल्सनी, विशेषतः प्रेफरन्स ऑप्टिमायझेशन आणि SLERP मर्जिंग समाविष्ट असलेल्या मॉडेल्सनी, अनेकदा अधिक समृद्ध, अधिक अंतर्दृष्टीपूर्ण आणि अधिक सर्जनशील प्रतिसाद दिले.
  • मर्जिंगचा प्रभाव: मर्ज केलेल्या मॉडेल्सनी अनेकदा डोमेन-विशिष्ट अचूकता आणि संभाषणात्मक ओघ/सर्जनशीलता यांच्यात चांगला समतोल दर्शविला, असे दिसते की डोमेन-ट्यून केलेल्या पालकाकडील ज्ञान सामान्य-उद्देशीय इंस्ट्रक्ट पालकाच्या संवाद कौशल्यांसह एकत्रित केले आहे.

या इंटरॅक्टिव्ह सत्रांनी मौल्यवान गुणात्मक पुरावा प्रदान केला की फाइन-ट्यूनिंग आणि मर्जिंग धोरणे डोमेन-विशिष्ट तर्क आणि सर्जनशीलतेची आवश्यकता असलेल्या व्यावहारिक, ओपन-एंडेड कार्यांमध्ये मूर्त सुधारणांमध्ये रूपांतरित होतात. त्यांनी मटेरियल सायन्ससारख्या क्षेत्रांमध्ये वैज्ञानिक अन्वेषण आणि डिझाइन कल्पनेत मौल्यवान सहयोगी म्हणून या तयार केलेल्या LLMs ची क्षमता दर्शविली.