विशेषज्ञता की चुनौती: तकनीकी सीमाओं के लिए AI को अनुकूलित करना
बड़े भाषा मॉडल (LLMs) ने निस्संदेह हमारे जानकारी के साथ बातचीत करने और प्राकृतिक भाषा से जुड़े कार्यों को स्वचालित करने के तरीके में क्रांति ला दी है। Llama और Mistral जैसे दिग्गज, अपने ओपन-सोर्स रूपों में भी, टेक्स्ट को समझने और उत्पन्न करने में उल्लेखनीय प्रवाह प्रदर्शित करते हैं जो अक्सर मानव आउटपुट को टक्कर देता है। उनकी क्षमता रोजमर्रा की बातचीत से लेकर जटिल सारांश तक एक विशाल परिदृश्य में फैली हुई है। हालाँकि, विज्ञान और इंजीनियरिंग के विशेष, शब्दजाल-समृद्ध क्षेत्रों - जैसे सामग्री विज्ञान या बायोमैटेरियोमिक्स - में प्रवेश करना एक अनूठी बाधा प्रस्तुत करता है।
इन तकनीकी डोमेन को सामान्य ज्ञान से अधिक की आवश्यकता होती है; उन्हें गहरी, सूक्ष्म समझ, विशिष्ट सिद्धांतों पर तर्क करने की क्षमता, और विशेष शब्दावली और डेटा संरचनाओं से परिचित होने की आवश्यकता होती है। व्यापक वेब कॉर्पोरा पर प्रशिक्षित मानक LLMs, इन मांगों का सामना करने पर अक्सर लड़खड़ा जाते हैं। इसलिए, चुनौती डोमेन अनुकूलन में निहित है: हम इन शक्तिशाली सामान्यवादी मॉडलों को अत्यधिक विशिष्ट क्षेत्रों में विशेषज्ञ सहायक बनने के लिए प्रभावी ढंग से कैसे तैयार कर सकते हैं?
केवल अधिक विशिष्ट डेटा फीड करना हमेशा जवाब नहीं होता है, न ही यह हमेशा संभव होता है। इन विशाल मॉडलों को स्क्रैच से प्रशिक्षित करना निषेधात्मक रूप से महंगा है, और उनके प्रारंभिक प्री-ट्रेनिंग के लिए उपयोग किए जाने वाले मूल, बड़े पैमाने पर डेटासेट आमतौर पर दुर्गम होते हैं। यह विशेष रूप से लोकप्रिय ओपन-सोर्स मॉडल के लिए सच है, जहां कुछ पारदर्शिता के बावजूद, पूरी रेसिपी - प्री-ट्रेनिंग, फाइन-ट्यूनिंग और संरेखण के दौरान उपयोग किए जाने वाले सटीक डेटा मिश्रण और अनुक्रम - काफी हद तक मालिकाना बने हुए हैं। शोधकर्ताओं और इंजीनियरों को मौजूदा मॉडलों में नए, विशेष ज्ञान को शामिल करने के लिए मजबूत, कुशल रणनीतियों की आवश्यकता होती है, जबकि महत्वपूर्ण रूप से उनके प्रारंभिक प्रशिक्षण के दौरान हासिल की गई विशाल सामान्य क्षमताओं को संरक्षित करते हुए। यह नाजुक संतुलन अधिनियम वैज्ञानिक खोज और इंजीनियरिंग नवाचार के लिए वास्तव में उपयोगी AI उपकरण बनाने के लिए सर्वोपरि है, जैसे कि विविध पैमानों और संदर्भों में जैविक सामग्री डिजाइन प्रेरणा का पता लगाने के लिए मल्टीमॉडल तर्क में सक्षम इंजन विकसित करना।
प्रशिक्षण परिदृश्य का मानचित्रण: प्री-ट्रेनिंग से वरीयता अनुकूलन तक
डोमेन-विशिष्ट LLM विशेषज्ञता के मार्ग को नेविगेट करने में फाइन-ट्यूनिंग रणनीतियों के विविध टूलकिट की खोज शामिल है। प्रत्येक दृष्टिकोण मॉडल के ज्ञान और व्यवहार को आकार देने का एक अलग तरीका प्रदान करता है।
निरंतर प्री-ट्रेनिंग (CPT): इस रणनीति में प्रारंभिक प्री-ट्रेनिंग चरण का विस्तार करना शामिल है, लेकिन इस बार लक्ष्य डोमेन पर केंद्रित एक कॉर्पस का उपयोग करना - जैसे सामग्री विज्ञान अनुसंधान पत्रों का संग्रह। लक्ष्य मॉडल को क्षेत्र की विशिष्ट भाषा, अवधारणाओं और ज्ञान संरचनाओं में डुबोना है, जिससे यह डोमेन-विशिष्ट जानकारी को केवल कार्य-विशिष्ट फाइन-ट्यूनिंग के साथ संभव से अधिक गहराई से अवशोषित कर सके। यह प्रासंगिक ज्ञान की नींव रखता है।
पर्यवेक्षित फाइन-ट्यूनिंग (SFT): CPT के बाद या बेस मॉडल से शुरू करके, SFT सीधे मॉडल को सिखाता है कि विशिष्ट कार्यों को कैसे करना है। यह इनपुट-आउटपुट जोड़े के क्यूरेटेड डेटासेट का उपयोग करके प्राप्त किया जाता है, जिसे अक्सर निर्देशों और वांछित प्रतिक्रियाओं, या डोमेन के लिए प्रासंगिक प्रश्नों और सटीक उत्तरों के रूप में स्वरूपित किया जाता है। SFT मॉडल की निर्देशों का पालन करने, विशेष संदर्भ में प्रश्नों का सटीक उत्तर देने और वांछित आउटपुट स्वरूपों का पालन करने की क्षमता को निखारता है।
लो-रैंक एडैप्टेशन (LoRA): हालांकि यहां प्राथमिक ध्यान नहीं है, LoRA एक कुशल विकल्प या पूरक का प्रतिनिधित्व करता है। पूरे मॉडल को फिर से प्रशिक्षित करने के बजाय, LoRA छोटे, प्रशिक्षित करने योग्य ‘एडाप्टर’ परतें पेश करता है। यह बहुत कम कम्प्यूटेशनल लागत के साथ महत्वपूर्ण अनुकूलन की अनुमति देता है, हालांकि इसमें सीमाएं हो सकती हैं कि CPT की तुलना में कितना मौलिक रूप से नया ज्ञान एकीकृत किया जा सकता है।
वरीयता-आधारित अनुकूलन: सरल कार्य पूर्णता से परे जाकर, वरीयता अनुकूलन का उद्देश्य मॉडल के आउटपुट को मानवीय निर्णयों या सहायकता, हानिरहितता और तर्क में सटीकता जैसे विशिष्ट मानदंडों के साथ अधिक निकटता से संरेखित करना है। केवल पूर्वनिर्धारित ‘सही’ उत्तरों (जैसा कि SFT में है) पर निर्भर रहने के बजाय, ये विधियाँ तुलनाओं से सीखती हैं।
- प्रत्यक्ष वरीयता अनुकूलन (DPO): DPO सीधे प्रतिक्रियाओं के जोड़े से सीखता है जहां एक को दूसरे पर पसंद किया जाता है (उदाहरण के लिए, मानव मूल्यांकनकर्ता या किसी अन्य AI द्वारा)। यह एक अलग इनाम मॉडल की आवश्यकता के बिना पसंदीदा प्रतिक्रियाएं उत्पन्न करने की संभावना को बढ़ाने के लिए मॉडल को अनुकूलित करता है, पारंपरिक रीइन्फोर्समेंट लर्निंग फ्रॉम ह्यूमन फीडबैक (RLHF) पाइपलाइन को सरल बनाता है।
- ऑड्स रेशियो प्रेफरेंस ऑप्टिमाइज़ेशन (ORPO): एक नया प्रवेशक, ORPO अनुकूलन उद्देश्य को संशोधित करता है, कभी-कभी DPO की तुलना में बेहतर प्रदर्शन या स्थिरता प्रदान करता है, विशेष रूप से एक डोमेन के भीतर विशिष्ट शैलीगत या तर्क मानदंडों की ओर मॉडल को संरेखित करने में।
ये तकनीकें परस्पर अनन्य नहीं हैं; उन्हें अक्सर क्रमिक रूप से या संयोजन में नियोजित किया जाता है, जिससे जटिल प्रशिक्षण पाइपलाइन बनती हैं। एक सामान्य अनुक्रम में डोमेन ज्ञान बनाने के लिए CPT शामिल हो सकता है, इसके बाद कार्य प्रवीणता के लिए SFT, और अंत में संरेखण और परिशोधन के लिए DPO या ORPO शामिल हो सकता है। हालाँकि, इष्टतम संयोजन और अनुक्रम अनुसंधान के सक्रिय क्षेत्र बने हुए हैं, विशेष रूप से विशेष वैज्ञानिक डोमेन में चरम प्रदर्शन प्राप्त करने के लिए।
सरल ट्यूनिंग से परे: मॉडल मर्जिंग का वादा
जबकि अनुक्रमिक प्रशिक्षण चरणों के माध्यम से एकल मॉडल को परिष्कृत करने से महत्वपूर्ण सुधार हो सकते हैं, एक और दिलचस्प अवसर सामने आया है: मॉडल मर्जिंग। इस अभ्यास में दो या दो से अधिक अलग-अलग प्रशिक्षित मॉडल लेना और उनके मापदंडों - उनके आंतरिक ‘वेट्स’ - को मिलाकर एक एकल, नया हाइब्रिड मॉडल बनाना शामिल है।
इस तरह के संलयन का प्रयास क्यों करें? मूल विचार मूल मॉडलों की शक्तियों को सहक्रियात्मक रूप से संयोजित करना है। कल्पना करें कि एक मॉडल सामग्री विज्ञान साहित्य (CPT और SFT के माध्यम से) पर विशेषज्ञ रूप से प्रशिक्षित है और दूसरा सामान्य-उद्देश्य ‘इंस्ट्रक्ट’ मॉडल जटिल निर्देशों का पालन करने और सुसंगत संवाद में संलग्न होने में अत्यधिक कुशल है। उन्हें मर्ज करने से संभावित रूप से एक ऐसा मॉडल बन सकता है जिसमें गहन डोमेन ज्ञान और उत्कृष्ट संवादी और निर्देश-पालन क्षमताएं दोनों हों।
प्रारंभिक अन्वेषणों ने संकेत दिया कि यह प्रक्रिया साधारण औसत से अधिक हो सकती है। केवल क्षमताओं को मिलाने के बजाय, मर्जिंग संभावित रूप से पूरी तरह से नई, उभरती हुई कार्यात्मकताओं को अनलॉक कर सकती है - ऐसी क्षमताएं जो किसी भी मूल मॉडल में स्पष्ट रूप से मौजूद नहीं थीं। यह मर्ज के दौरान मापदंडों के बीच एक अत्यधिक गैर-रेखीय अंतःक्रिया का सुझाव देता है, जो संभावित रूप से भागों के योग से अधिक संपूर्णता की ओर ले जाता है। यदि प्रभावी और नियंत्रणीय साबित होता है, तो मॉडल मर्जिंग LLM क्षमताओं की सीमाओं को आगे बढ़ाने, जटिल, वास्तविक दुनिया की वैज्ञानिक और इंजीनियरिंग चुनौतियों के लिए तैयार किए गए अत्यधिक अनुकूलनीय और शक्तिशाली AI सिस्टम बनाने के लिए एक शक्तिशाली, परिवर्तनकारी उपकरण का प्रतिनिधित्व कर सकता है।
SLERP की शक्ति का अनावरण: मर्जिंग के लिए एक ज्यामितीय दृष्टिकोण
मॉडल मर्जिंग की प्रभावशीलता महत्वपूर्ण रूप से इस बात पर निर्भर करती है कि मूल मॉडलों के पैरामीटर कैसे संयुक्त होते हैं। एक साधारण रैखिक औसत (अक्सर लीनियर इंटरपोलेशन या LERP कहा जाता है) सहज लग सकता है, लेकिन यह अक्सर उप-इष्टतम परिणाम देता है या प्रदर्शन को खराब भी कर देता है। ऐसा संभवतः इसलिए है क्योंकि LLMs का उच्च-आयामी पैरामीटर स्पेस सपाट नहीं है; इसमें एक जटिल, घुमावदार ज्यामिति होती है। रैखिक इंटरपोलेशन इस स्पेस के भीतर ‘डेड ज़ोन’ या उच्च-हानि वाले क्षेत्रों को पार करने का जोखिम उठाता है, जो मूल मॉडलों के सावधानीपूर्वक सीखे गए अभ्यावेदन को प्रभावी ढंग से बिगाड़ देता है।
स्फेरिकल लीनियर इंटरपोलेशन (SLERP) दर्ज करें। मूल रूप से कंप्यूटर ग्राफिक्स में रोटेशन के सुचारू एनीमेशन के लिए विकसित, SLERP एक हाइपरस्फीयर की सतह के साथ सबसे छोटे पथ का अनुसरण करके दो बिंदुओं (इस मामले में, दो मॉडलों के पैरामीटर वैक्टर) के बीच इंटरपोलेट करने का एक ज्यामितीय रूप से परिष्कृत तरीका प्रदान करता है।
दो मूल मॉडलों के पैरामीटर सेट को एक विशाल गोले की सतह पर दो बिंदुओं के रूप में कल्पना करें।
- LERP बिंदुओं को जोड़ते हुए गोले के माध्यम से एक सीधी रेखा खींचेगा। यह पथ सतह पर नहीं रह सकता है और खराब प्रदर्शन करने वाले मॉडलों का प्रतिनिधित्व करने वाले क्षेत्रों से गुजर सकता है।
- SLERP, इसके विपरीत, गोले की घुमावदार सतह के साथ यात्रा करता है। यह पथ स्वाभाविक रूप से पैरामीटर स्पेस की अंतर्निहित ज्यामितीय संरचना का सम्मान करता है।
LLMs को मर्ज करने के लिए यह गोलाकार पथ संभावित रूप से बेहतर क्यों है?
- संरचना संरक्षण: ‘गोले पर’ रहकर, SLERP मापदंडों के बीच ज्यामितीय संबंधों को बनाए रखता है, प्रत्येक मूल मॉडल के भीतर सीखी गई संरचनाओं को रैखिक पथ की तुलना में अधिक प्रभावी ढंग से संरक्षित करता है।
- उच्च-हानि वाले क्षेत्रों से बचना: घुमावदार पथ के पैरामीटर स्पेस के उन क्षेत्रों को काटने की संभावना कम होती है जो उच्च भविष्यवाणी त्रुटियों (हानि) से जुड़े होते हैं।
- गैर-रेखीय संयोजन: SLERP के लिए इंटरपोलेशन सूत्र स्वाभाविक रूप से गैर-रेखीय है। यह मूल मॉडलों के मापदंडों के बीच जटिल, सहक्रियात्मक अंतःक्रियाओं की अनुमति देता है, संभावित रूप से उन संयोजनों को अनलॉक करता है जो नवीन क्षमताओं का प्रतिनिधित्व करते हैं। एक मर्ज किया गया पैरामीटर सुविधाओं को इस तरह से सक्रिय कर सकता है जैसे कोई भी मूल मॉडल अकेले नहीं कर सकता था।
- सुचारू संक्रमण: SLERP मूल मॉडलों की स्थितियों के बीच गणितीय रूप से सुचारू संक्रमण प्रदान करता है, जो संभावित रूप से मर्ज किए गए मॉडल में बेहतर सामान्यीकरण की ओर ले जाता है।
क्योंकि SLERP मॉडल की आंतरिक ज्यामिति का सम्मान करता है और गैर-रेखीय पैरामीटर इंटरैक्शन की सुविधा प्रदान करता है, इसमें न केवल औसत क्षमताओं की क्षमता है, बल्कि उन्हें वास्तव में इस तरह से मिलाने की क्षमता है जो उभरते गुणों को बढ़ावा देती है। यह इसे सामग्री विज्ञान जैसे जटिल डोमेन के उद्देश्य से मॉडल मर्ज करने के लिए विशेष रूप से आशाजनक उम्मीदवार बनाता है, जहां सूक्ष्म अंतःक्रियाएं और सूक्ष्म समझ महत्वपूर्ण हैं।
सिद्धांतों का परीक्षण: Llama और Mistral प्रयोग
इन फाइन-ट्यूनिंग और मर्जिंग रणनीतियों की कठोरता से जांच करने के लिए, लोकप्रिय ओपन-सोर्स मॉडल परिवारों का उपयोग करके प्रयोगों की एक व्यवस्थित श्रृंखला आयोजित की गई: Llama 3.1 (8 बिलियन पैरामीटर) और Mistral (7 बिलियन पैरामीटर)। लक्ष्य विभिन्न प्रशिक्षण पाइपलाइनों की तुलना करना और SLERP मर्जिंग के प्रभाव का आकलन करना था।
प्रयोगात्मक डिजाइन में कई प्रमुख चरण शामिल थे:
- बेस मॉडल: प्रयोग दोनों मूलभूत ‘बेस’ मॉडल (प्री-ट्रेन्ड लेकिन इंस्ट्रक्शन-ट्यून नहीं) और ‘इंस्ट्रक्ट’ संस्करणों (चैट और इंस्ट्रक्शन फॉलोइंग के लिए पहले से ही फाइन-ट्यून) के साथ शुरू हुए, दोनों Llama और Mistral परिवारों के लिए।
- डोमेन कॉर्पस: वैज्ञानिक प्रकाशनों और संसाधित डेटा से सामग्री विज्ञान पर केंद्रित एक विशेष कॉर्पस संकलित किया गया था।
- प्रशिक्षण पाइपलाइन: प्रशिक्षण तकनीकों के विभिन्न संयोजनों को लागू किया गया:
- केवल CPT
- CPT के बाद SFT (CPT-SFT)
- CPT-SFT के बाद ORPO (CPT-SFT-ORPO)
- CPT-SFT के बाद DPO (CPT-SFT-DPO)
- कुछ विविधताएं सीधे इंस्ट्रक्ट मॉडल से शुरू होती हैं (जैसे, Instruct-CPT-SFT-DPO)।
- मॉडल मर्जिंग: कई फाइन-ट्यून किए गए मॉडलों के लिए, SLERP मर्जिंग का प्रदर्शन किया गया, आमतौर पर डोमेन-अनुकूलित मॉडल को उसी परिवार के संबंधित सामान्य-उद्देश्य ‘इंस्ट्रक्ट’ मॉडल के साथ संयोजित किया गया (उदाहरण के लिए, एक CPT-SFT-DPO Llama मॉडल को मानक Llama 3.1 इंस्ट्रक्ट मॉडल के साथ मर्ज किया गया)।
- मूल्यांकन: सभी परिणामी मॉडलों (मर्ज किए गए और गैर-मर्ज किए गए दोनों) के प्रदर्शन का मूल्यांकन डोमेन ज्ञान, तर्क और निर्देश पालन का परीक्षण करने के लिए डिज़ाइन किए गए प्रासंगिक बेंचमार्क के एक सूट में किया गया था।
Llama और Mistral में मुख्य निष्कर्ष:
- SLERP मर्जिंग लगातार प्रदर्शन को बढ़ाता है: दोनों मॉडल परिवारों और विभिन्न प्रशिक्षण पाइपलाइनों में, SLERP मर्जिंग के माध्यम से बढ़ाए गए मॉडलों ने आम तौर पर मूल्यांकन बेंचमार्क पर उच्चतम सटीकता हासिल की। यह दृढ़ता से इस परिकल्पना का समर्थन करता है कि SLERP मॉडल की शक्तियों को संयोजित करने के लिए एक प्रभावी तकनीक है।
- सहक्रियात्मक प्रभावों की पुष्टि: SLERP-मर्ज किए गए मॉडलों का प्रदर्शन अक्सर दो मूल मॉडलों के प्रदर्शन के साधारण औसत से अधिक होता है। इस अपेक्षित औसत के मुकाबले वास्तविक प्राप्त स्कोर को प्लॉट करने से एक महत्वपूर्ण सकारात्मक विचलन का पता चला, यह पुष्टि करता है कि मर्जिंग प्रक्रिया अक्सर सहक्रियात्मक लाभ और उभरती क्षमताओं को अनलॉक करती है। मर्ज की गई इकाई अपने भागों के योग से स्पष्ट रूप से अधिक सक्षम थी।
- वरीयता अनुकूलन मूल्य जोड़ता है: वरीयता अनुकूलन चरणों (DPO या ORPO) को शामिल करने से अक्सर अतिरिक्त प्रदर्शन लिफ्ट प्रदान की जाती है, खासकर जब SLERP मर्जिंग के साथ जोड़ा जाता है। CPT-SFT-DPO-SLERP या CPT-SFT-ORPO-SLERP जैसी रणनीतियाँ अक्सर शीर्ष प्रदर्शन करने वालों में से थीं।
- इष्टतम गैर-मर्ज रणनीति भिन्न होती है: मर्जिंग के बिना, सर्वश्रेष्ठ प्रदर्शन करने वाली रणनीति मॉडल परिवारों के बीच थोड़ी भिन्न होती है। Llama 3.1 के लिए, Instruct-CPT-SFT-DPO ने मजबूत परिणाम दिखाए, जबकि Mistral के लिए, Base-CPT-SFT ने अपने इंस्ट्रक्ट समकक्ष के साथ तुलनीय रूप से अच्छा प्रदर्शन किया।
- CPT अवधि का प्रभाव: Mistral मॉडल पर आगे के विश्लेषण से पता चला कि प्रदर्शन आम तौर पर निरंतर प्री-ट्रेनिंग के अधिक युगों (परीक्षण किए गए पांच तक) के साथ बेहतर हुआ, खासकर जब इंस्ट्रक्ट मॉडल से शुरू किया गया, CPT के दौरान पर्याप्त डोमेन एक्सपोजर के मूल्य को पुष्ट करता है।
ये परिणाम एक स्पष्ट तस्वीर पेश करते हैं: जबकि अनुक्रमिक फाइन-ट्यूनिंग मूल्यवान है, SLERP का उपयोग करके रणनीतिक मॉडल मर्जिंग LLM प्रदर्शन को महत्वपूर्ण रूप से बढ़ाने के लिए एक शक्तिशाली मार्ग प्रदान करता है, विशेष रूप से विशेष डोमेन के लिए, अक्सर सरल एकत्रीकरण से परे क्षमताएं प्रदान करता है।
गहरा गोता: मर्जिंग को क्या काम करता है?
SLERP मर्जिंग की लगातार सफलता अंतर्निहित यांत्रिकी और प्रभावशाली कारकों पर करीब से नज़र डालने के लिए प्रेरित करती है। यह ज्यामितीय दृष्टिकोण इतने शक्तिशाली परिणाम क्यों देता है, और कौन सी स्थितियाँ इसकी प्रभावशीलता को अनुकूलित करती हैं?
गैर-रेखीय अंतःक्रियाएं: जैसा कि सिद्धांत दिया गया है, पैरामीटर स्पेस के माध्यम से SLERP का गैर-रेखीय पथ महत्वपूर्ण प्रतीत होता है। यह मर्ज किए गए मॉडल को मापदंडों के उन संयोजनों का पता लगाने की अनुमति देता है जिन्हें रैखिक औसत चूक जाएगा। ये संयोजन सीखी गई विशेषताओं के बीच नवीन अंतःक्रियाओं का प्रतिनिधित्व कर सकते हैं, जिससे डोमेन के अनुरूप उभरते तर्क या समस्या-समाधान क्षमताएं हो सकती हैं। उन मापदंडों के संयोजन की कल्पना करें जो व्यक्तिगत रूप से ‘सामग्री शक्ति’ और ‘जैविक संरचनाओं’ की समझ का प्रतिनिधित्व करते हैं - SLERP एक ऐसा संयोजन पा सकता है जो प्रभावी रूप से ‘जैव-प्रेरित उच्च-शक्ति सामग्री’ का प्रतिनिधित्व करता है जिस तरह से कोई भी मूल मॉडल स्पष्ट रूप से नहीं करता था।
विविधता की भूमिका: मूल मॉडल कितने भिन्न होने चाहिए? विश्लेषण ने जटिल संबंधों का सुझाव दिया। जबकि अत्यधिक विविधता फायदेमंद लग सकती है, कुछ सहसंबंधों ने संकेत दिया कि कुछ संदर्भों में (जैसे Llama मॉडल), माता-पिता के बीच उच्च प्रदर्शन विविधता बाद के SFT पर निर्भरता को थोड़ा कम कर सकती है, शायद इसलिए कि मर्जिंग पहले से ही एक व्यापक क्षमता सेट पर कब्जा कर लेती है। अंतःक्रिया सूक्ष्म है और संभवतः माता-पिता के लिए उपयोग की जाने वाली विशिष्ट फाइन-ट्यूनिंग विधियों पर निर्भर करती है।
बेस बनाम इंस्ट्रक्ट स्टार्टिंग पॉइंट: शुरुआती मॉडल का चुनाव मायने रखता है। Llama प्रयोगों के लिए, शीर्ष प्रदर्शन करने वाला मर्ज किया गया मॉडल इंस्ट्रक्ट संस्करण से उत्पन्न हुआ। इसके विपरीत, Mistral के लिए, एक शीर्ष प्रदर्शनकर्ता CPT, SFT और मर्जिंग से गुजरने से पहले बेस मॉडल से प्राप्त किया गया था। यह बताता है कि Llama और Mistral परिवारों के प्रारंभिक प्री-ट्रेनिंग मेकअप में वास्तुशिल्प अंतर या भिन्नताएं प्रभावित करती हैं कि वे विशिष्ट फाइन-ट्यूनिंग और मर्जिंग पाइपलाइनों पर कैसे प्रतिक्रिया करते हैं। कोई एक सार्वभौमिक ‘सर्वश्रेष्ठ’ प्रारंभिक बिंदु नहीं है; इसके लिए अनुभवजन्य परीक्षण की आवश्यकता है।
CPT में डेटा गुणवत्ता: निरंतर प्री-ट्रेनिंग के दौरान रखी गई नींव महत्वपूर्ण है। एक बड़े लेकिन ‘शोर’ CPT डेटासेट (जिसमें ऑप्टिकल कैरेक्टर रिकग्निशन से अधिक स्वरूपण त्रुटियां या कलाकृतियां शामिल हैं) का उपयोग करके किए गए प्रयोगों के परिणामस्वरूप छोटे, क्लीनर डेटासेट का उपयोग करने की तुलना में प्रदर्शन में कमी आई। यह CPT चरण के प्रभावी होने के लिए उच्च-गुणवत्ता, अच्छी तरह से संसाधित डोमेन-विशिष्ट डेटा के महत्व को रेखांकित करता है। कचरा अंदर, कचरा बाहर अभी भी लागू होता है।
फाइन-ट्यूनिंग SLERP पैरामीटर्स: SLERP के स्वयं पैरामीटर होते हैं, विशेष रूप से इंटरपोलेशन गुणांक (अक्सर ‘t’ के रूप में दर्शाया जाता है, 0 से 1 तक होता है) यह निर्धारित करता है कि प्रत्येक मूल मॉडल को कितना भार दिया जाता है। इसके अलावा, मर्जिंग को सभी मॉडल परतों में समान होने की आवश्यकता नहीं है। प्रयोगों ने सेल्फ-अटेंशन परतों बनाम मल्टीलेयर परसेप्ट्रॉन (MLP) परतों के लिए इंटरपोलेशन कारक को अलग-अलग बदलने, या यहां तक कि मॉडल की गहराई के माध्यम से इसे उत्तरोत्तर बदलने का पता लगाया। परिणामों से पता चला कि विशिष्ट गैर-समान वेटिंग योजनाएं मानक समान दृष्टिकोण से बेहतर प्रदर्शन कर सकती हैं, जो नेटवर्क के आर्किटेक्चर में मर्ज प्रक्रिया को सावधानीपूर्वक तैयार करके और अनुकूलन क्षमता का सुझाव देती हैं। परतों में वेट्स की एक सरल रैखिक प्रगति एक Llama मामले में प्रभावी साबित हुई।
नियमितीकरण प्रभाव: SLERP नियमितीकरण के एक रूप के रूप में भी कार्य कर सकता है। दो संभावित रूप से विशिष्ट मॉडलों के बीच एक सुचारू रास्ता खोजकर, यह किसी भी मूल के प्रशिक्षण डेटा की विशिष्टताओं के लिए ओवरफिटिंग को हतोत्साहित कर सकता है, जिससे अनदेखे डोमेन-विशिष्ट समस्याओं पर बेहतर सामान्यीकरण हो सकता है। यह ‘विनाशकारी विस्मरण’ को कम करने में भी मदद कर सकता है, जहां एक कार्य पर फाइन-ट्यूनिंग पिछले कार्य से ज्ञान मिटा देती है।
संक्षेप में, SLERP की प्रभावशीलता LLM पैरामीटर स्पेस की जटिल ज्यामिति को बुद्धिमानी से नेविगेट करने, सीखी गई ज्ञान संरचनाओं को संरक्षित करते हुए लाभकारी गैर-रेखीय अंतःक्रियाओं को बढ़ावा देने की क्षमता से उपजी है। हालाँकि, इसके उपयोग को अनुकूलित करने के लिए मूल मॉडल पसंद, प्रशिक्षण इतिहास, डेटा गुणवत्ता, और संभावित रूप से मर्ज के ठीक-ठाक विवरणों पर सावधानीपूर्वक विचार करने की आवश्यकता होती है।
क्या आकार मायने रखता है? छोटे मॉडलों के साथ स्केलिंग प्रभावों की खोज
7-बिलियन और 8-बिलियन पैरामीटर मॉडल के साथ देखे गए प्रभावशाली सहक्रियात्मक प्रभाव एक स्वाभाविक प्रश्न उठाते हैं: क्या SLERP मर्जिंग द्वारा अनलॉक की गई ये उभरती क्षमताएं बहुत छोटे भाषा मॉडल में भी प्रकट होती हैं? या क्या कोई स्केल थ्रेशोल्ड है जिसके नीचे जादू फीका पड़ जाता है?
इसकी जांच करने के लिए, SmolLM मॉडल श्रृंखला का उपयोग करके समान प्रयोग किए गए, विशेष रूप से केवल 1.7 बिलियन पैरामीटर वाले संस्करण के साथ। यह मॉडल काफी छोटा है, जो इसे मोबाइल उपकरणों या एज कंप्यूटिंग जैसे संसाधन-विवश वातावरण के लिए उपयुक्त बनाता है, लेकिन संभावित रूप से इसके बड़े चचेरे भाइयों की पैरामीटर समृद्धि का अभाव है।
SmolLM मॉडल उसी पाइपलाइन से गुजरे: सामग्री विज्ञान कॉर्पस के साथ CPT, उसके बाद SFT और DPO (जो इस छोटे आर्किटेक्चर के लिए ORPO से अधिक प्रभावी साबित हुआ)। फिर SLERP मर्जिंग लागू की गई, फाइन-ट्यून किए गए SmolLM को उसके बेस संस्करण या अन्य वेरिएंट के साथ संयोजित किया गया।
SmolLM के साथ निष्कर्ष:
- फाइन-ट्यूनिंग अभी भी मदद करती है: CPT-SFT-DPO पाइपलाइन ने SmolLM मॉडल के प्रदर्शन को उसकी मूल स्थिति के सापेक्ष डोमेन कार्यों पर बेहतर बनाया। फाइन-ट्यूनिंग प्रक्रिया स्वयं फायदेमंद थी, इसके विशेष ज्ञान को बढ़ाती थी।
- उद्भव काफी हद तक अनुपस्थित: हालांकि, Llama और Mistral प्रयोगों के विपरीत, SLERP-मर्ज किए गए SmolLM मॉडल ने आम तौर पर महत्वपूर्ण सहक्रियात्मक प्रभाव प्रदर्शित नहीं किए। उनका प्रदर्शन आमतौर पर मूल मॉडलों के साधारण औसत के करीब या केवल थोड़ा ऊपर उतरा। 7B/8B मॉडल में देखे गए नाटकीय प्रदर्शन छलांग और उभरती क्षमताओं के स्पष्ट संकेत गायब थे।
निहितार्थ:
यह विरोधाभास बताता है कि मॉडल स्केल संभवतः उभरते गुणों को उत्पन्न करने के लिए SLERP मर्जिंग की पूरी क्षमता का एहसास करने में एक महत्वपूर्ण कारक है। छोटे मॉडल, अपने कम जटिल और निम्न-आयामी पैरामीटर स्पेस के साथ, मर्जिंग के दौरान होने वाली इन शक्तिशाली गैर-रेखीय अंतःक्रियाओं के लिए आवश्यक प्रतिनिधित्वात्मक क्षमता या समृद्धि की कमी हो सकती है। उपन्यास, लाभकारी पैरामीटर संयोजनों की खोज के लिए ‘कमरा’ बड़े मॉडलों की तुलना में काफी बाधित लगता है।
ये परिणाम डीप लर्निंग में स्केलिंग कानूनों के बारे में व्यापक टिप्पणियों के साथ संरेखित होते हैं, जहां कुछ गुणात्मक क्षमताएं अक्सर तभी उभरती हैं जब मॉडल एक निश्चित आकार की सीमा तक पहुंच जाते हैं। ऐसा प्रतीत होता है कि SLERP मर्जिंग की सहक्रियात्मक शक्ति एक ऐसी क्षमता हो सकती है जो पर्याप्त मॉडल स्केल और जटिलता पर गंभीर रूप से निर्भर करती है।
लाभों का量化: मर्जिंग से प्रदर्शन लिफ्ट पर एक नज़दीकी नज़र
जबकि बेंचमार्क दिखाते हैं कि मर्ज किए गए मॉडल अक्सर समग्र रूप से सर्वश्रेष्ठ प्रदर्शन करते हैं, यह ठीक से मापना उपयोगी है कि वे अपने माता-पिता की तुलना में कितना बेहतर हैं। विशेष रूप से, क्या मर्ज किया गया मॉडल लगातार इसे बनाने के लिए उपयोग किए जाने वाले दो मॉडलों में से मजबूत से भी बेहतर प्रदर्शन करता है?
इसका विश्लेषण करने के लिए, प्रत्येक SLERP-मर्ज किए गए मॉडल के लिए प्रदर्शन विचलन की गणना की गई। इस विचलन को इस प्रकार परिभाषित किया गया था:
प्रदर्शन विचलन = प्रदर्शन (मर्ज किया गया मॉडल) - अधिकतम (प्रदर्शन (मूल 1), प्रदर्शन (मूल 2))
- एक सकारात्मक विचलन (नीले रंग के रंगों में देखा गया) का अर्थ है कि SLERP मॉडल ने अपने माता-पिता के सर्वश्रेष्ठ से बेहतर प्रदर्शन किया - तालमेल का स्पष्ट प्रमाण।
- एक नकारात्मक विचलन (लाल रंग में देखा गया) का अर्थ है कि SLERP मॉडल ने अपने कम से कम एक माता-पिता से खराब प्रदर्शन किया, यह दर्शाता है कि मर्ज हानिकारक था या सबसे अच्छा, औसत था।
विश्लेषण से पता चला:
Llama 3.1 (8B) और Mistral (7B) मॉडल से जुड़े अधिकांश प्रयोगों में, प्रदर्शन विचलन मुख्य रूप से सकारात्मक थे। कई मामलों में, विशेष रूप से अच्छी तरह से अनुकूलित पाइपलाइनों के लिए (उदाहरण के लिए, जिनमें CPT, SFT, वरीयता अनुकूलन और SLERP शामिल हैं), मर्ज किए गए मॉडलों ने पर्याप्त सकारात्मक विचलन दिखाया, यह दर्शाता है कि उन्होंने अपने सबसे मजबूत मूल की क्षमताओं को भी महत्वपूर्ण रूप से पार कर लिया है।
ऐसे उदाहरण थे, विशेष रूप से कम अनुकूलित मूल मॉडल या शायद उप-इष्टतम मर्जिंग पैरामीटर के साथ, जहां विचलन थोड़ा नकारात्मक या शून्य के करीब था। हालाँकि, व्यापक प्रवृत्ति स्पष्ट थी: रणनीतिक SLERP मर्जिंग अक्सर एक वास्तविक प्रदर्शन लिफ्ट प्रदान करती है जो किसी भी मूल मॉडल द्वारा अकेले प्राप्त की जा सकने वाली चीज़ों से परे है। यह इस विचार को पुष्ट करता है कि मर्जिंग केवल औसत नहीं है, बल्कि बेहतर क्षमताओं को संश्लेषित करने में सक्षम एक प्रक्रिया है। SmolLM (1.7B) परिणाम, इसके विपरीत, बहुत छोटे या नकारात्मक विचलन दिखाएंगे, जो उस पैमाने पर मजबूत उभरते प्रभावों की कमी के अनुरूप है।
बेंचमार्क से विचार-मंथन तक: सामग्री डिजाइन में इंटरैक्टिव अनुप्रयोग
मात्रात्मक बेंचमार्क से परे, इन डोमेन-अनुकूलित मॉडलों का वास्तविक मूल्य वास्तविक दुनिया के कार्यों, जैसे वैज्ञानिक तर्क और रचनात्मक डिजाइन में सहायता करने की उनकी क्षमता में निहित है। इस गुणात्मक पहलू का आकलन करने के लिए, कई शीर्ष-प्रदर्शन करने वाले मॉडलों (मर्ज किए गए और गैर-मर्ज किए गए दोनों वेरिएंट सहित) के साथ इंटरैक्टिव चैट सत्र आयोजित किए गए।
सेटअप में मॉडल को सामग्री विज्ञान विशेषज्ञ के रूप में कार्य करने का निर्देश देने वाला एक सुसंगत सिस्टम प्रॉम्प्ट प्रदान करना शामिल था, जिसके बाद रचनात्मक, क्रॉस-डोमेन तर्क का परीक्षण करने के लिए डिज़ाइन किया गया उपयोगकर्ता प्रॉम्प्ट था। एक विशिष्ट कार्य में मॉडल से पूछना शामिल था:
- दो प्रतीत होने वाली भिन्न जैविक अवधारणाओं पर विचार करें (उदाहरण के लिए, कोलेजन की संरचना और पत्तियों के शिरा विन्यास पैटर्न)।
- दोनों अवधारणाओं के सिद्धांतों के संयोजन से प्रेरित उपन्यास सामग्री डिजाइनों पर विचार-मंथन करें।
- प्रस्तावित डिजाइनों के पीछे के तर्क की व्याख्या करें।
- संभावित डाउनस्ट्रीम प्रसंस्करण के लिए सुझावों को एक संरचित प्रारूप (जैसे JSON) में आउटपुट करें।
गुणात्मक अवलोकन:
- मजबूत डोमेन समझ: सभी फाइन-ट्यून किए गए मॉडलों ने अंतर्निहित जैविक और सामग्री विज्ञान अवधारणाओं की ठोस समझ का प्रदर्शन किया, उपयुक्त शब्दावली का उपयोग किया और प्रासंगिक सिद्धांतों का संदर्भ दिया। CPT और SFT चरणों ने स्पष्ट रूप से महत्वपूर्ण डोमेन ज्ञान प्रदान किया।
- रचनात्मक संश्लेषण: मॉडल आम तौर पर नवीन सामग्री आर्किटेक्चर या कार्यात्मकताओं का प्रस्ताव करने के लिए भिन्न इनपुट (जैसे कोलेजन और पत्तियां) के बीच वैचारिक अंतर को पाटने में सक्षम थे। इसने विशेष डोमेन के भीतर सादृश्य तर्क करने की उनकी क्षमता का प्रदर्शन किया।
- संरचित आउटपुट: मॉडल ने संरचित आउटपुट (JSON) का अनुरोध करने वाले निर्देशों का सफलतापूर्वक पालन किया, जो अच्छे निर्देश-पालन क्षमताओं का संकेत देता है, विशेष रूप से उन लोगों के लिए जिन्हें SFT और वरीयता अनुकूलन के साथ परिष्कृत किया गया है या इंस्ट्रक्ट बेस से उत्पन्नहुए हैं।
- बदलती गहराई और स्पष्टता: जबकि सभी ने मुख्य कार्य किया, प्रदान किए गए तर्क की गहराई, प्रस्तावित डिजाइनों की नवीनता और व्यावहारिकता, और स्पष्टीकरण की समग्र स्पष्टता और सुसंगतता में अंतर उभरा। जिन मॉडलों ने अधिक व्यापक प्रशिक्षण पाइपलाइनों से गुजरा, विशेष रूप से वरीयता अनुकूलन और SLERP मर्जिंग सहित, अक्सर समृद्ध, अधिक व्यावहारिक और अधिक रचनात्मक प्रतिक्रियाएं प्रदान कीं।
- मर्जिंग का प्रभाव: मर्ज किए गए मॉडल अक्सर डोमेन-विशिष्ट सटीकता और संवादी प्रवाह/रचनात्मकता के बीच एक अच्छा संतुलन प्रदर्शित करते हैं, जो डोमेन-ट्यून किए गए मूल के ज्ञान को सामान्य-उद्देश्य वाले इंस्ट्रक्ट मूल के इंटरैक्शन कौशल के साथ एकीकृत करते प्रतीत होते हैं।
इन इंटरैक्टिव सत्रों ने मूल्यवान गुणात्मक साक्ष्य प्रदान किए कि फाइन-ट्यूनिंग और मर्जिंग रणनीतियाँ व्यावहारिक, ओपन-एंडेड कार्यों में ठोस सुधारों में तब्दील होती हैं, जिनके लिए डोमेन-विशिष्ट तर्क और रचनात्मकता की आवश्यकता होती है। उन्होंने सामग्री विज्ञान जैसे क्षेत्रों में वैज्ञानिक अन्वेषण और डिजाइन विचार में मूल्यवान सहयोगी के रूप में कार्य करने के लिए इन अनुरूपित LLMs की क्षमता का प्रदर्शन किया।