துறைசார் நிபுணத்துவத்தைத் திறத்தல்: LLMகளில் திறன் வெளிப்பாடு

நிபுணத்துவத்தின் சவால்: தொழில்நுட்ப எல்லைகளுக்கு AI-ஐத் தழுவுதல்

பெரிய மொழி மாதிரிகள் (Large Language Models - LLMs) நாம் தகவல்களுடன் தொடர்பு கொள்ளும் விதத்தையும், இயற்கை மொழி சம்பந்தப்பட்ட பணிகளை தானியக்கமாக்கும் விதத்தையும் மறுக்கமுடியாமல் புரட்சி செய்துள்ளன. Llama மற்றும் Mistral போன்ற பெரிய மாதிரிகள், அவற்றின் திறந்த மூல வடிவங்களில் கூட, மனித வெளியீட்டிற்குப் போட்டியாக இருக்கும் உரையைப் புரிந்துகொள்வதிலும் உருவாக்குவதிலும் குறிப்பிடத்தக்க சரளத்தைக் காட்டுகின்றன. அவற்றின் திறமை அன்றாட உரையாடல் முதல் சிக்கலான சுருக்கம் வரை பரந்த நிலப்பரப்பில் பரவியுள்ளது. இருப்பினும், பொருள் அறிவியல் அல்லது பயோமெட்டீரியோமிக்ஸ் போன்ற அறிவியல் மற்றும் பொறியியலின் சிறப்பு வாய்ந்த, தொழில்நுட்பச் சொற்கள் நிறைந்த பகுதிகளுக்குள் செல்வது ஒரு தனித்துவமான தடையை அளிக்கிறது.

இந்த தொழில்நுட்பத் துறைகளுக்கு பொது அறிவை விட மேலானது தேவை; அவற்றுக்கு ஆழமான, நுணுக்கமான புரிதல், குறிப்பிட்ட கொள்கைகளின் மீது பகுத்தறியும் திறன், மற்றும் சிறப்புச் சொற்களஞ்சியம் மற்றும் தரவு கட்டமைப்புகளுடன் பரிச்சயம் தேவை. பரந்த வலைத் தொகுப்புகளில் பயிற்சி பெற்ற நிலையான LLMகள், இந்தத் தேவைகளை எதிர்கொள்ளும்போது பெரும்பாலும் தடுமாறுகின்றன. எனவே, சவால் துறைத் தழுவலில் (domain adaptation) உள்ளது: இந்த சக்திவாய்ந்த பொதுவான மாதிரிகளை மிகவும் குறிப்பிட்ட துறைகளில் நிபுணர் உதவியாளர்களாக மாற்றுவதற்கு நாம் எவ்வாறு திறம்பட வடிவமைக்க முடியும்?

வெறுமனே அதிக சிறப்புத் தரவை ஊட்டுவது எப்போதும் பதில் அல்ல, அது எப்போதும் சாத்தியமும் இல்லை. இந்த மாபெரும் மாதிரிகளை புதிதாகப் பயிற்றுவிப்பது தடைசெய்யும் அளவுக்கு விலை உயர்ந்தது, மேலும் அவற்றின் ஆரம்ப முன் பயிற்சிக்காகப் பயன்படுத்தப்பட்ட அசல், பாரிய தரவுத்தொகுப்புகள் பொதுவாக அணுக முடியாதவை. இது பிரபலமான திறந்த மூல மாதிரிகளுக்கு குறிப்பாக உண்மை, அங்கு சில வெளிப்படைத்தன்மை இருந்தபோதிலும், முழு செய்முறை - முன் பயிற்சி, ஃபைன்-டியூனிங் மற்றும் சீரமைப்பு ஆகியவற்றின் போது பயன்படுத்தப்பட்ட சரியான தரவு கலவைகள் மற்றும் வரிசைகள் - பெரும்பாலும் தனியுரிமையாகவே உள்ளது. ஆராய்ச்சியாளர்கள் மற்றும் பொறியியலாளர்கள் ஏற்கனவே உள்ள மாதிரிகளில் புதிய, சிறப்பு அறிவை புகுத்துவதற்கு வலுவான, திறமையான உத்திகள் தேவை, அதே நேரத்தில் அவற்றின் ஆரம்ப பயிற்சியின் போது பெறப்பட்ட பரந்த பொது திறன்களை முக்கியமாகப் பாதுகாக்க வேண்டும். இந்த நுட்பமான சமநிலைப்படுத்தும் செயல், அறிவியல் கண்டுபிடிப்பு மற்றும் பொறியியல் புதுமைக்கான உண்மையான பயனுள்ள AI கருவிகளை உருவாக்குவதற்கு மிக முக்கியமானது, எடுத்துக்காட்டாக, பல்வேறு அளவுகள் மற்றும் சூழல்களில் உயிரியல் பொருள் வடிவமைப்பு உத்வேகத்தை ஆராய பன்முக பகுத்தறிவு திறன் கொண்ட இயந்திரங்களை உருவாக்குதல்.

பயிற்சி நிலப்பரப்பை வரைபடமாக்குதல்: முன் பயிற்சியிலிருந்து விருப்பத் தேர்வுமுறை வரை

துறை சார்ந்த LLM நிபுணத்துவத்திற்கான பாதையில் பயணிப்பது, ஃபைன்-டியூனிங் உத்திகளின் பல்வேறு கருவித்தொகுப்பை ஆராய்வதை உள்ளடக்குகிறது. ஒவ்வொரு அணுகுமுறையும் மாதிரியின் அறிவு மற்றும் நடத்தையை வடிவமைக்க வேறுபட்ட வழியை வழங்குகிறது.

  • தொடர்ச்சியான முன் பயிற்சி (Continued Pre-Training - CPT): இந்த உத்தி ஆரம்ப முன் பயிற்சி கட்டத்தை நீட்டிப்பதை உள்ளடக்குகிறது, ஆனால் இந்த முறை இலக்குத் துறையில் கவனம் செலுத்தும் ஒரு தொகுப்பைப் பயன்படுத்துகிறது - பொருள் அறிவியல் ஆராய்ச்சி கட்டுரைகளின் தொகுப்பு போன்றவை. இதன் குறிக்கோள், மாதிரியைத் துறையின் குறிப்பிட்ட மொழி, கருத்துக்கள் மற்றும் அறிவு கட்டமைப்புகளில் மூழ்கடிப்பதாகும், இது பணி சார்ந்த ஃபைன்-டியூனிங் மூலம் மட்டும் சாத்தியமானதை விட ஆழமாக துறை சார்ந்த தகவல்களை உறிஞ்ச அனுமதிக்கிறது. இது தொடர்புடைய அறிவின் அடித்தளத்தை அமைக்கிறது.

  • மேற்பார்வையிடப்பட்ட ஃபைன்-டியூனிங் (Supervised Fine-Tuning - SFT): CPT-ஐத் தொடர்ந்து அல்லது ஒரு அடிப்படை மாதிரியிலிருந்து தொடங்கி, SFT குறிப்பிட்ட பணிகளை எவ்வாறு செய்வது என்பதை மாதிரிக்கு நேரடியாகக் கற்பிக்கிறது. இது உள்ளீடு-வெளியீடு ஜோடிகளின் தொகுக்கப்பட்ட தரவுத்தொகுப்புகளைப் பயன்படுத்தி அடையப்படுகிறது, பெரும்பாலும் அறிவுறுத்தல்கள் மற்றும் விரும்பிய பதில்கள் அல்லது துறைக்குத் தொடர்புடைய கேள்விகள் மற்றும் துல்லியமான பதில்கள் என வடிவமைக்கப்படுகிறது. SFT, அறிவுறுத்தல்களைப் பின்பற்றுவதற்கும், சிறப்புச் சூழலில் கேள்விகளுக்குத் துல்லியமாகப் பதிலளிப்பதற்கும், விரும்பிய வெளியீட்டு வடிவங்களைக் கடைப்பிடிப்பதற்கும் மாதிரியின் திறனை மேம்படுத்துகிறது.

  • குறைந்த-தர தழுவல் (Low-Rank Adaptation - LoRA): இது இங்கு முதன்மை கவனம் இல்லை என்றாலும், LoRA ஒரு திறமையான மாற்று அல்லது துணைப் பொருளாகும். முழு மாதிரியையும் மீண்டும் பயிற்றுவிப்பதற்குப் பதிலாக, LoRA சிறிய, பயிற்சிக்குரிய ‘அடாப்டர்’ அடுக்குகளை அறிமுகப்படுத்துகிறது. இது மிகக் குறைந்த கணக்கீட்டுச் செலவில் குறிப்பிடத்தக்க தழுவலை அனுமதிக்கிறது, இருப்பினும் CPT உடன் ஒப்பிடும்போது எவ்வளவு அடிப்படையான புதிய அறிவை ஒருங்கிணைக்க முடியும் என்பதில் வரம்புகள் இருக்கலாம்.

  • விருப்பம் சார்ந்த தேர்வுமுறை (Preference-Based Optimization): எளிய பணி நிறைவுக்கு அப்பால் சென்று, விருப்பத் தேர்வுமுறை மாதிரியின் வெளியீடுகளை மனித தீர்ப்புகள் அல்லது உதவி, பாதிப்பின்மை மற்றும் பகுத்தறிவில் துல்லியம் போன்ற குறிப்பிட்ட அளவுகோல்களுடன் மிகவும் நெருக்கமாக சீரமைப்பதை நோக்கமாகக் கொண்டுள்ளது. முன் வரையறுக்கப்பட்ட ‘சரியான’ பதில்களை (SFT இல் உள்ளதைப் போல) மட்டுமே நம்புவதற்குப் பதிலாக, இந்த முறைகள் ஒப்பீடுகளிலிருந்து கற்றுக்கொள்கின்றன.

    • நேரடி விருப்பத் தேர்வுமுறை (Direct Preference Optimization - DPO): DPO ஒரு பதில் மற்றொன்றை விட விரும்பப்படும் (எ.கா., ஒரு மனித மதிப்பீட்டாளர் அல்லது மற்றொரு AI மூலம்) ஜோடிகளிலிருந்து நேரடியாகக் கற்றுக்கொள்கிறது. இது ஒரு தனி வெகுமதி மாதிரி தேவையில்லாமல் விரும்பிய பதில்களை உருவாக்கும் நிகழ்தகவை அதிகரிக்க மாதிரியை மேம்படுத்துகிறது, இது பாரம்பரிய மனித பின்னூட்டத்திலிருந்து வலுவூட்டல் கற்றல் (Reinforcement Learning from Human Feedback - RLHF) செயல்முறையை எளிதாக்குகிறது.
    • முரண்பாடுகள் விகித விருப்பத் தேர்வுமுறை (Odds Ratio Preference Optimization - ORPO): ஒரு புதிய போட்டியாளரான ORPO, தேர்வுமுறை நோக்கத்தை மாற்றியமைக்கிறது, சில நேரங்களில் DPO உடன் ஒப்பிடும்போது மேம்பட்ட செயல்திறன் அல்லது நிலைத்தன்மையை அளிக்கிறது, குறிப்பாக ஒரு துறைக்குள் குறிப்பிட்ட பாணி அல்லது பகுத்தறிவு அளவுகோல்களை நோக்கி மாதிரிகளை சீரமைப்பதில்.

இந்த நுட்பங்கள் பரஸ்பரம் பிரத்தியேகமானவை அல்ல; அவை பெரும்பாலும் தொடர்ச்சியாக அல்லது கலவையாகப் பயன்படுத்தப்படுகின்றன, சிக்கலான பயிற்சி செயல்முறைகளை உருவாக்குகின்றன. ஒரு பொதுவான வரிசை, துறை அறிவை உருவாக்க CPT-ஐ உள்ளடக்கியிருக்கலாம், அதைத் தொடர்ந்து பணித் திறனுக்காக SFT, இறுதியாக சீரமைப்பு மற்றும் செம்மைப்படுத்தலுக்காக DPO அல்லது ORPO. இருப்பினும், உகந்த கலவை மற்றும் வரிசை, குறிப்பாக சிறப்பு அறிவியல் துறைகளில் உச்ச செயல்திறனை அடைவதற்கு, செயலில் உள்ள ஆராய்ச்சிப் பகுதிகளாகவே உள்ளன.

எளிய டியூனிங்கிற்கு அப்பால்: மாதிரிகளை ஒன்றிணைப்பதன் வாக்குறுதி

ஒரு ஒற்றை மாதிரியை தொடர்ச்சியான பயிற்சி நிலைகள் மூலம் செம்மைப்படுத்துவது குறிப்பிடத்தக்க மேம்பாடுகளை அளிக்க முடியும் என்றாலும், மற்றொரு புதிரான வழி உருவாகியுள்ளது: மாதிரி ஒன்றிணைப்பு (model merging). இந்தப் பயிற்சி, இரண்டு அல்லது அதற்கு மேற்பட்ட தனித்தனியாகப் பயிற்சி பெற்ற மாதிரிகளை எடுத்து, அவற்றின் அளவுருக்களை - அவற்றின் உள் ‘எடைகளை’ - இணைத்து ஒரு ஒற்றை, புதிய கலப்பின மாதிரியை உருவாக்குவதை உள்ளடக்குகிறது.

அத்தகைய இணைவை ஏன் முயற்சிக்க வேண்டும்? முக்கிய யோசனை, பெற்றோர் மாதிரிகளின் பலங்களை ஒருங்கிணைத்துச் செயல்படுத்துவதாகும். ஒரு மாதிரி பொருள் அறிவியல் இலக்கியத்தில் (CPT மற்றும் SFT வழியாக) நிபுணத்துவத்துடன் பயிற்சி பெற்றதாகவும், மற்றொரு பொது நோக்க ‘instruct’ மாதிரி சிக்கலான அறிவுறுத்தல்களைப் பின்பற்றுவதிலும், ஒத்திசைவான உரையாடலில் ஈடுபடுவதிலும் மிகவும் திறமையானதாகவும் கற்பனை செய்து பாருங்கள். அவற்றை ஒன்றிணைப்பது, ஆழமான துறை அறிவு மற்றும் சிறந்த உரையாடல் மற்றும் அறிவுறுத்தல்-பின்பற்றும் திறன்கள் இரண்டையும் கொண்ட ஒரு மாதிரியை உருவாக்கக்கூடும்.

ஆரம்பகால ஆய்வுகள் இந்த செயல்முறை எளிய சராசரியை விட மேலானது என்று சுட்டிக்காட்டின. திறன்களை வெறுமனே கலப்பதற்குப் பதிலாக, ஒன்றிணைப்பது பெற்றோர் மாதிரிகள் இரண்டிலும் வெளிப்படையாக இல்லாத புதிய, வெளிப்படும் செயல்பாடுகளை திறக்கக்கூடும். இது ஒன்றிணைப்பின் போது அளவுருக்களுக்கு இடையில் மிகவும் நேரியல் அல்லாத தொடர்புகளைக் குறிக்கிறது, இது பாகங்களின் கூட்டுத்தொகையை விட பெரிய முழுமைக்கு வழிவகுக்கும். பயனுள்ளதாகவும் கட்டுப்படுத்தக்கூடியதாகவும் நிரூபிக்கப்பட்டால், மாதிரி ஒன்றிணைப்பு LLM திறன்களின் எல்லைகளைத் தள்ளுவதற்கான சக்திவாய்ந்த, உருமாறும் கருவியாக இருக்கக்கூடும், சிக்கலான, நிஜ உலக அறிவியல் மற்றும் பொறியியல் சவால்களுக்கு ஏற்றவாறு மிகவும் தகவமைக்கக்கூடிய மற்றும் சக்திவாய்ந்த AI அமைப்புகளை உருவாக்கும்.

SLERP-இன் சக்தியை வெளிப்படுத்துதல்: ஒன்றிணைப்பதற்கான ஒரு வடிவியல் அணுகுமுறை

மாதிரி ஒன்றிணைப்பின் செயல்திறன், பெற்றோர் மாதிரிகளின் அளவுருக்கள் எவ்வாறு இணைக்கப்படுகின்றன என்பதைப் பொறுத்தது. ஒரு எளிய நேரியல் சராசரி (பெரும்பாலும் Linear Interpolation அல்லது LERP என அழைக்கப்படுகிறது) உள்ளுணர்வாகத் தோன்றலாம், ஆனால் அது பெரும்பாலும் உகந்ததல்லாத முடிவுகளுக்கு வழிவகுக்கிறது அல்லது செயல்திறனைக் கூட குறைக்கிறது. இது பெரும்பாலும் LLMகளின் உயர்-பரிமாண அளவுரு வெளி தட்டையானது அல்ல என்பதால்தான்; அது ஒரு சிக்கலான, வளைந்த வடிவவியலைக் கொண்டுள்ளது. நேரியல் இடைக்கணிப்பு இந்த வெளிக்குள் ‘இறந்த மண்டலங்கள்’ அல்லது உயர்-இழப்புப் பகுதிகள் வழியாகச் செல்லும் அபாயத்தைக் கொண்டுள்ளது, இது பெற்றோர் மாதிரிகளின் கவனமாகக் கற்றுக்கொண்ட பிரதிநிதித்துவங்களை திறம்பட சிதைக்கிறது.

கோள நேரியல் இடைக்கணிப்பு (Spherical Linear Interpolation - SLERP) இங்கு வருகிறது. கணினி வரைகலையில் சுழற்சிகளின் மென்மையான அனிமேஷனுக்காக முதலில் உருவாக்கப்பட்ட SLERP, ஒரு உயர் கோளத்தின் மேற்பரப்பில் குறுகிய பாதையைப் பின்பற்றுவதன் மூலம் இரண்டு புள்ளிகளுக்கு (இந்த விஷயத்தில், இரண்டு மாதிரிகளின் அளவுரு திசையன்கள்) இடையில் இடைக்கணிப்பு செய்ய ஒரு வடிவியல் ரீதியாக அதிநவீன வழியை வழங்குகிறது.

இரண்டு பெற்றோர் மாதிரிகளின் அளவுரு தொகுப்புகளை ஒரு மாபெரும் கோளத்தின் மேற்பரப்பில் உள்ள இரண்டு புள்ளிகளாகக் கற்பனை செய்து பாருங்கள்.

  • LERP புள்ளிகளை இணைக்கும் கோளத்தின் வழியாக ஒரு நேர் கோட்டை வரையும். இந்தப் பாதை மேற்பரப்பில் இருக்காது மற்றும் மோசமாகச் செயல்படும் மாதிரிகளைக் குறிக்கும் பகுதிகள் வழியாகச் செல்லக்கூடும்.
  • SLERP, மாறாக, கோளத்தின் வளைந்த மேற்பரப்பிலேயே பயணிக்கிறது. இந்தப் பாதை இயல்பாகவே அளவுரு வெளியின் அடிப்படை வடிவியல் கட்டமைப்பை மதிக்கிறது.

LLMகளை ஒன்றிணைப்பதற்கு இந்தக் கோளப் பாதை ஏன் சிறந்ததாக இருக்கக்கூடும்?

  1. கட்டமைப்புப் பாதுகாப்பு: ‘கோளத்தில் தங்குவதன்’ மூலம், SLERP அளவுருக்களுக்கு இடையிலான வடிவியல் உறவுகளைப் பராமரிக்கிறது, ஒவ்வொரு பெற்றோர் மாதிரிக்குள்ளும் கற்றுக்கொண்ட கட்டமைப்புகளை ஒரு நேரியல் பாதையை விட திறம்படப் பாதுகாக்கிறது.
  2. உயர்-இழப்புப் பகுதிகளைத் தவிர்த்தல்: வளைந்த பாதை, உயர் முன்கணிப்புப் பிழைகளுடன் (இழப்பு) தொடர்புடைய அளவுரு வெளியின் பகுதிகளைக் கடக்கும் வாய்ப்பு குறைவு.
  3. நேரியல் அல்லாத சேர்க்கை: SLERPக்கான இடைக்கணிப்பு சூத்திரம் இயல்பாகவே நேரியல் அல்லாதது. இது பெற்றோர் மாதிரிகளிலிருந்து வரும் அளவுருக்களுக்கு இடையில் சிக்கலான, ஒருங்கிணைந்த தொடர்புகளை அனுமதிக்கிறது, இது புதிய திறன்களைக் குறிக்கும் சேர்க்கைகளைத் திறக்கக்கூடும். ஒன்றிணைக்கப்பட்ட அளவுரு, பெற்றோர் இருவரும் தனியாகச் செய்ய முடியாத வகையில் அம்சங்களைச் செயல்படுத்தக்கூடும்.
  4. மென்மையான மாற்றங்கள்: SLERP பெற்றோர் மாதிரிகளின் நிலைகளுக்கு இடையில் கணித ரீதியாக மென்மையான மாற்றத்தை வழங்குகிறது, இது ஒன்றிணைக்கப்பட்ட மாதிரியில் சிறந்த பொதுமைப்படுத்தலுக்கு வழிவகுக்கும்.

SLERP மாதிரியின் உள்ளார்ந்த வடிவவியலை மதித்து, நேரியல் அல்லாத அளவுரு தொடர்புகளை எளிதாக்குவதால், அது திறன்களை சராசரியாக்குவது மட்டுமல்லாமல், வெளிப்படும் பண்புகளை வளர்க்கும் வகையில் அவற்றை உண்மையாகக் கலக்கும் திறனைக் கொண்டுள்ளது. இது பொருள் அறிவியல் போன்ற சிக்கலான துறைகளை இலக்காகக் கொண்ட மாதிரிகளை ஒன்றிணைப்பதற்கு குறிப்பாக நம்பிக்கைக்குரிய வேட்பாளராக ஆக்குகிறது, அங்கு நுட்பமான தொடர்புகள் மற்றும் நுணுக்கமான புரிதல் முக்கியம்.

கோட்பாடுகளைச் சோதித்தல்: Llama மற்றும் Mistral சோதனைகள்

இந்த ஃபைன்-டியூனிங் மற்றும் ஒன்றிணைப்பு உத்திகளை கடுமையாக ஆராய, பிரபலமான திறந்த மூல மாதிரி குடும்பங்களைப் பயன்படுத்தி ஒரு முறையான தொடர் சோதனைகள் நடத்தப்பட்டன: Llama 3.1 (8 பில்லியன் அளவுருக்கள்) மற்றும் Mistral (7 பில்லியன் அளவுருக்கள்). வெவ்வேறு பயிற்சி செயல்முறைகளை ஒப்பிடுவதும், SLERP ஒன்றிணைப்பின் தாக்கத்தை மதிப்பிடுவதும் குறிக்கோளாக இருந்தது.

சோதனை வடிவமைப்பு பல முக்கிய படிகளை உள்ளடக்கியது:

  1. அடிப்படை மாதிரிகள்: சோதனைகள் Llama மற்றும் Mistral குடும்பங்கள் இரண்டிற்கும் அடித்தள ‘base’ மாதிரிகள் (முன் பயிற்சி பெற்றவை ஆனால் அறிவுறுத்தல்-டியூன் செய்யப்படாதவை) மற்றும் ‘instruct’ பதிப்புகள் (ஏற்கனவே அரட்டை மற்றும் அறிவுறுத்தல் பின்பற்றுதலுக்காக ஃபைன்-டியூன் செய்யப்பட்டவை) ஆகியவற்றுடன் தொடங்கின.
  2. துறைத் தொகுப்பு: அறிவியல் வெளியீடுகள் மற்றும் பதப்படுத்தப்பட்ட தரவுகளிலிருந்து பொருள் அறிவியலில் கவனம் செலுத்தும் ஒரு சிறப்புத் தொகுப்பு தொகுக்கப்பட்டது.
  3. பயிற்சி செயல்முறைகள்: பயிற்சி நுட்பங்களின் பல்வேறு சேர்க்கைகள் பயன்படுத்தப்பட்டன:
    • CPT மட்டும்
    • CPT-ஐத் தொடர்ந்து SFT (CPT-SFT)
    • CPT-SFT-ஐத் தொடர்ந்து ORPO (CPT-SFT-ORPO)
    • CPT-SFT-ஐத் தொடர்ந்து DPO (CPT-SFT-DPO)
    • Instruct மாதிரியிலிருந்து நேரடியாகத் தொடங்கும் சில மாறுபாடுகள் (எ.கா., Instruct-CPT-SFT-DPO).
  4. மாதிரி ஒன்றிணைப்பு: ஃபைன்-டியூன் செய்யப்பட்ட பல மாதிரிகளுக்கு, SLERP ஒன்றிணைப்பு செய்யப்பட்டது, பொதுவாக துறை-தழுவிய மாதிரியை அதே குடும்பத்தைச் சேர்ந்த தொடர்புடைய பொது நோக்க ‘instruct’ மாதிரியுடன் இணைக்கிறது (எ.கா., ஒரு CPT-SFT-DPO Llama மாதிரி நிலையான Llama 3.1 Instruct மாதிரியுடன் ஒன்றிணைக்கப்பட்டது).
  5. மதிப்பீடு: இதன் விளைவாக வரும் அனைத்து மாதிரிகளின் (ஒன்றிணைக்கப்பட்ட மற்றும் ஒன்றிணைக்கப்படாத) செயல்திறன், துறை அறிவு, பகுத்தறிவு மற்றும் அறிவுறுத்தல் பின்பற்றுதலைச் சோதிக்க வடிவமைக்கப்பட்ட தொடர்புடைய அளவீடுகளின் தொகுப்பில் மதிப்பிடப்பட்டது.

Llama மற்றும் Mistral முழுவதும் முக்கிய கண்டுபிடிப்புகள்:

  • SLERP ஒன்றிணைப்பு தொடர்ந்து செயல்திறனை அதிகரிக்கிறது: இரண்டு மாதிரி குடும்பங்கள் மற்றும் பல்வேறு பயிற்சி செயல்முறைகள் முழுவதும், SLERP ஒன்றிணைப்பு மூலம் மேம்படுத்தப்பட்ட மாதிரிகள் பொதுவாக மதிப்பீட்டு அளவீடுகளில் மிக உயர்ந்த துல்லியத்தை அடைந்தன. இது SLERP மாதிரி பலங்களை இணைப்பதற்கான ஒரு பயனுள்ள நுட்பம் என்ற கருதுகோளை வலுவாக ஆதரிக்கிறது.
  • ஒருங்கிணைந்த விளைவுகள் உறுதிப்படுத்தப்பட்டன: SLERP-ஒன்றிணைக்கப்பட்ட மாதிரிகளின் செயல்திறன் இரண்டு பெற்றோர் மாதிரிகளின் செயல்திறன்களின் எளிய சராசரியை விட அடிக்கடி அதிகமாக இருந்தது. இந்தஎதிர்பார்க்கப்பட்ட சராசரிக்கு எதிராக அடையப்பட்ட உண்மையான மதிப்பெண்ணை வரைபடமாக்குவது ஒரு குறிப்பிடத்தக்க நேர்மறை விலகலைக் காட்டியது, ஒன்றிணைப்பு செயல்முறை பெரும்பாலும் ஒருங்கிணைந்த ஆதாயங்களையும் வெளிப்படும் திறன்களையும் திறக்கிறது என்பதை உறுதிப்படுத்துகிறது. ஒன்றிணைக்கப்பட்ட সত্তை அதன் பாகங்களின் கூட்டுத்தொகையை விட வெளிப்படையாக அதிக திறன் கொண்டது.
  • விருப்பத் தேர்வுமுறை மதிப்பைச் சேர்க்கிறது: விருப்பத் தேர்வுமுறை நிலைகளை (DPO அல்லது ORPO) இணைப்பது பெரும்பாலும் கூடுதல் செயல்திறன் உயர்வை வழங்கியது, குறிப்பாக SLERP ஒன்றிணைப்புடன் இணைந்தால். CPT-SFT-DPO-SLERP அல்லது CPT-SFT-ORPO-SLERP போன்ற உத்திகள் அடிக்கடி சிறந்த செயல்திறன் கொண்டவையாக இருந்தன.
  • உகந்த ஒன்றிணைக்கப்படாத உத்தி மாறுபடுகிறது: ஒன்றிணைப்பு இல்லாமல், சிறந்த செயல்திறன் கொண்ட உத்தி மாதிரி குடும்பங்களுக்கு இடையில் சற்று வேறுபட்டது. Llama 3.1 க்கு, Instruct-CPT-SFT-DPO வலுவான முடிவுகளைக் காட்டியது, அதே நேரத்தில் Mistral க்கு, Base-CPT-SFT அதன் Instruct இணையுடன் ஒப்பிடத்தக்க வகையில் சிறப்பாகச் செயல்பட்டது.
  • CPT காலத்தின் தாக்கம்: Mistral மாதிரிகள் மீதான மேலதிக பகுப்பாய்வு, தொடர்ச்சியான முன் பயிற்சியின் (சோதிக்கப்பட்ட ஐந்து வரை) அதிக யுகங்களுடன் செயல்திறன் பொதுவாக மேம்பட்டது என்பதைக் காட்டியது, குறிப்பாக Instruct மாதிரியிலிருந்து தொடங்கும் போது, CPT இன் போது போதுமான துறை வெளிப்பாட்டின் மதிப்பை வலுப்படுத்துகிறது.

இந்த முடிவுகள் ஒரு தெளிவான படத்தைக் காட்டுகின்றன: தொடர்ச்சியான ஃபைன்-டியூனிங் மதிப்புமிக்கது என்றாலும், SLERP ஐப் பயன்படுத்தி மூலோபாய மாதிரி ஒன்றிணைப்பு LLM செயல்திறனை கணிசமாக மேம்படுத்துவதற்கான ஒரு சக்திவாய்ந்த பாதையை வழங்குகிறது, குறிப்பாக சிறப்புத் துறைகளுக்கு, பெரும்பாலும் எளிய ஒருங்கிணைப்புக்கு அப்பாற்பட்ட திறன்களை அளிக்கிறது.

ஆழமான பார்வை: ஒன்றிணைப்பை எது செயல்பட வைக்கிறது?

SLERP ஒன்றிணைப்பின் நிலையான வெற்றி, அடிப்படை இயக்கவியல் மற்றும் செல்வாக்கு செலுத்தும் காரணிகளை உன்னிப்பாகப் பார்க்கத் தூண்டுகிறது. இந்த வடிவியல் அணுகுமுறை ஏன் இத்தகைய சக்திவாய்ந்த முடிவுகளை அளிக்கிறது, மேலும் அதன் செயல்திறனை எந்த நிலைமைகள் மேம்படுத்துகின்றன?

  • நேரியல் அல்லாத தொடர்புகள்: கோட்பாடு கூறியது போல், SLERP இன் அளவுரு வெளி வழியாக நேரியல் அல்லாத பாதை முக்கியமானது என்று தோன்றுகிறது. இது ஒன்றிணைக்கப்பட்ட மாதிரியை நேரியல் சராசரி தவறவிடும் அளவுருக்களின் சேர்க்கைகளை ஆராய அனுமதிக்கிறது. இந்த சேர்க்கைகள் கற்றுக்கொண்ட அம்சங்களுக்கு இடையில் புதிய தொடர்புகளைக் குறிக்கலாம், இது துறைக்கு ஏற்றவாறு வெளிப்படும் பகுத்தறிவு அல்லது சிக்கல் தீர்க்கும் திறன்களுக்கு வழிவகுக்கும். தனித்தனியாக, ‘பொருள் வலிமை’ மற்றும் ‘உயிரியல் கட்டமைப்புகள்’ பற்றிய புரிதலைக் குறிக்கும் அளவுருக்களை இணைப்பதாகக் கற்பனை செய்து பாருங்கள் - SLERP, பெற்றோர் மாதிரிகள் எதுவும் வெளிப்படையாகச் செய்யாத வகையில் ‘உயிர்-ஈர்க்கப்பட்ட உயர்-வலிமைப் பொருட்கள்’ என்பதை திறம்படக் குறிக்கும் ஒரு சேர்க்கையைக் கண்டறியலாம்.

  • பன்முகத்தன்மையின் பங்கு: பெற்றோர் மாதிரிகள் எவ்வளவு வித்தியாசமாக இருக்க வேண்டும்? பகுப்பாய்வு சிக்கலான உறவுகளை பரிந்துரைத்தது. தீவிர பன்முகத்தன்மை நன்மை பயக்கும் என்று தோன்றினாலும், சில தொடர்புகள் சில சூழல்களில் (Llama மாதிரிகள் போன்றவை), பெற்றோருக்கு இடையிலான அதிக செயல்திறன் பன்முகத்தன்மை அடுத்தடுத்த SFT மீதான சார்புநிலையை சற்று குறைக்கக்கூடும் என்பதைக் குறித்தது, ஒருவேளை ஒன்றிணைப்பு ஏற்கனவே ஒரு பரந்த திறன் தொகுப்பைப் பிடிப்பதால் இருக்கலாம். இடைவினை நுட்பமானது மற்றும் பெற்றோருக்குப் பயன்படுத்தப்படும் குறிப்பிட்ட ஃபைன்-டியூனிங் முறைகளைப் பொறுத்தது.

  • Base vs. Instruct தொடக்கப் புள்ளி: தொடக்க மாதிரியின் தேர்வு முக்கியமானது. Llama சோதனைகளுக்கு, சிறந்த செயல்திறன் கொண்ட ஒன்றிணைக்கப்பட்ட மாதிரி Instruct பதிப்பிலிருந்து உருவானது. மாறாக, Mistral க்கு, ஒரு சிறந்த செயல்திறன் கொண்டது Base மாதிரியிலிருந்து பெறப்பட்டது, பின்னர் CPT, SFT மற்றும் ஒன்றிணைப்புக்கு உட்பட்டது. இது Llama மற்றும் Mistral குடும்பங்களின் ஆரம்ப முன் பயிற்சி அமைப்புகளில் உள்ள கட்டமைப்பு வேறுபாடுகள் அல்லது மாறுபாடுகள் குறிப்பிட்ட ஃபைன்-டியூனிங் மற்றும் ஒன்றிணைப்பு செயல்முறைகளுக்கு அவை எவ்வாறு பதிலளிக்கின்றன என்பதைப் பாதிக்கின்றன என்று கூறுகிறது. ஒரே ஒரு உலகளாவிய ‘சிறந்த’ தொடக்கப் புள்ளி இல்லை; அதற்கு அனுபவ சோதனை தேவை.

  • CPT இல் தரவுத் தரம்: தொடர்ச்சியான முன் பயிற்சியின் போது அமைக்கப்பட்ட அடித்தளம் முக்கியமானது. பெரிய ஆனால் ‘சத்தமான’ CPT தரவுத்தொகுப்பைப் (அதிக வடிவமைப்புப் பிழைகள் அல்லது ஆப்டிகல் கேரக்டர் ரெகக்னிஷன் கலைப்பொருட்களைக் கொண்டது) பயன்படுத்திய சோதனைகள், சிறிய, தூய்மையான தரவுத்தொகுப்பைப் பயன்படுத்துவதோடு ஒப்பிடும்போது செயல்திறன் குறைவதற்குக் காரணமாயின. இது CPT நிலை பயனுள்ளதாக இருக்க உயர்தர, நன்கு பதப்படுத்தப்பட்ட துறை சார்ந்த தரவின் முக்கியத்துவத்தை அடிக்கோடிட்டுக் காட்டுகிறது. குப்பை உள்ளே, குப்பை வெளியே என்பது இன்னும் பொருந்தும்.

  • SLERP அளவுருக்களை ஃபைன்-டியூனிங் செய்தல்: SLERP க்கும் அளவுருக்கள் உள்ளன, குறிப்பாக இடைக்கணிப்பு குணகம் (பெரும்பாலும் ‘t’ எனக் குறிக்கப்படுகிறது, 0 முதல் 1 வரை இருக்கும்) ஒவ்வொரு பெற்றோர் மாதிரிக்கும் எவ்வளவு எடை கொடுக்கப்படுகிறது என்பதை தீர்மானிக்கிறது. மேலும், ஒன்றிணைப்பு அனைத்து மாதிரி அடுக்குகளிலும் ஒரே மாதிரியாக இருக்க வேண்டியதில்லை. சுய-கவன அடுக்குகளுக்கு எதிராக பல்லடுக்கு பெர்செப்ட்ரான் (MLP) அடுக்குகளுக்கு இடைக்கணிப்பு காரணியை வித்தியாசமாக மாற்றுவது அல்லது மாதிரியின் ஆழம் வழியாக அதை படிப்படியாக மாற்றுவது போன்றவற்றை சோதனைகள் ஆராய்ந்தன. நிலையான சீரான அணுகுமுறையை விட குறிப்பிட்ட சீரற்ற எடைத் திட்டங்கள் சிறப்பாகச் செயல்படக்கூடும் என்று முடிவுகள் காட்டின, இது நெட்வொர்க்கின் கட்டமைப்பு முழுவதும் ஒன்றிணைப்பு செயல்முறையை கவனமாக வடிவமைப்பதன் மூலம் மேலும் தேர்வுமுறை திறனைக் குறிக்கிறது. அடுக்குகளில் எடைகளின் எளிய நேரியல் முன்னேற்றம் ஒரு Llama வழக்கில் பயனுள்ளதாக நிரூபிக்கப்பட்டது.

  • ஒழுங்குபடுத்தல் விளைவு: SLERP ஒரு வகையான ஒழுங்குபடுத்தலாகவும் செயல்படலாம். இரண்டு சாத்தியமான சிறப்பு மாதிரிகளுக்கு இடையில் ஒரு மென்மையான பாதையைக் கண்டுபிடிப்பதன் மூலம், அது பெற்றோர் இருவரின் பயிற்சித் தரவின் தனித்தன்மைகளுக்கு அதிகமாகப் பொருந்துவதைத் தடுக்கலாம், இது காணப்படாத துறை சார்ந்த சிக்கல்களில் சிறந்த பொதுமைப்படுத்தலுக்கு வழிவகுக்கும். இது ‘பேரழிவு மறதி’யைக் குறைக்க உதவலாம், அங்கு ஒரு பணியில் ஃபைன்-டியூனிங் செய்வது முந்தைய ஒன்றிலிருந்து அறிவை அழிக்கிறது.

சுருக்கமாக, SLERP இன் செயல்திறன், LLM அளவுரு வெளியின் சிக்கலான வடிவவியலை புத்திசாலித்தனமாக வழிநடத்தும் திறனிலிருந்து உருவாகிறது, இது கற்றுக்கொண்ட அறிவு கட்டமைப்புகளைப் பாதுகாக்கும் அதே வேளையில் நன்மை பயக்கும் நேரியல் அல்லாத தொடர்புகளை வளர்க்கிறது. இருப்பினும், அதன் பயன்பாட்டை மேம்படுத்துவதற்கு பெற்றோர் மாதிரி தேர்வு, பயிற்சி வரலாறு, தரவுத் தரம் மற்றும் ஒன்றிணைப்பின் நுணுக்கமான விவரங்கள் கூட கவனமாகக் கருத்தில் கொள்ளப்பட வேண்டும்.

அளவு முக்கியமா? சிறிய மாதிரிகளுடன் அளவிடுதல் விளைவுகளை ஆராய்தல்

7-பில்லியன் மற்றும் 8-பில்லியன் அளவுரு மாதிரிகளுடன் காணப்பட்ட ஈர்க்கக்கூடிய ஒருங்கிணைந்த விளைவுகள் ஒரு இயற்கையான கேள்வியை எழுப்புகின்றன: SLERP ஒன்றிணைப்பால் திறக்கப்பட்ட இந்த வெளிப்படும் திறன்கள் மிகச் சிறிய மொழி மாதிரிகளிலும் வெளிப்படுகின்றனவா? அல்லது அந்த மாயாஜாலம் மங்கிவிடும் ஒரு அளவு வரம்பு உள்ளதா?

இதை ஆராய, SmolLM மாதிரித் தொடரைப் பயன்படுத்தி இதேபோன்ற சோதனைகள் நடத்தப்பட்டன, குறிப்பாக 1.7 பில்லியன் அளவுருக்கள் மட்டுமே கொண்ட ஒரு மாறுபாடு. இந்த மாதிரி கணிசமாகச் சிறியது, இது மொபைல் சாதனங்கள் அல்லது எட்ஜ் கம்ப்யூட்டிங் போன்ற வள-கட்டுப்படுத்தப்பட்ட சூழல்களுக்கு ஏற்றது, ஆனால் அதன் பெரிய உறவினர்களின் அளவுரு செழுமை இல்லாமல் இருக்கலாம்.

SmolLM மாதிரிகள் அதே செயல்முறைக்கு உட்பட்டன: பொருள் அறிவியல் தொகுப்புடன் CPT, அதைத் தொடர்ந்து SFT மற்றும் DPO (இது இந்த சிறிய கட்டமைப்பிற்கு ORPO ஐ விட பயனுள்ளதாக நிரூபிக்கப்பட்டது). SLERP ஒன்றிணைப்பு பின்னர் பயன்படுத்தப்பட்டது, ஃபைன்-டியூன் செய்யப்பட்ட SmolLM ஐ அதன் அடிப்படை பதிப்பு அல்லது பிற வகைகளுடன் இணைத்தது.

SmolLM உடனான கண்டுபிடிப்புகள்:

  • ஃபைன்-டியூனிங் இன்னும் உதவுகிறது: CPT-SFT-DPO செயல்முறை SmolLM மாதிரியின் செயல்திறனை அதன் அசல் நிலையைப் பொறுத்து துறைப் பணிகளில் மேம்படுத்தியது. ஃபைன்-டியூனிங் செயல்முறை தானாகவே நன்மை பயத்தது, அதன் சிறப்பு அறிவை மேம்படுத்தியது.
  • வெளிப்பாடு பெரும்பாலும் இல்லை: இருப்பினும், Llama மற்றும் Mistral சோதனைகளைப் போலல்லாமல், SLERP-ஒன்றிணைக்கப்பட்ட SmolLM மாதிரிகள் பொதுவாக குறிப்பிடத்தக்க ஒருங்கிணைந்த விளைவுகளைக் காட்டவில்லை. அவற்றின் செயல்திறன் பொதுவாக பெற்றோர் மாதிரிகளின் எளிய சராசரிக்கு அருகில் அல்லது சற்று மேலே மட்டுமே இருந்தது. 7B/8B மாதிரிகளில் காணப்பட்ட வியத்தகு செயல்திறன் தாவல்கள் மற்றும் வெளிப்படும் திறன்களின் தெளிவான அறிகுறிகள் காணப்படவில்லை.

தாக்கங்கள்:

இந்த வேறுபாடு, வெளிப்படும் பண்புகளை உருவாக்குவதற்கான SLERP ஒன்றிணைப்பின் முழுத் திறனையும் உணர்ந்து கொள்வதில் மாதிரி அளவு ஒரு முக்கிய காரணியாக இருக்கக்கூடும் என்று கூறுகிறது. சிறிய மாதிரிகள், அவற்றின் குறைவான சிக்கலான மற்றும் குறைந்த-பரிமாண அளவுரு வெளிகளுடன், ஒன்றிணைப்பின் போது இந்த சக்திவாய்ந்த நேரியல் அல்லாத தொடர்புகள் நிகழத் தேவையான பிரதிநிதித்துவத் திறன் அல்லது செழுமை இல்லாமல் இருக்கலாம். புதிய, நன்மை பயக்கும் அளவுரு சேர்க்கைகளைக் கண்டுபிடிப்பதற்கான ‘இடம்’ பெரிய மாதிரிகளுடன் ஒப்பிடும்போது கணிசமாகக் கட்டுப்படுத்தப்பட்டதாகத் தெரிகிறது.

இந்த முடிவுகள் ஆழமான கற்றலில் அளவிடுதல் விதிகள் (scaling laws) பற்றிய பரந்த அவதானிப்புகளுடன் ஒத்துப்போகின்றன, அங்கு சில தரமான திறன்கள் மாதிரிகள் ஒரு குறிப்பிட்ட அளவு வரம்பை அடைந்தவுடன் மட்டுமே வெளிப்படுகின்றன. SLERP ஒன்றிணைப்பின் ஒருங்கிணைந்த சக்தி போதுமான மாதிரி அளவு மற்றும் சிக்கலான தன்மையைப் பொறுத்தது போன்ற ஒரு திறனாகத் தோன்றுகிறது.

ஆதாயங்களை அளவிடுதல்: ஒன்றிணைப்பிலிருந்து செயல்திறன் உயர்வை உன்னிப்பாகப் பார்த்தல்

ஒன்றிணைக்கப்பட்ட மாதிரிகள் ஒட்டுமொத்தமாக சிறந்த செயல்திறனைக் காட்டுகின்றன என்று அளவீடுகள் காட்டினாலும், அவை அவற்றின் பெற்றோருடன் ஒப்பிடும்போது எவ்வளவு சிறப்பாக உள்ளன என்பதைத் துல்லியமாக அளவிடுவது பயனுள்ளது. குறிப்பாக, ஒன்றிணைக்கப்பட்ட மாதிரி அதை உருவாக்கப் பயன்படுத்தப்பட்ட இரண்டு மாதிரிகளில் வலுவானதை விட தொடர்ந்து சிறப்பாகச் செயல்படுகிறதா?

இதை பகுப்பாய்வு செய்ய, ஒவ்வொரு SLERP-ஒன்றிணைக்கப்பட்ட மாதிரிக்கும் செயல்திறன் விலகல் கணக்கிடப்பட்டது. இந்த விலகல் இவ்வாறு வரையறுக்கப்பட்டது:

செயல்திறன் விலகல் = செயல்திறன்(ஒன்றிணைக்கப்பட்ட மாதிரி) - Max(செயல்திறன்(பெற்றோர் 1), செயல்திறன்(பெற்றோர் 2))

  • ஒரு நேர்மறை விலகல் (நீல நிற நிழல்களில் காட்சிப்படுத்தப்பட்டது) SLERP மாதிரி அதன் பெற்றோரில் சிறந்ததை விட சிறப்பாகச் செயல்பட்டது என்பதைக் குறிக்கிறது - ஒருங்கிணைப்புக்கான தெளிவான சான்று.
  • ஒரு எதிர்மறை விலகல் (சிவப்பு நிறத்தில் காட்சிப்படுத்தப்பட்டது) SLERP மாதிரி அதன் பெற்றோரில் குறைந்தபட்சம் ஒன்றை விட மோசமாகச் செயல்பட்டது என்பதைக் குறிக்கிறது, இது ஒன்றிணைப்பு தீங்கு விளைவித்தது அல்லது சிறந்த முறையில், சராசரியாக்கியது என்பதைக் குறிக்கிறது.

பகுப்பாய்வு வெளிப்படுத்தியது:

Llama 3.1 (8B) மற்றும் Mistral (7B) மாதிரிகளை உள்ளடக்கிய பெரும்பாலான சோதனைகளில், செயல்திறன் விலகல்கள் பெரும்பாலும் நேர்மறையாக இருந்தன. பல சந்தர்ப்பங்களில், குறிப்பாக நன்கு மேம்படுத்தப்பட்ட செயல்முறைகளுக்கு (எ.கா., CPT, SFT, விருப்பத் தேர்வுமுறை மற்றும் SLERP ஆகியவற்றை உள்ளடக்கியவை), ஒன்றிணைக்கப்பட்ட மாதிரிகள் கணிசமான நேர்மறை விலகல்களைக் காட்டின, அவை அவற்றின் வலுவான பெற்றோரின் திறன்களைக் கூட கணிசமாக மிஞ்சியுள்ளன என்பதைக் குறிக்கிறது.

குறைவாக மேம்படுத்தப்பட்ட பெற்றோர் மாதிரிகள் அல்லது ஒருவேளை உகந்ததல்லாத ஒன்றிணைப்பு அளவுருக்கள் போன்றவற்றில், விலகல் சற்று எதிர்மறையாகவோ அல்லது பூஜ்ஜியத்திற்கு அருகிலோ இருந்த நிகழ்வுகள் இருந்தன. இருப்பினும், ஒட்டுமொத்தப் போக்கு தெளிவாக இருந்தது: மூலோபாய SLERP ஒன்றிணைப்பு பெற்றோர் மாதிரிகள் தனியாக அடையக்கூடியதை விட உண்மையான செயல்திறன் உயர்வை அடிக்கடி வழங்குகிறது. இது ஒன்றிணைப்பு என்பது வெறும் சராசரியல்ல, மாறாக உயர்ந்த திறன்களை ஒருங்கிணைக்கக்கூடிய ஒரு செயல்முறை என்ற கருத்தை வலுப்படுத்துகிறது. SmolLM (1.7B) முடிவுகள், மாறாக, அந்த அளவில் வலுவான வெளிப்படும் விளைவுகள் இல்லாததோடு ஒத்துப்போகும் வகையில், மிகச் சிறிய அல்லது எதிர்மறை விலகல்களைக் காட்டும்.

அளவீடுகளிலிருந்து மூளைச்சலவை வரை: பொருள் வடிவமைப்பில் ஊடாடும் பயன்பாடுகள்

அளவு சார்ந்த அளவீடுகளுக்கு அப்பால், இந்த துறை-தழுவிய மாதிரிகளின் உண்மையான மதிப்பு, அறிவியல் பகுத்தறிவு மற்றும் படைப்பாற்றல் வடிவமைப்பு போன்ற நிஜ உலகப் பணிகளுக்கு உதவுவதற்கான அவற்றின் திறனில் உள்ளது. இந்த தரமான அம்சத்தை மதிப்பிடுவதற்கு, சிறந்த செயல்திறன் கொண்ட பல மாதிரிகளுடன் (ஒன்றிணைக்கப்பட்ட மற்றும் ஒன்றிணைக்கப்படாத வகைகள் உட்பட) ஊடாடும் அரட்டை அமர்வுகள் நடத்தப்பட்டன.

அமைப்பு, மாதிரியை ஒரு பொருள் அறிவியல் நிபுணராகச் செயல்பட அறிவுறுத்தும் ஒரு நிலையான அமைப்புத் தூண்டுதலை வழங்குவதை உள்ளடக்கியது, அதைத் தொடர்ந்து படைப்பாற்றல், குறுக்கு-துறை பகுத்தறிவைச் சோதிக்க வடிவமைக்கப்பட்ட ஒரு பயனர் தூண்டுதல். ஒரு பொதுவான பணி மாதிரியைக் கேட்பதை உள்ளடக்கியது:

  1. இரண்டு வெளித்தோற்றத்தில் வேறுபட்ட உயிரியல் கருத்துக்களைக் கருத்தில் கொள்ளுங்கள் (எ.கா., கொலாஜனின் அமைப்பு மற்றும் இலைகளின் நரம்பு வடிவங்கள்).
  2. இரண்டு கருத்துகளிலிருந்தும் கொள்கைகளை இணைப்பதன் மூலம் ஈர்க்கப்பட்ட புதிய பொருள் வடிவமைப்புகளை மூளைச்சலவை செய்யுங்கள்.
  3. முன்மொழியப்பட்ட வடிவமைப்புகளுக்குப் பின்னால் உள்ள பகுத்தறிவை விளக்குங்கள்.
  4. சாத்தியமான கீழ்நிலை செயலாக்கத்திற்காக பரிந்துரைகளை ஒரு கட்டமைக்கப்பட்ட வடிவத்தில் (JSON போன்றவை) வெளியிடுங்கள்.

தரமான அவதானிப்புகள்:

  • வலுவான துறைப் புரிதல்: ஃபைன்-டியூன் செய்யப்பட்ட அனைத்து மாதிரிகளும் அடிப்படை உயிரியல் மற்றும் பொருள் அறிவியல் கருத்துக்களை நன்கு புரிந்துகொண்டன, பொருத்தமான சொற்களைப் பயன்படுத்தின மற்றும் தொடர்புடைய கொள்கைகளைக் குறிப்பிட்டன. CPT மற்றும் SFT நிலைகள் தெளிவாக குறிப்பிடத்தக்க துறை அறிவை வழங்கின.
  • படைப்பாற்றல் தொகுப்பு: மாதிரிகள் பொதுவாக வேறுபட்ட உள்ளீடுகளுக்கு (கொலாஜன் மற்றும் இலைகள் போன்றவை) இடையிலான கருத்தியல் இடைவெளியைக் கடந்து புதுமையான பொருள் கட்டமைப்புகள் அல்லது செயல்பாடுகளை முன்மொழிய முடிந்தது. இது சிறப்புத் துறைக்குள் ஒப்புமைப் பகுத்தறிவைச் செய்வதற்கான அவற்றின் திறனைக் காட்டியது.
  • கட்டமைக்கப்பட்ட வெளியீடு: மாதிரிகள் கட்டமைக்கப்பட்ட வெளியீட்டைக் (JSON) கோரும் அறிவுறுத்தல்களை வெற்றிகரமாகக் கடைப்பிடித்தன, இது நல்ல அறிவுறுத்தல்-பின்பற்றும் திறன்களைக் குறிக்கிறது, குறிப்பாக SFT மற்றும் விருப்பத் தேர்வுமுறையுடன் செம்மைப்படுத்தப்பட்டவை அல்லது Instruct அடிப்படைகளிலிருந்து உருவானவை.
  • மாறுபடும் ஆழம் மற்றும் தெளிவு: அனைவரும் முக்கியப் பணியைச் செய்தாலும், வழங்கப்பட்ட பகுத்தறிவின் ஆழம், முன்மொழியப்பட்ட வடிவமைப்புகளின் புதுமை மற்றும் நடைமுறைத்தன்மை, மற்றும் விளக்கத்தின் ஒட்டுமொத்தத் தெளிவு மற்றும் ஒத்திசைவு ஆகியவற்றில் வேறுபாடுகள் வெளிப்பட்டன. மிகவும் விரிவான பயிற்சி செயல்முறைகளுக்கு உட்பட்ட மாதிரிகள், குறிப்பாக விருப்பத் தேர்வுமுறை மற்றும் SLERP ஒன்றிணைப்பை உள்ளடக்கியவை, பெரும்பாலும் செழுமையான, அதிக நுண்ணறிவுள்ள மற்றும் அதிக படைப்பாற்றல் மிக்க பதில்களை வழங்கின.
  • ஒன்றிணைப்பின் செல்வாக்கு: ஒன்றிணைக்கப்பட்ட மாதிரிகள் பெரும்பாலும் துறை சார்ந்த துல்லியம் மற்றும் உரையாடல் சரளம்/படைப்பாற்றல் ஆகியவற்றுக்கு இடையில் ஒரு நல்ல சமநிலையைக் காட்டின, துறை-டியூன் செய்யப்பட்ட பெற்றோரிடமிருந்து அறிவை பொது நோக்க instruct பெற்றோரின் தொடர்புத் திறன்களுடன் ஒருங்கிணைப்பதாகத் தோன்றியது.

இந்த ஊடாடும் அமர்வுகள், ஃபைன்-டியூனிங் மற்றும் ஒன்றிணைப்பு உத்திகள், துறை சார்ந்த பகுத்தறிவு மற்றும் படைப்பாற்றல் தேவைப்படும் நடைமுறை, திறந்தநிலை பணிகளில் உறுதியான மேம்பாடுகளாக மொழிபெயர்க்கப்படுகின்றன என்பதற்கு மதிப்புமிக்க தரமான ஆதாரங்களை வழங்கின. பொருள் அறிவியல் போன்ற துறைகளில் அறிவியல் ஆய்வு மற்றும் வடிவமைப்பு கருத்தாக்கத்தில் இந்த வடிவமைக்கப்பட்ட LLMகளின் திறனை மதிப்புமிக்க ஒத்துழைப்பாளர்களாகச்