تخصص‌گرایی، تنظیم دقیق و ادغام در مدل‌های زبانی بزرگ

چالش تخصص‌گرایی: تطبیق هوش مصنوعی برای مرزهای فنی

مدل‌های زبانی بزرگ (LLMs) بدون شک نحوه تعامل ما با اطلاعات و خودکارسازی وظایف مربوط به زبان طبیعی را متحول کرده‌اند. غول‌هایی مانند Llama و Mistral، حتی در اشکال متن‌باز خود، تسلط قابل توجهی در درک و تولید متنی نشان می‌دهند که اغلب با خروجی انسان رقابت می‌کند. توانایی آن‌ها گستره وسیعی را شامل می‌شود، از مکالمات روزمره گرفته تا خلاصه‌سازی‌های پیچیده. با این حال، ورود به قلمروهای تخصصی و پر از اصطلاحات فنی علوم و مهندسی - حوزه‌هایی مانند علم مواد یا بیومتریومیکس - مانعی منحصر به فرد ایجاد می‌کند.

این حوزه‌های فنی به چیزی بیش از دانش عمومی نیاز دارند؛ آن‌ها نیازمند درک عمیق و دقیق، توانایی استدلال بر اساس اصول خاص، و آشنایی با اصطلاحات تخصصی و ساختارهای داده هستند. LLMهای استاندارد که بر روی پیکره‌های وسیع وب آموزش دیده‌اند، اغلب در مواجهه با این خواسته‌ها دچار مشکل می‌شوند. بنابراین، چالش در تطبیق دامنه نهفته است: چگونه می‌توانیم این مدل‌های قدرتمند عمومی را به طور مؤثر برای تبدیل شدن به دستیاران متخصص در زمینه‌های بسیار خاص، سفارشی‌سازی کنیم؟

صرفاً تغذیه داده‌های تخصصی بیشتر همیشه پاسخگو نیست و همیشه هم امکان‌پذیر نیست. آموزش این غول‌ها از ابتدا به طور سرسام‌آوری گران است و مجموعه داده‌های عظیم اصلی که برای پیش‌آموزش اولیه آن‌ها استفاده شده است، معمولاً غیرقابل دسترس هستند. این امر به ویژه در مورد مدل‌های محبوب متن‌باز صادق است که علی‌رغم شفافیت نسبی، دستورالعمل کامل - ترکیب دقیق داده‌ها و توالی‌های مورد استفاده در طول پیش‌آموزش، تنظیم دقیق و هم‌راستاسازی - تا حد زیادی اختصاصی باقی می‌ماند. محققان و مهندسان به استراتژی‌های قوی و کارآمدی نیاز دارند تا دانش تخصصی جدید را به مدل‌های موجود تزریق کنند و در عین حال، قابلیت‌های عمومی گسترده‌ای را که در طول آموزش اولیه خود به دست آورده‌اند، به طور حیاتی حفظ کنند. این عمل متعادل‌سازی ظریف برای ایجاد ابزارهای هوش مصنوعی واقعاً مفید برای کشف علمی و نوآوری مهندسی، مانند توسعه موتورهای قادر به استدلال چندوجهی برای کاوش الهام‌بخش طراحی مواد بیولوژیکی در مقیاس‌ها و زمینه‌های متنوع، بسیار مهم است.

ترسیم چشم‌انداز آموزش: از پیش‌آموزش تا بهینه‌سازی ترجیحات

پیمایش مسیر به سوی تخصص LLM در یک دامنه خاص، شامل کاوش در جعبه ابزار متنوعی از استراتژی‌های تنظیم دقیق است. هر رویکرد راه متفاوتی برای شکل دادن به دانش و رفتار مدل ارائه می‌دهد.

  • پیش‌آموزش مستمر (CPT): این استراتژی شامل گسترش مرحله پیش‌آموزش اولیه است، اما این بار با استفاده از پیکره‌ای که کاملاً بر روی دامنه هدف متمرکز شده است - مانند مجموعه‌ای از مقالات تحقیقاتی علم مواد. هدف این است که مدل را در زبان، مفاهیم و ساختارهای دانش خاص آن حوزه غوطه‌ور کنیم، و به آن اجازه دهیم اطلاعات خاص دامنه را عمیق‌تر از آنچه که تنها با تنظیم دقیق وظیفه‌محور امکان‌پذیر است، جذب کند. این کار پایه‌ای از دانش مرتبط را بنا می‌نهد.

  • تنظیم دقیق نظارت‌شده (SFT): پس از CPT یا با شروع از یک مدل پایه، SFT مستقیماً به مدل می‌آموزد که چگونه وظایف خاصی را انجام دهد. این امر با استفاده از مجموعه داده‌های سرپرستی شده از جفت‌های ورودی-خروجی، که اغلب به صورت دستورالعمل‌ها و پاسخ‌های مطلوب، یا سؤالات و پاسخ‌های دقیق مرتبط با دامنه قالب‌بندی شده‌اند، به دست می‌آید. SFT توانایی مدل را برای دنبال کردن دستورالعمل‌ها، پاسخگویی دقیق به سؤالات در زمینه تخصصی، و پایبندی به قالب‌های خروجی مورد نظر، تقویت می‌کند.

  • تطبیق رتبه پایین (LoRA): اگرچه تمرکز اصلی در اینجا نیست، LoRA یک جایگزین یا مکمل کارآمد را نشان می‌دهد. به جای بازآموزی کل مدل، LoRA لایه‌های کوچک و قابل آموزش ‘آداپتور’ را معرفی می‌کند. این امر امکان تطبیق قابل توجه با هزینه محاسباتی بسیار کمتر را فراهم می‌کند، اگرچه ممکن است در میزان دانش اساساً جدیدی که می‌تواند در مقایسه با CPT ادغام شود، محدودیت‌هایی داشته باشد.

  • بهینه‌سازی مبتنی بر ترجیح: فراتر از تکمیل ساده وظایف، بهینه‌سازی ترجیحات با هدف هم‌راستاسازی بیشتر خروجی‌های مدل با قضاوت‌های انسانی یا معیارهای خاصی مانند مفید بودن، بی‌ضرر بودن و دقت در استدلال انجام می‌شود. به جای تکیه صرف بر پاسخ‌های ‘صحیح’ از پیش تعریف شده (مانند SFT)، این روش‌ها از مقایسه‌ها یاد می‌گیرند.

    • بهینه‌سازی مستقیم ترجیح (DPO): DPO مستقیماً از جفت پاسخ‌هایی که یکی بر دیگری ترجیح داده می‌شود (مثلاً توسط یک ارزیاب انسانی یا هوش مصنوعی دیگر) یاد می‌گیرد. این روش مدل را بهینه می‌کند تا احتمال تولید پاسخ‌های ترجیحی را بدون نیاز به یک مدل پاداش جداگانه افزایش دهد و خط لوله سنتی یادگیری تقویتی از بازخورد انسانی (RLHF) را ساده می‌کند.
    • بهینه‌سازی ترجیح نسبت شانس (ORPO): ORPO که یک روش جدیدتر است، هدف بهینه‌سازی را تغییر می‌دهد و گاهی اوقات عملکرد یا پایداری بهبود یافته‌ای را در مقایسه با DPO به همراه دارد، به ویژه در هم‌راستاسازی مدل‌ها به سمت معیارهای سبکی یا استدلالی خاص در یک دامنه.

این تکنیک‌ها متقابلاً انحصاری نیستند؛ آن‌ها اغلب به صورت متوالی یا ترکیبی به کار گرفته می‌شوند و خطوط لوله آموزشی پیچیده‌ای را تشکیل می‌دهند. یک توالی رایج ممکن است شامل CPT برای ایجاد دانش دامنه، به دنبال آن SFT برای مهارت در انجام وظیفه، و در نهایت DPO یا ORPO برای هم‌راستاسازی و پالایش باشد. با این حال، ترکیب و توالی بهینه همچنان حوزه‌های فعال تحقیقاتی هستند، به ویژه برای دستیابی به اوج عملکرد در حوزه‌های علمی تخصصی.

فراتر از تنظیم ساده: نوید ادغام مدل‌ها

در حالی که پالایش یک مدل واحد از طریق مراحل آموزشی متوالی می‌تواند بهبودهای قابل توجهی به همراه داشته باشد، راه جذاب دیگری پدیدار شده است: ادغام مدل. این عمل شامل گرفتن دو یا چند مدل آموزش‌دیده جداگانه و ترکیب پارامترهای آن‌ها - ‘وزن‌های’ داخلی آن‌ها - برای ایجاد یک مدل ترکیبی جدید و واحد است.

چرا چنین ادغامی را امتحان کنیم؟ ایده اصلی ترکیب هم‌افزایانه نقاط قوت مدل‌های والد است. یک مدل را تصور کنید که به طور ماهرانه بر روی ادبیات علم مواد آموزش دیده است (از طریق CPT و SFT) و یک مدل ‘دستورالعمل’ عمومی دیگر که در پیروی از دستورالعمل‌های پیچیده و درگیر شدن در گفتگوی منسجم بسیار ماهر است. ادغام آن‌ها به طور بالقوه می‌تواند مدلی ایجاد کند که هم دانش عمیق دامنه و هم توانایی‌های مکالمه‌ای و پیروی از دستورالعمل عالی را داشته باشد.

کاوش‌های اولیه اشاره داشتند که این فرآیند ممکن است چیزی بیش از میانگین‌گیری ساده باشد. به جای فقط ترکیب قابلیت‌ها، ادغام به طور بالقوه می‌تواند کارکردهای کاملاً جدید و نوظهور را باز کند - توانایی‌هایی که به صراحت در هیچ یک از مدل‌های والد وجود ندارند. این نشان‌دهنده یک تعامل بسیار غیرخطی بین پارامترها در طول ادغام است که به طور بالقوه منجر به کلیتی بزرگتر از مجموع اجزای آن می‌شود. اگر اثربخشی و کنترل‌پذیری آن ثابت شود، ادغام مدل می‌تواند ابزاری قدرتمند و تحول‌آفرین برای پیش بردن مرزهای قابلیت‌های LLM باشد و سیستم‌های هوش مصنوعی بسیار سازگار و قوی را ایجاد کند که برای چالش‌های پیچیده و واقعی علمی و مهندسی طراحی شده‌اند.

رونمایی از قدرت SLERP: رویکردی هندسی به ادغام

اثربخشی ادغام مدل به طور حیاتی به نحوه ترکیب پارامترهای مدل‌های والد بستگی دارد. میانگین‌گیری خطی ساده (که اغلب درون‌یابی خطی یا LERP نامیده می‌شود) ممکن است شهودی به نظر برسد، اما اغلب منجر به نتایج نامطلوب یا حتی کاهش عملکرد می‌شود. این احتمالاً به این دلیل است که فضای پارامتر با ابعاد بالای LLMها مسطح نیست؛ بلکه دارای یک هندسه پیچیده و منحنی است. درون‌یابی خطی خطر عبور از ‘مناطق مرده’ یا مناطق با اتلاف بالا در این فضا را دارد و به طور مؤثر نمایش‌های با دقت آموخته شده مدل‌های والد را به هم می‌ریزد.

درون‌یابی خطی کروی (SLERP) وارد می‌شود. SLERP که در اصل برای انیمیشن روان چرخش‌ها در گرافیک کامپیوتری توسعه یافته است، راهی هندسی پیچیده برای درون‌یابی بین دو نقطه (در این مورد، بردارهای پارامتر دو مدل) با دنبال کردن کوتاه‌ترین مسیر در امتداد سطح یک ابرکره ارائه می‌دهد.

مجموعه پارامترهای دو مدل والد را به عنوان دو نقطه روی سطح یک کره غول‌پیکر تصور کنید.

  • LERP یک خط مستقیم از میان کره می‌کشد که نقاط را به هم متصل می‌کند. این مسیر ممکن است روی سطح باقی نماند و می‌تواند از مناطقی عبور کند که نشان‌دهنده مدل‌های با عملکرد ضعیف هستند.
  • SLERP، برعکس، در امتداد سطح منحنی خود کره حرکت می‌کند. این مسیر ذاتاً به ساختار هندسی زیربنایی فضای پارامتر احترام می‌گذارد.

چرا این مسیر کروی به طور بالقوه برای ادغام LLMها برتر است؟

  1. حفظ ساختار: SLERP با ماندن ‘روی کره’، روابط هندسی بین پارامترها را حفظ می‌کند و ساختارهای آموخته شده در هر مدل والد را مؤثرتر از یک مسیر خطی حفظ می‌کند.
  2. اجتناب از مناطق با اتلاف بالا: مسیر منحنی کمتر احتمال دارد با مناطقی از فضای پارامتر که با خطاهای پیش‌بینی بالا (اتلاف) مرتبط هستند، تلاقی پیدا کند.
  3. ترکیب غیرخطی: فرمول درون‌یابی برای SLERP ذاتاً غیرخطی است. این امر امکان تعاملات پیچیده و هم‌افزایانه بین پارامترهای مدل‌های والد را فراهم می‌کند و به طور بالقوه ترکیباتی را باز می‌کند که نشان‌دهنده قابلیت‌های جدید هستند. یک پارامتر ادغام شده ممکن است ویژگی‌ها را به گونه‌ای فعال کند که هیچ یک از والدین به تنهایی قادر به انجام آن نبودند.
  4. انتقال‌های روان: SLERP یک انتقال ریاضیاتی روان بین حالت‌های مدل‌های والد فراهم می‌کند که به طور بالقوه منجر به تعمیم بهتر در مدل ادغام شده می‌شود.

از آنجایی که SLERP به هندسه ذاتی مدل احترام می‌گذارد و تعاملات پارامتر غیرخطی را تسهیل می‌کند، این پتانسیل را دارد که نه تنها قابلیت‌ها را میانگین‌گیری کند، بلکه آن‌ها را به گونه‌ای ترکیب کند که ویژگی‌های نوظهور را تقویت کند. این امر آن را به یک کاندیدای امیدوارکننده برای ادغام مدل‌هایی تبدیل می‌کند که برای حوزه‌های پیچیده‌ای مانند علم مواد هدف‌گذاری شده‌اند، جایی که تعاملات ظریف و درک دقیق کلیدی هستند.

آزمودن نظریه‌ها: آزمایش‌های Llama و Mistral

برای بررسی دقیق این استراتژی‌های تنظیم دقیق و ادغام، یک سری آزمایش‌های سیستماتیک با استفاده از خانواده‌های مدل متن‌باز محبوب انجام شد: Llama 3.1 (8 میلیارد پارامتر) و Mistral (7 میلیارد پارامتر). هدف مقایسه خطوط لوله آموزشی مختلف و ارزیابی تأثیر ادغام SLERP بود.

طراحی آزمایش شامل چندین مرحله کلیدی بود:

  1. مدل‌های پایه: آزمایش‌ها هم با مدل‌های ‘پایه’ بنیادی (پیش‌آموزش دیده اما برای دستورالعمل تنظیم نشده) و هم با نسخه‌های ‘instruct’ (که قبلاً برای چت و پیروی از دستورالعمل تنظیم دقیق شده‌اند) برای هر دو خانواده Llama و Mistral آغاز شد.
  2. پیکره دامنه: یک پیکره تخصصی متمرکز بر علم مواد از انتشارات علمی و داده‌های پردازش شده گردآوری شد.
  3. خطوط لوله آموزشی: ترکیبات مختلفی از تکنیک‌های آموزشی اعمال شد:
    • فقط CPT
    • CPT و سپس SFT (CPT-SFT)
    • CPT-SFT و سپس ORPO (CPT-SFT-ORPO)
    • CPT-SFT و سپس DPO (CPT-SFT-DPO)
    • برخی تغییرات با شروع مستقیم از مدل Instruct (به عنوان مثال، Instruct-CPT-SFT-DPO).
  4. ادغام مدل: برای بسیاری از مدل‌های تنظیم دقیق شده، ادغام SLERP انجام شد، که معمولاً مدل تطبیق یافته با دامنه را با مدل ‘instruct’ عمومی مربوطه از همان خانواده ترکیب می‌کرد (به عنوان مثال، یک مدل Llama CPT-SFT-DPO با مدل استاندارد Llama 3.1 Instruct ادغام شد).
  5. ارزیابی: عملکرد تمام مدل‌های حاصل (هم ادغام شده و هم ادغام نشده) در مجموعه‌ای از معیارهای ارزیابی مرتبط که برای آزمایش دانش دامنه، استدلال و پیروی از دستورالعمل طراحی شده بودند، ارزیابی شد.

یافته‌های کلیدی در Llama و Mistral:

  • ادغام SLERP به طور مداوم عملکرد را افزایش می‌دهد: در هر دو خانواده مدل و خطوط لوله آموزشی مختلف، مدل‌هایی که از طریق ادغام SLERP بهبود یافته بودند، به طور کلی بالاترین دقت را در معیارهای ارزیابی کسب کردند. این به شدت از این فرضیه حمایت می‌کند که SLERP یک تکنیک مؤثر برای ترکیب نقاط قوت مدل است.
  • اثرات هم‌افزایی تأیید شد: عملکرد مدل‌های ادغام شده با SLERP اغلب از میانگین ساده عملکرد دو مدل والد فراتر می‌رفت. ترسیم امتیاز واقعی به دست آمده در برابر این میانگین مورد انتظار، انحراف مثبت قابل توجهی را نشان داد و تأیید کرد که فرآیند ادغام اغلب دستاوردهای هم‌افزایی و قابلیت‌های نوظهور را باز می‌کند. موجودیت ادغام شده به طور قابل اثباتی توانمندتر از مجموع اجزای خود بود.
  • بهینه‌سازی ترجیحات ارزش افزوده دارد: گنجاندن مراحل بهینه‌سازی ترجیحات (DPO یا ORPO) اغلب باعث افزایش عملکرد اضافی می‌شد، به ویژه هنگامی که با ادغام SLERP ترکیب می‌شد. استراتژی‌هایی مانند CPT-SFT-DPO-SLERP یا CPT-SFT-ORPO-SLERP اغلب در میان بهترین عملکردها قرار داشتند.
  • استراتژی بهینه بدون ادغام متفاوت است: بدون ادغام، بهترین استراتژی عملکردی بین خانواده‌های مدل کمی متفاوت بود. برای Llama 3.1، Instruct-CPT-SFT-DPO نتایج قوی نشان داد، در حالی که برای Mistral، Base-CPT-SFT عملکرد قابل مقایسه‌ای با همتای Instruct خود داشت.
  • تأثیر مدت زمان CPT: تجزیه و تحلیل بیشتر بر روی مدل‌های Mistral نشان داد که عملکرد به طور کلی با دوره‌های بیشتر پیش‌آموزش مستمر (تا پنج دوره آزمایش شده) بهبود می‌یابد، به خصوص هنگام شروع از مدل Instruct، که ارزش قرار گرفتن کافی در معرض دامنه در طول CPT را تقویت می‌کند.

این نتایج تصویر روشنی را ترسیم می‌کنند: در حالی که تنظیم دقیق متوالی ارزشمند است، ادغام استراتژیک مدل با استفاده از SLERP مسیری قدرتمند برای افزایش قابل توجه عملکرد LLM ارائه می‌دهد، به ویژه برای حوزه‌های تخصصی، که اغلب قابلیت‌هایی فراتر از تجمیع ساده به همراه دارد.

نگاهی عمیق‌تر: چه چیزی باعث کارکرد ادغام می‌شود؟

موفقیت مداوم ادغام SLERP باعث می‌شود نگاه دقیق‌تری به مکانیک‌های زیربنایی و عوامل تأثیرگذار بیندازیم. چرا این رویکرد هندسی چنین نتایج قدرتمندی به همراه دارد و چه شرایطی اثربخشی آن را بهینه می‌کند؟

  • تعاملات غیرخطی: همانطور که نظریه‌پردازی شد، مسیر غیرخطی SLERP در فضای پارامتر بسیار مهم به نظر می‌رسد. این به مدل ادغام شده اجازه می‌دهد تا ترکیباتی از پارامترها را که میانگین‌گیری خطی از دست می‌دهد، کاوش کند. این ترکیبات می‌توانند نشان‌دهنده تعاملات جدید بین ویژگی‌های آموخته شده باشند که منجر به توانایی‌های استدلال یا حل مسئله نوظهور متناسب با دامنه می‌شود. تصور کنید پارامترهایی را ترکیب کنید که به طور جداگانه نشان‌دهنده درک ‘استحکام مواد’ و ‘ساختارهای بیولوژیکی’ هستند - SLERP ممکن است ترکیبی را پیدا کند که به طور مؤثر ‘مواد با استحکام بالا با الهام از زیست‌شناسی’ را به گونه‌ای نشان دهد که هیچ یک از مدل‌های والد به صراحت انجام نداده‌اند.

  • نقش تنوع: مدل‌های والد چقدر باید متفاوت باشند؟ تجزیه و تحلیل روابط پیچیده‌ای را نشان داد. در حالی که تنوع شدید ممکن است مفید به نظر برسد، برخی همبستگی‌ها نشان دادند که در زمینه‌های خاص (مانند مدل‌های Llama)، تنوع عملکرد بالاتر بین والدین ممکن است کمی اتکا به SFT بعدی را کاهش دهد، شاید به این دلیل که ادغام قبلاً مجموعه قابلیت‌های گسترده‌تری را در بر گرفته است. این تعامل ظریف است و احتمالاً به روش‌های تنظیم دقیق خاص مورد استفاده برای والدین بستگی دارد.

  • نقطه شروع پایه در مقابل Instruct: انتخاب مدل شروع اهمیت دارد. برای آزمایش‌های Llama، مدل ادغام شده با بهترین عملکرد از نسخه Instruct نشأت گرفته بود. برعکس، برای Mistral، یکی از بهترین عملکردها از مدل پایه قبل از انجام CPT، SFT و ادغام مشتق شده بود. این نشان می‌دهد که تفاوت‌های معماری یا تغییرات در ترکیب‌های پیش‌آموزش اولیه خانواده‌های Llama و Mistral بر نحوه پاسخگویی آن‌ها به خطوط لوله تنظیم دقیق و ادغام خاص تأثیر می‌گذارد. یک نقطه شروع ‘بهترین’ جهانی وجود ندارد؛ این امر نیازمند آزمایش تجربی است.

  • کیفیت داده در CPT: بنیادی که در طول پیش‌آموزش مستمر گذاشته می‌شود، حیاتی است. آزمایش‌هایی که از مجموعه داده CPT بزرگتر اما ‘پر سر و صداتر’ (حاوی خطاهای قالب‌بندی بیشتر یا مصنوعات ناشی از تشخیص نوری کاراکتر) استفاده می‌کردند، منجر به کاهش عملکرد در مقایسه با استفاده از مجموعه داده کوچکتر و تمیزتر شد. این امر بر اهمیت داده‌های با کیفیت بالا و به خوبی پردازش شده خاص دامنه برای مؤثر بودن مرحله CPT تأکید می‌کند. ضرب‌المثل ‘آشغال ورودی، آشغال خروجی’ همچنان پابرجاست.

  • تنظیم دقیق پارامترهای SLERP: خود SLERP دارای پارامترهایی است، به ویژه ضریب درون‌یابی (اغلب با ‘t’ نشان داده می‌شود، از 0 تا 1 متغیر است) که تعیین می‌کند چه مقدار وزن به هر مدل والد داده شود. علاوه بر این، ادغام لازم نیست در تمام لایه‌های مدل یکنواخت باشد. آزمایش‌ها تغییر ضریب درون‌یابی به طور متفاوت برای لایه‌های خودتوجهی در مقابل لایه‌های پرسپترون چندلایه (MLP) یا حتی تغییر تدریجی آن در عمق مدل را بررسی کردند. نتایج نشان داد که طرح‌های وزن‌دهی غیریکنواخت خاص می‌توانند از رویکرد یکنواخت استاندارد بهتر عمل کنند، که نشان‌دهنده پتانسیل بهینه‌سازی بیشتر با تنظیم دقیق فرآیند ادغام در سراسر معماری شبکه است. یک پیشرفت خطی ساده وزن‌ها در لایه‌ها در یک مورد Llama مؤثر بود.

  • اثر تنظیم‌کنندگی (Regularization): SLERP همچنین ممکن است به عنوان نوعی تنظیم‌کنندگی عمل کند. با یافتن یک مسیر هموار بین دو مدل بالقوه تخصصی، ممکن است از بیش‌برازش (overfitting) به ویژگی‌های خاص داده‌های آموزشی هر یک از والدین جلوگیری کند و منجر به تعمیم بهتر در مسائل خاص دامنه دیده نشده شود. همچنین ممکن است به کاهش ‘فراموشی فاجعه‌بار’ کمک کند، جایی که تنظیم دقیق روی یک کار، دانش کار قبلی را پاک می‌کند.

در اصل، اثربخشی SLERP از توانایی آن در پیمایش هوشمندانه هندسه پیچیده فضای پارامتر LLM ناشی می‌شود و تعاملات غیرخطی مفید را تقویت می‌کند و در عین حال ساختارهای دانش آموخته شده را حفظ می‌کند. با این حال، بهینه‌سازی استفاده از آن نیازمند توجه دقیق به انتخاب مدل والد، تاریخچه آموزش، کیفیت داده‌ها و به طور بالقوه حتی جزئیات دقیق خود ادغام است.

آیا اندازه مهم است؟ کاوش اثرات مقیاس‌پذیری با مدل‌های کوچکتر

اثرات هم‌افزایی چشمگیر مشاهده شده با مدل‌های 7 و 8 میلیارد پارامتری، یک سؤال طبیعی را مطرح می‌کند: آیا این قابلیت‌های نوظهور که توسط ادغام SLERP باز می‌شوند، در مدل‌های زبانی بسیار کوچکتر نیز ظاهر می‌شوند؟ یا آستانه مقیاسی وجود دارد که پایین‌تر از آن، این جادو محو می‌شود؟

برای بررسی این موضوع، آزمایش‌های مشابهی با استفاده از سری مدل SmolLM، به ویژه یک نوع با تنها 1.7 میلیارد پارامتر انجام شد. این مدل به طور قابل توجهی کوچکتر است و آن را برای محیط‌های با منابع محدود مانند دستگاه‌های تلفن همراه یا محاسبات لبه مناسب می‌کند، اما به طور بالقوه فاقد غنای پارامتری پسرعموهای بزرگتر خود است.

مدل‌های SmolLM همان خط لوله را طی کردند: CPT با پیکره علم مواد، و سپس SFT و DPO (که برای این معماری کوچکتر مؤثرتر از ORPO بود). سپس ادغام SLERP اعمال شد و SmolLM تنظیم دقیق شده با نسخه پایه یا انواع دیگر آن ترکیب شد.

یافته‌ها با SmolLM:

  • تنظیم دقیق همچنان کمک می‌کند: خط لوله CPT-SFT-DPO عملکرد مدل SmolLM را در وظایف دامنه نسبت به وضعیت اولیه آن بهبود بخشید. خود فرآیند تنظیم دقیق مفید بود و دانش تخصصی آن را افزایش داد.
  • ظهور تا حد زیادی غایب بود: با این حال، برخلاف آزمایش‌های Llama و Mistral، مدل‌های SmolLM ادغام شده با SLERP به طور کلی اثرات هم‌افزایی قابل توجهی نشان ندادند. عملکرد آن‌ها معمولاً نزدیک به میانگین ساده مدل‌های والد یا فقط کمی بالاتر بود. جهش‌های چشمگیر عملکرد و نشانه‌های واضح قابلیت‌های نوظهور که در مدل‌های 7B/8B دیده می‌شد، وجود نداشت.

پیامدها:

این تضاد نشان می‌دهد که مقیاس مدل احتمالاً یک عامل کلیدی در تحقق پتانسیل کامل ادغام SLERP برای ایجاد ویژگی‌های نوظهور است. مدل‌های کوچکتر، با فضاهای پارامتر کمتر پیچیده و با ابعاد پایین‌تر، ممکن است فاقد ظرفیت نمایشی یا غنای لازم برای وقوع این تعاملات غیرخطی قوی در طول ادغام باشند. به نظر می‌رسد ‘فضای’ کشف ترکیبات پارامتر جدید و مفید در مقایسه با مدل‌های بزرگتر به طور قابل توجهی محدودتر است.

این نتایج با مشاهدات گسترده‌تر در مورد قوانین مقیاس‌پذیری در یادگیری عمیق همخوانی دارد، جایی که قابلیت‌های کیفی خاصی اغلب تنها زمانی ظاهر می‌شوند که مدل‌ها به آستانه اندازه معینی برسند. به نظر می‌رسد که قدرت هم‌افزایی ادغام SLERP ممکن است یکی از این قابلیت‌ها باشد که به طور حیاتی به مقیاس و پیچیدگی کافی مدل بستگی دارد.

کمی‌سازی دستاوردها: نگاهی دقیق‌تر به افزایش عملکرد ناشی از ادغام

در حالی که معیارهای ارزیابی نشان می‌دهند مدل‌های ادغام شده اغلب بهترین عملکرد کلی را دارند، مفید است که دقیقاً کمی‌سازی کنیم که آن‌ها چقدر نسبت به والدین خود بهتر هستند. به طور خاص، آیا مدل ادغام شده به طور مداوم حتی از مدل قوی‌تر از دو مدلی که برای ایجاد آن استفاده شده است، بهتر عمل می‌کند؟

برای تجزیه و تحلیل این موضوع، انحراف عملکرد برای هر مدل ادغام شده با SLERP محاسبه شد. این انحراف به صورت زیر تعریف شد:

انحراف عملکرد = عملکرد (مدل ادغام شده) - حداکثر (عملکرد (والد 1)، عملکرد (والد 2))

  • انحراف مثبت (که با سایه‌های آبی تجسم یافته است) به این معنی است که مدل SLERP بهتر از بهترین والدین خود عمل کرده است - شواهد روشنی از هم‌افزایی.
  • انحراف منفی (که با رنگ قرمز تجسم یافته است) به این معنی است که مدل SLERP بدتر از حداقل یکی از والدین خود عمل کرده است، که نشان می‌دهد ادغام مضر بوده یا در بهترین حالت، میانگین‌گیری بوده است.

تجزیه و تحلیل نشان داد:

در اکثر آزمایش‌های مربوط به مدل‌های Llama 3.1 (8B) و Mistral (7B)، انحرافات عملکرد عمدتاً مثبت بودند. در بسیاری از موارد، به ویژه برای خطوط لوله به خوبی بهینه‌سازی شده (به عنوان مثال، آن‌هایی که شامل CPT، SFT، بهینه‌سازی ترجیحات و SLERP هستند)، مدل‌های ادغام شده انحرافات مثبت قابل توجهی نشان دادند، که نشان می‌دهد آن‌ها به طور قابل توجهی از قابلیت‌های حتی قوی‌ترین والد خود فراتر رفته‌اند.

مواردی وجود داشت، به ویژه با مدل‌های والد کمتر بهینه‌سازی شده یا شاید پارامترهای ادغام نامطلوب، که انحراف کمی منفی یا نزدیک به صفر بود. با این حال، روند کلی واضح بود: ادغام استراتژیک SLERP اغلب افزایش عملکرد واقعی فراتر از آنچه هر یک از مدل‌های والد به تنهایی می‌توانستند به دست آورند، فراهم می‌کند. این ایده را تقویت می‌کند که ادغام فقط میانگین‌گیری نیست، بلکه فرآیندی است که قادر به سنتز قابلیت‌های برتر است. نتایج SmolLM (1.7B)، در مقابل، انحرافات بسیار کوچکتر یا منفی را نشان می‌دهد که با عدم وجود اثرات نوظهور قوی در آن مقیاس سازگار است.

از معیارهای ارزیابی تا طوفان فکری: کاربردهای تعاملی در طراحی مواد

فراتر از معیارهای کمی، ارزش واقعی این مدل‌های تطبیق یافته با دامنه در توانایی آن‌ها برای کمک به وظایف دنیای واقعی، مانند استدلال علمی و طراحی خلاقانه نهفته است. برای ارزیابی این جنبه کیفی، جلسات چت تعاملی با چندین مدل برتر (شامل هر دو نوع ادغام شده و ادغام نشده) انجام شد.

تنظیمات شامل ارائه یک دستور سیستم ثابت بود که به مدل دستور می‌داد به عنوان یک متخصص علم مواد عمل کند، و به دنبال آن یک دستور کاربر که برای آزمایش استدلال خلاقانه و بین‌رشته‌ای طراحی شده بود. یک کار معمولی شامل درخواست از مدل برای موارد زیر بود:

  1. دو مفهوم بیولوژیکی به ظاهر متفاوت را در نظر بگیرید (به عنوان مثال، ساختار کلاژن و الگوهای رگبرگ برگ‌ها).
  2. طرح‌های مواد جدیدی را با الهام از ترکیب اصول هر دو مفهوم، طوفان فکری کنید.
  3. منطق پشت طرح‌های پیشنهادی را توضیح دهید.
  4. پیشنهادات را در قالبی ساختاریافته (مانند JSON) برای پردازش بالقوه پایین‌دستی خروجی دهید.

مشاهدات کیفی:

  • درک قوی دامنه: تمام مدل‌های تنظیم دقیق شده، درک محکمی از مفاهیم بنیادی بیولوژیکی و علم مواد نشان دادند و از اصطلاحات