چالش تخصصگرایی: تطبیق هوش مصنوعی برای مرزهای فنی
مدلهای زبانی بزرگ (LLMs) بدون شک نحوه تعامل ما با اطلاعات و خودکارسازی وظایف مربوط به زبان طبیعی را متحول کردهاند. غولهایی مانند Llama و Mistral، حتی در اشکال متنباز خود، تسلط قابل توجهی در درک و تولید متنی نشان میدهند که اغلب با خروجی انسان رقابت میکند. توانایی آنها گستره وسیعی را شامل میشود، از مکالمات روزمره گرفته تا خلاصهسازیهای پیچیده. با این حال، ورود به قلمروهای تخصصی و پر از اصطلاحات فنی علوم و مهندسی - حوزههایی مانند علم مواد یا بیومتریومیکس - مانعی منحصر به فرد ایجاد میکند.
این حوزههای فنی به چیزی بیش از دانش عمومی نیاز دارند؛ آنها نیازمند درک عمیق و دقیق، توانایی استدلال بر اساس اصول خاص، و آشنایی با اصطلاحات تخصصی و ساختارهای داده هستند. LLMهای استاندارد که بر روی پیکرههای وسیع وب آموزش دیدهاند، اغلب در مواجهه با این خواستهها دچار مشکل میشوند. بنابراین، چالش در تطبیق دامنه نهفته است: چگونه میتوانیم این مدلهای قدرتمند عمومی را به طور مؤثر برای تبدیل شدن به دستیاران متخصص در زمینههای بسیار خاص، سفارشیسازی کنیم؟
صرفاً تغذیه دادههای تخصصی بیشتر همیشه پاسخگو نیست و همیشه هم امکانپذیر نیست. آموزش این غولها از ابتدا به طور سرسامآوری گران است و مجموعه دادههای عظیم اصلی که برای پیشآموزش اولیه آنها استفاده شده است، معمولاً غیرقابل دسترس هستند. این امر به ویژه در مورد مدلهای محبوب متنباز صادق است که علیرغم شفافیت نسبی، دستورالعمل کامل - ترکیب دقیق دادهها و توالیهای مورد استفاده در طول پیشآموزش، تنظیم دقیق و همراستاسازی - تا حد زیادی اختصاصی باقی میماند. محققان و مهندسان به استراتژیهای قوی و کارآمدی نیاز دارند تا دانش تخصصی جدید را به مدلهای موجود تزریق کنند و در عین حال، قابلیتهای عمومی گستردهای را که در طول آموزش اولیه خود به دست آوردهاند، به طور حیاتی حفظ کنند. این عمل متعادلسازی ظریف برای ایجاد ابزارهای هوش مصنوعی واقعاً مفید برای کشف علمی و نوآوری مهندسی، مانند توسعه موتورهای قادر به استدلال چندوجهی برای کاوش الهامبخش طراحی مواد بیولوژیکی در مقیاسها و زمینههای متنوع، بسیار مهم است.
ترسیم چشمانداز آموزش: از پیشآموزش تا بهینهسازی ترجیحات
پیمایش مسیر به سوی تخصص LLM در یک دامنه خاص، شامل کاوش در جعبه ابزار متنوعی از استراتژیهای تنظیم دقیق است. هر رویکرد راه متفاوتی برای شکل دادن به دانش و رفتار مدل ارائه میدهد.
پیشآموزش مستمر (CPT): این استراتژی شامل گسترش مرحله پیشآموزش اولیه است، اما این بار با استفاده از پیکرهای که کاملاً بر روی دامنه هدف متمرکز شده است - مانند مجموعهای از مقالات تحقیقاتی علم مواد. هدف این است که مدل را در زبان، مفاهیم و ساختارهای دانش خاص آن حوزه غوطهور کنیم، و به آن اجازه دهیم اطلاعات خاص دامنه را عمیقتر از آنچه که تنها با تنظیم دقیق وظیفهمحور امکانپذیر است، جذب کند. این کار پایهای از دانش مرتبط را بنا مینهد.
تنظیم دقیق نظارتشده (SFT): پس از CPT یا با شروع از یک مدل پایه، SFT مستقیماً به مدل میآموزد که چگونه وظایف خاصی را انجام دهد. این امر با استفاده از مجموعه دادههای سرپرستی شده از جفتهای ورودی-خروجی، که اغلب به صورت دستورالعملها و پاسخهای مطلوب، یا سؤالات و پاسخهای دقیق مرتبط با دامنه قالببندی شدهاند، به دست میآید. SFT توانایی مدل را برای دنبال کردن دستورالعملها، پاسخگویی دقیق به سؤالات در زمینه تخصصی، و پایبندی به قالبهای خروجی مورد نظر، تقویت میکند.
تطبیق رتبه پایین (LoRA): اگرچه تمرکز اصلی در اینجا نیست، LoRA یک جایگزین یا مکمل کارآمد را نشان میدهد. به جای بازآموزی کل مدل، LoRA لایههای کوچک و قابل آموزش ‘آداپتور’ را معرفی میکند. این امر امکان تطبیق قابل توجه با هزینه محاسباتی بسیار کمتر را فراهم میکند، اگرچه ممکن است در میزان دانش اساساً جدیدی که میتواند در مقایسه با CPT ادغام شود، محدودیتهایی داشته باشد.
بهینهسازی مبتنی بر ترجیح: فراتر از تکمیل ساده وظایف، بهینهسازی ترجیحات با هدف همراستاسازی بیشتر خروجیهای مدل با قضاوتهای انسانی یا معیارهای خاصی مانند مفید بودن، بیضرر بودن و دقت در استدلال انجام میشود. به جای تکیه صرف بر پاسخهای ‘صحیح’ از پیش تعریف شده (مانند SFT)، این روشها از مقایسهها یاد میگیرند.
- بهینهسازی مستقیم ترجیح (DPO): DPO مستقیماً از جفت پاسخهایی که یکی بر دیگری ترجیح داده میشود (مثلاً توسط یک ارزیاب انسانی یا هوش مصنوعی دیگر) یاد میگیرد. این روش مدل را بهینه میکند تا احتمال تولید پاسخهای ترجیحی را بدون نیاز به یک مدل پاداش جداگانه افزایش دهد و خط لوله سنتی یادگیری تقویتی از بازخورد انسانی (RLHF) را ساده میکند.
- بهینهسازی ترجیح نسبت شانس (ORPO): ORPO که یک روش جدیدتر است، هدف بهینهسازی را تغییر میدهد و گاهی اوقات عملکرد یا پایداری بهبود یافتهای را در مقایسه با DPO به همراه دارد، به ویژه در همراستاسازی مدلها به سمت معیارهای سبکی یا استدلالی خاص در یک دامنه.
این تکنیکها متقابلاً انحصاری نیستند؛ آنها اغلب به صورت متوالی یا ترکیبی به کار گرفته میشوند و خطوط لوله آموزشی پیچیدهای را تشکیل میدهند. یک توالی رایج ممکن است شامل CPT برای ایجاد دانش دامنه، به دنبال آن SFT برای مهارت در انجام وظیفه، و در نهایت DPO یا ORPO برای همراستاسازی و پالایش باشد. با این حال، ترکیب و توالی بهینه همچنان حوزههای فعال تحقیقاتی هستند، به ویژه برای دستیابی به اوج عملکرد در حوزههای علمی تخصصی.
فراتر از تنظیم ساده: نوید ادغام مدلها
در حالی که پالایش یک مدل واحد از طریق مراحل آموزشی متوالی میتواند بهبودهای قابل توجهی به همراه داشته باشد، راه جذاب دیگری پدیدار شده است: ادغام مدل. این عمل شامل گرفتن دو یا چند مدل آموزشدیده جداگانه و ترکیب پارامترهای آنها - ‘وزنهای’ داخلی آنها - برای ایجاد یک مدل ترکیبی جدید و واحد است.
چرا چنین ادغامی را امتحان کنیم؟ ایده اصلی ترکیب همافزایانه نقاط قوت مدلهای والد است. یک مدل را تصور کنید که به طور ماهرانه بر روی ادبیات علم مواد آموزش دیده است (از طریق CPT و SFT) و یک مدل ‘دستورالعمل’ عمومی دیگر که در پیروی از دستورالعملهای پیچیده و درگیر شدن در گفتگوی منسجم بسیار ماهر است. ادغام آنها به طور بالقوه میتواند مدلی ایجاد کند که هم دانش عمیق دامنه و هم تواناییهای مکالمهای و پیروی از دستورالعمل عالی را داشته باشد.
کاوشهای اولیه اشاره داشتند که این فرآیند ممکن است چیزی بیش از میانگینگیری ساده باشد. به جای فقط ترکیب قابلیتها، ادغام به طور بالقوه میتواند کارکردهای کاملاً جدید و نوظهور را باز کند - تواناییهایی که به صراحت در هیچ یک از مدلهای والد وجود ندارند. این نشاندهنده یک تعامل بسیار غیرخطی بین پارامترها در طول ادغام است که به طور بالقوه منجر به کلیتی بزرگتر از مجموع اجزای آن میشود. اگر اثربخشی و کنترلپذیری آن ثابت شود، ادغام مدل میتواند ابزاری قدرتمند و تحولآفرین برای پیش بردن مرزهای قابلیتهای LLM باشد و سیستمهای هوش مصنوعی بسیار سازگار و قوی را ایجاد کند که برای چالشهای پیچیده و واقعی علمی و مهندسی طراحی شدهاند.
رونمایی از قدرت SLERP: رویکردی هندسی به ادغام
اثربخشی ادغام مدل به طور حیاتی به نحوه ترکیب پارامترهای مدلهای والد بستگی دارد. میانگینگیری خطی ساده (که اغلب درونیابی خطی یا LERP نامیده میشود) ممکن است شهودی به نظر برسد، اما اغلب منجر به نتایج نامطلوب یا حتی کاهش عملکرد میشود. این احتمالاً به این دلیل است که فضای پارامتر با ابعاد بالای LLMها مسطح نیست؛ بلکه دارای یک هندسه پیچیده و منحنی است. درونیابی خطی خطر عبور از ‘مناطق مرده’ یا مناطق با اتلاف بالا در این فضا را دارد و به طور مؤثر نمایشهای با دقت آموخته شده مدلهای والد را به هم میریزد.
درونیابی خطی کروی (SLERP) وارد میشود. SLERP که در اصل برای انیمیشن روان چرخشها در گرافیک کامپیوتری توسعه یافته است، راهی هندسی پیچیده برای درونیابی بین دو نقطه (در این مورد، بردارهای پارامتر دو مدل) با دنبال کردن کوتاهترین مسیر در امتداد سطح یک ابرکره ارائه میدهد.
مجموعه پارامترهای دو مدل والد را به عنوان دو نقطه روی سطح یک کره غولپیکر تصور کنید.
- LERP یک خط مستقیم از میان کره میکشد که نقاط را به هم متصل میکند. این مسیر ممکن است روی سطح باقی نماند و میتواند از مناطقی عبور کند که نشاندهنده مدلهای با عملکرد ضعیف هستند.
- SLERP، برعکس، در امتداد سطح منحنی خود کره حرکت میکند. این مسیر ذاتاً به ساختار هندسی زیربنایی فضای پارامتر احترام میگذارد.
چرا این مسیر کروی به طور بالقوه برای ادغام LLMها برتر است؟
- حفظ ساختار: SLERP با ماندن ‘روی کره’، روابط هندسی بین پارامترها را حفظ میکند و ساختارهای آموخته شده در هر مدل والد را مؤثرتر از یک مسیر خطی حفظ میکند.
- اجتناب از مناطق با اتلاف بالا: مسیر منحنی کمتر احتمال دارد با مناطقی از فضای پارامتر که با خطاهای پیشبینی بالا (اتلاف) مرتبط هستند، تلاقی پیدا کند.
- ترکیب غیرخطی: فرمول درونیابی برای SLERP ذاتاً غیرخطی است. این امر امکان تعاملات پیچیده و همافزایانه بین پارامترهای مدلهای والد را فراهم میکند و به طور بالقوه ترکیباتی را باز میکند که نشاندهنده قابلیتهای جدید هستند. یک پارامتر ادغام شده ممکن است ویژگیها را به گونهای فعال کند که هیچ یک از والدین به تنهایی قادر به انجام آن نبودند.
- انتقالهای روان: SLERP یک انتقال ریاضیاتی روان بین حالتهای مدلهای والد فراهم میکند که به طور بالقوه منجر به تعمیم بهتر در مدل ادغام شده میشود.
از آنجایی که SLERP به هندسه ذاتی مدل احترام میگذارد و تعاملات پارامتر غیرخطی را تسهیل میکند، این پتانسیل را دارد که نه تنها قابلیتها را میانگینگیری کند، بلکه آنها را به گونهای ترکیب کند که ویژگیهای نوظهور را تقویت کند. این امر آن را به یک کاندیدای امیدوارکننده برای ادغام مدلهایی تبدیل میکند که برای حوزههای پیچیدهای مانند علم مواد هدفگذاری شدهاند، جایی که تعاملات ظریف و درک دقیق کلیدی هستند.
آزمودن نظریهها: آزمایشهای Llama و Mistral
برای بررسی دقیق این استراتژیهای تنظیم دقیق و ادغام، یک سری آزمایشهای سیستماتیک با استفاده از خانوادههای مدل متنباز محبوب انجام شد: Llama 3.1 (8 میلیارد پارامتر) و Mistral (7 میلیارد پارامتر). هدف مقایسه خطوط لوله آموزشی مختلف و ارزیابی تأثیر ادغام SLERP بود.
طراحی آزمایش شامل چندین مرحله کلیدی بود:
- مدلهای پایه: آزمایشها هم با مدلهای ‘پایه’ بنیادی (پیشآموزش دیده اما برای دستورالعمل تنظیم نشده) و هم با نسخههای ‘instruct’ (که قبلاً برای چت و پیروی از دستورالعمل تنظیم دقیق شدهاند) برای هر دو خانواده Llama و Mistral آغاز شد.
- پیکره دامنه: یک پیکره تخصصی متمرکز بر علم مواد از انتشارات علمی و دادههای پردازش شده گردآوری شد.
- خطوط لوله آموزشی: ترکیبات مختلفی از تکنیکهای آموزشی اعمال شد:
- فقط CPT
- CPT و سپس SFT (CPT-SFT)
- CPT-SFT و سپس ORPO (CPT-SFT-ORPO)
- CPT-SFT و سپس DPO (CPT-SFT-DPO)
- برخی تغییرات با شروع مستقیم از مدل Instruct (به عنوان مثال، Instruct-CPT-SFT-DPO).
- ادغام مدل: برای بسیاری از مدلهای تنظیم دقیق شده، ادغام SLERP انجام شد، که معمولاً مدل تطبیق یافته با دامنه را با مدل ‘instruct’ عمومی مربوطه از همان خانواده ترکیب میکرد (به عنوان مثال، یک مدل Llama CPT-SFT-DPO با مدل استاندارد Llama 3.1 Instruct ادغام شد).
- ارزیابی: عملکرد تمام مدلهای حاصل (هم ادغام شده و هم ادغام نشده) در مجموعهای از معیارهای ارزیابی مرتبط که برای آزمایش دانش دامنه، استدلال و پیروی از دستورالعمل طراحی شده بودند، ارزیابی شد.
یافتههای کلیدی در Llama و Mistral:
- ادغام SLERP به طور مداوم عملکرد را افزایش میدهد: در هر دو خانواده مدل و خطوط لوله آموزشی مختلف، مدلهایی که از طریق ادغام SLERP بهبود یافته بودند، به طور کلی بالاترین دقت را در معیارهای ارزیابی کسب کردند. این به شدت از این فرضیه حمایت میکند که SLERP یک تکنیک مؤثر برای ترکیب نقاط قوت مدل است.
- اثرات همافزایی تأیید شد: عملکرد مدلهای ادغام شده با SLERP اغلب از میانگین ساده عملکرد دو مدل والد فراتر میرفت. ترسیم امتیاز واقعی به دست آمده در برابر این میانگین مورد انتظار، انحراف مثبت قابل توجهی را نشان داد و تأیید کرد که فرآیند ادغام اغلب دستاوردهای همافزایی و قابلیتهای نوظهور را باز میکند. موجودیت ادغام شده به طور قابل اثباتی توانمندتر از مجموع اجزای خود بود.
- بهینهسازی ترجیحات ارزش افزوده دارد: گنجاندن مراحل بهینهسازی ترجیحات (DPO یا ORPO) اغلب باعث افزایش عملکرد اضافی میشد، به ویژه هنگامی که با ادغام SLERP ترکیب میشد. استراتژیهایی مانند CPT-SFT-DPO-SLERP یا CPT-SFT-ORPO-SLERP اغلب در میان بهترین عملکردها قرار داشتند.
- استراتژی بهینه بدون ادغام متفاوت است: بدون ادغام، بهترین استراتژی عملکردی بین خانوادههای مدل کمی متفاوت بود. برای Llama 3.1، Instruct-CPT-SFT-DPO نتایج قوی نشان داد، در حالی که برای Mistral، Base-CPT-SFT عملکرد قابل مقایسهای با همتای Instruct خود داشت.
- تأثیر مدت زمان CPT: تجزیه و تحلیل بیشتر بر روی مدلهای Mistral نشان داد که عملکرد به طور کلی با دورههای بیشتر پیشآموزش مستمر (تا پنج دوره آزمایش شده) بهبود مییابد، به خصوص هنگام شروع از مدل Instruct، که ارزش قرار گرفتن کافی در معرض دامنه در طول CPT را تقویت میکند.
این نتایج تصویر روشنی را ترسیم میکنند: در حالی که تنظیم دقیق متوالی ارزشمند است، ادغام استراتژیک مدل با استفاده از SLERP مسیری قدرتمند برای افزایش قابل توجه عملکرد LLM ارائه میدهد، به ویژه برای حوزههای تخصصی، که اغلب قابلیتهایی فراتر از تجمیع ساده به همراه دارد.
نگاهی عمیقتر: چه چیزی باعث کارکرد ادغام میشود؟
موفقیت مداوم ادغام SLERP باعث میشود نگاه دقیقتری به مکانیکهای زیربنایی و عوامل تأثیرگذار بیندازیم. چرا این رویکرد هندسی چنین نتایج قدرتمندی به همراه دارد و چه شرایطی اثربخشی آن را بهینه میکند؟
تعاملات غیرخطی: همانطور که نظریهپردازی شد، مسیر غیرخطی SLERP در فضای پارامتر بسیار مهم به نظر میرسد. این به مدل ادغام شده اجازه میدهد تا ترکیباتی از پارامترها را که میانگینگیری خطی از دست میدهد، کاوش کند. این ترکیبات میتوانند نشاندهنده تعاملات جدید بین ویژگیهای آموخته شده باشند که منجر به تواناییهای استدلال یا حل مسئله نوظهور متناسب با دامنه میشود. تصور کنید پارامترهایی را ترکیب کنید که به طور جداگانه نشاندهنده درک ‘استحکام مواد’ و ‘ساختارهای بیولوژیکی’ هستند - SLERP ممکن است ترکیبی را پیدا کند که به طور مؤثر ‘مواد با استحکام بالا با الهام از زیستشناسی’ را به گونهای نشان دهد که هیچ یک از مدلهای والد به صراحت انجام ندادهاند.
نقش تنوع: مدلهای والد چقدر باید متفاوت باشند؟ تجزیه و تحلیل روابط پیچیدهای را نشان داد. در حالی که تنوع شدید ممکن است مفید به نظر برسد، برخی همبستگیها نشان دادند که در زمینههای خاص (مانند مدلهای Llama)، تنوع عملکرد بالاتر بین والدین ممکن است کمی اتکا به SFT بعدی را کاهش دهد، شاید به این دلیل که ادغام قبلاً مجموعه قابلیتهای گستردهتری را در بر گرفته است. این تعامل ظریف است و احتمالاً به روشهای تنظیم دقیق خاص مورد استفاده برای والدین بستگی دارد.
نقطه شروع پایه در مقابل Instruct: انتخاب مدل شروع اهمیت دارد. برای آزمایشهای Llama، مدل ادغام شده با بهترین عملکرد از نسخه Instruct نشأت گرفته بود. برعکس، برای Mistral، یکی از بهترین عملکردها از مدل پایه قبل از انجام CPT، SFT و ادغام مشتق شده بود. این نشان میدهد که تفاوتهای معماری یا تغییرات در ترکیبهای پیشآموزش اولیه خانوادههای Llama و Mistral بر نحوه پاسخگویی آنها به خطوط لوله تنظیم دقیق و ادغام خاص تأثیر میگذارد. یک نقطه شروع ‘بهترین’ جهانی وجود ندارد؛ این امر نیازمند آزمایش تجربی است.
کیفیت داده در CPT: بنیادی که در طول پیشآموزش مستمر گذاشته میشود، حیاتی است. آزمایشهایی که از مجموعه داده CPT بزرگتر اما ‘پر سر و صداتر’ (حاوی خطاهای قالببندی بیشتر یا مصنوعات ناشی از تشخیص نوری کاراکتر) استفاده میکردند، منجر به کاهش عملکرد در مقایسه با استفاده از مجموعه داده کوچکتر و تمیزتر شد. این امر بر اهمیت دادههای با کیفیت بالا و به خوبی پردازش شده خاص دامنه برای مؤثر بودن مرحله CPT تأکید میکند. ضربالمثل ‘آشغال ورودی، آشغال خروجی’ همچنان پابرجاست.
تنظیم دقیق پارامترهای SLERP: خود SLERP دارای پارامترهایی است، به ویژه ضریب درونیابی (اغلب با ‘t’ نشان داده میشود، از 0 تا 1 متغیر است) که تعیین میکند چه مقدار وزن به هر مدل والد داده شود. علاوه بر این، ادغام لازم نیست در تمام لایههای مدل یکنواخت باشد. آزمایشها تغییر ضریب درونیابی به طور متفاوت برای لایههای خودتوجهی در مقابل لایههای پرسپترون چندلایه (MLP) یا حتی تغییر تدریجی آن در عمق مدل را بررسی کردند. نتایج نشان داد که طرحهای وزندهی غیریکنواخت خاص میتوانند از رویکرد یکنواخت استاندارد بهتر عمل کنند، که نشاندهنده پتانسیل بهینهسازی بیشتر با تنظیم دقیق فرآیند ادغام در سراسر معماری شبکه است. یک پیشرفت خطی ساده وزنها در لایهها در یک مورد Llama مؤثر بود.
اثر تنظیمکنندگی (Regularization): SLERP همچنین ممکن است به عنوان نوعی تنظیمکنندگی عمل کند. با یافتن یک مسیر هموار بین دو مدل بالقوه تخصصی، ممکن است از بیشبرازش (overfitting) به ویژگیهای خاص دادههای آموزشی هر یک از والدین جلوگیری کند و منجر به تعمیم بهتر در مسائل خاص دامنه دیده نشده شود. همچنین ممکن است به کاهش ‘فراموشی فاجعهبار’ کمک کند، جایی که تنظیم دقیق روی یک کار، دانش کار قبلی را پاک میکند.
در اصل، اثربخشی SLERP از توانایی آن در پیمایش هوشمندانه هندسه پیچیده فضای پارامتر LLM ناشی میشود و تعاملات غیرخطی مفید را تقویت میکند و در عین حال ساختارهای دانش آموخته شده را حفظ میکند. با این حال، بهینهسازی استفاده از آن نیازمند توجه دقیق به انتخاب مدل والد، تاریخچه آموزش، کیفیت دادهها و به طور بالقوه حتی جزئیات دقیق خود ادغام است.
آیا اندازه مهم است؟ کاوش اثرات مقیاسپذیری با مدلهای کوچکتر
اثرات همافزایی چشمگیر مشاهده شده با مدلهای 7 و 8 میلیارد پارامتری، یک سؤال طبیعی را مطرح میکند: آیا این قابلیتهای نوظهور که توسط ادغام SLERP باز میشوند، در مدلهای زبانی بسیار کوچکتر نیز ظاهر میشوند؟ یا آستانه مقیاسی وجود دارد که پایینتر از آن، این جادو محو میشود؟
برای بررسی این موضوع، آزمایشهای مشابهی با استفاده از سری مدل SmolLM، به ویژه یک نوع با تنها 1.7 میلیارد پارامتر انجام شد. این مدل به طور قابل توجهی کوچکتر است و آن را برای محیطهای با منابع محدود مانند دستگاههای تلفن همراه یا محاسبات لبه مناسب میکند، اما به طور بالقوه فاقد غنای پارامتری پسرعموهای بزرگتر خود است.
مدلهای SmolLM همان خط لوله را طی کردند: CPT با پیکره علم مواد، و سپس SFT و DPO (که برای این معماری کوچکتر مؤثرتر از ORPO بود). سپس ادغام SLERP اعمال شد و SmolLM تنظیم دقیق شده با نسخه پایه یا انواع دیگر آن ترکیب شد.
یافتهها با SmolLM:
- تنظیم دقیق همچنان کمک میکند: خط لوله CPT-SFT-DPO عملکرد مدل SmolLM را در وظایف دامنه نسبت به وضعیت اولیه آن بهبود بخشید. خود فرآیند تنظیم دقیق مفید بود و دانش تخصصی آن را افزایش داد.
- ظهور تا حد زیادی غایب بود: با این حال، برخلاف آزمایشهای Llama و Mistral، مدلهای SmolLM ادغام شده با SLERP به طور کلی اثرات همافزایی قابل توجهی نشان ندادند. عملکرد آنها معمولاً نزدیک به میانگین ساده مدلهای والد یا فقط کمی بالاتر بود. جهشهای چشمگیر عملکرد و نشانههای واضح قابلیتهای نوظهور که در مدلهای 7B/8B دیده میشد، وجود نداشت.
پیامدها:
این تضاد نشان میدهد که مقیاس مدل احتمالاً یک عامل کلیدی در تحقق پتانسیل کامل ادغام SLERP برای ایجاد ویژگیهای نوظهور است. مدلهای کوچکتر، با فضاهای پارامتر کمتر پیچیده و با ابعاد پایینتر، ممکن است فاقد ظرفیت نمایشی یا غنای لازم برای وقوع این تعاملات غیرخطی قوی در طول ادغام باشند. به نظر میرسد ‘فضای’ کشف ترکیبات پارامتر جدید و مفید در مقایسه با مدلهای بزرگتر به طور قابل توجهی محدودتر است.
این نتایج با مشاهدات گستردهتر در مورد قوانین مقیاسپذیری در یادگیری عمیق همخوانی دارد، جایی که قابلیتهای کیفی خاصی اغلب تنها زمانی ظاهر میشوند که مدلها به آستانه اندازه معینی برسند. به نظر میرسد که قدرت همافزایی ادغام SLERP ممکن است یکی از این قابلیتها باشد که به طور حیاتی به مقیاس و پیچیدگی کافی مدل بستگی دارد.
کمیسازی دستاوردها: نگاهی دقیقتر به افزایش عملکرد ناشی از ادغام
در حالی که معیارهای ارزیابی نشان میدهند مدلهای ادغام شده اغلب بهترین عملکرد کلی را دارند، مفید است که دقیقاً کمیسازی کنیم که آنها چقدر نسبت به والدین خود بهتر هستند. به طور خاص، آیا مدل ادغام شده به طور مداوم حتی از مدل قویتر از دو مدلی که برای ایجاد آن استفاده شده است، بهتر عمل میکند؟
برای تجزیه و تحلیل این موضوع، انحراف عملکرد برای هر مدل ادغام شده با SLERP محاسبه شد. این انحراف به صورت زیر تعریف شد:
انحراف عملکرد = عملکرد (مدل ادغام شده) - حداکثر (عملکرد (والد 1)، عملکرد (والد 2))
- انحراف مثبت (که با سایههای آبی تجسم یافته است) به این معنی است که مدل SLERP بهتر از بهترین والدین خود عمل کرده است - شواهد روشنی از همافزایی.
- انحراف منفی (که با رنگ قرمز تجسم یافته است) به این معنی است که مدل SLERP بدتر از حداقل یکی از والدین خود عمل کرده است، که نشان میدهد ادغام مضر بوده یا در بهترین حالت، میانگینگیری بوده است.
تجزیه و تحلیل نشان داد:
در اکثر آزمایشهای مربوط به مدلهای Llama 3.1 (8B) و Mistral (7B)، انحرافات عملکرد عمدتاً مثبت بودند. در بسیاری از موارد، به ویژه برای خطوط لوله به خوبی بهینهسازی شده (به عنوان مثال، آنهایی که شامل CPT، SFT، بهینهسازی ترجیحات و SLERP هستند)، مدلهای ادغام شده انحرافات مثبت قابل توجهی نشان دادند، که نشان میدهد آنها به طور قابل توجهی از قابلیتهای حتی قویترین والد خود فراتر رفتهاند.
مواردی وجود داشت، به ویژه با مدلهای والد کمتر بهینهسازی شده یا شاید پارامترهای ادغام نامطلوب، که انحراف کمی منفی یا نزدیک به صفر بود. با این حال، روند کلی واضح بود: ادغام استراتژیک SLERP اغلب افزایش عملکرد واقعی فراتر از آنچه هر یک از مدلهای والد به تنهایی میتوانستند به دست آورند، فراهم میکند. این ایده را تقویت میکند که ادغام فقط میانگینگیری نیست، بلکه فرآیندی است که قادر به سنتز قابلیتهای برتر است. نتایج SmolLM (1.7B)، در مقابل، انحرافات بسیار کوچکتر یا منفی را نشان میدهد که با عدم وجود اثرات نوظهور قوی در آن مقیاس سازگار است.
از معیارهای ارزیابی تا طوفان فکری: کاربردهای تعاملی در طراحی مواد
فراتر از معیارهای کمی، ارزش واقعی این مدلهای تطبیق یافته با دامنه در توانایی آنها برای کمک به وظایف دنیای واقعی، مانند استدلال علمی و طراحی خلاقانه نهفته است. برای ارزیابی این جنبه کیفی، جلسات چت تعاملی با چندین مدل برتر (شامل هر دو نوع ادغام شده و ادغام نشده) انجام شد.
تنظیمات شامل ارائه یک دستور سیستم ثابت بود که به مدل دستور میداد به عنوان یک متخصص علم مواد عمل کند، و به دنبال آن یک دستور کاربر که برای آزمایش استدلال خلاقانه و بینرشتهای طراحی شده بود. یک کار معمولی شامل درخواست از مدل برای موارد زیر بود:
- دو مفهوم بیولوژیکی به ظاهر متفاوت را در نظر بگیرید (به عنوان مثال، ساختار کلاژن و الگوهای رگبرگ برگها).
- طرحهای مواد جدیدی را با الهام از ترکیب اصول هر دو مفهوم، طوفان فکری کنید.
- منطق پشت طرحهای پیشنهادی را توضیح دهید.
- پیشنهادات را در قالبی ساختاریافته (مانند JSON) برای پردازش بالقوه پاییندستی خروجی دهید.
مشاهدات کیفی:
- درک قوی دامنه: تمام مدلهای تنظیم دقیق شده، درک محکمی از مفاهیم بنیادی بیولوژیکی و علم مواد نشان دادند و از اصطلاحات