Специализация на LLM: Настройка, сливане, способности

Предизвикателството на специализацията: Адаптиране на AI за технически граници

Големите езикови модели (LLM) безспорно революционизираха начина, по който взаимодействаме с информацията и автоматизираме задачи, включващи естествен език. Гиганти като Llama и Mistral, дори в своите версии с отворен код, демонстрират забележителна плавност в разбирането и генерирането на текст, който често съперничи на човешкия. Тяхната мощ обхваща огромен пейзаж, от ежедневен разговор до сложно обобщаване. Въпреки това, навлизането в специализираните, богати на жаргон територии на науката и инженерството – области като материалознание или биоматериомика – представлява уникално препятствие.

Тези технически области изискват повече от общи познания; те изискват дълбоко, нюансирано разбиране, способност за разсъждение върху специфични принципи и познаване на специализирана терминология и структури от данни. Стандартните LLM, обучени върхушироки уеб корпуси, често се провалят, когато са изправени пред тези изисквания. Следователно предизвикателството се крие в адаптацията към домейна: как можем ефективно да приспособим тези мощни модели с общо предназначение, за да станат експертни асистенти в силно специфични области?

Простото подаване на повече специализирани данни не винаги е отговорът, нито винаги е осъществимо. Обучението на тези гиганти от нулата е непосилно скъпо, а оригиналните, масивни набори от данни, използвани за първоначалното им предварително обучение, обикновено са недостъпни. Това е особено вярно за популярните модели с отворен код, където въпреки известна прозрачност, пълната рецепта – точните смеси от данни и последователности, използвани по време на предварителното обучение, фината настройка и подравняването – остава до голяма степен патентована. Изследователите и инженерите се нуждаят от стабилни, ефективни стратегии за внедряване на нови, специализирани знания в съществуващи модели, като същевременно запазват решаващо огромните общи способности, придобити по време на първоначалното им обучение. Този деликатен балансиращ акт е от първостепенно значение за създаването на наистина полезни AI инструменти за научни открития и инженерни иновации, като например разработването на двигатели, способни на мултимодално разсъждение за изследване на вдъхновение за дизайн на биологични материали в различни мащаби и контексти.

Очертаване на пейзажа на обучението: От предварително обучение до оптимизация на предпочитанията

Навигирането по пътя към експертизата на LLM в специфичен домейн включва изследване на разнообразен набор от инструменти за стратегии за фина настройка. Всеки подход предлага различен начин за оформяне на знанията и поведението на модела.

  • Продължително предварително обучение (CPT): Тази стратегия включва удължаване на първоначалната фаза на предварително обучение, но този път с помощта на корпус, фокусиран изцяло върху целевия домейн – като колекция от научни статии по материалознание. Целта е моделът да се потопи в специфичния език, концепции и структури на знанието в областта, което му позволява да усвои специфична за домейна информация по-дълбоко, отколкото е възможно само с фина настройка за конкретна задача. Тя полага основа от релевантни знания.

  • Надзорна фина настройка (SFT): След CPT или започвайки от базов модел, SFT директно учи модела как да изпълнява специфични задачи. Това се постига с помощта на подбрани набори от данни с двойки вход-изход, често форматирани като инструкции и желани отговори, или въпроси и точни отговори, свързани с домейна. SFT усъвършенства способността на модела да следва инструкции, да отговаря точно на въпроси в специализирания контекст и да се придържа към желаните изходни формати.

  • Адаптация с нисък ранг (LoRA): Макар и да не е основният фокус тук, LoRA представлява ефективна алтернатива или допълнение. Вместо да преобучава целия модел, LoRA въвежда малки, обучаеми ‘адаптерни’ слоеве. Това позволява значителна адаптация с много по-ниски изчислителни разходи, въпреки че може да има ограничения в това колко фундаментално нови знания могат да бъдат интегрирани в сравнение с CPT.

  • Оптимизация, базирана на предпочитания: Преминавайки отвъд простото изпълнение на задачи, оптимизацията на предпочитанията има за цел да приведе резултатите на модела по-близо до човешките преценки или специфични критерии като полезност, безвредност и точност в разсъжденията. Вместо да разчитат единствено на предварително дефинирани ‘правилни’ отговори (както при SFT), тези методи се учат от сравнения.

    • Директна оптимизация на предпочитанията (DPO): DPO се учи директно от двойки отговори, където единият е предпочитан пред другия (напр. от човешки оценител или друг AI). Той оптимизира модела, за да увеличи вероятността за генериране на предпочитани отговори, без да е необходим отделен модел за възнаграждение, опростявайки традиционния процес на Reinforcement Learning from Human Feedback (RLHF).
    • Оптимизация на предпочитанията чрез съотношение на шансовете (ORPO): По-нов участник, ORPO модифицира целта на оптимизацията, понякога давайки подобрена производителност или стабилност в сравнение с DPO, особено при подравняване на модели към специфични стилистични или разсъжденчески критерии в рамките на даден домейн.

Тези техники не са взаимно изключващи се; те често се използват последователно или в комбинация, образувайки сложни потоци на обучение. Често срещана последователност може да включва CPT за изграждане на знания в домейна, последвано от SFT за владеене на задачи и накрая DPO или ORPO за подравняване и усъвършенстване. Въпреки това, оптималната комбинация и последователност остават активни области на изследване, особено за постигане на върхова производителност в специализирани научни области.

Отвъд простата настройка: Обещанието за сливане на модели

Докато усъвършенстването на един модел чрез последователни етапи на обучение може да доведе до значителни подобрения, се появи друг интригуващ път: сливане на модели. Тази практика включва вземането на два или повече отделно обучени модела и комбинирането на техните параметри – техните вътрешни ‘тегла’ – за създаване на един нов, хибриден модел.

Защо да се опитва такова сливане? Основната идея е синергично да се комбинират силните страни на родителските модели. Представете си един модел, експертно обучен върху литература по материалознание (чрез CPT и SFT), и друг модел с общо предназначение ‘instruct’, силно способен да следва сложни инструкции и да участва в cohérentен диалог. Сливането им потенциално би могло да създаде модел, който притежава както дълбоки познания в домейна, така и отлични способности за разговор и следване на инструкции.

Ранните проучвания намекнаха, че този процес може да бъде повече от просто осредняване. Вместо просто да смесва способности, сливането потенциално би могло да отключи изцяло нови, възникващи функционалности – способности, които не присъстват изрично в нито един от родителските модели. Това предполага силно нелинейно взаимодействие между параметрите по време на сливането, което потенциално води до цяло, по-голямо от сумата на частите му. Ако се докаже като ефективно и контролируемо, сливането на модели би могло да представлява мощен, трансформиращ инструмент за разширяване на границите на възможностите на LLM, създавайки силно адаптивни и мощни AI системи, пригодени за сложни, реални научни и инженерни предизвикателства.

Разкриване на силата на SLERP: Геометричен подход към сливането

Ефективността на сливането на модели зависи критично от начина, по който се комбинират параметрите на родителските модели. Простото линейно осредняване (често наричано Линейна интерполация или LERP) може да изглежда интуитивно, но често води до неоптимални резултати или дори влошава производителността. Това вероятно се дължи на факта, че многомерното пространство на параметрите на LLM не е плоско; то притежава сложна, извита геометрия. Линейната интерполация рискува да премине през ‘мъртви зони’ или региони с високи загуби в това пространство, ефективно разбърквайки внимателно научените представяния на родителските модели.

Въведете Сферична линейна интерполация (SLERP). Първоначално разработена за плавна анимация на ротации в компютърната графика, SLERP предлага геометрично усъвършенстван начин за интерполация между две точки (в този случай, векторите на параметрите на два модела), като следва най-краткия път по повърхността на хиперсфера.

Представете си наборите от параметри на двата родителски модела като две точки на повърхността на гигантска сфера.

  • LERP би начертал права линия през сферата, свързваща точките. Този път може да не остане на повърхността и може да премине през региони, представляващи лошо представящи се модели.
  • SLERP, обратно, пътува по извитата повърхност на самата сфера. Този път по своята същност зачита основната геометрична структура на пространството на параметрите.

Защо този сферичен път е потенциално по-добър за сливане на LLM?

  1. Запазване на структурата: Като остава ‘на сферата’, SLERP поддържа геометричните връзки между параметрите, запазвайки научените структури във всеки родителски модел по-ефективно от линейния път.
  2. Избягване на региони с високи загуби: Извитият път е по-малко вероятно да пресече региони от пространството на параметрите, свързани с високи грешки при прогнозиране (загуби).
  3. Нелинейна комбинация: Формулата за интерполация за SLERP е по своята същност нелинейна. Това позволява сложни, синергични взаимодействия между параметрите от родителските модели, потенциално отключвайки комбинации, които представляват нови способности. Един слят параметър може да активира характеристики по начин, по който нито един родител не би могъл сам.
  4. Плавен преход: SLERP осигурява математически плавен преход между състоянията на родителските модели, което потенциално води до по-добра генерализация в слетия модел.

Тъй като SLERP зачита вътрешната геометрия на модела и улеснява нелинейните взаимодействия на параметрите, той има потенциала не просто да осреднява способностите, но и наистина да ги смесва по начин, който насърчава възникващи свойства. Това го прави особено обещаващ кандидат за сливане на модели, насочени към сложни области като материалознание, където фините взаимодействия и нюансираното разбиране са ключови.

Подлагане на теориите на изпитание: Експерименти с Llama и Mistral

За да се изследват стриктно тези стратегии за фина настройка и сливане, беше проведена систематична серия от експерименти с помощта на популярни фамилии модели с отворен код: Llama 3.1 (8 милиарда параметри) и Mistral (7 милиарда параметри). Целта беше да се сравнят различни потоци на обучение и да се оцени въздействието на сливането със SLERP.

Експерименталният дизайн включваше няколко ключови стъпки:

  1. Базови модели: Експериментите започнаха както с основните ‘базови’ модели (предварително обучени, но не настроени за инструкции), така и с версиите ‘instruct’ (вече фино настроени за чат и следване на инструкции) както за фамилиите Llama, така и за Mistral.
  2. Домейн корпус: Беше съставен специализиран корпус, фокусиран върху материалознанието, от научни публикации и обработени данни.
  3. Потоци на обучение: Бяха приложени различни комбинации от техники за обучение:
    • Само CPT
    • CPT, последвано от SFT (CPT-SFT)
    • CPT-SFT, последвано от ORPO (CPT-SFT-ORPO)
    • CPT-SFT, последвано от DPO (CPT-SFT-DPO)
    • Някои вариации, започващи директно от модела Instruct (напр. Instruct-CPT-SFT-DPO).
  4. Сливане на модели: За много от фино настроените модели беше извършено сливане със SLERP, обикновено комбинирайки адаптирания към домейна модел със съответния модел с общо предназначение ‘instruct’ от същата фамилия (напр. модел CPT-SFT-DPO Llama, слят със стандартния модел Llama 3.1 Instruct).
  5. Оценка: Производителността на всички получени модели (както слети, така и неслети) беше оценена спрямо набор от релевантни бенчмаркове, предназначени да тестват знания в домейна, разсъждения и следване на инструкции.

Ключови констатации за Llama и Mistral:

  • Сливането със SLERP последователно повишава производителността: И при двете фамилии модели и различни потоци на обучение, моделите, подобрени чрез сливане със SLERP, обикновено постигаха най-висока точност в бенчмарковете за оценка. Това силно подкрепя хипотезата, че SLERP е ефективна техника за комбиниране на силните страни на моделите.
  • Потвърдени синергични ефекти: Производителността на слетите със SLERP модели често надхвърляше простото осредняване на производителността на двата родителски модела. Графичното представяне на действително постигнатия резултат спрямо тази очаквана средна стойност разкри значително положително отклонение, потвърждавайки, че процесът на сливане често отключва синергични печалби и възникващи способности. Слятият обект беше демонстративно по-способен от просто сумата на частите си.
  • Оптимизацията на предпочитанията добавя стойност: Включването на етапи за оптимизация на предпочитанията (DPO или ORPO) често осигуряваше допълнително повишаване на производителността, особено когато се комбинира със сливане със SLERP. Стратегии като CPT-SFT-DPO-SLERP или CPT-SFT-ORPO-SLERP често бяха сред най-добре представящите се.
  • Оптималната неслята стратегия варира: Без сливане, най-добре представящата се стратегия се различаваше леко между фамилиите модели. За Llama 3.1, Instruct-CPT-SFT-DPO показа силни резултати, докато за Mistral, Base-CPT-SFT се представи сравнимо добре със своя аналог Instruct.
  • Влияние на продължителността на CPT: Допълнителен анализ на моделите Mistral показа, че производителността обикновено се подобрява с повече епохи на Продължително предварително обучение (до петте тествани), особено когато се започва от модела Instruct, което засилва стойността на достатъчното излагане на домейна по време на CPT.

Тези резултати рисуват ясна картина: докато последователната фина настройка е ценна, стратегическото сливане на модели с помощта на SLERP предлага мощен път за значително подобряване на производителността на LLM, особено за специализирани области, често давайки способности отвъд простото агрегиране.

По-дълбоко гмуркане: Какво кара сливането да работи?

Последователният успех на сливането със SLERP подтиква към по-внимателен поглед върху основните механики и влияещи фактори. Защо този геометричен подход дава толкова мощни резултати и какви условия оптимизират неговата ефективност?

  • Нелинейни взаимодействия: Както се теоретизира, нелинейният път на SLERP през пространството на параметрите изглежда решаващ. Той позволява на слетия модел да изследва комбинации от параметри, които линейното осредняване би пропуснало. Тези комбинации могат да представляват нови взаимодействия между научени характеристики, водещи до възникващи способности за разсъждение или решаване на проблеми, пригодени за домейна. Представете си комбиниране на параметри, които поотделно представляват разбиране на ‘якост на материала’ и ‘биологични структури’ – SLERP може да намери комбинация, която ефективно представлява ‘био-вдъхновени материали с висока якост’ по начин, по който нито един от родителските модели не го е правил изрично.

  • Ролята на разнообразието: Колко различни трябва да бъдат родителските модели? Анализът предполага сложни връзки. Докато екстремното разнообразие може да изглежда полезно, някои корелации показват, че в определени контексти (като моделите Llama), по-голямото разнообразие в производителността между родителите може леко да намали зависимостта от последващо SFT, може би защото сливането вече обхваща по-широк набор от способности. Взаимодействието е фино и вероятно зависи от специфичните методи за фина настройка, използвани за родителите.

  • Начална точка Base срещу Instruct: Изборът на начален модел има значение. За експериментите с Llama, най-добре представящият се слят модел произхожда от версията Instruct. Обратно, за Mistral, един от най-добре представящите се е получен от модела Base, преди да премине през CPT, SFT и сливане. Това предполага, че архитектурните разлики или вариациите в първоначалните състави на предварителното обучение на фамилиите Llama и Mistral влияят върху начина, по който те реагират на специфични потоци за фина настройка и сливане. Няма универсална ‘най-добра’ начална точка; изисква се емпирично тестване.

  • Качество на данните в CPT: Основата, положена по време на Продължителното предварително обучение, е критична. Експерименти, използващи по-голям, но ‘по-шумен’ набор от данни за CPT (съдържащ повече грешки във форматирането или артефакти от оптично разпознаване на символи), доведоха до намалена производителност в сравнение с използването на по-малък, по-чист набор от данни. Това подчертава значението на висококачествени, добре обработени специфични за домейна данни, за да бъде ефективен етапът на CPT. Принципът ‘боклук на входа, боклук на изхода’ все още е валиден.

  • Фина настройка на параметрите на SLERP: Самият SLERP има параметри, по-специално коефициентът на интерполация (често обозначаван като ‘t’, вариращ от 0 до 1), определящ колко тежест се дава на всеки родителски модел. Освен това, сливането не трябва да бъде равномерно във всички слоеве на модела. Експериментите изследваха варирането на фактора на интерполация по различен начин за слоевете за самовнимание спрямо многослойните перцептронни (MLP) слоеве, или дори прогресивното му вариране през дълбочината на модела. Резултатите показаха, че специфични неравномерни схеми на тежести могат да надминат стандартния равномерен подход, което предполага допълнителен потенциал за оптимизация чрез внимателно приспособяване на процеса на сливане в архитектурата на мрежата. Проста линейна прогресия на тежестите през слоевете се оказа ефективна в един случай с Llama.

  • Регуларизационен ефект: SLERP може също да действа като форма на регуларизация. Като намира плавен път между два потенциално специализирани модела, той може да обезкуражи прекомерното напасване към идиосинкразиите на данните за обучение на който и да е родител, което води до по-добра генерализация при невиждани специфични за домейна проблеми. Той може също да помогне за смекчаване на ‘катастрофалното забравяне’, при което фината настройка за една задача изтрива знания от предишна.

По същество, ефективността на SLERP произтича от способността му интелигентно да навигира в сложната геометрия на пространството на параметрите на LLM, насърчавайки полезни нелинейни взаимодействия, като същевременно запазва научените структури на знанието. Оптимизирането на използването му обаче изисква внимателно обмисляне на избора на родителски модел, историята на обучението, качеството на данните и потенциално дори фините детайли на самото сливане.

Има ли значение размерът? Изследване на ефектите от мащабирането с по-малки модели

Впечатляващите синергични ефекти, наблюдавани при модели със 7 и 8 милиарда параметри, повдигат естествен въпрос: проявяват ли се тези възникващи способности, отключени от сливането със SLERP, и в много по-малки езикови модели? Или има праг на мащаба, под който магията избледнява?

За да се изследва това, бяха проведени подобни експерименти с помощта на серията модели SmolLM, по-специално вариант само с 1.7 милиарда параметри. Този модел е значително по-малък, което го прави подходящ за среди с ограничени ресурси като мобилни устройства или периферни изчисления, но потенциално му липсва богатството на параметри на по-големите му братовчеди.

Моделите SmolLM преминаха през същия поток: CPT с корпуса по материалознание, последвано от SFT и DPO (което се оказа по-ефективно от ORPO за тази по-малка архитектура). След това беше приложено сливане със SLERP, комбинирайки фино настроения SmolLM с неговата базова версия или други варианти.

Констатациите със SmolLM:

  • Фината настройка все още помага: Потокът CPT-SFT-DPO подобри производителността на модела SmolLM при задачи в домейна спрямо първоначалното му състояние. Самият процес на фина настройка беше полезен, подобрявайки специализираните му знания.
  • Възникването до голяма степен липсва: Въпреки това, за разлика от експериментите с Llama и Mistral, слетите със SLERP модели SmolLM като цяло не показаха значителни синергични ефекти. Тяхната производителност обикновено се доближаваше до просто осредняване на родителските модели или беше само малко по-висока. Драматичните скокове в производителността и ясните признаци на възникващи способности, наблюдавани при моделите 7B/8B, липсваха.

Последици:

Този контраст предполага, че мащабът на модела вероятно е ключов фактор за реализиране на пълния потенциал на сливането със SLERP за генериране на възникващи свойства. По-малките модели, с техните по-малко сложни и по-нискомерни пространства на параметрите, може да нямат представителния капацитет или богатство, необходими за възникването на тези мощни нелинейни взаимодействия по време на сливането. ‘Пространството’ за откриване на нови, полезни комбинации от параметри изглежда значително ограничено в сравнение с по-големите модели.

Тези резултати съответстват на по-широки наблюдения относно законите за мащабиране в дълбокото обучение, където определени качествени способности често се появяват само след като моделите достигнат определен праг на размера. Изглежда, че синергичната сила на сливането със SLERP може да е една такава способност, която зависи критично от достатъчен мащаб и сложност на модела.

Количествено определяне на печалбите: По-внимателен поглед върху повишаването на производителността от сливането

Докато бенчмарковете показват, че слетите модели често се представят най-добре като цяло, е полезно да се определи количествено колко по-добри са те в сравнение с родителите си. По-конкретно, дали слетият модел последователно надминава дори по-силния от двата модела, използвани за създаването му?

За да се анализира това, беше изчислено отклонението в производителността за всеки слят със SLERP модел. Това отклонение беше дефинирано като:

Отклонение в производителността = Производителност(Слят модел) - Макс(Производителност(Родител 1), Производителност(Родител 2))

  • Положително отклонение (визуализирано в нюанси на синьото) означава, че моделът SLERP се е представил по-добре от най-добрия от своите родители – ясно доказателство за синергия.
  • Отрицателно отклонение (визуализирано в червено) означава, че моделът SLERP се е представил по-зле от поне един от своите родители, което показва, че сливането е било вредно или в най-добрия случай осредняващо.

Анализът разкри:

В по-голямата част от експериментите, включващи моделите Llama 3.1 (8B) и Mistral (7B), отклоненията в производителността бяха предимно положителни. В много случаи, особено при добре оптимизираните потоци (напр. тези, включващи CPT, SFT, оптимизация на предпочитанията и SLERP), слетите модели показаха значителни положителни отклонения, което показва, че те значително надминават способностите дори на най-силния си родител.

Имаше случаи, особено при по-малко оптимизирани родителски модели или може би неоптимални параметри на сливане, където отклонението беше леко отрицателно или близо до нула. Въпреки това, общата тенденция беше ясна: стратегическото сливане със SLERP често осигурява истинско повишаване на производителността отвъд това, което всеки от родителските модели би могъл да постигне сам. Това засилва идеята, че сливането не е просто осредняване, а процес, способен да синтезира превъзходни способности. Резултатите от SmolLM (1.7B), за разлика от тях, биха показали много по-малки или отрицателни отклонения, в съответствие с ли