Революция в AI: 1-битов LLM на Microsoft за ефективен GenAI на обикновени процесори
В динамичния пейзаж на изкуствения интелект, новаторско развитие излезе от Microsoft Research, което обещава да предефинира достъпността и ефективността на генеративния AI. В техния скорошен доклад е представена BitNet b1.58 2B4T, водещ голям езиков модел (LLM), отличаващ се със своето естествено обучение с ‘1-битови’ тегла, или по-точно, 1-тритови тегла. Този иновативен подход бележи отклонение от традиционните методи, които разчитат на квантуване на модели, първоначално обучени с пълна точност.
Преодоляване на ограниченията на традиционните LLM
Конвенционалните LLM, въпреки забележителната си производителност, се борят със значителни бариери, които възпрепятстват широкото им приемане. Тези ограничения произтичат основно от техните големи обеми памет, значителна консумация на енергия и забележима латентност на заключение. Следователно, разгръщането на тези модели на крайни устройства, в среда с ограничени ресурси и за приложения в реално време става непрактично.
За да смекчи тези предизвикателства, AI общността все повече се фокусира върху проучването на квантувани модели. Тези модели са получени от пълноценни аналози чрез конвертиране на техните тегла във формат с по-ниска битова стойност. Докато квантуването предлага начин за намаляване на размера на модела и изчислителните нужди, то често идва на цената на загуба на точност, потенциално компрометирайки точността на модела и общата производителност.
Архитектурата BitNet b1.58 2B4T
BitNet b1.58 2B4T представлява промяна в парадигмата в дизайна на LLM, заобикаляйки загубата на точност, свързана с квантуването, чрез обучение на модела от нулата, използвайки 1-битови тегла. Този подход позволява на модела да запази предимствата на по-малките тегла, включително намален обем памет и по-ниски изчислителни разходи.
Изследователите на Microsoft се заеха с това амбициозно начинание, като обучиха BitNet b1.58 2B4T на масивен корпус от 4 трилиона токена. Този обширен набор от данни за обучение гарантира, че моделът може ефективно да научи сложни езикови модели и да развие цялостно разбиране на нюансите на човешката комуникация.
Оценка на производителността и бенчмаркинг
За да оцени ефикасността на BitNet b1.58 2B4T, Microsoft проведе строги бенчмаркове, сравнявайки неговата производителност с водещи модели с отворени тегла и пълна точност с подобен размер. Резултатите разкриха, че новият модел се представя сравнително добре в широк спектър от задачи, обхващащи разбиране и разсъждение на езика, световни знания, разбиране при четене, математика и код, и следване на инструкции и разговор.
Тези констатации подчертават потенциала на 1-битовите LLM да постигнат паритет на производителността със своите пълноценни аналози, като същевременно предлагат значителни предимства по отношение на ефективността и използването на ресурсите.
Ключови архитектурни иновации
В сърцето на BitNet b1.58 2B4T лежи неговата иновативна архитектура, която заменя стандартните линейни слоеве с пълна точност с персонализирани BitLinear слоеве. Тези слоеве използват 1.58-битови представяния, за да кодират тегла като троични стойности (trits) по време на преминаването напред.
Използването на троични стойности, представени като {-1, 0, +1}, позволява драстично намаляване на размера на модела и улеснява ефективни математически операции. Това се постига чрез схема за квантуване на абсолютната средна стойност (absmean
), която картографира теглата към тези троични стойности.
В допълнение към BitLinear слоевете, BitNet b1.58 2B4T включва няколко установени LLM техники, като например квадратни ReLU функции за активиране, ротационни позиционни вграждания и премахване на член на отклонение. Тези техники допълнително допринасят за намаляване на размера на модела и подобряване на стабилността на обучението.
Подобряване на стабилността и ефективността на обучението
Две допълнителни техники, използвани в BitLinear слоевете - квантуване на активирането и нормализиране - играят решаваща роля за намаляване на размера на модела и повишаване на стабилността на обучението. Квантуването на активирането намалява прецизността на активирането, докато техниките за нормализиране помагат да се предотврати активирането да стане твърде голямо или твърде малко.
Тези техники, комбинирани с използването на 1-битови тегла, позволяват BitNet b1.58 2B4T да бъде обучен по-ефективно и резултатно, дори върху големи набори от данни.
Методологии за обучение
За обучението BitNet b1.58 2B4T използва три ключови техники: мащабно предварително обучение, контролирано фино настройване и директна оптимизация на предпочитанията.
Мащабно предварително обучение
Тази начална фаза включва обучение на модела върху масивен набор от данни от текст и код, което му позволява да научи общи езикови модели и да развие широко разбиране за света.
Контролирано фино настройване
В тази фаза моделът е фино настроен върху по-малък, по-специфичен набор от данни, пригоден за конкретна задача или домейн. Това позволява на модела да адаптира своите знания и умения към специфичните изисквания на задачата.
Директна оптимизация на предпочитанията
Тази техника включва обучение на модела да се оптимизира директно за човешките предпочитания, изразени чрез обратна връзка или оценки. Това помага да се гарантира, че резултатите на модела са в съответствие с човешките ценности и очаквания.
Изследователите отбелязват, че по-модерни техники, като Proximal Policy Optimization или Group Relative Policy Optimization, ще бъдат проучени в бъдеще, за да се подобрят математическите възможности и разсъжденията по веригата на мисълта.
Библиотеката за заключение Bitnet.cpp
Като се има предвид уникалната схема за квантуване на BitNet b1.58 2B4T, моделът не може да се използва със стандартни библиотеки за дълбоко обучение като llama.cpp и изисква специализирано ядро. За да се справи с това предизвикателство, Microsoft е разработил специализирана библиотека за заключение с отворен код, bitnet.cpp.
bitnet.cpp служи като официална рамка за заключение за 1-битови LLM, като BitNet b1.58. Той предлага набор от оптимизирани ядра, които поддържат бързо и без загуби заключение на 1.58-битови модели на процесори, с планове да се разшири поддръжката към NPU и GPU в бъдеще.
Тази библиотека за заключение е от решаващо значение за позволяване на разгръщането на BitNet b1.58 2B4T на по-широк кръг от устройства и платформи, което го прави по-достъпен за разработчици и изследователи.
Бъдещи насоки на изследване
Изследователите признават, че настоящият GPU хардуер не е оптимизиран за 1-битови модели и че допълнителни печалби в производителността могат да бъдат постигнати чрез включване на специализирана логика за нискобитови операции. Това предполага, че бъдещите хардуерни архитектури могат да бъдат специално проектирани да поддържат 1-битови LLM, което води до още по-голяма ефективност и производителност.
В допълнение към хардуерните оптимизации, бъдещите насоки на изследване включват обучение на по-големи модели, добавяне на многоезични възможности и мултимодална интеграция и разширяване на дължината на контекстното прозорец. Тези постижения допълнително ще подобрят възможностите и гъвкавостта на BitNet b1.58 2B4T и други 1-битови LLM.
Последици и потенциално въздействие
Разработването на BitNet b1.58 2B4T има значителни последици за бъдещето на AI, особено в сферата на генеративния AI. Като демонстрира, че е възможно да се обучат високоефективни LLM, използвайки само 1-битови тегла, Microsoft отвори нови възможности за създаване на по-ефективни и достъпни AI системи.
Този пробив може да доведе до разгръщането на AI модели на по-широк кръг от устройства, включително смартфони, IoT устройства и други платформи с ограничени ресурси. Той може също така да даде възможност за разработване на по-енергийно ефективни AI системи, намалявайки тяхното въздействие върху околната среда.
Освен това, възможността за обучение на LLM с 1-битови тегла може да улесни персонализирането и персонализирането на AI модели за конкретни приложения. Това може да доведе до разработването на по-ефективни и удобни за потребителя AI системи, които са съобразени с уникалните нужди на отделните потребители и организации.
Заключение
BitNet b1.58 2B4T на Microsoft представлява значителна стъпка напред в стремежа към по-ефективен и достъпен AI. Като демонстрира, че е възможно да се обучат високоефективни LLM, използвайки само 1-битови тегла, Microsoft оспори конвенционалната мъдрост и отвори нови възможности за бъдещето на AI.
Тъй като изследванията в тази област продължават, можем да очакваме да видим още по-иновативни приложения на 1-битови LLM, водещи до бъдеще, в което AI е по-разпространен, ефективен и полезен за обществото като цяло.