Нова архитектура за интегриране на знания
Изследователският отдел на Microsoft разработи новаторски метод за интегриране на външни знания в големи езикови модели (LLMs). Тази иновативна система, наречена Knowledge Base-Augmented Language Models (KBLaM), възприема философията “plug-and-play”, елиминирайки необходимостта от промяна на съществуващите модели. Това представлява значително отклонение от конвенционалните техники, предлагайки по-опростен и ефективен подход за обогатяване на знанията.
Отклонение от традиционните методи
Настоящите методологии, като Retrieval-Augmented Generation (RAG) и In-Context Learning, обикновено разчитат на отделни механизми за извличане за достъп и включване на външна информация. KBLaM, за разлика от тях, избягва тези външни системи. Той гениално трансформира знанията във векторни двойки, безпроблемно вплитайки ги в основната архитектура на модела чрез нова техника, която Microsoft нарича “правоъгълно внимание”.
Тази директна интеграция на знания в самия модел, заобикаляйки външните процеси на извличане, води до значително по-бързи и по-ефективни отговори. Това е ключово предимство пред традиционните системи, които често страдат от забавяне и изчислителни разходи поради необходимостта от запитвания към външни бази данни.
Справяне с проблема с квадратичното мащабиране
Съществуващите RAG системи често са възпрепятствани от проблем с квадратичното мащабиране, присъщо следствие от техния механизъм за самовнимание. Този механизъм изисква всеки токен да взаимодейства с всеки друг токен, което води до експоненциално нарастване на изчислителните изисквания с нарастването на размера на входа.
За илюстрация, представете си сценарий, при който 1000 токена от база знания се въвеждат в контекста. След това моделът е принуден да обработи зашеметяващите един милион двойки токени. Ако броят на токените се увеличи до 10 000, изчислителната тежест експлодира до 100 милиона взаимодействия. Това квадратично мащабиране бързо се превръща в пречка, ограничавайки практическата приложимост на RAG системите с големи бази знания.
Ефективността на правоъгълното внимание
KBLaM елегантно заобикаля това изчислително блато. Неговият иновативен механизъм за “правоъгълно внимание” позволява на входа на потребителя да има достъп до всички токени на знанието, но най-важното е, че тези токени на знанието не взаимодействат помежду си или с входа. Този стратегически избор на дизайн има дълбоки последици за мащабируемостта.
С разширяването на базата знания необходимата изчислителна мощност се увеличава само линейно, рязък контраст с квадратичното мащабиране на традиционните методи. Изследователите зад KBLaM твърдят, че един единствен GPU може удобно да обработва над 10 000 тройки знания, което се превежда в приблизително 200 000 токена. Това представлява значителен скок напред в ефективността на интегрирането на знания.
Обещаващи експериментални резултати
Първоначалното тестване на KBLaM даде обнадеждаващи резултати. В експерименти, включващи приблизително 200 елемента на знанието, KBLaM демонстрира превъзходна способност за смекчаване на халюцинациите – генерирането на невярна или безсмислена информация – в сравнение с конвенционалните модели.
Освен това KBLaM проявява по-голяма склонност да се въздържа от отговор на въпроси, за които няма достатъчно информация. Тази “епистемична скромност” е желана черта в LLMs, тъй като насърчава точността и надеждността.
Друго забележително предимство на KBLaM е неговата подобрена прозрачност. За разлика от обучението в контекст, KBLaM може лесно да свърже конкретни елементи на знанието със съответните токени, осигурявайки по-голяма представа за процеса на разсъждение на модела.
Наличност с отворен код и бъдещи насоки
Кодът и наборите от данни, които са в основата на KBLaM, са публично достъпни в GitHub, насърчавайки сътрудничеството и по-нататъшни изследвания в общността. Системата е проектирана да бъде съвместима с няколко широко използвани модела, включително Llama 3 на Meta и Phi-3 на Microsoft. Има и планове за разширяване на поддръжката за Hugging Face Transformers, популярна платформа за изграждане и внедряване на LLMs.
Въпреки че първоначалните резултати са обещаващи, изследователите подчертават, че KBLaM все още не е узрял за широко разпространение. Той се отличава с обработката на прости сценарии с въпроси и отговори, но е необходимо по-нататъшно развитие, за да се справи с по-сложни задачи за разсъждение.
Парадоксът на контекстните прозорци и възходът на RAG
LLMs са изправени пред очарователен парадокс: техните контекстни прозорци – количеството информация, което могат да обработват наведнъж – непрекъснато се разширяват, но надеждната обработка на този нарастващ обем от данни остава огромно предизвикателство.
Това предизвикателство изведе Retrieval-Augmented Generation (RAG) на преден план като предпочитано решение за инжектиране на специфична информация в модели с разумна степен на надеждност. RAG системите действат като посредници, извличайки релевантна информация от външни източници и подавайки я в LLM, като по този начин подобряват неговите знания и точност.
KBLaM: Потенциална промяна на парадигмата
KBLaM обаче представя убедителна алтернатива, предлагайки потенциално по-ефективен и елегантен път напред. Чрез директно интегриране на знания в архитектурата на модела, KBLaM предлага перспективата за по-бързи, по-мащабируеми и по-прозрачни LLMs, обогатени със знания.
По-дълбоко вникване в механиката на KBLaM
Основната иновация на KBLaM се крие в неговия механизъм за “правоъгълно внимание”. За да разберем това, е полезно първо да разгледаме стандартния механизъм за самовнимание, използван от много LLMs.
При самовниманието всеки токен във входната последователност обръща внимание на всеки друг токен, включително и на себе си. Това позволява на модела да улавя връзки между различни части на входа, но също така води до проблема с квадратичното мащабиране, споменат по-рано.
Правоъгълното внимание, за разлика от това, разделя процеса на внимание на две отделни части:
- Внимание на потребителския вход: Входът на потребителя обръща внимание на всички токени на знанието, позволявайки на модела да има достъп до съответната информация от базата знания.
- Внимание на токените на знанието: Токените на знанието не обръщат внимание един на друг или на входа на потребителя. Това е ключът към ефективността на KBLaM.
Чрез предотвратяване на взаимодействията между токените на знанието, KBLaM драстично намалява броя на необходимите изчисления. Това позволява на модела да се мащабира линейно с размера на базата знания, което прави възможно включването на огромни количества външна информация.
Ползите от директната интеграция на знания
Директната интеграция на знания в архитектурата на модела предлага няколко предимства:
- Намалено забавяне: Тъй като KBLaM не разчита на външни системи за извличане, той може да реагира много по-бързо от моделите, базирани на RAG.
- Подобрена ефективност: Линейното мащабиране на KBLaM го прави значително по-изчислително ефективен от традиционните методи.
- Подобрена прозрачност: KBLaM може да свърже знанията с конкретни токени, което улеснява разбирането как моделът е стигнал до своя отговор.
- Намалени халюцинации: KBLaM показа по-голяма способност да избягва генерирането на невярна или безсмислена информация.
Ограничения и бъдещи изследвания
Въпреки че KBLaM представлява значителен напредък, важно е да се признаят настоящите му ограничения:
- Сложно разсъждение: KBLaM в момента е най-подходящ за прости задачи с въпроси и отговори. Необходими са повече изследвания, за да се разширят възможностите му до по-сложни сценарии за разсъждение.
- Представяне на знания: Настоящото изпълнение на KBLaM използва тройки знания, които може да не са подходящи за всички видове знания. Проучването на алтернативни формати за представяне на знания е област за бъдеща работа.
- Внедряване в реалния свят: KBLaM все още е изследователски проект и все още не е готов за широко разпространение. Необходими са допълнителни тестове и усъвършенстване, преди да може да се използва в реални приложения.
По-широкото въздействие върху областта на изкуствения интелект
Развитието на KBLaM има значителни последици за по-широката област на изкуствения интелект. Той представлява стъпка към създаването на LLMs, които са не само мощни, но и:
- По-информирани: Чрез ефективно интегриране на огромни количества външни знания, KBLaM може да подобри фактическата точност и изчерпателност на LLMs.
- По-надеждни: Намаленият процент на халюцинации и повишената прозрачност на KBLaM допринасят за по-голяма надеждност и достоверност.
- По-мащабируеми: Линейното мащабиране на KBLaM отваря възможности за изграждане на LLMs, които могат да обработват наистина огромни количества информация.
Продължаващите изследвания и разработки на KBLaM и подобни подходи обещават да заличат още повече границите между LLMs и базите знания, проправяйки пътя за ново поколение AI системи, които са едновременно интелигентни и дълбоко информирани. Отвореният характер на проекта насърчава сътрудничеството и ускорява темпото на иновациите в тази вълнуваща област.