Nowe podejście do wiedzy w LLM

Nowa architektura integracji wiedzy

Dział badawczy firmy Microsoft opracował przełomową metodę integracji zewnętrznej wiedzy z dużymi modelami językowymi (LLM). Ten innowacyjny system, nazwany Knowledge Base-Augmented Language Models (KBLaM), przyjmuje filozofię ‘plug-and-play’, eliminując potrzebę modyfikacji istniejących modeli. Stanowi to znaczące odejście od konwencjonalnych technik, oferując bardziej usprawnione i wydajne podejście do wzbogacania wiedzy.

Odejście od tradycyjnych metod

Obecne metodologie, takie jak Retrieval-Augmented Generation (RAG) i In-Context Learning, zazwyczaj opierają się na oddzielnych mechanizmach pobierania w celu uzyskania dostępu i włączenia informacji zewnętrznych. KBLaM, w przeciwieństwie do nich, unika tych zewnętrznych systemów. W genialny sposób przekształca wiedzę w pary wektorów, płynnie wplatając je w podstawową architekturę modelu za pomocą nowatorskiej techniki, którą Microsoft określa mianem ‘rectangular attention’.

Ta bezpośrednia integracja wiedzy w samym modelu, z pominięciem zewnętrznych procesów pobierania, skutkuje znacznie szybszymi i wydajniejszymi odpowiedziami. Jest to kluczowa przewaga nad tradycyjnymi systemami, które często cierpią z powodu opóźnień i obciążenia obliczeniowego ze względu na konieczność wysyłania zapytań do zewnętrznych baz danych.

Rozwiązanie problemu skalowania kwadratowego

Istniejące systemy RAG są często ograniczane przez problem skalowania kwadratowego, nieodłączną konsekwencję ich mechanizmu samo-uwagi (self-attention). Mechanizm ten wymaga, aby każdy token wchodził w interakcję z każdym innym tokenem, co prowadzi do wykładniczego wzrostu wymagań obliczeniowych wraz ze wzrostem rozmiaru danych wejściowych.

Aby to zilustrować, rozważmy scenariusz, w którym 1000 tokenów z bazy wiedzy jest wprowadzanych do kontekstu. Model jest wtedy zmuszony do przetworzenia oszałamiającego miliona par tokenów. Jeśli liczba tokenów wzrośnie do 10 000, obciążenie obliczeniowe eksploduje do 100 milionów interakcji. To kwadratowe skalowanie szybko staje się wąskim gardłem, ograniczając praktyczne zastosowanie systemów RAG z dużymi bazami wiedzy.

Wydajność ‘Rectangular Attention’

KBLaM elegancko omija to obliczeniowe bagno. Jego innowacyjny mechanizm ‘rectangular attention’ pozwala danym wejściowym użytkownika na dostęp do wszystkich tokenów wiedzy, ale co najważniejsze, te tokeny wiedzy nie wchodzą w interakcje między sobą ani z danymi wejściowymi. Ten strategiczny wybór projektowy ma głębokie implikacje dla skalowalności.

Wraz z rozszerzaniem się bazy wiedzy wymagana moc obliczeniowa wzrasta tylko liniowo, co stanowi wyraźny kontrast z kwadratowym skalowaniem tradycyjnych metod. Naukowcy stojący za KBLaM twierdzą, że pojedynczy procesor graficzny (GPU) może wygodnie obsłużyć ponad 10 000 trójek wiedzy, co przekłada się na około 200 000 tokenów. Stanowi to znaczący krok naprzód w wydajności integracji wiedzy.

Obiecujące wyniki eksperymentalne

Wstępne testy KBLaM przyniosły zachęcające wyniki. W eksperymentach obejmujących około 200 elementów wiedzy KBLaM wykazał lepszą zdolność do łagodzenia halucynacji – generowania fałszywych lub bezsensownych informacji – w porównaniu z konwencjonalnymi modelami.

Ponadto KBLaM wykazywał większą skłonność do powstrzymywania się od odpowiadania na pytania, na które nie miał wystarczających informacji. Ta ‘epistemiczna pokora’ jest pożądaną cechą w LLM, ponieważ promuje dokładność i wiarygodność.

Kolejną godną uwagi zaletą KBLaM jest jego zwiększona transparentność. W przeciwieństwie do uczenia się w kontekście (in-context learning), KBLaM może łatwo łączyć określone elementy wiedzy z odpowiadającymi im tokenami, zapewniając lepszy wgląd w proces rozumowania modelu.

Dostępność Open Source i przyszłe kierunki

Kod i zbiory danych leżące u podstaw KBLaM zostały udostępnione publicznie na GitHub, wspierając współpracę i dalsze badania w społeczności. System został zaprojektowany tak, aby był kompatybilny z kilkoma szeroko stosowanymi modelami, w tym Llama 3 firmy Meta i Phi-3 firmy Microsoft. Istnieją również plany rozszerzenia wsparcia na Hugging Face Transformers, popularną platformę do budowania i wdrażania LLM.

Chociaż wstępne wyniki są obiecujące, naukowcy podkreślają, że KBLaM nie jest jeszcze gotowy do szerokiego wdrożenia. Doskonale radzi sobie z prostymi scenariuszami pytań i odpowiedzi, ale wymagany jest dalszy rozwój, aby sprostać bardziej złożonym zadaniom rozumowania.

Paradoks okien kontekstowych i wzrost popularności RAG

LLM stoją w obliczu fascynującego paradoksu: ich okna kontekstowe – ilość informacji, które mogą przetwarzać jednocześnie – stale się powiększają, ale niezawodne przetwarzanie tej rosnącej ilości danych pozostaje ogromnym wyzwaniem.

To wyzwanie sprawiło, że Retrieval-Augmented Generation (RAG) stał się preferowanym rozwiązaniem do wprowadzania określonych informacji do modeli z rozsądnym stopniem niezawodności. Systemy RAG działają jako pośrednicy, pobierając istotne informacje ze źródeł zewnętrznych i przekazując je do LLM, zwiększając w ten sposób jego wiedzę i dokładność.

KBLaM: Potencjalna zmiana paradygmatu

Jednak KBLaM stanowi atrakcyjną alternatywę, sugerując potencjalnie bardziej wydajną i elegancką drogę naprzód. Poprzez bezpośrednią integrację wiedzy z architekturą modelu, KBLaM oferuje perspektywę szybszych, bardziej skalowalnych i bardziej transparentnych LLM wzbogaconych o wiedzę.

Głębsze spojrzenie na mechanikę KBLaM

Podstawową innowacją KBLaM jest mechanizm ‘rectangular attention’. Aby to zrozumieć, warto najpierw rozważyć standardowy mechanizm samo-uwagi (self-attention) stosowany przez wiele LLM.

W mechanizmie samo-uwagi każdy token w sekwencji wejściowej zwraca uwagę na każdy inny token, w tym na siebie. Pozwala to modelowi uchwycić relacje między różnymi częściami danych wejściowych, ale prowadzi również do wspomnianego wcześniej problemu skalowania kwadratowego.

‘Rectangular attention’, w przeciwieństwie do tego, dzieli proces uwagi na dwie odrębne części:

  1. Uwaga danych wejściowych użytkownika: Dane wejściowe użytkownika zwracają uwagę na wszystkie tokeny wiedzy, umożliwiając modelowi dostęp do istotnych informacji z bazy wiedzy.
  2. Uwaga tokenów wiedzy: Tokeny wiedzy nie zwracają uwagi na siebie nawzajem ani na dane wejściowe użytkownika. To jest klucz do wydajności KBLaM.

Zapobiegając interakcjom między tokenami wiedzy, KBLaM drastycznie zmniejsza liczbę wymaganych obliczeń. Pozwala to modelowi skalować się liniowo wraz z rozmiarem bazy wiedzy, umożliwiając włączenie ogromnych ilości informacji zewnętrznych.

Korzyści z bezpośredniej integracji wiedzy

Bezpośrednia integracja wiedzy z architekturą modelu oferuje kilka korzyści:

  • Zmniejszone opóźnienie: Ponieważ KBLaM nie polega na zewnętrznych systemach pobierania, może reagować znacznie szybciej niż modele oparte na RAG.
  • Poprawiona wydajność: Liniowe skalowanie KBLaM sprawia, że jest on znacznie bardziej wydajny obliczeniowo niż tradycyjne metody.
  • Zwiększona transparentność: KBLaM może łączyć wiedzę z określonymi tokenami, ułatwiając zrozumienie, w jaki sposób model doszedł do swojej odpowiedzi.
  • Zmniejszone halucynacje: KBLaM wykazał większą zdolność do unikania generowania fałszywych lub bezsensownych informacji.

Ograniczenia i przyszłe badania

Chociaż KBLaM stanowi znaczący postęp, należy pamiętać o jego obecnych ograniczeniach:

  • Złożone rozumowanie: KBLaM jest obecnie najlepiej przystosowany do prostych zadań pytań i odpowiedzi. Potrzebne są dalsze badania, aby rozszerzyć jego możliwości na bardziej złożone scenariusze rozumowania.
  • Reprezentacja wiedzy: Obecna implementacja KBLaM wykorzystuje trójki wiedzy, które mogą nie być odpowiednie dla wszystkich typów wiedzy. Badanie alternatywnych formatów reprezentacji wiedzy jest obszarem przyszłych prac.
  • Wdrożenie w świecie rzeczywistym: KBLaM jest nadal projektem badawczym i nie jest jeszcze gotowy do szerokiego wdrożenia. Wymagane są dalsze testy i udoskonalenia, zanim będzie można go używać w rzeczywistych zastosowaniach.

Szerszy wpływ na dziedzinę sztucznej inteligencji

Rozwój KBLaM ma znaczące implikacje dla szerszej dziedziny sztucznej inteligencji. Stanowi krok w kierunku tworzenia LLM, które są nie tylko potężne, ale także:

  • Bardziej kompetentne: Dzięki wydajnej integracji ogromnych ilości wiedzy zewnętrznej KBLaM może zwiększyć dokładność faktograficzną i wszechstronność LLM.
  • Bardziej niezawodne: Zmniejszony wskaźnik halucynacji i zwiększona transparentność KBLaM przyczyniają się do większej niezawodności i wiarygodności.
  • Bardziej skalowalne: Liniowe skalowanie KBLaM otwiera możliwości budowania LLM, które mogą obsługiwać naprawdę ogromne ilości informacji.

Trwające badania i rozwój KBLaM i podobnych podejść obiecują dalsze zacieranie granic między LLM a bazami wiedzy, torując drogę dla nowej generacji systemów AI, które są zarówno inteligentne, jak i dogłębnie poinformowane. Otwartoźródłowy charakter projektu zachęca do współpracy i przyspiesza tempo innowacji w tej ekscytującej dziedzinie.