Новый подход к знаниям в LLM

Новая архитектура для интеграции знаний

Исследовательское подразделение Microsoft разработало новаторский метод интеграции внешних знаний в большие языковые модели (LLM). Эта инновационная система, получившая название Knowledge Base-Augmented Language Models (KBLaM), использует философию ‘plug-and-play’, устраняя необходимость изменения существующих моделей. Это представляет собой значительный отход от традиционных методов, предлагая более рациональный и эффективный подход к расширению знаний.

Отход от традиционных методов

Современные методологии, такие как Retrieval-Augmented Generation (RAG) и In-Context Learning, обычно полагаются на отдельные механизмы извлечения для доступа и включения внешней информации. KBLaM, напротив, избегает этих внешних систем. Он гениально преобразует знания в векторные пары, плавно вплетая их в основную архитектуру модели с помощью новой техники, которую Microsoft называет ‘прямоугольным вниманием’.

Эта прямая интеграция знаний в саму модель, минуя процессы внешнего извлечения, приводит к заметно более быстрым и эффективным ответам. Это является ключевым преимуществом перед традиционными системами, которые часто страдают от задержек и вычислительных издержек из-за необходимости запрашивать внешние базы данных.

Решение проблемы квадратичного масштабирования

Существующие системы RAG часто сталкиваются с проблемой квадратичного масштабирования, что является неотъемлемым следствием их механизма самовнимания (self-attention). Этот механизм требует, чтобы каждый токен взаимодействовал с каждым другим токеном, что приводит к экспоненциальному увеличению вычислительных требований по мере роста размера входных данных.

Для иллюстрации рассмотрим сценарий, когда 1000 токенов из базы знаний вводятся в контекст. Модель вынуждена обрабатывать ошеломляющий миллион пар токенов. Если количество токенов увеличивается до 10 000, вычислительная нагрузка возрастает до 100 миллионов взаимодействий. Это квадратичное масштабирование быстро становится узким местом, ограничивая практическую применимость систем RAG с большими базами знаний.

Эффективность прямоугольного внимания

KBLaM элегантно обходит эту вычислительную трясину. Его инновационный механизм ‘прямоугольного внимания’ позволяет вводу пользователя получать доступ ко всем токенам знаний, но, что особенно важно, эти токены знаний не взаимодействуют друг с другом или с вводом. Этот стратегический выбор дизайна имеет серьезные последствия для масштабируемости.

По мере расширения базы знаний требуемая вычислительная мощность увеличивается только линейно, что резко контрастирует с квадратичным масштабированием традиционных методов. Исследователи, стоящие за KBLaM, утверждают, что один графический процессор (GPU) может с комфортом обрабатывать более 10 000 троек знаний, что соответствует примерно 200 000 токенов. Это представляет собой значительный шаг вперед в эффективности интеграции знаний.

Многообещающие результаты экспериментов

Первоначальное тестирование KBLaM дало обнадеживающие результаты. В экспериментах с участием примерно 200 элементов знаний KBLaM продемонстрировал превосходную способность смягчать галлюцинации — генерацию ложной или бессмысленной информации — по сравнению с обычными моделями.

Кроме того, KBLaM проявил большую склонность воздерживаться от ответа на вопросы, для которых у него не было достаточной информации. Это ‘эпистемическое смирение’ является желательной чертой в LLM, поскольку оно способствует точности и надежности.

Еще одним заметным преимуществом KBLaM является его повышенная прозрачность. В отличие от In-Context Learning, KBLaM может легко связывать конкретные элементы знаний с соответствующими токенами, обеспечивая более глубокое понимание процесса рассуждений модели.

Доступность открытого исходного кода и будущие направления

Код и наборы данных, лежащие в основе KBLaM, были опубликованы в открытом доступе на GitHub, что способствует сотрудничеству и дальнейшим исследованиям в сообществе. Система разработана для совместимости с несколькими широко используемыми моделями, включая Llama 3 от Meta и Phi-3 от Microsoft. Также планируется расширить поддержку Hugging Face Transformers, популярной платформы для создания и развертывания LLM.

Хотя первоначальные результаты являются многообещающими, исследователи подчеркивают, что KBLaM еще не готов к широкому развертыванию. Он превосходно справляется с простыми сценариями вопросов и ответов, но требуется дальнейшая разработка для решения более сложных задач рассуждений.

Парадокс контекстных окон и рост RAG

LLM сталкиваются с увлекательным парадоксом: их контекстные окна — объем информации, которую они могут обрабатывать одновременно, — постоянно расширяются, но надежная обработка этого растущего объема данных остается сложной задачей.

Эта проблема выдвинула Retrieval-Augmented Generation (RAG) на передний план в качестве предпочтительного решения для внедрения конкретной информации в модели с разумной степенью надежности. Системы RAG действуют как посредники, извлекая релевантную информацию из внешних источников и передавая ее в LLM, тем самым повышая его знания и точность.

KBLaM: потенциальный сдвиг парадигмы

Однако KBLaM представляет собой убедительную альтернативу, предлагая потенциально более эффективный и элегантный путь вперед. Благодаря прямой интеграции знаний в архитектуру модели, KBLaM предлагает перспективу более быстрых, масштабируемых и прозрачных LLM, обогащенных знаниями.

Более глубокое погружение в механику KBLaM

Основная инновация KBLaM заключается в его механизме ‘прямоугольного внимания’. Чтобы понять это, полезно сначала рассмотреть стандартный механизм самовнимания, используемый многими LLM.

В механизме самовнимания каждый токен во входной последовательности обращает внимание на каждый другой токен, включая себя. Это позволяет модели улавливать отношения между различными частями входных данных, но также приводит к проблеме квадратичного масштабирования, упомянутой ранее.

Прямоугольное внимание, напротив, делит процесс внимания на две отдельные части:

  1. Внимание ввода пользователя: Ввод пользователя обращает внимание на все токены знаний, позволяя модели получить доступ к релевантной информации из базы знаний.
  2. Внимание токенов знаний: Токены знаний не обращают внимание друг на друга или на ввод пользователя. Это ключ к эффективности KBLaM.

Предотвращая взаимодействие между токенами знаний, KBLaM резко сокращает количество необходимых вычислений. Это позволяет модели масштабироваться линейно с размером базы знаний, что делает возможным включение огромных объемов внешней информации.

Преимущества прямой интеграции знаний

Прямая интеграция знаний в архитектуру модели предлагает несколько преимуществ:

  • Снижение задержки: Поскольку KBLaM не полагается на внешние системы извлечения, он может отвечать намного быстрее, чем модели на основе RAG.
  • Повышенная эффективность: Линейное масштабирование KBLaM делает его значительно более эффективным с точки зрения вычислений, чем традиционные методы.
  • Повышенная прозрачность: KBLaM может связывать знания с конкретными токенами, что упрощает понимание того, как модель пришла к своему ответу.
  • Уменьшение галлюцинаций: KBLaM продемонстрировал большую способность избегать генерации ложной или бессмысленной информации.

Ограничения и будущие исследования

Хотя KBLaM представляет собой значительный прогресс, важно признать его текущие ограничения:

  • Сложные рассуждения: KBLaM в настоящее время лучше всего подходит для простых задач вопросов и ответов. Необходимы дополнительные исследования, чтобы расширить его возможности до более сложных сценариев рассуждений.
  • Представление знаний: Текущая реализация KBLaM использует тройки знаний, которые могут не подходить для всех типов знаний. Изучение альтернативных форматов представления знаний является областью для будущей работы.
  • Развертывание в реальном мире: KBLaM все еще является исследовательским проектом и еще не готов к широкому развертыванию. Прежде чем его можно будет использовать в реальных приложениях, требуются дальнейшие испытания и доработка.

Более широкое влияние на область искусственного интеллекта

Разработка KBLaM имеет значительные последствия для более широкой области искусственного интеллекта. Она представляет собой шаг к созданию LLM, которые не только мощны, но и:

  • Более осведомлены: Благодаря эффективной интеграции огромных объемов внешних знаний, KBLaM может повысить фактическую точность и полноту LLM.
  • Более надежны: Снижение частоты галлюцинаций и повышенная прозрачность KBLaM способствуют большей надежности и достоверности.
  • Более масштабируемы: Линейное масштабирование KBLaM открывает возможности для создания LLM, которые могут обрабатывать действительно огромные объемы информации.

Продолжающиеся исследования и разработки KBLaM и аналогичных подходов обещают еще больше стереть границы между LLM и базами знаний, прокладывая путь для нового поколения систем искусственного интеллекта, которые являются одновременно интеллектуальными и глубоко информированными. Открытый исходный код проекта способствует сотрудничеству и ускоряет темпы инноваций в этой захватывающей области.