지식을 LLM에 주입하는 새로운 접근법

지식 통합을 위한 새로운 아키텍처

Microsoft의 연구 부서는 대규모 언어 모델(LLM)에 외부 지식을 통합하는 획기적인 방법인 Knowledge Base-Augmented Language Models (KBLaM) 시스템을 개척했습니다. 이 혁신적인 시스템은 ‘플러그 앤 플레이’ 철학을 채택하여 기존 모델을 변경할 필요가 없습니다. 이는 기존 기술에서 크게 벗어나 지식 향상을 위한 보다 간소화되고 효율적인 접근 방식을 제공합니다.

기존 방법과의 차별점

Retrieval-Augmented Generation (RAG) 및 In-Context Learning과 같은 현재 방법론은 일반적으로 외부 정보에 접근하고 통합하기 위해 별도의 검색 메커니즘에 의존합니다. 반면 KBLaM은 이러한 외부 시스템을 사용하지 않습니다. KBLaM은 지식을 벡터 쌍으로 변환하여 Microsoft가 ‘rectangular attention’이라고 부르는 새로운 기술을 통해 모델의 핵심 아키텍처에 매끄럽게 통합합니다.

외부 검색 프로세스를 거치지 않고 모델 자체에 지식을 직접 통합함으로써 훨씬 빠르고 효율적인 응답을 얻을 수 있습니다. 이는 외부 데이터베이스를 쿼리해야 하기 때문에 지연 시간과 계산 오버헤드가 발생하는 기존 시스템에 비해 주요 이점입니다.

2차 스케일링 문제 해결

기존 RAG 시스템은 self-attention 메커니즘의 고유한 결과인 2차 스케일링 문제로 인해 어려움을 겪는 경우가 많습니다. 이 메커니즘은 모든 토큰이 다른 모든 토큰과 상호 작용해야 하므로 입력 크기가 커짐에 따라 계산 요구량이 기하급수적으로 증가합니다.

예를 들어, 지식 베이스에서 1,000개의 토큰이 컨텍스트에 도입되는 시나리오를 생각해 보겠습니다. 그러면 모델은 백만 개의 토큰 쌍을 처리해야 합니다. 토큰 수가 10,000개로 증가하면 계산 부담은 1억 번의 상호 작용으로 폭증합니다. 이러한 2차 스케일링은 빠르게 병목 현상이 되어 대규모 지식 베이스를 사용하는 RAG 시스템의 실제 적용 가능성을 제한합니다.

Rectangular Attention의 효율성

KBLaM은 이러한 계산상의 난제를 우아하게 해결합니다. 혁신적인 ‘rectangular attention’ 메커니즘은 사용자의 입력이 모든 지식 토큰에 접근할 수 있도록 하지만, 결정적으로 이러한 지식 토큰은 서로 또는 입력과 상호 작용하지 않습니다. 이러한 전략적 설계 선택은 확장성에 큰 영향을 미칩니다.

지식 베이스가 확장됨에 따라 필요한 계산 능력은 선형적으로만 증가하며, 이는 기존 방법의 2차 스케일링과 극명한 대조를 이룹니다. KBLaM 연구진은 단일 GPU가 10,000개 이상의 지식 트리플(약 200,000개의 토큰)을 편안하게 처리할 수 있다고 주장합니다. 이는 지식 통합 효율성에서 상당한 도약을 의미합니다.

유망한 실험 결과

KBLaM의 초기 테스트는 고무적인 결과를 낳았습니다. 약 200개의 지식 항목을 포함하는 실험에서 KBLaM은 기존 모델에 비해 환각(거짓 또는 터무니없는 정보 생성)을 완화하는 능력이 더 뛰어난 것으로 나타났습니다.

또한 KBLaM은 충분한 정보가 없는 질문에 대해서는 답변을 자제하는 경향이 더 컸습니다. 이러한 ‘인식론적 겸손’은 정확성과 신뢰성을 높이기 때문에 LLM에서 바람직한 특성입니다.

KBLaM의 또 다른 주목할 만한 장점은 향상된 투명성입니다. In-context learning과 달리 KBLaM은 특정 지식 요소를 해당 토큰에 쉽게 연결할 수 있어 모델의 추론 과정에 대한 더 큰 통찰력을 제공합니다.

오픈 소스 가용성 및 향후 방향

KBLaM의 기반이 되는 코드와 데이터 세트는 GitHub에 공개되어 커뮤니티 내에서 협업과 추가 연구를 촉진합니다. 이 시스템은 Meta의 Llama 3 및 Microsoft의 Phi-3를 포함한 여러 널리 사용되는 모델과 호환되도록 설계되었습니다. 또한 LLM을 구축하고 배포하기 위한 인기 있는 플랫폼인 Hugging Face Transformers에 대한 지원을 확장할 계획도 있습니다.

초기 결과는 유망하지만 연구진은 KBLaM이 아직 광범위한 배포를 위한 준비가 되지 않았다고 강조합니다. KBLaM은 간단한 질문-답변 시나리오를 처리하는 데 탁월하지만 더 복잡한 추론 작업을 해결하려면 추가 개발이 필요합니다.

컨텍스트 윈도우의 역설과 RAG의 부상

LLM은 흥미로운 역설에 직면해 있습니다. 한 번에 처리할 수 있는 정보의 양인 컨텍스트 윈도우는 계속 확장되고 있지만, 이 급증하는 데이터 볼륨을 안정적으로 처리하는 것은 여전히 어려운 과제입니다.

이러한 과제로 인해 Retrieval-Augmented Generation (RAG)는 특정 정보를 모델에 합리적인 수준의 신뢰성으로 주입하기 위한 선호되는 솔루션으로 부상했습니다. RAG 시스템은 중개자 역할을 하여 외부 소스에서 관련 정보를 검색하고 LLM에 제공하여 지식과 정확성을 향상시킵니다.

KBLaM: 잠재적인 패러다임 전환

그러나 KBLaM은 더 효율적이고 우아한 길을 제시하는 매력적인 대안을 제시합니다. 지식을 모델의 아키텍처에 직접 통합함으로써 KBLaM은 더 빠르고, 더 확장 가능하며, 더 투명한 지식 강화 LLM의 가능성을 제공합니다.

KBLaM 메커니즘에 대한 심층 분석

KBLaM의 핵심 혁신은 ‘rectangular attention’ 메커니즘에 있습니다. 이를 이해하려면 먼저 많은 LLM에서 사용하는 표준 self-attention 메커니즘을 고려하는 것이 도움이 됩니다.

Self-attention에서는 입력 시퀀스의 각 토큰이 자신을 포함한 다른 모든 토큰에 주의를 기울입니다. 이를 통해 모델은 입력의 다른 부분 간의 관계를 파악할 수 있지만 앞서 언급한 2차 스케일링 문제도 발생합니다.

반면 Rectangular attention은 attention 프로세스를 두 개의 별개의 부분으로 나눕니다.

  1. 사용자 입력 Attention: 사용자의 입력은 모든 지식 토큰에 주의를 기울여 모델이 지식 베이스에서 관련 정보에 접근할 수 있도록 합니다.
  2. 지식 토큰 Attention: 지식 토큰은 서로 또는 사용자 입력에 주의를 기울이지 않습니다. 이것이 KBLaM 효율성의 핵심입니다.

지식 토큰 간의 상호 작용을 방지함으로써 KBLaM은 필요한 계산 수를 획기적으로 줄입니다. 이를 통해 모델은 지식 베이스의 크기에 따라 선형적으로 확장될 수 있으므로 방대한 양의 외부 정보를 통합할 수 있습니다.

직접 지식 통합의 이점

지식을 모델의 아키텍처에 직접 통합하면 다음과 같은 몇 가지 이점이 있습니다.

  • 지연 시간 감소: KBLaM은 외부 검색 시스템에 의존하지 않으므로 RAG 기반 모델보다 훨씬 빠르게 응답할 수 있습니다.
  • 효율성 향상: KBLaM의 선형 스케일링은 기존 방법보다 계산 효율성이 훨씬 뛰어납니다.
  • 투명성 향상: KBLaM은 지식을 특정 토큰에 연결할 수 있으므로 모델이 어떻게 답변에 도달했는지 이해하기가 더 쉽습니다.
  • 환각 감소: KBLaM은 거짓 또는 터무니없는 정보를 생성하지 않는 능력이 더 뛰어난 것으로 나타났습니다.

한계 및 향후 연구

KBLaM은 상당한 발전을 나타내지만 현재의 한계를 인정하는 것이 중요합니다.

  • 복잡한 추론: KBLaM은 현재 간단한 질문-답변 작업에 가장 적합합니다. 더 복잡한 추론 시나리오로 기능을 확장하려면 더 많은 연구가 필요합니다.
  • 지식 표현: KBLaM의 현재 구현은 지식 트리플을 사용하며, 이는 모든 유형의 지식에 적합하지 않을 수 있습니다. 대체 지식 표현 형식을 탐색하는 것은 향후 연구 분야입니다.
  • 실제 배포: KBLaM은 여전히 연구 프로젝트이며 아직 광범위한 배포를 위한 준비가 되지 않았습니다. 실제 애플리케이션에 사용하려면 추가 테스트와 개선이 필요합니다.

AI 분야에 미치는 광범위한 영향

KBLaM의 개발은 인공 지능 분야 전반에 중요한 영향을 미칩니다. 이는 강력할 뿐만 아니라 다음과 같은 LLM을 만드는 단계를 나타냅니다.

  • 더 많은 지식: 방대한 양의 외부 지식을 효율적으로 통합함으로써 KBLaM은 LLM의 사실적 정확성과 포괄성을 향상시킬 수 있습니다.
  • 더욱 신뢰할 수 있음: KBLaM의 환각 감소율과 향상된 투명성은 더 큰 신뢰성과 신뢰성에 기여합니다.
  • 더욱 확장 가능: KBLaM의 선형 스케일링은 진정으로 방대한 양의 정보를 처리할 수 있는 LLM을 구축할 수 있는 가능성을 열어줍니다.

KBLaM 및 유사한 접근 방식에 대한 지속적인 연구 개발은 LLM과 지식 베이스 간의 경계를 더욱 모호하게 하여 지능적이고 깊이 있는 정보를 갖춘 차세대 AI 시스템을 위한 길을 열어줄 것입니다. 이 프로젝트의 오픈 소스 특성은 협업을 장려하고 이 흥미로운 분야의 혁신 속도를 가속화합니다.