Microsoft: IA et savoir intégré

Une nouvelle architecture pour l’intégration des connaissances

La division de recherche de Microsoft a mis au point une méthode révolutionnaire pour intégrer des connaissances externes dans les grands modèles de langage (LLM). Ce système innovant, baptisé Knowledge Base-Augmented Language Models (KBLaM), adopte une philosophie ‘plug-and-play’, éliminant le besoin de modifier les modèles préexistants. Cela représente un changement significatif par rapport aux techniques conventionnelles, offrant une approche plus rationalisée et efficace de l’amélioration des connaissances.

S’éloigner des méthodes traditionnelles

Les méthodologies actuelles, telles que Retrieval-Augmented Generation (RAG) et In-Context Learning, reposent généralement sur des mécanismes de récupération distincts pour accéder et incorporer des informations externes. KBLaM, en revanche, évite ces systèmes externes. Il transforme ingénieusement les connaissances en paires de vecteurs, les intégrant de manière transparente dans l’architecture centrale du modèle grâce à une nouvelle technique que Microsoft appelle ‘attention rectangulaire’.

Cette intégration directe des connaissances au sein du modèle lui-même, en contournant les processus de récupération externes, se traduit par des réponses nettement plus rapides et plus efficaces. Il s’agit d’un avantage clé par rapport aux systèmes traditionnels, qui souffrent souvent de latence et de surcharge de calcul en raison de la nécessité d’interroger des bases de données externes.

Résoudre le problème de la mise à l’échelle quadratique

Les systèmes RAG existants sont souvent entravés par un problème de mise à l’échelle quadratique, une conséquence inhérente à leur mécanisme d’auto-attention. Ce mécanisme nécessite que chaque jeton interagisse avec tous les autres jetons, ce qui entraîne une augmentation exponentielle des exigences de calcul à mesure que la taille de l’entrée augmente.

Pour illustrer cela, considérons un scénario où 1 000 jetons d’une base de connaissances sont introduits dans le contexte. Le modèle est alors obligé de traiter un million de paires de jetons. Si le nombre de jetons passe à 10 000, la charge de calcul explose à 100 millions d’interactions. Cette mise à l’échelle quadratique devient rapidement un goulot d’étranglement, limitant l’applicabilité pratique des systèmes RAG avec de grandes bases de connaissances.

L’efficacité de l’attention rectangulaire

KBLaM contourne élégamment ce bourbier computationnel. Son mécanisme innovant d’’attention rectangulaire’ permet à l’entrée de l’utilisateur d’accéder à tous les jetons de connaissance, mais surtout, ces jetons de connaissance n’interagissent pas entre eux ni avec l’entrée. Ce choix de conception stratégique a de profondes implications pour l’évolutivité.

À mesure que la base de connaissances s’étend, la puissance de calcul requise n’augmente que linéairement, un contraste frappant avec la mise à l’échelle quadratique des méthodes traditionnelles. Les chercheurs à l’origine de KBLaM affirment qu’un seul GPU peut confortablement gérer plus de 10 000 triplets de connaissances, ce qui se traduit par environ 200 000 jetons. Cela représente un bond en avant significatif dans l’efficacité de l’intégration des connaissances.

Des résultats expérimentaux prometteurs

Les premiers tests de KBLaM ont donné des résultats encourageants. Dans des expériences impliquant environ 200 éléments de connaissance, KBLaM a démontré une capacité supérieure à atténuer les hallucinations – la génération d’informations fausses ou absurdes – par rapport aux modèles conventionnels.

De plus, KBLaM a montré une plus grande propension à s’abstenir de répondre aux questions pour lesquelles il ne disposait pas d’informations suffisantes. Cette ‘humilité épistémique’ est un trait souhaitable dans les LLM, car elle favorise la précision et la fiabilité.

Un autre avantage notable de KBLaM est sa transparence accrue. Contrairement à l’apprentissage en contexte, KBLaM peut facilement lier des éléments de connaissance spécifiques à des jetons correspondants, offrant ainsi un meilleur aperçu du processus de raisonnement du modèle.

Disponibilité Open Source et orientations futures

Le code et les ensembles de données qui sous-tendent KBLaM ont été rendus publics sur GitHub, favorisant la collaboration et la poursuite des recherches au sein de la communauté. Le système est conçu pour être compatible avec plusieurs modèles largement utilisés, notamment Llama 3 de Meta et Phi-3 de Microsoft. Il est également prévu d’étendre la prise en charge à Hugging Face Transformers, une plateforme populaire pour la construction et le déploiement de LLM.

Bien que les premiers résultats soient prometteurs, les chercheurs soulignent que KBLaM n’est pas encore prêt pour un déploiement à grande échelle. Il excelle dans la gestion de scénarios de questions-réponses simples, mais des développements supplémentaires sont nécessaires pour aborder des tâches de raisonnement plus complexes.

Le paradoxe des fenêtres contextuelles et l’essor de RAG

Les LLM sont confrontés à un paradoxe fascinant : leurs fenêtres contextuelles – la quantité d’informations qu’ils peuvent traiter en une seule fois – ne cessent de s’étendre, mais le traitement fiable de ce volume croissant de données reste un défi de taille.

Ce défi a propulsé Retrieval-Augmented Generation (RAG) au premier plan en tant que solution privilégiée pour injecter des informations spécifiques dans les modèles avec un degré raisonnable de fiabilité. Les systèmes RAG agissent comme des intermédiaires, récupérant des informations pertinentes à partir de sources externes et les transmettant au LLM, améliorant ainsi ses connaissances et sa précision.

KBLaM : Un changement de paradigme potentiel

Cependant, KBLaM présente une alternative convaincante, suggérant une voie potentiellement plus efficace et élégante. En intégrant directement les connaissances dans l’architecture du modèle, KBLaM offre la perspective de LLM améliorés par les connaissances plus rapides, plus évolutifs et plus transparents.

Plongée plus profonde dans les mécanismes de KBLaM

L’innovation fondamentale de KBLaM réside dans son mécanisme d’’attention rectangulaire’. Pour comprendre cela, il est utile de considérer d’abord le mécanisme d’auto-attention standard employé par de nombreux LLM.

Dans l’auto-attention, chaque jeton de la séquence d’entrée est attentif à tous les autres jetons, y compris lui-même. Cela permet au modèle de capturer les relations entre les différentes parties de l’entrée, mais cela conduit également au problème de mise à l’échelle quadratique mentionné précédemment.

L’attention rectangulaire, en revanche, divise le processus d’attention en deux parties distinctes :

  1. Attention de l’entrée utilisateur : L’entrée de l’utilisateur est attentive à tous les jetons de connaissance, ce qui permet au modèle d’accéder aux informations pertinentes de la base de connaissances.
  2. Attention des jetons de connaissance : Les jetons de connaissance ne sont pas attentifs les uns aux autres ni à l’entrée de l’utilisateur. C’est la clé de l’efficacité de KBLaM.

En empêchant les interactions entre les jetons de connaissance, KBLaM réduit considérablement le nombre de calculs requis. Cela permet au modèle de s’adapter linéairement à la taille de la base de connaissances, ce qui rend possible l’incorporation de grandes quantités d’informations externes.

Les avantages de l’intégration directe des connaissances

L’intégration directe des connaissances dans l’architecture du modèle offre plusieurs avantages :

  • Latence réduite : Étant donné que KBLaM ne repose pas sur des systèmes de récupération externes, il peut répondre beaucoup plus rapidement que les modèles basés sur RAG.
  • Efficacité améliorée : La mise à l’échelle linéaire de KBLaM le rend beaucoup plus efficace en termes de calcul que les méthodes traditionnelles.
  • Transparence accrue : KBLaM peut lier les connaissances à des jetons spécifiques, ce qui facilite la compréhension de la façon dont le modèle est arrivé à sa réponse.
  • Réduction des hallucinations : KBLaM a montré une plus grande capacité à éviter de générer des informations fausses ou absurdes.

Limitations et recherches futures

Bien que KBLaM représente une avancée significative, il est important de reconnaître ses limitations actuelles :

  • Raisonnement complexe : KBLaM est actuellement mieux adapté aux tâches de questions-réponses simples. Des recherches supplémentaires sont nécessaires pour étendre ses capacités à des scénarios de raisonnement plus complexes.
  • Représentation des connaissances : L’implémentation actuelle de KBLaM utilise des triplets de connaissances, qui peuvent ne pas convenir à tous les types de connaissances. L’exploration de formats alternatifs de représentation des connaissances est un domaine de recherche future.
  • Déploiement dans le monde réel : KBLaM est encore un projet de recherche et n’est pas encore prêt pour un déploiement à grande échelle. Des tests et des améliorations supplémentaires sont nécessaires avant qu’il ne puisse être utilisé dans des applications réelles.

L’impact plus large sur le domaine de l’IA

Le développement de KBLaM a des implications significatives pour le domaine plus large de l’intelligence artificielle. Il représente un pas vers la création de LLM qui ne sont pas seulement puissants, mais aussi :

  • Plus informés : En intégrant efficacement de grandes quantités de connaissances externes, KBLaM peut améliorer la précision factuelle et l’exhaustivité des LLM.
  • Plus fiables : La réduction du taux d’hallucination et la transparence accrue de KBLaM contribuent à une plus grande fiabilité.
  • Plus évolutifs : La mise à l’échelle linéaire de KBLaM ouvre des possibilités de construction de LLM capables de traiter des quantités d’informations vraiment massives.

La recherche et le développement en cours de KBLaM et d’approches similaires promettent de brouiller davantage les frontières entre les LLM et les bases de connaissances, ouvrant la voie à une nouvelle génération de systèmes d’IA à la fois intelligents et profondément informés. La nature open-source du projet encourage la collaboration et accélère le rythme de l’innovation dans ce domaine passionnant. L’intégration de KBLaM avec des plateformes comme Hugging Face Transformers souligne son potentiel d’adoption et d’adaptation à divers environnements de développement d’IA. L’accent mis sur la transparence et la capacité à lier les réponses à des sources de connaissances spécifiques renforce la confiance dans les résultats générés par les LLM, un aspect crucial pour les applications critiques.