BitNet : l'IA 1-bit de Microsoft

Dans le paysage dynamique de l’intelligence artificielle, un développement révolutionnaire émerge de Microsoft Research, promettant de redéfinir l’accessibilité et l’efficacité de l’IA générative. Leur récent article présente BitNet b1.58 2B4T, un modèle de langage étendu (LLM) pionnier qui se distingue par son entraînement natif avec des poids ‘1-bit’, ou plus précisément, des poids 1-trit. Cette approche innovante marque une rupture avec les méthodes traditionnelles qui reposent sur la quantification de modèles initialement entraînés en pleine précision.

Surmonter les limites des LLM traditionnels

Les LLM conventionnels, malgré leurs performances remarquables, sont confrontés à des obstacles importants qui entravent leur adoption généralisée. Ces limitations découlent principalement de leurs importantes empreintes mémoire, de leur consommation d’énergie considérable et de leur latence d’inférence notable. Par conséquent, le déploiement de ces modèles sur des appareils périphériques, dans des environnements à ressources limitées et pour des applications en temps réel devient irréalisable.

Pour atténuer ces défis, la communauté de l’IA s’est de plus en plus concentrée sur l’exploration de modèles quantifiés. Ces modèles sont dérivés d’homologues en pleine précision en convertissant leurs poids en un format à faible nombre de bits. Bien que la quantification offre une voie pour réduire la taille du modèle et les exigences de calcul, elle se fait souvent au détriment de la perte de précision, ce qui compromet potentiellement la précision du modèle et ses performances globales.

L’architecture BitNet b1.58 2B4T

BitNet b1.58 2B4T représente un changement de paradigme dans la conception des LLM, en contournant la perte de précision associée à la quantification en entraînant le modèle à partir de zéro en utilisant des poids 1-bit. Cette approche permet au modèle de conserver les avantages de poids plus petits, notamment une empreinte mémoire réduite et des coûts de calcul plus faibles.

Les chercheurs de Microsoft se sont lancés dans cette entreprise ambitieuse en entraînant BitNet b1.58 2B4T sur un corpus massif de 4 billions de jetons. Cet ensemble de données d’entraînement étendu a permis de garantir que le modèle pouvait apprendre efficacement des schémas linguistiques complexes et développer une compréhension globale des nuances de la communication humaine.

Évaluation des performances et bancs d’essai

Pour évaluer l’efficacité de BitNet b1.58 2B4T, Microsoft a effectué des bancs d’essai rigoureux, en comparant ses performances avec les principaux modèles open-weight en pleine précision de taille similaire. Les résultats ont révélé que le nouveau modèle obtenait des performances comparables sur un large éventail de tâches, englobant la compréhension et le raisonnement du langage, la connaissance du monde, la compréhension de la lecture, les mathématiques et le code, ainsi que le suivi des instructions et la conversation.

Ces résultats soulignent le potentiel des LLM 1-bit à atteindre la parité des performances avec leurs homologues en pleine précision, tout en offrant simultanément des avantages significatifs en termes d’efficacité et d’utilisation des ressources.

Principales innovations architecturales

Au cœur de BitNet b1.58 2B4T réside son architecture innovante, qui remplace les couches linéaires standard en pleine précision par des couches BitLinear personnalisées. Ces couches utilisent des représentations 1,58-bit pour encoder les poids sous forme de valeurs ternaires (trits) lors de la passe avant.

L’utilisation de valeurs ternaires, représentées par {-1, 0, +1}, permet une réduction drastique de la taille du modèle et facilite les opérations mathématiques efficaces. Ceci est réalisé grâce à un schéma de quantification de la moyenne absolue (absmean), qui mappe les poids à ces valeurs ternaires.

En plus des couches BitLinear, BitNet b1.58 2B4T incorpore plusieurs techniques LLM établies, telles que les fonctions d’activation ReLU carrées, les embeddings positionnels rotatifs et la suppression du terme de biais. Ces techniques contribuent également à réduire la taille du modèle et à améliorer la stabilité de l’entraînement.

Amélioration de la stabilité et de l’efficacité de l’entraînement

Deux techniques supplémentaires employées dans les couches BitLinear (la quantification de l’activation et la normalisation) jouent un rôle crucial dans la réduction de la taille du modèle et l’amélioration de la stabilité de l’entraînement. La quantification de l’activation réduit la précision des activations, tandis que les techniques de normalisation aident à empêcher les activations de devenir trop grandes ou trop petites.

Ces techniques, combinées à l’utilisation de poids 1-bit, permettent à BitNet b1.58 2B4T d’être entraîné plus efficacement, même sur de grands ensembles de données.

Méthodologies d’entraînement

Pour l’entraînement, BitNet b1.58 2B4T exploite trois techniques clés : le pré-entraînement à grande échelle, le fine-tuning supervisé et l’optimisation directe des préférences.

Pré-entraînement à grande échelle

Cette phase initiale consiste à entraîner le modèle sur un ensemble de données massif de texte et de code, ce qui lui permet d’apprendre des schémas linguistiques généraux et de développer une large compréhension du monde.

Fine-tuning supervisé

Dans cette phase, le modèle est fine-tuné sur un ensemble de données plus petit et plus spécifique, adapté à une tâche ou un domaine particulier. Cela permet au modèle d’adapter ses connaissances et ses compétences aux exigences spécifiques de la tâche.

Optimisation directe des préférences

Cette technique consiste à entraîner le modèle à optimiser directement les préférences humaines, telles qu’elles sont exprimées par le biais de commentaires ou d’évaluations. Cela permet de garantir que les sorties du modèle sont alignées sur les valeurs et les attentes humaines.

Les chercheurs notent que des techniques plus avancées, telles que l’optimisation de la politique proximale ou l’optimisation relative de la politique de groupe, seront explorées à l’avenir pour améliorer les capacités mathématiques et le raisonnement de la chaîne de pensée.

La bibliothèque d’inférence Bitnet.cpp

Étant donné le schéma de quantification unique de BitNet b1.58 2B4T, le modèle ne peut pas être utilisé avec des bibliothèques d’apprentissage profond standard telles que llama.cpp et nécessite un noyau spécialisé. Pour relever ce défi, Microsoft a développé une bibliothèque d’inférence dédiée open source, bitnet.cpp.

bitnet.cpp sert de framework d’inférence officiel pour les LLM 1-bit, tels que BitNet b1.58. Il offre une suite de noyaux optimisés qui prennent en charge l’inférence rapide et sans perte de modèles 1,58-bit sur les CPU, avec des plans d’extension du support aux NPU et aux GPU à l’avenir.

Cette bibliothèque d’inférence est essentielle pour permettre le déploiement de BitNet b1.58 2B4T sur un plus large éventail d’appareils et de plateformes, le rendant plus accessible aux développeurs et aux chercheurs.

Orientations futures de la recherche

Les chercheurs reconnaissent que le matériel GPU actuel n’est pas optimisé pour les modèles 1-bit et que d’autres gains de performances pourraient être obtenus en intégrant une logique dédiée aux opérations à faible nombre de bits. Cela suggère que les futures architectures matérielles pourraient être spécifiquement conçues pour prendre en charge les LLM 1-bit, ce qui conduirait à une efficacité et à des performances encore plus grandes.

En plus des optimisations matérielles, les orientations futures de la recherche incluent l’entraînement de modèles plus grands, l’ajout de capacités multilingues et d’intégration multimodale, et l’extension de la longueur de la fenêtre de contexte. Ces avancées amélioreraient encore les capacités et la polyvalence de BitNet b1.58 2B4T et d’autres LLM 1-bit.

Implications et impact potentiel

Le développement de BitNet b1.58 2B4T a des implications importantes pour l’avenir de l’IA, en particulier dans le domaine de l’IA générative. En démontrant qu’il est possible d’entraîner des LLM très performants en utilisant uniquement des poids 1-bit, Microsoft a ouvert de nouvelles possibilités de création de systèmes d’IA plus efficaces et accessibles.

Cette percée pourrait conduire au déploiement de modèles d’IA sur un plus large éventail d’appareils, notamment les smartphones, les appareils IoT et d’autres plateformes à ressources limitées. Elle pourrait également permettre le développement de systèmes d’IA plus économes en énergie, réduisant ainsi leur impact environnemental.

De plus, la capacité d’entraîner des LLM avec des poids 1-bit pourrait faciliter la personnalisation et l’adaptation des modèles d’IA à des applications spécifiques. Cela pourrait conduire au développement de systèmes d’IA plus efficaces et conviviaux, adaptés aux besoins uniques des utilisateurs individuels et des organisations.

Conclusion

BitNet b1.58 2B4T de Microsoft représente une avancée significative dans la quête d’une IA plus efficace et accessible. En démontrant qu’il est possible d’entraîner des LLM très performants en utilisant uniquement des poids 1-bit, Microsoft a remis en question la sagesse conventionnelle et ouvert de nouvelles possibilités pour l’avenir de l’IA.

Alors que la recherche dans ce domaine se poursuit, nous pouvons nous attendre à voir des applications encore plus innovantes des LLM 1-bit, menant à un avenir où l’IA est plus omniprésente, efficace et bénéfique pour la société dans son ensemble.