Google a récemment introduit des modèles Quantization-Aware Training (QAT) pour sa famille de modèles d’IA open source, ‘Gemma 3’. Ce développement vise à résoudre les exigences en ressources de calcul des grands modèles linguistiques, les rendant plus accessibles à une gamme plus large de configurations matérielles.
Comprendre Gemma 3
Gemma 3 est une famille de modèles open-weight légers et performants développés par Google. Il est basé sur la même recherche et technologie que le modèle ‘Gemini 2.0’ de Google. Gemma 3 est disponible en quatre tailles de paramètres : 1B, 4B, 12B et 27B. Il s’est imposé comme un modèle de premier plan fonctionnant en précision native BFloat16 (BF16) sur des GPU haut de gamme comme le NVIDIA H100.
Un avantage significatif des modèles QAT de Gemma 3 est leur capacité à maintenir une qualité élevée tout en réduisant considérablement les besoins en mémoire. Ceci est crucial car cela permet aux modèles hautes performances comme Gemma 3 27B de fonctionner localement sur des GPU de qualité grand public comme le NVIDIA GeForce RTX 3090.
La motivation derrière les modèles QAT
Dans les comparaisons de performances, le BF16 est souvent utilisé. Cependant, lors du déploiement de grands modèles, des formats de plus faible précision comme le FP8 (8 bits) sont parfois utilisés pour réduire les exigences matérielles (comme le nombre de GPU), même au détriment des performances. Il existe une forte demande pour l’utilisation deGemma 3 avec le matériel existant.
C’est là que la quantification entre en jeu. Dans les modèles d’IA, la quantification réduit la précision des nombres (paramètres du modèle) que le modèle utilise pour stocker et calculer les réponses. Ceci est similaire à la compression d’une image en réduisant le nombre de couleurs utilisées. Au lieu de représenter les paramètres en 16 bits (BF16), il est possible de les représenter en moins de bits, tels que 8 bits (INT8) ou 4 bits (INT4).
Cependant, la quantification entraîne souvent une baisse de performances. Pour maintenir la qualité, Google utilise QAT. Au lieu de quantifier le modèle après qu’il ait été entièrement entraîné, QAT intègre le processus de quantification dans l’entraînement lui-même. En simulant des opérations de faible précision pendant l’entraînement, QAT minimise la dégradation des performances après l’entraînement. Il en résulte des modèles plus petits et plus rapides tout en maintenant la précision.
Économies substantielles de VRAM
Google déclare que la quantification INT4 réduit considérablement la VRAM (mémoire GPU) requise pour charger le modèle par rapport à l’utilisation de BF16, comme suit :
- Gemma 3 27B : 54 Go (BF16) à 14,1 Go (INT4)
- Gemma 3 12B : 24 Go (BF16) à 6,6 Go (INT4)
- Gemma 3 4B : 8 Go (BF16) à 2,6 Go (INT4)
- Gemma 3 1B : 2 Go (BF16) à 0,5 Go (INT4)
Ces réductions de l’empreinte mémoire sont primordiales pour démocratiser l’accès à des modèles d’IA puissants, leur permettant d’être déployés sur des appareils dotés de ressources limitées.
Activation des modèles Gemma 3 sur divers appareils
Selon Google, QAT permet aux modèles puissants de Gemma 3 de fonctionner sur une large gamme de matériel grand public.
Gemma 3 27B (INT4 QAT) : Peut être confortablement chargé et exécuté localement sur un ordinateur de bureau avec une NVIDIA GeForce RTX 3090 (24 Go de VRAM) ou une carte équivalente, permettant aux utilisateurs d’utiliser le plus grand modèle Gemma 3.
Gemma 3 12B (INT4 QAT) : Peut être exécuté efficacement sur des GPU d’ordinateurs portables tels que le GPU NVIDIA GeForce RTX 4060 Laptop (8 Go de VRAM), permettant de puissantes capacités d’IA sur des machines portables.
Modèles plus petits (4B, 1B) : Sont devenus plus accessibles aux systèmes dotés de ressources limitées, tels que les smartphones.
Cette expansion de la compatibilité matérielle élargit considérablement les applications potentielles de Gemma 3, le rendant disponible à un public plus large de développeurs et d’utilisateurs. La possibilité d’exécuter ces modèles sur du matériel grand public ouvre de nouvelles possibilités pour le traitement local de l’IA, réduisant la dépendance aux services basés sur le cloud et améliorant la confidentialité.
Intégration facile avec les outils populaires
Google a veillé à ce que les développeurs puissent utiliser ces nouveaux modèles QAT dans des flux de travail familiers. Les modèles INT4 QAT et Q4\_0 (4 bits) QAT pour Gemma 3 sont disponibles sur Hugging Face et Kaggle. Ils peuvent être facilement testés avec des outils de développement populaires, tels que :
Ollama : Permet aux utilisateurs d’exécuter les modèles Gemma 3 QAT avec des commandes simples. Ollama simplifie le processus de déploiement et d’expérimentation avec ces modèles, permettant aux développeurs de les intégrer plus facilement dans leurs projets.
LM Studio : Fournit une interface utilisateur graphique (GUI) intuitive et facile à utiliser qui permet aux utilisateurs de télécharger et d’exécuter facilement les modèles Gemma 3 QAT sur leurs ordinateurs de bureau. LM Studio simplifie l’installation et la gestion des modèles d’IA, les rendant plus accessibles aux utilisateurs non techniques.
MLX : Permet une inférence optimisée et efficace des modèles Gemma 3 QAT sur les Mac alimentés par Apple Silicon. MLX exploite l’architecture unique d’Apple Silicon pour offrir des performances et une efficacité énergétique améliorées pour les charges de travail d’IA.
Gemma.cpp : Implémentation C++ dédiée de Google. Permet une inférence très efficace directement sur le CPU. Gemma.cpp fournit une interface de bas niveau aux développeurs qui souhaitent affiner les performances de leurs applications d’IA.
llama.cpp : Prend en charge nativement les modèles Gemma 3 QAT au format GGUF, ce qui facilite l’intégration dans les flux de travail existants. Llama.cpp est une bibliothèque populaire pour exécuter de grands modèles linguistiques sur une variété de plates-formes matérielles, y compris les CPU et les GPU.
La disponibilité des modèles Gemma 3 QAT sur ces plates-formes et leur compatibilité avec les outils populaires abaissent considérablement la barrière à l’entrée pour les développeurs qui souhaitent exploiter ces modèles dans leurs projets. Cette facilité d’intégration encourage l’expérimentation et l’innovation, conduisant à un éventail plus large d’applications pour Gemma 3.
Les fondements techniques de l’apprentissage conscient de la quantification
Pour apprécier pleinement la signification des modèles QAT de Google pour Gemma 3, il est important de se plonger dans les détails techniques de la quantification et de la manière dont QAT relève les défis qui y sont associés.
Comprendre la quantification :
La quantification est une technique utilisée pour réduire la taille et la complexité de calcul des réseaux neuronaux en représentant les poids et les activations avec une précision inférieure. Au lieu d’utiliser des nombres à virgule flottante (par exemple, 32 bits ou 16 bits), les modèles quantifiés utilisent des entiers (par exemple, 8 bits ou 4 bits) pour représenter ces valeurs. Cette réduction de la précision entraîne plusieurs avantages :
- Empreinte mémoire réduite : Les représentations de plus faible précision nécessitent moins de mémoire pour stocker le modèle, ce qui permet de déployer des modèles sur des appareils dotés de ressources mémoire limitées.
- Inférence plus rapide : Les opérations sur les entiers sont généralement plus rapides que les opérations sur les nombres à virgule flottante, ce qui entraîne des temps d’inférence plus rapides.
- Consommation d’énergie réduite : Les opérations sur les entiers consomment moins d’énergie que les opérations sur les nombres à virgule flottante, ce qui rend les modèles quantifiés plus adaptés aux appareils alimentés par batterie.
Les défis de la quantification :
Bien que la quantification offre des avantages significatifs, elle introduit également des défis :
- Dégradation de la précision : La réduction de la précision des poids et des activations peut entraîner une perte de précision. Le modèle peut devenir moins capable de saisir les nuances des données, ce qui entraîne une baisse des performances.
- Problèmes d’étalonnage : La plage de valeurs qui peuvent être représentées par des entiers est limitée. Cela peut entraîner un écrêtage ou une saturation des activations, ce qui peut encore dégrader la précision.
Apprentissage conscient de la quantification (QAT) : Une solution :
L’apprentissage conscient de la quantification (QAT) est une technique qui résout le problème de la dégradation de la précision en intégrant la quantification dans le processus d’apprentissage. Dans QAT, le modèle est entraîné avec une quantification simulée, ce qui signifie que les poids et les activations sont quantifiés pendant les passes avant et arrière de l’entraînement. Cela permet au modèle d’apprendre à compenser les effets de la quantification, ce qui donne un modèle quantifié plus précis.
Comment fonctionne QAT :
Quantification simulée : Pendant l’entraînement, les poids et les activations sont quantifiés à la précision souhaitée (par exemple, 8 bits ou 4 bits) après chaque passe avant et arrière. Cela simule la quantification qui sera appliquée pendant l’inférence.
Ajustement du gradient : Les gradients sont également ajustés pour tenir compte des effets de la quantification. Cela aide le modèle à apprendre à minimiser l’erreur causée par la quantification.
Affinement : Après l’entraînement avec une quantification simulée, le modèle est affiné avec les poids et les activations quantifiés. Cela améliore encore la précision du modèle quantifié.
Avantages de QAT :
- Précision améliorée : QAT améliore considérablement la précision des modèles quantifiés par rapport à la quantification post-apprentissage (PTQ), qui quantifie le modèle après son entraînement.
- Robustesse à la quantification : QAT rend le modèle plus robuste aux effets de la quantification, ce qui permet d’obtenir des taux de compression plus élevés sans sacrifier la précision.
- Compatibilité matérielle : QAT permet de déployer le modèle sur des plates-formes matérielles qui prennent en charge les opérations sur les entiers, telles que les appareils mobiles et les systèmes embarqués.
L’implémentation de QAT par Google pour Gemma 3 :
L’implémentation de QAT par Google pour Gemma 3 exploite les dernières avancées en matière de techniques de quantification pour obtenir une précision et des taux de compression élevés. Les détails spécifiques de leur implémentation ne sont pas accessibles au public, mais il est probable qu’ils utilisent des techniques telles que :
- Quantification de précision mixte : Utilisation de différents niveaux de précision pour différentes parties du modèle afin d’optimiser la précision et la compression.
- Quantification par tenseur : Quantification de chaque tenseur indépendamment pour minimiser l’erreur causée par la quantification.
- Paramètres de quantification apprenables : Apprentissage des paramètres de quantification pendant l’entraînement pour améliorer encore la précision.
Les implications plus larges de QAT et Gemma 3
La publication de modèles QAT pour Gemma 3 représente une avancée significative dans le développement de modèles d’IA plus accessibles et efficaces. En réduisant l’empreinte mémoire et les exigences de calcul de ces modèles, Google permet à un plus large éventail de développeurs et d’utilisateurs de tirer parti de leurs capacités. Cela a plusieurs implications importantes :
Démocratisation de l’IA :
La possibilité d’exécuter de puissants modèles d’IA sur du matériel grand public démocratise l’accès à l’IA, permettant aux particuliers et aux petites entreprises de développer et de déployer des applications basées sur l’IA sans dépendre de services coûteux basés sur le cloud.
Informatique de périphérie :
Les modèles QAT sont bien adaptés aux applications d’informatique de périphérie, où les données sont traitées localement sur les appareils plutôt que dans le cloud. Cela réduit la latence, améliore la confidentialité et permet de nouvelles applications telles que les véhicules autonomes et les capteurs intelligents.
IA mobile :
L’empreinte mémoire réduite des modèles QAT les rend idéaux pour les appareils mobiles, permettant de nouvelles fonctionnalités basées sur l’IA telles que la traduction en temps réel, la reconnaissance d’images et les recommandations personnalisées.
Recherche et développement :
La disponibilité de modèles QAT open source pour Gemma 3 accélérera la recherche et le développement dans le domaine de l’IA, permettant aux chercheurs d’expérimenter de nouvelles techniques de quantification et d’explorer de nouvelles applications pour les modèles quantifiés.
Durabilité environnementale :
En réduisant la consommation d’énergie des modèles d’IA, QAT contribue à la durabilité environnementale. Ceci est particulièrement important à mesure que l’IA devient plus répandue dans nos vies.
En conclusion, la publication par Google de modèles QAT pour Gemma 3 est une avancée significative qui aura un impact durable sur le domaine de l’IA. En rendant les modèles d’IA plus accessibles, efficaces et durables, Google contribue à libérer tout le potentiel de l’IA au profit de la société. La combinaison de l’architecture puissante de Gemma 3 et des techniques de quantification efficaces de QAT promet de stimuler l’innovation dans un large éventail d’applications, des appareils mobiles à l’informatique de périphérie et au-delà.