Google a dévoilé Gemma 3n, un modèle linguistique multimodal de petite taille révolutionnaire désormais accessible en avant-première sur la communauté innovante LiteRT Hugging Face, aux côtés d’un ensemble de modèles précédemment lancés. Gemma 3n est conçu pour traiter un éventail diversifié d’entrées, notamment du texte, des images, des vidéos et de l’audio. De plus, il facilite le fine-tuning, la personnalisation via la génération augmentée par la récupération (RAG) et la fonction calling, le tout alimenté par les nouveaux AI Edge SDKs.
Gemma 3n: Révéler la Puissance Intérieure
Gemma 3n est proposé en deux variantes de paramètres distinctes: Gemma 3n 2B et Gemma 3n 4B. Les deux itérations sont équipées pour gérer les entrées texte et image, le support audio devant être intégré dans un avenir proche, selon les projections de Google. Cela représente un bond substantiel en termes d’échelle par rapport à son prédécesseur, le Gemma 3 1B non multimodal, qui a fait ses débuts plus tôt cette année et n’a nécessité que 529 Mo pour gérer un nombre impressionnant de 2 585 tokens par seconde sur un GPU mobile.
Selon les spécifications techniques de Google, Gemma 3n exploite l’activation sélective des paramètres, une technique innovante conçue pour une gestion efficace des paramètres. Cela implique que les deux modèles englobent un plus grand nombre de paramètres que les 2B ou 4B qui sont activement engagés pendant l’inférence. Cette approche stratégique optimise l’utilisation des ressources et améliore les performances.
Fine-Tuning et Quantization: Déchaîner la Personnalisation
Google souligne la capacité des développeurs à fine-tune le modèle de base, puis à le convertir et à le quantifier à l’aide d’outils de quantization de pointe accessibles via Google AI Edge. Cela permet aux développeurs d’adapter le modèle à des applications spécifiques et d’optimiser ses caractéristiques de performance.
Intégration RAG: Enrichir les Modèles Linguistiques avec des Données Contextuelles
Comme alternative au fine-tuning, les modèles Gemma 3n peuvent être déployés pour la génération augmentée par la récupération (RAG) sur l’appareil, une méthodologie qui enrichit un modèle linguistique avec des données spécifiques à l’application. Cette augmentation est facilitée par la bibliothèque AI Edge RAG, actuellement exclusive à Android, mais dont l’extension à d’autres plateformes est prévue.
La bibliothèque RAG fonctionne via un pipeline rationalisé comprenant plusieurs étapes clés:
- Data Import: Ingérer les données pertinentes dans le système.
- Chunking and Indexing: Segmenter et organiser les données pour une récupération efficace.
- Embeddings Generation: Créer des représentations vectorielles des données pour la compréhension sémantique.
- Information Retrieval: Identifier et extraire les informations pertinentes en fonction des requêtes de l’utilisateur.
- Response Generation: Créer des réponses cohérentes et contextuellement pertinentes à l’aide d’un LLM.
Ce cadre robuste permet une personnalisation complète du pipeline RAG, englobant le support des bases de données personnalisées, des stratégies de chunking et des fonctions de récupération.
AI Edge On-device Function Calling SDK: Combler le Fossé Entre les Modèles et les Actions du Monde Réel
Parallèlement à la présentation de Gemma 3n, Google a introduit le AI Edge On-device Function Calling SDK, initialement disponible uniquement sur Android. Ce SDK permet aux modèles d’invoquer des fonctions spécifiques, exécutant ainsi des actions du monde réel.
Pour intégrer de manière transparente un LLM à une fonction externe, la fonction doit être méticuleusement décrite en spécifiant son nom, un récit descriptif expliquant quand le LLM doit l’utiliser et les paramètres requis. Ces métadonnées sont encapsulées dans un objet Tool
, qui est ensuite transmis au grand modèle linguistique via le constructeur GenerativeModel
. Le Function Calling SDK intègre la prise en charge de la réception des appels de fonction du LLM basés sur la description fournie et de la transmission des résultats d’exécution au LLM.
Explorer le Potentiel: La Google AI Edge Gallery
Pour ceux qui souhaitent approfondir ces outils révolutionnaires, la Google AI Edge Gallery est une ressource inestimable. Cette application expérimentale présente un éventail diversifié de modèles et facilite le traitement du texte, des images et de l’audio.
Plongée en Profondeur: Les Nuances de Gemma 3n et de Son Écosystème
L’avènement de Gemma 3n marque une avancée significative dans l’évolution de l’apprentissage automatique sur l’appareil, offrant une combinaison puissante d’efficacité, d’adaptabilité et de fonctionnalité. Ses capacités multimodales, couplées à la prise en charge de RAG et de la fonction calling, ouvrent une myriade de possibilités pour les développeurs cherchant à créer des applications intelligentes et conscientes du contexte.
Activation Sélective des Paramètres: Un Examen Approfondi
La technique d’activation sélective des paramètres utilisée par Gemma 3n mérite un examen plus approfondi. Cette approche innovante permet au modèle d’activer dynamiquement uniquement les paramètres nécessaires à une tâche donnée, minimisant ainsi la surcharge de calcul et maximisant l’efficacité. Ceci est particulièrement crucial pour le déploiement sur l’appareil, où les ressources sont souvent limitées.
Le principe sous-jacent à l’activation sélective des paramètres réside dans l’observation que tous les paramètres d’un réseau neuronal ne sont pas également importants pour toutes les tâches. En activant sélectivement uniquement les paramètres les plus pertinents, le modèle peut atteindre des performances comparables avec un coût de calcul considérablement réduit.
La mise en œuvre de l’activation sélective des paramètres implique généralement un mécanisme permettant de déterminer quels paramètres activer pour une entrée donnée. Ceci peut être réalisé grâce à diverses techniques, telles que:
- Attention Mechanisms: Attirer l’attention sur les parties les plus pertinentes de l’entrée et activer les paramètres correspondants.
- Gating Mechanisms: Utiliser une fonction gating pour contrôler le flux d’informations à travers différentes parties du réseau.
- Sparse Training: Former le réseau pour apprendre des connexions clairsemées, de sorte que seul un sous-ensemble des paramètres soient actifs pendant l’inférence.
Le choix de la technique dépend de l’architecture spécifique du modèle et des caractéristiques de la tâche. Cependant, l’objectif primordial est d’identifier et d’activer uniquement les paramètres les plus pertinents pour l’entrée donnée, réduisant ainsi le coût de calcul et améliorant l’efficacité.
RAG: Augmenter les Connaissances et le Contexte
La génération augmentée par la récupération (RAG) représente un changement de paradigme dans la façon dont les modèles linguistiques sont utilisés. En intégrant des sources de connaissances externes, RAG permet aux modèles linguistiques de générer des réponses plus informées, précises et contextuellement pertinentes.
Le pipeline RAG se compose de plusieurs étapes clés:
- Data Indexing: Dans cette étape, la source de connaissances externe est indexée pour permettre une récupération efficace des informations pertinentes. Cela implique généralement la création d’une représentation vectorielle de chaque document dans la source de connaissances, qui peut ensuite être utilisée pour identifier rapidement les documents qui sont similaires à une requête donnée.
- Information Retrieval: Lorsqu’une requête est reçue, le système RAG récupère les documents les plus pertinents de la source de connaissances indexée. Ceci est généralement fait à l’aide d’un algorithme de recherche de similarité, qui compare la représentation vectorielle de la requête aux représentations vectorielles des documents dans la source de connaissances.
- Contextualization: Les documents récupérés sont ensuite utilisés pour augmenter le contexte de la requête. Ceci peut être fait en concaténant simplement les documents récupérés à la requête, ou en utilisant une technique plus sophistiquée pour intégrer les informations des documents récupérés dans la représentation de la requête.
- Response Generation: Enfin, la requête augmentée est introduite dans un modèle linguistique, qui génère une réponse basée sur les informations combinées de la requête et des documents récupérés.
RAG offre plusieurs avantages par rapport aux modèles linguistiques traditionnels:
- Increased Accuracy: En intégrant des connaissances externes, les modèles RAG peuvent générer des réponses plus précises et factuelles.
- Improved Contextual Understanding: Les modèles RAG peuvent mieux comprendre le contexte d’une requête en tirant parti des informations contenues dans les documents récupérés.
- Reduced Hallucinations: Les modèles RAG sont moins susceptibles d’halluciner ou de générer des réponses absurdes, car ils sont ancrés dans des connaissances externes.
- Adaptability to New Information: Les modèles RAG peuvent facilement s’adapter aux nouvelles informations en mettant simplement à jour la source de connaissances indexée.
Function Calling: Interagir avec le Monde Réel
Le AI Edge On-device Function Calling SDK représente une étape importante vers la possibilité pour les modèles linguistiques d’interagir avec le monde réel. En permettant aux modèles d’invoquer des fonctions externes, le SDK ouvre un large éventail de possibilités pour la création d’applications intelligentes et conscientes du contexte.
Le processus de function calling implique généralement les étapes suivantes:
- Function Definition: Le développeur définit les fonctions que le modèle linguistique peut invoquer. Cela comprend la spécification du nom de la fonction, une description de ce que fait la fonction et les paramètres que la fonction accepte.
- Tool Object Creation: Le développeur crée un objet
Tool
qui encapsule la définition de la fonction. Cet objet est ensuite transmis au modèle linguistique. - Function Call Generation: Lorsque le modèle linguistique doit effectuer une action du monde réel, il génère un appel de fonction. Cet appel comprend le nom de la fonction à invoquer et les valeurs des paramètres à transmettre à la fonction.
- Function Execution: L’appel de fonction est ensuite exécuté par le système. Cela implique généralement l’invocation de l’API ou du service correspondant.
- Result Transmission: Les résultats de l’exécution de la fonction sont ensuite transmis au modèle linguistique.
- Response Generation: Enfin, le modèle linguistique utilise les résultats de l’exécution de la fonction pour générer une réponse.
Le Function Calling SDK permet aux modèles linguistiques d’effectuer un large éventail de tâches, telles que:
- Accessing Information from External Sources: Le modèle peut appeler des fonctions pour récupérer des informations à partir de bases de données, d’API et d’autres sources externes.
- Controlling Devices and Appliances: Le modèle peut appeler des fonctions pour contrôler les appareils domestiques intelligents, tels que les lumières, les thermostats et les appareils électroménagers.
- Performing Transactions: Le modèle peut appeler des fonctions pour effectuer des transactions financières, telles que des paiements et des transferts de fonds.
- Automating Tasks: Le modèle peut appeler des fonctions pour automatiser des tâches complexes, telles que la planification de rendez-vous et l’envoi d’e-mails.
La Google AI Edge Gallery: Une Vitrine d’Innovation
La Google AI Edge Gallery sert de plateforme essentielle pour présenter les capacités de Gemma 3n et de ses outils associés. En fournissant un environnement interactif où les développeurs peuvent expérimenter avec ces technologies, la galerie favorise l’innovation et accélère le développement de nouvelles applications.
La galerie présente un éventail diversifié de modèles et de démos, mettant en évidence le potentiel de Gemma 3n pour diverses tâches, telles que:
- Image Recognition: Identifier des objets et des scènes dans des images.
- Natural Language Processing: Comprendre et générer le langage humain.
- Speech Recognition: Transcrire le langage parlé en texte.
- Audio Processing: Analyser et manipuler des signaux audio.
La galerie donne également accès aux AI Edge SDKs, permettant aux développeurs d’intégrer ces technologies dans leurs propres applications.
L’Avenir de l’Apprentissage Automatique sur l’Appareil
L’émergence de Gemma 3n et de son écosystème associé annonce une nouvelle ère pour l’apprentissage automatique sur l’appareil. En combinant efficacité, adaptabilité et fonctionnalité, Gemma 3n permet aux développeurs de créer des applications intelligentes et conscientes du contexte qui peuvent s’exécuter directementSur les appareils, sans avoir besoin d’une connexion Internet constante.
Ceci a des implications profondes pour diverses industries, notamment:
- Mobile: Permettre des applications mobiles plus intelligentes et réactives.
- IoT: Alimenter des appareils intelligents qui peuvent fonctionner de manière indépendante et autonome.
- Automotive: Améliorer la sécurité et la commodité des véhicules autonomes.
- Healthcare: Améliorer la précision et l’efficacité du diagnostic et du traitement médicaux.
À mesure que les technologies d’apprentissage automatique sur l’appareil continuent d’évoluer, nous pouvons nous attendre à voir encore plus d’applications innovantes et percutantes émerger dans les années à venir. Gemma 3n représente une étape importante dans ce parcours, ouvrant la voie à un avenir où l’intelligence est intégrée de manière transparente dans notre vie quotidienne.