Google Gemini : IA générative

Dévoilement de Gemini : la famille d’IA de nouvelle génération de Google

Gemini est l’incursion ambitieuse de Google dans la prochaine génération de modèles d’IA. Développé grâce aux efforts collaboratifs de DeepMind et de Google Research, les principaux laboratoires de recherche en IA de Google, Gemini n’est pas une entité monolithique mais plutôt une famille de modèles, chacun adapté à des tâches et à des niveaux de performance spécifiques. Cette famille comprend :

  • Gemini Ultra : Le poids lourd de la famille, conçu pour les tâches très complexes nécessitant une puissance de calcul substantielle. (Actuellement indisponible)
  • Gemini Pro : Un modèle robuste, plus petit qu’Ultra, mais capable de gérer un large éventail de tâches. Gemini 2.0 Pro, la dernière itération, est actuellement le produit phare de Google.
  • Gemini Flash : Une version simplifiée et « distillée » de Pro, privilégiant la vitesse et l’efficacité.
  • Gemini Flash-Lite : Une version légèrement réduite et plus rapide de Gemini Flash.
  • Gemini Flash Thinking : Un modèle présentant des capacités de « raisonnement ».
  • Gemini Nano : Comprenant deux modèles compacts, Nano-1 et le légèrement plus puissant Nano-2, conçus pour un fonctionnement hors ligne sur les appareils.

Une caractéristique déterminante de tous les modèles Gemini est leur multimodalité inhérente. Contrairement aux modèles formés uniquement sur des données textuelles, tels que LaMDA de Google, les modèles Gemini sont capables de traiter et d’analyser divers types de données. Ils ont été formés sur un vaste ensemble de données comprenant des données audio, des images, des vidéos, des bases de code et du texte en plusieurs langues, publiques, propriétaires et sous licence.

Cette nature multimodale permet à Gemini de transcender les limites des modèles uniquement textuels. Alors que LaMDA est limité aux entrées et sorties textuelles, les modèles Gemini, en particulier les nouvelles versions de Flash et Pro, peuvent générer nativement des images et de l’audio en plus du texte.

Cependant, les implications éthiques et juridiques de la formation de modèles d’IA sur des données accessibles au public, souvent sans le consentement explicite des propriétaires des données, restent une question complexe. Bien que Google propose une politique d’indemnisation de l’IA pour protéger certains clients Google Cloud contre d’éventuelles poursuites, cette politique a des limites. Les utilisateurs, en particulier ceux qui ont l’intention d’utiliser Gemini à des fins commerciales, doivent faire preuve de prudence.

Applications Gemini vs. modèles Gemini : comprendre la distinction

Il est crucial de différencier les modèles Gemini et les applications Gemini disponibles sur les plateformes Web et mobiles (anciennement connues sous le nom de Bard).

Les applications Gemini fonctionnent comme des clients, se connectant à divers modèles Gemini et présentant une interface conviviale de type chatbot. Elles servent de façade pour interagir avec les capacités d’IA générative de Google.

Sur les appareils Android, l’application Gemini remplace l’application Google Assistant. Sur iOS, les applications Google et Google Search agissent comme des clients Gemini.

Les utilisateurs d’Android peuvent invoquer une superposition Gemini pour poser des questions sur le contenu affiché sur leur écran, comme une vidéo YouTube. Cette superposition est déclenchée en appuyant longuement sur le bouton d’alimentation d’un smartphone pris en charge ou en utilisant la commande vocale « Hey Google ».

Les applications Gemini sont polyvalentes, acceptant les images, les commandes vocales et le texte comme entrées. Elles peuvent traiter des fichiers comme des PDF, soit téléchargés directement, soit importés depuis Google Drive, et générer des images. Les conversations initiées avec les applications Gemini sur mobile se synchronisent de manière transparente avec Gemini sur le Web, à condition que l’utilisateur soit connecté au même compte Google.

Gemini Advanced : débloquer des fonctionnalités d’IA premium

Les applications Gemini ne sont pas la seule passerelle pour exploiter la puissance des modèles Gemini. Google intègre progressivement des fonctionnalités basées sur Gemini dans ses applications et services principaux, notamment Gmail et Google Docs.

Pour exploiter pleinement ces capacités, les utilisateurs ont généralement besoin du plan Google One AI Premium. Ce plan, techniquement un composant de Google One, coûte 20 $ par mois et donne accès à Gemini dans les applications Google Workspace telles que Docs, Maps, Slides, Sheets, Drive et Meet. Il déverrouille également « Gemini Advanced », donnant accès aux modèles Gemini les plus sophistiqués de Google dans les applications Gemini.

Les utilisateurs de Gemini Advanced bénéficient d’avantages supplémentaires, tels qu’un accès prioritaire aux nouvelles fonctionnalités et aux nouveaux modèles, la possibilité d’exécuter et de modifier du code Python directement dans Gemini, et des limites étendues pour NotebookLM, l’outil de Google pour transformer les PDF en podcasts générés par l’IA. Un ajout récent à Gemini Advanced est une fonctionnalité de mémoire qui stocke les préférences de l’utilisateur et permet à Gemini de référencer les conversations passées, fournissant un contexte pour les interactions actuelles.

L’une des fonctionnalités les plus intéressantes exclusives à Gemini Advanced est « Deep Research ». Cette fonctionnalité exploite les modèles Gemini avec des capacités de raisonnement améliorées pour générer des résumés détaillés. En réponse à une invite, telle que « Comment devrais-je réaménager ma cuisine ? », Deep Research formule un plan de recherche en plusieurs étapes, parcourt le Web et compile une réponse complète.

Dans Gmail, Gemini réside dans un panneau latéral, capable de composer des e-mails et de résumer les fils de messages. Un panneau similaire apparaît dans Docs, aidant à la rédaction, à l’amélioration et au brainstorming de contenu. Dans Slides, Gemini génère des diapositives et des images personnalisées. Dans Google Sheets, il aide au suivi, à l’organisation et à la création de formules de données.

La présence de Gemini s’étend à Google Maps, où il agrège les avis sur les entreprises locales et propose des recommandations, telles que des suggestions d’itinéraires pour visiter une ville étrangère. Les capacités du chatbot englobent également Drive, où il peut résumer des fichiers et des dossiers et fournir des informations concises sur les projets.

Gemini a récemment été intégré au navigateur Chrome de Google en tant qu’outil d’écriture d’IA. Cet outil peut être utilisé pour créer un contenu entièrement nouveau ou réécrire un texte existant, en tenant compte du contexte de la page Web actuelle pour fournir des recommandations personnalisées.

Au-delà de ces applications principales, des traces de Gemini peuvent être trouvées dans les produits de base de données de Google, les outils de sécurité cloud et les plateformes de développement d’applications (y compris Firebase et Project IDX). Il alimente également des fonctionnalités dans des applications telles que Google Photos (requêtes de recherche en langage naturel), YouTube (brainstorming d’idées de vidéos) et Meet (traduction de légendes).

Code Assist (anciennement Duet AI for Developers), la suite d’outils basés sur l’IA de Google pour la complétion et la génération de code, s’appuie sur Gemini pour les tâches gourmandes en calcul. De même, les produits de sécurité de Google, tels que Gemini in Threat Intelligence, utilisent Gemini pour analyser le code potentiellement malveillant et faciliter les recherches en langage naturel de menaces et d’indicateurs de compromission.

Extensions et Gems de Gemini : personnaliser l’expérience de l’IA

Les utilisateurs de Gemini Advanced ont la possibilité de créer des « Gems », des chatbots personnalisés alimentés par les modèles Gemini, accessibles sur les plateformes de bureau et mobiles. Les Gems peuvent être générés à partir de descriptions en langage naturel, telles que « Tu es mon coach de course. Donne-moi un plan de course quotidien », et peuvent être partagés avec d’autres utilisateurs ou conservés privés.

Les applications Gemini peuvent s’intégrer à divers services Google via des « extensions Gemini ». Ces extensions permettent à Gemini d’interagir avec Drive, Gmail, YouTube et d’autres services, lui permettant de répondre à des requêtes telles que « Pourriez-vous résumer mes trois derniers e-mails ? ».

Gemini Live : s’engager dans des conversations vocales approfondies

« Gemini Live » offre une expérience immersive, permettant aux utilisateurs de s’engager dans des conversations vocales détaillées avec Gemini. Cette fonctionnalité est disponible dans les applications Gemini sur les appareils mobiles et sur les Pixel Buds Pro 2, où elle est accessible même lorsque le téléphone est verrouillé.

Avec Gemini Live, les utilisateurs peuvent interrompre Gemini pendant qu’il parle pour poser des questions de clarification, et le chatbot s’adapte aux schémas de parole en temps réel. Live est également conçu pour fonctionner comme un coach virtuel, aidant à la préparation d’événements, au brainstorming et à d’autres tâches. Par exemple, Live peut suggérer des compétences à mettre en évidence lors d’un entretien d’embauche et fournir des conseils de prise de parole en public.

Gemini pour les adolescents : une expérience d’IA adaptée aux étudiants

Google propose une expérience Gemini spécialisée adaptée aux adolescents.

Cette version de Gemini axée sur les adolescents intègre des « politiques et des garanties supplémentaires », y compris un processus d’intégration personnalisé et un guide d’alphabétisation en IA. En dehors de ces modifications, il ressemble beaucoup à l’expérience Gemini standard, y compris la fonctionnalité de « double vérification » qui vérifie l’exactitude des réponses de Gemini en recoupant les informations sur le Web.

Explorer les capacités des modèles Gemini

La nature multimodale des modèles Gemini leur permet d’effectuer un large éventail de tâches, allant de la transcription vocale à la légende d’images et de vidéos en temps réel. Bon nombre de ces capacités ont déjà été intégrées aux produits de Google, et d’autres avancées sont promises dans un avenir proche.

Cependant, il est important de reconnaître que Google, comme ses concurrents, n’a pas entièrement résolu certains des défis inhérents à la technologie de l’IA générative, tels que les biais encodés et la tendance à fabriquer des informations (hallucinations). Ces limitations doivent être prises en compte lors de l’évaluation de l’utilisation de Gemini, en particulier pour les applications critiques.

Les prouesses de Gemini Pro

Google affirme que son dernier modèle Pro, Gemini 2.0 Pro, représente son offre la plus avancée pour le codage et la gestion des invites complexes. 2.0 Pro surpasse son prédécesseur, Gemini 1.5 Pro, dans les benchmarks évaluant la programmation, le raisonnement, les mathématiques et l’exactitude factuelle.

Au sein de la plateforme Vertex AI de Google, les développeurs peuvent personnaliser Gemini Pro pour des contextes et des cas d’utilisation spécifiques grâce à un réglage fin ou à un « grounding ». Par exemple, Pro (ainsi que d’autres modèles Gemini) peut être invité à utiliser les données de fournisseurs tiers comme Moody’s, Thomson Reuters, ZoomInfo et MSCI, ou à s’approvisionner en informations à partir d’ensembles de données d’entreprise ou de Google Search au lieu de sa base de connaissances plus large. Gemini Pro peut également être connecté à des API externes tierces pour effectuer des actions spécifiques, telles que l’automatisation des flux de travail de back-office.

La plateforme AI Studio de Google fournit des modèles pour créer des invites de chat structurées avec Pro. Les développeurs peuvent contrôler la plage créative du modèle, fournir des exemples pour guider le ton et le style, et affiner les paramètres de sécurité de Pro.

Gemini Flash : efficacité légère et capacités de raisonnement de Gemini Flash Thinking

Gemini 2.0 Flash est capable d’utiliser la recherche Google et d’autres API externes. Même s’il est plus petit, il surpasse certains des plus grands modèles 1.5 sur les benchmarks mesurant le codage et l’analyse d’images. En tant que dérivé de Gemini Pro, Flash est conçu pour l’efficacité, ciblant les tâches d’IA générative étroites et à haute fréquence.

Google souligne la pertinence de Flash pour des applications telles que la synthèse, les applications de chat, la légende d’images et de vidéos, et l’extraction de données à partir de longs documents et tableaux. Pendant ce temps, Gemini 2.0 Flash-Lite, une itération plus compacte de Flash, surpasse Gemini 1.5 Flash en performances tout en maintenant le même prix et la même vitesse, selon Google.

En décembre de l’année précédente, Google a présenté une variante « pensante » de Gemini 2.0 Flash, dotée de capacités de « raisonnement ». Ce modèle d’IA prend quelques secondes pour résoudre un problème à rebours avant de fournir une réponse, améliorant potentiellement sa fiabilité.

Gemini Nano : puissance de l’IA sur l’appareil

Gemini Nano est une version remarquablement compacte de Gemini, conçue pour fonctionner directement sur les appareils compatibles, éliminant ainsi le besoin d’envoyer des tâches à un serveur distant. Actuellement, Nano alimente plusieurs fonctionnalités sur les Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 et Samsung Galaxy S24, notamment Summarize in Recorder et Smart Reply in Gboard.

L’application Recorder, qui permet aux utilisateurs d’enregistrer et de transcrire de l’audio, intègre une fonctionnalité de synthèse alimentée par Gemini pour les conversations enregistrées, les interviews, les présentations et autres extraits audio. Ces résumés sont générés même sans connexion réseau, et dans un souci de confidentialité, aucune donnée ne quitte l’appareil de l’utilisateur pendant le processus.

Nano trouve également sa place dans Gboard, le remplacement de clavier de Google, où il alimente Smart Reply. Cette fonctionnalité suggère des réponses dans les applications de messagerie comme WhatsApp, rationalisant les conversations.

Une future itération d’Android devrait exploiter Nano pour alerter les utilisateurs des escroqueries potentielles lors des appels téléphoniques. La nouvelle application météo sur les téléphones Pixel utilise Gemini Nano pour générer des bulletins météorologiques personnalisés. De plus, TalkBack, le service d’accessibilité de Google, utilise Nano pour créer des descriptions auditives d’objets pour les utilisateurs malvoyants.

Gemini Ultra : en attendant son retour

Gemini Ultra a été relativement absent des projecteurs ces derniers mois. Le modèle n’est actuellement pas disponible dans les applications Gemini, et il n’est pas non plus répertorié sur la page de tarification de l’API Gemini de Google. Cependant, cela n’exclut pas la possibilité que Google réintroduise Ultra à l’avenir.

Structure de tarification pour les modèles Gemini

Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash et 2.0 Flash-Lite sont accessibles via l’API Gemini de Google pour le développement d’applications et de services. Ils fonctionnent sur une base de paiement à l’utilisation. Les prix de base, hors modules complémentaires, au 22 février 2025, sont les suivants :

  • Gemini 1.5 Pro : 1,25 $ par million de jetons d’entrée (pour les invites jusqu’à 128 000 jetons) ou 2,50 $ par million de jetons d’entrée (pour les invites de plus de 128 000 jetons) ; 5 $ par million de jetons de sortie (pour les invites jusqu’à 128 000 jetons) ou 10 $ par million de jetons de sortie (pour les invites de plus de 128 000 jetons)
  • Gemini 1.5 Flash : 7,5 cents par million de jetons d’entrée (pour les invites jusqu’à 128 000 jetons), 15 cents par million de jetons d’entrée (pour les invites de plus de 128 000 jetons), 30 cents par million de jetons de sortie (pour les invites jusqu’à 128 000 jetons), 60 cents par million de jetons de sortie (pour les invites de plus de 128 000 jetons)
  • Gemini 2.0 Flash : 10 cents par million de jetons d’entrée, 40 cents par million de jetons de sortie. Pour l’audio, 70 cents par million de jetons d’entrée.
  • Gemini 2.0 Flash-Lite : 7,5 cents par million de jetons d’entrée, 30 cents par million de jetons de sortie.

Les jetons représentent des unités subdivisées de données brutes, telles que les syllabes « fan », « tas » et « tic » dans le mot « fantastique ». Un million de jetons équivaut à environ 750 000 mots. « Entrée » fait référence aux jetons introduits dans le modèle, tandis que « sortie » désigne les jetons générés par le modèle.

La tarification pour 2.0 Pro n’a pas encore été annoncée et Nano reste en accès anticipé.

L’arrivée potentielle de Gemini sur l’iPhone

La perspective de l’intégration de Gemini avec les iPhones est une possibilité distincte.

Apple a indiqué qu’elle était en pourparlers pour potentiellement utiliser Gemini et d’autres modèles tiers pour diverses fonctionnalités de sa suite Apple Intelligence. Suite à une présentation liminaire à la WWDC 2024, le vice-président principal d’Apple, Craig Federighi, a confirmé son intention de collaborer avec des modèles, y compris Gemini, mais s’est abstenu de divulguer d’autres détails.