Gemini dans Chrome : Aperçu du futur agentique de Google

L’intégration de Gemini dans Chrome par Google marque ce qui semble être une étape préliminaire vers une ère plus agentique pour le géant technologique. Cette nouvelle fonctionnalité intègre l’assistant IA directement dans votre navigateur, lui permettant de «voir» votre activité en ligne et d’offrir des résumés et des réponses liés au contenu sur votre écran.

Une matinée avec Gemini dans Chrome

Mon expérimentation avec Gemini dans Chrome, cette nouvelle intégration, a occupé ma matinée. Au lieu de naviguer vers l’application web dédiée du chatbot, un simple clic sur la nouvelle icône Gemini, idéalement située dans le coin supérieur droit de Chrome, initie une conversation. La caractéristique déterminante de cette intégration réside dans la capacité du navigateur à «voir» le contenu affiché sur votre écran lorsque vous naviguez sur le web.

Cette intégration m’a frappé comme un élan initial dans la grande vision de Google de créer une IA plus agentique. Je me suis fréquemment retrouvé à aspirer à des fonctionnalités au-delà de ses capacités actuelles. Actuellement, l’accès à la version à accès anticipé de Gemini dans Chrome est limité aux abonnés de AI Pro ou AI Ultra, utilisant les versions Beta, Dev ou Canary de Chrome.

Mon exploration initiale impliquait l’utilisation de Gemini pour résumer des articles sur The Verge. Elle s’est également étendue à la découverte d’actualités liées aux jeux sur la page d’accueil, où l’IA a mis en évidence à juste titre l’ajout par Nintendo de nouveaux jeux Game Boy à son service Switch Online, la prochaine adaptation cinématographique d’Elden Ring et la mise à jour significative de Valve pour Steam Deck.

Le champ de vision de Gemini est limité à ce qui est affiché directement sur chaque page web. Si vous souhaitez résumer un composant spécifique sur une page, comme la section des commentaires de The Verge, il doit être étendu avant que le chatbot ne fournisse une réponse. De plus, Gemini peut vous suivre à travers plusieurs onglets, mais ne collecte des informations que d’un seul onglet à la fois.

Pour ceux qui sont peu enclins à taper, Gemini dans Chrome offre une fonctionnalité «Live», accessible via un bouton dans le coin inférieur droit de la boîte de dialogue. L’activation de cette fonction vous permet de poser des questions verbalement, Gemini répondant de manière audible.

J’ai trouvé cela particulièrement utile lors du visionnage de vidéos YouTube. Quand je regardais, par exemple, une vidéo de rénovation de salle de bain, j’ai demandé: «Quel outil utilise-t-il?». Gemini a répondu: «Il semble qu’il utilise un pistolet à clous pour fixer des morceaux de bois ensemble.» Au cours d’une autre vidéo, Gemini a correctement identifié un condensateur sur une carte mère, ainsi que les pincettes et l’outil à air chaud que le YouTuber a utilisés pour le retirer. Il a également la capacité de donner des résumés de vidéos et des informations sur les parties que vous avez sautées, cependant, j’ai découvert que ce n’est pas toujours correct si une vidéo n’a pas de chapitres étiquetés.

L’un des cas d’utilisation les plus intéressants pour cette intégration est Gemini qui extrait des recettes de vidéos YouTube, ce qui signifie que je n’ai pas eu à écrire les recettes moi-même ni à rechercher un lien dans la description. Cela s’est également avéré pratique lorsque je lui ai demandé de me montrer les sacs étanches sur une page de recherche Amazon.

Incohérences et limitations

Cependant, les performances de Gemini n’étaient pas sans ses incohérences. Lorsqu’on lui a demandé où se trouvait MrBeast lors d’une vidéo montrant son exploration d’anciennes villes mayas, dont Chichén Itzá, l’IA a répondu: «Je n’ai pas accès à des informations en temps réel, je ne peux donc pas identifier l’emplacement actuel exact de MrBeast.» Après avoir reformulé la question, elle a cité avec précision l’emplacement mentionné dans la description de la vidéo: le Mexique. À une autre occasion, lors de la recherche d’un lien pour acheter une pince spécifique présentée dans une vidéo, Gemini a réitéré son manque d’accès à des informations en temps réel, y compris les listes de produits ou les inventaires des magasins. Malgré cette limitation, elle a facilement fourni des liens vers des produits alternatifs sur demande.

Parfois, la longueur des réponses de Gemini semblait disproportionnée par rapport à l’espace limité offert par la fenêtre contextuelle dans Chrome. Bien que la fenêtre puisse être agrandie, elle empiète considérablement sur l’espace d’écran déjà limité de mon MacBook Air 13 pouces. Un attrait principal de l’IA réside dans sa capacité à accélérer les tâches en fournissant des réponses concises et pertinentes, une promesse que Gemini ne tient pas toujours à moins d’y être expressément invité. De plus, les questions de suivi répétitives de l’IA, demandant si je souhaitais des informations supplémentaires sur un sujet particulier, sont devenues quelque peu fatigantes.

Le chemin vers une IA agentique

Malgré ces lacunes, il est facile d’imaginer Google étendant l’utilisation de Gemini au-delà des simples questions et réponses. Google souhaite que son IA devienne «agentique», ce qui signifie qu’elle peut effectuer des tâches en votre nom, et Gemini dans Chrome semble prêt à adopter un jour ce type de fonctionnalités. Après avoir demandé à Gemini de résumer le menu d’un restaurant, par exemple, j’ai même pensé à lui demander de passer une commande à emporter - une tâche agentique qu’il ne peut tout simplement pas encore faire. À l’avenir, je pourrais même le voir être utile en lui demandant de mettre en signet les pages liées à la recherche de voyage pour moi, ou peut-être même de trouver et d’enregistrer des vidéos YouTube de différentes recettes dans ma playlist À Regarder Plus Tard.

Google semble progresser vers la réalisation de cette vision avec le «Mode Agent» de Project Mariner prévu pour l’application Gemini. Cette fonctionnalité permettra à l’IA de gérer jusqu’à 10 tâches simultanément et de rechercher indépendamment sur le web, ouvrant potentiellement la voie à l’intégration de ces capacités dans Gemini dans Chrome à l’avenir. Cela conduirait à ce que Gemini soit plus impliqué dans les recherches sur le web, et à faciliter l’organisation des tâches et des requêtes.

Applications futures potentielles

Les possibilités d’applications futures de Gemini dans Chrome sont vastes et convaincantes. Imaginez un scénario où l’IA s’intègre de manière transparente à votre expérience d’achat en ligne, identifiant de manière proactive les meilleures offres, comparant les prix entre différents détaillants et même effectuant l’achat en votre nom, tout en respectant vos préférences et votre budget prédéfinis. Ce niveau d’intégration transformerait les achats en ligne, passant d’une corvée potentiellement fastidieuse à un processus simplifié et efficace.

De plus, considérez le potentiel de Gemini pour révolutionner la recherche en ligne. Au lieu de passer manuellement au crible d’innombrables articles et sites web, vous pourriez simplement charger Gemini de collecter des informations sur un sujet spécifique, en spécifiant la profondeur d’analyse souhaitée, les sources préférées et le format dans lequel vous souhaitez que les informations soient présentées. Gemini pourrait alors compiler un rapport complet, avec des citations et des résumés, vous faisant gagner d’innombrables heures de recherche fastidieuse.

Dans le domaine de la productivité, Gemini pourrait devenir votre assistant personnel ultime, gérant votre emploi du temps, priorisant vos tâches et même rédigeant des courriels et des présentations en fonction de vos instructions. Imaginez dicter vos pensées et vos idées à Gemini, qui les transformerait ensuite en une présentation soignée et professionnelle, avec des visuels et des données pertinents. Cela vous освобождение des tâches chronophages de la création de présentations à partir de zéro, vous permettant de vous concentrer sur les aspects plus stratégiques de votre travail.

Pour les étudiants, Gemini pourrait servir de ressource d’apprentissage inestimable, offrant un tutorat personnalisé, répondant aux questions et même aidant aux devoirs de recherche. Imaginez pouvoir demander à Gemini d’expliquer un concept complexe en termes simples, ou de fournir des exemples et des illustrations pour vous aider à mieux comprendre le matériel. Cela rendrait l’apprentissage plus engageant et efficace, et permettrait aux étudiants de prendre le contrôle de leur propre éducation.

Aborder les préoccupations et les défis

Cependant, l’intégration de l’IA dans notre vie quotidienne soulève également des préoccupations légitimes qui doivent être abordées de manière proactive. L’une des préoccupations les plus pressantes est le potentiel de biais dans les algorithmes d’IA. Si les données utilisées pour entraîner ces algorithmes reflètent les biais sociétaux existants, l’IA peut perpétuer et même amplifier ces biais. Il est essentiel de s’assurer que les algorithmes d’IA sont entraînés sur des ensembles de données diversifiés et représentatifs, et qu’ils sont audités régulièrement pour détecter les biais.

Une autre préoccupation est le potentiel de déplacement d’emplois causé par l’automatisation de l’IA. À mesure que l’IA devient de plus en plus capable d’effectuer des tâches qui étaient auparavant effectuées par des humains, il existe un risque que de nombreux emplois soient éliminés. Pour atténuer ce risque, il est essentiel d’investir dans des programmes d’éducation et de formation qui équipent les travailleurs des compétences dont ils ont besoin pour prospérer à l’ère de l’IA. Cela comprend la promotion de compétences telles que la pensée critique, la résolution de problèmes et la créativité, qui sont difficiles à reproduire par l’IA.

Enfin, il existe des considérations éthiques concernant l’utilisation de l’IA, en particulier dans des domaines tels que la confidentialité et la sécurité. Il est essentiel d’établir des lignes directrices et des réglementations claires régissant le développement et le déploiement de l’IA, en veillant à ce qu’elle soit utilisée de manière responsable et éthique. Cela comprend la protection de la vie privée des individus, la prévention de l’utilisation abusive de l’IA à des fins malveillantes et la garantie que les systèmes d’IA sont transparents et responsables.

L’avenir de l’intégration de l’IA

Gemini dans Chrome de Google est une étape prometteuse vers une expérience de navigation plus intégrée et intelligente. Bien que l’implémentation actuelle ait ses limites, elle offre un aperçu du potentiel de l’IA pour transformer la façon dont nous interagissons avec le web. À mesure que la technologie de l’IA continue d’évoluer, nous pouvons nous attendre à voir des intégrations encore plus sophistiquées et transparentes de l’IA dans notre vie quotidienne. La clé sera d’aborder les défis éthiques et sociétaux associés à l’IA de manière proactive, en veillant à ce qu’elle soit utilisée au profit de l’humanité dans son ensemble.

L’évolution de l’intégration de l’IA dans les navigateurs comme Chrome nécessite également une réévaluation des normes web et des protocoles de sécurité existants. À mesure que l’IA acquiert la capacité d’interpréter et d’interagir plus profondément avec le contenu web, de nouvelles vulnérabilités peuvent apparaître qui pourraient être exploitées par des acteurs malveillants. Par conséquent, il est essentiel que les développeurs de navigateurs et les experts en sécurité collaborent au développement de nouvelles mesures de sécurité qui peuvent protéger les utilisateurs contre ces menaces émergentes. Cela comprend le renforcement des défenses contre les attaques de phishing, les logiciels malveillants et d’autres formes de fraude en ligne.

En outre, la dépendance croissante à l’IA dans les navigateurs pourrait également conduire à la création de nouvelles formes de fracture numérique. Les personnes qui n’ont pas accès à une connexion internet haut débit ou à des appareils informatiques avancés peuvent être désavantagées, car elles ne pourront pas utiliser pleinement les capacités des navigateurs alimentés par l’IA. Pour résoudre ce problème, il est essentiel d’investir dans des améliorations de l’infrastructure et des programmes d’alphabétisation numérique qui peuvent garantir que chacun a la possibilité de bénéficier des progrès de la technologie de l’IA.

De plus, l’intégration de l’IA dans les navigateurs pourrait également avoir un impact significatif sur l’industrie de la publicité. À mesure que l’IA s’améliore dans la compréhension des préférences et des comportements des utilisateurs, elle pourrait être utilisée pour diffuser des publicités plus ciblées et personnalisées. Bien que cela puisse potentiellement conduire à une expérience publicitaire plus pertinente et engageante, cela soulève également des préoccupations concernant la confidentialité et la sécurité des données. Il est essentiel que les organismes de réglementation et les parties prenantes de l’industrie établissent des lignes directrices et des réglementations claires régissant l’utilisation de l’IA dans la publicité, en veillant à ce que la vie privée des utilisateurs soit protégée et que les données soient utilisées de manière responsable.