L’arrivée du mode caméra de Gemini Live marque une étape significative dans l’évolution de l’intelligence artificielle, apportant une part tangible du futur directement à portée de main. Alors que les premiers utilisateurs équipés d’appareils Pixel 9 et Samsung Galaxy S25 ont profité de cette fonctionnalité innovante depuis un certain temps, l’annonce récente de Google lors de sa conférence I/O élargit l’accès à un public beaucoup plus large, englobant à la fois les utilisateurs Android et iOS. Ce développement est particulièrement excitant pour les propriétaires d’iPhone, qui peuvent désormais découvrir l’une des fonctionnalités d’IA les plus convaincantes actuellement disponibles, d’autant plus que le mode caméra a été initialement déployé auprès d’autres utilisateurs Android en avril.
Dévoilement de la Puissance de la Vue : Comment Fonctionne le Mode Caméra de Gemini
Essentiellement, le mode caméra de Gemini Live donne à l’IA la capacité de "voir", lui permettant de reconnaître et d’identifier les objets placés dans le champ de vision de la caméra. Il ne s’agit pas simplement d’un gadget superficiel ; c’est un outil puissant qui permet aux utilisateurs d’interagir avec leur environnement d’une manière plus intuitive et informative.
Au-delà de la simple reconnaissance d’objets, Gemini peut également répondre aux questions sur les éléments identifiés, en fournissant le contexte et les éclaircissements nécessaires à la demande. De plus, les utilisateurs peuvent partager leur écran avec Gemini, permettant à l’IA d’analyser et d’identifier les éléments affichés sur l’écran de leur téléphone. Pour lancer une session en direct avec le mode caméra, les utilisateurs activent simplement la vue caméra en direct, ce qui leur permet d’engager une conversation avec le chatbot sur tout ce que la caméra capture.
Premières Impressions : Un Essai Routier avec Gemini Live
Lors de ma phase de test initiale avec Gemini Live sur un Pixel 9 Pro XL, j’ai été profondément impressionné par ses capacités. Une expérience particulièrement mémorable a consisté à demander à Gemini de localiser mes ciseaux égarés.
L’IA a répondu avec une précision remarquable : "Je viens de repérer vos ciseaux sur la table, juste à côté du paquet vert de pistaches. Les voyez-vous ?"
À ma grande surprise, Gemini avait vu juste. Les ciseaux étaient exactement là où il l’indiquait, bien que je n’aie fait passer la caméra que brièvement devant eux lors d’une session en direct de 15 minutes où je donnais essentiellement à l’IA chatbot une visite guidée de mon appartement.
Intrigué par ce succès initial, j’ai exploré avec enthousiasme le mode caméra plus en détail. Dans un autre test, plus étendu, j’ai activé la fonctionnalité et j’ai commencé à me promener dans mon appartement, invitant Gemini à identifier les objets qu’il voyait. Il a reconnu avec précision divers articles, notamment des fruits, du ChapStick et d’autres objets du quotidien. La redécouverte de mes ciseaux, cependant, est restée la démonstration la plus frappante de ses capacités.
Le fait que Gemini ait identifié les ciseaux sans aucune invite préalable était particulièrement impressionnant. L’IA les avait discrètement reconnus à un moment donné pendant la session et avait rappelé avec précision leur emplacement avec une précision remarquable. Cette expérience a vraiment donné l’impression d’un aperçu du futur, ce qui m’a incité à mener d’autres enquêtes sur son potentiel.
S’inspirer : La Vision de Google pour l’IA Vidéo en Direct
Mon expérimentation avec la fonctionnalité de caméra de Gemini Live reflétait la démo présentée par Google l’été précédent, qui offrait un premier aperçu de ces capacités d’IA vidéo en direct. La démo mettait en scène Gemini rappelant à l’utilisateur où il avait laissé ses lunettes, un exploit apparemment trop beau pour être vrai. Cependant, comme je l’ai découvert, ce niveau de précision était en effet réalisable.
Gemini Live est capable de reconnaître bien plus que de simples articles ménagers. Google affirme qu’il peut aider les utilisateurs à s’orienter dans des gares bondées ou à identifier les garnitures des pâtisseries. Il peut également fournir des informations plus approfondies sur les œuvres d’art, telles que leur origine et s’il s’agit d’une pièce en édition limitée.
Cette fonctionnalité va au-delà de celle de Google Lens ordinaire. Vous pouvez avoir une conversation avec l’IA, qui est beaucoup plus conversationnelle que Google Assistant.
Google a également publié une vidéo YouTube démontrant la fonctionnalité, et elle a maintenant sa propre page sur le Google Store.
Pour commencer, démarrez Gemini, allumez la caméra et commencez à parler.
Gemini Live s’appuie sur le Project Astra de Google, qui a été initialement présenté l’année dernière et qui est peut-être la plus grande fonctionnalité "nous sommes dans le futur" de l’entreprise, une prochaine étape expérimentale pour les capacités d’IA générative, au-delà du simple fait de taper ou même de prononcer des invites dans un chatbot comme ChatGPT, Claude ou Gemini.
Les entreprises d’IA améliorent continuellement les capacités des outils d’IA, de la création vidéo à la puissance de traitement de base. Visual Intelligence d’Apple, que le fabricant d’iPhone a lancé en version bêta l’année dernière, est comparable à Gemini Live.
Gemini Live a le potentiel de révolutionner la façon dont nous nous connectons à l’environnement en fusionnant nos environnements numériques et physiques lorsque nous tenons simplement la caméra devant n’importe quoi.
Mettre Gemini Live à l’Épreuve : Scénarios du Monde Réel
La première fois que je l’ai utilisé, Genesis a reconnu avec précision un objet de collection de jeu très spécifique d’un lapin en peluche dans le champ de vision de ma caméra. La deuxième fois, je l’ai montré à un ami dans une galerie d’art. Il a immédiatement reconnu la tortue sur une croix (ne me demandez pas) et a identifié et traduit le kanji juste à côté, donnant à nous deux des frissons et nous laissant légèrement effrayés. D’une manière positive, je crois.
J’ai commencé à réfléchir à la façon dont je pourrais tester la fonction de manière intensive. Lorsque j’ai essayé de l’enregistrer à l’écran en action, cela a systématiquement échoué. Et si je m’écartais du chemin habituel ? Je suis un grand fan du genre horreur (films, séries télévisées et jeux vidéo) et je possède une pléthore d’objets de collection, de bibelots et d’autres articles. Comment se comporterait-il avec des articles plus obscurs, comme mes objets de collection sur le thème de l’horreur ?
Tout d’abord, je dois déclarer que Gemini peut être à la fois incroyablement incroyable et incroyablement irritant au cours de la même série de questions. J’avais environ 11 objets que je voulais que Gemini identifie, et plus la session en direct durait longtemps, pire cela devenait, j’ai donc dû limiter les sessions à un ou deux objets. À mon avis, Gemini a tenté d’utiliser des informations contextuelles provenant d’articles précédemment reconnus pour deviner de nouveaux articles, ce qui est logique dans une certaine mesure, mais n’a finalement profité ni à moi ni à lui.
Parfois, Gemini était tout à fait exact, fournissant les bonnes réponses facilement et sans confusion, bien que cela se produise plus fréquemment avec des objets plus récents ou plus populaires. J’ai été surpris, par exemple, lorsqu’il a immédiatement déduit que l’un de mes objets de test n’était pas seulement de Destiny 2, mais aussi une édition limitée d’un événement saisonnier de l’année précédente.
Gemini se tromperait fréquemment complètement, me demandant de fournir d’autres indices afin de me rapprocher de la bonne réponse. Parfois, il semblait que Gemini utilisait le contexte de mes sessions en direct précédentes pour générer des réponses, identifiant plusieurs objets comme provenant de Silent Hill alors qu’ils ne l’étaient pas. J’ai une vitrine consacrée à la série de jeux, je peux donc comprendre pourquoi il voudrait y entrer rapidement.
Dévoilement des Imperfections : Bugs et Bizarreries dans le Système
Gemini peut parfois être complètement buggé. À l’occasion, Gemini a mal identifié l’un des objets comme un personnage fictif du jeu inédit Silent Hill : f, combinant clairement des parties de différents titres en quelque chose qui n’a jamais existé. Lorsque Gemini a donné une réponse incorrecte, et que je l’ai corrigée et que je lui ai donné un indice plus précis sur la réponse — ou que je lui ai simplement donné la réponse — seulement pour qu’il répète la réponse incorrecte comme s’il s’agissait d’une nouvelle supposition, était l’autre bug cohérent que j’ai rencontré. Lorsque cela se produisait, je fermais la session et j’en commençais une nouvelle, ce qui n’était pas toujours utile.
Une technique que j’ai découverte était que certaines discussions étaient plus efficaces que d’autres. Si je parcourais ma liste de conversations Gemini, appuyais sur un ancien chat qui avait correctement identifié un article particulier, puis reprenais le direct à partir de ce chat, il serait en mesure d’identifier les articles sans aucun problème. Bien que cela ne soit pas toujours inattendu, il était intéressant de noter que certains dialogues fonctionnaient mieux que d’autres, même en utilisant le même langage.
Google n’a pas répondu à mes demandes d’informations supplémentaires sur la façon dont Gemini Live fonctionne.
Je voulais que Gemini réponde avec succès à mes questions difficiles, parfois très spécifiques, j’ai donc offert de nombreux indices pour l’aider à le faire. Les coups de coude se sont avérés utiles, mais pas toujours.
Une Technologie Transformatrice : L’Impact Potentiel de Gemini Live
Gemini Live représente un changement de paradigme dans la façon dont nous interagissons avec notre environnement, fusionnant de manière transparente les domaines numérique et physique à travers l’objectif de nos caméras. Bien que la technologie en soit encore à ses débuts, ses applications potentielles sont vastes et transformatrices.
Imaginez utiliser Gemini Live pour :
- Naviguer dans des environnements inconnus : Pointez simplement votre caméra sur des panneaux de signalisation ou des points de repère, et Gemini fournira des indications et des informations en temps réel.
- En savoir plus sur les artefacts historiques : Lors de la visite d’un musée, utilisez Gemini pour identifier et fournir le contexte des œuvres d’art et des objets historiques.
- Cuisiner des recettes complexes : Demandez à Gemini de vous guider à travers chaque étape d’une recette, en identifiant les ingrédients et en suggérant des techniques alternatives.
- Diagnostiquer des problèmes domestiques simples : Pointez votre caméra sur un appareil défectueux, et Gemini fournira des conseils de dépannage et des solutions potentielles.
Ce ne sont là que quelques exemples des innombrables façons dont Gemini Live peut améliorer notre vie quotidienne. À mesure que la technologie continue d’évoluer et de s’améliorer, son potentiel à révolutionner la façon dont nous interagissons avec le monde qui nous entoure est vraiment illimité.
L’intégration de Gemini Live dans les appareils iOS élargit encore sa portée et son accessibilité, apportant la puissance de la vision basée sur l’IA à un public plus large. Alors que la technologie de l’IA continue de progresser à un rythme exponentiel, les fonctionnalités telles que Gemini Live offrent un aperçu d’un avenir où nos appareils ne sont pas seulement des outils de communication et de divertissement, mais aussi des compagnons intelligents qui peuvent nous aider à naviguer, à comprendre et à interagir avec le monde qui nous entoure de manière nouvelle et significative.