IA de Google : retouche photo par texte

Une nouvelle ère de manipulation d’images

Contrairement à de nombreux outils d’IA d’image existants qui se concentrent principalement sur la génération d’images entièrement nouvelles à partir de zéro, Gemini 2.0 Flash se distingue par sa capacité à comprendre et à modifier des photographies existantes. Ce système comprend si bien le contenu d’une photo qu’il peut apporter des modifications spécifiques sur la base d’instructions conversationnelles, tout en préservant l’essence de l’image originale.

Cette prouesse remarquable est réalisée grâce à la nature multimodal native de Gemini 2.0. Il traite de manière transparente le texte et les images simultanément. Le modèle convertit ingénieusement les images en ‘tokens’ – les mêmes unités fondamentales qu’il emploie pour le traitement de texte. Cela lui permet de manipuler le contenu visuel en utilisant les mêmes voies neuronales qu’il utilise pour comprendre le langage. Cette approche unifiée élimine le besoin de modèles distincts et spécialisés pour gérer différents types de médias, rationalisant ainsi l’ensemble du processus.

‘Gemini 2.0 Flash exploite l’entrée multimodale, le raisonnement amélioré et la compréhension du langage naturel pour créer des images’, a déclaré Google dans son annonce officielle. ‘Imaginez utiliser Gemini 2.0 Flash pour raconter une histoire, et il l’illustre avec des images, en maintenant la cohérence des personnages et des décors. Fournissez des commentaires, et le modèle adaptera l’histoire ou modifiera le style de ses dessins.’

Cette approche distingue Google de ses concurrents comme OpenAI. Bien que ChatGPT puisse générer des images à l’aide de Dall-E 3 et itérer sur ses créations en comprenant le langage naturel, il s’appuie sur un modèle d’IA distinct pour y parvenir. En substance, ChatGPT orchestre une interaction complexe entre GPT-V pour la vision, GPT-4o pour le langage et Dall-E 3 pour la génération d’images. OpenAI, cependant, prévoit de réaliser un modèle unique et global avec le futur GPT-5.

Un concept parallèle existe dans le domaine open-source avec OmniGen, développé par des chercheurs de l’Académie d’intelligence artificielle de Pékin. Ses créateurs envisagent de ‘générer une variété d’images directement à travers des instructions arbitrairement multimodales, sans avoir besoin de plugins ou d’opérations supplémentaires, de la même manière que GPT fonctionne dans la génération de langage’.

OmniGen offre des fonctionnalités telles que la modification d’objets, la fusion de scènes et les ajustements esthétiques. Cependant, il est considérablement moins convivial que le nouveau Gemini, fonctionne avec des résolutions inférieures, exige des commandes plus complexes et, finalement, n’a pas la puissance brute de l’offre de Google. Néanmoins, il présente une alternative open-source intéressante pour certains utilisateurs.

Mettre Gemini 2.0 Flash à l’épreuve

Pour vraiment saisir les capacités et les limites de Gemini 2.0 Flash, une série de tests pratiques ont été menés, explorant divers scénarios d’édition. Les résultats mettent en évidence à la fois des forces impressionnantes et certains domaines à améliorer.

Modification de sujets réalistes avec précision

Le modèle présente une cohérence remarquable lorsqu’il est chargé de modifier des sujets réalistes. Par exemple, dans un test d’autoportrait, une demande d’ajout de définition musculaire a donné le résultat souhaité. Bien que des modifications mineures du visage se soient produites, la reconnaissance globale a été maintenue.

De manière cruciale, d’autres éléments de la photo sont restés largement intacts, démontrant la capacité de l’IA à se concentrer uniquement sur la modification spécifiée. Cette capacité d’édition ciblée contraste fortement avec les approches génératives typiques qui reconstruisent souvent des images entières, introduisant potentiellement des changements indésirables.

Il est également important de noter les protections intégrées du modèle. Il refuse systématiquement de modifier les photos d’enfants et évite de traiter tout contenu lié à la nudité, reflétant l’engagement de Google en faveur d’un développement responsable de l’IA. Pour les utilisateurs cherchant à explorer des manipulations d’images plus osées, OmniGen pourrait être une option plus appropriée.

Maîtriser les transformations de style

Gemini 2.0 Flash démontre une aptitude remarquable pour les conversions de style. Une demande de transformation d’une photographie de Donald Trump dans le style du manga japonais a donné lieu à une réinterprétation réussie après quelques tentatives.

Le modèle gère habilement un large éventail de transferts de style, convertissant des photos en dessins, peintures à l’huile ou pratiquement n’importe quel style artistique imaginable. Les utilisateurs peuvent affiner les résultats en ajustant les paramètres de température et en activant divers filtres. Cependant, il convient de noter que des paramètres de température plus élevés ont tendance à produire des transformations moins fidèles à l’image originale.

Une limitation notable apparaît lors de la demande de styles associés à des artistes spécifiques. Les tests impliquant les styles de Léonard de Vinci, Michel-Ange, Botticelli ou Van Gogh ont conduit l’IA à reproduire des peintures réelles de ces maîtres, plutôt qu’à appliquer leurs techniques distinctes à l’image source.

Avec un certain raffinement de l’invite et quelques itérations, un résultat utilisable, bien que médiocre, peut être obtenu. En général, il est plus efficace de demander le style artistique souhaité plutôt que l’artiste spécifique.

L’art de la manipulation des éléments

Pour les tâches d’édition pratiques, Gemini 2.0 Flash excelle vraiment. Il gère de manière experte l’inpainting et la manipulation d’objets, supprimant de manière transparente des objets spécifiques sur demande ou ajoutant de nouveaux éléments à une composition. Dans un test, l’IA a été invitée à remplacer un ballon de basket par un poulet en caoutchouc géant, offrant un résultat humoristique mais contextuellement approprié.

Bien que des modifications mineures occasionnelles des sujets puissent se produire, elles sont généralement facilement rectifiables avec des outils d’édition numérique standard en quelques secondes.

Peut-être de manière plus controversée, le modèle démontre une compétence dans la suppression des protections du droit d’auteur – une fonctionnalité qui a suscité des discussions considérables sur des plateformes comme X. Lorsqu’on lui a présenté une image contenant des filigranes et qu’on lui a demandé d’éliminer toutes les lettres, logos et filigranes, Gemini a généré une image propre, pratiquement impossible à distinguer de l’original non filigrané.

L’un des aspects les plus techniquement impressionnants de Gemini est sa capacité à modifier la perspective – un exploit avec lequel les modèles de diffusion traditionnels ont généralement du mal. L’IA peut réimaginer une scène sous différents angles, bien que les résultats soient essentiellement de nouvelles créations plutôt que des transformations précises de l’original.

Bien que les changements de perspective ne donnent pas de résultats parfaits – le modèle conceptualise, après tout, l’image entière à partir d’un nouveau point de vue – ils représentent une avancée significative dans la compréhension par l’IA de l’espace tridimensionnel à partir d’entrées bidimensionnelles.

Un phrasé approprié est crucial lors de l’instruction du modèle pour manipuler les arrière-plans. Il a souvent tendance à modifier l’ensemble de l’image, ce qui donne une composition radicalement différente.

Par exemple, dans un test, il a été demandé à Gemini de changer l’arrière-plan d’une photo, en plaçant un robot assis en Égypte au lieu de son emplacement d’origine. L’instruction indiquait explicitement de ne pas modifier le sujet. Cependant, le modèle a eu du mal à gérer cette tâche spécifique avec précision, fournissant à la place une composition complètement nouvelle comportant les pyramides, avec un robot debout, mais pas comme objectif principal.

Une autre limitation observée est que, bien que le modèle puisse itérer plusieurs fois sur une seule image, la qualité des détails a tendance à se dégrader à chaque itération successive. Par conséquent, il est essentiel d’être conscient de la dégradation potentielle de la qualité lors de l’exécution de modifications importantes.

Ce modèle expérimental est actuellement accessible aux développeurs via Google AI Studio et l’API Gemini dans toutes les régions prises en charge. Il est également disponible sur Hugging Face pour les utilisateurs qui préfèrent ne pas partager leurs informations avec Google.

En conclusion, cette nouvelle offre de Google semble être un joyau caché, tout comme NotebookLM. Il réalise quelque chose que d’autres modèles ne peuvent pas, et il le fait avec un bon niveau de compétence, tout en restant relativement sous le radar. Il vaut sans aucun doute la peine d’être exploré pour les utilisateurs qui souhaitent expérimenter le potentiel de l’IA générative dans l’édition d’images et s’amuser un peu en cours de route. La possibilité de simplement décrire les changements souhaités en langage clair ouvre un monde de possibilités pour les utilisateurs occasionnels et les professionnels, marquant une avancée significative dans la démocratisation de la manipulation d’images. Cette technologie a le potentiel de remodeler la façon dont nous interagissons avec le contenu visuel, rendant les techniques d’édition avancées accessibles à tous, quelles que soient leurs compétences techniques. Les implications sont vastes, allant des améliorations de photos personnelles aux flux de travail de conception professionnels, et même à la création de formes d’art visuel entièrement nouvelles. Alors que la technologie continue d’évoluer, il sera fascinant d’assister à son impact sur le paysage créatif.