Gemini Veo 2 : Premières Impressions Mitigées

L’arrivée des vidéos IA de Google Gemini, mais les premières impressions sont tièdes.

Google est officiellement entré dans le domaine de la vidéo d’intelligence artificielle, rendant son modèle vidéo Veo 2 AI accessible aux abonnés de Gemini Advanced.

Cela marque les débuts publics de la technologie vidéo IA de Google, bien que derrière un paywall à ses débuts.

Ceux qui souhaitent expérimenter Veo 2 peuvent profiter d’un essai gratuit d’un mois de l’abonnement premium Google One AI, qui comprend l’accès à Gemini Advanced. Après l’essai, l’abonnement est au prix de 20 $ par mois. Veo 2 est également intégré au nouveau projet d’animation IA de Google Labs. Google a l’intention d’étendre la disponibilité de Veo 2 aux utilisateurs gratuits à l’avenir.

L’avènement de la vidéo IA représente la dernière évolution de l’IA générative. La large diffusion de Veo 2 par Google fait suite à des initiatives similaires d’OpenAI (Sora) et d’Adobe (Firefly). Le secteur des services créatifs d’IA devient de plus en plus compétitif, avec les grandes entreprises technologiques dévoilant leurs modèles vidéo IA. L’entrée de Google témoigne d’un élan croissant dans les offres de services vidéo IA.

La politique de confidentialité de Google Gemini stipule qu’elle peut collecter des données provenant des interactions des utilisateurs, notamment les conversations et les fichiers, conseillant aux utilisateurs de ne pas partager d’informations confidentielles. En consentant à la politique d’IA générative de Google, les utilisateurs acceptent de se conformer aux directives d’utilisation acceptable de l’entreprise, visant à empêcher la création de contenu nuisible ou illégal.

Les utilisateurs peuvent produire de courts clips IA via le Web Gemini ou l’application mobile en sélectionnant Veo 2 parmi les options de modèle dans l’interface Gemini Advanced. Les vidéos sont généralement générées en une minute ou deux.

Ces clips générés par l’IA sont limités à huit secondes de durée et à une résolution de 720p, sans audio. Gemini rend automatiquement les vidéos dans un format horizontal 16:9, sans options apparentes pour d’autres tailles, même si spécifié dans l’invite. De plus, les utilisateurs ne peuvent pas télécharger d’images ou de références de style, ce qui nécessite une maîtrise de l’ingénierie des invites de l’IA pour obtenir les résultats vidéo souhaités.

Il existe des restrictions sur le nombre de vidéos que les utilisateurs peuvent générer mensuellement, bien que la mesure précise de ces crédits reste indéfinie. Google indique que les utilisateurs recevront un avertissement dans Gemini à l’approche de leur limite.

Les filigranes SynthID de Google sont automatiquement intégrés dans les vidéos Veo 2. Ces filigranes imperceptibles servent à identifier le contenu généré entièrement par l’IA. Google utilise également cette technologie pour les images produites à l’aide de son modèle de texte à image Imagen 3.

Les premières évaluations de Veo 2 suggèrent que les vidéos sont satisfaisantes mais banales. Gemini a démontré une adhésion louable aux invites, générant avec précision du contenu avec un minimum d’erreurs ou d’incohérences. Cependant, des plateformes comme Sora et Firefly permettent la création de vidéos IA à des résolutions plus élevées, telles que 1080p, et offrent des options de personnalisation plus étendues, qui sont essentielles pour minimiser le montage de post-production. Bien que Google ait sans aucun doute des projets d’améliorations Veo, Veo 2 sert actuellement d’outil intriguant pour l’expérimentation, mais il est peu probable qu’il devienne essentiel pour les flux de travail quotidiens des créateurs.

Plongée en profondeur dans Veo 2 de Gemini : une vue d’ensemble complète

Bien que la version initiale de Veo 2 de Google puisse sembler décevante par rapport à des concurrents comme Sora d’OpenAI et Firefly d’Adobe, il est essentiel d’approfondir les détails de ses capacités, de ses limites et de son potentiel. Il est essentiel de comprendre ces nuances pour quiconque envisage d’intégrer Veo 2 dans son flux de travail créatif.

Résolution et qualité de sortie

L’une des limites les plus immédiates de Veo 2 est sa résolution de sortie maximale de 720p. À une époque où la vidéo 4K est de plus en plus courante et où même les appareils mobiles sont capables d’enregistrer en haute définition, cette contrainte a un impact significatif sur la qualité perçue du contenu généré. Bien que 720p puisse suffire pour les publications rapides sur les médias sociaux ou les communications internes, il est insuffisant pour les applications professionnelles ou les projets nécessitant une fidélité visuelle élevée. Les concurrents comme Sora, qui offrent une sortie 1080p, ont immédiatement un avantage dans ce domaine.

Absence audio

L’absence d’audio dans les vidéos générées par Veo 2 est un autre inconvénient notable. Le son est un élément crucial de la narration vidéo, et son absence nécessite un travail de post-production supplémentaire pour ajouter de la musique, des effets sonores ou des dialogues. Cela augmente non seulement le temps et les efforts nécessaires pour créer un produit fini, mais limite également les possibilités créatives au sein du processus de génération d’IA lui-même. Les utilisateurs qui espèrent créer rapidement des vidéos attrayantes avec un son intégré trouveront que Veo 2 est insuffisant à cet égard.

Options de personnalisation limitées

Les options de personnalisation limitées de Veo 2 restreignent encore davantage sa convivialité. L’incapacité de spécifier des proportions au-delà du format standard 16:9, combinée à l’absence de prise en charge des images ou des références de style, rend difficile l’adaptation de la sortie à des visions créatives spécifiques. Cela oblige les utilisateurs à s’appuyer fortement sur les invites textuelles uniquement, ce qui peut être difficile à affiner pour obtenir des résultats précis. En revanche, les plateformes qui permettent une entrée visuelle et un contrôle plus granulaire sur le style et la composition offrent un avantage significatif.

Défis liés à l’ingénierie des invites

Compte tenu des limitations de la personnalisation, une ingénierie efficace des invites devient primordiale lors de l’utilisation de Veo 2. Les utilisateurs doivent apprendre à créer desinvites détaillées et précises pour guider l’IA vers le résultat souhaité. Cela nécessite une compréhension approfondie de la façon dont l’IA interprète le langage et le traduit en contenu visuel. Bien que l’expérimentation puisse aider les utilisateurs à développer cette compétence, la courbe d’apprentissage peut être abrupte, et même les ingénieurs d’invites expérimentés peuvent avoir du mal à obtenir des résultats cohérents. L’absence de rétroaction visuelle pendant le processus de création d’invites complique encore les choses.

Limites de génération mensuelles

Les limites de génération mensuelles non divulguées ajoutent une autre couche d’incertitude à la convivialité de Veo 2. Sans informations claires sur la façon dont ces limites sont calculées, les utilisateurs peuvent hésiter à intégrer pleinement Veo 2 dans leur flux de travail, craignant de manquer de crédits à un moment critique. Ce manque de transparence est particulièrement préoccupant pour les utilisateurs professionnels qui comptent sur un accès prévisible aux outils d’IA.

La promesse des filigranes SynthID

Malgré ses limites, Veo 2 offre un avantage notable : l’inclusion de filigranes SynthID. Ces filigranes invisibles aident à distinguer le contenu généré par l’IA du contenu créé par l’homme, ce qui devient de plus en plus important dans la lutte contre la désinformation et les deepfakes. Bien que l’efficacité de SynthID dans la détection des vidéos générées par l’IA sur différentes plateformes et processus de montage reste à voir, son inclusion signale l’engagement de Google envers le développement responsable de l’IA.

Potentiel de croissance future

Il est important de se rappeler que Veo 2 n’en est qu’à ses débuts de développement. Google a l’habitude d’améliorer itérativement ses produits d’IA, et il est probable que Veo 2 recevra des mises à jour et des améliorations importantes à l’avenir. Les améliorations potentielles pourraient inclure :

  • Résolution de sortie accrue (1080p, 4K)
  • Intégration audio
  • Options de personnalisation plus étendues (proportions, références de style)
  • Outils d’ingénierie des invites améliorés
  • Informations plus claires sur les limites de génération
  • Technologie de filigrane SynthID améliorée

Veo 2 dans le contexte plus large de la génération de vidéos IA

Pour vraiment comprendre la position de Veo 2 sur le marché, il est essentiel de la comparer à d’autres plateformes de génération de vidéos IA de premier plan. Bien que chaque plateforme ait ses propres forces et faiblesses, la compréhension de ces différences peut aider les utilisateurs à prendre des décisions éclairées quant à l’outil qui convient le mieux à leurs besoins.

Sora d’OpenAI

Sora d’OpenAI est sans doute la plateforme de génération de vidéos IA la plus médiatisée actuellement disponible. Ses principaux atouts sont les suivants :

  • Sortie de haute qualité : Sora est capable de générer des vidéos à une résolution de 1080p avec une fidélité visuelle impressionnante.
  • Mouvement réaliste : Sora excelle dans la création de mouvements réalistes et d’apparence naturelle, ce qui est essentiel pour créer des scènes crédibles.
  • Génération de scènes complexes : Sora peut générer des vidéos avec des détails complexes et des interactions complexes entre les objets et les personnages.
  • Texte en vidéo et image en vidéo : Sora prend en charge les invites textuelles et d’images, offrant aux utilisateurs un degré élevé de flexibilité.

Cependant, Sora a également ses limites :

  • Disponibilité limitée : Sora n’est actuellement disponible que pour un groupe restreint de chercheurs et d’artistes.
  • Coût de calcul élevé : La génération de vidéos avec Sora nécessite des ressources de calcul importantes, ce qui pourrait entraîner des coûts d’utilisation élevés à l’avenir.
  • Potentiel d’utilisation abusive : La possibilité de créer des vidéos générées par l’IA très réalistes soulève des inquiétudes quant au potentiel d’utilisation abusive, comme la création de deepfakes.

Firefly d’Adobe

Firefly d’Adobe est un autre acteur majeur dans le domaine de la génération de vidéos IA. Ses principaux atouts sont les suivants :

  • Intégration avec Adobe Creative Suite : Firefly est parfaitement intégré aux outils créatifs populaires d’Adobe, tels que Photoshop et Premiere Pro, ce qui permet aux utilisateurs d’incorporer facilement du contenu généré par l’IA dans leurs flux de travail existants.
  • Accent mis sur l’utilisation commerciale : Adobe cible spécifiquement Firefly sur les utilisateurs commerciaux, offrant des fonctionnalités telles que l’octroi de licences de contenu et la protection du droit d’auteur.
  • Grand ensemble de données d’apprentissage : Firefly est formé sur un ensemble de données massif d’images Adobe Stock, ce qui garantit une sortie de haute qualité et réduit le risque de générer du matériel protégé par le droit d’auteur.

Cependant, Firefly a également ses limites :

  • Capacités de génération de vidéos limitées : Bien que Firefly soit excellent pour générer des images et des textures, ses capacités de génération de vidéos sont actuellement moins avancées que celles de Sora.
  • Tarification basée sur l’abonnement : L’accès à Firefly nécessite un abonnement à Adobe Creative Cloud, ce qui peut être coûteux pour certains utilisateurs.
  • Dépendance à l’égard de l’écosystème Adobe : Les utilisateurs qui ne connaissent pas déjà les outils créatifs d’Adobe peuvent avoir du mal à intégrer Firefly dans leur flux de travail.

Autres plateformes émergentes

En plus de Sora et Firefly, un certain nombre d’autres plateformes de génération de vidéos IA émergent, chacune avec ses propres fonctionnalités et capacités uniques. Ces plateformes incluent :

  • RunwayML : RunwayML offre une suite d’outils d’IA pour les professionnels de la création, y compris la génération de vidéos, l’édition d’images et le transfert de style.
  • Synthesia : Synthesia se concentre sur la création d’avatars générés par l’IA et de présentateurs virtuels pour les vidéos de formation et de marketing d’entreprise.
  • Pictory : Pictory se spécialise dans la transformation d’articles de blog et d’articles en vidéos attrayantes pour les médias sociaux.

L’avenir de la génération de vidéos IA

Le domaine de la génération de vidéos IA évolue rapidement, et il est probable que nous verrons des progrès significatifs dans les années à venir. Certaines tendances futures potentielles incluent :

  • Résolution et qualité supérieures : Les plateformes de génération de vidéos IA continueront d’améliorer la résolution et la fidélité visuelle de leur sortie, atteignant éventuellement le point où il est difficile de distinguer les vidéos générées par l’IA des vidéos créées par l’homme.
  • Mouvement et physique plus réalistes : L’IA deviendra meilleure dans la simulation de mouvements et de physique réalistes, ce qui rendra les vidéos générées par l’IA plus crédibles et immersives.
  • Contrôle et personnalisation améliorés : Les utilisateurs auront plus de contrôle sur le processus de création, avec la possibilité de spécifier des détails tels que les angles de caméra, l’éclairage et les émotions des personnages.
  • Intégration avec d’autres technologies d’IA : La génération de vidéos IA sera intégrée à d’autres technologies d’IA, telles que le traitement du langage naturel et la vision par ordinateur, permettant de nouvelles applications innovantes.
  • Démocratisation de la création de vidéos : La génération de vidéos IA permettra à quiconque de créer plus facilement et à moindre coût des vidéos de haute qualité, quelles que soient ses compétences techniques ou son budget.

Bien que Veo 2 de Google ne soit peut-être pas la plateforme de génération de vidéos IA la plus impressionnante sur le marché aujourd’hui, elle représente une étape importante vers la démocratisation de la technologie d’IA. À mesure que le domaine continue d’évoluer, il est probable que nous verrons émerger des outils encore plus puissants et accessibles, permettant aux créateurs de toutes sortes de donner vie à leurs visions.