Stratégies contre les deepfakes d'IA

Le moteur des deepfakes : analyse technique

Au cœur des deepfakes se trouvent les modèles génératifs, une forme d’intelligence artificielle capable d’apprendre à partir d’ensembles de données massifs et de générer des images, des vidéos et de l’audio réalistes. Au cours des dernières années, les réseaux antagonistes génératifs (GAN) ont évolué vers des modèles de diffusion, encore plus puissants. Une analyse technique de ces moteurs génératifs est donc nécessaire pour créer un cadre de prévention robuste.

Jeux d’opposition : réseaux antagonistes génératifs (GAN)

Un GAN se compose de deux réseaux neuronaux : un générateur et un discriminateur. Le rôle du générateur est de créer des données synthétiques qui imitent les données du monde réel. Il part d’une entrée aléatoire, souvent appelée vecteur latent, et tente de la transformer en une sortie cohérente. De son côté, le discriminateur agit comme un classificateur, évaluant les données pour déterminer si elles sont réelles (provenant de l’ensemble de données d’entraînement réel) ou fausses (créées par le générateur).

Le processus d’entraînement implique une boucle de rétroaction continue entre les deux réseaux, semblable à un jeu à somme nulle. Le générateur crée une image contrefaite et la transmet au discriminateur, qui reçoit également de vraies images de l’ensemble d’entraînement. Le discriminateur prédit ensuite l’authenticité de chaque image. Si le discriminateur identifie correctement la sortie du générateur comme une contrefaçon, il fournit une rétroaction. Le générateur utilise cette rétroaction par rétropropagation pour ajuster ses paramètres internes afin de générer une image plus convaincante à la prochaine itération. Simultanément, le discriminateur ajuste ses propres paramètres pour mieux repérer les contrefaçons. Cette compétition antagoniste se poursuit jusqu’à ce que le système atteigne un point d’équilibre, parfois appelé équilibre de Nash, où la sortie du générateur est si réaliste que le discriminateur ne peut plus distinguer de manière fiable les données réelles et devine avec une précision d’environ 50 %.

Les GAN se sont avérés efficaces pour générer des médias synthétiques et ont jeté les bases de nombreux modèles de deepfakes influents. Des architectures telles que les GAN convolutionnels profonds (DCGAN) ont apporté des améliorations cruciales en améliorant la stabilité en remplaçant les couches de regroupement et en utilisant la normalisation par lot. Les StyleGAN de NVIDIA et leurs successeurs, StyleGAN2 et StyleGAN3, ont atteint un photo-réalisme sans précédent dans la génération de visages en corrigeant les artefacts et en faisant progresser l’architecture du modèle. D’autres variantes comme CycleGAN ont permis des tâches de transfert de style et ont été largement utilisées dans des applications comme FaceApp pour modifier l’âge apparent d’une personne.

Malgré leur puissance, les GAN sont notoirement difficiles à entraîner. L’équilibre délicat entre le générateur et le discriminateur peut facilement être rompu, ce qui entraîne une instabilité de l’entraînement, une convergence lente ou un mode de défaillance critique appelé « effondrement de mode ». L’effondrement de mode se produit lorsque le générateur trouve une faiblesse dans le discriminateur et l’exploite en générant uniquement une variété limitée de sorties dont il sait qu’il peut tromper le discriminateur, ne parvenant pas à capturer la véritable diversité des données d’entraînement. Ces défis inhérents, ainsi que les artefacts subtils qu’ils produisent souvent, sont devenus la cible principale des premiers systèmes de détection de deepfakes.

L’inversion du chaos : modèles de diffusion

Les dernières technologies en matière d’IA générative ont opéré un virage décisif vers une nouvelle classe de modèles : les modèles de diffusion. S’inspirant des concepts de la thermodynamique hors équilibre, les modèles de diffusion fonctionnent selon un principe fondamentalement différent de la compétition antagoniste des GAN. Ce sont des modèles génératifs probabilistes qui génèrent des données d’une qualité et d’une diversité exceptionnelles en apprenant à inverser un processus de corruption progressif.

Le mécanisme des modèles de diffusion est un processus en deux phases :

  1. Processus de diffusion directe : Cette phase ajoute systématiquement et progressivement de petites quantités de bruit gaussien à une image au fil du temps (par exemple, T étapes). Il s’agit d’un processus de chaîne de Markov où chaque étape est conditionnée par la précédente, dégradant progressivement la qualité de l’image jusqu’à ce qu’elle devienne indiscernable du bruit purement non structuré à l’étape de temps finale T.

  2. Processus inverse de débruitage : La clé du modèle est un réseau neuronal (prenant typiquement l’architecture d’un U-Net) qui est entraîné pour inverser ce processus. Il apprend à estimer le bruit qui a été ajouté à chaque étape de temps du processus direct et à le soustraire. Après l’entraînement, le modèle peut générer de nouvelles images de haute qualité en partant d’un échantillon de bruit aléatoire et en appliquant de manière itérative cette fonction de « débruitage » apprise pour reculer dans le temps, transformant le chaos en un échantillon cohérent de la distribution des données originales.

Ce processus de raffinement itératif permet aux modèles de diffusion d’atteindre des niveaux de photo-réalisme et de diversité qui dépassent même les meilleurs GAN. Leur processus d’entraînement est également beaucoup plus stable que celui des GAN, évitant des problèmes tels que l’effondrement de mode et produisant des sorties plus fiables et plus diversifiées. Cet avantage technique a fait des modèles de diffusion la base des outils d’IA générative les plus importants et les plus puissants d’aujourd’hui, y compris des modèles texte-image tels que DALL-E 2 d’OpenAI, Imagen de Google et Stable Diffusion de Stability AI, et des modèles texte-vidéo tels que Sora d’OpenAI. La large disponibilité et l’excellente qualité de sortie de ces modèles ont considérablement intensifié la menace des deepfakes.

Opération modes

Qu’il s’agisse de GAN ou de modèles de diffusion, les moteurs de génération sous-jacents sont appliqués par le biais de plusieurs techniques spécifiques pour créer des vidéos deepfakes. Ces méthodes s’attaquent à divers aspects des vidéos cibles afin d’obtenir les effets trompeurs souhaités.

  • Réinterprétation : Cette technique transfère les expressions faciales, les mouvements de la tête et les mouvements liés à la parole d’un personnage source à un sujet cible dans une vidéo. Le processus comprend généralement trois étapes principales : premièrement, le suivi des traits du visage dans les vidéos source et cible ; deuxièmement, l’alignement de ces traits sur un modèle de visage 3D commun à l’aide de mesures de cohérence ; et troisièmement, le transfert des expressions de la source vers la cible, suivi d’un post-traitement pour améliorer le réalisme et la cohérence.

  • Synchronisation labiale : Les deepfakes de synchronisation labiale sont spécialement conçus pour traiter la parole, en utilisant principalement l’entrée audio pour générer des mouvements de la bouche réalistes. L’audio est converti en formes et textures de bouche dynamiques, qui sont ensuite soigneusement assorties et mélangées avec la vidéo de la cible afin de créer l’illusion que la personne cible prononce l’audio d’entrée.

  • Synthèse basée sur du texte : Cette méthode très sophistiquée modifie une vidéo basée sur un script de texte. Elle fonctionne en analysant le texte en ses phonèmes constitutifs (unités sonores) et ses visèmes (représentations visuelles des sons de la parole). Ceux-ci sont ensuite mis en correspondance avec les séquences correspondantes de la vidéo source, et les paramètres d’un modèle de tête 3D sont utilisés pour générer et lisser les mouvements des lèvres afin de correspondre au nouveau texte, permettant ainsi d’éditer littéralement ce qu’une personne semble dire.

L’évolution technologique des GAN aux modèles de diffusion est plus qu’une amélioration progressive ; c’est un changement de paradigme qui modifie fondamentalement le paysage des stratégies de prévention des deepfakes. Les GAN, malgré leur puissance, présentent des faiblesses architecturales connues, telles que l’instabilité de l’entraînement et l’effondrement de mode, qui entraînent souvent des artefacts prévisibles et détectables dans le domaine fréquentiel de l’image. En conséquence, toute une génération d’outils de détection a été spécialement conçue pour identifier ces empreintes digitales spécifiques aux GAN. Cependant, les modèles de diffusion, qui sont plus stables à entraîner et qui produisent des sorties plus diversifiées, plus réalistes et statistiquement plus proches des images réelles, ne possèdent pas bon nombre des défauts flagrants de leurs prédécesseurs.

En conséquence, une part importante de l’infrastructure de détection des deepfakes existante est rapidement en train de devenir obsolète. Des études ont montré une « dégradation significative des performances » lorsqu’un détecteur entraîné sur des images générées par des GAN est appliqué à du contenu provenant de modèles de diffusion. Notamment, un détecteur entraîné sur des images de modèles de diffusion peut identifier avec succès le contenu généré par des GAN, mais l’inverse n’est pas vrai, ce qui indique que les modèles de diffusion représentent une classe de contrefaçons plus sophistiquée et plus difficile à détecter. De fait, cela a effectivement réinitialisé la course aux armements technologiques, exigeant que les stratégies de défense soient repensées pour faire face aux caractéristiques uniques et plus subtiles des médias générés par diffusion.

De plus, la nature de « boîte noire » de ces modèles génératifs ajoute à la complexité des efforts de prévention à la source. Les GAN et les modèles de diffusion fonctionnent tous deux de manière non supervisée ou semi-supervisée, apprenant à imiter la distribution statistique de l’ensemble de données sans avoir besoin d’étiquettes sémantiques explicites. Ils n’apprennent pas « ce qu’est un visage » d’une manière intelligible pour l’humain, mais plutôt « quels modèles de pixels sont possibles dans un ensemble de données de visages ». Cela rend exceptionnellement difficile la programmation de contraintes directement dans le processus de génération (par exemple, « ne pas générer d’images préjudiciables »). Le modèle se contente d’optimiser une fonction mathématique : soit tromper le discriminateur, soit inverser le processus de bruit. Cela signifie que la prévention ne peut pas reposer sur la régulation du cœur de l’algorithme de l’intérieur. Les interventions les plus réalisables doivent se produire avant la génération (en contrôlant les données d’entraînement) ou après la génération (par la détection, le filigrane et la provenance), car l’acte de création lui-même résiste intrinsèquement à la gouvernance directe.

Analyse comparative des moteurs de génération

Il est essentiel que toute partie prenante, des législateurs aux responsables de la sécurité des entreprises, comprenne les différences stratégiques entre les GAN et les modèles de diffusion. Le passage de la domination technologique des premiers aux seconds a des implications profondes sur la difficulté de la détection, le potentiel de tromperie et le paysage général des menaces.

Caractéristique Réseaux antagonistes génératifs (GAN) Modèles de diffusion Implications stratégiques
Mécanisme de base Générateur et discriminateur en compétition dans un jeu à somme nulle. Réseau neuronal apprenant à inverser un processus de « bruit » progressif. Le processus de raffinement itératif de la diffusion produit une plus grande précision et moins d’artefacts structurels.
Processus d’entraînement Réputé pour son instabilité ; sujet à un « effondrement de mode » et à une convergence lente. Stable et fiable, mais coûteux en calcul. Le seuil d’entrée pour obtenir des résultats de haute qualité avec les modèles de diffusion est plus bas, ce qui démocratise la menace.
Qualité de sortie Capable de générer des images de haute qualité, mais peut contenir des artefacts subtils. Actuellement, le plus haut niveau de photo-réalisme et de diversité ; souvent indiscernable des photos réelles. Les contrefaçons deviennent plus convaincantes, érodant l’heuristique du « voir c’est croire » et mettant en difficulté la détection humaine.
Détectabilité Les anciennes méthodes de détection sont souvent ajustées pour rechercher des artefacts spécifiques aux GAN (par ex., déséquilibres de fréquence). Rend obsolètes de nombreux détecteurs basés sur les GAN. Les images contiennent moins d’artefacts et correspondent plus étroitement aux statistiques des données réelles. La « course aux armements » des deepfakes a été réinitialisée. La R&D en matière de détection doit se concentrer sur l’exploitation d’indices spécifiques à la diffusion.
Modèles notables StyleGAN, CycleGAN DALL-E, Stable Diffusion, Imagen, Sora Les outils les plus puissants et les plus largement utilisés sont désormais basés sur la diffusion, ce qui accélère la menace.

Système immunitaire numérique : analyse comparative des méthodes de détection

En réponse à la prolifération des médias synthétiques, un domaine diversifié de méthodes de détection a émergé, formant un « système immunitaire numérique » naissant. Ces techniques englobent l’analyse médico-légale des artefacts numériques aux approches novatrices pour sonder des signaux biologiques sous-jacents. Cependant, l’efficacité de ce système immunitaire est constamment remise en question par l’évolution rapide des modèles génératifs et l’utilisation d’attaques contradictoires conçues pour échapper à la détection. La lutte continue entre la création et la détection est un paradoxe de « Reine Rouge » dans lequel les défenseurs doivent constamment innover simplement pour maintenir le statu quo.

Analyse médico-légale des artefacts numériques

La catégorie la plus établie de détection des deepfakes implique l’analyse médico-légale des artefacts numériques : ces défauts et incohérences subtils qui sont inhérents au processus de génération. Ces défauts et incohérences sont souvent difficiles à identifier et ne peuvent pas être détectés à l’œil nu, mais ils peuvent être identifiés par des algorithmes spécialisés.

  • Incohérences visuelles et anatomiques : Les premiers modèles génératifs, et même certains modèles actuels, ont du mal à reproduire parfaitement les complexités de l’anatomie humaine et la physique du monde réel. Les méthodes de détection exploitent ces défauts en analysant des anomalies spécifiques dans le média. Ceux-ci incluent des schémas de clignotement non naturels, où les yeux clignotent trop, trop peu ou pas du tout (souvent dus à un manque d’images d’yeux fermés dans les données d’entraînement), des mouvements oculaires robotiques ou incohérents et des formes des lèvres ou de la bouche contraintes où les dents du bas ne sont jamais visibles. D’autres indicateurs sont l’absence de subtiles variations des narines pendant la parole, des incohérences d’éclairage et des ombres incompatibles avec l’environnement environnant et des erreurs ou des reflets manquants sur les lunettes ou d’autres surfaces réfléchissantes.

  • Analyse des pixels et de la compression : Ces techniques fonctionnent à un niveau inférieur, examinant la structure numérique d’une image ou d’une vidéo. L’analyse des niveaux d’erreur (ELA) est une méthode permettant d’identifier les zones d’une image qui ont subi différents niveaux de compression. Étant donné que les zones manipulées sont souvent ressauvegardées ou recompressées, elles peuvent présenter des niveaux d’erreur différents des parties originales de l’image, mettant ainsi en évidence les contrefaçons. Étroitement apparentée à cela est l’analyse des contours et du mélange, qui examine de près les frontières et les contours entre les éléments synthétiques (par exemple, les visages échangés) et les arrière-plans réels. Ces zones peuvent révéler une manipulation par des signes tels qu’une pixellisation incohérente, une netteté ou un flou non naturels et de subtiles différences de couleurs et de textures.

  • Analyse du domaine fréquentiel : Plutôt que d’analyser directement les pixels, ces méthodes transforment une image en ses composantes de fréquence pour rechercher des modèles non naturels. Étant donné que les générateurs de GAN sont construits à partir d’architectures de suréchantillonnage, ils laissent souvent des artefacts spectraux caractéristiques qui créent des motifs périodiques qui n’existent pas dans les images réelles. Bien que cela soit efficace pour la plupart des GAN, cette approche a moins de succès avec les modèles de diffusion, qui génèrent des images avec des profils de fréquence plus organiques. Cependant, certaines études suggèrent que les modèles de diffusion peuvent encore montrer des non-correspondances détectables dans les détails de haute fréquence par rapport aux images réelles, offrant ainsi une voie potentielle pour la détection.

Analyse des signaux biologiques : le « battement de cœur » des deepfakes

Un domaine plus récent et très prometteur de détection des deepfakes implique l’analyse de la présence de signaux biologiques authentiques dans un média. Le principe central est que, bien que les modèles génératifs soient de plus en plus aptes à reproduire les apparences visuelles, ils échouent à simuler les processus physiologiques sous-jacents d’un humain vivant.

La technique principale dans ce domaine est la photopléthysmographie à distance (rPPG). Cette technique utilise une caméra standard pour détecter les minuscules variations périodiques de la couleur de la peau qui se produisent lorsque le cœur pompe le sang dans les vaisseaux sanguins superficiels du visage. Dans une vidéo d’une personne réelle, cela produit un signal de pouls faible mais cohérent. Dans les deepfakes, ce signal est souvent absent, déformé ou incohérent.

La méthode de détection implique plusieurs étapes :

  1. Extraction du signal : Les signaux rPPG sont extraits de plusieurs régions d’intérêt (ROI) sur le visage de la personne dans la vidéo.

  2. Traitement du signal : Le signal brut est nettoyé du bruit, puis il est traité (généralement en utilisant une transformée de Fourier rapide (FFT)) pour analyser ses caractéristiques dans les domaines temporel et spectral. La FFT peut révéler la fréquence dominante du signal, qui correspond à la fréquence cardiaque.

  3. Classification : Un classificateur (par exemple, un CNN) est entraîné pour distinguer les schémas rythmiques cohérents d’un véritable battement de cœur des signaux bruyants, incohérents ou absents que l’on trouve dans les vidéos contrefaites.

Dans des environnements expérimentaux contrôlés, cette approche a atteint des précisions de détection très élevées, certaines études rapportant des taux de précision allant jusqu’à 99,22 %. Cependant, cette méthode comporte une vulnérabilité critique. Les techniques de deepfake plus avancées, en particulier celles qui impliquent la réinterprétation, peuvent hériter du signal physiologique de la vidéo source ou de la vidéo « d’entraînement ». Cela signifie qu’un deepfake peut présenter des signaux rPPG tout à fait normaux et cohérents. Il s’agirait simplement du battement du cœur de l’acteur source, et non de celui du personnage représenté dans la vidéo finale. Cette découverte remet en question l’hypothèse simpliste selon laquelle les deepfakes manquent de signaux physiologiques et rend la détection plus difficile. Les méthodes futures devront aller au-delà de la simple vérification de la présence d’un pouls et valider plutôt la cohérence physiologique et les caractéristiques spécifiques à l’identité de ce signal.

La course aux armements de la détection : les défis posés par les modèles de diffusion et les attaques contradictoires

Le domaine de la détection des deepfakes est défini par une course aux armements implacable. Dès qu’une méthode de détection fiable est développée, les modèles génératifs évoluent continuellement pour la contourner. La récente montée en puissance des modèles de diffusion et l’utilisation d’attaques contradictoires constituent deux des défis les plus importants auxquels les détecteurs modernes sont confrontés.

  • Échec de la généralisation : Une faiblesse majeure de nombreux modèles de détection est leur incapacité à généraliser. Un détecteur entraîné pour identifier les fausses créations d’un modèle génératif spécifique (par exemple, StyleGAN2) ou sur un ensemble de données spécifique échoue souvent lorsqu’il est confronté à de nouvelles techniques de manipulation ou à différents domaines de données. Les modèles de diffusion rendent ce problème particulièrement aigu. Étant donné que leurs sorties contiennent moins d’artefacts évidents, qu’elles sont plus diversifiées et qu’elles correspondent davantage aux propriétés statistiques des images réelles, ils peuvent échapper efficacement aux détecteurs conçus pour les GAN. Pour remédier à ce problème, les chercheurs développent des ensembles de données de référence nouveaux et plus difficiles, comprenant des deepfakes de diffusion de pointe, afin de favoriser la création de détecteurs plus robustes et plus généraux.

  • Attaques contradictoires : Même les détecteurs très précis sont vulnérables à une subversion directe par le biais d’attaques contradictoires. Dans de tels cas, un attaquant applique des perturbations minuscules et imperceptibles aux pixels d’une image deepfake. Bien que ces modifications soient invisibles pour les humains, elles sont spécialement conçues pour exploiter des faiblesses dans le réseau neuronal du détecteur, l’amenant essentiellement à classer à tort l’image contrefaite comme réelle. Cette menace existe à la fois dans les paramètres de « boîte blanche » (où l’attaquant a une connaissance complète de l’architecture du détecteur) et dans les paramètres de « boîte noire » plus réalistes (où l’attaquant ne peut qu’interroger le détecteur et observer ses sorties).

En guise de contre-mesure, la communauté de la recherche se concentre sur le développement de détecteurs de nouvelle génération dotés d’une résilience accrue. Les stratégies clés comprennent :

  • Diversité des données d’entraînement : Il a été démontré que l’augmentation des ensembles de données d’entraînement pour inclure diverses contrefaçons provenant à la fois des GAN et des modèles de diffusion, ainsi que divers domaines d’images, améliore les capacités de généralisation.

  • Stratégies d’entraînement avancées : De nouvelles techniques telles que le « momentum contrastive mining » sont explorées pour pondérer des échantillons sur la base de la difficulté dynamique de la classification pour un échantillon, aidant les modèles à s’entraîner plus efficacement sur des ensembles de données hétérogènes.

  • Architectures robustes : De nouvelles architectures sont en cours de conception qui sont intrinsèquement plus résistantes aux attaques. Une approche prometteuse consiste à utiliser des ensembles disjoints, où plusieurs modèles sont entraînés sur différents sous-ensembles disjoints du spectre de fréquences d’une image. Cela oblige les attaquants à trouver des perturbations qui peuvent tromper plusieurs modèles simultanément, une tâche beaucoup plus difficile. D’autres approches hybrides fusionnent des caractéristiques provenant des domaines spatial et fréquentiel pour construire un modèle plus holistique des données.

La danse perpétuelle entre les techniques générationnelles et les techniques de détection suggère que toute défense statique est vouée à l’obsolescence. À mesure que les modèles génératifs évoluent continuellement pour supprimer des indices tels que les anomalies de clignotement ou les artefacts GAN, les détecteurs doivent se tourner vers des signaux plus subtils tels que les non-correspondances à haute fréquence ou les signatures rPPG. À leur tour, les modèles génératifs peuvent être entraînés pour imiter ces signaux, comme on l’a vu hériter du rPPG de la vidéo source. Ce cycle perpétuel suggère qu’une stratégie de prévention fondée uniquement sur la détection réactive est une course aux armements coûteuse et potentiellement impossible à gagner.

Les stratégies de détection les plus durables seront probablement celles qui exploitent les écarts fondamentaux entre la simulation numérique et la réalité physique. Alors que les artefacts visuels sont des défauts dans la simulation qui peuvent être corrigés progressivement avec de meilleurs algorithmes et davantage de puissance de calcul, il est beaucoup plus difficile pour une IA de modéliser les propriétés émergentes de la biologie et de la physique à partir des premiers principes. Un modèle génératif ne « comprend » pas le système cardiovasculaire humain. Il apprend simplement à reproduire les schémas de pixels associés à un visage. Bien qu’il puisse être entraîné pour imiter les résultats visuels d’un battement de cœur, la génération d’un signal physiologiquement cohérent et précis pour une nouvelle identité à partir de zéro nécessiterait une modélisation de systèmes biologiques entiers, un défi d’un ordre supérieur. Par conséquent, les recherches de détection les plus robustes se concentreront sur ces « écarts physiques », en incluant non seulement le rPPG, mais aussi potentiellement d’autres indices tels que les schémas respiratoires subtils, la dilatation involontaire des pupilles et les microexpressions, qui sont contrôlés par des processus biologiques complexes difficiles à simuler avec une grande précision.

Établir la confiance numérique : prévention proactive par le filigrane et la provenance

Étant donné les limites inhérentes aux stratégies de détection purement réactives, un régime plus résilient et durable pour la prévention des méfaits des deepfakes implique des mesures proactives. Ces techniques visent à établir la confiance et la responsabilité dans l’écosystème des médias numériques dès la création. Plutôt que de se concentrer sur l’identification des contrefaçons une fois qu’elles ont été créées et diffusées, ce paradigme déplace l’accent vers la vérificationde l’authenticité et de la source du contenu légitime. Deux des principales technologies dans ce domaine sont le filigrane numérique médico-légal et la provenance du contenu basée sur la blockchain.

Le filigrane numérique médico-légal est une technique proactive qui consiste à intégrer un identifiant unique et imperceptible directement dans le contenu numérique tel que des images, des vidéos ou des documents. Contrairement aux filigranes visibles, tels que les logos recouvrant une image, les filigranes médico-légaux sont masqués dans les données du fichier lui-même et sont conçus pour être exceptionnellement robustes. Un filigrane numérique médico-légal bien conçu peut survivre à des manipulations de fichiers courantes, y compris la compression, le recadrage, le redimensionnement, l’ajustement des couleurs et même les captures d’écran ou les captures d’écran à caméra.

Pour la prévention des deepfakes, le filigrane numérique médico-légal offre plusieurs fonctions clés :

  • Traçage des sources et responsabilité : En intégrant des informations uniques identifiant le créateur, l’utilisateur ou le canal de distribution, les filigranes peuvent être utilisés pour retracer la source d’un deepfake malveillant en cas de fuite ou d’utilisation abusive. Par exemple, dans les environnements de vidéo à la demande (VOD) ou d’entreprise, un système peut utiliser le filigrane A/B pour fournir à chaque utilisateur des versions de vidéos légèrement différentes et filigranées de manière unique. Si une copie devait apparaître en ligne, le filigrane pourrait être extrait pour identifier la source exacte de la fuite, fournissant ainsi des preuves irréfutables pour des actions en justice ou administratives.

  • Vérification de l’authenticité : Les filigranes peuvent servir de sceau d’authenticité pour le contenu officiel. Les agences gouvernementales, les entreprises ou les agences de presse peuvent intégrer des filigranes uniques dans leurs médias légitimes. Cela permet de vérifier les communications authentiques et d’aider à détecter et à bloquer les tentatives d’usurpation d’identité utilisant des deepfakes.

  • Suivi du cycle de vie : Les partisans suggèrent que les filigranes peuvent être intégrés à différents stades du cycle de vie du contenu. Par exemple, des filigranes pourraient être intégrés lors du téléchargement vers les médias sociaux, dans les applications de messagerie ou même par les applications de création de deepfakes elles-mêmes pour créer un enregistrement traçable de la façon dont le contenu manipulé a été généré et distribué.

Des techniques de filigrane avancées sont en cours de développement spécifiquement pour lutter contre les manipulations des deepfakes. Une approche nouvelle consiste à concevoir un réseau neuronal qui intègre un filigrane directement dans les caractéristiques d’identité d’une image de visage. Cela rend le filigrane très sensible aux manipulations d’échange de visages, car de telles opérations changent intrinsèquement les caractéristiques d’identité et suppriment donc le filigrane, tout en le gardant robuste aux modifications d’image traditionnelles telles que la compression ou le redimensionnement.

Malgré la promesse des filigranes, des défis importants demeurent. Pour commencer, les filigranes ne sont pas invincibles. Des études ont montré qu’il est possible d’utiliser des techniques contradictoires, en particulier celles exploitant les modèles de diffusion, pour « dissoudre » ou reconstruire des images afin de supprimer efficacement les filigranes intégrés. Deuxièmement, et plus important encore, l’efficacité du filigrane en tant que solution systémique dépend de l’adoption généralisée. Il n’existe actuellement aucune exigence légale ou réglementaire exigeant que les applications de deepfake ou les plateformes sociales mettent en œuvre le filigrane, ce qui rend son utilisation volontaire et sporadique.

Blockchain et provenance du contenu : registres immuables

Une stratégie proactive complémentaire consiste à utiliser la technologie blockchain pour établir la provenance du contenu, un historique robuste, vérifiable et inviolable de la source et du cycle de vie d’un fichier multimédia. Cette approche exploite les propriétés fondamentales de la blockchain, à savoir sa nature décentralisée et immuable, pour créer un enregistrement de la vérité public et permanent.

L’établissement de la provenance basée sur la blockchain implique généralement trois étapes :

  1. Empreinte du contenu : Lorsqu’un fichier est créé ou téléchargé pour la première fois sur une plateforme participante, un hachage cryptographique unique est généré à partir des données du fichier. Ce hachage sert d’empreinte digitale numérique ; quelle que soit la petite modification apportée au fichier, un hachage complètement différent sera généré.

  2. Enregistrement de la blockchain : Ce hachage unique, ainsi que les métadonnées clés (telles que l’identité numérique vérifiée du créateur, un horodatage et d’autres détails pertinents), sont enregistrés en tant que transaction sur le registre de la blockchain. Étant donné que ce registre est distribué et protégé par cryptographie, cet enregistrement devient en pratique permanent et ne peut pas être modifié ou supprimé.

  3. Vérification continue : À tout moment dans le futur, n’importe qui ou n’importe quel système peut vérifier l’authenticité de ce média. Ils doivent simplement calculer le hachage actuel du fichier en question et le comparer avec le hachage original stocké sur la blockchain. Si les hachages correspondent, cela prouve que le fichier n’a pas été modifié depuis le moment où il a été enregistré. Si les hachages ne correspondent pas, le fichier a été falsifié.

Ce système crée une « chaîne de contrôle » transparente et vérifiable pour le contenu numérique. Il permet aux créateurs de signer numériquement leur travail avec leurs clés privées, impliquant ainsi