La tecnología deepfake evoluciona rápidamente, planteando desafíos sin precedentes para la confianza social y la seguridad de la información. Dado que la capacidad de prevenir la proliferación de deepfakes depende de una comprensión integral de la tecnología, este artículo explorará cómo prevenir la tecnología deepfake de inteligencia artificial.
El Motor de los Deepfakes: Análisis Técnico
El núcleo de los deepfakes radica en los modelos generativos, una forma de inteligencia artificial capaz de aprender de conjuntos de datos masivos y generar imágenes, videos y audios realistas. En los últimos años, las redes generativas adversarias (GAN) han evolucionado hasta convertirse en modelos de difusión, que son aún más potentes. Por lo tanto, es necesario realizar un análisis técnico de estos motores generativos para crear un marco de prevención sólido.
Juegos Adversarios: Redes Generativas Adversarias (GAN)
Una GAN consta de dos redes neuronales: un generador y un discriminador. El trabajo del generador es crear datos sintéticos que imiten los datos del mundo real. Comienza con una entrada aleatoria (a menudo denominada vector latente) e intenta transformarla en una salida coherente. El discriminador, por otro lado, actúa como un clasificador, evaluando los datos para determinar si son reales (de un conjunto de datos de entrenamiento real) o falsos (creados por el generador).
El proceso de entrenamiento implica un ciclo de retroalimentación continuo entre las dos redes, similar a un juego de suma cero. El generador crea una imagen falsa y la pasa al discriminador, quien también recibe imágenes reales del conjunto de entrenamiento. Luego, el discriminador predice la autenticidad de cada imagen. Si el discriminador identifica correctamente la salida del generador como falsa, proporciona retroalimentación. El generador utiliza esta retroalimentación a través de la retropropagación para ajustar sus parámetros internos con el fin de generar imágenes más convincentes en la siguiente iteración. Simultáneamente, el discriminador ajusta sus propios parámetros para descubrir mejor las falsificaciones. Esta competencia adversaria continúa hasta que el sistema alcanza un punto de equilibrio, a veces denominado equilibrio de Nash, en el que la salida del generador es tan realista que el discriminador ya no puede distinguirla de manera fiable de los datos reales y adivina con una precisión de aproximadamente el 50%.
Las GAN han demostrado ser eficaces para generar medios sintéticos y han sentado las bases para muchos modelos deepfake influyentes. Arquitecturas como las GAN convolucionales profundas (DCGAN) introdujeron mejoras cruciales al aumentar la estabilidad mediante la sustitución de capas de agrupación y el uso de la normalización por lotes. StyleGAN de NVIDIA y sus sucesores, StyleGAN2 y StyleGAN3, lograron un fotorrealismo sin precedentes en la generación de rostros al corregir artefactos característicos y perfeccionar la arquitectura del modelo. Otras variantes como CycleGAN consiguen tareas de transferencia de estilo y, por lo tanto, se han utilizado ampliamente para aplicaciones como Face App para cambiar la edad aparente de una persona.
A pesar de su potencia, las GAN son conocidas por ser difíciles de entrenar. El delicado equilibrio entre el generador y el discriminador se interrumpe fácilmente, lo que provoca inestabilidad en el entrenamiento, convergencia lenta o un modo de fallo crítico conocido como “colapso de modo”. El colapso de modo se produce cuando el generador descubre una debilidad en el discriminador y la explota generando solo una variedad limitada de salidas que sabe que pueden engañarlo, lo que impide capturar la verdadera diversidad de los datos de entrenamiento. Estos desafíos inherentes, junto con los artefactos sutiles que a menudo producen, se convirtieron en un objetivo principal para los primeros sistemas de detección de deepfakes.
La Inversión del Caos: Modelos de Difusión
Las últimas técnicas en la inteligencia artificial generativa han virado decisivamente hacia una nueva clase de modelos: los modelos de difusión. Los modelos de difusión, inspirados en los conceptos de la termodinámica de no equilibrio, funcionan en principio de forma fundamentalmente diferente a la competencia adversaria de las GAN. Son modelos generativos probabilísticos que pueden generar datos excepcionalmente diversos y de alta calidad aprendiendo a invertir un proceso de destrucción gradual.
La mecánica de un modelo de difusión es un proceso de dos fases:
Proceso de Difusión Directa: Esta fase añade metódica y gradualmente una pequeña cantidad de ruido gaussiano a una imagen durante un cierto período de tiempo (por ejemplo, T pasos). Esto es un proceso de cadena de Márkov en el que cada paso está condicionado al anterior, degradando progresivamente la calidad de la imagen hasta que, en el paso de tiempo final T, se vuelve indistinguible de ruido puro no estructurado.
Proceso de Desruido Inverso: La clave del modelo es una red neuronal (a menudo con una arquitectura U-Net) que está entrenada para invertir este proceso. Aprende a predecir el ruido que se añadió en cada paso de tiempo del proceso directo y restaérselo. Una vez entrenado, el modelo puede generar nuevas imágenes de alta calidad procesando los pasos de tiempo hacia atrás, comenzando con una muestra de ruido aleatorio y aplicando iterativamente esta función de “desruido” aprendida, transformando el caos en una muestra coherente de la distribución de datos original.
Este proceso de refinamiento iterativo permite a los modelos de difusión lograr niveles de fotorrealismo y diversidad incluso mejores que las mejores GAN. También resultan mucho más estables de entrenar que las GAN, evitan problemas como el colapso de modo y producen salidas más fiables y variadas. Esta destreza técnica sustenta las herramientas de IA generativa más destacadas y potentes de la actualidad, incluyendo modelos de texto a imagen como DALL-E 2 de OpenAI, Imagen de Google y Stable Diffusion de Stability AI, así como modelos de texto a video como Sora de OpenAI. La amplia disponibilidad y la excepcional calidad de la salida de estos modelos han intensificado drásticamente la amenaza deepfake.
Modus Operandi
Tanto si se trata de GAN como de modelos de difusión, el motor generativo subyacente se aplica a través de una variedad de técnicas específicas para crear videos deepfake. Estos métodos manipulan aspectos específicos de un video objetivo para lograr el efecto engañoso deseado.
Recreación: Esta técnica transfiere las expresiones faciales, los movimientos de la cabeza y los movimientos relacionados con el habla de un personaje de origen a un sujeto objetivo en un video. El proceso generalmente comprende tres pasos principales: primero, el rastreo de los puntos de referencia faciales tanto en el video de origen como en el de destino; segundo, la alineación de estos puntos de referencia con un modelo facial 3D común utilizando métricas de coherencia; y tercero, la transferencia de las expresiones de origen al destino, seguida de un perfeccionamiento posterior para mejorar el realismo y la coherencia.
Sincronización Labial: Los deepfakes de sincronización labial se dedican específicamente a manipular el habla, utilizando principalmente la entrada de audio para generar movimientos labiales realistas. El audio se convierte en formas y texturas de boca dinámicas, que luego se combinan y mezclan cuidadosamente con el video de destino para producir la ilusión de que la persona objetiva está diciendo el audio de entrada.
Síntesis basada en texto: Este método altamente sofisticado modifica un video basándose en un guion de texto. Esto funciona analizando el texto en sus fonemas componentes (unidades de sonido) y visemas (representaciones visuales de sonidos del habla). Estos se emparejan entonces con las secuencias correspondientes en el video de origen, y los parámetros de un modelo de cabeza 3D se utilizan para generar y suavizar los movimientos de los labios para que coincidan con el nuevo texto, permitiendo editar palabra por palabra lo que un personaje parece estar diciendo.
La progresión técnica desde las GAN hasta los modelos de difusión representa más que una mejora incremental; esto es un cambio de paradigma que altera fundamentalmente el panorama de las estrategias de prevención deepfake. Las GAN, aunque potentes, tienen debilidades arquitectónicas conocidas como la inestabilidad del entrenamiento y el colapso de modo, que a menudo conllevan artefactos sutiles y detectables en el dominio de frecuencia de la imagen. Como resultado, se construyó toda una generación de herramientas de detección específicamente para identificar estas huellas dactilares específicas de las GAN. Sin embargo, los modelos de difusión, al ser intrínsecamente más estables de entrenar y producir salidas más diversas, más realistas y estadísticamente más cercanas a las imágenes reales, carecen de muchos de los defectos evidentes de sus predecesores.
En consecuencia, una gran parte de la infraestructura de detección deepfake existente está quedando rápidamente obsoleta. Los estudios han demostrado “una degradación severa del rendimiento” cuando los detectores entrenados en imágenes generadas por GAN se aplican al contenido de los modelos de difusión. Curiosamente, los detectores entrenados en imágenes de modelos de difusión aún pueden identificar con éxito el contenido generado por GAN, pero no al revés, lo que indica que los modelos de difusión representan una clase de falsificaciones más sofisticada y desafiante. De hecho, esto ha reiniciado efectivamente la carrera armamentística tecnológica, requiriendo una revisión de las estrategias de defensa para responder a las características únicas y más sutiles de los medios generados por difusión.
Además, la naturaleza de “caja negra” de estos modelos generativos aumenta la complejidad de los esfuerzos de prevención de origen. Tanto las GAN como los modelos de difusión funcionan de forma no supervisada o semi-supervisada, aprendiendo a imitar la distribución estadística de un conjunto de datos sin etiquetado semántico explícito. No aprenden “qué es una cara” de una manera que un humano pueda entender, sino que aprenden “qué patrones de píxeles son posibles en el conjunto de datos de caras”. Esto hace que sea extraordinariamente difícil programar restricciones directamente en el proceso de generación (por ejemplo, “no generar imágenes dañinas”). El modelo simplemente optimiza una función matemática: ya sea engañar al discriminador o invertir un proceso de ruido. Esto significa que la prevención no puede depender de la regulación interna de los algoritmos centrales. Las intervenciones más viables deben ocurrir ya sea antes de la generación (a través del control de los datos de entrenamiento) o después de la generación (a través de la detección, el marcado de agua y la procedencia) dado que el acto de creación en sí mismo es intrínsecamente resistente a la gobernanza directa.
Análisis Comparativo de los Motores Generativos
Una comprensión de las diferencias estratégicas entre las GAN y los modelos de difusión es crucial para cualquier parte interesada, desde los responsables de las políticas hasta los funcionarios de seguridad corporativa. El cambio en el dominio técnico del primero al segundo tiene profundas implicaciones para la dificultad de la detección, el potencial de engaño y el panorama general de la amenaza.
Característica | Redes Generativas Adversarias (GAN) | Modelos de Difusión | Implicaciones Estratégicas |
---|---|---|---|
Mecanismo Central | El generador y el discriminador compiten en un juego de suma cero. | Las redes neuronales aprenden a revertir un proceso de “ruido” gradual. | El proceso de refinamiento iterativo de la difusión produce una mayor precisión y menos errores estructurales. |
Proceso de Entrenamiento | Notorio por ser inestable; propenso al “colapso de modo” y a la convergencia lenta. | El entrenamiento estable y fiable, pero computacionalmente intensivo. | La barrera de entrada más baja para lograr resultados de alta calidad utilizando modelos de difusión democratiza la amenaza. |
Calidad de Salida | Puede generar imágenes de alta calidad, pero puede contener artefactos sutiles. | Los niveles más altos actualmente de fotorrealismo y diversidad; a menudo indistinguibles de las fotos reales. | Las falsificaciones se vuelven más convincentes, erosionan la heurística de “ver es creer” y desafían la detección humana. |
Detectabilidad | Los métodos de detección más antiguos a menudo están ajustados para buscar artefactos específicos de las GAN (por ejemplo, desequilibrios de frecuencia). | Vuelven obsoletos muchos detectores basados en GAN. Las imágenes contienen menos artefactos y coinciden más estrechamente con las estadísticas de datos reales. | La “carrera armamentística” de deepfake se ha reiniciado. La I+D de la detección debe cambiar el enfoque para centrarse en la información específica de la difusión. |
Modelos Notables | StyleGAN, CycleGAN | DALL-E, Stable Diffusion, Imagen, Sora | Las herramientas más influyentes y ampliamente utilizadas ahora están basadas en la difusión, acelerando la amenaza. |
Sistema Inmunitario Digital: Análisis Comparativo de los Métodos de Detección
En respuesta a la proliferación de medios sintéticos, ha surgido un campo diverso de métodos de detección, formando un incipiente “sistema inmunitario digital”. Estas técnicas abarcan desde el análisis forense de artefactos digitales hasta enfoques novedosos para detectar potenciales bioseñales. Sin embargo, la eficacia de este sistema inmunitario se ve desafiada constantemente por la rápida evolución de los modelos generativos y el uso de ataques adversarios diseñados para evadir la detección. La lucha constante entre la creación y la detección es una paradoja de la “Reina Roja”, en la que los defensores deben innovar continuamente solo para mantener el statu quo.
Análisis Forense de Artefactos Digitales
La categoría más establecida de detección de deepfake implica el análisis forense de artefactos digitales: las sutiles imperfecciones e inconsistencias que quedan del proceso de generación. Estos defectos e inconsistencias a menudo son difíciles de identificar y no son perceptibles a simple vista, pero pueden ser identificados por algoritmos especializados.
Inconsistencias visuales y anatómicas: Algunos de los primeros, e incluso algunos modelos generativos actuales, luchan por replicar perfectamente las sutilezas de la anatomía humana y las propiedades físicas del mundo real. Los métodos de detección capitalizan estas deficiencias analizando anomalías específicas en los medios. Estos incluyen patrones de parpadeo poco naturales, ya sea que parpadeen en exceso, parpadeen demasiado poco o no parpadeen en absoluto (a menudo debido a la falta de imágenes de ojos cerrados en los datos de entrenamiento), movimientos oculares robóticos o inconsistentes y formas de labios o boca restringidas donde los dientes inferiores nunca se muestran. Otros indicadores son la ausencia de variaciones sutiles en las fosas nasales durante el habla, la incongruencia de la iluminación y las inconsistencias en las sombras que no coinciden con el entorno circundante y reflejos erróneos o ausentes en las gafas u otras superficies reflectantes.
Análisis de píxeles y compresión: Estas técnicas operan en un nivel más bajo, examinando la estructura digital de una imagen o video. El análisis de nivel de error (ELA) es un método para identificar áreas en una imagen que tienen diferentes niveles de compresión. Dado que las áreas que han sido manipuladas a menudo se guardan o vuelven a comprimir, pueden mostrar niveles de error distintos de las partes originales de la imagen, marcando así las falsificaciones. Estrechamente relacionado con esto está el análisis de bordes y mezcla, que examina cuidadosamente los bordes y contornos entre elementos sintéticos (por ejemplo, caras intercambiadas) y fondos reales. Estas áreas pueden revelar la manipulación a través de signos como la pixelación inconsistente, la nitidez o el desenfoque poco naturales y las sutiles diferencias de color y textura.
Análisis de dominio de frecuencia: En lugar de analizar directamente los píxeles, estos enfoques transforman una imagen en sus componentes de frecuencia para buscar patrones poco naturales. Puesto que los generadores de GAN se basan en arquitecturas de muestreo ascendente, a menudo dejan artefactos espectrales característicos que crean patrones periódicos que no existen en imágenes reales. Si bien esto funciona para la mayoría de las GAN, este enfoque tiene menos éxito con los modelos de difusión, que generan imágenes con perfiles de frecuencia más naturales. Sin embargo, algunos estudios han demostrado que los modelos de difusión aún pueden mostrar desajustes detectables en detalles de alta frecuencia en comparación con las imágenes reales, lo que presenta una vía potencial para la detección.
Análisis de Bioseñales: El “Latido” de Deepfake
Un área más reciente y prometedora en la detección de deepfake implica analizar la presencia de bioseñales auténticas en los medios. La premisa central es que, si bien los modelos generativos se están volviendo cada vez más expertos en replicar la apariencia visual, no pueden simular los procesos fisiológicos subyacentes que ocurren en una persona viva.
La técnica principal en este dominio es la fotopletismografía remota (rPPG). Esta técnica utiliza cámaras estándar para detectar cambios sutiles y periódicos en el color de la piel que se producen cuando el corazón bombea sangre a los vasos sanguíneos superficiales de la cara. En un video real de una persona, esto produce una señal de pulso débil pero consistente. En un deepfake, esta señal a menudo está ausente, distorsionada o inconsistente.
Un método de detección comprende varios pasos:
Extracción de señales: La señal rPPG se extrae de múltiples regiones de interés (ROI) en la cara de la persona en el video.
Procesamiento de señales: Se limpia la señal en bruto para eliminar el ruido y luego se procesa (a menudo utilizando una transformada rápida de Fourier (FFT)) para analizar sus características de dominio de tiempo y dominio espectral. La FFT puede revelar la frecuencia dominante de la señal, que corresponde a la frecuencia cardíaca.
Clasificación: Se entrena un clasificador (por ejemplo, una CNN) para distinguir entre los patrones rítmicos coherentes de un latido cardíaco real y las señales ruidosas, inconsistentes o inexistentes que se encuentran en los videos falsificados.
En entornos experimentales controlados, este enfoque ha logrado una precisión de detección muy alta, con algunos estudios que informan una precisión de hasta el 99,22%. Sin embargo, este método tiene una vulnerabilidad crítica. Las técnicas deepfake más avanzadas, en particular las que implican la recreación, pueden heredar señales fisiológicas del video de origen o “impulsor”. Esto significa que el deepfake aún puede mostrar una señal rPPG completamente normal y consistente. Simplemente sería el latido cardíaco del actor de origen, no la persona representada en el video final. Este descubrimiento desafía la simple suposición de que los deepfakes carecen de señales fisiológicas y eleva el listón para la detección. Los enfoques futuros deben ir más allá de la mera verificación de la presencia de un pulso y, en cambio, validar la coherencia fisiológica y las características específicas de la identidad de esa señal.
La Carrera Armamentística de la Detección: Desafíos con los Modelos de Difusión y los Ataques Adversariales
El campo de la detección de deepfake se define por una implacable carrera armamentística. Los modelos generativos evolucionan constantemente para superar los métodos de detección tan pronto como se desarrolla un método confiable. El reciente ascenso de los modelos de difusión y el uso de ataques adversariales representan dos de los desafíos más significativos que enfrentan los detectores modernes.
Fallo de generalización: Una debilidad clave de muchos modelos de detección es su incapacidad para generalizar. Un detector que está entrenado para identificar falsificaciones de un modelo generativo particular (por ejemplo, StyleGAN2) o en un conjunto de datos específico a menudo fallará cuando se enfrente a nuevas técnicas de manipulación o diferentes dominios de datos. Los modelos de difusión exacerban particularmente este problema. Dado que sus resultados contienen menos artefactos evidentes, son más diversos y se ajustan más estrechamente a las propiedades estadísticas de las imágenes reales, pueden evadir eficazmente los detectores diseñados para GAN. Para abordar este problema, los investigadores están desarrollando conjuntos de datos de referencia nuevos y más difíciles que incorporan deepfakes de difusión de última generación para impulsar la creación de detectores más sólides y generalizables.
Ataques adversariales: Incluso los detectores altamente precisos son vulnerables a la subversión directa a través de ataques adversariales. En este escenario, un atacante agrega perturbaciones minúsculas e imperceptibles a los píxeles de una imagen deepfake. Si bien estos cambios son invisibles para los humanos, están diseñados específicamente para explotar las debilidades en las redes neuronales del detector, haciendo que clasifique erróneamente la falsificación como una imagen real. Esta amenaza existe tanto en la configuración de “caja blanca” (donde el atacante tiene conocimiento completo de la arquitectura del detector) como en la configuración de “caja negra” más realista, donde el atacante solo puede consultar el detector y observar sus salidas.
En respuesta, la comunidad investigadora se centra en el desarrollo de detectores de próxima generación con resiliencia mejorada. Las estrategias clave incluyen:
Diversidad de datos de entrenamiento: Se ha demostrado que el aumento del conjunto de datos de entrenamiento para incluir una amplia gama de falsificaciones de modelos GAN y de difusión, así como diversos dominios de imágenes, mejora la capacidad de generalización.
Estrategias avanzadas de entrenamiento: Se están explorando nuevas técnicas como el “aumento de dificultad por momento” para ponderar muestras basadas en la dificultad dinámica para que los modelos puedan entrenar de manera más eficiente en conjuntos de datos heterogéneos.
Arquitecturas robustas: Se están diseñando nuevas arquitecturas que son intrínsecamente más resistentes a los ataques. Un enfoque prometedor utiliza conjuntos disjuntos, donde múltiples modelos están entrenados en subconjuntos diferentes y no superpuestos del espectro de frecuencia de una imagen. Esto obliga al atacante a encontrar perturbaciones que puedan engañar a múltiples modelos simultáneamente, una tarea mucho más difícil. Otros enfoques híbridos fusionan características de los dominios espaciales y de frecuencia para construir un modelo más integral de los datos.
El flujo y reflujo continuo entre las tecnologías de generación y las de detección significa que cualquier defensa estática está destinada a volverse obsoleta. A medida que los modelos generativos continúen evolucionando para eliminar indicios como anomalías de parpadeo o artefactos GAN, los detectores deben recurrir a señales más sutiles, como desajustes de alta frecuencia o firmas rPPG. A su vez, los modelos generativos pueden ser entrenados para imitar estas señales, como se ve en la herencia de rPPG de videos de origen. Este ciclo perpetuo implica que una estrategia de prevención que se basa únicamente en la detección reactiva está involucrada en una carrera armamentística costosa y posiblemente invencible.
Es probable que las estrategias de detección más duraderas sean aquellas que explotan las brechas fundamentales entre la simulación digital y la realidad física. Mientras que los artefactos visuales son imperfecciones en la simulación que pueden parchearse gradualmente con mejores algoritmos y más potencia computacional, es mucho más difícil para la IA modelar las propiedades emergentes de la biología y la física desde los primeros principios. Un modelo generativo no “entiende” el sistema cardiovascular humano. Simplemente aprende a replicar patrones de píxeles asociados con una cara. Si bien se puede entrenar para imitar los resultados visuales de un latido cardíaco, generar una señal fisiológicamente consistente y precisa desde cero para una nueva identidad requeriría modelar todo el sistema biológico, un desafío de orden muy superior. Por lo tanto, la investigación de detección más fiable se centrará en estas “brechas de plausibilidad física”, que incluyen no solo el rPPG sino también potencialmente otros indicios como patrones de respiración sutiles, dilatación involuntaria de las pupilas y microexpresiones que están controladas por procesos biológicos complejos difíciles de simular con gran precisión.
Construyendo la Confianza Digital: Prevención Proactiva a través del Marcado de Agua y la Procedencia
Dadas las limitaciones inherentes a las estrategias de detección puramente reactivas, un régimen de prevención de daños deepfake más resistente y sostenible implica medidas proactivas. El objetivo de estas técnicas es establecer la confianza y la responsabilidad en el ecosistema de medios digitales desde el momento de la creación. En lugar de centrarse en la identificación de falsificaciones después de su creación y difusión, este paradigma mueve el enfoque hacia la verificación de la autenticidad y el origen del contenido legítimo. Dos tecnologías líderes en este ámbito son el marcado de agua digital forense y la procedencia de contenido basada en blockchain.
Marcado de Agua Digital Forense: Firmas Invisibles
El marcado de agua digital forense es una técnica proactiva que incrusta identificadores únicos e imperceptibles directamente en el contenido digital, como imágenes, vídeos o documentos. A diferencia de las marcas de agua visibles, como logotipos superpuestos en una imagen, las marcas de agua forenses están ocultas en los datos del archivo en sí y están diseñadas para ser extraordinariamente robustas. Una marca de agua forense bien diseñada puede sobrevivir a las manipulaciones comunes de los archivos, incluida la compresión, el recorte, el cambio de tamaño, los ajustes de color e incluso las capturas de pantalla o las capturas de pantalla a cámara.
En el contexto de la prevención de deepfake, las marcas de agua forenses sirven para varias funciones clave:
Rastreo de origen y responsabilidad: Al incrustar información única que identifica al creador, usuario o canal de distribución, una marca de agua puede usarse para rastrear el origen de un deepfake malicioso si se filtra o se usa indebidamente. Por ejemplo, en un entorno de vídeo bajo demanda (VOD) o corporativo, un sistema podría utilizar el marcado de agua A/B para proporcionar a cada usuario una versión ligeramente diferente y con marca de agua única de un vídeo. Si esa copia aparece en línea, la marca de agua puede extraerse para identificar la fuente exacta de la filtración, proporcionando pruebas sólidas para acciones legales o disciplinarias.
Verificación de autenticidad: Una marca de agua puede servir como sello de autenticidad para el contenido oficial. Las agencias gubernamentales, las empresas o las organizaciones de noticias pueden incrustar marcas de agua únicas en sus medios legítimos. Esto permite la verificación de comunicaciones auténticas y ayuda a detectar y frustrar los intentos de suplantación de identidad mediante deepfakes.
Rastreo del ciclo de vida: Los defensores sugieren que las marcas de agua pueden integrarse en varias etapas del ciclo de vida del contenido. Las marcas de agua pueden incrustarse en las cargas en las redes sociales, las aplicaciones de mensajería o incluso en las propias aplicaciones de creación de deepfake para crear un registro rastreable de cómo se generó y distribuyó el contenido manipulado.
Se están desarrollando técnicas avanzadas de marcado de agua específicamente para contrarrestar las manipulaciones de deepfake. Un enfoque novedoso implica diseñar una red neuronal que incruste marcas de agua de forma fiable directamente en las características de identidad de una imagen facial. Esto hace que la marca de agua sea muy sensible a las manipulaciones de intercambio de rostros, ya que tales operaciones cambian inherentemente las características de identidad y, por lo tanto, corrompen la marca de agua, mientras que también sigue siendo robusta para las modificaciones tradicionales de la imagen, como la compresión o el cambio de tamaño.
A pesar de las promesas, hay desafíos importantes que enfrenta el marcado de agua. La primera es que las marcas de agua no son invencibles. Los estudios han demostrado que las técnicas adversariales (en particular las que utilizan modelos de difusión) pueden utilizarse para “disolver” o reconstruir una imagen, eliminando eficazmente las marcas de agua incrustadas. En segundo lugar, y lo que es más importante, la eficacia del marcado de agua como solución sistémica depende de una adopción generalizada. Actualmente no existen requisitos legales o reglamentarios para que las aplicaciones deepfake o las plataformas sociales implementen el marcado de agua, lo que deja su uso como voluntario y fragmentado.
Blockchain y Procedencia de Contenido: Libros Mayores Inmutables
Una estrategia proactiva complementaria es el uso de la tecnología blockchain para establecer la procedencia del contenido: un registro fiable, verificable y a prueba de manipulaciones del origen y el historial del ciclo de vida de un archivo multimedia. Este enfoque aprovecha las propiedades centrales de la cadena de bloques, a saber, su descentralización e inmutabilidad, para crear un registro de autenticidad público y permanente.
Un enfoque para establecer la procedencia basada en blockchain generalmente implica tres pasos:
Huella digital de contenido: Cuando se crea inicialmente o se carga en una plataforma participante, se genera un hash criptográfico único a partir de los datos de un archivo. Este hash actúa como una huella digital; cualquier cambio en el archivo, no importa cuán pequeño, dará como resultado un hash completamente diferente.
Registro de blockchain: Este hash único, junto con los metadatos clave (por ejemplo, la identidad digital verificada del creador, la marca de tiempo y otros detalles relevantes), se registran como una transacción en el libro mayor de la cadena de bloques. Dado que este libro mayor está distribuido y asegurado criptográficamente, este registro es efectivamente permanente y no puede ser alterado ni eliminado.
Verificación continua: En cualquier punto futuro en el tiempo, cualquier persona o sistema puede verificar la autenticidad del medio en cuestión. Lo harían simplemente calculando el hash actual del archivo en cuestión y comparándolo con el hash original almacenado en la cadena de bloques. Si los hashes coinciden, это служит доказательством того, что файл не был изменен с момента его первой регистрации. Если происходит несовпадение, то становится ясно, что файл был подделан или изменен.
Este sistema crea una “цепочку хранения” transparentную и подлежащую проверке для цифрового контента. Это позволяет создателям использовать свой закрытый ключ для цифровой подписи своей работы, тем самым гарантируя её подлинность своей репутацией. Platформи могат да интегрират эту систему для автоматической перекрестной сверки контента с блокчейном, прежде чем разрешить его отображение, помечая или блокируя медиафайли, в которых отсутствует действительный запрос происхождения. Исследования гибридных систем, объединяющих происхождение на основе блокчейна с цифровыми водяными знаками, показали, что они позволяют достичь чрезвычайно высокой точности обнаружения, потенциально достигающей 95%.
However, like watermarking, blockchain-based provenance has its limitations. Its primary weakness lies in its reliance on network effects. The system is only valuable if creators, technology platforms, and consumer devices adopt it as a general standard. Moreover, it’s important to note that this method verifies the integrity of a digital file from the point of registration onward, but not necessarily the authenticity of the content itself. A creator could register a deepfake on the blockchain. The system would only prove that this particular falsified file had not been altered since the time of registration.
The use of these proactive technologies marks a critical shift in the strategy for combating deepfakes. Rather than participating in the reactive arms race of “detecting fakes,” these approaches aim to create a system of “verifying truths.” The arms race is characterized by constantly evolving threats and countermeasures, where sophisticated detectors can be rendered obsolete overnight by a new generative model. Proactive measures, in contrast, are applied contemporaneously with, or in advance of, the publication of authenticated content. The goal is no longer to prove a piece of media is fake by discovering flaws, but instead to prove that it’s real by confirming the existence of a valid watermark or finding a matching entry on an immutable ledger.
This shift has profound implications for the entire information ecosystem. In a world increasingly saturated with synthetic media, where estimates suggest that within years perhaps 90% of online content could be synthetic, the default assumption for consumers and systems must shift from “true until proven fake” to “unverified until proven authentic.” Proactive technologies like watermarking and provenance provide the technological foundation for this new paradigm. They shift the burden of proof to the creators of legitimate content to authenticate their work, rather than placing upon consumers the impossible burden of debunking a vast sea of potential falsifications.
However, the biggest obstacles to this more resilient future are not technical, but a problem of coordination at scale. The technology for watermarking and blockchain provenance already exists, but their effectiveness is entirely dependent on achieving network effects through wide-scale, standardized adoption. A watermark is useless if there’s no standard way to read it; a blockchain ledger is of little value if the major platforms don’t query it. For these systems to work at a societal level, they must be integrated at the foundational level—in cameras, in editing software, in social media upload protocols, and in the browsers and applications people use every day. This requires tremendous industry-wide collaboration, and will likely be spurred by the regulatory mandates and incentives discussed in the sections below. The success of industry coalitions such as the Content Authenticity and Provenance Alliance (C2PA), which promotes an open technical standard for content provenance, will be a key barometer of this strategic shift.
Law in a Synthetic World: Global Regulatory and Legal Frameworks
As deepfake technology permeates society, governments around the world are grappling with how to regulate its use and mitigate its harms. Responses have varied widely, reflecting differing legal traditions, political systems, and societal priorities. A global consensus remains elusive, leading to a patchwork of national and regional legal environments. This divergence creates a complex compliance landscape for global technology companies and highlights differing philosophical approaches to balancing innovation, free expression, and public safety.
United States: A Patchwork of Federal and State Action
The US approach to deepfake regulation is characterized by a combination of targeted federal legislation and a broader patchwork of state-level legislation, all constrained by the robust constitutional protection for freedom of speech under the First Amendment.
At the federal level, the most significant piece of legislation is the TAKEOFF IT DOWN Act, enacted in May 2025. The law was passed with rare bipartisan support, driven largely by the growing crisis caused by the use of AI to create non-consensual intimate images (NCII), or “revenge porn.” The Act is the first federal statute to formally criminalize the distribution of such content, including AI-generated deepfakes. Its key provisions include:
Criminalization: Prohibits the distribution of non-consensual intimate images, punishable by up to two years in prison.
Notice and takedown mandate: Requires online platforms that host user-generated content to establish procedures to remove flagged NCII content and remove duplicates within 48 hours.
Enforcement: Grants the Federal Trade Commission (FTC) the authority to enforce these regulations against non-compliant platforms.
Other existing federal laws can potentially be leveraged to address harms linked to deepfakes. The National Defense Authorization Act (NDAA) includes provisions addressing the use of deepfakes in foreign disinformation campaigns. The FTC Act prohibition on “unfair or deceptive acts or practices” can be used against fraud and scams enabled by deepfakes, while federal wire fraud statutes can be used to prosecute scams using fake audio or video.
At the state level, all 50 states and the District of Columbia have enacted laws against NCII, with many states updating their laws to explicitly include deepfakes. States are also actively regulating deepfakes surrounding electoral integrity. Various state laws now mandate clear disclaimers on AI-generated political advertisements or prohibit the distribution of “materially deceptive media” intended to affect an election, particularly within a defined period prior to the start of voting.
A key challenge at the heart of US legal debate is striking a balance between regulating harmful content and protecting First Amendment rights. Critics of the TAKEOFF IT DOWN Act, for instance, warned that its provisions could be abused by malicious actors to demand the removal of legitimate speech (such as parody or political commentary), and that the 48-hour takedown requirement could place undue burden on smaller platforms. This has prompted legal scholars to explore the application of existing legal frameworks such as right of publicity (ROP), which prohibits the unauthorized commercial use of an individual’s image, as a potential middle ground that could address harms without impinging upon protected speech.
European Union: A Comprehensive, Risk-Based Approach
In contrast to the US focus on targeted, harm-specific responses, the European Union is taking a broad, comprehensive, and risk-based framework to govern all AI, including the technologies that power deepfakes. This is being accomplished primarily through two landmark pieces of legislation: the Artificial Intelligence Act (AI Act) and the Digital Services Act (DSA).
The EU AI Act, formally approved in March 2024, is the world’s first comprehensive law on artificial intelligence. It establishes a tiered system that regulates AI systems based on the level of risk they pose. Rather than outright banning deepfakes, the Act imposes strong transparency obligations on AI systems that create them. Key provisions include:
- Disclosure requirement: Users must be informed when they are interacting with artificially generated or manipulated content. All deepfakes—broadly