Стратегии защиты от дипфейков ИИ

Двигатель дипфейков: технический анализ

Дипфейки, основанные на генеративных моделях, представляют собой серьезную угрозу для доверия общества и информационной безопасности. Чтобы предотвратить распространение дипфейков, необходимо понимать их технологии, в частности, генеративные модели.

Генеративные модели – это искусственный интеллект, который способен обучаться на больших объемах данных и создавать реалистичные изображения, видео и аудио. В последние годы генеративные состязательные сети (GAN) уступили место диффузионным моделям, которые обладают большей мощностью. Необходимо провести технический анализ этих генеративных движков, чтобы создать эффективную систему предотвращения.

Состязательная игра: генеративные состязательные сети (GAN)

GAN состоят из двух нейронных сетей: генератора и дискриминатора. Задача генератора – создавать синтетические данные, которые имитируют реальные данные. Генератор начинает со случайного ввода (обычно называемого скрытым вектором) и пытается преобразовать его в связный вывод. Дискриминатор, с другой стороны, выполняет роль классификатора, оценивая данные, чтобы определить, являются ли они реальными (из реального набора данных для обучения) или поддельными (созданными генератором).

Процесс обучения включает постоянный цикл обратной связи между двумя сетями, подобный игре с нулевой суммой. Генератор создает поддельное изображение и передает его дискриминатору, который также получает реальные изображения из набора данных для обучения. Затем дискриминатор прогнозирует подлинность каждого изображения. Если дискриминатор правильно идентифицирует выход генератора как поддельный, он предоставляет обратную связь. Генератор использует эту обратную связь посредством обратного распространения для корректировки своих внутренних параметров, чтобы в следующей итерации сгенерировать еще более убедительное изображение. Дискриминатор также корректирует свои параметры, чтобы лучше выявлять подделки. Эта состязательная конкуренция продолжается до тех пор, пока система не достигнет точки равновесия, иногда называемой равновесием Нэша, в которой выход генератора настолько реалистичен, что дискриминатор больше не может надежно отличить его от реальных данных и делает предположения примерно с 50-процентной точностью.

GAN оказались эффективными в создании синтетических медиа и легли в основу многих влиятельных моделей глубокого фейка. Архитектуры, такие как глубокая сверточная GAN (DCGAN), внесли ключевые улучшения за счет замены слоев объединения и использования пакетной нормализации для повышения стабильности. StyleGAN от NVIDIA и ее преемники StyleGAN2 и StyleGAN3 реализовали беспрецедентный фотореализм в генерации лиц за счет исправления артефактов признаков и продвижения архитектуры модели. Другие варианты, такие как CycleGAN, реализовали задачи преобразования стиля и, следовательно, широко использовались в таких приложениях, как Face App, для изменения внешнего вида человека по возрасту.

Несмотря на возможности GAN, известно, что их сложно обучать. Тонкий баланс между генератором и дискриминатором можно легко нарушить, что приведет к нестабильности обучения, медленной сходимости или критическому режиму отказа, называемому «разрушением режима». Разрушение режима происходит, когда генератор обнаруживает слабость в дискриминаторе и использует ее, создавая только ограниченный спектр выводов, которые, как он знает, могут обмануть дискриминатор, не позволяя охватить истинное разнообразие данных обучения. Эти неотъемлемые проблемы, а также тонкие артефакты, которые они часто производят, стали главной целью систем обнаружения дипфейков первого поколения.

Инверсия хаоса: диффузионные модели

Последние достижения в области генеративного искусственного интеллекта решительно сместились в сторону нового класса моделей: диффузионных моделей. Вдохновленные концепциями неравновесной термодинамики, диффузионные модели работают по принципам, принципиально отличающимся от принципов GAN. Это вероятностные генеративные модели, которые генерируют данные исключительно высокого качества и разнообразия, изучая, как инвертировать процесс постепенного повреждения.

Механизм диффузионных моделей представляет собой двухфазный процесс:

  1. Прямой процесс диффузии: На этом этапе небольшое количество гауссовского шума систематически и постепенно добавляется к изображению с течением времени (например, T шагов). Это процесс цепи Маркова, в котором каждый шаг зависит от предыдущего шага, постепенно ухудшая качество изображения, пока на конечном временном шаге T оно не станет неотличимым от чистого неструктурированного шума.

  2. Обратный процесс шумоподавления: Ядром модели является нейронная сеть (обычно архитектура U-Net), которая обучена инвертировать этот процесс. Она учится прогнозировать шум, добавленный на каждом временном шаге в прямом процессе, и вычитать его. После обучения модель может генерировать новые высококачественные изображения, начиная со случайного образца шума и итеративно применяя эту выученную функцию «шумоподавления» в обратном порядке по временным шагам, преобразуя хаос в связный образец из исходного распределения данных.

Этот процесс итерационного уточнения позволяет диффузионным моделям достигать уровней фотореализма и разнообразия, которые могут даже превзойти лучшие GAN. Их также намного стабильнее обучать, чем GAN, что позволяет избежать таких проблем, как нарушение режима, и дает более надежные и разнообразные результаты. Эти технологические преимущества сделали диффузионные модели основой наиболее заметных и мощных инструментов генеративного искусственного интеллекта, доступных сегодня, включая модели преобразования текста в изображение, такие как DALL-E 2 от OpenAI, Imagen от Google и Stable Diffusion от Stability AI, а также модели преобразования текста в видео, такие как Sora от OpenAI. Широкая доступность и превосходное качество вывода этих моделей значительно усугубили угрозу дипфейков.

Способы применения

Независимо от того, используется GAN или диффузионная модель, базовые генеративные движки применяются с использованием различных специализированных методов для создания дипфейковых видео. Эти методы обрабатывают различные аспекты целевого видео для достижения желаемого эффекта обмана.

  • Перенос выражения лица: Этот метод переносит выражения лица, движения головы и движения, связанные с речью, исходного персонажа на целевой объект в видео. Процесс обычно включает три основных этапа: во-первых, отслеживание особенностей лица в исходном и целевом видео; во-вторых, согласование этих особенностей с общей трехмерной моделью лица с использованием показателей согласованности; и, в-третьих, перенос выражения с источника на цель с последующим уточнением для повышения реализма и согласованности.

  • Синхронизация губ: Технология дипфейка синхронизации губ специализируется на работе с речью, в основном используя аудиовход для генерации реалистичных движений губ. Звук преобразуется в динамические формы и текстуры губ, которые затем тщательно сопоставляются и смешиваются с целевым видео, создавая иллюзию того, что целевой человек говорит входящий звук.

  • Синтез на основе текста: Этот высокоточный метод изменяет видео в соответствии с текстовым сценарием. Он работает, анализируя текст на составляющие его фонемы (звуковые единицы) и визонемы (визуальные представления речевых звуков). Затем они сопоставляются с соответствующими последовательностями в исходном видео и используются параметры трехмерной модели головы для генерации и сглаживания движений губ в соответствии с новым текстом, что позволяет редактировать то, что, по-видимому, говорит человек, слово за словом.

Технологический прогресс от GAN к диффузионным моделям — это не просто постепенное улучшение; это сдвиг парадигмы, коренным образом изменяющий стратегическую картину предотвращения дипфейков. GAN, несмотря на свою мощь, имеют известные архитектурные слабые места, такие как нестабильность обучения и нарушение режима, которые часто приводят к появлению предсказуемых и обнаруживаемых артефактов в частотной области изображения. Следовательно, целое поколение инструментов обнаружения было специально создано для выявления этих специфичных для GAN отпечатков. Однако диффузионные модели, которые более стабильны в обучении и производят более разнообразные, реалистичные результаты и статистически более похожи на реальные изображения, не обладают многими явными недостатками своих предшественников.

Следовательно, значительная часть существующей инфраструктуры обнаружения дипфейков быстро устаревает. Исследования показали, что детекторы, обученные на изображениях, сгенерированных GAN, испытывают «серьезное снижение производительности» при применении к контенту из диффузионных моделей. Примечательно, что детекторы, обученные на изображениях диффузионных моделей, могут успешно идентифицировать контент, сгенерированный GAN, но не наоборот, что указывает на то, что диффузионные модели представляют собой более сложный и сложный класс подделок. Фактически, это эффективно сбросило технологическую гонку вооружений, потребовав переосмысления стратегий защиты для решения уникальных и более тонких характеристик сгенерированных диффузионными моделями медиафайлов.

Кроме того, природа «черного ящика» этих генеративных моделей усложняет усилия по предотвращению источника. И GAN, и диффузионные модели работают без учителя или с частичным обучением с учителем, изучая, как имитировать статистическое распределение набора данных без явных семантических меток. Они не учатся «что такое лицо» в понятном для человека смысле, а скорее «какие шаблоны пикселей возможны в наборе данных лиц». Это затрудняет прямое программирование ограничений в процесс генерации (например, «не создавать вредоносные изображения»). Модель просто оптимизирует математическую функцию: либо обманывает дискриминатор, либо инвертирует процесс шумоподавления. Это означает, что предотвращение не может зависеть от внутреннего регулирования основных алгоритмов. Наиболее жизнеспособные вмешательства должны происходить до генерации (путем контроля данных обучения) или после генерации (путем обнаружения, водяных знаков и происхождения), поскольку сам акт создания по своей сути сопротивляется прямому управлению.

Сравнительный анализ движков генерации

Понимание стратегических различий между GAN и диффузионными моделями имеет решающее значение для любого заинтересованного лица, от политиков до сотрудников службы безопасности компании. Переход от первого ко второму с точки зрения технологического доминирования оказывает глубокое влияние на сложность обнаружения, потенциал обмана и общую картину угроз.

Характеристика Генеративные состязательные сети (GAN) Диффузионные модели Стратегическое значение
Основной механизм Генератор и дискриминатор конкурируют в игре с нулевой суммой. Нейронная сеть учится инвертировать постепенный процесс «зашумления». Итеративный процесс диффузии обеспечивает более высокую точность и меньшее количество структурных ошибок.
Процесс обучения Известен своей нестабильностью; подвержен «разрушению режима» и медленной сходимости. Стабильный и надежный в обучении, но вычислительно интенсивный. Более низкий барьер для достижения высококачественных результатов с помощью диффузионных моделей демократизирует угрозу.
Качество вывода Может генерировать высококачественные изображения, но может содержать тонкие артефакты. В настоящее время самый высокий уровень фотореализма и разнообразия; часто неотличим от реальных фотографий. Подделки становятся более убедительными, подрывая эвристику “видеть — значит верить” и бросая вызов обнаружению человеком.
Обнаружимость Старые методы обнаружения часто настроены для поиска артефактов, специфичных для GAN (например, частотный дисбаланс). Делает устаревшими многие детекторы на основе GAN. Изображения содержат меньше заметных артефактов и более точно соответствуют статистическим данным реальных данных. Гонка вооружений в области дипфейков была перезагружена. R&D обнаружения должны переключиться на сосредоточение внимания на информации, специфичной для диффузии.
Известные модели StyleGAN, CycleGAN DALL-E, Stable Diffusion, Imagen, Sora Самые мощные и широко используемые инструменты теперь основаны на диффузии, ускоряя угрозу.

Цифровая иммунная система: сравнительный анализ методов обнаружения

В ответ на всплеск количества синтетических медиа появился разнообразный ландшафт методов обнаружения, формирующих зарождающуюся «цифровую иммунную систему». Эти методы охватывают судебно-медицинский анализ цифровых артефактов, наряду с новыми подходами к зондированию скрытых биологических сигналов. Однако эффективность этой иммунной системы постоянно ставится под сомнение быстрым развитием генеративных моделей и состязательными атаками, направленными на то, чтобы избежать обнаружения. Постоянная борьба между созданием и обнаружением — это парадокс «Красной королевы», когда защитники должны постоянно внедрять инновации, чтобы поддерживать существующее положение вещей.

Судебно-медицинский анализ цифровых артефактов

Наиболее устоявшаяся категория обнаружения дипфейков включает судебно-медицинский анализ цифровых артефактов, то есть тонких дефектов и несоответствий, оставленных в процессе генерации. Эти дефекты и несоответствия часто сложно идентифицировать и их невозможно обнаружить невооруженным глазом, но их можно выявить с помощью специализированных алгоритмов.

  • Визуальные и анатомические несоответствия: Ранние модели генерации, и даже некоторые текущие модели, испытывают трудности с идеальным воспроизведением сложностей анатомии человека и физики реального мира. Методы обнаружения используют эти недостатки, анализируя конкретные аномалии в медиафайлах. К ним относятся неестественные закономерности моргания, то есть моргание слишком часто, слишком редко или вообще не моргание (часто из-за отсутствия изображений с закрытыми глазами в обучающих данных), роботизированные или несогласованные движения глаз, а также ограниченные формы губ или рта, где нижние зубы никогда не отображаются. Другими показателями являются отсутствие тонких изменений в ноздрях во время разговора, несовпадение освещения и тени, не соответствующие окружающей среде, а также ошибки или отсутствующие отражения на очках или других отражающих поверхностях.

  • Пиксельный анализ и анализ сжатия: Эти методы работают на более низком уровне, исследуя цифровую структуру изображения или видео. Анализ уровня ошибок (ELA) — это метод идентификации областей в изображении, которые имеют разные уровни сжатия. Поскольку манипулируемые области обычно пересохраняются или пересжимаются, они могут отображать уровни ошибок, отличные от исходных частей изображения, тем самым выделяя подделки. Тесно связан с этим анализ краев и смешивания, который внимательно изучает границы и контуры между синтетическими элементами (например, замененными лицами) и реальным фоном. Эти области могут выдать манипуляции такими признаками, как несогласованная пикселизация, неестественная резкость или размытие, а также тонкие различия в цвете и текстуре.

  • Частотный анализ: Вместо того, чтобы напрямую анализировать пиксели, эти методы преобразуют изображение в его частотные компоненты, чтобы найти неестественные закономерности. Поскольку генераторы GAN архитектурно основаны на повышающей дискретизации, они часто оставляют характерные спектральные артефакты, создавая периодические закономерности, отсутствующие в реальных изображениях. Хотя это эффективно для большинства GAN, этот подход менее успешен для диффузионных моделей, которые производят изображения с более естественными частотными профилями. Однако некоторые исследования показывают, что диффузионные модели все еще могут демонстрировать обнаруживаемое несоответствие высокочастотных деталей по сравнению с реальными изображениями, что обеспечивает потенциальный путь для обнаружения.

Анализ биосигналов: «сердцебиение» дипфейка

Более новая и многообещающая область обнаружения дипфейков включает анализ наличия настоящих биологических сигналов в медиафайлах. Основная предпосылка заключается в том, что, хотя генеративные модели все лучше справляются с репликацией визуального вида, они не могут имитировать основные физиологические процессы живого человека.

Основным методом в этой области является удаленная фотоплетизмография (rPPG). Этот метод использует стандартную камеру для обнаружения крошечных периодических изменений в цвете кожи, которые происходят, когда сердце перекачивает кровь в поверхностные кровеносные сосуды лица. В реальном видео человека это создает слабый, но последовательный пульсирующий сигнал. В дипфейках этот сигнал часто отсутствует, искажен или непостоянен.

Метод обнаружения включает несколько этапов:

  1. Извлечение сигнала: Сигналы rPPG извлекаются из нескольких областей интереса (ROI) на лице человека в видео.

  2. Обработка сигналов: Исходный сигнал очищается от шума, а затем обрабатывается (обычно с использованием быстрого преобразования Фурье (FFT)) для анализа его временных и спектральных характеристик. FFT может выявить доминирующие частоты в сигнале, которые соответствуют частоте сердцебиения.

  3. Классификация: Классификатор (такой как CNN) обучается отличать согласованные, ритмичные закономерности настоящего сердцебиения от шумных, непоследовательных или отсутствующих сигналов, обнаруженных в поддельных видео.

В контролируемых экспериментальных условиях этот метод достиг очень высокой точности обнаружения, в некоторых исследованиях сообщается о точности до 99,22%. Однако у этого метода есть критическая слабость. Более продвинутые технологии дипфейков, особенно те, которые включают перенос выражения лица, могут унаследовать физиологические сигналы из исходного видео или «ведущего» видео. Это означает, что дипфейк может отображать совершенно нормальный и согласованный сигнал rPPG. Это просто будет сердцебиение исходного актора, а не персонажа, изображенного в конечном видео. Это открытие бросает вызов простому предположению об отсутствии физиологических сигналов в дипфейках и поднимает планку обнаружения. Будущие методы должны выйти за рамки простой проверки наличия пульса и вместо этого должны проверять физиологическую согласованность и идентификационные особенности сигнала.

Гонка вооружений в области обнаружения: проблемы, связанные с диффузионными моделями и состязательными атаками

Область обнаружения дипфейков определяется безжалостной гонкой вооружений. Как только разрабатывается надежный метод обнаружения, генеративные модели постоянно развиваются, чтобы обойти его. Недавний рост диффузионных моделей и использование состязательных атак являются двумя наиболее важными проблемами, стоящими перед современными детекторами.

  • Неспособность к обобщению: Основным недостатком многих моделей обнаружения является их неспособность к обобщению. Детектор, обученный для идентификации подделок из определенной генеративной модели (например, StyleGAN2) или в определенном наборе данных, часто выходит из строя, когда сталкивается с новыми методами манипуляции или различными областями данных. Диффузионные модели делают эту проблему особенно острой. Поскольку их выход содержит меньше явных артефактов, более разнообразен по содержанию и более точно соответствует статистическим свойствам реальных изображений, они могут эффективно избежать обнаружителей, предназначенных для GAN. Чтобы решить эту проблему, исследователи разрабатывают новые и более сложные эталонные наборы данных, содержащие современные диффузионные дипфейки, для стимулирования создания более надежных и общих детекторов.

  • Состязательные атаки: Даже высокоточные детекторы уязвимы для прямого взлома посредством состязательных атак. В этом сценарии злоумышленник добавляет небольшие, незаметные возмущения к пикселям дипфейкового изображения. Хотя эти изменения невидимы для человека, они специально разработаны для использования слабых мест в нейронной сети детектора, заставляя ее неправильно классифицировать поддельное изображение как реальное. Эта угроза существует как в настройках «белого ящика» (когда злоумышленник имеет полное знание архитектуры детектора), так и в более реалистичных настройках «черного ящика» (когда злоумышленник может только запрашивать детектор и наблюдать за его выходом).

Чтобы противодействовать этому, исследовательское сообщество сосредоточено на разработке детекторов нового поколения с повышенной отказоустойчивостью. Ключевые стратегии включают:

  • Разнообразие обучающих данных: Было доказано, что увеличение набора обучающих данных для включения различных подделок как из GAN, так и из диффузионных моделей, а также различных областей изображений улучшает возможность обобщения.

  • Расширенные стратегии обучения: Изучаются новые методы, такие как «динамическое увеличение сложности на основе импульса», чтобы помочь модели более эффективно обучаться на гетерогенных наборах данных за счет взвешивания образцов на основе динамической сложности классификации образцов.

  • Надежная архитектура: Разрабатываются новые архитектуры, чтобы сделать их по своей сути более устойчивыми к атакам. Одним из многообещающих подходов является использование неперекрывающихся ансамблей, где несколько моделей обучаются на различных и неперекрывающихся подмножествах частотного спектра изображения. Это заставляет злоумышленника находить возмущения, которые могут одновременно обмануть несколько моделей, что является гораздо более сложной задачей. Другие сочетания методов объединяют признаки из пространственной и частотной областей для создания более полной модели данных.

Постоянное движение вперед и назад между генеративными технологиями и технологиями обнаружения показывает, что любая статическая защита обречена на устаревание. По мере того, как генеративные модели продолжают развиваться, исключая такие признаки, как аномалии моргания или артефакты GAN, детекторы должны переключаться на более тонкие сигналы, такие как высокочастотные несовпадения или подписи rPPG. В свою очередь, генеративные модели могут быть обучены имитировать эти сигналы, как видно из наследования rPPG из исходного видео. Этот вечный цикл предполагает, что стратегии предотвращения, основанные исключительно на реактивном обнаружении, участвуют в дорогостоящей и потенциально непроигрышной гонке вооружений.

Наиболее устойчивыми стратегиями обнаружения, вероятно, будут те, которые используют фундаментальные разрывы между цифровым моделированием и физической реальностью. В то время как визуальные артефакты — это недостатки в моделировании, которые можно исправить постепенно с помощью лучших алгоритмов и большей вычислительной