Предпосылки
Европейский закон об искусственном интеллекте (Регламент (ЕС) 2024/1689, или ‘Закон об ИИ’) налагает особые обязательства на поставщиков моделей искусственного интеллекта общего назначения (‘GPAI’). Эти модели, в том числе из семейства GPT, Llama и Gemini, должны соответствовать таким требованиям, как ведение полной документации и разработка политики, обеспечивающей соблюдение законодательства ЕС об авторском праве.
Для содействия соблюдению этих положений Закон об ИИ предусматривает разработку Кодексов практики, адаптированных для моделей GPAI. По приглашению AI Office различные эксперты и заинтересованные стороны сформировали четыре рабочие группы, занимающиеся разработкой первоначального Кодекса практики. Утверждение этого Кодекса Комиссией ЕС предоставит ему ‘общую силу’ на всей территории ЕС. Принятие утвержденного Кодекса практики GPAI предлагает компаниям средство продемонстрировать упреждающее соблюдение требований, потенциально снижая регуляторный контроль и связанные с ним штрафы.
AI Office недавно опубликовал третий проект Кодекса практики (‘3-й проект’), подготовленный этими рабочими группами. Этот проект охватывает несколько ключевых областей:
- Обязательства
- Прозрачность
- Авторское право
- Безопасность и защита
Окончательная версия этого Кодекса практики должна быть выпущена 2 мая 2025 года.
В этом документе будут подробно рассмотрены важные детали раздела об авторском праве 3-го проекта. Заметным отличием от второго проекта (‘2-й проект’) является упрощенный и лаконичный подход 3-го проекта. Ключевым изменением является то, что 3-й проект, как правило, требует, чтобы усилия по соблюдению требований были соизмеримы с размером и возможностями поставщика, в отличие от 2-го проекта.
Для кого это актуально?
Кодекс практики в первую очередь предназначен для поставщиков моделей GPAI. Эти модели характеризуются значительной общностью и способностью эффективно выполнять широкий спектр различных задач. Сюда входят поставщики известных больших языковых моделей, таких как GPT (OpenAI), Llama (Meta), Gemini (Google) и Mistral (Mistral AI). Однако поставщики моделей меньшего размера также могут подпадать под его действие, при условии, что их модели могут использоваться для решения широкого круга задач. Кроме того, предприятия, которые точно настраивают модели для своих конкретных приложений, также могут быть классифицированы как поставщики моделей GPAI.
‘Поставщики, находящиеся ниже по течению’, или предприятия, которые интегрируют модели GPAI в свои системы ИИ, также должны ознакомиться с Кодексом практики. Этот Кодекс призван стать квазистандартом для моделей GPAI, определяющим ожидания разработчиков систем ИИ в отношении возможностей моделей GPAI. Это понимание может иметь решающее значение при переговорах по контракту с поставщиками моделей GPAI.
Ключевые концепции Кодекса практики в отношении авторского права
Поставщики моделей GPAI обязаны разработать политику, обеспечивающую соблюдение законодательства ЕС об авторском праве (ст. 53 (1) (c) Закона об ИИ). Учитывая новизну этого требования, практических рекомендаций по структуре и содержанию такой политики не хватало. Кодекс практики призван устранить этот пробел.
Кодекс практики требует, чтобы поставщики принимали следующие меры:
Политика в отношении авторских прав
Поставщики, подписавшие Кодекс практики (‘Подписавшие стороны’), обязаны формулировать, поддерживать и применять политику в отношении авторских прав, соответствующую законодательству ЕС об авторском праве. Это требование напрямую вытекает из Закона об ИИ. Подписавшие стороны также должны обеспечить соблюдение этой политики в отношении авторских прав своими организациями.
Существенным отличием от 2-го проекта является то, что 3-й проект больше не требует публикации политики в отношении авторских прав. Подписавшим сторонам просто рекомендуется сделать это. Это сниженное требование логично, поскольку сам Закон об ИИ не обязывает поставщиков моделей публиковать свои политики в отношении авторских прав.
Веб-сканирование контента, защищенного авторским правом
Подписавшим сторонам, как правило, разрешено использовать веб-сканеры для целей интеллектуального анализа текста и данных (‘TDM’) для сбора данных обучения для своих моделей GPAI. Однако они должны гарантировать, что эти сканеры уважают технологии, предназначенные для ограничения доступа к материалам, защищенным авторским правом, например, платные подписки.
Более того, Подписавшие стороны обязаны исключать ‘пиратские домены’, которые являются онлайн-источниками, в первую очередь занимающимися распространением материалов, нарушающих авторские права.
Веб-сканирование, идентификация и соблюдение отказов от TDM
Подписавшие стороны должны обеспечить, чтобы веб-сканеры идентифицировали и уважали отказы от TDM, заявленные правообладателями. Хотя законодательство ЕС об авторском праве в целом разрешает TDM, правообладатели сохраняют за собой право отказаться. Для веб-контента этот отказ должен быть машиночитаемым. В 3-м проекте подробно описаны требования к веб-сканерам, указывается, что они должны идентифицировать и соблюдать широко распространенный протокол robots.txt. Кроме того, веб-сканеры должны придерживаться других соответствующих машиночитаемых отказов от TDM, таких как метаданные, установленные в качестве отраслевого стандарта, или решения, обычно используемые правообладателями.
Подписавшие стороны обязаны предпринять разумные шаги для информирования правообладателей об используемых веб-сканерах и о том, как эти сканеры обрабатывают директивы robots.txt. Эта информация может распространяться по различным каналам, например, через веб-канал. Примечательно, что 3-й проект больше не включает обязательство публиковать эту информацию.
Идентификация и соблюдение отказа от TDM для контента, не сканируемого в Интернете
Поставщики моделей GPAI могут также получать наборы данных от третьих лиц, а не проводить веб-сканирование самостоятельно. В то время как 2-й проект требовал проведения проверки авторских прав на сторонние наборы данных, 3-й проект требует разумных усилий для получения информации о том, соблюдали ли веб-сканеры, использованные для сбора информации, протоколы robots.txt.
Снижение риска для предотвращения создания контента, нарушающего авторские права
Значительный риск, связанный с использованием ИИ, заключается в возможности того, что ИИ будет генерировать контент, нарушающий авторские права. Это может включать дублирование кода или изображений, найденных в Интернете, которые защищены авторским правом.
Подписавшие стороны обязаны приложить разумные усилия для снижения этого риска. Это представляет собой более мягкий подход по сравнению со 2-м проектом, который предписывал меры по предотвращению ‘переобучения’. 3-й проект использует более технологически нейтральную позицию, делая упор на разумные усилия.
Кроме того, Подписавшие стороны должны включить в свои условия (или аналогичные документы) для поставщиков систем ИИ, находящихся ниже по течению, пункт, запрещающий использование их модели GPAI способом, нарушающим авторские права.
Назначение контактного лица
Подписавшие стороны обязаны предоставить контактное лицо для правообладателей. Они также должны создать механизм, позволяющий правообладателям подавать жалобы на нарушения авторских прав.
В соответствии с 3-м проектом Подписавшие стороны имеют право отказаться от обработки жалоб, которые считаются необоснованными или чрезмерными.
Более глубокое погружение: более детальное изучение положений об авторском праве
3-й проект, хотя и кажется упрощенным, вносит нюансы и смещает акценты, которые требуют более пристального внимания. Давайте разберем каждый раздел подробнее:
Политика в отношении авторских прав: переход от публикации к поощрению
Первоначальное требование публиковать политику в отношении авторских прав, присутствовавшее во 2-м проекте, вызывало опасения по поводу потенциальных конкурентных недостатков и раскрытия конфиденциальной информации. Переход 3-го проекта к поощрению публикации, а не к ее требованию, учитывает эти опасения. Это изменение позволяет поставщикам сохранять определенную степень конфиденциальности в отношении своих внутренних стратегий соблюдения требований, при этом по-прежнему способствуя прозрачности. Однако аспект ‘поощрения’ по-прежнему оказывает тонкое давление на поставщиков, чтобы они были открыты в отношении своих политик, что потенциально может привести к фактическому стандарту публикации со временем.
Веб-сканирование: баланс между сбором данных и уважением авторских прав
Явное разрешение на веб-сканирование в сочетании с требованием соблюдать ограничения доступа, такие как платные подписки, отражает тонкий баланс. Закон об ИИ признает важность данных для обучения моделей ИИ, но он также подчеркивает необходимость уважать права создателей контента. Исключение ‘пиратских доменов’ является важным дополнением, явно нацеленным на источники, которые активно занимаются нарушением авторских прав. Это положение подкрепляет принцип, согласно которому разработка ИИ не должна строиться на основе незаконной деятельности.
Отказы от TDM: техническая специфика соблюдения требований
Акцент 3-го проекта на протоколе robots.txt и других машиночитаемых механизмах отказа подчеркивает технические аспекты соблюдения требований. Эта специфика обеспечивает ясность как для поставщиков GPAI, так и для правообладателей. Для поставщиков он определяет конкретные шаги, которые они должны предпринять, чтобы гарантировать, что их сканеры уважают запросы на отказ. Для правообладателей он разъясняет, как они могут эффективно сигнализировать о своих предпочтениях в отношении TDM. Включение метаданных ‘отраслевого стандарта’ и ‘широко распространенных’ решений признает, что ландшафт механизмов отказа развивается и что необходима гибкость.
Контент, не сканируемый в Интернете: смещение ответственности и должной осмотрительности
Переход от ‘проверки авторских прав’ к ‘разумным усилиям по получению информации’ в отношении сторонних наборов данных представляет собой тонкое, но значительное смещение ответственности. В то время как 2-й проект возлагал на поставщиков GPAI более тяжелое бремя по активному расследованию статуса авторских прав на наборы данных, 3-й проект фокусируется на проверке того, соблюдал ли процесс сбора данных (третьей стороной) robots.txt. Это неявно признает, что поставщики GPAI не всегда могут иметь прямой контроль над методами сбора данных третьих сторон, но они по-прежнему несут ответственность за запрос информации о соблюдении требований.
Смягчение риска создания контента, нарушающего авторские права: от ‘переобучения’ к ‘разумным усилиям’
Отказ от термина ‘переобучение’ является долгожданным изменением. ‘Переобучение’, технический термин в машинном обучении, относится к модели, которая хорошо работает на обучающих данных, но плохо на новых данных. Хотя переобучение может способствовать нарушению авторских прав (например, путем запоминания и воспроизведения материалов, защищенных авторским правом), это не единственная причина. Более широкий акцент 3-го проекта на ‘разумных усилиях по снижению риска’ охватывает более широкий спектр потенциальных сценариев нарушения и обеспечивает большую гибкость в реализации. Это изменение также признает, что идеальное предотвращение нарушения авторских прав может быть недостижимым, и более практичным является подход, основанный на оценке рисков.
Контактное лицо и механизм подачи жалоб: оптимизация процесса
Требование о назначении контактного лица и механизме подачи жалоб предоставляет правообладателям четкий путь для решения потенциальных нарушений авторских прав. Возможность для Подписавших сторон отклонять ‘необоснованные или чрезмерные’ жалобы является практическим дополнением, предотвращающим перегрузку системы необоснованными претензиями. Это положение помогает гарантировать, что механизм подачи жалоб остается жизнеспособным и эффективным инструментом для решения законных проблем, связанных с авторскими правами.
Более широкие последствия и будущие соображения
3-й проект Кодекса практики GPAI представляет собой значительный шаг к введению в действие положений Закона об ИИ об авторском праве. Он обеспечивает столь необходимую ясность и руководство для поставщиков GPAI, а также стремится защитить права создателей контента. Однако остается ряд более широких последствий и будущих соображений:
Стандарт ‘разумных усилий’: Повторное использование фразы ‘разумные усилия’ вносит определенную степень субъективности. То, что считается ‘разумным’, вероятно, будет предметом толкования и может со временем меняться в результате судебных разбирательств и передовой отраслевой практики. Эта двусмысленность может привести к неопределенности для поставщиков, но она также обеспечивает гибкость и адаптацию к различным контекстам.
Роль поставщиков, находящихся ниже по течению: Хотя Кодекс в первую очередь предназначен для поставщиков GPAI, поставщики, находящиеся ниже по течению, имеют личную заинтересованность в понимании его положений. Кодекс устанавливает ожидания в отношении качества и соответствия моделей GPAI, которые могут служить основой для переговоров по контрактам и оценки рисков. Поставщики, находящиеся ниже по течению, также могут столкнуться с косвенным давлением, чтобы гарантировать, что использование ими моделей GPAI соответствует принципам Кодекса.
Эволюция технологий: Быстрые темпы развития ИИ означают, что Кодекс практики должен быть живым документом. Могут появиться новые методы сбора данных, обучения моделей и генерации контента, требующие обновления положений Кодекса. Ссылка на метаданные ‘отраслевого стандарта’ и ‘широко распространенные’ решения признает эту необходимость в постоянной адаптации.
Международная гармонизация: Закон ЕС об ИИ является новаторским законодательным актом, но он не действует в вакууме. Другие юрисдикции также сталкиваются с проблемами регулирования ИИ. Международная гармонизация правил ИИ, включая положения об авторском праве, будет иметь решающее значение для предотвращения фрагментации и обеспечения равных условий для разработчиков ИИ.
Влияние на инновации: Кодекс практики направлен на достижение баланса между содействием инновациям в области ИИ и защитой авторских прав. Однако влияние этих правил на темпы и направление развития ИИ еще предстоит увидеть. Некоторые утверждают, что чрезмерно строгие правила могут задушить инновации, в то время как другие утверждают, что четкие правила необходимы для содействия ответственному развитию ИИ.
Правоприменение и мониторинг: Как будет проверяться соблюдение? Эффективность кодексов будет во многом зависеть от механизмов, созданных для обеспечения соблюдения и мониторинга.
3-й проект Кодекса практики GPAI — это сложный и развивающийся документ с далеко идущими последствиями. Он представляет собой значительные усилия по решению проблем соблюдения авторских прав в эпоху ИИ, но он также является незавершенной работой. Постоянный диалог между заинтересованными сторонами, включая поставщиков GPAI, правообладателей, политиков и более широкое сообщество ИИ, будет иметь важное значение для обеспечения того, чтобы Кодекс достигал своих намеченных целей и оставался актуальным в условиях быстрых технологических изменений.