Иск против Cohere: битва за авторские права в AI

Юридическая битва вокруг Generative AI набирает обороты: новостные издательства нацелены на Cohere из-за технологии RAG.

Ландшафт разработки AI снова оказывается в центре юридического противостояния, поскольку группа известных новостных и медиа организаций подала иск о нарушении авторских прав и товарных знаков против стартапа Generative AI Cohere. Иск, поданный в Окружной суд США по Южному округу Нью-Йорка в феврале 2025 года, называет более дюжины истцов, включая такие уважаемые издания, как Forbes, The Guardian и Los Angeles Times. В центре спора находится использование Cohere технологии Retrieval-Augmented Generation (RAG), которая, по утверждению истцов, предполагает несанкционированное использование их защищенного авторским правом материала для создания баз данных и генерации выходных данных.

Технология RAG под пристальным вниманием

Retrieval-Augmented Generation (RAG) появилась как потенциальное решение некоторых неотъемлемых проблем, связанных с большими языковыми моделями (LLMs). Предложенная Патриком Льюисом и его коллегами в 2020 году, RAG направлена на смягчение таких проблем, как галлюцинации (генерация фактически неверной или бессмысленной информации), устаревшие знания и отсутствие прозрачности в рассуждениях модели. Интересно, что сам Патрик Льюис в настоящее время является исследователем в Cohere, продолжая свою работу над технологией RAG. Внедрение RAG было широко распространено, и крупные игроки, такие как Microsoft, Google, Amazon и NVIDIA, интегрируют его в свои системы AI.

Иск, поданный новостными издателями, сосредоточен на нескольких ключевых утверждениях о нарушении авторских прав против Cohere. Эти утверждения подчеркивают сложные юридические вопросы, касающиеся использования защищенного авторским правом материала при обучении и эксплуатации моделей Generative AI.

Обвинения в нарушении авторских прав против Cohere

Претензии истцов против Cohere можно разделить на четыре основные категории:

1. Обучение модели AI

Суть аргумента истцов вращается вокруг того, как Cohere обучила свою большую языковую модель, известную как “Command Family”. Они утверждают, что Cohere занималась обширным “скреппингом” текста из Интернета, включая защищенный авторским правом контент из публикаций истцов. Эти данные, полученные путем скрепинга, затем использовались для создания наборов данных, необходимых для обучения модели Command Family. Кроме того, истцы утверждают, что Cohere использовала сторонние наборы данных, такие как C4 от Common Crawl, которые содержат значительное количество их защищенного авторским правом материала, без получения необходимых разрешений.

Использование защищенного авторским правом материала при обучении модели AI стало спорным вопросом. Разработчики AI часто утверждают, что такое использование подпадает под доктрину “добросовестного использования”, которая допускает ограниченное использование защищенного авторским правом материала для таких целей, как критика, комментарии, новостные репортажи, обучение, научные исследования или исследования. Однако владельцы авторских прав утверждают, что крупномасштабный скрепинг ииспользование их контента в коммерческих целях, таких как обучение моделей AI, выходит за рамки добросовестного использования. Эта юридическая битва, вероятно, будет зависеть от того, согласится ли суд с оценкой истцов.

2. Использование в реальном времени / RAG

Другой ключевой аспект иска сосредоточен на том, как сервисы Cohere, в частности его интерфейс Chat, используют технологию RAG в реальном времени. Истцы утверждают, что модели Cohere собирают контент из внешних источников, включая их веб-сайты, для генерации ответов на запросы пользователей. Этот сбор данных в режиме реального времени, по мнению истцов, представляет собой нарушение авторских прав, особенно когда модели Cohere обходят платные стены или игнорируют директивы “robots.txt”, которые являются командами, указывающими веб-сканерам (включая те, которые используются моделями AI) не собирать конкретный контент с веб-сайта.

Обход платных стен и директив robots.txt поднимает серьезные этические и юридические вопросы. Платные стены предназначены для защиты защищенного авторским правом контента и обеспечения компенсации издателям за их работу. Директивы Robots.txt являются стандартным механизмом для владельцев веб-сайтов для контроля доступа и использования их контента веб-сканерами. Игнорируя эти меры безопасности, Cohere обвиняется в проявлении пренебрежения к законам об авторском праве и правам создателей контента.

3. Нарушающие выходные данные

Истцы утверждают, что сервисы Cohere предоставляют нарушающие выходные данные в форме копий, существенных выдержек или замещающих резюме их защищенных авторским правом работ в ответ на запросы пользователей. Они приводят примеры выходных данных Cohere Chat, где на панели “Под капотом” отображаются полные или частичные статьи, скопированные непосредственно с веб-сайтов истцов.

Истцы утверждают, что эти выходные данные, будь то дословные копии или резюме, непосредственно заменяют необходимость посещения оригинальных статей пользователями. Это, в свою очередь, наносит ущерб доходам от цифровой подписки и рекламы, на которые полагаются истцы для поддержания своего бизнеса. Суть этого аргумента заключается в том, что модели AI Cohere по сути выступают в качестве несанкционированных дистрибьюторов защищенного авторским правом контента, лишая первоначальных издателей их законной компенсации.

4. Несанкционированная адаптация

В дополнение к отображению частей работ истцов на панели “Под капотом”, сервисы Cohere также предоставляют резюме или аннотации к этим работам. Истцы утверждают, что уровень детализации в этих резюме настолько обширен, что они по сути заменяют оригинальные работы, превышая границы добросовестного использования.

Закон об авторском праве защищает не только дословное воспроизведение защищенных авторским правом работ, но и создание производных работ, которые являются адаптациями или преобразованиями оригинала. Истцы утверждают, что резюме Cohere настолько всеобъемлющи, что они представляют собой несанкционированные производные работы, нарушающие их исключительное право на создание и распространение адаптаций их защищенного авторским правом материала.

Вторичная ответственность за действия пользователей

Помимо утверждения о прямом нарушении авторских прав, истцы также утверждают, что Cohere несет вторичную ответственность за нарушающие действия своих пользователей. Они утверждают, что сервисы Cohere облегчают воспроизведение, отображение и распространение работ истцов пользователями, и что Cohere не может уклониться от ответственности, просто приписывая нарушение действиям пользователей. Основанием для этого утверждения является то, что продукт Cohere генерирует ответы только после того, как пользователь вводит запрос, что делает компанию участником нарушающей деятельности.

Этот аргумент о вторичной ответственности является важным, поскольку он направлен на то, чтобы возложить на разработчиков AI ответственность за действия их пользователей, даже когда эти пользователи непосредственно участвуют в нарушении авторских прав. В случае успеха этот аргумент может иметь далеко идущие последствия для разработки и развертывания технологий AI, поскольку он потребует от разработчиков внедрения мер защиты для предотвращения нарушения авторских прав их пользователями.

Претензии о нарушении товарных знаков

Иск выходит за рамки нарушения авторских прав и включает претензии о нарушении товарных знаков. Истцы утверждают, что практика Cohere по указанию источников представляет собой нарушение товарных знаков, поскольку она использует известные товарные знаки истцов без разрешения или связывает их с ошибочным контентом, генерируемым AI. Это, по их мнению, приводит к ущербу репутации бренда истцов и размыванию их отличительности.

Товарные знаки — это символы, рисунки или фразы, юридически зарегистрированные для представления компании или продукта. Несанкционированное использование товарного знака может вызвать путаницу среди потребителей и нанести ущерб репутации бренда. Истцы утверждают, что использование Cohere их товарных знаков в сочетании с контентом, генерируемым AI, может ввести пользователей в заблуждение, заставив поверить в то, что истцы одобряют или связаны с сервисами Cohere, что не соответствует действительности.

Более широкий контекст: RAG и будущее закона об авторском праве в AI

Этот иск против Cohere не является единичным случаем. Ему предшествовал предыдущий иск об авторских правах в США в октябре 2024 года, в котором также основное внимание уделялось применению RAG в сервисах AI. Растущее число дел подчеркивает растущую напряженность между разработчиками AI и обладателями авторских прав, поскольку архитектура RAG становится все более распространенной в сервисах AI.

Юридические баталии вокруг технологии RAG, вероятно, станут важной проблемой в будущем закона об авторском праве в AI. RAG представляет собой уникальные проблемы, поскольку она включает в себя поиск и использование защищенного авторским правом материала в режиме реального времени для создания выходных данных. Это поднимает сложные вопросы об объеме добросовестного использования, ответственности разработчиков AI за действия пользователей и защите интеллектуальной собственности в эпоху искусственного интеллекта.

Исход этих судебных процессов может оказать глубокое влияние на разработку и развертывание технологий AI. Если суды вынесут решение в пользу обладателей авторских прав, разработчики AI могут быть вынуждены внедрить более строгие меры защиты для предотвращения нарушения авторских прав, что может увеличить стоимость и сложность разработки моделей AI. С другой стороны, если суды вынесут решение в пользу разработчиков AI, обладателям авторских прав, возможно, придется найти новые способы защиты своей интеллектуальной собственности перед лицом все более сложных технологий AI.

Столкновение между новостными издательствами и Cohere служит важным моментом в продолжающихся дебатах вокруг AI, авторского права и будущего создания контента. Исход этого дела, наряду с другими подобными ему, несомненно, сформирует правовую среду для Generative AI и ее взаимодействие с защищенным авторским правом материалом на долгие годы. Поскольку AI продолжает развиваться и все больше интегрироваться в различные аспекты нашей жизни, важно найти баланс между содействием инновациям и защитой прав создателей контента. Суды, законодатели и сообщество AI должны работать вместе, чтобы установить четкие руководящие принципы и правила, которые способствуют творчеству, обеспечивая при этом уважение к интеллектуальной собственности.

В частности, новостная индустрия сталкивается с уникальным набором проблем в эпоху AI. Поскольку модели AI становятся все более способны генерировать новостной контент, крайне важно, чтобы издателям выплачивалась компенсация за использование их защищенного авторским правом материала и чтобы целостность их брендов была защищена. Иск против Cohere представляет собой попытку новостных издателей отстоять свои права и гарантировать, что их работа не эксплуатируется компаниями AI без надлежащего разрешения.