Reddit судится с Anthropic из-за обучения ИИ

Reddit начал судебное разбирательство против компании Anthropic, занимающейся искусственным интеллектом, утверждая о несанкционированном использовании контента, созданного пользователями, для обучения своего ИИ-чатбота Claude. Иск, поданный в Высший суд Калифорнии в Сан-Франциско, обвиняет Anthropic в "скребке" миллионов комментариев с платформы Reddit без разрешения, нарушении условий обслуживания компании и недобросовестной конкуренции.

Обвинения в сборе данных

В основе иска лежит утверждение Reddit о том, что Anthropic использовала автоматизированные боты для доступа и извлечения контента со своей платформы, несмотря на явные просьбы прекратить такую деятельность. Эта практика, известная как "скребок", включает систематический сбор данных с веб-сайтов, часто без согласия веб-сайта. Reddit утверждает, что Anthropic использовала эти собранные данные для обучения своего чатбота Claude, эффективно используя личную информацию пользователей Reddit без их ведома или разрешения.

Главный юрисконсульт Reddit, Бен Ли, подчеркнул позицию компании по использованию данных, заявив, что "компаниям, занимающимся ИИ, не должно быть разрешено извлекать информацию и контент от людей без четких ограничений на то, как они могут использовать эти данные". Это заявление подчеркивает обеспокоенность Reddit тем, что компании, занимающиеся ИИ, эксплуатируют контент, созданный пользователями, не обеспечивая адекватных мер защиты конфиденциальности и защиты данных пользователей.

Anthropic, в ответ на обвинения Reddit, выпустила заявление, в котором выразила свое несогласие с утверждениями и заявила о своем намерении "решительно защищаться". Защита компании, вероятно, будет основана на аргументах, связанных с добросовестным использованием, характером общедоступных данных и степенью соответствия ее методов обучения ИИ юридическим и этическим стандартам.

Лицензионные соглашения Reddit

Судебный иск против Anthropic происходит в контексте существующих лицензионных соглашений Reddit с другими компаниями, занимающимися ИИ, включая Google и OpenAI. Эти соглашения позволяют этим компаниям обучать свои системы ИИ на огромном хранилище общедоступных комментариев Reddit, созданных более чем 100 миллионами ежедневных пользователей. В обмен на доступ к этим данным Reddit получает компенсацию и, что более важно, возможность обеспечивать защиту пользователей.

По словам Бена Ли, эти лицензионные соглашения "позволяют нам обеспечивать значимую защиту для наших пользователей, включая право удалять ваш контент, защиту конфиденциальности пользователей и предотвращение рассылки спама пользователям с использованием этого контента". Это подчеркивает упреждающий подход Reddit к управлению использованием своих данных компаниями, занимающимися ИИ, гарантируя, что права и конфиденциальность пользователей соблюдаются.

Судебный иск против Anthropic можно рассматривать как попытку Reddit обеспечить соблюдение своих правил использования данных и защитить интересы своих пользователей. Подавая в суд, Reddit посылает четкий сигнал компаниям, занимающимся ИИ, о том, что они не будут терпеть несанкционированный сбор данных и будут активно защищать свои права и права своих пользователей.

Разработка ИИ компанией Anthropic

Anthropic, основанная бывшими руководителями OpenAI в 2021 году, стала значимым игроком на рынке ИИ-чатботов. Ее флагманский продукт, Claude, является прямым конкурентом ChatGPT от OpenAI. В то время как у OpenAI тесное партнерство с Microsoft, основным коммерческим партнером Anthropic является Amazon, которая использует Claude для улучшения своего голосового помощника Alexa.

Как и многие компании, занимающиеся ИИ, Anthropic полагается на большие наборы текста и кода для обучения своих моделей ИИ. Эти наборы данных часто включают контент с веб-сайтов, таких как Wikipedia и Reddit, которые предоставляют большой объем информации по широкому кругу тем и отражают нюансы человеческого языка. Судебный иск подчеркивает зависимость компаний, занимающихся ИИ, от легкодоступного онлайн-контента, поднимая вопросы об этических и юридических последствиях использования таких данных для обучения ИИ.

Дискуссия о "скребке"

Практика "скребка" данных с веб-сайтов стала спорным вопросом в индустрии ИИ. Компании, занимающиеся ИИ, утверждают, что скребок необходим для сбора огромного количества данных, необходимых для обучения их моделей ИИ. Они часто ссылаются на концепцию "добросовестного использования", которая позволяет использовать материалы, защищенные авторским правом, в определенных целях, таких как образование, исследования и комментарии.

Однако владельцы веб-сайтов и создатели контента утверждают, что скребок может нарушать их условия обслуживания, нарушать их авторские права и подрывать их бизнес-модели. Они утверждают, что компании, занимающиеся ИИ, должны получать разрешение перед скребком своих данных и должны компенсировать им использование их контента.

Судебный иск Reddit против Anthropic является лишь одним из примеров растущей напряженности между компаниями, занимающимися ИИ, и поставщиками контента в отношении сбора данных. Поскольку технология ИИ продолжает развиваться, вполне вероятно, что эти юридические и этические дебаты усилятся, что приведет к разработке новых законов и положений, регулирующих использование данных для обучения ИИ.

Бумага 2021 года

В судебном иске Reddit была процитирована исследовательская работа 2021 года, соавтором которой является генеральный директор Anthropic Дарио Амодей. В этой работе проливается свет на конкретные подреддиты или предметные форумы, которые исследователи Anthropic определили как содержащие высококачественные данные для обучения ИИ. Эти подреддиты охватывали широкий круг тем, от садоводства и истории до советов по отношениям и мыслей в душе.

Цитирование этой работы в судебном иске подчеркивает утверждение Reddit о том, что Anthropic намеренно нацелилась на свою платформу для сбора данных. Выявляя конкретные подреддиты как ценные источники данных для обучения ИИ, Anthropic якобы продемонстрировала свое намерение извлекать контент из Reddit без разрешения.

Аргумент Anthropic об авторском праве

В письме 2023 года в Управление по авторским правам США Anthropic утверждала, что ее методы обучения ИИ представляют собой "подлинно законное использование материалов". Компания заявила, что ее модели ИИ делают копии информации исключительно с целью выполнения статистического анализа больших наборов данных, что, по ее мнению, подпадает под доктрину добросовестного использования.

Однако этот аргумент не был принят повсеместно. Anthropic в настоящее время сталкивается с отдельным судебным иском от крупных музыкальных издателей, которые утверждают, что Claude воспроизводит тексты песен, защищенных авторским правом. Этот судебный иск вызывает обеспокоенность по поводу потенциала моделей ИИ нарушать авторские права путем воспроизведения или распространения материалов, защищенных авторским правом.

Нарушение условий использования

Судебный иск Reddit против Anthropic отличается от других юридических проблем, выдвинутых против компаний, занимающихся ИИ, тем, что он не предполагает нарушения авторских прав. Вместо этого он фокусируется на предполагаемом нарушении условий использования Reddit и недобросовестной конкуренции, возникшей в результате этого нарушения.

Reddit утверждает, что Anthropic нарушила свои условия использования, собирая контент с платформы без разрешения. Он также утверждает, что действия Anthropic создали недобросовестную конкуренцию, позволив ей разработать свой ИИ-чатбот, не неся затрат, связанных с лицензированием данных от Reddit.

Сосредоточившись на этих вопросах, Reddit пытается установить юридический прецедент, который может иметь серьезные последствия для индустрии ИИ. Если Reddit выиграет свой судебный иск, компаниям, занимающимся ИИ, может стать труднее собирать данные с веб-сайтов без разрешения, что потенциально приведет к изменению способа обучения моделей ИИ.

Соглашение AP и OpenAI

У Associated Press (AP) и OpenAI есть лицензионное и технологическое соглашение, которое предоставляет OpenAI доступ к части текстовых архивов AP. Это соглашение отражает растущую тенденцию партнерства провайдеров контента с компаниями, занимающимися ИИ, для лицензирования своих данных для целей обучения ИИ.

Такие соглашения предлагают провайдерам контента способ получения дохода от своих данных, сохраняя при этом контроль над тем, как эти данные будут использоваться. Они также предоставляют компаниям, занимающимся ИИ, доступ к высококачественным данным, которые могут улучшить производительность их моделей ИИ.

Более широкие последствия

Судебный иск Reddit против Anthropic – это не просто спор между двумя компаниями; это предвестник более широких юридических и этических дебатов, связанных с разработкой ИИ. Исход этого дела может иметь серьезные последствия для индустрии ИИ, потенциально формируя способ обучения моделей ИИ и права провайдеров контента.

Поскольку технология ИИ продолжает развиваться, крайне важно, чтобы эти вопросы решались обдуманно и всесторонне. Для этого потребуется сотрудничество между компаниями, занимающимися ИИ, провайдерами контента, политиками и общественностью для разработки рамок, которые уравновешивают преимущества инноваций ИИ с необходимостью защиты конфиденциальности пользователей, интеллектуальной собственности и добросовестной конкуренции.

Определение скребка

Скребок в этом контексте относится к автоматизированному извлечению данных с веб-сайтов. Инструменты используются для анализа HTML-кода и извлечения определенных элементов, таких как текст, изображения или ссылки. В случае с Reddit Anthropic предположительно использовала ботов для сбора пользовательских комментариев, которые ценны для обучения языковых моделей.

Законность скребка – это спорный вопрос. Веб-сайты обычно имеют условия обслуживания, которые запрещают такую деятельность, но принудительное исполнение может быть затруднено. Некоторые утверждают, что общедоступные данные должны быть доступны, в то время как другие подчеркивают права владельцев веб-сайтов на контроль над своим контентом.

Доктрина добросовестного использования

Доктрина добросовестного использования – это юридический принцип, который допускает ограниченное использование материалов, защищенных авторским правом, без разрешения правообладателя. Доктрина предназначена для содействия свободе выражения мнений посредством разрешения комментариев, критики, новостных репортажей, обучения, стипендий и исследований.

Однако применение доктрины добросовестного использования для обучения ИИ является сложным и противоречивым. Компании, занимающиеся ИИ, утверждают, что их использование материалов, защищенных авторским правом, для целей обучения является преобразующим и не нарушает права правообладателей. Провайдеры контента, с другой стороны, утверждают, что обучение ИИ – это коммерческая деятельность, которая требует разрешения и компенсации.

Будущее обучения ИИ

Судебный иск Reddit против Anthropic подчеркивает проблемы и неопределенности, связанные с будущим обучения ИИ. Поскольку модели ИИ становятся более сложными и требуют больших наборов данных, спрос на данные будет только расти. Это, вероятно, приведет к дальнейшим юридическим сражениям и регулятивным усилиям по решению этических и юридических последствий скребка данных и обучения ИИ.

Крайне важно, чтобы заинтересованные стороны работали вместе для разработки рамок, которые содействуют инновациям, а также защищают права провайдеров контента и обеспечивают ответственную практику использования данных. Эти рамки должны решать такие вопросы, как конфиденциальность данных, авторское право, прозрачность и подотчетность.

Альтернативные источники данных

Поскольку юридический контроль за веб-скребком усиливается, компании, занимающиеся ИИ, изучают альтернативные источники данных для обучения своих моделей. К ним относятся:

  • Лицензионные данные: Получение данных посредством лицензионных соглашений с провайдерами контента, такими как Reddit, AP и другие.
  • Синтетические данные: Генерация искусственных данных, которые имитируют реальные данные, но не содержат никакой личной информации или материалов, защищенных авторским правом.
  • Данные с открытым исходным кодом: Использование общедоступных наборов данных, которые лицензированы для коммерческого использования.
  • Внутренние данные: Использование данных, генерируемых собственными продуктами и услугами компании.

Диверсифицируя свои источники данных, компании, занимающиеся ИИ, могут снизить свою зависимость от веб-скребка и смягчить риски, связанные с юридическими проблемами и этическими проблемами.

Перспектива пользователя

В конечном счете, дебаты о практике обучения ИИ поднимают фундаментальные вопросы о правах пользователей Интернета. Пользователи генерируют огромные объемы контента на платформах, таких как Reddit, часто не до конца понимая, как этот контент будет использоваться.

Крайне важно, чтобы пользователи были проинформированы о том, как их данные собираются, используются и передаются. У них также должна быть возможность контролировать свои данные и отказываться от использования своих данных для целей обучения ИИ.

Платформы, такие как Reddit, несут ответственность за защиту данных своих пользователей и за обеспечение того, чтобы их данные использовались ответственно и этично. Это включает в себя предоставление пользователям четкой и прозрачной политики конфиденциальности, а также механизмов для контроля над своими данными.

Возможные результаты

Возможные результаты судебного иска Reddit против Anthropic разнообразны и могут иметь серьезные последствия для индустрии ИИ:

  • Урегулирование: Две компании могут достичь соглашения об урегулировании, которое разрешает спор без судебного разбирательства.
  • Reddit выигрывает: Суд может вынести решение в пользу Reddit, установив, что Anthropic нарушила свои условия обслуживания и участвовала в недобросовестной конкуренции.
  • Anthropic выигрывает: Суд может вынести решение в пользу Anthropic, установив, что ее методы обучения ИИ являются законными в соответствии с доктриной добросовестного использования.
  • Смешанное решение: Суд может вынести смешанное решение, вынеся решение в пользу Reddit по некоторым искам, но в пользу Anthropic по другим.

Исход судебного иска, вероятно, будет зависеть от ряда факторов, включая конкретные факты дела, соответствующие юридические прецеденты и аргументы, представленные обеими сторонами.

Суд общественного мнения

Помимо судебных разбирательств, судебный иск Reddit против Anthropic также ведется в суде общественного мнения. Обе компании очень заинтересованы в формировании повествования вокруг дела и влиянии на общественное восприятие.

Reddit, вероятно, будет подчеркивать важность защиты конфиденциальности пользователей и обеспечения соблюдения своих условий обслуживания. Anthropic, вероятно, будет освещать преимущества инноваций ИИ и важность доступа к данным для обучения моделей ИИ.

Общественное восприятие дела может повлиять на исход судебных разбирательств, а также на более широкие дебаты о практике обучения ИИ.