Reddit судится с Anthropic из-за данных для AI

Reddit подал иск против Anthropic, стартапа в области искусственного интеллекта, поддерживаемого Google, обвиняя его в несанкционированном использовании данных своей платформы для обучения моделей AI. Иск, поданный в Высший суд Сан-Франциско, обвиняет Anthropic в нарушении пользовательских правил Reddit и игнорировании неоднократных запросов на заключение лицензионного соглашения.

Обвинения в несанкционированном сборе данных

Согласно иску, чат-бот Claude от Anthropic был обучен на беседах Reddit без получения согласия ни от самой платформы, ни от ее пользователей. Reddit утверждает, что Anthropic получал доступ к его платформе более 100 000 раз с июля 2024 года, используя автоматизированных ботов, несмотря на то, что они, как утверждается, были заблокированы. Этот предполагаемый несанкционированный сбор данных лежит в основе судебного разбирательства Reddit.

Позиция Reddit в отношении использования данных

Главный юрисконсульт Reddit, Бен Ли, сформулировал позицию платформы, заявив, что, хотя Reddit поддерживает концепцию открытого интернета, он настаивает на “четких ограничениях” в отношении использования контента, собранного компаниями AI. Ли подчеркнул уникальную ценность “человечности” Reddit в мире, где все больше доминирует AI, отметив, что разговоры на платформе имеют решающее значение для обучения языковых моделей AI, таких как Claude.

Обвинения в “двуличном” поведении

В своей жалобе Reddit также обвиняет Anthropic в принятии “двуличного” подхода, позиционируя себя как этичного лидера в области AI, одновременно тайно занимаясь деятельностью, которая нарушает авторские права и конфиденциальность пользователей. Социальная сеть утверждает, что Anthropic публично продвигает уважение к границам, одновременно игнорируя любые правила, которые препятствуют ее “попыткам набить свои карманы”.

Юридические и финансовые последствия

В иске требуется неуказанное возмещение, штрафные убытки и судебный запрет, чтобы помешать Anthropic использовать контент Reddit для коммерческих целей обучения AI. Reddit утверждает, что отказ Anthropic от заключения соглашений, аналогичных тем, которые у него есть с OpenAI и Google, позволил стартапу коммерчески использовать свои данные, потенциально получая “десятки миллиардов долларов” прибыли без какой-либо ответственности.

Ответ Anthropic

В ответ на иск представитель Anthropic заявил, что компания не согласна с претензиями Reddit и намерена “энергично” защищаться. Этот судебный процесс, вероятно, будет долгим и может иметь серьезные последствия для подхода индустрии AI к приобретению и использованию данных.

Реакция в социальных сетях

Этот иск привлек значительное внимание в социальных сетях. Некоторые пользователи раскритиковали предполагаемое использование Anthropic данных Reddit для обучения своих моделей AI. Один пользователь в X (ранее Twitter) прокомментировал, что обучение языковой модели с использованием данных Reddit было “ужасным местом для начала”.

Другой пользователь поделился скриншотом обзора AI в поиске Google, связанного с депрессией, где пользователь Reddit рекомендовал спрыгнуть с моста Золотые Ворота. Он саркастически заметил: “Представьте себе, что вы обучаете свой AI на Reddit только для того, чтобы получить это”. Это подчеркивает потенциальные риски и этические проблемы, связанные с обучением моделей AI на данных с онлайн-платформ, где могут быть распространены дезинформация и вредоносный контент.

Еще один комментарий в X выразил удивление, заявив: “Я думал, что anthropic должен быть крутым, чья идея была обучать на данных Reddit, это просто безумие”. Это мнение отражает убеждение некоторых пользователей, что Anthropic, известный своим акцентом на безопасности и этике AI, должен был избегать использования данных с платформы вроде Reddit, которая часто ассоциируется с противоречивым или ненадежным контентом.

Предыдущие юридические сложности Anthropic

Этот иск - не первый случай, когда Anthropic сталкивается с юридической проверкой. Ранее компания была подана в суд группой авторов, которые утверждали, что она использовала их защищенные авторским правом книги для обучения своих моделей AI. Universal Music Group также подала иск против Anthropic за предполагаемое нарушение авторских прав на тексты песен.

Эти юридические проблемы подчеркивают растущую обеспокоенность по поводу использования защищенных авторским правом материалов в обучении AI и потенциальной ответственности, с которой могут столкнуться компании AI.

Более широкая тенденция споров об авторских правах в AI

Иск между Reddit и Anthropic является частью более широкой тенденции, когда издатели и создатели подают в суд на компании AI за использование их работ без разрешения. OpenAI, создатель ChatGPT, также столкнулся с аналогичными исками от The New York Times, группы авторов и нескольких медиакомпаний. Эти иски подчеркивают сложные юридические и этические вопросы, связанные с использованием защищенных авторским правом материалов в обучении AI, и необходимость четких руководящих принципов и правил в этой области.

Суть проблемы

В основе этих споров лежит вопрос добросовестного использования. Компании AI утверждают, что их использование защищенных авторским правом материалов подпадает под доктрину добросовестного использования, которая разрешает использование защищенных авторским правом материалов для таких целей, как критика, комментарии, репортажи, обучение, научные исследования и исследования. Однако правообладатели утверждают, что компании AI используют их работу в коммерческих целях и что это является нарушением авторских прав.

В конечном итоге суды должны будут решить, является ли использование защищенных авторским правом материалов в обучении AI добросовестным использованием или нарушением авторских прав. Результат этих судебных разбирательств может оказать значительное влияние на будущее развития AI и права правообладателей.

Акцент Anthropic на безопасности и исследования AI

Anthropic в первую очередь сосредоточена на безопасности и исследованиях AI, стремясь разрабатывать безопасные и надежные модели AI. Семейство больших языковых моделей (LLM) Claude конкурирует с ChatGPT от OpenAI и Gemini от Google. Однако Google сотрудничает с Anthropic для улучшения своей платформы Vertex AI. Гигант электронной коммерции Amazon и Microsoft также инвестировали в Anthropic, что подчеркивает значимость компании в ландшафте AI.

Важность этичной разработки AI

Иск против Anthropic подчеркивает важность этичной разработки AI. Компании AI должны обеспечить, чтобы они использовали данные ответственным и законным образом и чтобы они уважали права правообладателей и конфиденциальность отдельных лиц. Несоблюдение этого может привести к юридическим проблемам, репутационному ущербу и потере общественного доверия.

Движение вперед

По мере того как технология AI продолжает развиваться, крайне важно, чтобы разработчики и политики работали вместе над установлением четких руководящих принципов и правил в отношении использования данных, авторских прав и конфиденциальности. Это поможет обеспечить разработку и использование AI таким образом, чтобы это было одновременно полезно и этично.

Подробное рассмотрение претензий Reddit

Иск Reddit против Anthropic основан на нескольких ключевых утверждениях:

  • Несанкционированный сбор данных: Reddit утверждает, что Anthropic получал доступ к его платформе более 100 000 раз с июля 2024 года, используя автоматизированных ботов, несмотря на заявления о том, что заблокировал их. Этот несанкционированный сбор данных лежит в основе судебного возражения Reddit.
  • Нарушение пользовательских правил: Reddit утверждает, что Anthropic нарушил свои пользовательские правила, собирая контент без разрешения и используя его для обучения моделей AI.
  • Нарушение контракта: Reddit утверждает, что Anthropic игнорировал неоднократные запросы на заключение лицензионного соглашения, фактически нарушая подразумеваемый контракт.
  • Коммерческая эксплуатация данных: Reddit утверждает, что Anthropic коммерчески эксплуатировал свои данные без разрешения, потенциально получив “десятки миллиардов долларов” прибыли без какой-либо ответственности.

Юридические основания для претензий Reddit

Юридические претензии Reddit основаны на нескольких юридических теориях:

  • Нарушение авторских прав: Reddit может утверждать, что использование Anthropic его контента является нарушением авторских прав, поскольку Reddit владеет авторскими правами на контент, размещенный на его платформе.
  • Нарушение контракта: Reddit может утверждать, что Anthropic нарушил подразумеваемый контракт, нарушив свои пользовательские правила и собрав контент без разрешения.
  • Неосновательное обогащение: Reddit может утверждать, что Anthropic неосновательно обогатился, используя свои данные в коммерческих целях, не платя за них.
  • Ущерб движимому имуществу: Reddit может утверждать, что несанкционированный доступ Anthropic к его серверам представляет собой ущерб движимому имуществу, юридическую теорию, которая защищает личную собственность от вмешательства.

Потенциальные защиты Anthropic

Anthropic, вероятно, выдвинет несколько защит в ответ на иск Reddit:

  • Добросовестное использование: Anthropic может утверждать, что его использование контента Reddit подпадает под доктрину добросовестного использования, которая разрешает использование защищенных авторским правом материалов для таких целей, как критика, комментарии, репортажи, обучение, научные исследования и исследования.
  • Подразумеваемое согласие: Anthropic может утверждать, что пользователи Reddit подразумеваемо согласились на использование своего контента для обучения AI, разместив его на общедоступной платформе.
  • Отсутствие вреда: Anthropic может утверждать, что Reddit не понес никакого вреда в результате использования Anthropic контента Reddit.
  • Свобода слова: Anthropic может утверждать, что ограничение его возможности использовать контент Reddit нарушит его свободу слова.

Важность юридического прецедента

Исход судебного процесса Reddit может установить юридический прецедент, который окажет значительное влияние на использование защищенных авторским правом материалов в обучении AI. Если Reddit победит, это может удержать компании AI от сбора данных без разрешения и может привести к увеличению числа лицензионных соглашений между создателями контента и разработчиками AI. Если Anthropic победит, это может побудить компании AI продолжать собирать данные без разрешения и может затруднить защиту прав создателям контента.

Более глубокое погружение в данные обучения модели AI

Использование обширных наборов данных для обучения моделей AI стало стандартной практикой в этой области. Эти наборы данных часто включают текст, изображения, аудио и видео, полученные с различных онлайн-платформ, включая сайты социальных сетей, такие как Reddit. Качество и разнообразие этих обучающих наборов данных имеют решающее значение для производительности и возможностей результирующих моделей AI. Однако этические и юридические последствия использования таких данных, особенно когда это связано с защищенными авторским правом материалами или личной информацией, все чаще подвергаются пристальному вниманию.

Проблемы при поиске обучающих данных

Поиск подходящих обучающих данных создает несколько проблем для разработчиков AI:

  • Доступность данных: Найти большие, высококачественные наборы данных, которые соответствуют предполагаемой цели модели AI, может быть затруднительно.
  • Смещение данных: Наборы данных могут содержать смещения, которые отражают предрассудки или стереотипы, присутствующие в обществе, что может привести к смещенным моделям AI.
  • Авторские права и лицензирование: Использование защищенных авторским правом материалов без разрешения может привести к юридическим проблемам.
  • Проблемы конфиденциальности: Наборы данных могут содержать личную информацию, которую необходимо защищать в соответствии с законами о конфиденциальности.

Стратегии этичного поиска данных

Чтобы смягчить эти проблемы, разработчики AI все чаще принимают стратегии этичного поиска данных:

  • Получение согласия: Запрос согласия у отдельных лиц перед использованием их данных для обучения AI.
  • Анонимизация и псевдонимизация: Удаление или маскировка личных идентификаторов для защиты конфиденциальности.
  • Аудит данных: Регулярный аудит наборов данных для выявления и смягчения смещений.
  • Лицензионные соглашения: Заключение лицензионных соглашений с создателями контента для получения разрешения на использование их работы.
  • Использование открытых наборов данных: Использование общедоступных наборов данных, которые лицензированы для коммерческого использования.

Будущее AI и использования данных

Юридические и этические дебаты вокруг AI и использования данных, вероятно, продолжатся по мере того, как технология AI становится все более распространенной. Крайне важно, чтобы разработчики AI, политики и общественность участвовали в продуманных дискуссиях по этим вопросам и разрабатывали решения, которые сбалансируют преимущества AI с необходимостью защиты индивидуальных прав и продвижения этических методов.

Ключевые соображения на будущее

  • Четкие правовые рамки: Создание четких правовых рамок, которые регулируют использование защищенных авторским правом материалов и личной информации в обучении AI.
  • Отраслевые стандарты: Разработка отраслевых стандартов для этичного поиска данных и разработки AI.
  • Прозрачность и подотчетность: Продвижение прозрачности и подотчетности в системах AI, чтобы обеспечить их ответственное использование.
  • Общественное образование: Информирование общественности о потенциальных преимуществах и рисках AI и важности этичного использования данных.