Reddit съди Anthropic за AI обучение

Reddit предприе правни действия срещу Anthropic, компания за изкуствен интелект (AI), твърдейки неупълномощено използване на генерирано от потребителите съдържание за обучението на нейния AI чатбот, Claude. Делото, заведено във Върховния съд на Калифорния в Сан Франциско, обвинява Anthropic, че е извършила "scraping" на милиони коментари от платформата Reddit без разрешение, нарушавайки условията за ползване на компанията и участвайки в нелоялна конкуренция.

Обвинения в извличане на данни (Data Scraping)

В основата на делото е твърдението на Reddit, че Anthropic е използвала автоматизирани ботове за достъп и извличане на съдържание от нейната платформа, въпреки изричните искания да преустанови тези дейности. Тази практика, известна като "scraping", включва систематично събиране на данни от уебсайтове, често без съгласието на уебсайта. Reddit твърди, че Anthropic е използвала тези извлечени данни за обучението на своя чатбот Claude, ефективно използвайки личната информация на потребителите на Reddit без тяхното знание или разрешение.

Главният юрисконсулт на Reddit, Ben Lee, подчерта позицията на компанията относно използването на данни, заявявайки, че "Не трябва да се позволява на AI компаниите да извличат информация и съдържание от хората без ясни ограничения за това как могат да използват тези данни." Това изявление подчертава загрижеността на Reddit, че AI компаниите експлоатират генерирано от потребителите съдържание, без да осигуряват адекватни предпазни мерки за поверителността на потребителите и защитата на данните.

Anthropic, в отговор на твърденията на Reddit, издаде изявление, изразяващо несъгласие с твърденията и заявяващо намерението си да "се защитим енергично." Защитата на компанията вероятно ще се основава на аргументи, свързани с честната употреба (fair use), естеството на публично достъпните данни и степента, до която нейните практики за обучение на AI отговарят на правните и етичните стандарти.

Лицензионни споразумения на Reddit

Правните действия срещу Anthropic идват в контекста на съществуващите лицензионни споразумения на Reddit с други AI компании, включително Google и OpenAI. Тези споразумения позволяват на тези компании да обучават своите AI системи върху огромното хранилище на Reddit от публични коментари, генерирано от нейните над 100 милиона ежедневни потребители. В замяна на достъп до тези данни, Reddit получава компенсация и, което е по-важно, възможността да прилага защити на потребителите.

Според Ben Lee, тези лицензионни споразумения "ни позволяват да прилагаме значими защити за нашите потребители, включително правото да изтриете съдържанието си, защитата на поверителността на потребителите и предотвратяване на разпращането на спам на потребителите, използвайки това съдържание." Това подчертава проактивния подход на Reddit към управлението на използването на нейните данни от AI компании, гарантирайки, че правата и поверителността на потребителите са уважавани.

Делото срещу Anthropic може да се разглежда като усилие от страна на Reddit да приложи своите политики за използване на данни и да защити интересите на своите потребители. Чрез предприемане на правни действия, Reddit изпраща ясно послание към AI компаниите, че няма да толерира неупълномощено извличане на данни и активно ще защитава своите права и правата на своите потребители.

Разработване на AI от Anthropic

Anthropic, основана от бивши ръководители на OpenAI през 2021 г., се превърна в значителен играч на пазара на AI чатботове. Нейният водещ продукт, Claude, е пряк конкурент на ChatGPT на OpenAI. Докато OpenAI има тясно партньорство с Microsoft, основният търговски партньор на Anthropic е Amazon, който използва Claude, за да подобри своя гласов асистент Alexa.

Подобно на много AI компании, Anthropic разчита на големи масиви от данни от текст и код за обучение на своите AI модели. Тези масиви данни често включват съдържание от уебсайтове като Wikipedia и Reddit, които предоставят огромно количество информация по широк кръг от теми и отразяват нюансите на човешкия език. Делото подчертава зависимостта на AI компаниите от лесно достъпно онлайн съдържание, повдигайки въпроси относно етичните и правните последици от използването на такива данни за обучение на AI.

Дебатът за “Scraping”

Практиката на "scraping" на данни от уебсайтове се превърна в спорен въпрос в AI индустрията. AI компаниите твърдят, че scraping е необходимо за събиране на огромните количества данни, необходими за обучение на техните AI модели. Те често цитират концепцията за "честна употреба" (fair use), която позволява използването на материали, защитени с авторски права, за определени цели, като образование, изследвания и коментари.

Въпреки това, собствениците на уебсайтове и създателите на съдържание твърдят, че scraping може да наруши техните условия за ползване, да наруши техните авторски права и да подкопае техните бизнес модели. Те твърдят, че AI компаниите трябва да получат разрешение, преди да извличат техните данни и трябва да ги компенсират за използването на тяхното съдържание.

Делото на Reddit срещу Anthropic е само един пример за нарастващото напрежение между AI компаниите и доставчиците на съдържание относно извличането на данни. Тъй като AI технологията продължава да напредва, вероятно е тези правни и етични дебати да се засилят, което да доведе до разработването на нови закони и разпоредби, регулиращи използването на данни за обучение на AI.

Докладът от 2021 г.

Изследователски доклад от 2021 г., съавтор на който е главният изпълнителен директор на Anthropic, Dario Amodei, е цитиран в делото на Reddit. Този доклад хвърля светлина върху конкретните подредити (subreddits), или тематични форуми, които изследователите на Anthropic са идентифицирали като съдържащи висококачествени данни за обучение на AI. Тези подредити обхващат широк кръг от теми, от градинарство и история до съвети за взаимоотношения и мисли под душа (shower thoughts).

Цитирането на този доклад в делото подчертава твърдението на Reddit, че Anthropic умишлено е насочила платформата си към извличане на данни. Чрез идентифицирането на конкретни подредити като ценни източници на данни за обучение на AI, Anthropic твърди, че е демонстрирала намерението си да извлича съдържание от Reddit без разрешение.

Аргументът на Anthropic за авторските права

В писмо от 2023 г. до Службата за авторски права на САЩ, Anthropic твърди, че нейните практики за обучение на AI представляват "съществено законосъобразно използване на материали." Компанията твърди, че нейните AI модели правят копия на информация единствено с цел извършване на статистически анализ на големи набори от данни, което според нея попада под доктрината за честна употреба (fair use).

Въпреки това, този аргумент не е всеобщо приет. В момента Anthropic е изправена пред отделно дело от големи музикални издатели, които твърдят, че Claude възпроизвежда текстовете на песни, защитени с авторски права. Това дело поражда опасения относно потенциала на AI моделите да нарушават авторските права чрез възпроизвеждане или разпространение на материали, защитени с авторски права.

Нарушаване на условията за ползване

Делото на Reddit срещу Anthropic се различава от другите правни оспорвания, повдигнати срещу AI компании, по това, че не твърди нарушение на авторските права. Вместо това, то се фокусира върху предполагаемото нарушение на условията за ползване на Reddit и нелоялната конкуренция, която е резултат от това нарушение.

Reddit твърди, че Anthropic е нарушила нейните условия за ползване, като е извличала съдържание от платформата без разрешение. Също така твърди, че действията на Anthropic са създали нелоялна конкуренция, като са я позволили да разработи своя AI чатбот, без да поема разходите, свързани с лицензирането на данни от Reddit.

Като се фокусира върху тези въпроси, Reddit се опитва да установи правен прецедент, който би могъл да има значителни последици за AI индустрията. Ако Reddit спечели делото си, може да стане по-трудно за AI компаниите да извличат данни от уебсайтове без разрешение, което потенциално да доведе до промяна в начина, по който се обучават AI моделите.

Споразумение между AP и OpenAI

The Associated Press (AP) и OpenAI имат лицензионно и технологично споразумение, което дава на OpenAI достъп до част от текстовите архиви на AP. Това споразумение отразява нарастващата тенденция доставчиците на съдържание да си партнират с AI компании, за да лицензират своите данни за цели на обучение на AI.

Подобни споразумения предлагат на доставчиците на съдържание начин да генерират приходи от своите данни, като същевременно поддържат контрол върху начина, по който тези данни се използват. Те също така предоставят на AI компаниите достъп до висококачествени данни, които могат да подобрят производителността на техните AI модели.

По-широките последици

Делото на Reddit срещу Anthropic не е просто спор между две компании; то е предвестник на по-широките правни и етични дебати около разработването на AI. Резултатът от този случай би могъл да има значителни последици за AI индустрията, потенциално оформяйки начина, по който се обучават AI моделите, и правата на доставчиците на съдържание.

Тъй като AI технологията продължава да напредва, е от решаващо значение тези въпроси да бъдат разгледани по обмислен и всеобхватен начин. Това ще изисква сътрудничество между AI компаниите, доставчиците на съдържание, политиците и обществеността, за да се разработи рамка, която да балансира ползите от AI иновациите с необходимостта от защита на поверителността на потребителите, интелектуалната собственост и лоялната конкуренция.

Определение за Scraping

Scraping, в този контекст, се отнася до автоматичното извличане на данни от уебсайтове. Използват се инструменти за анализ на HTML код и извличане на конкретни елементи като текст, изображения или връзки. В случая с Reddit, Anthropic твърди, че е използвала ботове за извличане на потребителски коментари, които са ценни за обучение на езикови модели.

Законността на scraping е сива зона. Уебсайтовете обикновено имат условия за ползване, които забраняват такава дейност, но прилагането може да бъде трудно. Някои твърдят, че публично достъпните данни трябва да бъдат достъпни, докато други подчертават правата на собствениците на уебсайтове да контролират своето съдържание.

Доктрината за честна употреба (Fair Use)

Доктрината за честна употреба (fair use) е правен принцип, който позволява ограниченото използване на материали, защитени с авторски права, без разрешение от притежателя на авторските права. Доктрината е предназначена да насърчава свободата на изразяване, като позволява коментари, критика, новинарски репортажи, преподаване, стипендии и изследвания.

Въпреки това, прилагането на доктрината за честна употреба (fair use) към обучението на AI е сложно и противоречиво. AI компаниите твърдят, че тяхното използване на материали, защитени с авторски права, за учебни цели е трансформиращо и не нарушава правата на притежателите на авторските права. Доставчиците на съдържание, от друга страна, твърдят, че обучението на AI е търговска дейност, която изисква разрешение и компенсация.

Бъдещето на обучението на AI

Делото на Reddit срещу Anthropic подчертава предизвикателствата и несигурността около бъдещето на обучението на AI. Тъй като AI моделите стават по-сложни и изискват по-големи набори от данни, търсенето на данни само ще се увеличи. Това вероятно ще доведе до по-нататъшни правни битки и регулаторни усилия за справяне с етичните и правните последици от извличането на данни и обучението на AI.

От съществено значение е заинтересованите страни да работят заедно за разработване на рамка, която да насърчава иновациите, като същевременно защитава правата на доставчиците на съдържание и гарантира отговорни практики за данни. Тази рамка трябва да разглежда въпроси като поверителност на данните, авторско право, прозрачност и отчетност.

Алтернативни източници на данни

Тъй като правният контрол върху извличането на уеб данни се засилва, AI компаниите проучват алтернативни източници на данни за обучение на своите модели. Те включват:

  • Лицензирани данни: Получаване на данни чрез лицензионни споразумения с доставчици на съдържание като Reddit, AP и други.
  • Синтетични данни: Генериране на изкуствени данни, които имитират реални данни, но не съдържат никаква лична информация или материали, защитени с авторски права.
  • Данни с отворен код: Използване на публично достъпни набори от данни, които са лицензирани за търговска употреба.
  • Вътрешни данни: Използване на данни, генерирани от собствените продукти и услуги на компанията.

Чрез диверсифициране на своите източници на данни, AI компаниите могат да намалят зависимостта си от извличането на уеб данни и да намалят рисковете, свързани с правните предизвикателства и етичните опасения.

Перспективата на потребителя

В крайна сметка, дебатът относно практиките за обучение на AI повдига основни въпроси относно правата на интернет потребителите. Потребителите генерират огромни количества съдържание на платформи като Reddit, често без да разбират напълно как това съдържание ще бъде използвано.

От съществено значение е потребителите да бъдат информирани за това как техните данни се събират, използват и споделят. Те също така трябва да имат възможността да контролират своите данни и да се откажат от използването на техните данни за цели на обучение на AI.

Платформи като Reddit носят отговорност да защитават данните на своите потребители и да гарантират, че техните данни се използват по отговорен и етичен начин. Това включва предоставянето на потребителите на ясни и прозрачни политики за поверителност, както и механизми за контрол на техните данни.

Възможни резултати

Възможните резултати от делото на Reddit срещу Anthropic са разнообразни и биха могли да имат значителни последици за AI индустрията:

  • Споразумение: Двете компании биха могли да постигнат споразумение, което да разреши спора без съдебен процес.
  • Reddit печели: Съдът би могъл да се произнесе в полза на Reddit, като установи, че Anthropic е нарушила нейните условия за ползване и е участвала в нелоялна конкуренция.
  • Anthropic печели: Съдът би могъл да се произнесе в полза на Anthropic, като установи, че нейните практики за обучение на AI са законни съгласно доктрината за честна употреба (fair use).
  • Смесено решение: Съдът би могъл да издаде смесено решение, като се произнесе в полза на Reddit по някои искове, но в полза на Anthropic по други.

Резултатът от делото вероятно ще зависи от редица фактори, включително специфичните факти по делото, съответните правни прецеденти и аргументите, представени от двете страни.

Общественото мнение

Отвъд съдебните производства, делото на Reddit срещу Anthropic също се води в общественото мнение. И двете компании имат силен интерес да оформят разказа около случая и да повлияят на общественото възприятие.

Reddit вероятно ще подчертае важността на защитата на поверителността на потребителите и прилагането на своите условия за ползване. Anthropic вероятно ще подчертае ползите от иновациите в областта на AI и важността на достъпа до данни за обучение на AI модели.

Възприемането на случая от обществеността би могло да повлияе на резултата от съдебните производства, както и на по-широкия дебат относно практиките за обучение на AI.