На фона на нарастващото развитие на изкуствения интелект, правните спорове относно авторските права се задълбочават. Група видни новинарски и медийни организации заведоха дело за нарушаване на авторски права и търговски марки срещу стартиращата компания за генеративен AI, Cohere. Делото, заведено в Окръжния съд на САЩ за Южния окръг на Ню Йорк през февруари 2025 г., посочва над десет ищци, включително реномирани издания като Forbes, The Guardian и Los Angeles Times. В сърцевината на спора е използването от страна на Cohere на технологията Retrieval-Augmented Generation (RAG), за която ищците твърдят, че включва неразрешено използване на техен защитен с авторски права материал за конструиране на бази данни и генериране на резултати.
RAG технологията под наблюдение
Retrieval-Augmented Generation (RAG) се появи като потенциално решение на някои присъщи предизвикателства, свързани с големите езикови модели (LLMs). Предложена от Патрик Луис и неговите колеги през 2020 г., RAG има за цел да смекчи проблеми като халюцинации (генериране на фактически невярна или безсмислена информация), остарели знания и липса на прозрачност в разсъжденията на модела. Интересното е, че самият Патрик Луис в момента е изследовател в Cohere, продължавайки работата си върху RAG технологията. Прилагането на RAG е широко разпространено, като големи играчи като Microsoft, Google, Amazon и NVIDIA го интегрират в своите AI системи.
Съдебният иск, заведен от новинарските издатели, се фокусира върху няколко ключови твърдения за нарушаване на авторски права срещу Cohere. Тези твърдения подчертават сложните правни въпроси, свързани с използването на защитен с авторски права материал в обучението и функционирането на генеративни AI модели.
Твърдения за нарушаване на авторски права срещу Cohere
Твърденията на ищците срещу Cohere могат да бъдат разделени на четири основни категории:
AI Модел Обучение
Същността на аргумента на ищците се върти около начина, по който Cohere обучава своя голям езиков модел, известен като “Command Family”. Те твърдят, че Cohere се е ангажирала с обширно “изстъргване” на текст от интернет, включително защитено с авторски права съдържание от публикациите на ищците. Тези извлечени данни са били използвани за създаване на наборите от данни, необходими за обучението на модела Command Family. Освен това, ищците твърдят, че Cohere е използвала набори от данни на трети страни като C4 на Common Crawl, които съдържат значителни количества от техния материал, защитен с авторски права, без да получи необходимите разрешения.
Използването на защитен с авторски права материал в обучението на AI модели се превърна в спорен въпрос. AI разработчиците често твърдят, че подобно използване попада в рамките на доктрината за “честна употреба”, която позволява ограниченото използване на защитен с авторски права материал за цели като критика, коментар, новинарско отразяване, преподаване, научна работа или изследване. Въпреки това, притежателите на авторски права твърдят, че мащабното изстъргване и използване на тяхното съдържание за търговски цели, като например обучение на AI модели, надхвърля обхвата на честната употреба. Тази правна битка вероятно ще зависи от това дали съдът ще се съгласи с оценката на ищците.
Използване в реално време / RAG
Друг ключов аспект на делото се фокусира върху това как услугите на Cohere, особено нейният Chat интерфейс, използват RAG технологията в реално време. Ищците твърдят, че моделите на Cohere извличат съдържание от външни източници, включително техните уебсайтове, за да генерират отговори на потребителски заявки. Това извличане в реално време, според ищците, представлява нарушение на авторски права, особено когато моделите на Cohere заобикалят платени стени или игнорират директиви “robots.txt”, които са команди, които инструктират уеб обхожданията (включително тези, използвани от AI модели) да не извличат конкретно съдържание от уебсайт.
Заобикалянето на платени стени и директиви robots.txt повдига сериозни етични и правни въпроси. Платените стени са предназначени да защитават защитено с авторски права съдържание и да гарантират, че издателите получават компенсация за своята работа. Директивите Robots.txt са стандартен механизъм за собствениците на уебсайтове да контролират как тяхното съдържание е достъпно и използвано от уеб обхожданията. Като игнорира тези предпазни мерки, Cohere е обвинена в демонстриране на незачитане на законите за авторското право и правата на създателите на съдържание.
Нарушаващи резултати
Ищците твърдят, че услугите на Cohere предоставят нарушаващи резултати под формата на копия, значителни откъси или заместващи резюмета на техните защитени с авторски права произведения в отговор на потребителски заявки. Те цитират примери за Cohere Chat резултати, където панелът “Под капака” показва пълни или частични статии, копирани директно от уебсайтовете на ищците.
Ищците твърдят, че тези резултати, независимо дали са точни копия или резюмета, директно заменят нуждата потребителите да посещават оригиналните статии. Това от своя страна уврежда приходите от дигитални абонаменти и реклама, на които ищците разчитат, за да поддържат бизнеса си. Същността на този аргумент е, че AI моделите на Cohere по същество действат като неразрешени дистрибутори на защитено с авторски права съдържание, лишавайки първоначалните издатели от тяхната законна компенсация.
Неразрешена адаптация
В допълнение към показването на части от произведенията на ищците в панела “Под капака”, услугите на Cohere също предоставят резюмета или абстракти от тези произведения. Ищците твърдят, че нивото на детайлност в тези резюмета е толкова обширно, че те по същество заменят оригиналните произведения, надхвърляйки границите на честната употреба.
Законът за авторското право защитава не само точното възпроизвеждане на защитени с авторски права произведения, но и създаването на производни произведения, които са адаптации или трансформации на оригинала. Ищците твърдят, че резюметата на Cohere са толкова изчерпателни, че представляват неразрешени производни произведения, нарушавайки тяхното изключително право да създават и разпространяват адаптации на техния защитен с авторски права материал.
Вторична отговорност за потребителски действия
Освен твърдението за пряко нарушаване наавторски права, ищците също твърдят, че Cohere е вторично отговорна за нарушаващите действия на своите потребители. Те твърдят, че услугите на Cohere улесняват възпроизвеждането, показването и разпространението на произведенията на ищците от потребителите и че Cohere не може да избегне отговорност, като единствено приписва нарушението на потребителски действия. Основата за това твърдение е, че продуктът на Cohere генерира отговори само след като потребител въведе подкана, което прави компанията участник в нарушаващата дейност.
Този аргумент за вторична отговорност е значителен, защото се стреми да държи AI разработчиците отговорни за действията на техните потребители, дори когато тези потребители са тези, които пряко се ангажират с нарушаване на авторски права. Ако е успешен, този аргумент може да има широкообхватни последици за развитието и прилагането на AI технологии, тъй като ще изисква разработчиците да прилагат предпазни мерки, за да предотвратят нарушаването на авторски права от техните потребители.
Твърдения за нарушаване на търговски марки
Делото се простира отвъд нарушаването на авторски права, за да включва твърдения за нарушаване на търговски марки. Ищците твърдят, че практиката на Cohere за приписване на източници представлява нарушаване на търговски марки, тъй като използва добре познатите търговски марки на ищците без разрешение или ги свързва с генерирано от AI погрешно съдържание. Това, твърдят те, води до увреждане на репутацията на марката на ищците и отслабване на тяхната отличителност.
Търговските марки са символи, дизайни или фрази, законно регистрирани, за да представляват компания или продукт. Неразрешеното използване на търговска марка може да причини объркване сред потребителите и да увреди репутацията на марката. Ищците твърдят, че използването на техните търговски марки от страна на Cohere във връзка с генерирано от AI съдържание може да подведе потребителите да повярват, че ищците одобряват или са свързани с услугите на Cohere, което не е така.
По-широкият контекст: RAG и бъдещето на закона за авторското право на AI
Този съдебен иск срещу Cohere не е изолиран инцидент. Той следва предишно дело за авторски права в САЩ през октомври 2024 г., което също се фокусира върху RAG приложението в AI услугите. Този нарастващ брой дела подчертава нарастващото напрежение между AI разработчиците и притежателите на авторски права, тъй като RAG архитектурата става все по-разпространена в AI услугите.
Правните битки около RAG технологията вероятно ще се превърнат в значителен проблем в бъдещето на закона за авторското право на AI. RAG представлява уникални предизвикателства, защото включва извличане и използване на защитен с авторски права материал в реално време за генериране на резултати. Това повдига сложни въпроси относно обхвата на честната употреба, отговорността на AI разработчиците за потребителски действия и защитата на интелектуалната собственост в ерата на изкуствения интелект.
Резултатът от тези съдебни дела може да има дълбоко въздействие върху развитието и прилагането на AI технологии. Ако съдилищата се произнесат в полза на притежателите на авторски права, AI разработчиците може да бъдат принудени да прилагат по-строги предпазни мерки, за да предотвратят нарушаването на авторски права, което може да увеличи разходите и сложността на разработването на AI модели. От друга страна, ако съдилищата се произнесат в полза на AI разработчиците, притежателите на авторски права може да трябва да намерят нови начини за защита на своята интелектуална собственост пред лицето на все по-сложни AI технологии.
Сблъсъкът между новинарските издатели и Cohere служи като критичен момент в продължаващия дебат около AI, авторското право и бъдещето на създаването на съдържание. Резултатът от този случай, заедно с други подобни, несъмнено ще оформи правния пейзаж за генеративния AI и неговото взаимодействие със защитен с авторски права материал за години напред. Тъй като AI продължава да се развива и да се интегрира все повече в различни аспекти на нашия живот, е от съществено значение да се постигне баланс между насърчаването на иновациите и защитата на правата на създателите на съдържание. Съдилищата, законодателите и AI общността трябва да работят заедно, за да установят ясни насоки и разпоредби, които насърчават креативността, като същевременно гарантират, че интелектуалната собственост е уважавана.
Новинарската индустрия, по-специално, е изправена пред уникален набор от предизвикателства в ерата на AI. Тъй като AI моделите стават все по-способни да генерират новинарско съдържание, е от решаващо значение издателите да бъдат компенсирани за използването на техния материал, защитен с авторски права, и да бъде защитена целостта на техните марки. Делото срещу Cohere представлява усилие от страна на новинарските издатели да отстояват правата си и да гарантират, че работата им не се експлоатира от AI компании без надлежно разрешение.