Rozwój sztucznej inteligencji (AI) ponownie znalazł się w centrum prawnego sporu, ponieważ grupa znanych organizacji prasowych i medialnych wszczęła proces o naruszenie praw autorskich i znaków towarowych przeciwko startupowi AI, Cohere. Pozew, złożony w lutym 2025 roku w U.S. District Court for the Southern District of New York, wymienia ponad tuzin powodów, w tym szanowane publikacje, takie jak Forbes, The Guardian i Los Angeles Times. Sednem sprawy jest wykorzystanie przez Cohere technologii Retrieval-Augmented Generation (RAG), która zdaniem powodów wiąże się z nieautoryzowanym wykorzystaniem ich materiałów chronionych prawem autorskim do tworzenia baz danych i generowania wyników.
Technologia RAG pod lupą
Retrieval-Augmented Generation (RAG) pojawiło się jako potencjalne rozwiązanie niektórych inherentnych wyzwań związanych z dużymi modelami językowymi (LLMs). Zaproponowana przez Patricka Lewisa i jego współpracowników w 2020 roku technologia RAG ma na celu łagodzenie problemów, takich jak halucynacje (generowanie nieprawdziwych lub bezsensownych informacji), przestarzała wiedza i brak przejrzystości w rozumowaniu modelu. Co ciekawe, Patrick Lewis sam jest obecnie badaczem w Cohere, kontynuując prace nad technologią RAG. Adopcja RAG była szeroka, a główni gracze, tacy jak Microsoft, Google, Amazon i NVIDIA, zintegrowali ją ze swoimi systemami AI.
Pozew wniesiony przez wydawców wiadomości koncentruje się na kilku kluczowych zarzutach naruszenia praw autorskich wobec Cohere. Twierdzenia te podkreślają złożone kwestie prawne dotyczące wykorzystania materiałów chronionych prawem autorskim w szkoleniu i działaniu generatywnych modeli AI.
Roszczenia dotyczące naruszenia praw autorskich przeciwko Cohere
Zarzuty powodów przeciwko Cohere można podzielić na cztery główne kategorie:
1. Szkolenie modeli AI
Sednem argumentacji powodów jest sposób, w jaki Cohere wyszkolił swój duży model językowy, znany jako "Command Family". Twierdzą, że Cohere zaangażował się w szeroko zakrojone "scraping" tekstów z Internetu, w tym treści chronionych prawem autorskim z publikacji powodów. Te starte dane zostały następnie wykorzystane do tworzenia zbiorów danych niezbędnych do szkolenia modelu Command Family. Ponadto powodowie twierdzą, że Cohere wykorzystał zbiory danych stron trzecich, takie jak C4 Common Crawl, które zawierają znaczne ilości ich materiałów chronionych prawem autorskim, bez uzyskania niezbędnych zezwoleń.
Wykorzystanie materiałów chronionych prawem autorskim w szkoleniu modeli AI stało się kwestią sporną. Twórcy AI często argumentują, że takie użycie mieści się w doktrynie "dozwolonego użytku", która pozwala na ograniczone wykorzystanie materiałów chronionych prawem autorskim w celach takich jak krytyka, komentarz, reportaż, nauczanie, stypendium lub badania. Jednak posiadacze praw autorskich argumentują, że zakrojone na szeroką skalę "scraping" i wykorzystanie ich treści do celów komercyjnych, takich jak szkolenie modeli AI, wykracza poza zakres dozwolonego użytku. Ta batalia prawna prawdopodobnie będzie zależeć od tego, czy sąd zgodzi się z oceną powodów.
2. Użycie w czasie rzeczywistym / RAG
Kolejnym kluczowym aspektem pozwu jest sposób, w jaki usługi Cohere, w szczególności interfejs Chat, wykorzystują technologię RAG w czasie rzeczywistym. Powodowie twierdzą, że modele Cohere "scrapują" treści z zewnętrznych źródeł, w tym z ich stron internetowych, w celu generowania odpowiedzi na zapytania użytkowników. To "scraping" w czasie rzeczywistym, zdaniem powodów, stanowi naruszenie praw autorskich, zwłaszcza gdy modele Cohere omijają paywalle lub ignorują dyrektywy "robots.txt", które są poleceniami instruującymi roboty internetowe (w tym te używane przez modele AI), aby nie "scrapowały" określonej treści ze strony internetowej.
Omijanie paywalli i dyrektyw robots.txt rodzi poważne pytania etyczne i prawne. Paywalle mają chronić treści chronione prawem autorskim i zapewnić, że wydawcy otrzymują wynagrodzenie za swoją pracę. Dyrektywy robots.txt to standardowy mechanizm, za pomocą którego właściciele stron internetowych kontrolują sposób, w jaki ich treści są dostępne i wykorzystywane przez roboty internetowe. Ignorując te zabezpieczenia, Cohere jest oskarżany o lekceważenie prawa autorskiego i praw twórców treści.
3. Naruszające wyniki
Powodowie twierdzą, że usługi Cohere dostarczają naruszające prawa autorskie wyniki w postaci kopii, obszernych fragmentów lub zastępczych podsumowań ich chronionych prawem autorskim utworów w odpowiedzi na zapytania użytkowników. Cytują przykłady wyników Cohere Chat, gdzie panel "Under the Hood" wyświetla pełne lub częściowe artykuły skopiowane bezpośrednio ze stron internetowych powodów.
Powodowie argumentują, że te wyniki, niezależnie od tego, czy są to dosłowne kopie, czy podsumowania, bezpośrednio zastępują potrzebę odwiedzania oryginalnych artykułów przez użytkowników. To z kolei szkodzi cyfrowej subskrypcji i przychodom z reklam, na których powodowie polegają w celu utrzymania swojej działalności. Sednem tej argumentacji jest to, że modele AI Cohere zasadniczo działają jako nieautoryzowani dystrybutorzy treści chronionych prawem autorskim, pozbawiając oryginalnych wydawców ich należnego wynagrodzenia.
4. Nieautoryzowana adaptacja
Oprócz wyświetlania fragmentów utworów powodów w panelu "Under the Hood", usługi Cohere dostarczają również streszczenia lub abstrakty tych utworów. Powodowie argumentują, że poziom szczegółowości tych streszczeń jest tak obszerny, że zasadniczo zastępują one oryginalne utwory, przekraczając granice dozwolonego użytku.
Prawo autorskie chroni nie tylko dosłowne odtwarzanie utworów chronionych prawem autorskim, ale także tworzenie utworów zależnych, które są adaptacjami lub przekształceniami oryginału. Powodowie argumentują, że streszczenia Cohere są tak obszerne, że stanowią nieautoryzowane utwory zależne, naruszając ich wyłączne prawo do tworzenia i rozpowszechniania adaptacji ich materiałów chronionych prawem autorskim.
Wtórna odpowiedzialność za działania użytkowników
Oprócz roszczenia o bezpośrednie naruszenie praw autorskich, powodowie argumentują również, że Cohere ponosi wtórną odpowiedzialność za naruszające działania swoich użytkowników. Argumentują, że usługi Cohere ułatwiają reprodukcję, wyświetlanie i rozpowszechnianie utworów powodów przez użytkowników oraz że Cohere nie może uchylić się od odpowiedzialności, przypisując naruszenie wyłącznie działaniom użytkowników. Podstawą tego roszczenia jest to, że produkt Cohere generuje odpowiedzi tylko po wprowadzeniu monitu przez użytkownika, co czyni firmę uczestnikiem naruszającej działania.
Ten argument o wtórnej odpowiedzialności jest znaczący, ponieważ ma na celu pociągnięcie twórców AI do odpowiedzialności za działania ich użytkowników, nawet jeśli to ci użytkownicy bezpośrednio dopuszczają się naruszenia praw autorskich. Jeśli argument ten okaże się skuteczny, może mieć dalekosiężne implikacje dla rozwoju i wdrażania technologii AI, ponieważ wymagałoby to od twórców wdrożenia zabezpieczeń, aby uniemożliwić swoim użytkownikom naruszanie praw autorskich.
Roszczenia o naruszenie znaku towarowego
Pozew wykracza poza naruszenie praw autorskich i obejmuje roszczenia o naruszenie znaku towarowego. Powodowie twierdzą, że praktyka Cohere polegająca na przypisywaniu źródeł stanowi naruszenie znaku towarowego, ponieważ wykorzystuje ona dobrze znane znaki towarowe powodów bez pozwolenia lub łączy je z wygenerowanymi przez AI błędnymi treściami. To, jak argumentują, prowadzi do uszczerbku na reputacji marki powodów i osłabienia ich odrębności.
Znaki towarowe to symbole, projekty lub frazy prawnie zarejestrowane w celu reprezentowania firmy lub produktu. Nieautoryzowane użycie znaku towarowego może powodować zamieszanie wśród konsumentów i szkodzić reputacji marki. Powodowie argumentują, że wykorzystanie przez Cohere ich znaków towarowych w połączeniu z treściami generowanymi przez AI może wprowadzać użytkowników w błąd, sugerując, że powodowie popierają usługi Cohere lub są z nimi powiązani, co nie ma miejsca.
Szerszy kontekst: RAG i przyszłość prawa autorskiego AI
Ten pozew przeciwko Cohere nie jest odosobnionym przypadkiem. Jest to kontynuacja poprzedniego pozwu o naruszenie praw autorskich w USA w październiku 2024 roku, który również koncentrował się na zastosowaniu RAG w usługach AI. Ta rosnąca liczba spraw podkreśla narastające napięcie między twórcami AI a posiadaczami praw autorskich, ponieważ architektura RAG staje się coraz bardziej powszechna w usługach AI.
Batalie prawne dotyczące technologii RAG prawdopodobnie staną się istotną kwestią w przyszłości prawa autorskiego AI. RAG stwarza unikalne wyzwania, ponieważ wiąże się z pobieraniem i wykorzystywaniem w czasie rzeczywistym materiałów chronionych prawem autorskim w celu generowania wyników. To rodzi złożone pytania dotyczące zakresu dozwolonego użytku, odpowiedzialności twórców AI za działania użytkowników oraz ochrony własności intelektualnej w erze sztucznej inteligencji.
Wynik tych procesów może mieć głęboki wpływ na rozwój i wdrażanie technologii AI. Jeśli sądy orzekną na korzyść posiadaczy praw autorskich, twórcy AI mogą zostać zmuszeni do wdrożenia surowszych zabezpieczeń, aby zapobiec naruszeniu praw autorskich, co może zwiększyć koszt i złożoność rozwoju modeli AI. Z drugiej strony, jeśli sądy orzekną na korzyść twórców AI, posiadacze praw autorskich mogą potrzebować znaleźć nowe sposoby ochrony swojej własności intelektualnej w obliczu coraz bardziej wyrafinowanych technologii AI.
Starcie między wydawcami wiadomości a Cohere służy jako krytyczny moment w toczącej się debacie na temat AI, praw autorskich i przyszłości tworzenia treści. Wynik tej sprawy, wraz z innymi podobnymi, niewątpliwie ukształtuje krajobraz prawny dla generatywnej AI i jej interakcji z materiałami chronionymi prawem autorskim na wiele lat. Ponieważ AI stale się rozwija i staje się coraz bardziej zintegrowana z różnymi aspektami naszego życia, ważne jest, aby zachować równowagę między promowaniem innowacji a ochroną praw twórców treści. Sądy, ustawodawcy i społeczność AI muszą współpracować, aby ustanowić jasne wytyczne i regulacje, które promują kreatywność, zapewniając jednocześnie poszanowanie własności intelektualnej.
W szczególności branża informacyjna stoi w obliczu unikalnego zestawu wyzwań w erze AI. W miarę jak modele AI stają się coraz bardziej zdolne do generowania treści informacyjnych, kluczowe jest, aby wydawcy otrzymywali wynagrodzenie za wykorzystanie ich materiałów chronionych prawem autorskim oraz aby chronić integralność ich marek. Pozew przeciwko Cohere stanowi wysiłek wydawców wiadomości, aby dochodzić swoich praw i zapewnić, że ich praca nie jest wykorzystywana przez firmy AI bez należytej autoryzacji.