De juridische schermutselingen rond AI-ontwikkeling zijn weer opgelaaid, nu een groep vooraanstaande nieuws- en mediaorganisaties een rechtszaak wegens inbreuk op auteursrecht en handelsmerk heeft aangespannen tegen de generatieve AI-startup Cohere. De aanklacht is ingediend bij de U.S. District Court for the Southern District of New York in februari 2025 en noemt meer dan een dozijn aanklagers, waaronder gerespecteerde publicaties als Forbes, The Guardian en de Los Angeles Times. De kern van de zaak draait om Cohere’s gebruik van Retrieval-Augmented Generation (RAG)-technologie, waarvan de aanklagers beweren dat deze ongeoorloofd gebruik maakt van hun auteursrechtelijk beschermde materiaal om databases te construeren en outputs te genereren.
RAG-Technologie Onder de Loep
Retrieval-Augmented Generation (RAG) is ontstaan als een mogelijke oplossing voor enkele inherente uitdagingen die gepaard gaan met grote taalmodellen (LLM’s). RAG, voorgesteld door Patrick Lewis en zijn collega’s in 2020, is gericht op het verminderen van problemen zoals hallucinatie (het genereren van feitelijk onjuiste of onzinnige informatie), verouderde kennis en een gebrek aan transparantie in de redenering van het model. Interessant is dat Patrick Lewis zelf momenteel onderzoeker is bij Cohere, waar hij zijn werk aan RAG-technologie voortzet. De toepassing van RAG is wijdverbreid, waarbij grote spelers als Microsoft, Google, Amazon en NVIDIA het in hun AI-systemen integreren.
De rechtszaak die door de nieuwsuitgevers is aangespannen, draait om een aantal belangrijke beschuldigingen van inbreuk op het auteursrecht tegen Cohere. Deze claims benadrukken de complexe juridische vragen rond het gebruik van auteursrechtelijk beschermd materiaal bij de training en werking van generatieve AI-modellen.
Beschuldigingen van Inbreuk op het Auteursrecht tegen Cohere
De beweringen van de aanklagers tegen Cohere kunnen worden onderverdeeld in vier hoofdcategorieën:
1. Training van AI-Modellen
De kern van het argument van de aanklagers draait om de manier waarop Cohere zijn grote taalmodel, bekend als de "Command Family", heeft getraind. Ze beweren dat Cohere op grote schaal tekst van het internet heeft "gescraped", waaronder auteursrechtelijk beschermde inhoud van de publicaties van de aanklagers. Deze gescrapte gegevens werden vervolgens gebruikt om de datasets te creëren die nodig zijn voor het trainen van het Command Family-model. Verder beweren de aanklagers dat Cohere gebruik heeft gemaakt van datasets van derden, zoals Common Crawl’s C4, die aanzienlijke hoeveelheden van hun auteursrechtelijk beschermde materiaal bevatten, zonder de nodige toestemming te verkrijgen.
Het gebruik van auteursrechtelijk beschermd materiaal bij de training van AI-modellen is een controversieel onderwerp geworden. AI-ontwikkelaars beweren vaak dat dergelijk gebruik valt onder de doctrine van "fair use", die het beperkte gebruik van auteursrechtelijk beschermd materiaal toestaat voor doeleinden zoals kritiek, commentaar, nieuwsverslaggeving, onderwijs, wetenschap of onderzoek. Auteursrechthebbenden stellen echter dat het grootschalige scrapen en gebruiken van hun content voor commerciële doeleinden, zoals het trainen van AI-modellen, verder gaat dan de reikwijdte van fair use. Deze juridische strijd zal waarschijnlijk afhangen van de vraag of de rechtbank het eens is met de beoordeling van de aanklagers.
2. Real-time Gebruik / RAG
Een ander belangrijk aspect van de rechtszaak is de focus op hoe Cohere’s diensten, met name de Chat-interface, RAG-technologie in realtime gebruiken. De aanklagers beweren dat Cohere’s modellen content van externe bronnen scrapen, waaronder hun websites, om antwoorden te genereren op vragen van gebruikers. Dit realtime scrapen vormt volgens de aanklagers inbreuk op het auteursrecht, vooral wanneer Cohere’s modellen paywalls omzeilen of "robots.txt"-richtlijnen negeren. Robots.txt-richtlijnen zijn opdrachten die webcrawlers (inclusief de crawlers die door AI-modellen worden gebruikt) instrueren om specifieke content van een website niet te scrapen.
Het omzeilen van paywalls en robots.txt-richtlijnen roept ernstige ethische en juridische vragen op. Paywalls zijn ontworpen om auteursrechtelijk beschermde content te beschermen en ervoor te zorgen dat uitgevers worden gecompenseerd voor hun werk. Robots.txt-richtlijnen zijn een standaardmechanisme voor website-eigenaren om te bepalen hoe hun content wordt benaderd en gebruikt door webcrawlers. Door deze waarborgen te negeren, wordt Cohere ervan beschuldigd geen rekening te houden met auteursrechtwetten en de rechten van contentmakers.
3. Inbreukmakende Outputs
De aanklagers stellen dat Cohere’s diensten inbreukmakende outputs leveren in de vorm van kopieën, substantiële fragmenten of vervangende samenvattingen van hun auteursrechtelijk beschermde werken in antwoord op vragen van gebruikers. Ze citeren voorbeelden van Cohere Chat-outputs waar het "Under the Hood"-paneel volledige of gedeeltelijke artikelen weergeeft die rechtstreeks van de websites van de aanklagers zijn gekopieerd.
De aanklagers beweren dat deze outputs, of het nu gaat om letterlijke kopieën of samenvattingen, direct de noodzaak wegnemen voor gebruikers om de originele artikelen te bezoeken. Dit schaadt op zijn beurt de digitale abonnements- en advertentie-inkomsten waar de aanklagers op vertrouwen om hun bedrijven in stand te houden. De kern van dit argument is dat Cohere’s AI-modellen in wezen fungeren als onbevoegde distributeurs van auteursrechtelijk beschermde content, waardoor de oorspronkelijke uitgevers hun rechtmatige compensatie wordt ontnomen.
4. Ongeoorloofde Adaptatie
Naast het weergeven van delen van de werken van de aanklagers in het "Under the Hood"-paneel, bieden Cohere’s diensten ook samenvattingen of abstracts van deze werken. De aanklagers beweren dat het detailniveau in deze samenvattingen zo uitgebreid is dat ze in wezen de originele werken vervangen, waardoor de grenzen van fair use worden overschreden.
Het auteursrecht beschermt niet alleen de letterlijke reproductie van auteursrechtelijk beschermde werken, maar ook de creatie van afgeleide werken, dit zijn aanpassingen of transformaties van het origineel. De aanklagers beweren dat Cohere’s samenvattingen zo uitgebreid zijn dat ze ongeoorloofde afgeleide werken vormen, waarmee ze inbreuk maken op hun exclusieve recht om aanpassingen van hun auteursrechtelijk beschermde materiaal te creëren en te distribueren.
Secundaire Aansprakelijkheid voor Acties van Gebruikers
Naast de claim van directe inbreuk op het auteursrecht, beweren de aanklagers ook dat Cohere secundair aansprakelijk is voor de inbreukmakende handelingen van zijn gebruikers. Ze beweren dat Cohere’s diensten de reproductie, weergave en distributie van de werken van de aanklagers door gebruikers faciliteren, en dat Cohere niet aan de verantwoordelijkheid kan ontkomen door de inbreuk uitsluitend toe te schrijven aan acties van gebruikers. De basis voor deze claim is dat Cohere’s product alleen antwoorden genereert nadat een gebruiker een prompt invoert, waardoor het bedrijf een deelnemer is aan de inbreukmakende activiteit.
Dit argument van secundaire aansprakelijkheid is significant omdat het beoogt AI-ontwikkelaars verantwoordelijk te houden voor de acties van hun gebruikers, zelfs wanneer die gebruikers degenen zijn die rechtstreeks inbreuk maken op het auteursrecht. Als dit argument succesvol is, kan dit vergaande implicaties hebben voor de ontwikkeling en implementatie van AI-technologieën, omdat het van ontwikkelaars zou vereisen dat ze waarborgen implementeren om te voorkomen dat hun gebruikers inbreuk maken op het auteursrecht.
Claims van Inbreuk op Handelsmerk
De rechtszaak gaat verder dan inbreuk op het auteursrecht en omvat claims van inbreuk op het handelsmerk. De aanklagers beweren dat Cohere’s praktijk van het toeschrijven van bronnen inbreuk maakt op het handelsmerk omdat het de bekende handelsmerken van de aanklagers zonder toestemming gebruikt of ze associeert met door AI gegenereerde onjuiste content. Dit, zo beweren ze, leidt tot schade aan de merkreputatie van de aanklagers en een verwatering van hun onderscheidend vermogen.
Handelsmerken zijn symbolen, ontwerpen of zinnen die wettelijk zijn geregistreerd om een bedrijf of product te vertegenwoordigen. Het ongeoorloofde gebruik van een handelsmerk kan verwarring veroorzaken bij consumenten en de reputatie van het merk schaden. De aanklagers beweren dat Cohere’s gebruik van hun handelsmerken in combinatie met door AI gegenereerde content gebruikers zou kunnen misleiden door te geloven dat de aanklagers de diensten van Cohere onderschrijven of er aan zijn verbonden, wat niet het geval is.
De Bredere Context: RAG en de Toekomst van AI-Auteursrechtwetgeving
Deze rechtszaak tegen Cohere staat niet op zichzelf. Het volgt op een eerdere rechtszaak over auteursrecht in de VS in oktober 2024 die ook gericht was op de RAG-toepassing in AI-diensten. Dit groeiende aantal zaken benadrukt de toenemende spanning tussen AI-ontwikkelaars en auteursrechthebbenden naarmate de RAG-architectuur steeds meer voorkomt in AI-diensten.
De juridische strijd rond RAG-technologie zal waarschijnlijk een belangrijk issue worden in de toekomst van de AI-auteursrechtwetgeving. RAG presenteert unieke uitdagingen omdat het gaat om het realtime ophalen en gebruiken van auteursrechtelijk beschermd materiaal om outputs te genereren. Dit roept complexe vragen op over de reikwijdte van fair use, de verantwoordelijkheid van AI-ontwikkelaars voor gebruikersacties en de bescherming van intellectueel eigendom in het tijdperk van kunstmatige intelligentie.
De uitkomst van deze rechtszaken kan een diepgaand effect hebben op de ontwikkeling en implementatie van AI-technologieën. Als rechtbanken in het voordeel van auteursrechthebbenden beslissen, kunnen AI-ontwikkelaars worden gedwongen om strengere waarborgen te implementeren om inbreuk op het auteursrecht te voorkomen, wat de kosten en complexiteit van het ontwikkelen van AI-modellen zou kunnen verhogen. Aan de andere kant, als rechtbanken in het voordeel van AI-ontwikkelaars beslissen, moeten auteursrechthebbenden mogelijk nieuwe manieren vinden om hun intellectueel eigendom te beschermen in het licht van steeds geavanceerdere AI-technologieën.
De botsing tussen nieuwsuitgevers en Cohere dient als een cruciaal moment in het voortdurende debat rond AI, auteursrecht en de toekomst van contentcreatie. De uitkomst van deze zaak, samen met andere soortgelijke zaken, zal ongetwijfeld het juridische landschap voor generatieve AI en de interactie ervan met auteursrechtelijk beschermd materiaal voor de komende jaren vormgeven. Naarmate AI zich blijft ontwikkelen en steeds meer wordt geïntegreerd in verschillende aspecten van ons leven, is het essentieel om een evenwicht te vinden tussen het bevorderen van innovatie en het beschermen van de rechten van contentmakers. De rechtbanken, wetgevers en de AI-gemeenschap moeten samenwerken om duidelijke richtlijnen en voorschriften op te stellen die creativiteit bevorderen en tegelijkertijd ervoor zorgen dat intellectueel eigendom wordt gerespecteerd.
De nieuwsindustrie staat in het bijzonder voor een unieke reeks uitdagingen in het tijdperk van AI. Naarmate AI-modellen steeds beter in staat zijn om nieuwscontent te genereren, is het cruciaal dat uitgevers worden gecompenseerd voor het gebruik van hun auteursrechtelijk beschermde materiaal en dat de integriteit van hun merken wordt beschermd. De rechtszaak tegen Cohere vertegenwoordigt een poging van nieuwsuitgevers om hun rechten te doen gelden en ervoor te zorgen dat hun werk niet zonder de juiste toestemming wordt geëxploiteerd door AI-bedrijven.