Die Landschaft der KI-Entwicklung ist erneut in einen Rechtsstreit verwickelt, da eine Gruppe von prominenten Nachrichten- und Medienorganisationen eine Klage wegen Urheberrechts- und Markenverletzung gegen das generative KI-Startup Cohere eingereicht hat. Die Klage, die im Februar 2025 beim U.S. District Court für den Southern District of New York eingereicht wurde, nennt über ein Dutzend Kläger, darunter angesehene Publikationen wie Forbes, The Guardian und die Los Angeles Times. Im Mittelpunkt der Auseinandersetzung steht Cohere’s Nutzung der Retrieval-Augmented Generation (RAG)-Technologie, von der die Kläger behaupten, dass sie die unbefugte Nutzung ihres urheberrechtlich geschützten Materials beinhaltet, um Datenbanken zu erstellen und Ausgaben zu generieren.
RAG-Technologie im Visier
Retrieval-Augmented Generation (RAG) entwickelte sich als eine potentielle Lösung für einige inhärente Herausforderungen, die mit großen Sprachmodellen (LLMs) verbunden sind. RAG wurde 2020 von Patrick Lewis und seinen Kollegen vorgeschlagen und zielt darauf ab, Probleme wie Halluzinationen (die Erzeugung von sachlich falschen oder unsinnigen Informationen), veraltetes Wissen und mangelnde Transparenz in der Argumentation des Modells zu mildern. Interessanterweise ist Patrick Lewis selbst derzeit Forscher bei Cohere und setzt seine Arbeit an der RAG-Technologie fort. Die Einführung von RAG war weit verbreitet, wobei große Player wie Microsoft, Google, Amazon und NVIDIA sie in ihre KI-Systeme integrieren.
Die von den Nachrichtenverlagen eingereichte Klage konzentriert sich auf mehrere zentrale Behauptungen von Urheberrechtsverletzungen gegen Cohere. Diese Behauptungen beleuchten die komplexen rechtlichen Fragen im Zusammenhang mit der Verwendung von urheberrechtlich geschütztem Material beim Training und Betrieb von generativen KI-Modellen.
Urheberrechtsverletzungsvorwürfe gegen Cohere
Die Vorwürfe der Kläger gegen Cohere lassen sich in vier Hauptkategorien einteilen:
1. KI-Modelltraining
Der Kern des Arguments der Kläger dreht sich darum, wie Cohere sein großes Sprachmodell, bekannt als die "Command Family", trainiert hat. Sie behaupten, Cohere habe in erheblichem Umfang Text aus dem Internet "gescraped", einschließlich urheberrechtlich geschützter Inhalte aus den Publikationen der Kläger. Diese gescrapten Daten wurden dann verwendet, um die Datensätze zu erstellen, die für das Training des Command Family Modells erforderlich sind. Darüber hinaus behaupten die Kläger, dass Cohere Datensätze von Drittanbietern wie Common Crawl’s C4 verwendet habe, die erhebliche Mengen ihres urheberrechtlich geschützten Materials enthalten, ohne die erforderlichen Genehmigungen einzuholen.
Die Verwendung von urheberrechtlich geschütztem Material beim Training von KI-Modellen ist zu einem umstrittenen Thema geworden. KI-Entwickler argumentieren oft, dass eine solche Nutzung unter die Doktrin der "Fair Use" fällt, die die eingeschränkte Nutzung von urheberrechtlich geschütztem Material für Zwecke wie Kritik, Kommentar, Nachrichtenberichterstattung, Lehre, Wissenschaft oder Forschung erlaubt. Urheberrechtsinhaber argumentieren jedoch, dass das groß angelegte Scrapen und Verwenden ihrer Inhalte für kommerzielle Zwecke, wie z. B. das Training von KI-Modellen, über den Rahmen der Fair Use hinausgeht. Dieser Rechtsstreit wird sich wahrscheinlich darum drehen, ob das Gericht der Einschätzung der Kläger zustimmt.
2. Echtzeitnutzung / RAG
Ein weiterer wichtiger Aspekt der Klage konzentriert sich darauf, wie Cohere’s Dienste, insbesondere seine Chat-Schnittstelle, die RAG-Technologie in Echtzeit nutzen. Die Kläger behaupten, dass Cohere’s Modelle Inhalte aus externen Quellen, einschließlich ihrer Websites, scrapen, um Antworten auf Benutzeranfragen zu generieren. Dieses Echtzeit-Scrapen stellt nach Ansicht der Kläger eine Urheberrechtsverletzung dar, insbesondere wenn Cohere’s Modelle Paywalls umgehen oder "robots.txt"-Direktiven ignorieren, d. h. Befehle, die Webcrawler (einschließlich der von KI-Modellen verwendeten) anweisen, bestimmte Inhalte nicht von einer Website zu scrapen.
Die Umgehung von Paywalls und robots.txt-Direktiven wirft ernste ethische und rechtliche Fragen auf. Paywalls sollen urheberrechtlich geschützte Inhalte schützen und sicherstellen, dass Verlage für ihre Arbeit entschädigt werden. Robots.txt-Direktiven sind ein Standardmechanismus für Website-Betreiber, um zu steuern, wie auf ihre Inhalte von Webcrawlern zugegriffen und wie sie verwendet werden. Indem Cohere diese Schutzmaßnahmen ignoriert, wird dem Unternehmen vorgeworfen, Missachtung der Urheberrechtsgesetze und der Rechte von Urhebern zu zeigen.
3. Verletzende Ausgaben
Die Kläger argumentieren, dass Cohere’s Dienste in Form von Kopien, wesentlichen Auszügen oder stellvertretenden Zusammenfassungen ihrer urheberrechtlich geschützten Werke als Antwort auf Benutzeranfragen verletzende Ausgaben liefern. Sie zitieren Beispiele für Cohere Chat-Ausgaben, bei denen das Feld "Under the Hood" vollständige oder teilweise Artikel anzeigt, die direkt von den Websites der Kläger kopiert wurden.
Die Kläger argumentieren, dass diese Ausgaben, ob es sich nun um wortgetreue Kopien oder Zusammenfassungen handelt, direkt die Notwendigkeit ersetzen, dass Benutzer die Originalartikel besuchen. Dies wiederum schadet den digitalen Abonnement- und Werbeeinnahmen, auf die sich die Kläger verlassen, um ihr Geschäft aufrechtzuerhalten. Der Kern dieses Arguments ist, dass Cohere’s KI-Modelle im Wesentlichen als unbefugte Vertreiber von urheberrechtlich geschützten Inhalten agieren und den ursprünglichen Verlagen ihre rechtmäßige Entschädigung entziehen.
4. Unbefugte Adaption
Zusätzlich zur Anzeige von Teilen der Werke der Kläger im Feld "Under the Hood" bieten Cohere’s Dienste auch Zusammenfassungen oder Abstracts dieser Werke an. Die Kläger argumentieren, dass der Detaillierungsgrad in diesen Zusammenfassungen so umfangreich ist, dass sie im Wesentlichen die Originalwerke ersetzen und die Grenzen des Fair Use überschreiten.
Das Urheberrechtsgesetz schützt nicht nur die wortgetreue Reproduktion urheberrechtlich geschützter Werke, sondern auch die Schaffung abgeleiteter Werke, die Adaptionen oder Transformationen des Originals darstellen. Die Kläger argumentieren, dass Cohere’s Zusammenfassungen so umfassend sind, dass sie unbefugte abgeleitete Werke darstellen, die ihr ausschließliches Recht verletzen, Adaptionen ihres urheberrechtlich geschützten Materials zu erstellen und zu verbreiten.
Sekundäre Haftung für Benutzeraktionen
Über den Anspruch auf direkte Urheberrechtsverletzung hinaus argumentieren die Kläger auch, dass Cohere sekundär für die rechtsverletzenden Handlungen seiner Benutzer haftet. Sie argumentieren, dass Cohere’s Dienste die Reproduktion, Anzeige und Verbreitung der Werke der Kläger durch Benutzer erleichtern und dass Cohere sich nicht der Verantwortung entziehen kann, indem er die Verletzung ausschließlich den Benutzeraktionen zuschreibt. Die Grundlage für diese Behauptung ist, dass Cohere’s Produkt nur dann Antworten generiert, nachdem ein Benutzer eine Eingabeaufforderung eingegeben hat, wodurch das Unternehmen zu einem Teilnehmer an der rechtsverletzenden Aktivität wird.
Dieses Argument der sekundären Haftung ist von Bedeutung, da es versucht, KI-Entwickler für die Handlungen ihrer Benutzer zur Rechenschaft zu ziehen, selbst wenn diese Benutzer diejenigen sind, die direkt Urheberrechtsverletzungen begehen. Wenn dieses Argument erfolgreich ist, könnte dies weitreichende Auswirkungen auf die Entwicklung und den Einsatz von KI-Technologien haben, da es von Entwicklern verlangen würde, Schutzmaßnahmen zu implementieren, um zu verhindern, dass ihre Benutzer Urheberrechte verletzen.
Markenrechtsverletzungsklagen
Die Klage geht über Urheberrechtsverletzungen hinaus und umfasst auch Ansprüche wegen Markenrechtsverletzungen. Die Kläger argumentieren, dass Cohere’s Praxis der Quellenangabe eine Markenrechtsverletzung darstellt, weil sie die bekannten Marken der Kläger ohne Erlaubnis verwendet oder sie mit KI-generierten fehlerhaften Inhalten in Verbindung bringt. Dies, so argumentieren sie, führt zu einer Schädigung des Rufes der Marke der Kläger und zu einer Verwässerung ihrer Unterscheidungskraft.
Marken sind Symbole, Designs oder Phrasen, die rechtlich eingetragen sind, um ein Unternehmen oder ein Produkt zu repräsentieren. Die unbefugte Verwendung einer Marke kann Verwirrung bei den Verbrauchern stiften und den Ruf der Marke schädigen. Die Kläger argumentieren, dass Cohere’s Verwendung ihrer Marken in Verbindung mit KI-generierten Inhalten Benutzer in dem Glauben irreführen könnte, dass die Kläger Cohere’s Dienste befürworten oder mit ihnen verbunden sind, was nicht der Fall ist.
Der breitere Kontext: RAG und die Zukunft des KI-Urheberrechtsgesetzes
Die Klage gegen Cohere ist kein Einzelfall. Sie folgt einer früheren Urheberrechtsklage in den USA vom Oktober 2024, die sich ebenfalls auf die RAG-Anwendung in KI-Diensten konzentrierte. Diese wachsende Zahl von Fällen verdeutlicht die zunehmenden Spannungen zwischen KI-Entwicklern und Urheberrechtsinhabern, da die RAG-Architektur in KI-Diensten immer weiter verbreitet wird.
Die Rechtsstreitigkeiten um die RAG-Technologie werden in der Zukunft des KI-Urheberrechtsgesetzes wahrscheinlich zu einem wichtigen Thema werden. RAG stellt einzigartige Herausforderungen dar, da es die Echtzeitabfrage und -verwendung von urheberrechtlich geschütztem Material zur Erstellung von Ausgaben beinhaltet. Dies wirft komplexe Fragen über den Umfang der Fair Use, die Verantwortung der KI-Entwickler für Benutzeraktionen und den Schutz des geistigen Eigentums im Zeitalter der künstlichen Intelligenz auf.
Der Ausgang dieser Klagen könnte tiefgreifende Auswirkungen auf die Entwicklung und den Einsatz von KI-Technologien haben. Wenn die Gerichte zugunsten der Urheberrechtsinhaber entscheiden, sind KI-Entwickler möglicherweise gezwungen, strengere Schutzmaßnahmen zu implementieren, um Urheberrechtsverletzungen zu verhindern, was die Kosten und die Komplexität der Entwicklung von KI-Modellen erhöhen könnte. Wenn die Gerichte hingegen zugunsten der KI-Entwickler entscheiden, müssen Urheberrechtsinhaber möglicherweise neue Wege finden, um ihr geistiges Eigentum angesichts immer ausgefeilterer KI-Technologien zu schützen.
Der Zusammenprall zwischen Nachrichtenverlagen und Cohere dient als kritischer Wendepunkt in der laufenden Debatte über KI, Urheberrecht und die Zukunft der Inhaltserstellung. Der Ausgang dieses Falls wird zusammen mit anderen ähnlichen Fällen zweifellos die Rechtslandschaft für generative KI und ihre Interaktion mit urheberrechtlich geschütztem Material für die kommenden Jahre prägen. Da sich KI ständig weiterentwickelt und immer stärker in verschiedene Aspekte unseres Lebens integriert wird, ist es unerlässlich, ein Gleichgewicht zwischen der Förderung von Innovation und dem Schutz der Rechte von Urhebern zu finden. Die Gerichte, die Gesetzgeber und die KI-Gemeinschaft müssen zusammenarbeiten, um klare Richtlinien und Vorschriften festzulegen, die die Kreativität fördern und gleichzeitig sicherstellen, dass das geistige Eigentum respektiert wird.
Insbesondere die Nachrichtenbranche steht im Zeitalter der KI vor einer Reihe einzigartiger Herausforderungen. Da KI-Modelle zunehmend in der Lage sind, Nachrichteninhalte zu generieren, ist es von entscheidender Bedeutung, dass Verlage für die Nutzung ihres urheberrechtlich geschützten Materials entschädigt werden und dass die Integrität ihrer Marken geschützt wird. Die Klage gegen Cohere stellt einen Versuch der Nachrichtenverlage dar, ihre Rechte geltend zu machen und sicherzustellen, dass ihre Arbeit nicht von KI-Unternehmen ohne die entsprechende Genehmigung ausgebeutet wird.