GPAI-Verhaltenskodex: Urheberrecht

Hintergrund

Der europäische AI Act (Verordnung (EU) 2024/1689, oder ‘AI Act’) legt spezifische Verpflichtungen für Anbieter von Allzweck-KI-Modellen (‘General-Purpose AI’ oder GPAI) fest. Diese Modelle, einschließlich derer aus der GPT-Familie, Llama und Gemini, müssen Anforderungen wie eine umfassende Dokumentation und die Einführung einer Richtlinie zur Einhaltung des EU-Urheberrechts erfüllen.

Um die Einhaltung dieser Bestimmungen zu erleichtern, sieht der AI Act die Entwicklung von Verhaltenskodizes vor, die auf GPAI-Modelle zugeschnitten sind. Nach einer Einladung des AI Office bildeten verschiedene Experten und Interessengruppen vier Arbeitsgruppen, die sich der Ausarbeitung eines ersten Verhaltenskodex widmeten. Die Genehmigung dieses Kodex durch die EU-Kommission würde ihm ‘allgemeine Gültigkeit’ in der gesamten EU verleihen. Die Annahme des genehmigten GPAI-Verhaltenskodex bietet Unternehmen die Möglichkeit, proaktive Compliance nachzuweisen und so möglicherweise die behördliche Kontrolle und damit verbundene Strafen zu mindern.

Das AI Office hat kürzlich den dritten Entwurf des Verhaltenskodex (‘3. Entwurf’) veröffentlicht, der von diesen Arbeitsgruppen erstellt wurde. Dieser Entwurf umfasst mehrere Schlüsselbereiche:

  • Verpflichtungen
  • Transparenz
  • Urheberrecht
  • Sicherheit

Die endgültige Fassung dieses Verhaltenskodex soll am 2. Mai 2025 veröffentlicht werden.

Dieses Dokument befasst sich mit den wesentlichen Details im Urheberrechtsabschnitt des 3. Entwurfs. Eine bemerkenswerte Abweichung vom zweiten Entwurf (‘2. Entwurf’) ist der gestraffte und prägnante Ansatz des 3. Entwurfs. Eine wesentliche Änderung besteht darin, dass der 3. Entwurf im Allgemeinen vorschreibt, dass die Compliance-Bemühungen der Größe und den Fähigkeiten des Anbieters entsprechen sollten, im Gegensatz zum 2. Entwurf.

Für wen ist das relevant?

Der Verhaltenskodex richtet sich in erster Linie an Anbieter von GPAI-Modellen. Diese Modelle zeichnen sich durch ihre erhebliche Allgemeingültigkeit und ihre Fähigkeit aus, ein breites Spektrum unterschiedlicher Aufgaben kompetent auszuführen. Dies umfasst Anbieter bekannter großer Sprachmodelle wie GPT (OpenAI), Llama (Meta), Gemini (Google) und Mistral (Mistral AI). Aber auch kleinere Modellanbieter können in seinen Geltungsbereich fallen, sofern ihre Modelle für eine Vielzahl von Aufgaben eingesetzt werden können. Darüber hinaus können Unternehmen, die Modelle für ihre spezifischen Anwendungen optimieren, auch als GPAI-Modellanbieter eingestuft werden.

‘Nachgelagerte Anbieter’ oder Unternehmen, die GPAI-Modelle in ihre KI-Systeme integrieren, sollten sich ebenfalls mit dem Verhaltenskodex vertraut machen. Dieser Kodex wird voraussichtlich zu einem Quasi-Standard für GPAI-Modelle werden und die Erwartungen an Entwickler von KI-Systemen hinsichtlich der Fähigkeiten von GPAI-Modellen definieren. Dieses Verständnis kann bei Vertragsverhandlungen mit GPAI-Modellanbietern von entscheidender Bedeutung sein.

Schlüsselkonzepte des Verhaltenskodex zum Urheberrecht

Anbieter von GPAI-Modellen sind verpflichtet, eine Richtlinie zu erstellen, die die Einhaltung des EU-Urheberrechts gewährleistet (Art. 53 (1) (c) AI Act). Angesichts der Neuheit dieser Anforderung fehlte es bisher an praktischen Anleitungen zur Struktur und zum Inhalt einer solchen Richtlinie. Der Verhaltenskodex soll diese Lücke schließen.

Der Verhaltenskodex schreibt vor, dass Anbieter die folgenden Maßnahmen umsetzen:

Urheberrechtsrichtlinie

Anbieter, die den Verhaltenskodex unterzeichnen (‘Unterzeichner’), sind verpflichtet, eine Urheberrechtsrichtlinie zu formulieren, aufrechtzuerhalten und umzusetzen, die mit dem EU-Urheberrecht übereinstimmt. Diese Anforderung ergibt sich direkt aus dem AI Act. Die Unterzeichner müssen außerdem sicherstellen, dass ihre Organisationen diese Urheberrechtsrichtlinie einhalten.

Eine wesentliche Abweichung vom 2. Entwurf besteht darin, dass der 3. Entwurf die Veröffentlichung der Urheberrechtsrichtlinie nicht mehr vorschreibt. Die Unterzeichner werden lediglich dazu ermutigt. Diese reduzierte Anforderung ist logisch, da der AI Act selbst die Modellanbieter nicht dazu verpflichtet, ihre Urheberrechtsrichtlinien zu veröffentlichen.

Web-Crawling von urheberrechtlich geschützten Inhalten

Unterzeichner dürfen grundsätzlich Web-Crawler für Text- und Data-Mining-Zwecke (TDM) einsetzen, um Trainingsdaten für ihre GPAI-Modelle zu sammeln. Sie müssen jedoch sicherstellen, dass diese Crawler Technologien respektieren, die den Zugriff auf urheberrechtlich geschütztes Material beschränken, wie z. B. Paywalls.

Darüber hinaus sind die Unterzeichner verpflichtet, ‘Piraterie-Domains’ auszuschließen, d. h. Online-Quellen, die sich hauptsächlich mit der Verbreitung von urheberrechtsverletzenden Materialien befassen.

Web-Crawling und Identifizierung und Einhaltung von TDM-Opt-outs

Die Unterzeichner müssen sicherstellen, dass Web-Crawler TDM-Opt-outs, die von Rechteinhabern erklärt wurden, identifizieren und respektieren. Während das EU-Urheberrecht TDM grundsätzlich erlaubt, behalten sich die Rechteinhaber das Recht vor, sich abzumelden (Opt-out). Für Webinhalte muss dieser Opt-out maschinenlesbar sein. Der 3. Entwurf erläutert die Anforderungen an Web-Crawler und legt fest, dass sie das weit verbreitete robots.txt-Protokoll identifizieren und einhalten müssen. Darüber hinaus müssen Web-Crawler andere relevante maschinenlesbare TDM-Opt-outs einhalten, wie z. B. Metadaten, die als Industriestandard festgelegt wurden, oder Lösungen, die von Rechteinhabern häufig verwendet werden.

Die Unterzeichner sind verpflichtet, angemessene Schritte zu unternehmen, um Rechteinhaber über die verwendeten Web-Crawler und die Art und Weise, wie diese Crawler robots.txt-Anweisungen behandeln, zu informieren. Diese Informationen können über verschiedene Kanäle verbreitet werden, z. B. über einen Web-Feed. Bemerkenswerterweise enthält der 3. Entwurf keine Verpflichtung mehr, diese Informationen zu veröffentlichen.

Identifizierung und Einhaltung eines TDM-Opt-out für Inhalte, die nicht per Web-Crawling erfasst wurden

GPAI-Modellanbieter können Datensätze auch von Dritten erwerben, anstatt selbst Web-Crawling durchzuführen. Während der 2. Entwurf eine urheberrechtliche Due Diligence von Datensätzen Dritter vorschrieb, verlangt der 3. Entwurf angemessene Anstrengungen, um Informationen darüber zu erhalten, ob Web-Crawler, die zum Sammeln der Informationen verwendet wurden, die robots.txt-Protokolle eingehalten haben.

Risikominderung zur Verhinderung der Erstellung von urheberrechtsverletzenden Ergebnissen

Ein erhebliches Risiko im Zusammenhang mit der KI-Nutzung ist die Möglichkeit, dass die KI Ergebnisse generiert, die Urheberrechte verletzen. Dies könnte die Vervielfältigung von Code oder Bildern beinhalten, die online gefunden wurden und urheberrechtlich geschützt sind.

Die Unterzeichner sind verpflichtet, angemessene Anstrengungen zu unternehmen, um dieses Risiko zu mindern. Dies stellt einen milderen Ansatz im Vergleich zum 2. Entwurf dar, der Maßnahmen zur Vermeidung von ‘Overfitting’ vorschrieb. Der 3. Entwurf verfolgt einen technologieneutraleren Ansatz und betont angemessene Anstrengungen.

Darüber hinaus müssen die Unterzeichner eine Klausel in ihre Allgemeinen Geschäftsbedingungen (oder ähnliche Dokumente) für Anbieter nachgelagerter KI-Systeme aufnehmen, die die Verwendung ihres GPAI-Modells in einer Weise verbietet, die Urheberrechte verletzt.

Benennung einer Kontaktstelle

Die Unterzeichner sind verpflichtet, eine Kontaktstelle für Rechteinhaber bereitzustellen. Sie müssen außerdem einen Mechanismus einrichten, der es Rechteinhabern ermöglicht, Beschwerden über Urheberrechtsverletzungen einzureichen.

Nach dem 3. Entwurf haben die Unterzeichner die Möglichkeit, die Bearbeitung von Beschwerden abzulehnen, die als unbegründet oder übertrieben erachtet werden.

Detailliertere Betrachtung: Eine granularere Untersuchung der Urheberrechtsbestimmungen

Der 3. Entwurf führt, obwohl er scheinbar gestrafft wurde, Nuancen und Schwerpunktverlagerungen ein, die eine genauere Betrachtung rechtfertigen. Lassen Sie uns jeden Abschnitt weiter aufschlüsseln:

Urheberrechtsrichtlinie: Die Verlagerung von der Veröffentlichung zur Ermutigung

Die ursprüngliche Verpflichtung zur Veröffentlichung der Urheberrechtsrichtlinie, die im 2. Entwurf enthalten war, warf Bedenken hinsichtlich potenzieller Wettbewerbsnachteile und der Offenlegung sensibler Informationen auf. Der Schritt des 3. Entwurfs, die Veröffentlichung zu ermutigen, anstatt sie zu verlangen, trägt diesen Bedenken Rechnung. Diese Änderung ermöglicht es den Anbietern, ein gewisses Maß an Vertraulichkeit in Bezug auf ihre internen Compliance-Strategien zu wahren und gleichzeitig die Transparenz zu fördern. Der Aspekt der ‘Ermutigung’ übt jedoch immer noch einen subtilen Druck auf die Anbieter aus, offen über ihre Richtlinien zu sein, was im Laufe der Zeit möglicherweise zu einem De-facto-Standard der Veröffentlichung führen könnte.

Web-Crawling: Ausgleich zwischen Datenerfassung und Achtung des Urheberrechts

Die ausdrückliche Erlaubnis für Web-Crawling, verbunden mit der Verpflichtung, Zugangsbeschränkungen wie Paywalls zu respektieren, spiegelt einen Balanceakt wider. Der AI Act erkennt die Bedeutung von Daten für das Training von KI-Modellen an, unterstreicht aber auch die Notwendigkeit, die Rechte der Urheber von Inhalten zu respektieren. Der Ausschluss von ‘Piraterie-Domains’ ist eine entscheidende Ergänzung, die sich explizit an Quellen richtet, die aktiv Urheberrechtsverletzungen begehen. Diese Bestimmung bekräftigt den Grundsatz, dass die KI-Entwicklung nicht auf der Grundlage illegaler Aktivitäten erfolgen sollte.

TDM-Opt-outs: Die technische Spezifität der Compliance

Die Betonung des robots.txt-Protokolls und anderer maschinenlesbarer Opt-out-Mechanismen im 3. Entwurf unterstreicht die technischen Aspekte der Compliance. Diese Spezifität bietet sowohl GPAI-Anbietern als auch Rechteinhabern Klarheit. Für Anbieter werden konkrete Schritte aufgezeigt, die sie unternehmen müssen, um sicherzustellen, dass ihre Crawler Opt-out-Anfragen respektieren. Für Rechteinhaber wird klargestellt, wie sie ihre Präferenzen in Bezug auf TDM effektiv signalisieren können. Die Einbeziehung von ‘Industriestandard’-Metadaten und ‘weit verbreiteten’ Lösungen trägt der Tatsache Rechnung, dass sich die Landschaft der Opt-out-Mechanismen weiterentwickelt und dass Flexibilität erforderlich ist.

Nicht per Web-Crawling erfasste Inhalte: Verlagerung von Verantwortung und Due Diligence

Die Änderung von ‘urheberrechtlicher Due Diligence’ zu ‘angemessenen Anstrengungen, um Informationen zu erhalten’ in Bezug auf Datensätze Dritter stellt eine subtile, aber signifikante Verlagerung der Verantwortung dar. Während der 2. Entwurf den GPAI-Anbietern eine größere Last auferlegte, den Urheberrechtsstatus von Datensätzen aktiv zu untersuchen, konzentriert sich der 3. Entwurf darauf, zu überprüfen, ob der Datenerfassungsprozess (durch den Dritten) robots.txt respektiert hat. Dies erkennt implizit an, dass GPAI-Anbieter möglicherweise nicht immer die direkte Kontrolle über die Datenerfassungspraktiken Dritter haben, aber dennoch eine Verantwortung haben, sich nach der Einhaltung der Vorschriften zu erkundigen.

Minderung von Urheberrechtsverletzungen: Von ‘Overfitting’ zu ‘angemessenen Anstrengungen’

Die Abkehr vom Begriff ‘Overfitting’ ist eine willkommene Änderung. ‘Overfitting’, ein Fachbegriff im maschinellen Lernen, bezieht sich auf ein Modell, das bei Trainingsdaten gut abschneidet, bei neuen Daten jedoch schlecht. Während Overfitting zu Urheberrechtsverletzungen beitragen kann (z. B. durch das Auswendiglernen und Reproduzieren von urheberrechtlich geschütztem Material), ist es nicht die einzige Ursache. Der umfassendere Fokus des 3. Entwurfs auf ‘angemessene Anstrengungen zur Risikominderung’ umfasst ein breiteres Spektrum potenzieller Verletzungsszenarien und ermöglicht mehr Flexibilität bei der Umsetzung. Diese Änderung trägt auch der Tatsache Rechnung, dass eine perfekte Verhinderung von Urheberrechtsverletzungen möglicherweise unerreichbar ist und ein risikobasierter Ansatz praktikabler ist.

Kontaktstelle und Beschwerdemechanismus: Straffung des Prozesses

Die Anforderung einer benannten Kontaktstelle und eines Beschwerdemechanismus bietet Rechteinhabern einen klaren Weg, um potenzielle Urheberrechtsverletzungen zu beheben. Die Möglichkeit für Unterzeichner, ‘unbegründete oder übertriebene’ Beschwerden abzulehnen, ist eine praktische Ergänzung, die verhindert, dass das System durch unseriöse Ansprüche überlastet wird. Diese Bestimmung trägt dazu bei, dass der Beschwerdemechanismus ein praktikables und effizientes Instrument zur Behandlung legitimer Urheberrechtsbedenken bleibt.

Die umfassenderen Auswirkungen und zukünftigen Überlegungen

Der 3. Entwurf des GPAI-Verhaltenskodex stellt einen wichtigen Schritt zur Operationalisierung der Urheberrechtsbestimmungen des AI Act dar. Er bietet GPAI-Anbietern dringend benötigte Klarheit und Orientierung und versucht gleichzeitig, die Rechte der Urheber von Inhalten zu schützen. Es bleiben jedoch mehrere umfassendere Auswirkungen und zukünftige Überlegungen bestehen:

  • Der Standard der ‘angemessenen Anstrengungen’: Die wiederholte Verwendung des Ausdrucks ‘angemessene Anstrengungen’ führt zu einem gewissen Grad an Subjektivität. Was als ‘angemessen’ gilt, wird wahrscheinlich Auslegungssache sein und sich im Laufe der Zeit durch rechtliche Anfechtungen und bewährte Verfahren in der Branche weiterentwickeln. Diese Mehrdeutigkeit könnte zu Unsicherheit für die Anbieter führen, ermöglicht aber auch Flexibilität und Anpassung an unterschiedliche Kontexte.

  • Die Rolle nachgelagerter Anbieter: Während sich der Kodex in erster Linie an GPAI-Anbieter richtet, haben nachgelagerte Anbieter ein begründetes Interesse daran, seine Bestimmungen zu verstehen. Der Kodex legt Erwartungen an die Qualität und Compliance von GPAI-Modellen fest, die Vertragsverhandlungen und Risikobewertungen beeinflussen können. Nachgelagerte Anbieter können auch indirektem Druck ausgesetzt sein, sicherzustellen, dass ihre Verwendung von GPAI-Modellen mit den Grundsätzen des Kodex übereinstimmt.

  • Die Entwicklung der Technologie: Das rasante Tempoder KI-Entwicklung bedeutet, dass der Verhaltenskodex ein lebendes Dokument sein muss. Es können neue Techniken für die Datenerfassung, das Modelltraining und die Generierung von Ergebnissen entstehen, die Aktualisierungen der Bestimmungen des Kodex erfordern. Der Verweis auf ‘Industriestandard’-Metadaten und ‘weit verbreitete’ Lösungen trägt diesem Bedarf an kontinuierlicher Anpassung Rechnung.

  • Internationale Harmonisierung: Der EU AI Act ist ein wegweisendes Gesetz, aber er operiert nicht im luftleeren Raum. Andere Gerichtsbarkeiten ringen ebenfalls mit den Herausforderungen der Regulierung von KI. Die internationale Harmonisierung der KI-Vorschriften, einschließlich der Urheberrechtsbestimmungen, wird entscheidend sein, um eine Fragmentierung zu vermeiden und gleiche Wettbewerbsbedingungen für KI-Entwickler zu gewährleisten.

  • Die Auswirkungen auf die Innovation: Der Verhaltenskodex zielt darauf ab, ein Gleichgewicht zwischen der Förderung von KI-Innovationen und dem Schutz des Urheberrechts herzustellen. Die Auswirkungen dieser Vorschriften auf das Tempo und die Richtung der KI-Entwicklung bleiben jedoch abzuwarten. Einige argumentieren, dass zu strenge Vorschriften Innovationen ersticken könnten, während andere behaupten, dass klare Regeln notwendig sind, um eine verantwortungsvolle KI-Entwicklung zu fördern.

  • Durchsetzung und Überwachung: Wie wird die Einhaltung überprüft? Die Wirksamkeit der Kodizes wird weitgehend von den Mechanismen abhängen, die für die Durchsetzung und Überwachung eingerichtet werden.

Der 3. Entwurf des GPAI-Verhaltenskodex ist ein komplexes und sich entwickelndes Dokument mit weitreichenden Auswirkungen. Er stellt eine erhebliche Anstrengung dar, um die Herausforderungen der Einhaltung des Urheberrechts im Zeitalter der KI zu bewältigen, aber er ist auch ein Werk in Arbeit. Ein kontinuierlicher Dialog zwischen den Interessengruppen, einschließlich GPAI-Anbietern, Rechteinhabern, politischen Entscheidungsträgern und der breiteren KI-Gemeinschaft, wird unerlässlich sein, um sicherzustellen, dass der Kodex seine beabsichtigten Ziele erreicht und angesichts des rasanten technologischen Wandels relevant bleibt.