OpenAIs GPT-4o: Prüfung wegen Paywall-Trainingsdaten

Der unaufhaltsame Vormarsch der Entwicklung künstlicher Intelligenz, angeführt von Giganten wie OpenAI, kollidiert häufig mit lang etablierten Prinzipien des geistigen Eigentums und des Datenbesitzes. Diese Kollision hat erneut eine Kontroverse ausgelöst, da neue Anschuldigungen aufgetaucht sind, dass OpenAIs neuestes Flaggschiff-Modell, GPT-4o, möglicherweise unter Verwendung urheberrechtlich geschützter Materialien trainiert wurde, die hinter Paywalls verborgen sind, potenziell ohne die erforderlichen Genehmigungen einzuholen. Diese Behauptungen stammen von einer neu gegründeten Watchdog-Gruppe, dem AI Disclosures Project, und fügen der bereits komplexen Debatte über die ethische Beschaffung von Daten für das Training hochentwickelter KI-Systeme eine weitere Ebene der Komplexität hinzu.

Das Bellen des Wachhunds: Anschuldigungen vom AI Disclosures Project

Das 2024 ins Leben gerufene AI Disclosures Project positioniert sich als gemeinnützige Organisation, die sich der Untersuchung der oft undurchsichtigen Praktiken in der KI-Branche widmet. Zu seinen Gründern gehören namhafte Persönlichkeiten wie der Medienunternehmer Tim O’Reilly, Gründer von O’Reilly Media, einem prominenten Verlag für technische Bücher, und der Ökonom Ilan Strauss. Diese Verbindung zu O’Reilly Media ist besonders relevant, da sich der erste brisante Bericht des Projekts speziell auf die angebliche Präsenz von O’Reillys Paywall-Buchinhalten im Trainingsdatensatz von GPT-4o konzentriert.

Die zentrale Behauptung ihrer Studie ist provokativ: Trotz des Fehlens einer bekannten Lizenzvereinbarung zwischen OpenAI und O’Reilly Media zeigt das GPT-4o-Modell eine auffallend hohe Vertrautheit mit Inhalten, die direkt aus O’Reillys urheberrechtlich geschützten Büchern stammen. Diese Vertrautheit, so argumentiert der Bericht, deutet stark darauf hin, dass diese Paywall-Materialien in den riesigen Datenkorpus integriert wurden, der zum Aufbau der Fähigkeiten des Modells verwendet wurde. Die Studie hebt einen signifikanten Unterschied im Vergleich zu älteren OpenAI-Modellen hervor, insbesondere GPT-3.5 Turbo, was auf eine potenzielle Verschiebung oder Erweiterung der Datenerfassungspraktiken im Vorfeld der Entwicklung von GPT-4o hindeutet.

Die Implikationen sind erheblich. Wenn proprietäre, kostenpflichtige Inhalte von KI-Modellen ohne Genehmigung oder Vergütung aufgenommen werden, wirft dies grundlegende Fragen zum Urheberrecht im Zeitalter der generativen KI auf. Verlage und Autoren verlassen sich auf Abonnement- oder Kaufmodelle, die auf der Exklusivität ihrer Inhalte beruhen. Die angebliche Nutzung dieses Materials für das Training könnte als Untergrabung dieser Geschäftsmodelle angesehen werden, wodurch potenziell genau die Inhalte entwertet werden, deren Erstellung erhebliche Investitionen erfordert. Dieser spezifische Vorwurf geht über das Scraping öffentlich zugänglicher Websites hinaus und dringt in den Bereich des Zugriffs auf Inhalte vor, die ausdrücklich für zahlende Kunden bestimmt sind.

Ein Blick in die Black Box: Der Membership Inference Attack

Um ihre Behauptungen zu untermauern, setzten die Forscher des AI Disclosures Project eine ausgefeilte Technik namens ‘Membership Inference Attack’ ein, speziell unter Verwendung einer Methode, die sie DE-COP nennen. Die Kernidee hinter diesem Ansatz besteht darin, zu testen, ob ein KI-Modell bestimmte Textabschnitte ‘auswendig gelernt’ oder zumindest eine starke Vertrautheit damit entwickelt hat. Im Wesentlichen prüft der Angriff das Modell, um festzustellen, ob es zuverlässig zwischen originalen Textpassagen (in diesem Fall aus O’Reilly-Büchern) und sorgfältig konstruierten paraphrasierten Versionen derselben Passagen, die von einer anderen KI generiert wurden, unterscheiden kann.

Die zugrunde liegende Logik ist, dass, wenn ein Modell durchweg eine überzufällig hohe Fähigkeit zeigt, den originalen, von Menschen verfassten Text im Vergleich zu einer nahen Paraphrase zu identifizieren, dies impliziert, dass das Modell diesen Originaltext zuvor angetroffen hat – wahrscheinlich während seiner Trainingsphase. Es ist vergleichbar mit dem Testen, ob jemand ein bestimmtes, weniger bekanntes Foto erkennt, von dem er behauptet, es nie gesehen zu haben; konsistente Erkennung deutet auf vorherige Exposition hin.

Der Umfang des Tests des AI Disclosures Project war beträchtlich. Sie verwendeten 13.962 verschiedene Absatz-Auszüge aus 34 verschiedenen O’Reilly Media-Büchern. Diese Auszüge repräsentierten die Art von spezialisierten, hochwertigen Inhalten, die typischerweise hinter der Paywall des Verlags zu finden sind. Die Studie maß dann die Leistung von sowohl GPT-4o als auch seinem Vorgänger, GPT-3.5 Turbo, bei dieser Unterscheidungsaufgabe.

Die Ergebnisse, wie im Bericht dargestellt, waren frappierend. GPT-4o zeigte eine signifikant erhöhte Fähigkeit, die Paywall-Inhalte von O’Reilly zu erkennen. Seine Leistung wurde anhand eines AUROC-Scores (Area Under the Receiver Operating Characteristic curve) quantifiziert, einer gängigen Metrik zur Bewertung der Leistung von binären Klassifikatoren. GPT-4o erreichte einen AUROC-Score von 82%. Im Gegensatz dazu erzielte GPT-3.5 Turbo einen Wert von knapp über 50%, was im Wesentlichen dem zufälligen Raten entspricht – was auf wenig bis gar keine spezifische Erkennung des getesteten Materials hindeutet. Dieser krasse Unterschied, so argumentiert der Bericht, liefert überzeugende, wenn auch indirekte Beweise dafür, dass die Paywall-Inhalte tatsächlich Teil der Trainingsdaten von GPT-4o waren. Ein Score von 82% deutet auf ein starkes Signal hin, weit über das hinaus, was durch Zufall oder allgemeines Wissen zu erwarten wäre.

Notwendige Vorbehalte und unbeantwortete Fragen

Obwohl die Ergebnisse eine überzeugende Darstellung liefern, erkennen die Mitautoren der Studie, darunter der KI-Forscher Sruly Rosenblat, lobenswerterweise potenzielle Einschränkungen an, die ihrer Methodik und der komplexen Natur des KI-Trainings innewohnen. Ein wesentlicher Vorbehalt, den sie äußern, ist die Möglichkeit der indirekten Datenaufnahme. Es sei denkbar, so merken sie an, dass Benutzer von ChatGPT (OpenAIs beliebter Schnittstelle) Auszüge aus Paywall-Büchern von O’Reilly direkt in die Chat-Oberfläche kopiert und eingefügt haben könnten, um verschiedene Zwecke zu verfolgen, wie z. B. Fragen zum Text zu stellen oder Zusammenfassungen anzufordern. Wenn dies häufig genug geschah, könnte das Modell den Inhalt indirekt durch Benutzerinteraktionen gelernt haben, anstatt durch direkte Einbeziehung in den ursprünglichen Trainingsdatensatz. Die Entflechtung direkter Trainingsexposition von indirektem Lernen über Benutzeraufforderungen bleibt eine erhebliche Herausforderung in der KI-Forensik.

Darüber hinaus erstreckte sich der Umfang der Studie nicht auf die absolut neuesten oder spezialisierten Modelliterationen von OpenAI, die möglicherweise gleichzeitig mit oder nach dem Haupttrainingszyklus von GPT-4o entwickelt oder veröffentlicht wurden. Modelle, die potenziell GPT-4.5 (sofern es unter dieser spezifischen Nomenklatur oder Fähigkeitsstufe existiert) und auf Schlussfolgerungen ausgerichtete Modelle wie o3-mini und o1 umfassen, wurden nicht denselben Membership Inference Attacks unterzogen. Dies lässt die Frage offen, ob sich die Praktiken der Datenbeschaffung weiterentwickelt haben könnten oder ob diese neueren Modelle ähnliche Muster der Vertrautheit mit Paywall-Inhalten aufweisen. Die schnellen Iterationszyklen in der KI-Entwicklung bedeuten, dass jede Momentaufnahme-Analyse Gefahr läuft, fast sofort leicht veraltet zu sein.

Diese Einschränkungen entwerten nicht notwendigerweise die Kernergebnisse der Studie, fügen aber entscheidende Nuancen hinzu. Der definitive Nachweis dessen, was sich in den Terabytes an Daten befindet, die zum Trainieren eines Basismodells verwendet werden, ist notorisch schwierig. Membership Inference Attacks liefern probabilistische Beweise, die eher eine Wahrscheinlichkeit nahelegen als absolute Sicherheit bieten. OpenAI, wie andere KI-Labore auch, hütet die Zusammensetzung seiner Trainingsdaten streng und beruft sich auf proprietäre Bedenken und Wettbewerbssensibilitäten.

Ein breiterer Konflikt: Urheberrechtskämpfe in der KI-Arena

Die vom AI Disclosures Project erhobenen Vorwürfe existieren nicht im luftleeren Raum. Sie stellen die jüngste Auseinandersetzung in einem viel breiteren, andauernden Konflikt zwischen KI-Entwicklern und Kreativen über die Nutzung urheberrechtlich geschützten Materials zu Trainingszwecken dar. OpenAI befindet sich zusammen mit anderen prominenten Akteuren wie Google, Meta und Microsoft in mehreren hochkarätigen Rechtsstreitigkeiten. Diese Klagen, eingereicht von Autoren, Künstlern, Nachrichtenorganisationen und anderen Rechteinhabern, werfen generell weit verbreitete Urheberrechtsverletzungen vor, die sich aus dem unbefugten Scraping und der Aufnahme riesiger Mengen von Text und Bildern aus dem Internet zum Trainieren generativer KI-Modelle ergeben.

Die Kernverteidigung, die von KI-Unternehmen oft vorgebracht wird, stützt sich auf die Doktrin des Fair Use (in den Vereinigten Staaten) oder ähnliche Ausnahmen in anderen Rechtsordnungen. Sie argumentieren, dass die Verwendung urheberrechtlich geschützter Werke für das Training eine ‘transformative’ Nutzung darstellt – die KI-Modelle reproduzieren nicht nur die Originalwerke, sondern nutzen die Daten, um Muster, Stile und Informationen zu lernen, um völlig neue Ausgaben zu generieren. Nach dieser Interpretation sollte der Trainingsprozess selbst, der darauf abzielt, ein leistungsfähiges neues Werkzeug zu schaffen, zulässig sein, ohne Lizenzen für jedes aufgenommene Datenelement zu erfordern.

Rechteinhaber bestreiten diese Ansicht jedoch vehement. Sie argumentieren, dass das schiere Ausmaß des Kopierens, die kommerzielle Natur der entwickelten KI-Produkte und das Potenzial von KI-Ausgaben, direkt mit den Originalwerken zu konkurrieren und diese zu verdrängen, stark gegen eine Feststellung von Fair Use sprechen. Der Streitpunkt ist, dass KI-Unternehmen Multi-Milliarden-Dollar-Unternehmen auf dem Rücken kreativer Arbeit aufbauen, ohne die Schöpfer zu entschädigen.

Vor diesem Hintergrund von Rechtsstreitigkeiten hat OpenAI proaktiv versucht, einige Risiken zu mindern, indem es Lizenzvereinbarungen mit verschiedenen Inhaltsanbietern abgeschlossen hat. Vereinbarungen wurden mit großen Nachrichtenverlagen (wie Associated Press und Axel Springer), Social-Media-Plattformen (wie Reddit) und Stockmedien-Bibliotheken (wie Shutterstock) bekannt gegeben. Diese Deals verschaffen OpenAI legitimen Zugang zu spezifischen Datensätzen gegen Bezahlung und reduzieren potenziell seine Abhängigkeit von möglicherweise rechtsverletzenden, web-gescrapten Daten. Das Unternehmen hat Berichten zufolge auch Journalisten eingestellt, die damit beauftragt sind, die Qualität und Zuverlässigkeit der Modellausgaben zu verfeinern und zu verbessern, was auf ein Bewusstsein für die Notwendigkeit hochwertiger, potenziell kuratierter Eingaben hindeutet.

Der Welleneffekt: Bedenken für das Content-Ökosystem

Der Bericht des AI Disclosures Project weitet seine Bedenken über die unmittelbaren rechtlichen Auswirkungen für OpenAI hinaus aus. Er rahmt das Problem als systemische Bedrohung ein, die sich negativ auf die Gesundheit und Vielfalt des gesamten digitalen Content-Ökosystems auswirken könnte. Die Studie postuliert eine potenziell schädliche Rückkopplungsschleife: Wenn KI-Unternehmen hochwertige, professionell erstellte Inhalte (einschließlich Paywall-Material) frei nutzen können, ohne die Ersteller zu entschädigen, untergräbt dies die finanzielle Tragfähigkeit der Produktion solcher Inhalte von vornherein.

Professionelle Content-Erstellung – sei es investigativer Journalismus, ausführliche technische Handbücher, Belletristik oder akademische Forschung – erfordert oft erheblichen Zeit-, Fachwissen- und Finanzaufwand. Paywalls und Abonnementmodelle sind häufig wesentliche Mechanismen zur Finanzierung dieser Arbeit. Wenn die Einnahmequellen, die diese Bemühungen unterstützen, geschmälert werden, weil die Inhalte effektiv zum Trainieren konkurrierender KI-Systeme ohne Vergütung verwendet werden, könnte der Anreiz zur Erstellung hochwertiger, vielfältiger Inhalte sinken. Dies könnte zu einer weniger informierten Öffentlichkeit, einer Reduzierung spezialisierter Wissensressourcen und potenziell zu einem Internet führen, das von minderwertigen oder KI-generierten Inhalten dominiert wird, denen menschliche Expertise und Überprüfung fehlen.

Folglich plädiert das AI Disclosures Project nachdrücklich für größere Transparenz und Rechenschaftspflicht von KI-Unternehmen hinsichtlich ihrer Trainingsdatenpraktiken. Sie fordern die Implementierung robuster Richtlinien und potenziell regulatorischer Rahmenbedingungen, die sicherstellen, dass Content-Ersteller fair entschädigt werden, wenn ihre Arbeit zur Entwicklung kommerzieller KI-Modelle beiträgt. Dies spiegelt breitere Forderungen von Kreativgruppen weltweit wider, die nach Mechanismen suchen – sei es durch Lizenzvereinbarungen, Tantiemensysteme oder Tarifverhandlungen –, um sicherzustellen, dass sie einen Anteil am Wert erhalten, der durch KI-Systeme generiert wird, die auf ihrem geistigen Eigentum trainiert wurden. Die Debatte konzentriert sich darauf, ein nachhaltiges Gleichgewicht zu finden, in dem KI-Innovation neben einem florierenden Ökosystem für menschliche Kreativität und Wissensgenerierung gedeihen kann. Die Lösung laufender Rechtsstreitigkeiten und das Potenzial für neue Gesetze oder Industriestandards werden entscheidend sein, um dieses zukünftige Gleichgewicht zu gestalten. Die Frage, wie die Datenherkunft verfolgt und der Wert in massiven, komplexen KI-Modellen zugeschrieben werden kann, bleibt eine bedeutende technische und ethische Hürde.