OpenAI's GPT-4o: Kritiek op Gebruik Betaalde Trainingsdata

De onstuitbare opmars van kunstmatige intelligentie-ontwikkeling, aangevoerd door giganten als OpenAI, botst regelmatig met lang gevestigde principes van intellectueel eigendom en data-eigendom. Deze botsing heeft opnieuw controverse veroorzaakt, nu er nieuwe beschuldigingen opduiken dat OpenAI’s nieuwste vlaggenschipmodel, GPT-4o, mogelijk is getraind met auteursrechtelijk beschermd materiaal dat achter betaalmuren zit, potentieel zonder de benodigde toestemmingen te verkrijgen. Deze claims zijn afkomstig van een nieuw opgerichte waakhondgroep, het AI Disclosures Project, wat een extra laag complexiteit toevoegt aan het al ingewikkelde debat rond de ethische herkomst van data voor het trainen van geavanceerde AI-systemen.

Het Geblaf van de Waakhond: Beschuldigingen van het AI Disclosures Project

Het AI Disclosures Project, gelanceerd in 2024, positioneert zichzelf als een non-profit entiteit die zich toelegt op het onderzoeken van de vaak ondoorzichtige praktijken binnen de AI-industrie. Onder de oprichters bevinden zich opmerkelijke figuren zoals media-ondernemer Tim O’Reilly, de oprichter van O’Reilly Media, een prominente uitgever van technische boeken, en econoom Ilan Strauss. Deze connectie met O’Reilly Media is bijzonder relevant, aangezien het eerste spraakmakende rapport van het project zich specifiek richt op de vermeende aanwezigheid van O’Reilly’s betaalde boekinhoud binnen de trainingsdataset van GPT-4o.

De centrale bewering van hun studie is provocerend: ondanks het ontbreken van enige bekende licentieovereenkomst tussen OpenAI en O’Reilly Media, vertoont het GPT-4o-model een opvallend hoge mate van bekendheid met inhoud die rechtstreeks afkomstig is uit de auteursrechtelijk beschermde boeken van O’Reilly. Deze bekendheid, zo stelt het rapport, suggereert sterk dat deze betaalde materialen zijn opgenomen in het enorme corpus van data dat is gebruikt om de capaciteiten van het model op te bouwen. De studie benadrukt een significant verschil vergeleken met oudere OpenAI-modellen, met name GPT-3.5 Turbo, wat duidt op een mogelijke verschuiving of uitbreiding in data-acquisitiepraktijken voorafgaand aan de ontwikkeling van GPT-4o.

De implicaties zijn aanzienlijk. Als propriëtaire, betaalde inhoud wordt opgenomen door AI-modellen zonder toestemming of compensatie, roept dit fundamentele vragen op over het auteursrecht in het tijdperk van generatieve AI. Uitgevers en auteurs vertrouwen op abonnements- of aankoopmodellen, gebaseerd op de exclusiviteit van hun inhoud. Het vermeende gebruik van dit materiaal voor training kan worden gezien als ondermijning van deze bedrijfsmodellen, waardoor mogelijk de waarde daalt van de inhoud die aanzienlijke investeringen vereist om te creëren. Deze specifieke beschuldiging gaat verder dan het scrapen van openbaar beschikbare websites en begeeft zich op het terrein van toegang tot inhoud die expliciet bedoeld is voor betalende klanten.

Een Kijkje in de Black Box: De Membership Inference Attack

Om hun beweringen te staven, gebruikten de onderzoekers van het AI Disclosures Project een geavanceerde techniek die bekend staat als een ‘membership inference attack’, specifiek met een methode die ze DE-COP noemen. Het kernidee achter deze aanpak is om te testen of een AI-model specifieke tekstfragmenten heeft ‘gememoriseerd’ of op zijn minst een sterke bekendheid ermee heeft ontwikkeld. In wezen test de aanval het model om te zien of het betrouwbaar onderscheid kan maken tussen originele tekstpassages (in dit geval uit O’Reilly-boeken) en zorgvuldig geconstrueerde geparafraseerde versies van diezelfde passages, gegenereerd door een andere AI.

De onderliggende logica is dat als een model consequent een bovengemiddeld vermogen toont om de originele door mensen geschreven tekst te identificeren in vergelijking met een nauwkeurige parafrase, dit impliceert dat het model die originele tekst eerder is tegengekomen – waarschijnlijk tijdens de trainingsfase. Het is vergelijkbaar met testen of iemand een specifieke, minder bekende foto herkent waarvan hij beweert die nooit te hebben gezien; consistente herkenning suggereert eerdere blootstelling.

De schaal van de test van het AI Disclosures Project was aanzienlijk. Ze gebruikten 13.962 afzonderlijke paragraaf-fragmenten afkomstig uit 34 verschillende O’Reilly Media-boeken. Deze fragmenten vertegenwoordigden het soort gespecialiseerde, hoogwaardige inhoud die doorgaans achter de betaalmuur van de uitgever te vinden is. De studie mat vervolgens de prestaties van zowel GPT-4o als zijn voorganger, GPT-3.5 Turbo, op deze differentiatie-taak.

De resultaten, zoals gepresenteerd in het rapport, waren opvallend. GPT-4o toonde een significant verhoogd vermogen om de betaalde O’Reilly-inhoud te herkennen. De prestaties werden gekwantificeerd met een AUROC-score (Area Under the Receiver Operating Characteristic curve), een gebruikelijke maatstaf voor het evalueren van de prestaties van binaire classificatoren. GPT-4o behaalde een AUROC-score van 82%. Ter vergelijking scoorde GPT-3.5 Turbo net boven 50%, wat in wezen gelijk staat aan willekeurig gokken – wat wijst op weinig tot geen specifieke herkenning van het geteste materiaal. Dit scherpe verschil, zo stelt het rapport, levert overtuigend, zij het indirect, bewijs dat de betaalde inhoud inderdaad deel uitmaakte van het trainingsdieet van GPT-4o. Een score van 82% suggereert een sterk signaal, ver boven wat verwacht zou worden door toeval of algemene kennis.

Noodzakelijke Kanttekeningen en Onbeantwoorde Vragen

Hoewel de bevindingen een overtuigend verhaal presenteren, erkennen de co-auteurs van de studie, waaronder AI-onderzoeker Sruly Rosenblat, prijzenswaardig de potentiële beperkingen die inherent zijn aan hun methodologie en de complexe aard van AI-training. Een belangrijke kanttekening die ze maken, is de mogelijkheid van indirecte data-opname. Het is denkbaar, merken ze op, dat gebruikers van ChatGPT (OpenAI’s populaire interface) fragmenten uit betaalde O’Reilly-boeken rechtstreeks in de chatinterface hebben gekopieerd en geplakt voor verschillende doeleinden, zoals het stellen van vragen over de tekst of het aanvragen van samenvattingen. Als dit vaak genoeg gebeurde, had het model de inhoud indirect kunnen leren via gebruikersinteracties, in plaats van door directe opname in de initiële trainingsdataset. Het ontwarren van directe trainingsblootstelling van indirect leren via gebruikersprompts blijft een aanzienlijke uitdaging in AI-forensisch onderzoek.

Bovendien strekte de reikwijdte van de studie zich niet uit tot de absoluut nieuwste of gespecialiseerde modeliteraties van OpenAI die mogelijk gelijktijdig met of na de hoofdtrainingscyclus van GPT-4o zijn ontwikkeld of uitgebracht. Modellen die mogelijk GPT-4.5 omvatten (als het onder die specifieke nomenclatuur of capaciteitsniveau bestaat) en op redenering gerichte modellen zoals o3-mini en o1 werden niet onderworpen aan dezelfde membership inference attacks. Dit laat de vraag open of de praktijken voor dataverwerving mogelijk verder zijn geëvolueerd, of dat deze nieuwere modellen vergelijkbare patronen van bekendheid met betaalde inhoud vertonen. De snelle iteratiecycli in AI-ontwikkeling betekenen dat elke momentopname-analyse het risico loopt vrijwel onmiddellijk enigszins verouderd te zijn.

Deze beperkingen maken de kernbevindingen van de studie niet noodzakelijkerwijs ongeldig, maar voegen cruciale lagen van nuance toe. Definitief bewijzen wat zich bevindt binnen de terabytes aan data die worden gebruikt om een foundation model te trainen, is notoir moeilijk. Membership inference attacks bieden probabilistisch bewijs, suggereren waarschijnlijkheid in plaats van absolute zekerheid te bieden. OpenAI, net als andere AI-labs, houdt de samenstelling van zijn trainingsdata nauwlettend geheim, onder verwijzing naar propriëtaire zorgen en concurrentiegevoeligheden.

Een Breder Conflict: Auteursrechtgevechten in de AI-Arena

De beschuldigingen geuit door het AI Disclosures Project bestaan niet in een vacuüm. Ze vertegenwoordigen de laatste schermutseling in een veel breder, voortdurend conflict tussen AI-ontwikkelaars en makers over het gebruik van auteursrechtelijk beschermd materiaal voor trainingsdoeleinden. OpenAI, samen met andere prominente spelers zoals Google, Meta en Microsoft, bevindt zich midden in meerdere spraakmakende rechtszaken. Deze juridische uitdagingen, aangespannen door auteurs, kunstenaars, nieuwsorganisaties en andere rechthebbenden, beweren over het algemeen wijdverbreide auteursrechtinbreuk als gevolg van het ongeoorloofd scrapen en opnemen van enorme hoeveelheden tekst en afbeeldingen van het internet om generatieve AI-modellen te trainen.

De kernverdediging die vaak door AI-bedrijven wordt aangevoerd, draait om de doctrine van fair use (in de Verenigde Staten) of vergelijkbare uitzonderingen in andere jurisdicties. Ze beweren dat het gebruik van auteursrechtelijk beschermde werken voor training een ‘transformatief’ gebruik vormt – de AI-modellen reproduceren niet louter de originele werken, maar gebruiken de data om patronen, stijlen en informatie te leren om volledig nieuwe output te genereren. Onder deze interpretatie zou het trainingsproces zelf, gericht op het creëren van een krachtig nieuw hulpmiddel, toelaatbaar moeten zijn zonder licenties te vereisen voor elk opgenomen stuk data.

Rechthebbenden betwisten deze visie echter heftig. Ze stellen dat de enorme schaal van het kopiëren, de commerciële aard van de AI-producten die worden gebouwd, en het potentieel voor AI-outputs om direct te concurreren met en de originele werken te vervangen, zwaar wegen tegen een bevinding van fair use. De stelling is dat AI-bedrijven miljardenbedrijven bouwen op de rug van creatief werk zonder de makers te compenseren.

Tegen deze juridische achtergrond heeft OpenAI proactief geprobeerd enkele risico’s te beperken door licentiedeals te sluiten met verschillende contentproviders. Overeenkomsten zijn aangekondigd met grote nieuws uitgevers (zoals de Associated Press en Axel Springer), sociale mediaplatforms (zoals Reddit), en stockmediabibliotheken (zoals Shutterstock). Deze deals bieden OpenAI legitieme toegang tot specifieke datasets in ruil voor betaling, waardoor de afhankelijkheid van potentieel inbreukmakende web-gescrapete data mogelijk wordt verminderd. Het bedrijf heeft naar verluidt ook journalisten ingehuurd, met de taak om te helpen bij het verfijnen en verbeteren van de kwaliteit en betrouwbaarheid van de output van zijn modellen, wat wijst op een bewustzijn van de behoefte aan hoogwaardige, mogelijk gecureerde, input.

Het Rimpel Effect: Zorgen over het Content Ecosysteem

Het rapport van het AI Disclosures Project breidt zijn zorgen uit buiten de directe juridische implicaties voor OpenAI. Het kadert de kwestie als een systemische dreiging die de gezondheid en diversiteit van het gehele digitale content ecosysteem negatief zou kunnen beïnvloeden. De studie poneert een potentieel schadelijke feedbackloop: als AI-bedrijven vrijelijk hoogwaardige, professioneel gecreëerde inhoud (inclusief betaald materiaal) kunnen gebruiken zonder de makers te compenseren, erodeert dit de financiële levensvatbaarheid van het produceren van dergelijke inhoud in de eerste plaats.

Professionele contentcreatie – of het nu gaat om onderzoeksjournalistiek, diepgaande technische handleidingen, fictie schrijven of academisch onderzoek – vereist vaak aanzienlijke tijd, expertise en financiële investeringen. Betaalmuren en abonnementsmodellen zijn vaak essentiële mechanismen om dit werk te financieren. Als de inkomstenstromen die deze inspanningen ondersteunen, verminderen omdat de inhoud effectief wordt gebruikt om concurrerende AI-systemen te trainen zonder vergoeding, zou de prikkel om hoogwaardige, diverse inhoud te creëren kunnen afnemen. Dit zou kunnen leiden tot een minder geïnformeerd publiek, een vermindering van gespecialiseerde kennisbronnen, en mogelijk een internet gedomineerd door inhoud van lagere kwaliteit of door AI gegenereerde inhoud die menselijke expertise en verificatie mist.

Bijgevolg pleit het AI Disclosures Project sterk voor grotere transparantie en verantwoordingsplicht van AI-bedrijven met betrekking tot hun trainingsdatapraktijken. Ze roepen op tot de implementatie van robuuste beleidsmaatregelen en mogelijk regelgevende kaders die ervoor zorgen dat contentmakers eerlijk worden gecompenseerd wanneer hun werk bijdraagt aan de ontwikkeling van commerciële AI-modellen. Dit weerspiegelt bredere oproepen van makersgroepen wereldwijd die mechanismen zoeken – of het nu via licentieovereenkomsten, royalty-systemen of collectieve onderhandelingen is – om ervoor te zorgen dat ze een deel ontvangen van de waarde die wordt gegenereerd door AI-systemen die zijn getraind op hun intellectuele eigendom. Het debat spitst zich toe op het vinden van een duurzaam evenwicht waar AI-innovatie kan floreren naast een bloeiend ecosysteem voor menselijke creativiteit en kennisgeneratie. De oplossing van lopende juridische gevechten en het potentieel voor nieuwe wetgeving of industriestandaarden zullen cruciaal zijn bij het vormgeven van dit toekomstige evenwicht. De vraag hoe de herkomst van data te traceren en waarde toe te kennen in massale, complexe AI-modellen blijft een significante technische en ethische horde.