GPAI Gedragscode - Derde Concept

Achtergrond

De Europese AI Act (Verordening (EU) 2024/1689, of de ‘AI Act’) legt specifieke verplichtingen op aan aanbieders van General-Purpose AI (‘GPAI’) modellen. Deze modellen, waaronder die van de GPT-familie, Llama en Gemini, moeten voldoen aan vereisten zoals uitgebreide documentatie en het opstellen van een beleid dat naleving van de EU-auteursrechtwetgeving garandeert.

Om de naleving van deze bepalingen te vergemakkelijken, voorziet de AI Act in de ontwikkeling van gedragscodes die zijn toegesneden op GPAI-modellen. Na een uitnodiging van het AI Office vormden verschillende experts en belanghebbenden vier werkgroepen die zich toelegden op het opstellen van een eerste gedragscode. Goedkeuring van deze code door de EU-Commissie zou de code ‘algemene geldigheid’ verlenen in de hele EU. De goedkeuring van de GPAI-gedragscode biedt bedrijven een middel om proactieve naleving aan te tonen, waardoor mogelijk toezichthoudend onderzoek en bijbehorende sancties worden beperkt.

Het AI Office heeft onlangs het derde concept van de gedragscode (‘3e Concept’) vrijgegeven, opgesteld door deze werkgroepen. Dit concept omvat verschillende belangrijke gebieden:

  • Verplichtingen
  • Transparantie
  • Auteursrecht
  • Veiligheid en beveiliging

De definitieve versie van deze gedragscode wordt verwacht op 2 mei 2025.

Dit document gaat dieper in op de belangrijke details in het auteursrechtgedeelte van het 3e Concept. Een opmerkelijke verschuiving ten opzichte van het tweede concept (‘2e Concept’) is de gestroomlijnde en beknopte aanpak van het 3e Concept. Een belangrijke wijziging is dat het 3e Concept in het algemeen voorschrijft dat de nalevingsinspanningen in verhouding moeten staan tot de omvang en mogelijkheden van de aanbieder, in tegenstelling tot het 2e Concept.

Voor wie is dit relevant?

De gedragscode is primair gericht op aanbieders van GPAI-modellen. Deze modellen worden gekenmerkt door hun aanzienlijke algemeenheid en hun vermogen om bekwaam een breed spectrum van verschillende taken uit te voeren. Dit omvat aanbieders van bekende grote taalmodellen zoals GPT (OpenAI), Llama (Meta), Gemini (Google) en Mistral (Mistral AI). Kleinere modelaanbieders kunnen echter ook onder het toepassingsgebied vallen, mits hun modellen voor een breed scala aan taken kunnen worden gebruikt. Bovendien kunnen bedrijven die modellen verfijnen voor hun specifieke toepassingen, ook worden geclassificeerd als aanbieders van GPAI-modellen.

‘Downstream providers’, of bedrijven die GPAI-modellen integreren in hun AI-systemen, moeten zich ook vertrouwd maken met de gedragscode. Deze code zal naar verwachting een quasi-standaard worden voor GPAI-modellen, die de verwachtingen definieert voor ontwikkelaars van AI-systemen met betrekking tot de mogelijkheden van GPAI-modellen. Dit begrip kan cruciaal zijn tijdens contractonderhandelingen met aanbieders van GPAI-modellen.

Kernbegrippen van de gedragscode inzake auteursrecht

Aanbieders van GPAI-modellen zijn verplicht een beleid op te stellen dat naleving van de EU-auteursrechtwetgeving garandeert (art. 53, lid 1, onder c), AI Act). Gezien de nieuwheid van deze vereiste, ontbrak het tot nu toe aan praktische richtlijnen over de structuur en inhoud van een dergelijk beleid. De gedragscode beoogt deze leemte op te vullen.

De gedragscode schrijft voor dat aanbieders de volgende maatregelen implementeren:

Auteursrechtbeleid

Aanbieders die de gedragscode ondertekenen (‘ondertekenaars’) zijn verplicht een auteursrechtbeleid te formuleren, te onderhouden en te implementeren dat in overeenstemming is met de EU-auteursrechtwetgeving. Deze vereiste is rechtstreeks afgeleid van de AI Act. Ondertekenaars moeten er ook voor zorgen dat hun organisaties zich aan dit auteursrechtbeleid houden.

Een belangrijk verschil met het 2e Concept is dat het 3e Concept niet langer de publicatie van het auteursrechtbeleid verplicht stelt. Ondertekenaars worden slechts aangemoedigd om dit te doen. Deze verminderde vereiste is logisch, aangezien de AI Act zelf modelaanbieders niet verplicht hun auteursrechtbeleid te publiceren.

Webcrawling van auteursrechtelijk beschermde inhoud

Ondertekenaars mogen in het algemeen webcrawlers gebruiken voor tekst- en datamining (‘TDM’) doeleinden om trainingsgegevens voor hun GPAI-modellen te verzamelen. Ze moeten er echter voor zorgen dat deze crawlers technologieën respecteren die zijn ontworpen om de toegang tot auteursrechtelijk beschermd materiaal te beperken, zoals betaalmuren.

Bovendien zijn ondertekenaars verplicht om ‘piraterijdomeinen’ uit te sluiten, dit zijn online bronnen die zich voornamelijk bezighouden met de distributie van auteursrechtinbreukmakend materiaal.

Webcrawling en het identificeren en naleven van TDM-opt-outs

Ondertekenaars moeten ervoor zorgen dat webcrawlers TDM-opt-outs die door rechthebbenden zijn aangegeven, identificeren en respecteren. Hoewel de EU-auteursrechtwetgeving TDM in het algemeen toestaat, behouden rechthebbenden het recht om zich af te melden. Voor webcontent moet deze opt-out machineleesbaar zijn. Het 3e Concept gaat dieper in op de vereisten voor webcrawlers en specificeert dat ze het algemeen aanvaarde robots.txt-protocol moeten identificeren en naleven. Bovendien moeten webcrawlers zich houden aan andere relevante machineleesbare TDM-opt-outs, zoals metadata die als industriestandaard zijn vastgesteld of oplossingen die algemeen worden gebruikt door rechthebbenden.

Ondertekenaars zijn verplicht redelijke stappen te ondernemen om rechthebbenden te informeren over de gebruikte webcrawlers en hoe deze crawlers omgaan met robots.txt-richtlijnen. Deze informatie kan via verschillende kanalen worden verspreid, zoals een webfeed. Opmerkelijk is dat het 3e Concept niet langer een verplichting bevat om deze informatie te publiceren.

Het identificeren en naleven van een TDM-opt-out voor niet-webgecrawlde inhoud

Aanbieders van GPAI-modellen kunnen ook datasets van derden verwerven in plaats van zelf webcrawling uit te voeren. Terwijl het 2e Concept een auteursrechtelijke due diligence van datasets van derden verplicht stelde, vereist het 3e Concept redelijke inspanningen om informatie te verkrijgen over de vraag of webcrawlers die zijn gebruikt om de informatie te verzamelen, voldeden aan de robots.txt-protocollen.

Risico’s beperken om de productie van auteursrechtinbreukmakende output te voorkomen

Een aanzienlijk risico verbonden aan het gebruik van AI is de mogelijkheid dat de AI output genereert die inbreuk maakt op auteursrechten. Dit kan het dupliceren van code of afbeeldingen omvatten die online zijn gevonden en die auteursrechtelijk zijn beschermd.

Ondertekenaars zijn verplicht redelijke inspanningen te leveren om dit risico te beperken. Dit vertegenwoordigt een mildere aanpak in vergelijking met het 2e Concept, dat maatregelen voorschreef om ‘overfitting’ te voorkomen. Het 3e Concept hanteert een meer technologie-neutrale houding, waarbij de nadruk ligt op redelijke inspanningen.

Bovendien moeten ondertekenaars een clausule opnemen in hun algemene voorwaarden (of soortgelijke documenten) voor aanbieders van downstream AI-systemen, die het gebruik van hun GPAI-model verbiedt op een manier die inbreuk maakt op het auteursrecht.

Een contactpunt aanwijzen

Ondertekenaars zijn verplicht een contactpunt voor rechthebbenden te bieden. Ze moeten ook een mechanisme opzetten waarmee rechthebbenden klachten kunnen indienen over auteursrechtinbreuken.

Volgens het 3e Concept hebben ondertekenaars de mogelijkheid om te weigeren klachten te behandelen die als ongegrond of buitensporig worden beschouwd.

Dieper graven: een meer gedetailleerd onderzoek van de auteursrechtelijke bepalingen

Het 3e Concept, hoewel ogenschijnlijk gestroomlijnd, introduceert nuances en verschuivingen in de nadruk die een nadere beschouwing rechtvaardigen. Laten we elke sectie verder ontleden:

Auteursrechtbeleid: de verschuiving van publicatie naar aanmoediging

Het oorspronkelijke mandaat om het auteursrechtbeleid te publiceren, aanwezig in het 2e Concept, leidde tot bezorgdheid over mogelijke concurrentienadelen en de blootstelling van gevoelige informatie. De verschuiving van het 3e Concept naar het aanmoedigen van publicatie, in plaats van het te eisen, erkent deze zorgen. Deze wijziging stelt aanbieders in staat een zekere mate van vertrouwelijkheid te behouden met betrekking tot hun interne nalevingsstrategieën, terwijl ze toch transparantie bevorderen. Het aspect ‘aanmoediging’ legt echter nog steeds een subtiele druk op aanbieders om open te zijn over hun beleid, wat in de loop van de tijd mogelijk kan leiden tot een de facto standaard van publicatie.

Webcrawling: het balanceren van data-acquisitie met respect voor auteursrechten

De expliciete toestemming voor webcrawling, in combinatie met de vereiste om toegangsbeperkingen zoals betaalmuren te respecteren, weerspiegelt een delicate evenwichtsoefening. De AI Act erkent het belang van data voor het trainen van AI-modellen, maar onderstreept ook de noodzaak om de rechten van makers van inhoud te respecteren. De uitsluiting van ‘piraterijdomeinen’ is een cruciale toevoeging, die expliciet gericht is op bronnen die actief betrokken zijn bij auteursrechtinbreuk. Deze bepaling versterkt het principe dat AI-ontwikkeling niet mag worden gebouwd op de basis van illegale activiteiten.

TDM-opt-outs: de technische specificiteit van naleving

De nadruk van het 3e Concept op het robots.txt-protocol en andere machineleesbare opt-outmechanismen benadrukt de technische aspecten van naleving. Deze specificiteit biedt duidelijkheid voor zowel GPAI-aanbieders als rechthebbenden. Voor aanbieders schetst het concrete stappen die ze moeten nemen om ervoor te zorgen dat hun crawlers opt-outverzoeken respecteren. Voor rechthebbenden verduidelijkt het hoe ze effectief hun voorkeuren met betrekking tot TDM kunnen aangeven. De opname van ‘industriestandaard’ metadata en ‘algemeen aanvaarde’ oplossingen erkent dat het landschap van opt-outmechanismen evolueert en dat flexibiliteit noodzakelijk is.

Niet-webgecrawlde inhoud: verschuivende verantwoordelijkheid en due diligence

De verandering van ‘auteursrechtelijke due diligence’ naar ‘redelijke inspanningen om informatie te verkrijgen’ met betrekking tot datasets van derden vertegenwoordigt een subtiele maar significante verschuiving in verantwoordelijkheid. Terwijl het 2e Concept een zwaardere last legde op GPAI-aanbieders om actief de auteursrechtelijke status van datasets te onderzoeken, richt het 3e Concept zich op het verifiëren of het dataverzamelingsproces (door de derde partij) robots.txt respecteerde. Dit erkent impliciet dat GPAI-aanbieders mogelijk niet altijd directe controle hebben over de data-acquisitiepraktijken van derden, maar ze hebben nog steeds de verantwoordelijkheid om te informeren naar naleving.

Het beperken van inbreukmakende output: van ‘overfitting’ naar ‘redelijke inspanningen’

Het afstappen van de term ‘overfitting’ is een welkome verandering. ‘Overfitting’, een technische term in machine learning, verwijst naar een model dat goed presteert op trainingsgegevens, maar slecht op nieuwe gegevens. Hoewel overfitting kan bijdragen aan auteursrechtinbreuk (bijvoorbeeld door auteursrechtelijk beschermd materiaal te onthouden en te reproduceren), is het niet de enige oorzaak. De bredere focus van het 3e Concept op ‘redelijke inspanningen om risico’s te beperken’ omvat een breder scala aan potentiële inbreukscenario’s en biedt meer flexibiliteit bij de implementatie. Deze wijziging erkent ook dat perfecte preventie van auteursrechtinbreuk mogelijk onhaalbaar is en dat een risicogebaseerde aanpak praktischer is.

Contactpunt en klachtenmechanisme: het stroomlijnen van het proces

De vereiste voor een aangewezen contactpunt en een klachtenmechanisme biedt rechthebbenden een duidelijke weg voor het aanpakken van potentiële auteursrechtinbreuken. De mogelijkheid voor ondertekenaars om ‘ongegronde of buitensporige’ klachten te weigeren, is een praktische toevoeging, die voorkomt dat het systeem wordt overweldigd door frivole claims. Deze bepaling helpt ervoor te zorgen dat het klachtenmechanisme een levensvatbaar en efficiënt instrument blijft voor het aanpakken van legitieme auteursrechtelijke zorgen.

De bredere implicaties en toekomstige overwegingen

Het 3e Concept van de GPAI-gedragscode is een belangrijke stap in de richting van het operationaliseren van de auteursrechtelijke bepalingen van de AI Act. Het biedt broodnodige duidelijkheid en richtlijnen voor GPAI-aanbieders, terwijl het ook probeert de rechten van makers van inhoud te beschermen. Er blijven echter verschillende bredere implicaties en toekomstige overwegingen:

  • De norm van ‘redelijke inspanningen’: Het herhaalde gebruik van de uitdrukking ‘redelijke inspanningen’ introduceert een zekere mate van subjectiviteit. Wat ‘redelijk’ is, zal waarschijnlijk onderhevig zijn aan interpretatie en kan in de loop van de tijd evolueren door middel van juridische uitdagingen en best practices in de sector. Deze ambiguïteit kan leiden tot onzekerheid voor aanbieders, maar het biedt ook flexibiliteit en aanpassing aan verschillende contexten.

  • De rol van downstream providers: Hoewel de code primair gericht is op GPAI-aanbieders, hebben downstream providers er alle belang bij de bepalingen ervan te begrijpen. De code stelt verwachtingen voor de kwaliteit en naleving van GPAI-modellen, die contractonderhandelingen en risicobeoordelingen kunnen informeren. Downstream providers kunnen ook indirecte druk ondervinden om ervoor te zorgen dat hun gebruik van GPAI-modellen in overeenstemming is met de principes van de code.

  • De evolutie van technologie: Het snelle tempo van AI-ontwikkeling betekent dat de gedragscode een levend document zal moeten zijn. Nieuwe technieken voor data-acquisitie, modeltraining en outputgeneratie kunnen ontstaan, waardoor updates van de bepalingen van de code nodig zijn. De verwijzing naar ‘industriestandaard’ metadata en ‘algemeen aanvaarde’ oplossingen erkent deze behoefte aan voortdurende aanpassing.

  • Internationale harmonisatie: De EU AI Act is een baanbrekend stuk wetgeving, maar het opereert niet in een vacuüm. Andere jurisdicties worstelen ook met de uitdagingen van het reguleren van AI. Internationale harmonisatie van AI-regelgeving, inclusief auteursrechtelijke bepalingen, zal cruciaal zijn om fragmentatie te voorkomen en een gelijk speelveld voor AI-ontwikkelaars te waarborgen.

  • De impact op innovatie: De gedragscode beoogt een evenwicht te vinden tussen het bevorderen van AI-innovatie en het beschermen van auteursrechten. De impact van deze regelgeving op het tempo en de richting van AI-ontwikkeling valt echter nog te bezien. Sommigen beweren dat te strenge regelgeving innovatie zou kunnen verstikken, terwijl anderen beweren dat duidelijke regels noodzakelijk zijn om verantwoorde AI-ontwikkeling te bevorderen.

  • Handhaving en monitoring: Hoe zal de naleving worden gecontroleerd? De effectiviteit van de codes zal grotendeels afhangen van de mechanismen die zijn ingesteld voor handhaving en monitoring.

Het 3e Concept van de GPAI-gedragscode is een complex en evoluerend document met verstrekkende gevolgen. Het vertegenwoordigt een aanzienlijke inspanning om de uitdagingen van auteursrechtelijke naleving in het tijdperk van AI aan te pakken, maar het is ook een werk in uitvoering. Voortdurende dialoog tussen belanghebbenden, waaronder GPAI-aanbieders, rechthebbenden, beleidsmakers en de bredere AI-gemeenschap, zal essentieel zijn om ervoor te zorgen dat de code zijn beoogde doelen bereikt en relevant blijft in het licht van snelle technologische veranderingen.