Codice GPAI: Modifiche al Copyright

Background

L’European AI Act (Regolamento (UE) 2024/1689, o ‘AI Act’) impone obblighi specifici ai fornitori di modelli di intelligenza artificiale generici (‘GPAI’). Questi modelli, inclusi quelli della famiglia GPT, Llama e Gemini, devono rispettare requisiti quali una documentazione completa e l’istituzione di una politica che garantisca la conformità alla legge sul diritto d’autore dell’UE.

Per facilitare l’adesione a queste disposizioni, l’AI Act prevede lo sviluppo di Codici di Condotta su misura per i modelli GPAI. A seguito di un invito dell’AI Office, vari esperti e stakeholder hanno formato quattro gruppi di lavoro dedicati alla stesura di un Codice di Condotta iniziale. L’approvazione di questo Codice da parte della Commissione UE gli conferirebbe ‘validità generale’ in tutta l’UE. L’adozione del Codice di Condotta GPAI approvato offre alle aziende un mezzo per dimostrare la conformità proattiva, mitigando potenzialmente il controllo normativo e le relative sanzioni.

L’AI Office ha recentemente pubblicato la terza bozza del Codice di Condotta (‘3rd Draft’) prodotta da questi gruppi di lavoro. Questa bozza comprende diverse aree chiave:

  • Impegni
  • Trasparenza
  • Diritto d’autore
  • Sicurezza

La versione finale di questo Codice di Condotta è prevista per il 2 maggio 2025.

Questo documento approfondirà i dettagli significativi all’interno della sezione sul diritto d’autore della 3rd Draft. Un cambiamento notevole rispetto alla seconda bozza (‘2nd Draft’) è l’approccio semplificato e conciso della 3rd Draft. Un cambiamento chiave è che la 3rd Draft generalmente impone che gli sforzi di conformità siano commisurati alle dimensioni e alle capacità del fornitore, a differenza della 2nd Draft.

Per chi è rilevante?

Il Codice di Condotta si rivolge principalmente ai fornitori di modelli GPAI. Questi modelli sono caratterizzati dalla loro significativa generalità e dalla loro capacità di eseguire con competenza un ampio spettro di compiti distinti. Ciò include i fornitori di noti modelli linguistici di grandi dimensioni come GPT (OpenAI), Llama (Meta), Gemini (Google) e Mistral (Mistral AI). Tuttavia, anche i fornitori di modelli più piccoli possono rientrare nel suo ambito, a condizione che i loro modelli possano essere utilizzati per una vasta gamma di compiti. Inoltre, anche le aziende che perfezionano i modelli per le loro applicazioni specifiche potrebbero essere classificate come fornitori di modelli GPAI.

Anche i ‘fornitori a valle’, o le aziende che integrano modelli GPAI nei loro sistemi di intelligenza artificiale, dovrebbero familiarizzare con il Codice di Condotta. Questo Codice è destinato a diventare un quasi-standard per i modelli GPAI, definendo le aspettative per gli sviluppatori di sistemi di intelligenza artificiale per quanto riguarda le capacità dei modelli GPAI. Questa comprensione può essere cruciale durante le trattative contrattuali con i fornitori di modelli GPAI.

Concetti chiave del Codice di Condotta sul diritto d’autore

I fornitori di modelli GPAI sono obbligati a stabilire una politica che garantisca la conformità alla legge sul diritto d’autore dell’UE (Art. 53 (1) (c) AI Act). Data la novità di questo requisito, sono mancate indicazioni pratiche sulla struttura e sul contenuto di tale politica. Il Codice di Condotta mira a colmare questa lacuna.

Il Codice di Condotta impone ai fornitori di attuare le seguenti misure:

Politica sul diritto d’autore

I fornitori che firmano il Codice di Condotta (‘Firmatari’) sono tenuti a formulare, mantenere e attuare una politica sul diritto d’autore che sia in linea con la legge sul diritto d’autore dell’UE. Questo requisito deriva direttamente dall’AI Act. I Firmatari devono inoltre garantire che le loro organizzazioni aderiscano a questa politica sul diritto d’autore.

Una differenza significativa rispetto alla 2nd Draft è che la 3rd Draft non impone più la pubblicazione della politica sul diritto d’autore. I Firmatari sono semplicemente incoraggiati a farlo. Questo requisito ridotto è logico, poiché l’AI Act stesso non obbliga i fornitori di modelli a pubblicare le loro politiche sul diritto d’autore.

Web Crawling di contenuti protetti da diritto d’autore

I Firmatari sono generalmente autorizzati a utilizzare web crawler per scopi di text and data mining (‘TDM’) per raccogliere dati di addestramento per i loro modelli GPAI. Tuttavia, devono garantire che questi crawler rispettino le tecnologie progettate per limitare l’accesso a materiali protetti da diritto d’autore, come i paywall.

Inoltre, i Firmatari sono obbligati a escludere i ‘domini di pirateria’, che sono fonti online che si occupano principalmente della distribuzione di materiali che violano il diritto d’autore.

Web Crawling e identificazione e rispetto degli opt-out TDM

I Firmatari devono garantire che i web crawler identifichino e rispettino gli opt-out TDM dichiarati dai titolari dei diritti. Mentre la legge sul diritto d’autore dell’UE generalmente consente il TDM, i titolari dei diritti conservano il diritto di opt-out. Per i contenuti web, questo opt-out deve essere leggibile da una macchina. La 3rd Draft elabora i requisiti per i web crawler, specificando che devono identificare e rispettare il protocollo robots.txt ampiamente adottato. Inoltre, i web crawler devono aderire ad altri opt-out TDM leggibili da una macchina pertinenti, come i metadati stabiliti come standard di settore o le soluzioni comunemente utilizzate dai titolari dei diritti.

I Firmatari sono tenuti a prendere misure ragionevoli per informare i titolari dei diritti sui web crawler in uso e su come questi crawler gestiscono le direttive robots.txt. Queste informazioni possono essere diffuse attraverso vari canali, come un feed web. In particolare, la 3rd Draft non include più l’obbligo di pubblicare queste informazioni.

Identificazione e rispetto di un opt-out TDM per contenuti non sottoposti a web crawling

I fornitori di modelli GPAI possono anche acquisire set di dati da terze parti piuttosto che condurre essi stessi il web crawling. Mentre la 2nd Draft imponeva una due diligence sul diritto d’autore dei set di dati di terze parti, la 3rd Draft richiede sforzi ragionevoli per ottenere informazioni sul fatto che i web crawler utilizzati per raccogliere le informazioni rispettassero i protocolli robots.txt.

Mitigare il rischio per prevenire la produzione di output che violano il diritto d’autore

Un rischio significativo associato all’utilizzo dell’intelligenza artificiale è la potenziale generazione di output che violano i diritti d’autore. Ciò potrebbe comportare la duplicazione di codice o immagini trovate online che sono protette da diritto d’autore.

I Firmatari sono tenuti a compiere sforzi ragionevoli per mitigare questo rischio. Ciò rappresenta un approccio più indulgente rispetto alla 2nd Draft, che prescriveva misure per evitare l’’overfitting’. La 3rd Draft adotta una posizione più neutrale dal punto di vista tecnologico, enfatizzando gli sforzi ragionevoli.

Inoltre, i Firmatari devono incorporare una clausola nei loro termini e condizioni (o documenti simili) per i fornitori di sistemi di intelligenza artificiale a valle, vietando l’uso del loro modello GPAI in un modo che violi il diritto d’autore.

Designazione di un punto di contatto

I Firmatari sono tenuti a fornire un punto di contatto per i titolari dei diritti. Devono inoltre stabilire un meccanismo che consenta ai titolari dei diritti di presentare reclami relativi a violazioni del diritto d’autore.

Secondo la 3rd Draft, i Firmatari hanno la facoltà di rifiutare di elaborare reclami ritenuti infondati o eccessivi.

Approfondimento: un esame più granulare delle disposizioni sul diritto d’autore

La 3rd Draft, sebbene apparentemente semplificata, introduce sfumature e cambiamenti di enfasi che meritano un’analisi più approfondita. Analizziamo ogni sezione in dettaglio:

Politica sul diritto d’autore: il passaggio dalla pubblicazione all’incoraggiamento

Il mandato iniziale di pubblicare la politica sul diritto d’autore, presente nella 2nd Draft, sollevava preoccupazioni circa potenziali svantaggi competitivi e l’esposizione di informazioni sensibili. Il passaggio della 3rd Draft a incoraggiare la pubblicazione, piuttosto che richiederla, riconosce queste preoccupazioni. Questo cambiamento consente ai fornitori di mantenere un certo grado di riservatezza riguardo alle loro strategie di conformità interne, promuovendo al contempo la trasparenza. Tuttavia, l’aspetto dell’’incoraggiamento’ pone ancora una sottile pressione sui fornitori affinché siano aperti sulle loro politiche, portando potenzialmente a uno standard di pubblicazione de facto nel tempo.

Web Crawling: bilanciare l’acquisizione dei dati con il rispetto del diritto d’autore

L’esplicita autorizzazione al web crawling, unita al requisito di rispettare le restrizioni di accesso come i paywall, riflette un delicato equilibrio. L’AI Act riconosce l’importanza dei dati per l’addestramento dei modelli di intelligenza artificiale, ma sottolinea anche la necessità di rispettare i diritti dei creatori di contenuti. L’esclusione dei ‘domini di pirateria’ è un’aggiunta cruciale, che prende di mira esplicitamente le fonti che si impegnano attivamente nella violazione del diritto d’autore. Questa disposizione rafforza il principio secondo cui lo sviluppo dell’intelligenza artificiale non dovrebbe essere costruito sulle fondamenta di attività illegali.

Opt-out TDM: la specificità tecnica della conformità

L’enfasi della 3rd Draft sul protocollo robots.txt e su altri meccanismi di opt-out leggibili da una macchina evidenzia gli aspetti tecnici della conformità. Questa specificità fornisce chiarezza sia ai fornitori di GPAI che ai titolari dei diritti. Per i fornitori, delinea i passi concreti che devono compiere per garantire che i loro crawler rispettino le richieste di opt-out. Per i titolari dei diritti, chiarisce come possono segnalare efficacemente le loro preferenze in merito al TDM. L’inclusione di metadati ‘standard di settore’ e soluzioni ‘ampiamente adottate’ riconosce che il panorama dei meccanismi di opt-out è in evoluzione e che la flessibilità è necessaria.

Contenuti non sottoposti a web crawling: spostamento della responsabilità e due diligence

Il passaggio dalla ‘due diligence sul diritto d’autore’ a ‘sforzi ragionevoli per ottenere informazioni’ riguardo ai set di dati di terze parti rappresenta un sottile ma significativo spostamento di responsabilità. Mentre la 2nd Draft poneva un onere maggiore sui fornitori di GPAI per indagare attivamente sullo stato del diritto d’autore dei set di dati, la 3rd Draft si concentra sulla verifica del fatto che il processo di raccolta dei dati (da parte di terzi) abbia rispettato robots.txt. Ciò riconosce implicitamente che i fornitori di GPAI potrebbero non avere sempre il controllo diretto sulle pratiche di acquisizione dei dati di terze parti, ma hanno comunque la responsabilità di informarsi sulla conformità.

Mitigare l’output che viola il diritto d’autore: da ‘Overfitting’ a ‘Sforzi ragionevoli’

L’allontanamento dal termine ‘overfitting’ è un cambiamento positivo. ‘Overfitting’, un termine tecnico nell’apprendimento automatico, si riferisce a un modello che si comporta bene sui dati di addestramento ma male sui nuovi dati. Sebbene l’overfitting possa contribuire alla violazione del diritto d’autore (ad esempio, memorizzando e riproducendo materiale protetto da diritto d’autore), non è l’unica causa. L’attenzione più ampia della 3rd Draft su ‘sforzi ragionevoli per mitigare il rischio’ comprende una gamma più ampia di potenziali scenari di violazione e consente una maggiore flessibilità nell’attuazione. Questo cambiamento riconosce anche che la perfetta prevenzione della violazione del diritto d’autore potrebbe essere irraggiungibile e un approccio basato sul rischio è più pratico.

Punto di contatto e meccanismo di reclamo: semplificazione del processo

Il requisito di un punto di contatto designato e di un meccanismo di reclamo fornisce ai titolari dei diritti una chiara via per affrontare potenziali violazioni del diritto d’autore. La possibilità per i Firmatari di rifiutare reclami ‘infondati o eccessivi’ è un’aggiunta pratica, che impedisce al sistema di essere sopraffatto da reclami frivoli. Questa disposizione contribuisce a garantire che il meccanismo di reclamo rimanga uno strumento valido ed efficiente per affrontare le legittime preoccupazioni relative al diritto d’autore.

Implicazioni più ampie e considerazioni future

La 3rd Draft del Codice di Condotta GPAI rappresenta un passo significativo verso l’operatività delle disposizioni sul diritto d’autore dell’AI Act. Fornisce chiarezza e orientamento tanto necessari ai fornitori di GPAI, cercando al contempo di proteggere i diritti dei creatori di contenuti. Tuttavia, rimangono diverse implicazioni più ampie e considerazioni future:

  • Lo standard degli ‘sforzi ragionevoli’: L’uso ripetuto della frase ‘sforzi ragionevoli’ introduce un grado di soggettività. Ciò che costituisce ‘ragionevole’ sarà probabilmente soggetto a interpretazione e potrebbe evolversi nel tempo attraverso sfide legali e migliori pratiche del settore. Questa ambiguità potrebbe portare a incertezza per i fornitori, ma consente anche flessibilità e adattamento a contesti diversi.

  • Il ruolo dei fornitori a valle: Sebbene il Codice si rivolga principalmente ai fornitori di GPAI, i fornitori a valle hanno un interesse acquisito a comprenderne le disposizioni. Il Codice stabilisce le aspettative per la qualità e la conformità dei modelli GPAI, che possono informare le trattative contrattuali e le valutazioni del rischio. I fornitori a valle possono anche affrontare pressioni indirette per garantire che il loro utilizzo dei modelli GPAI sia in linea con i principi del Codice.

  • L’evoluzione della tecnologia: Il rapido ritmo dello sviluppo dell’intelligenza artificiale significa che il Codice di Condotta dovrà essere un documento vivo. Potrebbero emergere nuove tecniche per l’acquisizione dei dati, l’addestramento dei modelli e la generazione di output, che richiedono aggiornamenti alle disposizioni del Codice. Il riferimento a metadati ‘standard di settore’ e soluzioni ‘ampiamente adottate’ riconosce questa necessità di un adattamento continuo.

  • Armonizzazione internazionale: L’EU AI Act è un atto legislativo pionieristico, ma non opera nel vuoto. Altre giurisdizioni stanno anche affrontando le sfide della regolamentazione dell’intelligenza artificiale. L’armonizzazione internazionale delle normative sull’intelligenza artificiale, comprese le disposizioni sul diritto d’autore, sarà fondamentale per evitare la frammentazione e garantire condizioni di parità per gli sviluppatori di intelligenza artificiale.

  • L’impatto sull’innovazione: Il Codice di Condotta mira a trovare un equilibrio tra la promozione dell’innovazione dell’intelligenza artificiale e la protezione del diritto d’autore. Tuttavia, l’impatto di queste normative sul ritmo e sulla direzione dello sviluppo dell’intelligenza artificiale resta da vedere. Alcuni sostengono che normative eccessivamente rigide potrebbero soffocare l’innovazione, mentre altri sostengono che regole chiare sono necessarie per promuovere uno sviluppo responsabile dell’intelligenza artificiale.

  • Applicazione e monitoraggio: Come verrà verificata l’adesione? L’efficacia dei codici dipenderà in gran parte dai meccanismi messi in atto per l’applicazione e il monitoraggio.

La 3rd Draft del Codice di Condotta GPAI è un documento complesso e in evoluzione con implicazioni di vasta portata. Rappresenta uno sforzo significativo per affrontare le sfide della conformità al diritto d’autore nell’era dell’intelligenza artificiale, ma è anche un work in progress. Il dialogo continuo tra le parti interessate, inclusi i fornitori di GPAI, i titolari dei diritti, i responsabili politici e la più ampia comunità dell’intelligenza artificiale, sarà essenziale per garantire che il Codice raggiunga i suoi obiettivi previsti e rimanga pertinente di fronte ai rapidi cambiamenti tecnologici.