GPT-4o di OpenAI: Nuove Accuse su Dati Paywall

L’inarrestabile avanzata dello sviluppo dell’intelligenza artificiale, guidata da giganti come OpenAI, si scontra frequentemente con principi consolidati di proprietà intellettuale e titolarità dei dati. Questa collisione ha nuovamente acceso controversie, con nuove accuse emergenti secondo cui il modello di punta più recente di OpenAI, GPT-4o, potrebbe essere stato addestrato utilizzando materiali protetti da copyright sequestrati dietro paywall, potenzialmente senza ottenere le necessarie autorizzazioni. Queste affermazioni provengono da un gruppo di sorveglianza di recente costituzione, l’AI Disclosures Project, aggiungendo un ulteriore livello di complessità al dibattito già intricato sull’approvvigionamento etico dei dati per l’addestramento di sofisticati sistemi di IA.

Il ‘latrato’ del cane da guardia: Le accuse dell’AI Disclosures Project

Lanciato nel 2024, l’AI Disclosures Project si posiziona come un’entità no-profit dedicata a scrutare le pratiche spesso opache all’interno dell’industria dell’IA. Tra i suoi fondatori figurano personalità di spicco come l’imprenditore dei media Tim O’Reilly, fondatore di O’Reilly Media, un importante editore di libri tecnici, e l’economista Ilan Strauss. Questo legame con O’Reilly Media è particolarmente rilevante, poiché il rapporto bomba iniziale del progetto si concentra specificamente sulla presunta presenza di contenuti librari protetti da paywall di O’Reilly all’interno del set di dati di addestramento di GPT-4o.

L’affermazione centrale del loro studio è provocatoria: nonostante l’assenza di qualsiasi accordo di licenza noto tra OpenAI e O’Reilly Media, il modello GPT-4o mostra un livello marcatamente elevato di familiarità con contenuti derivati direttamente dai libri protetti da copyright di O’Reilly. Questa familiarità, sostiene il rapporto, suggerisce fortemente che questi materiali protetti da paywall siano stati incorporati nel vasto corpus di dati utilizzato per costruire le capacità del modello. Lo studio evidenzia una differenza significativa rispetto ai modelli OpenAI più vecchi, in particolare GPT-3.5 Turbo, implicando un potenziale cambiamento o espansione nelle pratiche di acquisizione dei dati che hanno portato allo sviluppo di GPT-4o.

Le implicazioni sono sostanziali. Se contenuti proprietari, a pagamento, vengono ingeriti dai modelli di IA senza autorizzazione o compenso, ciò solleva questioni fondamentali sulla legge sul copyright nell’era dell’IA generativa. Editori e autori si affidano a modelli di abbonamento o acquisto, basati sull’esclusività dei loro contenuti. Il presunto uso di questo materiale per l’addestramento potrebbe essere visto come un indebolimento di questi modelli di business, svalutando potenzialmente proprio il contenuto che richiede investimenti significativi per essere creato. Questa specifica accusa va oltre lo scraping di siti web disponibili pubblicamente, avventurandosi nel territorio dell’accesso a contenuti esplicitamente destinati a clienti paganti.

Sbirciare nella scatola nera: L’attacco di inferenza di appartenenza

Per suffragare le loro affermazioni, i ricercatori dell’AI Disclosures Project hanno impiegato una tecnica sofisticata nota come ‘membership inference attack’ (attacco di inferenza di appartenenza), utilizzando specificamente un metodo che chiamano DE-COP. L’idea centrale alla base di questo approccio è testare se un modello di IA ha ‘memorizzato’ o almeno sviluppato una forte familiarità con specifici brani di testo. In sostanza, l’attacco sonda il modello per vedere se può distinguere in modo affidabile tra passaggi di testo originali (in questo caso, dai libri O’Reilly) e versioni parafrasate accuratamente costruite di quegli stessi passaggi, generate da un’altra IA.

La logica sottostante è che se un modello mostra costantemente una capacità superiore alla casualità nell’identificare il testo originale scritto dall’uomo rispetto a una parafrasi molto simile, ciò implica che il modello ha incontrato quel testo originale prima – probabilmente durante la sua fase di addestramento. È simile a testare se qualcuno riconosce una specifica fotografia poco conosciuta che afferma di non aver mai visto; un riconoscimento costante suggerisce un’esposizione precedente.

La scala del test dell’AI Disclosures Project è stata considerevole. Hanno utilizzato 13.962 distinti estratti di paragrafo tratti da 34 diversi libri di O’Reilly Media. Questi estratti rappresentavano il tipo di contenuto specializzato e di alto valore tipicamente trovato dietro il paywall dell’editore. Lo studio ha quindi misurato le prestazioni sia di GPT-4o che del suo predecessore, GPT-3.5 Turbo, su questo compito di differenziazione.

I risultati, come presentati nel rapporto, sono stati sorprendenti. GPT-4o ha dimostrato una capacità significativamente accresciuta di riconoscere il contenuto O’Reilly protetto da paywall. Le sue prestazioni sono state quantificate utilizzando un punteggio AUROC (Area Under the Receiver Operating Characteristic curve), una metrica comune per valutare le prestazioni dei classificatori binari. GPT-4o ha raggiunto un punteggio AUROC dell’82%. Al contrario, GPT-3.5 Turbo ha ottenuto un punteggio appena superiore al 50%, che è essenzialmente equivalente a un’ipotesi casuale – indicando poca o nessuna specifica ricognizione del materiale testato. Questa netta differenza, sostiene il rapporto, fornisce prove convincenti, sebbene indirette, che il contenuto protetto da paywall facesse effettivamente parte della dieta di addestramento di GPT-4o. Un punteggio dell’82% suggerisce un segnale forte, ben oltre ciò che ci si aspetterebbe per caso o conoscenza generalizzata.

Avvertenze necessarie e domande senza risposta

Sebbene i risultati presentino una narrazione convincente, i coautori dello studio, tra cui il ricercatore di IA Sruly Rosenblat, riconoscono lodevolmente le potenziali limitazioni inerenti alla loro metodologia e alla natura complessa dell’addestramento dell’IA. Una significativa avvertenza che sollevano è la possibilità di ingestione indiretta dei dati. È concepibile, notano, che gli utenti di ChatGPT (la popolare interfaccia di OpenAI) possano aver copiato e incollato estratti dai libri O’Reilly protetti da paywall direttamente nell’interfaccia di chat per vari scopi, come porre domande sul testo o richiedere riassunti. Se ciò fosse avvenuto abbastanza frequentemente, il modello avrebbe potuto apprendere il contenuto indirettamente attraverso le interazioni degli utenti, piuttosto che attraverso l’inclusione diretta nel set di dati di addestramento iniziale. Districare l’esposizione diretta all’addestramento dall’apprendimento indiretto tramite i prompt degli utenti rimane una sfida significativa nella forense dell’IA.

Inoltre, l’ambito dello studio non si è esteso alle iterazioni di modelli più recenti o specializzate di OpenAI che potrebbero essere state sviluppate o rilasciate contemporaneamente o successivamente al ciclo di addestramento principale di GPT-4o. Modelli potenzialmente includenti GPT-4.5 (se esiste sotto quella specifica nomenclatura o livello di capacità) e modelli focalizzati sul ragionamento come o3-mini e o1 non sono stati sottoposti agli stessi attacchi di inferenza di appartenenza. Ciò lascia aperta la questione se le pratiche di approvvigionamento dei dati possano essersi ulteriormente evolute, o se questi modelli più recenti mostrino simili pattern di familiarità con contenuti protetti da paywall. I rapidi cicli di iterazione nello sviluppo dell’IA significano che qualsiasi analisi istantanea rischia di essere leggermente obsoleta quasi immediatamente.

Queste limitazioni non invalidano necessariamente i risultati principali dello studio, ma aggiungono cruciali strati di sfumatura. Dimostrare definitivamente cosa risiede all’interno dei terabyte di dati utilizzati per addestrare un modello fondazionale è notoriamente difficile. Gli attacchi di inferenza di appartenenza offrono prove probabilistiche, suggerendo una probabilità piuttosto che offrire una certezza assoluta. OpenAI, come altri laboratori di IA, custodisce gelosamente la composizione dei suoi dati di addestramento, citando preoccupazioni proprietarie e sensibilità competitive.

Le accuse mosse dall’AI Disclosures Project non esistono in un vuoto. Rappresentano l’ultima schermaglia in un conflitto molto più ampio e in corso tra sviluppatori di IA e creatori sull’uso di materiale protetto da copyright per scopi di addestramento. OpenAI, insieme ad altri attori di spicco come Google, Meta e Microsoft, si trova coinvolta in molteplici cause legali di alto profilo. Queste sfide legali, promosse da autori, artisti, organizzazioni giornalistiche e altri detentori di diritti, generalmente denunciano una diffusa violazione del copyright derivante dallo scraping e dall’ingestione non autorizzati di vaste quantità di testo e immagini da Internet per addestrare modelli di IA generativa.

La difesa principale spesso avanzata dalle aziende di IA si basa sulla dottrina del fair use (negli Stati Uniti) o eccezioni simili in altre giurisdizioni. Sostengono che l’utilizzo di opere protette da copyright per l’addestramento costituisca un uso ‘trasformativo’: i modelli di IA non stanno semplicemente riproducendo le opere originali, ma stanno utilizzando i dati per apprendere pattern, stili e informazioni per generare output completamente nuovi. Secondo questa interpretazione, il processo di addestramento stesso, mirato a creare un nuovo potente strumento, dovrebbe essere consentito senza richiedere licenze per ogni pezzo di dato ingerito.

Tuttavia, i detentori dei diritti contestano veementemente questa visione. Sostengono che la vastità della copia coinvolta, la natura commerciale dei prodotti di IA in costruzione e il potenziale degli output dell’IA di competere direttamente con le opere originali e soppiantarle pesano fortemente contro una constatazione di fair use. L’argomentazione è che le aziende di IA stanno costruendo imprese multimiliardarie sulle spalle del lavoro creativo senza compensare i creatori.

In questo contesto litigioso, OpenAI ha cercato proattivamente di mitigare alcuni rischi stringendo accordi di licenza con vari fornitori di contenuti. Sono stati annunciati accordi con importanti editori di notizie (come Associated Press e Axel Springer), piattaforme di social media (come Reddit) e librerie di media stock (come Shutterstock). Questi accordi forniscono a OpenAI un accesso legittimo a specifici set di dati in cambio di pagamento, riducendo potenzialmente la sua dipendenza da dati web-scraped potenzialmente illeciti. L’azienda avrebbe anche assunto giornalisti, incaricandoli di aiutare a raffinare e migliorare la qualità e l’affidabilità degli output dei suoi modelli, suggerendo una consapevolezza della necessità di input di alta qualità, potenzialmente curati.

L’effetto a catena: Preoccupazioni per l’ecosistema dei contenuti

Il rapporto dell’AI Disclosures Project estende le sue preoccupazioni oltre le immediate implicazioni legali per OpenAI. Inquadra la questione come una minaccia sistemica che potrebbe avere un impatto negativo sulla salute e sulla diversità dell’intero ecosistema dei contenuti digitali. Lo studio ipotizza un ciclo di feedback potenzialmente dannoso: se le aziende di IA possono utilizzare liberamente contenuti di alta qualità, creati professionalmente (inclusi materiali protetti da paywall) senza compensare i creatori, ciò erode la sostenibilità finanziaria della produzione di tali contenuti in primo luogo.

La creazione di contenuti professionali – che si tratti di giornalismo investigativo, manuali tecnici approfonditi, scrittura di narrativa o ricerca accademica – richiede spesso tempo, competenze e investimenti finanziari significativi. I paywall e i modelli di abbonamento sono spesso meccanismi essenziali per finanziare questo lavoro. Se i flussi di entrate che supportano questi sforzi vengono diminuiti perché il contenuto viene effettivamente utilizzato per addestrare sistemi di IA concorrenti senza remunerazione, l’incentivo a creare contenuti diversificati e di alta qualità potrebbe diminuire. Ciò potrebbe portare a un pubblico meno informato, a una riduzione delle risorse di conoscenza specializzata e potenzialmente a un Internet dominato da contenuti di qualità inferiore o generati dall’IA privi di competenza e verifica umana.

Di conseguenza, l’AI Disclosures Project sostiene con forza la maggiore trasparenza e responsabilità da parte delle aziende di IA riguardo alle loro pratiche sui dati di addestramento. Chiedono l’implementazione di politiche robuste e potenzialmente quadri normativi che garantiscano che i creatori di contenuti siano equamente compensati quando il loro lavoro contribuisce allo sviluppo di modelli di IA commerciali. Ciò riecheggia appelli più ampi da parte di gruppi di creatori in tutto il mondo che cercano meccanismi – sia attraverso accordi di licenza, sistemi di royalty o contrattazione collettiva – per garantire di ricevere una quota del valore generato dai sistemi di IA addestrati sulla loro proprietà intellettuale. Il dibattito si concentra sulla ricerca di un equilibrio sostenibile in cui l’innovazione dell’IA possa prosperare accanto a un ecosistema fiorente per la creatività umana e la generazione di conoscenza. La risoluzione delle battaglie legali in corso e il potenziale per nuova legislazione o standard di settore saranno fondamentali nel plasmare questo equilibrio futuro. La questione di come tracciare la provenienza dei dati e attribuire valore in modelli di IA massicci e complessi rimane un significativo ostacolo tecnico ed etico.