Battaglia sul Copyright AI Generativa: Cohere nel mirino

La disputa legale sullo sviluppo dell’AI si infiamma: un gruppo di importanti testate giornalistiche e media ha avviato una causa per violazione di copyright e marchi contro la startup di AI generativa Cohere. Depositata presso la Corte Distrettuale degli Stati Uniti per il Distretto Meridionale di New York nel febbraio 2025, la causa coinvolge oltre una dozzina di querelanti, tra cui pubblicazioni molto rispettate come Forbes, The Guardian e il Los Angeles Times. Al centro della questione c’è l’utilizzo da parte di Cohere della tecnologia Retrieval-Augmented Generation (RAG), che, secondo i querelanti, implica l’uso non autorizzato del loro materiale protetto da copyright per costruire database e generare output.

La Tecnologia RAG sotto Esame

La Retrieval-Augmented Generation (RAG) è emersa come una potenziale soluzione ad alcune sfide intrinseche associate ai modelli linguistici di grandi dimensioni (LLM). Proposta da Patrick Lewis e dai suoi colleghi nel 2020, RAG mira a mitigare problemi come l’allucinazione (la generazione di informazioni fattualmente scorrette o prive di senso), la conoscenza obsoleta e la mancanza di trasparenza nel ragionamento del modello. È interessante notare che Patrick Lewis stesso è attualmente un ricercatore presso Cohere, continuando il suo lavoro sulla tecnologia RAG. L’adozione di RAG è stata ampia, con importanti player come Microsoft, Google, Amazon e NVIDIA che l’hanno integrata nei loro sistemi di AI.

La causa intentata dagli editori di notizie si concentra su diverse accuse chiave di violazione del copyright contro Cohere. Queste affermazioni evidenziano le complesse questioni legali che circondano l’uso di materiale protetto da copyright nell’addestramento e nel funzionamento dei modelli di AI generativa.

Le accuse dei querelanti contro Cohere possono essere suddivise in quattro categorie principali:

1. Addestramento del Modello AI

Il nucleo dell’argomentazione dei querelanti ruota attorno a come Cohere ha addestrato il suo modello linguistico di grandi dimensioni, noto come "Command Family". Affermano che Cohere si è impegnata in un ampio "scraping" di testo da Internet, inclusi contenuti protetti da copyright dalle pubblicazioni dei querelanti. Questi dati recuperati sono stati quindi utilizzati per creare i dataset necessari per l’addestramento del modello Command Family. Inoltre, i querelanti sostengono che Cohere ha utilizzato dataset di terze parti come C4 di Common Crawl, che contengono quantità significative del loro materiale protetto da copyright, senza ottenere le necessarie autorizzazioni.

L’uso di materiale protetto da copyright nell’addestramento di modelli AI è diventato una questione controversa. Gli sviluppatori di AI spesso sostengono che tale uso rientra nella dottrina del "fair use", che consente l’uso limitato di materiale protetto da copyright per scopi quali critica, commento, notizie, insegnamento, borse di studio o ricerca. Tuttavia, i titolari del copyright sostengono che il recupero e l’uso su larga scala dei loro contenuti per scopi commerciali, come l’addestramento di modelli AI, va oltre l’ambito del fair use. Questa battaglia legale probabilmente dipenderà dal fatto che il tribunale sia d’accordo con la valutazione dei querelanti.

2. Uso in Tempo Reale / RAG

Un altro aspetto chiave della causa si concentra su come i servizi di Cohere, in particolare la sua interfaccia Chat, utilizzano la tecnologia RAG in tempo reale. I querelanti sostengono che i modelli di Cohere recuperano contenuti da fonti esterne, inclusi i loro siti Web, per generare risposte alle query degli utenti. Questo scraping in tempo reale, secondo i querelanti, costituisce violazione del copyright, soprattutto quando i modelli di Cohere aggirano i paywall o ignorano le direttive "robots.txt", che sono comandi che indicano ai web crawler (inclusi quelli utilizzati dai modelli AI) di non recuperare contenuti specifici da un sito Web.

L’elusione di paywall e direttive robots.txt solleva gravi questioni etiche e legali. I paywall sono progettati per proteggere i contenuti protetti da copyright e garantire che gli editori siano compensati per il loro lavoro. Le direttive Robots.txt sono un meccanismo standard per i proprietari di siti Web per controllare come i loro contenuti vengono accessi e utilizzati dai web crawler. Ignorando queste salvaguardie, Cohere è accusata di dimostrare una mancanza di rispetto per le leggi sul copyright e i diritti dei creatori di contenuti.

3. Output Illeciti

I querelanti sostengono che i servizi di Cohere forniscono output illeciti sotto forma di copie, estratti sostanziali o riassunti sostitutivi delle loro opere protette da copyright in risposta alle query degli utenti. Citano esempi di output di Cohere Chat in cui il pannello "Under the Hood" mostra articoli completi o parziali copiati direttamente dai siti Web dei querelanti.

I querelanti sostengono che questi output, siano essi copie testuali o riassunti, sostituiscono direttamente la necessità per gli utenti di visitare gli articoli originali. Questo, a sua volta, danneggia le entrate derivanti da abbonamenti digitali e pubblicità su cui i querelanti fanno affidamento per sostenere le loro attività. Il fulcro di questa argomentazione è che i modelli di AI di Cohere agiscono essenzialmente come distributori non autorizzati di contenuti protetti da copyright, privando gli editori originali del loro risarcimento legittimo.

4. Adattamento Non Autorizzato

Oltre a visualizzare porzioni delle opere dei querelanti nel pannello "Under the Hood", i servizi di Cohere forniscono anche riassunti o abstract di queste opere. I querelanti sostengono che il livello di dettaglio in questi riassunti è così ampio che sostituiscono essenzialmente le opere originali, superando i limiti del fair use.

La legge sul copyright protegge non solo la riproduzione testuale di opere protette da copyright, ma anche la creazione di opere derivate, che sono adattamenti o trasformazioni dell’originale. I querelanti sostengono che i riassunti di Cohere sono così completi da costituire opere derivate non autorizzate, violando il loro diritto esclusivo di creare e distribuire adattamenti del loro materiale protetto da copyright.

Responsabilità Secondaria per le Azioni degli Utenti

Oltre all’accusa di violazione diretta del copyright, i querelanti sostengono anche che Cohere è secondariamente responsabile per gli atti illeciti dei suoi utenti. Sostengono che i servizi di Cohere facilitano la riproduzione, la visualizzazione e la distribuzione delle opere dei querelanti da parte degli utenti e che Cohere non può eludere la responsabilità attribuendo esclusivamente la violazione alle azioni degli utenti. La base di questa affermazione è che il prodotto di Cohere genera risposte solo dopo che un utente inserisce un prompt, rendendo l’azienda un partecipante all’attività illecita.

Questa argomentazione della responsabilità secondaria è significativa perché cerca di ritenere gli sviluppatori di AI responsabili delle azioni dei loro utenti, anche quando quegli utenti sono quelli direttamente coinvolti nella violazione del copyright. In caso di successo, questa argomentazione potrebbe avere implicazioni di vasta portata per lo sviluppo e l’implementazione delle tecnologie AI, in quanto richiederebbe agli sviluppatori di implementare salvaguardie per impedire ai loro utenti di violare il copyright.

Accuse di Violazione del Marchio

La causa si estende oltre la violazione del copyright per includere accuse di violazione del marchio. I querelanti sostengono che la pratica di Cohere di attribuire le fonti costituisce violazione del marchio perché utilizza i marchi ben noti dei querelanti senza autorizzazione o li associa a contenuti erronei generati dall’AI. Questo, sostengono, porta a danni alla reputazione del marchio dei querelanti e a una diluizione della loro distintività.

I marchi sono simboli, disegni o frasi legalmente registrati per rappresentare un’azienda o un prodotto. L’uso non autorizzato di un marchio può creare confusione tra i consumatori e danneggiare la reputazione del marchio. I querelanti sostengono che l’uso da parte di Cohere dei loro marchi in combinazione con contenuti generati dall’AI potrebbe indurre gli utenti a credere che i querelanti approvino o siano affiliati ai servizi di Cohere, il che non è il caso.

Questa causa contro Cohere non è un incidente isolato. Segue una precedente causa per copyright negli Stati Uniti nell’ottobre 2024 che si è concentrata anche sull’applicazione RAG nei servizi AI. Questo crescente numero di casi evidenzia la crescente tensione tra gli sviluppatori di AI e i titolari del copyright man mano che l’architettura RAG diventa più diffusa nei servizi AI.

Le battaglie legali sulla tecnologia RAG probabilmente diventeranno una questione significativa nel futuro della legge sul copyright dell’AI. RAG presenta sfide uniche perché implica il recupero e l’uso in tempo reale di materiale protetto da copyright per generare output. Ciò solleva complesse questioni sull’ambito del fair use, la responsabilità degli sviluppatori di AI per le azioni degli utenti e la protezione della proprietà intellettuale nell’era dell’intelligenza artificiale.

L’esito di queste cause potrebbe avere un profondo impatto sullo sviluppo e l’implementazione delle tecnologie AI. Se i tribunali si pronunciano a favore dei titolari del copyright, gli sviluppatori di AI potrebbero essere costretti a implementare salvaguardie più rigorose per prevenire la violazione del copyright, il che potrebbe aumentare il costo e la complessità dello sviluppo di modelli AI. D’altra parte, se i tribunali si pronunciano a favore degli sviluppatori di AI, i titolari del copyright potrebbero aver bisogno di trovare nuovi modi per proteggere la loro proprietà intellettuale di fronte a tecnologie AI sempre più sofisticate.

Lo scontro tra gli editori di notizie e Cohere funge da snodo critico nel dibattito in corso sull’AI, il copyright e il futuro della creazione di contenuti. L’esito di questo caso, insieme ad altri simili, plasmerà senza dubbio il panorama legale per l’AI generativa e la sua interazione con il materiale protetto da copyright per gli anni a venire. Mentre l’AI continua a evolversi e a integrarsi maggiormente in vari aspetti della nostra vita, è essenziale trovare un equilibrio tra la promozione dell’innovazione e la protezione dei diritti dei creatori di contenuti. I tribunali, i legislatori e la comunità dell’AI devono collaborare per stabilire linee guida e regolamenti chiari che promuovano la creatività garantendo al contempo il rispetto della proprietà intellettuale.

L’industria delle notizie, in particolare, affronta una serie unica di sfide nell’era dell’AI. Man mano che i modelli di AI diventano sempre più capaci di generare contenuti di notizie, è fondamentale che gli editori siano compensati per l’uso del loro materiale protetto da copyright e che l’integrità dei loro marchi sia protetta. La causa contro Cohere rappresenta uno sforzo da parte degli editori di notizie per far valere i propri diritti e garantire che il loro lavoro non venga sfruttato dalle aziende di AI senza la debita autorizzazione.