DeepSeek: Modello AI Addestrato su Gemini? Scoppia la Polemica

Il mondo dell’intelligenza artificiale non è estraneo alle controversie e l’ultimo sviluppo coinvolge il laboratorio cinese di AI DeepSeek. Recentemente, DeepSeek ha svelato una versione aggiornata del suo modello di ragionamento R1, mostrando impressionanti capacità nell’affrontare benchmark di matematica e codifica. Tuttavia, la fonte dei dati utilizzati per addestrare questo modello ha suscitato un notevole dibattito tra i ricercatori di IA, con alcuni che ipotizzano che possa essere originato, almeno in parte, dalla famiglia di modelli AI Gemini di Google. Questo sospetto solleva interrogativi significativi sulle pratiche etiche, sull’approvvigionamento dei dati e sul panorama competitivo all’interno dell’industria dell’IA.

Le Prove Presentate

La controversia è iniziata quando Sam Paech, uno sviluppatore con sede a Melbourne specializzato nella creazione di valutazioni di "intelligenza emotiva" per i sistemi di IA, ha presentato quelle che afferma essere prove che l’ultimo modello di DeepSeek era stato addestrato su output generati da Gemini. Secondo Paech, il modello di DeepSeek, identificato come R1-0528, mostra una preferenza per parole ed espressioni specifiche che sono notevolmente simili a quelle favorite da Gemini 2.5 Pro di Google. Anche se questa osservazione da sola potrebbe non essere conclusiva, solleva una bandiera rossa e giustifica ulteriori indagini.

Ad aumentare l’intrigo, un altro sviluppatore, che opera sotto lo pseudonimo di SpeechMap e noto per la creazione di una "valutazione della libertà di parola" per l’IA, ha sottolineato che le tracce del modello DeepSeek - i "pensieri" che genera mentre lavora verso una conclusione - "sembrano tracce di Gemini". Questa convergenza di modelli linguistici e processi di pensiero alimenta ulteriormente il sospetto che DeepSeek possa aver utilizzato gli output di Gemini durante il processo di addestramento.

Accuse Precedenti Contro DeepSeek

Questa non è la prima volta che DeepSeek ha affrontato accuse di addestrare i suoi modelli AI su dati provenienti da sistemi AI rivali. A dicembre, gli sviluppatori hanno notato che il modello V3 di DeepSeek spesso si identificava come ChatGPT, la piattaforma di chatbot basata sull’IA di OpenAI. Questo strano comportamento suggeriva che il modello potrebbe essere stato addestrato su log di chat di ChatGPT, sollevando preoccupazioni sulle implicazioni etiche di tale pratica.

All’inizio di quest’anno, OpenAI ha informato il Financial Times di aver scoperto prove che collegavano DeepSeek all’uso della distillazione, una tecnica che prevede l’addestramento di modelli AI estraendo dati da modelli più grandi e più capaci. Inoltre, Microsoft, un collaboratore e investitore chiave in OpenAI, ha rilevato quantità significative di dati sottratti attraverso account di sviluppatori OpenAI alla fine del 2024. OpenAI ritiene che questi account siano affiliati a DeepSeek, rafforzando ulteriormente il sospetto di estrazione di dati non autorizzata.

Sebbene la distillazione non sia intrinsecamente non etica, i termini di servizio di OpenAI vietano esplicitamente ai clienti di utilizzare gli output del modello dell’azienda per costruire sistemi AI concorrenti. Questa restrizione mira a proteggere la proprietà intellettuale di OpenAI e a mantenere un ambiente competitivo equo all’interno dell’industria dell’IA. Se DeepSeek avesse effettivamente utilizzato la distillazione per addestrare il suo modello R1 sugli output di Gemini, costituirebbe una violazione dei termini di servizio di OpenAI e solleverebbe serie preoccupazioni etiche.

Le Sfide della Contaminazione dei Dati

È importante riconoscere che molti modelli AI mostrano una tendenza a identificarsi erroneamente e a convergere su parole e frasi simili. Questo fenomeno può essere attribuito alla crescente presenza di contenuti generati dall’IA sul web aperto, che funge da principale fonte di dati di addestramento per le aziende di IA. Le content farm utilizzano l’IA per creare articoli clickbait e i bot inondano piattaforme come Reddit e X con post generati dall’IA.

Questa "contaminazione" del web con contenuti generati dall’IA rappresenta una sfida significativa per le aziende di IA, rendendo estremamente difficile filtrare a fondo gli output dell’IA dai set di dati di addestramento. Di conseguenza, i modelli AI possono inavvertitamente imparare l’uno dall’altro, portando alle somiglianze osservate nel linguaggio e nei processi di pensiero.

Opinioni e Prospettive degli Esperti

Nonostante le sfide della contaminazione dei dati, esperti di IA come Nathan Lambert, un ricercatore presso l’organizzazione no-profit di ricerca sull’IA AI2, ritengono che non sia implausibile che DeepSeek si sia addestrato su dati provenienti da Gemini di Google. Lambert suggerisce che DeepSeek, di fronte a una carenza di GPU ma in possesso di ampie risorse finanziarie, potrebbe aver optato per generare dati sintetici dal miglior modello API disponibile. A suo avviso, questo approccio potrebbe essere più efficiente dal punto di vista computazionale per DeepSeek.

La prospettiva di Lambert evidenzia le considerazioni pratiche che possono spingere le aziende di IA a esplorare strategie alternative di approvvigionamento dei dati. Sebbene l’uso di dati sintetici possa essere una tecnica legittima ed efficace, è fondamentale garantire che i dati siano generati eticamente e non violino alcun termine di servizio o linea guida etica.

Misure di Sicurezza e Sforzi Preventivi

In risposta alle preoccupazioni riguardanti la distillazione e la contaminazione dei dati, le aziende di IA hanno aumentato le loro misure di sicurezza. OpenAI, ad esempio, ha implementato un requisito per le organizzazioni di completare un processo di verifica dell’identità per poter accedere a determinati modelli avanzati. Questo processo richiede un documento d’identità rilasciato dal governo di uno dei paesi supportati dall’API di OpenAI, escludendo la Cina dall’elenco.

Anche Google ha adottato misure per mitigare il rischio di distillazione "riassumendo" le tracce generate dai modelli disponibili attraverso la sua piattaforma per sviluppatori AI Studio. Questo processo di riepilogo rende più difficile addestrare modelli rivali performanti su tracce di Gemini. Allo stesso modo, Anthropic ha annunciato a maggio che avrebbe iniziato a riassumere le tracce del proprio modello, citando la necessità di proteggere i propri "vantaggi competitivi".

Queste misure di sicurezza rappresentano uno sforzo concertato da parte delle aziende di IA per salvaguardare la propria proprietà intellettuale e prevenire l’estrazione di dati non autorizzata. Implementando controlli di accesso più severi e offuscando le tracce dei modelli, mirano a scoraggiare pratiche non etiche e a mantenere condizioni di parità all’interno dell’industria dell’IA.

La Risposta di Google

Contattato per un commento, Google non ha ancora risposto alle accuse. Questo silenzio lascia spazio a speculazioni e intensifica ulteriormente la controversia. Mentre la comunità dell’IA attende una dichiarazione ufficiale da Google, le domande sulle pratiche di approvvigionamento dei dati di DeepSeek continuano a persistere.

Le Implicazioni per l’Industria dell’IA

La controversia di DeepSeek solleva interrogativi fondamentali sui confini etici dello sviluppo dell’IA e sull’importanza di un approvvigionamento di dati responsabile. Man mano che i modelli di IA diventano sempre più sofisticati e capaci, la tentazione di tagliare corto e utilizzare dati non autorizzati potrebbe diventare più forte. Tuttavia, tali pratiche possono avere conseguenze dannose, minando l’integrità dell’industria dell’IA ed erodendo la fiducia del pubblico.

Per garantire la sostenibilità a lungo termine e lo sviluppo etico dell’IA, è imperativo che le aziende di IA aderiscano a rigide linee guida etiche e diano priorità a pratiche di approvvigionamento di dati responsabili. Ciò include l’ottenimento del consenso esplicito dai fornitori di dati, il rispetto dei diritti di proprietà intellettuale e l’evitare l’uso di dati non autorizzati o distorti.

Inoltre, sono necessari maggiore trasparenza e responsabilità all’interno dell’industria dell’IA. Le aziende di IA dovrebbero essere più trasparenti sulle loro pratiche di approvvigionamento di dati e sui metodi utilizzati per addestrare i loro modelli. Questa maggiore trasparenza contribuirà a promuovere la fiducia nei sistemi di IA e a promuovere un ecosistema di IA più etico e responsabile.

La controversia di DeepSeek serve come un tempestivo promemoria delle sfide e delle considerazioni etiche che devono essere affrontate man mano che la tecnologia dell’IA continua ad avanzare. Sostenendo i principi etici, promuovendo la trasparenza e promuovendo la collaborazione, la comunità dell’IA può garantire che l’IA sia utilizzata a beneficio della società e non a scapito dei valori etici.

Approfondimento degli Aspetti Tecnici

Per comprendere meglio le sfumature di questo problema, è fondamentale approfondire gli aspetti tecnici di come vengono addestrati i modelli AI e le specifiche tecniche in questione, vale a dire la distillazione e la generazione di dati sintetici.

Distillazione: Clonazione dell’Intelligenza?

La distillazione, nel contesto dell’IA, si riferisce a una tecnica di compressione del modello in cui un modello "studente" più piccolo ed efficiente viene addestrato per imitare il comportamento di un modello "insegnante" più grande e più complesso. Il modello studente impara osservando gli output del modello insegnante, estraendo efficacemente la conoscenza e trasferendola a un’architettura più piccola. Sebbene la distillazione possa essere vantaggiosa per la distribuzione di modelli AI su dispositivi con risorse limitate, solleva preoccupazioni etiche quando i dati o l’architettura del modello insegnante sono proprietari.

Se DeepSeek ha utilizzato gli output di Gemini per addestrare il suo modello R1 tramite distillazione senza autorizzazione, sarebbe come clonare l’intelligenza di Gemini e potenzialmente violare i diritti di proprietà intellettuale di Google. La chiave qui è l’uso non autorizzato degli output di Gemini, che sono protetti da copyright e altri meccanismi legali.

Generazione di Dati Sintetici: Un’Arma a Doppio Taglio

La generazione di dati sintetici implica la creazione di punti dati artificiali che assomigliano a dati del mondo reale. Questa tecnica viene spesso utilizzata per aumentare i set di dati di addestramento, soprattutto quando i dati reali sono scarsi o costosi da ottenere. Tuttavia, la qualità e le implicazioni etiche dei dati sintetici dipendono fortemente da come vengono generati.

Se DeepSeek ha utilizzato l’API di Gemini per generare dati sintetici, la domanda diventa: quanto da vicino questi dati assomigliano agli output effettivi di Gemini e violano la proprietà intellettuale di Google? Se i dati sintetici sono semplicemente ispirati da Gemini ma non replicano direttamente i suoi output, potrebbe essere considerato fair use. Tuttavia, se i dati sintetici sono virtualmente indistinguibili dagli output di Gemini, potrebbero sollevare preoccupazioni simili alla distillazione.

Implicazioni dell’Overfitting del Modello

Un’altra preoccupazione correlata è l’overfitting del modello. L’overfitting si verifica quando un modello impara troppo bene i dati di addestramento, al punto da funzionare male con dati nuovi e non visti. Se DeepSeek ha addestrato il suo modello R1 eccessivamente sugli output di Gemini, potrebbe aver causato overfitting, in cui il modello essenzialmente memorizza le risposte di Gemini invece di generalizzare a nuove situazioni.

Questo tipo di overfitting non solo limiterebbe l’applicabilità del modello R1, ma renderebbe anche più facile rilevare la sua dipendenza dai dati di Gemini. Le "tracce" che SpeechMap ha notato potrebbero essere la prova di questo overfitting, in cui il modello R1 sta essenzialmente rigurgitando modelli appresi dagli output di Gemini.

Considerazioni Etiche e Best Practice del Settore

Al di là degli aspetti tecnici, questa controversia evidenzia la necessità di chiare linee guida etiche e best practice del settore per lo sviluppo dell’IA. Alcuni principi chiave includono:

  • Trasparenza: le aziende di IA dovrebbero essere trasparenti sulle loro fonti di dati e metodologie di addestramento. Ciò consente audit e verifiche indipendenti.
  • Consenso: le aziende di IA dovrebbero ottenere il consenso esplicito dai fornitori di dati prima di utilizzare i loro dati per l’addestramento. Ciò include il rispetto dei diritti di proprietà intellettuale ed evitare lo scraping di dati non autorizzato.
  • Equità: i modelli AI dovrebbero essere equi e imparziali. Ciò richiede un’attenta attenzione alla diversità dei dati e alla mitigazione dei pregiudizi algoritmici.
  • Responsabilità: le aziende di IA dovrebbero essere responsabili delle azioni dei loro modelli di IA. Ciò include la creazione di framework di responsabilità chiari e la risoluzione dei danni causati dai sistemi di IA.
  • Sicurezza: le aziende di IA dovrebbero dare la priorità alla sicurezza dei loro modelli e dati di IA. Ciò include la protezione contro accessi non autorizzati e la prevenzione di violazioni dei dati.

Il Ruolo della Regolamentazione

Oltre alle linee guida etiche e alle best practice del settore, la regolamentazione può essere necessaria per affrontare le sfide poste dallo sviluppo dell’IA. Alcune potenziali misure normative includono:

  • Leggi sulla privacy dei dati: leggi che proteggono i dati delle persone e limitano l’uso di informazioni personali per l’addestramento di IA.
  • Leggi sulla proprietà intellettuale: leggi che proteggono i modelli e i dati di IA dalla copia e dalla distribuzione non autorizzate.
  • Leggi sulla concorrenza: leggi che impediscono comportamenti anticoncorrenziali nell’industria dell’IA, come l’accaparramento di dati e l’accesso sleale alle risorse.
  • Norme di sicurezza: norme che garantiscono la sicurezza e l’affidabilità dei sistemi di IA utilizzati in applicazioni critiche.

Combinando linee guida etiche, best practice del settore e una regolamentazione adeguata, possiamo creare un ecosistema di IA più responsabile e sostenibile che avvantaggi la società nel suo complesso. La controversia di DeepSeek funge da campanello d’allarme, esortandoci ad affrontare queste sfide in modo proattivo e a garantire che l’IA sia sviluppata in un modo che si allinei ai nostri valori e principi.