DeepSeek sotto accusa: Coinvolto Gemini?

Speculazioni recenti suggeriscono che DeepSeek, un laboratorio cinese di intelligenza artificiale, potrebbe aver utilizzato dati dal modello Gemini AI di Google per addestrare la sua ultima iterazione, il modello di ragionamento AI R1. Questo modello ha dimostrato forti prestazioni nei benchmark di matematica e codifica. Mentre DeepSeek è rimasta in silenzio sulle fonti di dati utilizzate per addestrare R1, diversi ricercatori di IA hanno proposto che Gemini, o almeno parti di Gemini, abbiano avuto un ruolo.

Prove e Accuse

Sam Paech, uno sviluppatore con sede a Melbourne specializzato nella creazione di valutazioni di "intelligenza emotiva" per l’IA, ha presentato ciò che crede siano prove che il modello DeepSeek è stato addestrato utilizzando output generati da Gemini. Paech ha notato in un post su X (precedentemente Twitter) che il modello di DeepSeek, in particolare la versione R1-0528, mostra una preferenza per il linguaggio e le espressioni simili a quelle preferite da Gemini 2.5 Pro di Google.

Inoltre, un altro sviluppatore, che opera sotto lo pseudonimo del creatore di SpeechMap, una "valutazione della libertà di parola" per l’IA, ha osservato che i "pensieri" generati dal modello DeepSeek mentre lavora verso le conclusioni somigliano da vicino alle tracce di Gemini. Questa osservazione aggiunge un altro livello di intrigo alle affermazioni.

Questa non è la prima volta che DeepSeek ha affrontato accuse di sfruttare i dati di modelli AI concorrenti. Già a dicembre, gli sviluppatori avevano notato che il modello V3 di DeepSeek si identificava frequentemente come ChatGPT, la popolare piattaforma di chatbot di OpenAI. Ciò suggeriva che il modello era stato addestrato sui registri di chat di ChatGPT, sollevando preoccupazioni sulle pratiche di utilizzo dei dati.

Accuse Più Profonde: Distillazione ed Esfiltrazione di Dati

All’inizio di quest’anno, OpenAI ha condiviso con il Financial Times di aver scoperto prove che collegavano DeepSeek all’uso di una tecnica chiamata distillazione. La distillazione prevede l’addestramento di modelli AI estraendo dati da modelli più grandi e sofisticati. Bloomberg ha riferito che Microsoft, un collaboratore chiave e investitore in OpenAI, aveva rilevato una significativa esfiltrazione di dati attraverso account sviluppatori OpenAI alla fine del 2024. OpenAI ritiene che questi account siano collegati a DeepSeek.

La distillazione, sebbene non intrinsecamente non etica, diventa problematica quando viola i termini di servizio. I termini di OpenAI vietano esplicitamente ai clienti di utilizzare gli output del modello dell’azienda per sviluppare sistemi AI concorrenti. Ciò solleva seri interrogativi sull’adesione di DeepSeek a questi termini.

Le Acque Torbide dei Dati di Addestramento AI

È importante riconoscere che i modelli AI spesso si identificano erroneamente e convergono su parole e frasi simili. Ciò è dovuto alla natura del web aperto, che funge da fonte primaria di dati di addestramento per molte aziende di IA. Il web è sempre più saturo di contenuti generati dall’IA. Le content farm stanno utilizzando l’IA per produrre clickbait e i bot stanno inondando piattaforme come Reddit e X con post generati dall’IA.

Questa "contaminazione" rende incredibilmente difficile filtrare efficacemente gli output di IA dai dataset di addestramento, complicando ulteriormente la questione se DeepSeek abbia intenzionalmente utilizzato i dati di Gemini.

Opinioni e Prospettive di Esperti

Nonostante le difficoltà nel provare definitivamente le affermazioni, alcuni esperti di IA ritengono plausibile che DeepSeek si sia addestrata su dati di Gemini di Google. Nathan Lambert, un ricercatore presso l’istituto di ricerca AI no-profit AI2, ha dichiarato su X: "Se fossi DeepSeek, creerei sicuramente una tonnellata di dati sintetici dal miglior modello API in circolazione. [DeepSeek è] a corto di GPU e piena di denaro. È letteralmente più calcolo per loro in modo efficace."

La prospettiva di Lambert evidenzia i potenziali incentivi economici per DeepSeek a sfruttare i modelli AI esistenti per migliorare le proprie capacità, in particolare date le sue limitazioni di risorse.

Misure di Sicurezza e Contromisure

Le aziende di IA hanno intensificato le misure di sicurezza, in parte per prevenire pratiche come la distillazione. OpenAI, in aprile, ha iniziato a richiedere alle organizzazioni di completare un processo di verifica dell’identità per accedere a determinati modelli avanzati. Questo processo prevede l’invio di un documento d’identità rilasciato dal governo di un paese supportato dall’API di OpenAI. La Cina è notevolmente assente da questo elenco.

In un’altra mossa, Google ha recentemente iniziato a "riassumere" le tracce generate dai modelli disponibili attraverso la sua piattaforma di sviluppo AI Studio. Questa azione rende più difficile addestrare modelli rivali sulle tracce di Gemini in modo efficace. Allo stesso modo, Anthropic ha annunciato a maggio che avrebbe iniziato a riassumere le tracce del proprio modello, citando la necessità di proteggere i suoi "vantaggi competitivi". Queste misure indicano una crescente consapevolezza del potenziale uso improprio degli output del modello AI e uno sforzo proattivo per mitigare tali rischi.

Implicazioni e Conseguenze

Le accuse contro DeepSeek sollevano interrogativi significativi sull’etica e la legalità delle pratiche di addestramento dell’IA. Se DeepSeek avesse effettivamente utilizzato i dati di Gemini per addestrare il suo modello R1, potrebbe affrontare ripercussioni legali e danni alla reputazione. Questa situazione evidenzia anche la necessità di una maggiore trasparenza e regolamentazione nel settore dell’IA, in particolare per quanto riguarda l’approvvigionamento e l’utilizzo dei dati.

Le accuse contro DeepSeek sottolineano un dilemma critico: come bilanciare il desiderio di innovazione e progresso nell’IA con la necessità di proteggere la proprietà intellettuale e garantire una concorrenza leale. Il settore dell’IA è in rapida evoluzione e linee guida chiare e quadri etici sono essenziali per navigare nel complesso panorama legale ed etico. Le aziende devono essere trasparenti sulle loro fonti di dati e rispettare i termini degli accordi di servizio per mantenere la fiducia ed evitare potenziali responsabilità legali.

Inoltre, la questione dei contenuti generati dall’IA che contaminano i dataset di addestramento presenta una sfida importante per l’intera comunità dell’IA. Man mano che i modelli AI diventano più abili nel generare testo, immagini e altre forme di contenuto convincenti, diventa sempre più difficile distinguere tra dati generati dall’uomo e dati generati dall’IA. Questa "contaminazione" potrebbe portare a un’omogeneizzazione dei modelli AI, in cui tutti iniziano a mostrare pregiudizi e limitazioni simili.

Per affrontare questa sfida, le aziende di IA devono investire in tecniche di filtraggio dei dati più sofisticate ed esplorare fonti di dati di addestramento alternative. Devono anche essere più trasparenti sulla composizione dei loro dataset di addestramento e sui metodi utilizzati per filtrare i contenuti generati dall’IA.

La controversia DeepSeek sottolinea l’urgente necessità di una discussione più sfumata sul futuro dell’addestramento AI. Man mano che i modelli AI diventano più potenti e i dati diventano più scarsi, le aziende potrebbero essere tentate di tagliare i costi e impegnarsi in pratiche non etiche o illegali. Tuttavia, tali pratiche alla fine minano la sostenibilità e l’affidabilità a lungo termine del settore dell’IA.

È necessario uno sforzo collaborativo che coinvolga ricercatori, responsabili politici e leader del settore per sviluppare linee guida etiche e quadri legali che promuovano lo sviluppo responsabile dell’IA. Queste linee guida dovrebbero affrontare questioni come l’approvvigionamento dei dati, la trasparenza e la responsabilità. Dovrebbero anche incentivare le aziende a investire in pratiche di addestramento AI etiche e sostenibili.

Considerazioni Chiave per il Futuro dell’Addestramento AI:

  • Trasparenza: Le aziende dovrebbero essere trasparenti sulle fonti di dati utilizzate per addestrare i propri modelli AI e sui metodi utilizzati per filtrare i contenuti generati dall’IA.
  • Etica: Lo sviluppo dell’IA dovrebbe aderire a principi etici che promuovano l’equità, la responsabilità e il rispetto della proprietà intellettuale.
  • Regolamentazione: I responsabili politici dovrebbero creare quadri legali chiari che affrontino le sfide uniche poste dall’addestramento dell’IA.
  • Collaborazione: Ricercatori, responsabili politici e leader del settore dovrebbero collaborare per sviluppare linee guida etiche e migliori pratiche per lo sviluppo dell’IA.
  • Diversità dei Dati: L’addestramento dell’IA dovrebbe dare priorità alla diversità dei dati per ridurre i pregiudizi e migliorare le prestazioni complessive dei modelli AI.
  • Sostenibilità: L’addestramento dell’IA dovrebbe essere condotto in modo sostenibile, riducendo al minimo il suo impatto ambientale.
  • Sicurezza: Le misure di sicurezza dovrebbero proteggere i modelli AI e i dati di addestramento da accessi e utilizzi non autorizzati.

Affrontando queste considerazioni chiave, il settore dell’IA può garantire che lo sviluppo dell’IA sia condotto in modo responsabile ed etico, promuovendo l’innovazione e mitigando al contempo i potenziali rischi.

La Via da Seguire

Le accuse mosse contro DeepSeek servono da campanello d’allarme per la comunità dell’IA. Sottolineano la cruciale necessità di maggiore trasparenza, condotta etica e solide salvaguardie nello sviluppo dell’IA. Man mano che l’IA continua a permeare vari aspetti della nostra vita, è imperativo che stabiliamo confini chiari e linee guida etiche per garantirne un uso responsabile e vantaggioso.

Il caso DeepSeek, indipendentemente dal suo esito finale, plasmerà indubbiamente il discorso in corso sull’etica dell’IA e influenzerà la traiettoria futura dello sviluppo dell’IA. Serve a ricordare che la ricerca dell’innovazione deve essere temperata con un impegno per i principi etici e un riconoscimento delle potenziali conseguenze delle nostre azioni. Il futuro dell’IA dipende dalla nostra capacità di affrontare queste complesse sfide con saggezza e lungimiranza.