DeepSeek sotto esame: Accuse di addestramento dell’AI con elementi di Gemini di Google
Il mondo dell’IA è in fermento per una controversia riguardante DeepSeek, un importante sviluppatore di modelli di IA, che affronta rinnovate accuse di sfruttare i dati dei concorrenti per addestrare la sua ultima innovazione. Questa volta, i riflettori sono puntati su Gemini di Google, con accuse che suggeriscono che DeepSeek-R1-0528, il modello AI più recente di DeepSeek, potrebbe essere stato addestrato utilizzando una derivata del modello di Gemini.
Le accuse provengono da Sam Paech, un analista di IA che ha esaminato meticolosamente il servizio di intelligenza artificiale di DeepSeek utilizzando sofisticati strumenti bioinformatici. L’analisi di Paech lo ha portato a concludere che ci sono notevoli somiglianze tra le risposte di DeepSeek e quelle di Gemini, suggerendo una potenziale derivazione tra i due.
Il lavoro investigativo sull’AI: alla scoperta della potenziale influenza di Gemini
L’indagine di Paech non si è fermata alla semplice osservazione del comportamento dell’IA. Si è addentrato nel sito della comunità degli sviluppatori di HuggingFace, una popolare piattaforma open-source per lo sviluppo dell’IA, e ha eseguito la sua analisi tramite il suo account di codice sviluppatore GitHub. Questo approccio rigoroso gli ha permesso di esaminare a fondo il funzionamento interno del modello di IA e identificare potenziali schemi o segmenti di codice che potrebbero indicare l’uso dei dati di Gemini.
In uno dei suoi tweet, Paech ha riassunto le sue scoperte, affermando: “Se vi state chiedendo perché DeepSeek R1 suona un po’ diverso, penso che probabilmente siano passati dall’addestramento su OpenAI sintetico a output Gemini sintetici”. Questa affermazione suggerisce che DeepSeek potrebbe essere passato dall’utilizzo di dati sintetici generati dai modelli di OpenAI all’utilizzo di dati derivati da Gemini durante il processo di addestramento.
Le implicazioni di tale transizione sono significative. Se DeepSeek ha effettivamente utilizzato dati derivati da Gemini, ciò potrebbe sollevare interrogativi sui diritti di proprietà intellettuale, sulla concorrenza leale e sulle considerazioni etiche che circondano lo sviluppo dell’IA.
La risposta di DeepSeek: capacità e prestazioni migliorate
Nel maggio del 2025, DeepSeek ha rilasciato una versione aggiornata del suo modello DeepSeek-R1, denominata DeepSeek-R1-0528, tramite HuggingFace. L’azienda afferma che questo modello aggiornato vanta capacità di inferenza migliorate, suggerendo una comprensione e un’elaborazione più approfondite delle informazioni. DeepSeek sottolinea inoltre che il modello aggiornato utilizza maggiori risorse computazionali e incorpora meccanismi di ottimizzazione algoritmica durante il post-addestramento.
Secondo DeepSeek, questi miglioramenti hanno portato a prestazioni eccezionali in vari benchmark di valutazione, tra cui la matematica, la programmazione e la logica generale. L’azienda ha dichiarato su HuggingFace che le prestazioni complessive del modello si stanno ora avvicinando a quelle di modelli leader come O3 e Gemini 2.5 Pro.
Mentre DeepSeek promuove le prestazioni e le capacità migliorate del suo ultimo modello, le accuse di aver utilizzato i dati di Gemini gettano un’ombra su questi progressi. Se le accuse fossero vere, solleverebbero interrogativi sulla misura in cui i guadagni di prestazioni di DeepSeek siano attribuibili alle proprie innovazioni rispetto all’uso dei dati dei concorrenti.
Prova EQ-Bench: uno sguardo all’arsenale AI di Google
Aggiungendo benzina sul fuoco, Sam Paech ha presentato uno screenshot di EQ-Bench, una piattaforma utilizzata per valutare le prestazioni dei modelli AI. Lo screenshot mostrava i risultati della valutazione di diversi modelli di sviluppo di Google, tra cui Gemini 2.5 Pro, Gemini 2.5 Flash e Gemma 3.
La presenza di questi modelli Google sulla piattaforma EQ-Bench suggerisce che sono in fase di sviluppo e test attivo, fornendo potenzialmente una fonte di dati o ispirazione per altri sviluppatori di IA. Sebbene lo screenshot stesso non dimostri direttamente che DeepSeek ha utilizzato i dati di Gemini, evidenzia la disponibilità di tali dati e il potenziale per essere accessibili e utilizzati da altre parti.
Dubbio e conferma: le acque torbide della discendenza AI
Mentre l’analisi di Paech ha sollevato serie domande sui metodi di addestramento di DeepSeek, è importante notare che le prove non sono conclusive. Come sottolinea TechCrunch, le prove di addestramento da parte di Gemini non sono forti, sebbene alcuni altri sviluppatori affermino anche di aver trovato tracce di Gemini nel modello di DeepSeek.
L’ambiguità che circonda le prove sottolinea le sfide di tracciare la discendenza dei modelli AI e di determinare se sono stati addestrati utilizzando i dati dei concorrenti. La natura complessa degli algoritmi AI e le vaste quantità di dati utilizzati per l’addestramento rendono difficile individuare le fonti esatte di influenza.
Un tema ricorrente: la storia di DeepSeek con OpenAI
Non è la prima volta che DeepSeek affronta accuse di utilizzo dei dati dei concorrenti. Nel dicembre 2024, diversi sviluppatori di applicazioni hanno osservato che il modello V3 di DeepSeek spesso si identificava come ChatGPT, il popolare chatbot di OpenAI. Questa osservazione ha portato ad accuse che DeepSeek avesse addestrato il suo modello utilizzando dati scraping da ChatGPT, potenzialmente violando i termini di servizio di OpenAI.
La natura ricorrente di queste accuse solleva preoccupazioni sulle pratiche di approvvigionamento dati di DeepSeek. Sebbene sia possibile che le somiglianze tra i modelli di DeepSeek e quelli dei suoi concorrenti siano puramente casuali, le ripetute accuse suggeriscono un modello di comportamento che merita un esame più approfondito.
Le implicazioni etiche delle pratiche di addestramento dell’IA
Le accuse contro DeepSeek evidenziano le implicazioni etiche delle pratiche di addestramento dell’IA. In un campo in rapida evoluzione in cui l’innovazione è fondamentale, è fondamentale garantire che i modelli di IA siano sviluppati in modo equo ed etico.
L’uso dei dati dei concorrenti senza autorizzazione o attribuzione adeguata solleva interrogativi sui diritti di proprietà intellettuale e sulla concorrenza leale. Sminuisce anche l’integrità del processo di sviluppo dell’AI e potrebbe potenzialmente portare a contestazioni legali.
Inoltre, l’uso di dati sintetici, anche se derivati da fonti pubblicamente disponibili, può introdurre pregiudizi e imprecisioni nei modelli AI. È essenziale che gli sviluppatori di AI valutino attentamente la qualità e la rappresentatività dei loro dati di addestramento per garantire che i loro modelli siano equi, accurati e affidabili.
Un appello alla trasparenza e alla responsabilità
La controversia DeepSeek sottolinea la necessità di una maggiore trasparenza e responsabilità nel settore dell’IA. Gli sviluppatori di IA dovrebbero essere trasparenti sulle loro pratiche di approvvigionamento dati e sui metodi che utilizzano per addestrare i loro modelli. Dovrebbero anche essere ritenuti responsabili per eventuali violazioni dei diritti di proprietà intellettuale o delle linee guida etiche.
Una potenziale soluzione è quella di stabilire standard a livello di settore per l’approvvigionamento dei dati e l’addestramento dell’IA. Questi standard potrebbero delineare le migliori pratiche per l’ottenimento e l’utilizzo dei dati, nonché meccanismi per la revisione e l’applicazione della conformità.
Un altro approccio è quello di sviluppare strumenti e tecniche per tracciare la discendenza dei modelli AI. Questi strumenti potrebbero aiutare a identificare le potenziali fonti di influenza e determinare se un modello è stato addestrato utilizzando i dati dei concorrenti.
In definitiva, garantire lo sviluppo etico dell’IA richiede uno sforzo collaborativo che coinvolga sviluppatori di IA, ricercatori, politici e il pubblico. Lavorando insieme, possiamo creare un quadro che promuova l’innovazione proteggendo al contempo i diritti di proprietà intellettuale e garantendo equità e responsabilità.
La ricerca della verità di base nell’addestramento dei modelli AI
La situazione di DeepSeek richiama l’attenzione sulla crescente preoccupazione su come vengono addestrati i modelli AI. Mentre l’attrattiva di migliorare rapidamente le capacità dell’IA è forte, i metodi impiegati per raggiungere questo obiettivo devono affrontare serie considerazioni etiche. Il cuore della questione risiede nei dati utilizzati per l’addestramento. Sono ottenuti eticamente? Rispettano il copyright e la proprietà intellettuale? Queste domande stanno diventando sempre più vitali man mano che l’IA si intreccia più strettamente con la vita quotidiana.
Le sfide nel determinare le fonti esatte dei dati per i modelli AI evidenziano un problema difficile. La complessità degli algoritmi e l’immenso volume di dati richiesto significano che scoprire le origini delle capacità di un modello specifico può essere un’impresa significativa, quasi come la scienza forense per l’AI. Ciò richiede lo sviluppo di strumenti sofisticati in grado di analizzare i modelli AI per rivelare la provenienza dei loro dati di addestramento, nonché procedure più trasparenti nello sviluppo dell’AI.
L’impatto dei dati di addestramento sull’etica dell’IA
L’effetto dei dati di addestramento sull’etica dell’IA è sostanziale. I modelli AI sono imparziali solo quanto i dati su cui vengono addestrati. L’uso di dati ottenuti dai concorrenti o di dati contenenti pregiudizi inerenti può portare a risultati distorti, discriminazioni ingiuste e integrità compromessa all’interno delle applicazioni AI. Pertanto, lo sviluppo etico dell’IA ha bisogno di un forte impegno per l’uso di dati diversificati, rappresentativi e provenienti da fonti etiche.
Le questioni intorno a DeepSeek evidenziano anche la conversazione più ampia sul valore dello sviluppo di IA veramente originale rispetto alla semplice ottimizzazione di modelli con dati esistenti. Mentre l’ottimizzazione e il transfer learning sono strategie legittime, la comunità dell’IA deve riconoscere e premiare gli sviluppatori che si impegnano a creare architetture e metodologie di addestramento originali. Ciò garantisce che il progresso dell’IA si basi su una vera innovazione piuttosto che sulla riproduzione di lavori esistenti.
Costruire un quadro per la responsabilità nell’IA
Guardando avanti, costruire un quadro per la responsabilità nell’IA richiede diversi passaggi chiave. Il primo è stabilire linee guida chiare e applicabili sull’approvvigionamento dei dati, l’utilizzo e i diritti di proprietà intellettuale. Queste linee guida dovrebbero essere a livello di settore e promuovere l’apertura e la collaborazione proteggendo al contempo i diritti dei creatori di dati.
In secondo luogo, la trasparenza nello sviluppo dell’IA è essenziale. Gli sviluppatori dovrebbero essere aperti sui dati utilizzati per addestrare i loro modelli, le tecniche utilizzate e le potenziali limitazioni e pregiudizi dell’IA. Questa trasparenza crea fiducia e consente un uso responsabile delle tecnologie AI.
Inoltre, è necessario un monitoraggio e un controllo costanti dei sistemi AI. L’autoregolamentazione e le revisioni indipendenti possono aiutare a identificare e correggere potenziali pregiudizi, problemi etici e problemi di conformità. Questa supervisione continua è essenziale per garantire che i sistemi AI rimangano allineati con gli standard etici e i valori sociali.
Infine, sono necessari programmi di istruzione e sensibilizzazione per dotare gli sviluppatori di IA, gli utenti e i politici di comprendere le conseguenze etiche dell’IA. Questi programmi dovrebbero coprire argomenti come la privacy dei dati, i pregiudizi degli algoritmi e la progettazione responsabile dell’IA, promuovendo una cultura della consapevolezza etica e della responsabilità in tutta la comunità dell’IA.
Esaminare l’aspetto tecnico: reverse engineering dei modelli AI
Un aspetto affascinante delle accuse di DeepSeek è la sfida tecnica del reverse engineering dei modelli AI per determinare i loro dati di addestramento. Ciò comporta l’uso di strumenti e tecniche per analizzare il comportamento e gli output di un modello, tentando di dedurre i dati su cui è stato addestrato. È simile alla bioinformatica, come ha fatto Paech, dove si sezionano dati biologici complessi per comprenderne l’origine e la funzione.
I ricercatori sono duramente al lavoro nello sviluppo di metodi avanzati per rilevare la presenza di dati o schemi specifici nei modelli AI. Questi metodi utilizzano l’analisi statistica, il riconoscimento di schemi e le tecniche di machine learning per trovare somiglianze tra il comportamento di un modello e set di dati noti. Sebbene questo campo sia nascente, promette di fornire prove più conclusive in casi di sospetto uso improprio dei dati.
L’impatto sociale degli scandali dell’IA
Gli scandali dell’IA come il caso DeepSeek hanno conseguenze sociali più ampie. Erodono la fiducia del pubblico nella tecnologia AI, sollevano preoccupazioni sulla privacy e la sicurezza e stimolano il dibattito sul ruolo dell’IA nella società. Questi scandali devono essere affrontati rapidamente e in modo trasparente per mantenere la fiducia ed evitare lo scetticismo diffuso.
Man mano che l’IA viene integrata più in profondità in aree cruciali come l’assistenza sanitaria, la finanza e la governance, la posta in gioco si alza. Le violazioni etiche e le violazioni dei dati possono avere conseguenze significative per individui e comunità, evidenziando la necessità di solidi quadri normativi e pratiche di sviluppo dell’IA responsabili.
Ripensare l’addestramento dell’IA: approcci nuovi
Le controversie che circondano l’addestramento dell’IA stanno spingendo i ricercatori a esplorare nuove strategie più etiche, efficienti e resilienti. Un approccio promettente è l’uso di dati sintetici creati da zero, eliminando la necessità di fare affidamento su set di dati esistenti. I dati sintetici possono essere progettati per soddisfare requisiti specifici, evitando pregiudizi e garantendo la privacy dei dati.
Un altro metodo è l’apprendimento federato, in cui i modelli AI vengono addestrati su origini dati decentralizzate senza accedere o condividere direttamente i dati sottostanti. Questa tecnica consente l’apprendimento collaborativo proteggendo al contempo la privacy dei dati, aprendo nuove possibilità per lo sviluppo dell’IA in aree in cui l’accesso ai dati è limitato.
Inoltre, i ricercatori stanno esplorando modi per addestrare modelli AI con meno dati utilizzando strategie come il transfer learning e il meta-apprendimento. Queste strategie consentono ai modelli di generalizzare da dati limitati, riducendo la dipendenza da grandi set di dati e rendendo il processo di addestramento più economico e sostenibile.
Conclusione: tracciare una rotta per un’IA etica
Le accuse contro DeepSeek fungono da campanello d’allarme per la comunità dell’IA. Man mano che la tecnologia AI avanza, è essenziale seguire i principi etici e dare la priorità alla trasparenza, alla responsabilità e alla responsabilità. Stabilendo linee guida chiare, promuovendo la collaborazione e investendo in istruzione e ricerca, possiamo creare un futuro in cui l’IA serva il bene comune rispettando al contempo i diritti individuali e promuovendo l’innovazione.