DeepSeek : Accusations de plagiat de Gemini

L’univers de l’IA est en ébullition face à une controverse : DeepSeek, un important développeur de modèles d’IA, est de nouveau accusé d’avoir exploité les données de ses concurrents pour entraîner sa dernière innovation. Cette fois, c’est Gemini de Google qui est sous les projecteurs, avec des allégations suggérant que DeepSeek-R1-0528, le modèle d’IA le plus récent de DeepSeek, pourrait avoir été entraîné à l’aide d’un dérivé du modèle de Gemini.

Ces allégations proviennent de Sam Paech, un analyste de l’IA qui a méticuleusement examiné le service d’intelligence artificielle de DeepSeek à l’aide d’outils de bio-informatique sophistiqués. L’analyse de Paech l’a amené à conclure qu’il existe des similitudes notables entre les réponses de DeepSeek et celles de Gemini, ce qui suggère une filiation potentielle entre les deux.

Le travail de détective de l’IA : Découvrir l’influence potentielle de Gemini

L’enquête de Paech ne s’est pas arrêtée à la simple observation du comportement de l’IA. Il s’est plongé dans le site de la communauté des développeurs HuggingFace, une plateforme open source populaire pour le développement de l’IA, et a exécuté son analyse via son compte de code de développeur GitHub. Cette approche rigoureuse lui a permis d’examiner minutieusement le fonctionnement interne du modèle d’IA et d’identifier les modèles potentiels ou les segments de code qui pourraient indiquer l’utilisation des données de Gemini.

Dans l’un de ses tweets, Paech a résumé ses conclusions en déclarant : « Si vous vous demandez pourquoi DeepSeek R1 sonne un peu différemment, je pense qu’ils sont probablement passés de l’entraînement sur OpenAI synthétique à des sorties Gemini synthétiques. » Cette déclaration suggère que DeepSeek pourrait avoir transitionné de l’utilisation de données synthétiques générées par les modèles d’OpenAI à l’utilisation de données dérivées de Gemini pendant le processus d’entraînement.

Les implications d’une telle transition sont importantes. Si DeepSeek a effectivement utilisé des données dérivées de Gemini, cela pourrait soulever des questions sur les droits de propriété intellectuelle, la concurrence loyale et les considérations éthiques entourant le développement de l’IA.

La réponse de DeepSeek : Des capacités et des performances améliorées

En mai 2025, DeepSeek a publié une version mise à jour de son modèle DeepSeek-R1, baptisée DeepSeek-R1-0528, via HuggingFace. La société affirme que ce modèle mis à jour offre des capacités d’inférence améliorées, ce qui suggère une compréhension et un traitement plus approfondis de l’information. DeepSeek souligne également que le modèle mis à jour utilise des ressources de calcul accrues et intègre des mécanismes d’optimisation algorithmique pendant le post-entraînement.

Selon DeepSeek, ces améliorations ont permis d’obtenir des performances exceptionnelles dans divers benchmarks d’évaluation, notamment en mathématiques, en programmation et en logique générale. La société a déclaré sur HuggingFace que les performances globales du modèle se rapprochent désormais de celles des principaux modèles tels que O3 et Gemini 2.5 Pro.

Alors que DeepSeek vante les performances et les capacités améliorées de son dernier modèle, les accusations d’utilisation des données de Gemini jettent une ombre sur ces avancées. Si les allégations sont vraies, cela soulèverait des questions sur la mesure dans laquelle les gains de performance de DeepSeek sont attribuables à ses propres innovations par rapport à l’utilisation des données de ses concurrents.

Preuve EQ-Bench : Un aperçu de l’arsenal d’IA de Google

Ajoutant de l’huile sur le feu, Sam Paech a présenté une capture d’écran d’EQ-Bench, une plateforme utilisée pour évaluer les performances des modèles d’IA. La capture d’écran présentait les résultats d’évaluation de plusieurs modèles de développement de Google, notamment Gemini 2.5 Pro, Gemini 2.5 Flash et Gemma 3.

La présence de ces modèles de Google sur la plateforme EQ-Bench suggère qu’ils sont activement développés et testés, offrant potentiellement une source de données ou d’inspiration pour d’autres développeurs d’IA. Bien que la capture d’écran elle-même ne prouve pas directement que DeepSeek a utilisé les données de Gemini, elle met en évidence la disponibilité de ces données et la possibilité qu’elles soient accessibles et utilisées par d’autres parties.

Doute et confirmation : Les eaux troubles de la filiation de l’IA

Bien que l’analyse de Paech ait soulevé de sérieuses questions sur les méthodes d’apprentissage de DeepSeek, il est important de noter que les preuves ne sont pas concluantes. Comme le souligne TechCrunch, la preuve de l’apprentissage par Gemini n’est pas forte, bien que d’autres développeurs affirment également avoir trouvé des traces de Gemini dans le modèle de DeepSeek.

L’ambiguïté entourant les preuves souligne les difficultés à retracer la filiation des modèles d’IA et à déterminer s’ils ont été entraînés à l’aide des données de leurs concurrents. La nature complexe des algorithmes d’IA et les vastes quantités de données utilisées pour l’apprentissage rendent difficile l’identification des sources exactes d’influence.

Un thème récurrent : L’histoire de DeepSeek avec OpenAI

Ce n’est pas la première fois que DeepSeek est accusé d’utiliser les données de ses concurrents. En décembre 2024, plusieurs développeurs d’applications ont observé que le modèle V3 de DeepSeek s’identifiait souvent comme ChatGPT, le chatbot populaire d’OpenAI. Cette observation a conduit à des accusations selon lesquelles DeepSeek avait entraîné son modèle à l’aide de données récupérées sur ChatGPT, violant potentiellement les conditions d’utilisation d’OpenAI.

La nature récurrente de ces accusations soulève des inquiétudes quant aux pratiques d’approvisionnement en données de DeepSeek. Bien qu’il soit possible que les similitudes entre les modèles de DeepSeek et ceux de ses concurrents soient purement fortuites, les allégations répétées suggèrent un schéma de comportement qui mérite un examen plus approfondi.

Les implications éthiques des pratiques d’entraînement de l’IA

Les accusations portées contre DeepSeek mettent en évidence les implications éthiques des pratiques d’entraînement de l’IA. Dans un domaine en évolution rapide où l’innovation est primordiale, il est essentiel de veiller à ce que les modèles d’IA soient développés de manière équitable et éthique.

L’utilisation des données des concurrents sans autorisation ou attribution appropriée soulève des questions sur les droits de propriété intellectuelle et la concurrence loyale. Elle sape également l’intégrité du processus de développement de l’IA et pourrait potentiellement entraîner des contestations judiciaires.

De plus, l’utilisation de données synthétiques, même si elles sont dérivées de sources accessibles au public, peut introduire des biais et des inexactitudes dans les modèles d’IA. Il est essentiel que les développeurs d’IA évaluent soigneusement la qualité et la représentativité de leurs données d’entraînement pour s’assurer que leurs modèles sont équitables, précis et fiables.

Un appel à la transparence et à la responsabilité

La controverse autour de DeepSeek souligne la nécessité d’une plus grande transparence et d’une plus grande responsabilité dans l’industrie de l’IA. Les développeurs d’IA devraient être transparents quant à leurs pratiques d’approvisionnement en données et aux méthodes qu’ils utilisent pour entraîner leurs modèles. Ils devraient également être tenus responsables de toute violation des droits de propriété intellectuelle ou des directives éthiques.

Une solution possible consiste à établir des normes à l’échelle de l’industrie pour l’approvisionnement en données et l’entraînement de l’IA. Ces normes pourraient définir les meilleures pratiques pour l’obtention et l’utilisation des données, ainsi que des mécanismes d’audit et d’application de la conformité.

Une autre approche consiste à développer des outils et des techniques pour retracer la filiation des modèles d’IA. Ces outils pourraient aider à identifier les sources potentielles d’influence et à déterminer si un modèle a été entraîné à l’aide des données de ses concurrents.

En fin de compte, assurer le développement éthique de l’IA nécessite un effort de collaboration impliquant les développeurs d’IA, les chercheurs, les décideurs politiques et le public. En travaillant ensemble, nous pouvons créer un cadre qui favorise l’innovation tout en protégeant les droits de propriété intellectuelle et en assurant l’équité et la responsabilité.

La recherche de la vérité fondamentale dans l’entraînement des modèles d’IA

La situation de DeepSeek attire l’attention sur la préoccupation croissante concernant la façon dont les modèles d’IA sont entraînés. Bien que l’attrait d’améliorer rapidement les capacités de l’IA soit fort, les méthodes employées pour atteindre cet objectif doivent faire face à de sérieuses considérations éthiques. Le cœur du problème réside dans les données utilisées pour l’entraînement. Sont-elles d’origine éthique ? Respectent-elles le droit d’auteur et la propriété intellectuelle ? Ces questions deviennent de plus en plus vitales à mesure que l’IA s’intègre à la vie quotidienne.

Les difficultés à déterminer les sources exactes des données des modèles d’IA mettent en évidence un problème difficile. La complexité des algorithmes et l’immense volume de données requis signifient que découvrir les origines des capacités d’un modèle spécifique peut être une entreprise importante, presque comme de la criminalistique pour l’IA. Cela exige le développement d’outils sophistiqués capables d’analyser les modèles d’IA pour révéler la provenance de leurs données d’entraînement, ainsi que des procédures plus transparentes dans le développement de l’IA.

L’impact des données d’entraînement sur l’éthique de l’IA

L’effet des données d’entraînement sur l’éthique de l’IA est substantiel. Les modèles d’IA ne sont aussi impartiaux que les données sur lesquelles ils sont entraînés. L’utilisation de données obtenues auprès de concurrents ou de données contenant des biais inhérents peut conduire à des résultats faussés, à une discrimination injuste et à une intégrité compromise au sein des applications d’IA. Par conséquent, le développement éthique de l’IA nécessite un engagement fort à utiliser des données diversifiées, représentatives et d’origine éthique.

Les problèmes entourant DeepSeek mettent également en évidence la conversation plus large sur la valeur du développement d’IA véritablement original par rapport à la simple amélioration des modèles avec des données existantes. Bien que le fine-tuning et le transfert d’apprentissage soient des stratégies légitimes, la communauté de l’IA doit reconnaître et récompenser les développeurs qui s’engagent à créer des architectures originales et des méthodologies d’entraînement. Cela garantit que le progrès de l’IA est fondé sur une véritable innovation plutôt que sur la reproduction de travaux existants.

Construire un cadre pour la responsabilité dans l’IA

Pour l’avenir, la construction d’un cadre pour la responsabilité dans l’IA nécessite plusieurs étapes clés. La première consiste à établir des directives claires et applicables sur l’approvisionnement, l’utilisation et les droits de propriété intellectuelle des données. Ces directives doivent être à l’échelle de l’industrie et promouvoir l’ouverture et la collaboration tout en protégeant les droits des créateurs de données.

Deuxièmement, la transparence dans le développement de l’IA est essentielle. Les développeurs doivent être ouverts sur les données qu’ils utilisent pour entraîner leurs modèles, sur les techniques utilisées et sur les limitations et les biais potentiels de l’IA. Cette transparence renforce la confiance et permet une utilisation responsable des technologies d’IA.

De plus, il est nécessaire d’assurer une surveillance et un audit constants des systèmes d’IA. L’autorégulation et les audits indépendants peuvent aider à identifier et à corriger les biais potentiels, les problèmes éthiques et les problèmes de conformité. Cette supervision continue est essentielle pour garantir que les systèmes d’IA restent alignés sur les normes éthiques et les valeurs sociétales.

Enfin, des programmes d’éducation et de sensibilisation sont nécessaires pour permettre aux développeurs, aux utilisateurs et aux décideurs politiques de l’IA de comprendre les conséquences éthiques de l’IA. Ces programmes doivent couvrir des sujets tels que la confidentialité des données, les biais algorithmiques et la conception responsable de l’IA, favorisant une culture de sensibilisation éthique et de responsabilité au sein de la communauté de l’IA.

Examen de l’aspect technique : Rétro-ingénierie des modèles d’IA

Un aspect fascinant des accusations portées contre DeepSeek est le défi technique que représente la rétro-ingénierie des modèles d’IA pour déterminer leurs données d’entraînement. Cela implique l’utilisation d’outils et de techniques pour analyser le comportement et les sorties d’un modèle, en tentant de déduire les données sur lesquelles il a été entraîné. C’est similaire à la bio-informatique, comme l’a fait Paech, où vous disséquez des données biologiques complexes pour comprendre leur origine et leur fonction.

Les chercheurs travaillent d’arrache-pied à la mise au point de méthodes avancées pour détecter la présence de données ou de modèles spécifiques dans les modèles d’IA. Ces méthodes utilisent l’analyse statistique, la reconnaissance de formes et les techniques d’apprentissage automatique pour trouver des similitudes entre le comportement d’un modèle et des ensembles de données connus. Bien que ce domaine soit naissant, il promet de fournir des preuves plus concluantes en cas de suspicion d’utilisation abusive des données.

L’impact social des scandales de l’IA

Les scandales de l’IA comme l’affaire DeepSeek ont des conséquences sociales plus larges. Ils érodent la confiance du public dans la technologie de l’IA, soulèvent des inquiétudes quant à la confidentialité et à la sécurité, et stimulent le débat sur le rôle de l’IA dans la société. Ces scandales doivent être traités rapidement et de manière transparente afin de maintenir la confiance et d’éviter un scepticisme généralisé.

À mesure que l’IA s’intègre davantage dans des domaines cruciaux tels que les soins de santé, la finance et la gouvernance, les enjeux augmentent. Les violations éthiques et les violations de données peuvent avoir des conséquences importantes pour les individus et les communautés, soulignant la nécessité de mettre en place des cadres réglementaires solides et des pratiques de développement d’IA responsables.

Repenser l’entraînement de l’IA : Approches novatrices

Les controverses entourant l’entraînement de l’IA poussent les chercheurs à explorer de nouvelles stratégies qui sont plus éthiques, efficaces et résilientes. Une approche prometteuse est l’utilisation de données synthétiques créées à partir de rien, éliminant la nécessité de s’appuyer sur des ensembles de données existants. Les données synthétiques peuvent être conçues pour répondre à des exigences spécifiques, évitant ainsi les biais et garantissant la confidentialité des données.

Une autre méthode est l’apprentissage fédéré, où les modèles d’IA sont entraînés sur des sources de données décentralisées sans accéder directement aux données sous-jacentes ni les partager. Cette technique permet un apprentissage collaboratif tout en protégeant la confidentialité des données, ouvrant de nouvelles possibilités pour le développement de l’IA dans les domaines où l’accès aux données est restreint.

De plus, les chercheurs explorent des moyens d’entraîner des modèles d’IA avec moins de données en utilisant des stratégies telles que le transfert d’apprentissage et la méta-apprentissage. Ces stratégies permettent aux modèles de généraliser à partir de données limitées, réduisant la dépendance à l’égard des grands ensembles de données et rendant le processus d’entraînement plus économique et durable.

Conclusion : Tracer la voie d’une IA éthique

Les accusations portées contre DeepSeek constituent un signal d’alarme pour la communauté de l’IA. À mesure que la technologie de l’IA progresse, il est essentiel de suivre les principes éthiques et de donner la priorité à la transparence, à la responsabilité et à la responsabilisation. En établissant des lignes directrices claires, en favorisant la collaboration et en investissant dans l’éducation et la recherche, nous pouvons créer un avenir où l’IA sert le bien commun tout en respectant les droits individuels et en favorisant l’innovation.