Allégations contre DeepSeek : Plagiat Gemini ?

Allégations : Le modèle d’IA de DeepSeek formé sur la sortie de Gemini de Google ?

Le paysage concurrentiel du développement de l’intelligence artificielle est fertile en innovation, en ambition et, occasionnellement, en accusations d’irrégularités. La dernière controverse concerne DeepSeek, une entreprise qui a rapidement pris de l’importance dans le domaine de l’IA. DeepSeek fait maintenant l’objet d’un examen minutieux, avec des allégations selon lesquelles son plus récent modèle d’IA, DeepSeek-R1-0528, aurait été entraîné à l’aide de données dérivées des modèles Gemini de Google. Cette accusation, formulée par l’analyste d’IA Sam Paech, suggère une violation potentielle des limites éthiques et soulève des questions quant à l’intégrité des pratiques de développement de l’IA.

Les conclusions de l’analyste : Une analyse approfondie de DeepSeek-R1-0528

Sam Paech, une figure respectée dans la communauté de l’analyse de l’IA, a mené un examen approfondi de DeepSeek-R1-0528. Utilisant des outils de bio-informatique, Paech a disséqué le service d’IA, à la recherche d’indices sur ses origines et ses méthodes d’entraînement. Son enquête l’a mené à une conclusion provocatrice : DeepSeek-R1-0528 présentait des similitudes notables avec les réponses générées par Gemini de Google.

Paech s’est rendu sur X (anciennement Twitter) pour partager ses conclusions, déclarant : "Si vous vous demandez pourquoi DeepSeek R1 sonne un peu différemment, je pense qu’ils sont probablement passés de l’entraînement sur OpenAI synthétique à des sorties Gemini synthétiques." Cette déclaration implique un changement dans les sources de données d’entraînement de DeepSeek, passant potentiellement de données synthétiques générées par les modèles d’OpenAI à des données dérivées de Gemini. L’implication est importante et suggère une dépendance directe à l’égard de la technologie d’un concurrent. Les données synthétiques sont des données créées artificiellement plutôt que d’être obtenues par mesure directe. Elles sont souvent utilisées pour augmenter les données du monde réel dans les modèles d’apprentissage automatique pendant l’entraînement, les tests et la validation. En utilisant des modèles d’IA open source, par exemple, il est possible de produire rapidement des données d’entraînement.

Pour examiner plus en profondeur la question, Paech s’est penché sur le site de la communauté des développeurs de Hugging Face, une plateforme populaire open source pour les développeurs d’IA. En tirant parti de son compte de code développeur GitHub, Paech a analysé le modèle DeepSeek dans l’environnement Hugging Face, recherchant d’autres preuves à l’appui de ses affirmations.

La réponse de DeepSeek et ses affirmations d’innovation

En mai 2025, DeepSeek a publié une version mise à jour de son modèle DeepSeek-R1, désigné 0528, par l’intermédiaire de Hugging Face. L’entreprise affirme que cette itération représente un grand pas en avant dans les capacités de l’IA. DeepSeek affirme que le modèle présente des capacités d’inférence "plus profondes", ce qui suggère une capacité accrue de tirer des conclusions et de faire des prédictions en fonction des données d’entrée.

De plus, DeepSeek souligne l’augmentation des ressources informatiques utilisées dans l’entraînement du modèle 0528. Cela suggère un investissement substantiel dans l’infrastructure requise pour traiter et analyser de vastes quantités de données. En plus des ressources accrues, DeepSeek affirme avoir mis en œuvre des "mécanismes d’optimisation algorithmiques" pendant la phase de post-entraînement. Ces mécanismes sont conçus pour affiner les performances du modèle, en améliorant sa précision et son efficacité.

DeepSeek souligne l’excellente performance du modèle 0528 dans une gamme de critères d’évaluation. Ces critères couvrent des domaines critiques tels que les mathématiques, la programmation et la logique générale, mettant en valeur la polyvalence du modèle et ses capacités de résolution de problèmes. DeepSeek déclare sur Hugging Face que la performance du modèle "se rapproche maintenant de celle des modèles de pointe, tels que O3 et Gemini 2.5 Pro". Cette déclaration positionne DeepSeek-R1-0528 comme un joueur important dans le paysage concurrentiel de l’IA.

Sam Paech a également présenté une capture d’écran d’EQ-Bench concernant les résultats d’évaluation des modèles d’IA. Elle montre une série de versions de modèles de développement de Google : Gemini 2.5 Pro, Gemini 2.5 Flash et Gemma 3, ce qui laisse entrevoir la nature concurrentielle du développement des modèles d’IA et les critères utilisés pour comparer les performances.

Le fardeau de la preuve et les considérations contextuelles

Bien que l’analyse de Paech ait déclenché un débat au sein de la communauté de l’IA, les preuves présentées demeurent quelque peu circonstancielles. Citant TechCrunch, le rapport note que la preuve de l’entraînement par Gemini n’est pas forte, bien que certains autres développeurs affirment également avoir trouvé des traces de Gemini. Cela souligne la difficulté de prouver ou de réfuter définitivement les allégations. La complexité des modèles d’IA et les subtilités des données d’entraînement rendent difficile de retracer les origines précises de résultats ou de comportements spécifiques.

Il est également essentiel de tenir compte du contexte plus large du développement de l’IA. De nombreux modèles d’IA sont entraînés sur des ensembles de données massifs, incorporant souvent des informations accessibles au public et des ressources open source. La ligne de démarcation entre l’utilisation légitime de données accessibles au public et l’utilisation non autorisée d’informations exclusives peut être floue, en particulier dans le domaine de l’IA en évolution rapide.

Accusations antérieures : Un modèle de conduite répréhensible présumée ?

Ce n’est pas la première fois que DeepSeek est accusé d’utiliser les données du modèle d’IA d’un concurrent. En décembre 2024, des préoccupations similaires ont été soulevées concernant le modèle V3 de DeepSeek. De nombreux développeurs d’applications ont observé que le modèle V3 s’identifiait fréquemment comme ChatGPT, le chatbot très populaire d’OpenAI. Ce comportement a conduit à spéculer que le modèle de DeepSeek avait été entraîné, au moins en partie, sur des données générées par ChatGPT.

Ces accusations passées créent une toile de fond de suspicion, influençant potentiellement l’interprétation des allégations actuelles. Bien que les incidents soient distincts, ils soulèvent collectivement des questions quant aux pratiques d’approvisionnement en données de DeepSeek et à son engagement envers le développement éthique de l’IA.

Les implications pour l’industrie de l’IA

Les allégations contre DeepSeek, qu’elles soient prouvées ou non, ont des implications importantes pour l’industrie de l’IA dans son ensemble. La controverse souligne l’importance de la provenance des données, de la transparence et des considérations éthiques dans le développement de l’IA. À mesure que les modèles d’IA deviennent de plus en plus sophistiqués et influents, il est essentiel d’établir des lignes directrices et des normes claires pour l’utilisation des données et l’entraînement des modèles.

Les accusations mettent également en évidence les défis liés au contrôle de l’utilisation des données des modèles d’IA. La nature complexe des modèles d’IA et les vastes quantités de données impliquées rendent difficile la détection et la preuve de l’utilisation non autorisée. La communauté de l’IA doit élaborer des mécanismes efficaces pour surveiller la provenance des données et assurer le respect des normes éthiques.

Examen plus approfondi et implications futures

La controverse DeepSeek devrait servir de catalyseur pour un examen plus approfondi des pratiques d’approvisionnement en données au sein de l’industrie de l’IA. Une discussion plus large est nécessaire pour clarifier les limites de l’utilisation acceptable des données et pour établir des mécanismes de détection et de prévention des pratiques contraires à l’éthique.

L’avenir du développement de l’IA dépend de la confiance du public. Si les modèles d’IA sont perçus comme étant développés par des moyens contraires à l’éthique ou injustes, cela pourrait éroder le soutien du public et entraver l’adoption des technologies de l’IA. La communauté de l’IA doit accorder la priorité aux considérations éthiques et à la transparence pour assurer le succès à long terme et les avantages sociétaux de l’intelligence artificielle.

DeepSeek et la communauté open source

L’engagement de DeepSeek auprès de la communauté Hugging Face est un aspect notable de cette situation. Hugging Face est un centre de collaboration où les développeurs partagent des modèles, des ensembles de données et du code, favorisant ainsi l’innovation et l’accessibilité en matière d’IA. En publiant ses modèles sur Hugging Face, DeepSeek bénéficie des commentaires de la communauté, de l’examen minutieux et des améliorations potentielles. Cependant, cette ouverture signifie également que ses modèles sont soumis à un examen approfondi, comme l’a démontré l’analyse de Sam Paech.

L’incident souligne la nature à double tranchant de la collaboration open source. Bien qu’elle favorise l’innovation et la transparence, elle expose également les modèles à des vulnérabilités et à des accusations potentielles. Les entreprises opérant dans des environnements open source doivent être particulièrement vigilantes quant à la provenance des données et aux considérations éthiques, car leurs actions sont soumises à l’examen du public.

Le rôle des données synthétiques dans l’entraînement de l’IA

Les données synthétiques jouent un rôle de plus en plus important dans l’entraînement de l’IA. Elles peuvent être utilisées pour augmenter les données du monde réel, combler les lacunes dans les ensembles de données et corriger les biais. Cependant, l’utilisation de données synthétiques soulève également des préoccupations éthiques. Si un modèle est entraîné sur des données synthétiques qui sont dérivées du modèle d’un concurrent, cela pourrait être considéré comme une violation de la propriété intellectuelle ou des lignes directrices éthiques.

La controverse DeepSeek souligne la nécessité d’une plus grande clarté et d’une réglementation concernant l’utilisation de données synthétiques dans l’entraînement de l’IA. La communauté de l’IA doit élaborer des normes pour garantir que les données synthétiques sont générées de manière éthique et ne portent pas atteinte aux droits d’autrui.

L’étalonnage des modèles d’IA : Une arène concurrentielle

L’étalonnage des modèles d’IA est un aspect crucial du suivi des progrès et de la comparaison des performances. Cependant, la recherche de scores d’étalonnage élevés peut également inciter à des comportements contraires à l’éthique. Si les entreprises se concentrent trop sur l’obtention de scores élevés, elles peuvent être tentées de prendre des raccourcis ou d’utiliser des données non autorisées pour améliorer les performances de leurs modèles.

La capture d’écran de Sam Paech d’EQ-Bench concernant les résultats d’évaluation des modèles d’IA montre les versions des modèles de développement de Google : Gemini 2.5 Pro, Gemini 2.5 Flash et Gemma 3. Cela souligne la nature concurrentielle du développement des modèles d’IA et les critères utilisés pour comparer les performances.

L’importance des audits indépendants

Pour assurer un développement éthique et transparent de l’IA, des audits indépendants peuvent être nécessaires. Des auditeurs indépendants peuvent examiner les pratiques d’approvisionnement en données, les méthodes d’entraînement et les performances des modèles d’une entreprise pour identifier les violations éthiques ou les biais potentiels. Ces audits peuvent aider à renforcer la confiance du public dans les technologies de l’IA.

La controverse DeepSeek souligne la nécessité d’une plus grande responsabilisation dans l’industrie de l’IA. Les entreprises devraient être tenues responsables des implications éthiques de leurs modèles d’IA, et des audits indépendants peuvent aider à garantir qu’elles respectent leurs obligations éthiques.

La voie à suivre : Transparence et collaboration

La voie à suivre pour l’industrie de l’IA réside dans la transparence et la collaboration. Les entreprises devraient être transparentes quant à leurs pratiques d’approvisionnement en données et à leurs méthodes d’entraînement. Elles devraient également collaborer entre elles et avec la communauté de l’IA au sens large pour élaborer des normes éthiques et des pratiques exemplaires.

La controverse DeepSeek nous rappelle que l’industrie de l’IA n’en est qu’à ses débuts. Il reste beaucoup à faire pour garantir que les technologies de l’IA soient développées et utilisées de manière éthique et responsable pour le bénéfice de toute l’humanité.

Conséquences juridiques et droits de propriété intellectuelle

Les allégations contre DeepSeeksoulèvent d’importantes questions juridiques liées aux droits de propriété intellectuelle. S’il est prouvé que DeepSeek a entraîné son modèle d’IA en utilisant des données dérivées de Gemini de Google sans autorisation appropriée, elle pourrait faire face à des poursuites judiciaires pour violation du droit d’auteur ou appropriation illicite de secrets commerciaux.

Le cadre juridique entourant l’IA et la propriété intellectuelle est encore en évolution, et l’affaire DeepSeek pourrait créer d’importants précédents. Il souligne la nécessité de lignes directrices juridiques claires sur l’utilisation des données des modèles d’IA et la protection des droits de propriété intellectuelle à l’ère de l’IA.

Le tribunal de l’opinion publique

En plus des potentielles conséquences juridiques, DeepSeek fait également face au tribunal de l’opinion publique. Les allégations de comportement contraire à l’éthique peuvent nuire à la réputation d’une entreprise et éroder la confiance du public. DeepSeek devra aborder les allégations de manière transparente et prendre des mesures concrètes pour démontrer son engagement envers le développement éthique de l’IA.

La perception du public de l’IA est cruciale pour son adoption généralisée. Si l’IA est perçue comme étant développée et utilisée de manière contraire à l’éthique, cela pourrait entraîner une réaction négative du public et entraver les progrès des technologies de l’IA.

Équilibrer l’innovation et l’éthique

La controverse DeepSeek met en évidence la tension entre l’innovation et l’éthique dans l’industrie de l’IA. Les entreprises subissent des pressions pour innover et développer des modèles d’IA de pointe, mais elles doivent également s’assurer qu’elles le font de manière éthique et responsable.

La communauté de l’IA doit trouver un moyen d’équilibrer la poursuite de l’innovation avec la nécessité de considérations éthiques. Cela nécessite un engagement envers la transparence, la responsabilisation et la collaboration.

L’avenir de la gouvernance de l’IA

L’affaire DeepSeek souligne la nécessité d’une gouvernance plus forte de l’IA. Les gouvernements et les organismes de réglementation devront peut-être intervenir pour établir des lignes directrices et des normes claires pour le développement et le déploiement de l’IA.

La gouvernance de l’IA devrait se concentrer sur la promotion d’une IA éthique, la protection des droits de propriété intellectuelle et la garantie de la sécurité publique. Elle devrait également favoriser l’innovation et éviter d’étouffer la croissance de l’industrie de l’IA.

Conclusion : Un appel au développement responsable de l’IA

La controverse DeepSeek est un signal d’alarme pour l’industrie de l’IA. Elle souligne l’importance des considérations éthiques, de la transparence et de la responsabilisation dans le développement de l’IA. La communauté de l’IA doit tirer des leçons de cet incident et prendre des mesures concrètes pour garantir que les technologies de l’IA soient développées et utilisées de manière responsable pour le bénéfice de toute l’humanité.