DeepSeek et Gemini : Plagiat ou Inspiration ?

Le monde de l’IA est en effervescence suite à la récente publication d’une version améliorée du modèle de raisonnement R1 de DeepSeek. Ce laboratoire d’IA chinois a dévoilé un modèle qui démontre des capacités impressionnantes dans les benchmarks mathématiques et de codage. Cependant, l’origine des données utilisées pour entraîner ce modèle est devenue un point central de discussion, certains chercheurs en IA suggérant un lien possible avec la famille d’IA Gemini de Google.

Le Modèle R1 de DeepSeek : Un Examen Approfondi

Le modèle de raisonnement R1 de DeepSeek a attiré l’attention pour ses performances dans des domaines tels que la résolution de problèmes mathématiques et les tâches de codage. La réticence de l’entreprise à divulguer les sources de données spécifiques utilisées dans l’entraînement du modèle a alimenté la spéculation au sein de la communauté de recherche en IA.

Allégations d’Influence de Gemini

Le cœur du débat tourne autour de la possibilité que DeepSeek ait tiré parti des résultats de Gemini de Google pour améliorer son propre modèle. Sam Paech, un développeur d’IA spécialisé dans les évaluations de « l’intelligence émotionnelle », a présenté des preuves suggérant que le modèle R1-0528 de DeepSeek présente des préférences pour le langage et les expressions similaires à celles favorisées par Gemini 2.5 Pro de Google. Bien que cette observation seule ne constitue pas une preuve définitive, elle a contribué à la discussion en cours.

Ajoutant une autre couche à la discussion, le créateur anonyme de « SpeechMap », un outil d’évaluation de l’IA axé sur la liberté d’expression, a noté que les « pensées » générées par le modèle DeepSeek - les processus de raisonnement internes qu’il utilise pour parvenir à des conclusions - ressemblent aux schémas de traces de Gemini. Cela intensifie encore la question de savoir si DeepSeek a utilisé des données de la famille Gemini de Google.

Accusations Antérieures et Préoccupations d’OpenAI

Ce n’est pas la première fois que DeepSeek est accusé d’utiliser des données provenant de modèles d’IA concurrents. En décembre, il a été observé que le modèle V3 de DeepSeek s’identifiait fréquemment comme ChatGPT, le chatbot d’IA largement utilisé d’OpenAI. Cela a conduit à des soupçons que le modèle aurait pu être entraîné sur des journaux de discussion ChatGPT.

Ajoutant à l’intrigue, OpenAI aurait découvert des preuves plus tôt cette année reliant DeepSeek à l’utilisation de la distillation, une technique qui consiste à extraire des données de modèles d’IA plus grands et plus puissants pour entraîner des modèles plus petits. Selon les rapports, Microsoft, un collaborateur et investisseur clé d’OpenAI, a détecté une exfiltration importante de données via les comptes de développeur OpenAI à la fin de 2024. OpenAI pense que ces comptes sont associés à DeepSeek.

Bien que la distillation soit une pratique courante dans le monde de l’IA, les conditions d’utilisation d’OpenAI interdisent explicitement aux utilisateurs d’utiliser les sorties du modèle de l’entreprise pour créer des systèmes d’IA concurrents. Cela soulève des inquiétudes quant à d’éventuelles violations des politiques d’OpenAI.

Le Défi de la « Contamination » de l’IA

Il est important de considérer que les modèles d’IA, pendant l’entraînement, peuvent converger vers un vocabulaire et un phrasé similaires. Cela est principalement dû au fait que le web ouvert, la principale source de données d’entraînement pour les entreprises d’IA, est de plus en plus saturé de contenu généré par l’IA. Les fermes de contenu utilisent l’IA pour produire des articles piège-à-clics, et les robots inondent des plateformes comme Reddit et X avec des publications générées par l’IA.

Cette « contamination » du paysage des données rend difficile le filtrage efficace du contenu généré par l’IA à partir des ensembles de données d’entraînement. En conséquence, il peut être difficile de discerner si la sortie d’un modèle est réellement dérivée des données d’un autre modèle ou reflète simplement la présence omniprésente de contenu généré par l’IA sur le web.

Points de Vue d’Experts sur la Question

Malgré les difficultés à prouver de manière définitive le lien, des experts en IA comme Nathan Lambert, un chercheur de l’institut de recherche en IA AI2, estiment que la possibilité que DeepSeek s’entraîne sur des données de Gemini de Google est plausible. Lambert suggère que DeepSeek, confronté à des contraintes de disponibilité des GPU mais possédant d’amples ressources financières, pourrait trouver plus efficace d’utiliser des données synthétiques générées par le meilleur modèle d’API disponible.

Les Entreprises d’IA Renforcent les Mesures de Sécurité

Les préoccupations concernant la distillation et l’utilisation non autorisée des données poussent les entreprises d’IA à renforcer leurs mesures de sécurité. OpenAI, par exemple, exige désormais des organisations qu’elles réalisent un processus de vérification d’identité pour accéder à certains modèles avancés. Ce processus nécessite une pièce d’identité délivrée par le gouvernement d’un pays pris en charge par l’API d’OpenAI, à l’exclusion de la Chine.

Google a également pris des mesures pour atténuer le potentiel de distillation. Ils ont récemment commencé à « résumer » les traces générées par les modèles disponibles via sa plateforme de développement AI Studio. Cela rend plus difficile l’entraînement de modèles concurrents en extrayant des informations détaillées des traces de Gemini. De même, Anthropic a annoncé son intention de résumer les traces de son propre modèle, invoquant la nécessité de protéger ses « avantages concurrentiels ».

Les Implications pour le Paysage de l’IA

La controverse entourant DeepSeek et l’utilisation potentielle des données de Gemini de Google met en évidence plusieurs questions cruciales dans le paysage de l’IA :

  • Éthique des données et développement responsable de l’IA : À mesure que les modèles d’IA deviennent de plus en plus sophistiqués, les considérations éthiques concernant l’approvisionnement et l’utilisation des données deviennent primordiales. Les entreprises d’IA doivent s’assurer qu’elles respectent les directives éthiques et qu’elles respectent les droits de propriété intellectuelle d’autrui.
  • L’impact du contenu généré par l’IA : La prolifération de contenu généré par l’IA sur le web pose un défi pour l’entraînement de l’IA. À mesure que les données deviennent de plus en plus « contaminées », il devient plus difficile de garantir la qualité et l’intégrité des modèles d’IA.
  • Le besoin de transparence et de responsabilité : Les entreprises d’IA doivent être transparentes quant à leurs sources de données et à leurs méthodes d’entraînement. Cela contribuera à instaurer la confiance et à garantir que l’IA est développée et utilisée de manière responsable.
  • L’importance de mesures de sécurité robustes : À mesure que l’industrie de l’IA devient plus compétitive, les entreprises d’IA doivent mettre en œuvre des mesures de sécurité robustes pour empêcher l’accès non autorisé à leurs données et à leurs modèles.

L’Avenir du Développement de l’IA

La controverse DeepSeek sert de rappel des défis éthiques et techniques complexes auxquels est confrontée l’industrie de l’IA. À mesure que l’IA continue d’évoluer, il est crucial que les entreprises d’IA, les chercheurs et les décideurs politiques travaillent ensemble pour s’assurer que l’IA est développée et utilisée d’une manière qui profite à la société. Cela comprend la promotion de la transparence, de la responsabilité et des pratiques de données éthiques.

Le Débat en Cours : Les allégations contre DeepSeek soulignent les préoccupations croissantes concernant la confidentialité des données, la sécurité et le développement éthique de l’IA. Le manque de transparence dans l’approvisionnement des données et les frontières de plus en plus floues entre la collecte légitime de données et le grattage de données non autorisé exigent des réglementations claires et des pratiques responsables au sein de la communauté de l’IA. À mesure que la technologie progresse, l’industrie doit se débattre avec des questions telles que les droits de propriété intellectuelle, le risque de « contamination de l’IA » et le potentiel de conséquences imprévues.

L’Éthique des Données d’Entraînement de l’IA : La controverse entourant DeepSeek met également en évidence les considérations éthiques qui entrent en jeu lors de la collecte de données d’entraînement pour les modèles d’IA. Avec la dépendance croissante à l’égard de vastes ensembles de données extraits d’Internet, des questions telles que qui possède les données, comment le consentement est obtenu (ou ignoré) et si les données sont utilisées de manière équitable et responsable deviennent de plus en plus urgentes. La communauté de l’IA doit établir des directives claires pour l’approvisionnement des données qui respectent les lois sur le droit d’auteur, protègent les informations personnelles et atténuent les biais.

La Course à la Domination de l’IA : Les accusations contre DeepSeek peuvent également être interprétées comme un reflet de la course intense à la domination de l’IA entre les États-Unis et la Chine. Les deux pays investissent des milliards de dollars dans la recherche et le développement de l’IA, et la pression pour réaliser des percées alimente la concurrence et potentiellement la réduction des coûts. Si DeepSeek utilise effectivement les données d’OpenAI ou de Google sans autorisation, cela pourrait être interprété comme un exemple des tactiques agressives et du vol de propriété intellectuelle qui ont longtemps frappé la relation technologique entre les États-Unis et la Chine.

Les Implications Plus Larges pour l’Écosystème de l’IA : Bien que l’attention soit actuellement focalisée sur DeepSeek, cette affaire pourrait avoir des implications plus larges pour l’ensemble de l’écosystème de l’IA. S’il est prouvé que DeepSeek a utilisé illégalement des données de ChatGPT ou de Gemini, cela pourrait inciter d’autres entreprises à auditer rigoureusement leurs propres pratiques d’approvisionnement en données, ce qui pourrait ralentir le rythme du développement et augmenter les coûts. Cela pourrait également conduire à des réglementations plus strictes concernant la collecte et l’utilisation des données, non seulement aux États-Unis et en Chine, mais à l’échelle mondiale.

L’Impact des Données Générées Synthétiquement : L’émergence de données synthétiques, proposée par Lambert, comme alternative réalisable pour entraîner des modèles soulève des questions fondamentales sur l’avenir du développement de l’IA. Bien que les ensembles de données synthétiques évitent certaines des préoccupations éthiques et de droit d’auteur liées aux données du monde réel, les performances et la robustesse des modèles entraînés sur des données synthétiques ne correspondent souvent pas à celles des modèles entraînés sur des données originales. La communauté de l’IA doit trouver des approches innovantes pour générer des ensembles de données synthétiques sophistiqués qui répondent aux besoins de l’industrie sans compromettre la précision et la fiabilité.

La Récapitulation des Modèles comme Forme de Gouvernance des Données : La récente décision de Google et d’Anthropic de commencer à « résumer » les traces générées par leurs modèles indique l’importance croissante de la gouvernance des données dans l’industrie de l’IA. En obscurcissant les informations détaillées dans les processus de prise de décision des modèles, les entreprises rendent plus difficile pour les autres la rétro-ingénierie de leurs technologies. Cette approche peut aider à protéger les secrets commerciaux et à faire respecter les pratiques d’approvisionnement en données éthiques, mais elle soulève également des questions sur la transparence et l’explicabilité des systèmes d’IA.

Équilibrer l’Innovation avec les Considérations Éthiques et Juridiques : La controverse DeepSeek souligne la nécessité de trouver un équilibre prudent entre l’encouragement de l’innovation en matière d’IA et la protection des droits de propriété intellectuelle et la garantie du respect des principes éthiques. À mesure que les modèles d’IA continuent de gagner en sophistication et en complexité, les défis éthiques et juridiques auxquels est confrontée l’industrie ne feront que s’accentuer. Trouver le juste équilibre entre ces préoccupations sera essentiel pour favoriser le développement responsable et durable de l’IA.