Le monde de l’intelligence artificielle n’est pas étranger à la controverse, et le dernier développement implique le laboratoire d’IA chinois DeepSeek. Récemment, DeepSeek a dévoilé une version mise à jour de son modèle de raisonnement R1, présentant des capacités impressionnantes pour aborder les benchmarks mathématiques et de codage. Cependant, la source des données utilisées pour entraîner ce modèle a suscité un débat considérable parmi les chercheurs en IA, certains spéculant qu’elle pourrait provenir, au moins en partie, de la famille de modèles d’IA Gemini de Google. Cette suspicion soulève d’importantes questions sur les pratiques éthiques, le sourcing des données et le paysage concurrentiel au sein de l’industrie de l’IA.
Les preuves présentées
La controverse a commencé lorsque Sam Paech, un développeur basé à Melbourne spécialisé dans la création d’évaluations de "l’intelligence émotionnelle" pour les systèmes d’IA, a présenté ce qu’il prétend être des preuves que le dernier modèle de DeepSeek avait été entraîné sur des sorties générées par Gemini. Selon Paech, le modèle de DeepSeek, identifié comme R1-0528, présente une préférence pour des mots et expressions spécifiques qui sont remarquablement similaires à ceux privilégiés par Gemini 2.5 Pro de Google. Bien que cette observation à elle seule ne soit pas concluante, elle soulève un drapeau rouge et justifie une enquête plus approfondie.
Ajoutant à l’intrigue, un autre développeur, opérant sous le pseudonyme de SpeechMap et connu pour avoir créé une "évaluation de la liberté d’expression" pour l’IA, a souligné que les traces du modèle DeepSeek - les "pensées" qu’il génère au fur et à mesure qu’il travaille à une conclusion - "se lisent comme des traces Gemini". Cette convergence de schémas linguistiques et de processus de pensée alimente davantage la suspicion que DeepSeek a peut-être utilisé les sorties de Gemini au cours du processus d’entraînement.
Accusations passées contre DeepSeek
Ce n’est pas la première fois que DeepSeek est accusé d’avoir entraîné ses modèles d’IA sur des données provenant de systèmes d’IA rivaux. En décembre dernier, des développeurs ont remarqué que le modèle V3 de DeepSeek s’identifiait souvent comme ChatGPT, la plateforme de chatbot alimentée par l’IA d’OpenAI. Ce comportement particulier suggérait que le modèle avait peut-être été entraîné sur les journaux de discussion de ChatGPT, soulevant des inquiétudes quant aux implications éthiques d’une telle pratique.
Plus tôt cette année, OpenAI a informé le Financial Times qu’il avait découvert des preuves liant DeepSeek à l’utilisation de la distillation, une technique qui consiste à entraîner des modèles d’IA en extrayant des données de modèles plus grands et plus performants. De plus, Microsoft, un collaborateur et investisseur clé d’OpenAI, a détecté d’importantes quantités de données exfiltrées via les comptes de développeurs OpenAI fin 2024. OpenAI pense que ces comptes sont affiliés à DeepSeek, ce qui renforce encore la suspicion d’extraction non autorisée de données.
Bien que la distillation ne soit pas intrinsèquement contraire à l’éthique, les conditions d’utilisation d’OpenAI interdisent explicitement aux clients d’utiliser les sorties du modèle de l’entreprise pour construire des systèmes d’IA concurrents. Cette restriction vise à protéger la propriété intellectuelle d’OpenAI et à maintenir un environnement concurrentiel équitable au sein de l’industrie de l’IA. Si DeepSeek a effectivement utilisé la distillation pour entraîner son modèle R1 sur les sorties de Gemini, cela constituerait une violation des conditions d’utilisation d’OpenAI et soulèverait de graves préoccupations éthiques.
Les défis de la contamination des données
Il est important de reconnaître que de nombreux modèles d’IA ont tendance à s’identifier à tort et à converger vers des mots et des expressions similaires. Ce phénomène peut être attribué à la présence croissante de contenu généré par l’IA sur le web ouvert, qui sert de principale source de données d’entraînement pour les entreprises d’IA. Les fermes de contenu utilisent l’IA pour créer des articles d’appât à clics, et les bots inondent des plateformes comme Reddit et X avec des publications générées par l’IA.
Cette "contamination" du web avec du contenu généré par l’IA pose un défi important aux entreprises d’IA, rendant extrêmement difficile le filtrage complet des sorties d’IA des ensembles de données d’entraînement. En conséquence, les modèles d’IA peuvent apprendre involontairement les uns des autres, ce qui conduit aux similitudes observées dans le langage et les processus de pensée.
Opinions et perspectives d’experts
Malgré les défis de la contamination des données, des experts en IA comme Nathan Lambert, chercheur à l’institut de recherche à but non lucratif AI2, estiment qu’il n’est pas improbable que DeepSeek se soit entraîné sur des données provenant de Gemini de Google. Lambert suggère que DeepSeek, confronté à une pénurie de GPU mais possédant d’amples ressources financières, aurait pu choisir de générer des données synthétiques à partir du meilleur modèle d’API disponible. Selon lui, cette approche pourrait être plus efficace sur le plan computationnel pour DeepSeek.
La perspective de Lambert met en évidence les considérations pratiques qui peuvent inciter les entreprises d’IA à explorer des stratégies alternatives de sourcing des données. Bien que l’utilisation de données synthétiques puisse être une technique légitime et efficace, il est essentiel de s’assurer que les données sont générées de manière éthique et ne violent aucune condition d’utilisation ou directive éthique.
Mesures de sécurité et efforts de prévention
En réponse aux préoccupations concernant la distillation et la contamination des données, les entreprises d’IA ont renforcé leurs mesures de sécurité. OpenAI, par exemple, a mis en place une exigence pour que les organisations effectuent un processus de vérification d’identité afin d’accéder à certains modèles avancés. Ce processus nécessite une pièce d’identité émise par le gouvernement de l’un des pays pris en charge par l’API d’OpenAI, excluant la Chine de la liste.
Google a également pris des mesures pour atténuer le risque de distillation en "résumant" les traces générées par les modèles disponibles via sa plateforme de développement AI Studio. Ce processus de résumé rend plus difficile l’entraînement de modèles rivaux performants sur les traces de Gemini. De même, Anthropic a annoncé en mai qu’il commencerait à résumer les traces de son propre modèle, citant la nécessité de protéger ses "avantages concurrentiels".
Ces mesures de sécurité représentent un effort concerté des entreprises d’IA pour protéger leur propriété intellectuelle et empêcher l’extraction non autorisée de données. En mettant en œuvre des contrôles d’accès plus stricts et en masquant les traces de modèle, elles visent à dissuader les pratiques contraires à l’éthique et à maintenir des règles du jeu équitables au sein de l’industrie de l’IA.
La réponse de Google
Contacté pour commenter, Google n’a pas encore répondu aux allégations. Ce silence laisse place à la spéculation et intensifie encore la controverse. Alors que la communauté de l’IA attend une déclaration officielle de Google, les questions entourant les pratiques de sourcing de données de DeepSeek continuent de planer.
Les implications pour l’industrie de l’IA
La controverse DeepSeek soulève des questions fondamentales sur les frontières éthiques du développement de l’IA et l’importance d’un sourcing de données responsable. À mesure que les modèles d’IA deviennent de plus en plus sophistiqués et performants, la tentation de prendre des raccourcis et d’utiliser des données non autorisées peut se renforcer. Cependant, de telles pratiques peuvent avoir des conséquences néfastes, compromettre l’intégrité de l’industrie de l’IA et éroder la confiance du public.
Pour assurer la durabilité à long terme et le développement éthique de l’IA, il est impératif que les entreprises d’IA adhèrent à des directives éthiques strictes et donnent la priorité à des pratiques de sourcing de données responsables. Cela comprend l’obtention d’un consentement explicite des fournisseurs de données, le respect des droits de propriété intellectuelle et l’évitement de l’utilisation de données non autorisées ou biaisées.
De plus, une plus grande transparence et une plus grande responsabilité sont nécessaires au sein de l’industrie de l’IA. Les entreprises d’IA devraient être plus transparentes quant à leurs pratiques de sourcing de données et aux méthodes utilisées pour entraîner leurs modèles. Cette transparence accrue contribuera à favoriser la confiance dans les systèmes d’IA et à promouvoir un écosystème d’IA plus éthique et responsable.
La controverse DeepSeek sert de rappel opportun des défis et des considérations éthiques qui doivent être abordés à mesure que la technologie de l’IA continue de progresser. En défendant les principes éthiques, en promouvant la transparence et en favorisant la collaboration, la communauté de l’IA peut s’assurer que l’IA est utilisée au profit de la société et non au détriment des valeurs éthiques.
Exploration approfondie des aspects techniques
Pour mieux comprendre les nuances de ce problème, il est essentiel d’approfondir les aspects techniques de la manière dont les modèles d’IA sont entraînés et les techniques spécifiques en question, à savoir la distillation et la génération de données synthétiques.
Distillation : Clonage d’intelligence ?
La distillation, dans le contexte de l’IA, fait référence à une technique de compression de modèle où un modèle "étudiant" plus petit et plus efficace est entraîné pour imiter le comportement d’un modèle "enseignant" plus grand et plus complexe. Le modèle étudiant apprend en observant les sorties du modèle enseignant, extrayant efficacement les connaissances et les transférant vers une architecture plus petite. Bien que la distillation puisse être bénéfique pour le déploiement de modèles d’IA sur des appareils aux ressources limitées, elle soulève des préoccupations éthiques lorsque les données ou l’architecture du modèle enseignant sont propriétaires.
Si DeepSeek a utilisé les sorties de Gemini pour entraîner son modèle R1 par la distillation sans autorisation, cela équivaudrait à cloner l’intelligence de Gemini et à potentiellement violer les droits de propriété intellectuelle de Google. La clé ici est l’utilisation non autorisée des sorties de Gemini, qui sont protégées par le droit d’auteur et d’autres mécanismes juridiques.
Génération de données synthétiques : Une arme à double tranchant
La génération de données synthétiques implique la création de points de données artificiels qui ressemblent à des données du monde réel. Cette technique est souvent utilisée pour augmenter les ensembles de données d’entraînement, en particulier lorsque les données réelles sont rares ou coûteuses à obtenir. Cependant, la qualité et les implications éthiques des données synthétiques dépendent fortement de la manière dont elles sont générées.
Si DeepSeek a utilisé l’API de Gemini pour générer des données synthétiques, la question devient : à quel point ces données ressemblent-elles aux sorties réelles de Gemini, et enfreignent-elles la propriété intellectuelle de Google ? Si les données synthétiques sont simplement inspirées par Gemini mais ne reproduisent pas directement ses sorties, cela pourrait être considéré comme un usage loyal. Cependant, si les données synthétiques sont pratiquement indiscernables des sorties de Gemini, cela pourrait soulever des préoccupations similaires à celles de la distillation.
Implications du surapprentissage du modèle
Une autre préoccupation connexe est le surapprentissage du modèle. Le surapprentissage se produit lorsqu’un modèle apprend trop bien les données d’entraînement, au point qu’il fonctionne mal sur les nouvelles données non vues. Si DeepSeek a entraîné son modèle R1 excessivement sur les sorties de Gemini, cela aurait pu entraîner un surapprentissage, où le modèle mémorise essentiellement les réponses de Gemini au lieu de généraliser à de nouvelles situations.
Ce type de surapprentissage limiterait non seulement l’applicabilité du modèle R1, mais rendrait également plus facile la détection de sa dépendance aux données de Gemini. Les "traces" que SpeechMap a notées pourraient être des preuves de ce surapprentissage, où le modèle R1 régurgite essentiellement des schémas appris des sorties de Gemini.
Considérations éthiques et meilleures pratiques de l’industrie
Au-delà des aspects techniques, cette controverse souligne la nécessité de directives éthiques claires et de meilleures pratiques de l’industrie pour le développement de l’IA. Certains principes clés incluent :
- Transparence: Les entreprises d’IA devraient être transparentes quant à leurs sources de données et leurs méthodologies d’entraînement. Cela permet un audit et une vérification indépendants.
- Consentement: Les entreprises d’IA devraient obtenir un consentement explicite des fournisseurs de données avant d’utiliser leurs données pour l’entraînement. Cela inclut le respect des droits de propriété intellectuelle et l’évitement du grattage de données non autorisé.
- Équité: Les modèles d’IA devraient être équitables et non biaisés. Cela nécessite une attention particulière à la diversité des données et à l’atténuation des biais algorithmiques.
- Responsabilité: Les entreprises d’IA devraient être responsables des actions de leurs modèles d’IA. Cela inclut l’établissement de cadres de responsabilité clairs et la prise en charge des dommages causés par les systèmes d’IA.
- Sécurité: Les entreprises d’IA devraient donner la priorité à la sécurité de leurs modèles d’IA et de leurs données. Cela inclut la protection contre l’accès non autorisé et la prévention des violations de données.
Le rôle de la réglementation
En plus des directives éthiques et des meilleures pratiques de l’industrie, la réglementation peut être nécessaire pour relever les défis posés par le développement de l’IA. Certaines mesures réglementaires potentielles incluent :
- Lois sur la confidentialité des données: Les lois qui protègent les données des individus et restreignent l’utilisation des informations personnelles pour l’entraînement de l’IA.
- Lois sur la propriété intellectuelle: Les lois qui protègent les modèles d’IA et les données contre la copie et la distribution non autorisées.
- Lois sur la concurrence: Les lois qui empêchent les comportements anticoncurrentiels dans l’industrie de l’IA, tels que la conservation des données et l’accès déloyal aux ressources.
- Réglementations en matière de sécurité: Les réglementations qui garantissent la sécurité et la fiabilité des systèmes d’IA utilisés dans les applications critiques.
En combinant des directives éthiques, les meilleures pratiques de l’industrie et une réglementation appropriée, nous pouvons créer un écosystème d’IA plus responsable et durable qui profite à la société dans son ensemble. La controverse DeepSeek sert de signal d’alarme, nous incitant à relever ces défis de manière proactive et à veiller à ce que l’IA soit développée d’une manière qui s’aligne sur nos valeurs et nos principes.