L’entraînement de l’IA de DeepSeek sous surveillance : la contribution de Gemini de Google ?
Des spéculations récentes ont surgi, suggérant que DeepSeek, un laboratoire chinois d’IA, aurait pu utiliser des données du modèle Gemini AI de Google pour entraîner sa dernière itération, le modèle de raisonnement R1 AI. Ce modèle a démontré de solides performances dans les benchmarks de mathématiques et de codage. Bien que DeepSeek soit resté silencieux concernant les sources de données utilisées pour entraîner R1, plusieurs chercheurs en IA ont avancé que Gemini, ou au moins des parties de Gemini, avait joué un rôle.
Preuves et accusations
Sam Paech, un développeur basé à Melbourne, spécialisé dans la création d’évaluations de l’« intelligence émotionnelle » pour l’IA, a présenté ce qu’il considère comme une preuve que le modèle DeepSeek a été entraîné en utilisant les résultats générés par Gemini. Paech a noté dans un post sur X (anciennement Twitter) que le modèle de DeepSeek, spécifiquement la version R1-0528, présente une préférence pour le langage et les expressions similaires à celles favorisées par Gemini 2.5 Pro de Google.
De plus, un autre développeur, opérant sous le pseudonyme du créateur de SpeechMap, une « évaluation de la liberté d’expression » pour l’IA, a observé que les « pensées » générées par le modèle DeepSeek alors qu’il travaille à des conclusions ressemblent étroitement aux traces de Gemini. Cette observation ajoute une autre couche d’intrigue aux allégations.
Ce n’est pas la première fois que DeepSeek est confronté à des allégations concernant l’utilisation de données provenant de modèles d’IA concurrents. En décembre dernier, des développeurs ont remarqué que le modèle V3 de DeepSeek s’identifiait fréquemment comme ChatGPT, la plateforme de chatbot populaire d’OpenAI. Cela a suggéré que le modèle avait été entraîné sur des journaux de discussion ChatGPT, soulevant des inquiétudes quant aux pratiques d’utilisation des données.
Accusations plus profondes : distillation et exfiltration de données
Plus tôt cette année, OpenAI a partagé avec le Financial Times qu’ils avaient découvert des preuves reliant DeepSeek à l’utilisation d’une technique appelée distillation. La distillation implique l’entraînement de modèles d’IA en extrayant des données de modèles plus grands et plus sophistiqués. Bloomberg a rapporté que Microsoft, un collaborateur et investisseur clé d’OpenAI, avait détecté une exfiltration de données importante via les comptes de développeurs OpenAI à la fin de 2024. OpenAI pense que ces comptes sont liés à DeepSeek.
La distillation, bien que n’étant pas intrinsèquement contraire à l’éthique, devient problématique lorsqu’elle viole les conditions d’utilisation. Les conditions d’OpenAI interdisent explicitement aux clients d’utiliser les résultats du modèle de l’entreprise pour développer des systèmes d’IA concurrents. Cela soulève de sérieuses questions sur le respect de ces conditions par DeepSeek.
Les eaux troubles des données d’entraînement de l’IA
Il est important de reconnaître que les modèles d’IA s’identifient souvent mal et convergent vers des mots et des expressions similaires. Cela est dû à la nature du web ouvert, qui sert de principale source de données d’entraînement pour de nombreuses entreprises d’IA. Le web est de plus en plus saturé de contenu généré par l’IA. Les fermes de contenu utilisent l’IA pour produire des pièges à clics, et les robots inondent des plateformes comme Reddit et X avec des publications générées par l’IA.
Cette « contamination » rend incroyablement difficile le filtrage efficace des résultats de l’IA des ensembles de données d’entraînement, ce qui complique davantage la question de savoir si DeepSeek a intentionnellement utilisé les données de Gemini.
Opinions et perspectives d’experts
Malgré les difficultés à prouver définitivement les allégations, certains experts en IA pensent qu’il est plausible que DeepSeek se soit entraîné sur des données provenant de Gemini de Google. Nathan Lambert, un chercheur de l’institut de recherche sur l’IA à but non lucratif AI2, a déclaré sur X : « Si j’étais DeepSeek, je créerais certainement une tonne de données synthétiques à partir du meilleur modèle d’API disponible. [DeepSeek est] à court de GPU et riche en liquidités. C’est littéralement plus de calcul pour eux. »
La perspective de Lambert met en évidence les incitations économiques potentielles pour DeepSeek à tirer parti des modèles d’IA existants pour améliorer ses propres capacités, en particulier compte tenu de ses contraintes de ressources.
Mesures de sécurité et contre-mesures
Les entreprises d’IA ont intensifié les mesures de sécurité, en partie pour empêcher des pratiques comme la distillation. OpenAI, en avril, a commencé à exiger des organisations qu’elles remplissent un processus de vérification d’identité pour accéder à certains modèles avancés. Ce processus implique la soumission d’une pièce d’identité émise par le gouvernement d’un pays pris en charge par l’API d’OpenAI. La Chine est notamment absente de cette liste.
Dans une autre initiative, Google a récemment commencé à « résumer » les traces générées par les modèles disponibles via sa plateforme de développement AI Studio. Cette action rend plus difficile l’entraînement de modèles rivaux sur les traces de Gemini de manière efficace. De même, Anthropic a annoncé en mai qu’il commencerait à résumer les traces de son propre modèle, citant la nécessité de protéger ses « avantages concurrentiels ». Ces mesures indiquent une sensibilisation croissante au potentiel d’utilisation abusive des résultats des modèles d’IA et un effort proactif pour atténuer ces risques.
Implications et conséquences
Les allégations contre DeepSeek soulèvent des questions importantes sur l’éthique et la légalité des pratiques d’entraînement de l’IA. Si DeepSeek a effectivement utilisé les données de Gemini pour entraîner son modèle R1, il pourrait faire face à des répercussions juridiques et à des dommages à sa réputation. Cette situation souligne également la nécessité d’une plus grande transparence et d’une réglementation dans l’industrie de l’IA, en particulier en ce qui concerne l’approvisionnement et l’utilisation des données.
Les accusations contre DeepSeek soulignent un dilemme essentiel : comment équilibrer le désir d’innovation et d’avancement dans l’IA avec la nécessité de protéger la propriété intellectuelle et d’assurer une concurrence loyale. L’industrie de l’IA évolue rapidement et des lignes directrices claires et des cadres éthiques sont essentiels pour naviguer dans le paysage juridique et éthique complexe. Les entreprises doivent être transparentes quant à leurs sources de données et respecter les accords de conditions d’utilisation pour maintenir la confiance et éviter les responsabilités juridiques potentielles.
De plus, la question du contenu généré par l’IA contaminant les ensembles de données d’entraînement présente un défi majeur pour l’ensemble de la communauté de l’IA. À mesure que les modèles d’IA deviennent plus aptes à générer du texte, des images et d’autres formes de contenu convaincants, il devient de plus en plus difficile de distinguer les données générées par l’homme des données générées par l’IA. Cette « contamination » pourrait conduire à une homogénéisation des modèles d’IA, où ils commencent tous à présenter des biais et des limitations similaires.
Pour relever ce défi, les entreprises d’IA doivent investir dans des techniques de filtrage de données plus sophistiquées et explorer d’autres sources de données d’entraînement. Elles doivent également être plus transparentes quant à la composition de leurs ensembles de données d’entraînement et aux méthodes utilisées pour filtrer le contenu généré par l’IA.
Naviguer dans l’avenir de l’entraînement de l’IA
La controverse DeepSeek souligne la nécessité urgente d’une discussion plus nuancée sur l’avenir de l’entraînement de l’IA. À mesure que les modèles d’IA deviennent plus puissants et que les données deviennent plus rares, les entreprises peuvent être tentées de brûler des étapes et de s’engager dans des pratiques contraires à l’éthique ou illégales. Cependant, de telles pratiques sapent en fin de compte la durabilité à long terme et la fiabilité de l’industrie de l’IA.
Un effort de collaboration impliquant des chercheurs, des décideurs et des chefs d’entreprise est nécessaire pour élaborer des lignes directrices éthiques et des cadres juridiques qui favorisent le développement responsable de l’IA. Ces lignes directrices devraient aborder des questions telles que l’approvisionnement des données, la transparence et la responsabilité. Elles devraient également inciter les entreprises à investir dans des pratiques d’entraînement de l’IA éthiques et durables.
Considérations clés pour l’avenir de l’entraînement de l’IA :
- Transparence : Les entreprises devraient être transparentes quant aux sources de données utilisées pour entraîner leurs modèles d’IA et aux méthodes utilisées pour filtrer le contenu généré par l’IA.
- Éthique : Le développement de l’IA devrait adhérer à des principes éthiques qui favorisent l’équité, la responsabilité et le respect de la propriété intellectuelle.
- Réglementation : Les décideurs devraient créer des cadres juridiques clairs qui répondent aux défis uniques posés par l’entraînement de l’IA.
- Collaboration : Les chercheurs, les décideurs et les chefs d’entreprise devraient collaborer pour élaborer des lignes directrices éthiques et des pratiques exemplaires pour le développement de l’IA.
- Diversité des données : L’entraînement de l’IA devrait donner la priorité à la diversité des données afin de réduire les biais et d’améliorer les performances globales des modèles d’IA.
- Durabilité : L’entraînement de l’IA devrait être effectué de manière durable, en minimisant son impact environnemental.
- Sécurité : Les mesures de sécurité devraient protéger les modèles d’IA et les données d’entraînement contre tout accès et utilisation non autorisés.
En tenant compte de ces considérations clés, l’industrie de l’IA peut veiller à ce que le développement de l’IA soit mené de manière responsable et éthique, en favorisant l’innovation tout en atténuant les risques potentiels.
La voie à suivre
Les accusations portées contre DeepSeek agissent comme un signal d’alarme pour la communauté de l’IA. Elles soulignent la nécessité cruciale d’une plus grande transparence, d’une conduite éthique et de garanties solides dans le développement de l’IA. Alors que l’IA continue de s’immiscer dans divers aspects de nos vies, il est impératif que nous établissions des limites claires et des lignes directrices éthiques pour garantir son utilisation responsable et bénéfique.
L’affaire DeepSeek, quel que soit son résultat final, façonnera sans aucun doute le discours actuel sur l’éthique de l’IA et influencera la trajectoire future du développement de l’IA. Elle nous rappelle que la poursuite de l’innovation doit être tempérée par un engagement envers les principes éthiques et une reconnaissance des conséquences potentielles de nos actions. L’avenir de l’IA dépend de notre capacité à relever ces défis complexes avec sagesse et clairvoyance.
Autres pistes d’investigation et de réflexion:
- L’impact de la régulation sur l’innovation en matière d’IA : Comment trouver un équilibre entre la surveillance et la promotion du progrès ?
- Le rôle des audits indépendants dans la validation de l’intégrité des ensembles de données d’entraînement d’IA.
- L’établissement de normes industrielles pour la documentation et le partage d’informations sur les sources de données et les méthodes d’entraînement.
- Développer des outils de détection plus précis pour identifier l’utilisation non autorisée de données d’IA.
- L’importance de la sensibilisation et de l’éducation à l’éthique de l’IA pour les développeurs et les utilisateurs.
- La nécessité d’une coopération internationale en matière de réglementation de l’IA pour éviter une fragmentation des approches.
- L’exploration de modèles alternatifs d’entraînement d’IA qui réduisent la dépendance aux vastes ensembles de données et minimisent le risque de violations de la propriété intellectuelle.
- L’encouragement de la recherche sur l’IA explicable (XAI) pour améliorer la transparence et la compréhension des processus de prise de décision des modèles d’IA.
- La promotion d’une culture d’intégrité et de responsabilité au sein de la communauté de l’IA pour décourager les pratiques contraires à l’éthique.
- L’investissement dans des initiatives de recherche visant à identifier et à corriger les biais dans les ensembles de données d’entraînement d’IA.
En conclusion, la controverse autour de DeepSeek sert de catalyseur pour une réflexion plus approfondie sur les défis et les opportunités liés à l’entraînement de l’IA. En adoptant une approche proactive et collaborative, la communauté de l’IA peut s’efforcer de créer un avenir où l’IA est développée et utilisée de manière responsable, éthique et au profit de tous.