DeepSeek : L'imitation d'OpenAI dévoilée ?

Dévoilement des origines de l’entraînement de DeepSeek-R1

Des recherches récentes menées par Copyleaks, une entreprise spécialisée dans la détection et la gouvernance de l’IA, ont abouti à une réponse définitive quant à savoir si DeepSeek-R1 s’est entraîné sur le modèle d’OpenAI : oui. DeepSeek, un chatbot alimenté par l’IA et disponible gratuitement, ressemble étrangement à ChatGPT en termes d’apparence, de convivialité et de fonctionnalité.

La technique d’empreinte digitale : identifier l’IA auteur

Pour éclairer les origines du texte généré par l’IA, les chercheurs ont développé un outil innovant d’empreinte digitale de texte. Cet outil est conçu pour déterminer le modèle d’IA spécifique responsable de la génération d’un texte donné. Les chercheurs ont méticuleusement entraîné l’outil à l’aide d’un vaste ensemble de données composé de milliers d’échantillons générés par l’IA. Par la suite, ils l’ont testé à l’aide de modèles d’IA connus, et les résultats ont été sans équivoque.

Similarité frappante : DeepSeek-R1 et OpenAI

Les tests ont révélé une statistique convaincante : une proportion substantielle de 74,2 % des textes produits par DeepSeek-R1 présentait une correspondance stylistique avec les résultats d’OpenAI. Cette forte corrélation suggère fortement que DeepSeek a incorporé le modèle d’OpenAI pendant sa phase d’entraînement.

Un contraste dans l’approche : Phi-4 de Microsoft

Pour offrir une perspective contrastée, considérons le modèle Phi-4 de Microsoft. Lors des mêmes tests, Phi-4 a démontré un « désaccord » remarquable de 99,3 % avec tout modèle connu. Ce résultat constitue une preuve convaincante d’un entraînement indépendant, signifiant que Phi-4 a été développé sans s’appuyer sur des modèles existants. Le contraste frappant entre la nature indépendante de Phi-4 et la similarité écrasante de DeepSeek avec OpenAI souligne la réplication ou la copie apparente de ce dernier.

Préoccupations éthiques et de propriété intellectuelle

Cette révélation soulève de sérieuses préoccupations concernant la ressemblance étroite de DeepSeek-R1 avec le modèle d’OpenAI. Ces préoccupations englobent plusieurs domaines critiques, notamment :

  • Source des données : L’origine des données utilisées pour entraîner DeepSeek-R1 devient une question cruciale.
  • Droits de propriété intellectuelle : La violation potentielle des droits de propriété intellectuelle d’OpenAI est une préoccupation majeure.
  • Transparence : Le manque de transparence concernant la méthodologie d’entraînement de DeepSeek soulève des questions éthiques.

L’équipe de recherche et la méthodologie

L’équipe de science des données de Copyleaks, dirigée par Yehonatan Bitton, Shai Nisan et Elad Bitton, a mené cette recherche révolutionnaire. Leur méthodologie était centrée sur une approche de « jury unanime ». Cette approche impliquait trois systèmes de détection distincts, chacun chargé de classer les textes générés par l’IA. Un jugement concluant n’était rendu que lorsque les trois systèmes étaient d’accord.

Implications opérationnelles et commerciales

Au-delà des préoccupations éthiques et de propriété intellectuelle, il existe des implications opérationnelles pratiques à prendre en compte. La dépendance non divulguée à des modèles existants peut entraîner plusieurs problèmes :

  • Renforcement des biais : Les biais existants dans le modèle original peuvent être perpétués.
  • Diversité limitée : La diversité des résultats peut être restreinte, entravant l’innovation.
  • Risques juridiques et éthiques : Des ramifications juridiques ou éthiques imprévues peuvent survenir.

De plus, les affirmations de DeepSeek concernant une méthode d’entraînement révolutionnaire et rentable, si elles s’avéraient basées sur une distillation non autorisée de la technologie d’OpenAI, pourraient avoir des répercussions importantes sur le marché. Cela pourrait avoir contribué à la perte substantielle de 593 milliards de dollars de NVIDIA en une seule journée et potentiellement fourni à DeepSeek un avantage concurrentiel déloyal.

Une approche rigoureuse : combiner plusieurs classificateurs

La méthodologie de recherche a employé une approche très rigoureuse, intégrant trois classificateurs d’IA avancés. Chacun de ces classificateurs a été méticuleusement entraîné sur des échantillons de texte provenant de quatre modèles d’IA importants :

  1. Claude
  2. Gemini
  3. Llama
  4. OpenAI

Ces classificateurs ont été conçus pour identifier les nuances stylistiques subtiles, notamment :

  • Structure de la phrase : L’arrangement des mots et des phrases dans les phrases.
  • Vocabulaire : Le choix des mots et leur fréquence.
  • Phraséologie : Le style général et le ton de l’expression.

Le système de « jury unanime » : garantir la précision

Le système de « jury unanime » était un élément clé de la méthodologie, garantissant un contrôle robuste contre les faux positifs. Ce système exigeait que les trois classificateurs soient indépendamment d’accord sur une classification avant qu’elle ne soit considérée comme définitive. Ce critère strict a abouti à un taux de précision exceptionnel de 99,88 % et à un taux de faux positifs remarquablement bas de seulement 0,04 %. Le système a démontré sa capacité à identifier avec précision les textes provenant de modèles d’IA connus et inconnus.

Au-delà de la détection de l’IA : l’attribution spécifique au modèle

« Avec cette recherche, nous sommes passés de la détection générale de l’IA telle que nous la connaissions à l’attribution spécifique au modèle, une percée qui change fondamentalement notre approche du contenu de l’IA », a déclaré Shai Nisan, Chief Data Scientist chez Copyleaks.

L’importance de l’attribution de modèle

Nisan a en outre souligné l’importance de cette capacité : « Cette capacité est cruciale pour de multiples raisons, notamment l’amélioration de la transparence globale, la garantie de pratiques d’entraînement éthiques de l’IA et, plus important encore, la protection des droits de propriété intellectuelle des technologies d’IA et, espérons-le, la prévention de leur utilisation abusive potentielle. »

Approfondir : les implications de l’approche de DeepSeek

Les conclusions de cette recherche ont des implications profondes qui vont au-delà de la question immédiate de savoir si DeepSeek a copié le modèle d’OpenAI. Explorons certaines de ces implications plus en détail :

L’illusion de l’innovation

Si l’entraînement de DeepSeek reposait fortement sur le modèle d’OpenAI, cela soulève des questions sur l’étendue réelle de son innovation. Bien que DeepSeek ait pu présenter son chatbot comme une création nouvelle, la technologie sous-jacente pourrait être moins révolutionnaire qu’initialement affirmé. Cela pourrait induire en erreur les utilisateurs et les investisseurs qui pensent interagir avec un système d’IA véritablement unique.

L’impact sur le paysage de l’IA

L’adoption généralisée de modèles d’IA entraînés sur d’autres modèles pourrait avoir un effet d’homogénéisation sur le paysage de l’IA. Si de nombreux systèmes d’IA sont finalement dérivés de quelques modèles fondamentaux, cela pourrait limiter la diversité des approches et des perspectives dans le domaine. Cela pourrait étouffer l’innovation et conduire à un écosystème d’IA moins dynamique et moins compétitif.

Le besoin d’une plus grande transparence

Cette affaire met en évidence le besoin urgent d’une plus grande transparence dans le développement et le déploiement des modèles d’IA. Les utilisateurs et les parties prenantes méritent de savoir comment les systèmes d’IA sont entraînés et quelles sources de données sont utilisées. Ces informations sont cruciales pour évaluer les biais potentiels, les limitations et les implications éthiques de ces systèmes.

Le rôle de la réglementation

L’affaire DeepSeek pourrait également alimenter le débat sur la nécessité d’une plus grande réglementation de l’industrie de l’IA. Les gouvernements et les organismes de réglementation pourraient devoir envisager des mesures pour garantir que les développeurs d’IA respectent les directives éthiques, protègent les droits de propriété intellectuelle et promeuvent la transparence.

L’avenir du développement de l’IA

La controverse entourant les méthodes d’entraînement de DeepSeek pourrait servir de catalyseur pour une discussion plus large sur l’avenir du développement de l’IA. Cela pourrait inciter à une réévaluation des meilleures pratiques, des considérations éthiques et de l’importance de l’originalité dans la création de systèmes d’IA.

Un appel au développement responsable de l’IA

L’affaire DeepSeek rappelle l’importance du développement responsable de l’IA. Elle souligne la nécessité de :

  • Originalité : Les développeurs d’IA devraient s’efforcer de créer des modèles véritablement nouveaux plutôt que de s’appuyer fortement sur des modèles existants.
  • Transparence : Les données d’entraînement et les méthodologies utilisées pour développer les systèmes d’IA devraient être divulguées aux utilisateurs et aux parties prenantes.
  • Considérations éthiques : Le développement de l’IA devrait être guidé par des principes éthiques, notamment l’équité, la responsabilité et le respect des droits de propriété intellectuelle.
  • Collaboration : Une collaboration ouverte et un partage des connaissances au sein de la communauté de l’IA peuvent aider à stimuler l’innovation et à prévenir la réplication des biais existants.

La voie à suivre : assurer un avenir de l’IA diversifié et éthique

L’objectif ultime devrait être de créer un écosystème d’IA diversifié et éthique où l’innovation prospère et où les utilisateurs peuvent faire confiance aux systèmes avec lesquels ils interagissent. Cela nécessite un engagement envers des pratiques de développement de l’IA responsables, la transparence et un dialogue continu sur les implications éthiques de cette technologie en évolution rapide. L’affaire DeepSeek sert de leçon précieuse, soulignant les pièges potentiels d’une dépendance excessive aux modèles existants et soulignant l’importance de l’originalité et des considérations éthiques dans la poursuite du progrès de l’IA. L’avenir de l’IA dépend des choix que nous faisons aujourd’hui, et il est crucial que nous donnions la priorité au développement responsable pour assurer un avenir bénéfique et équitable pour tous.
Les conclusions de l’enquête de Copyleaks ont mis en lumière un aspect crucial du développement de l’IA, et il est impératif que l’industrie dans son ensemble tire les leçons de cette expérience pour favoriser un avenir plus transparent, éthique et innovant.