Inquiet pour DeepSeek ? Gemini, le pire collecteur

La controverse DeepSeek et la réponse de l’industrie technologique américaine

L’essor de l’intelligence artificielle a donné naissance à une pléthore d’outils pratiques, mais il a également déclenché un débat houleux sur la confidentialité des données. Alors que les chatbots d’IA sont de plus en plus intégrés à notre vie quotidienne, la question de savoir quelle quantité d’informations personnelles ces plateformes collectent est devenue primordiale. Alors que les préoccupations récentes se sont concentrées sur les modèles d’IA chinois comme DeepSeek, un examen plus approfondi révèle une vérité surprenante : certains des chatbots d’IA américains les plus populaires pourraient être encore plus voraces dans leurs pratiques de collecte de données.

En janvier, DeepSeek, une entreprise chinoise, a dévoilé son modèle d’IA open-source phare. Ces débuts ont provoqué des remous d’appréhension dans l’industrie technologique américaine. Presque immédiatement, un chœur de préoccupations en matière de confidentialité et de sécurité s’est élevé. Des organisations privées et gouvernementales, alimentées par des inquiétudes quant aux risques potentiels, ont rapidement interdit l’utilisation de DeepSeek, tant au niveau national qu’international.

Le cœur de l’appréhension provenait de la conviction que DeepSeek, avec ses origines en Chine, représentait un risque accru pour le public américain. Les craintes de surveillance, de cyberguerre et d’autres menaces à la sécurité nationale étaient fréquemment citées. Une clause spécifique de la politique de confidentialité de DeepSeek alimentait ces préoccupations : “Les informations personnelles que nous collectons auprès de vous peuvent être stockées sur un serveur situé en dehors du pays où vous résidez. Nous stockons les informations que nous collectons sur des serveurs sécurisés situés en République populaire de Chine.”

Cette déclaration apparemment anodine a été interprétée par certains comme une passerelle potentielle permettant au gouvernement chinois d’accéder aux données sensibles des utilisateurs. L’avancement rapide du développement mondial de l’IA et la “course à l’armement de l’IA” perçue entre les États-Unis et la Chine n’ont fait qu’amplifier ces préoccupations, créant une atmosphère de profonde méfiance et soulevant des questions éthiques.

Une révélation surprenante : l’appétit de données de Gemini

Cependant, au milieu de la fureur entourant DeepSeek, une révélation surprenante a émergé. Malgré l’examen minutieux dirigé contre le modèle d’IA chinois, il s’avère que DeepSeek n’est pas le plus grand collecteur de données dans le domaine des chatbots. Une enquête récente de Surfshark, un fournisseur de VPN réputé, a mis en lumière les pratiques de collecte de données de certaines des applications de chatbot d’IA les plus populaires.

Les chercheurs ont méticuleusement analysé les détails de confidentialité de dix chatbots de premier plan, tous disponibles sur l’Apple App Store : ChatGPT, Gemini, Copilot, Perplexity, DeepSeek, Grok, Jasper, Poe, Claude et Pi. Leur analyse s’est concentrée sur trois aspects clés :

  1. Types de données collectées : Quelles catégories spécifiques d’informations utilisateur chaque application recueille-t-elle ?
  2. Lien des données : Les données collectées sont-elles directement liées à l’identité de l’utilisateur ?
  3. Annonceurs tiers : L’application partage-t-elle des données utilisateur avec des entités publicitaires externes ?

Les résultats ont été stupéfiants. Gemini de Google est apparu comme l’application de chatbot d’IA la plus gourmande en données, éclipsant ses concurrents par le volume et la variété des informations personnelles qu’elle collecte. L’application recueille un nombre impressionnant de 22 types de données utilisateur sur 35 possibles. Cela inclut des données très sensibles telles que :

  • Données de localisation précises : Indiquant l’emplacement géographique exact de l’utilisateur.
  • Contenu utilisateur : Capturant le contenu des interactions de l’utilisateur dans l’application.
  • Liste de contacts : Accédant aux contacts de l’appareil de l’utilisateur.
  • Historique de navigation : Suivant l’activité de navigation Web de l’utilisateur.

Cette collecte de données extensive dépasse de loin celle des autres chatbots populaires examinés dans l’étude. DeepSeek, sujet de nombreuses controverses, s’est classé cinquième sur les dix applications, collectant un nombre comparativement modéré de 11 types de données uniques.

Données de localisation et partage avec des tiers : un examen plus approfondi

L’étude a également révélé des tendances préoccupantes concernant les données de localisation et le partage de données avec des tiers. Seuls Gemini, Copilot et Perplexity ont été trouvés pour collecter des données de localisation précises, une information très sensible qui peut révéler beaucoup de choses sur les mouvements et les habitudes d’un utilisateur.

Plus largement, environ 30 % des chatbots analysés se sont avérés partager des données utilisateur sensibles, y compris des données de localisation et l’historique de navigation, avec des entités externes telles que des courtiers en données. Cette pratique soulève d’importantes préoccupations en matière de confidentialité, car elle expose les informations des utilisateurs à un réseau plus large d’acteurs, potentiellement à des fins dépassant la connaissance ou le contrôle de l’utilisateur.

Suivi des données utilisateur : publicité ciblée et au-delà

Une autre découverte alarmante était la pratique du suivi des données utilisateur à des fins de publicité ciblée et à d’autres fins. Trente pour cent des chatbots, en particulier Copilot, Poe et Jasper, ont été trouvés pour collecter des données afin de suivre leurs utilisateurs. Cela signifie que les données utilisateur collectées à partir de l’application sont liées à des données tierces, permettant une publicité ciblée ou la mesure de l’efficacité de la publicité.

Copilot et Poe ont été trouvés pour collecter des identifiants d’appareil à cette fin, tandis que Jasper est allé encore plus loin, rassemblant non seulement des identifiants d’appareil, mais également des données d’interaction avec le produit, des données publicitaires et “toute autre donnée sur l’activité de l’utilisateur dans l’application”, selon les experts de Surfshark.

DeepSeek : ni le meilleur, ni le pire

Le modèle controversé DeepSeek R1, bien que soumis à un examen minutieux, occupe une position intermédiaire en termes de collecte de données. Il recueille en moyenne 11 types de données uniques, se concentrant principalement sur :

  • Informations de contact : Noms, adresses e-mail, numéros de téléphone, etc.
  • Contenu utilisateur : Contenu généré par les utilisateurs dans l’application.
  • Diagnostics : Données relatives aux performances de l’application et au dépannage.

Bien qu’il ne soit pas le chatbot le plus respectueux de la vie privée, les pratiques de collecte de données de DeepSeek sont moins étendues que celles de certains de ses homologues américains, en particulier Gemini.

ChatGPT : une perspective comparative

À titre de comparaison, ChatGPT, l’un des chatbots d’IA les plus utilisés, collecte 10 types de données uniques. Cela comprend :

  • Informations de contact
  • Contenu utilisateur
  • Identifiants
  • Données d’utilisation
  • Diagnostics

Il est important de noter que ChatGPT amasse également l’historique des conversations. Cependant, les utilisateurs ont la possibilité d’utiliser le “chat temporaire”, une fonctionnalité conçue pour atténuer cela en ne stockant pas l’historique des conversations.

Politique de confidentialité de DeepSeek : contrôle de l’utilisateur et suppression des données

La politique de confidentialité de DeepSeek, bien qu’elle soit une source de préoccupation pour certains, inclut des dispositions pour le contrôle de l’utilisateur sur l’historique des conversations. La politique stipule que les utilisateurs peuvent gérer leur historique de conversation et ont la possibilité de le supprimer via leurs paramètres. Cela offre un degré de contrôle qui n’est pas toujours présent dans d’autres applications de chatbot.

Le contexte plus large : développement de l’IA et dynamique américano-chinoise

Les préoccupations entourant DeepSeek, et le débat plus large sur la confidentialité des données de l’IA, sont inextricablement liés à l’accélération rapide du développement mondial de l’IA et à la course à l’armement de l’IA perçue entre les États-Unis et la Chine. Ce contexte géopolitique ajoute une autre couche de complexité à la question, alimentant les inquiétudes concernant la sécurité nationale et le potentiel d’utilisation abusive des technologies d’IA.

Les résultats de l’étude Surfshark, cependant, servent de rappel crucial que les préoccupations en matière de confidentialité des données ne se limitent pas aux modèles d’IA développés dans des pays spécifiques. Le collecteur de données le plus flagrant parmi les chatbots populaires analysés est, en fait, une application basée aux États-Unis. Cela souligne la nécessité d’une approche plus nuancée et complète de la confidentialité des données de l’IA, une approche qui transcende les frontières nationales et se concentre sur les pratiques des entreprises individuelles et les garanties qu’elles mettent en œuvre. Il est impératif que les utilisateurs soient informés des pratiques de collecte de données des outils d’IA qu’ils utilisent, quelle que soit leur origine, et que des réglementations robustes soient mises en place pour protéger la vie privée des utilisateurs dans le paysage de l’IA en évolution rapide. L’accent devrait être mis sur l’établissement de normes claires pour la collecte, l’utilisation et le partage des données, en garantissant la transparence et le contrôle des utilisateurs, et en tenant les entreprises responsables de leurs pratiques en matière de données.