De DeepSeek-controverse en de reactie van de Amerikaanse techindustrie
In januari onthulde DeepSeek, een Chinees bedrijf, zijn vlaggenschip open-source AI-model. Het debuut veroorzaakte rimpelingen van bezorgdheid in de Amerikaanse techindustrie. Vrijwel onmiddellijk ontstond er een koor van privacy- en veiligheidsbezwaren. Particuliere en overheidsorganisaties, gedreven door angst voor potentiële risico’s, ondernamen snel actie om het gebruik van DeepSeek zowel nationaal als internationaal te verbieden.
De kern van de bezorgdheid was de overtuiging dat DeepSeek, met zijn oorsprong in China, een verhoogd risico vormde voor het Amerikaanse publiek. Angst voor surveillance, cyberoorlogvoering en andere bedreigingen voor de nationale veiligheid werden vaak genoemd. Deze zorgen werden aangewakkerd door een specifieke clausule in het privacybeleid van DeepSeek, waarin stond: “De persoonlijke informatie die we van u verzamelen, kan worden opgeslagen op een server die zich buiten het land bevindt waar u woont. We slaan de informatie die we verzamelen op in beveiligde servers in de Volksrepubliek China.”
Deze ogenschijnlijk onschuldige verklaring werd door sommigen geïnterpreteerd als een potentiële toegangspoort voor de Chinese overheid tot gevoelige gebruikersgegevens. De snelle vooruitgang van de wereldwijde AI-ontwikkeling en de vermeende “AI-wapenwedloop” tussen de VS en China dienden alleen maar om deze zorgen te versterken, waardoor een sfeer van diep wantrouwen ontstond en ethische vragen werden opgeworpen.
Een verrassende onthulling: Gemini’s datahonger
Te midden van de ophef rond DeepSeek is er echter een verrassende onthulling aan het licht gekomen. Ondanks het intense onderzoek naar het Chinese AI-model, blijkt DeepSeek niet de grootste dataverzamelaar in de chatbot-arena te zijn. Een recent onderzoek door Surfshark, een gerenommeerde VPN-provider, heeft licht geworpen op de dataverzamelingspraktijken van enkele van de meest populaire AI-chatbot-applicaties.
De onderzoekers analyseerden nauwgezet de privacygegevens van tien prominente chatbots, allemaal gemakkelijk verkrijgbaar in de Apple App Store: ChatGPT, Gemini, Copilot, Perplexity, DeepSeek, Grok, Jasper, Poe, Claude en Pi. Hun analyse richtte zich op drie belangrijke aspecten:
- Typen verzamelde gegevens: Welke specifieke categorieën gebruikersinformatie verzamelt elke applicatie?
- Gegevenskoppeling: Worden de verzamelde gegevens direct gekoppeld aan de identiteit van de gebruiker?
- Externe adverteerders: Deelt de applicatie gebruikersgegevens met externe advertentie-entiteiten?
De bevindingen waren opzienbarend. Google’s Gemini kwam naar voren als de meest data-intensieve AI-chatbot-app, die zijn concurrenten overtrof in het enorme volume en de verscheidenheid aan persoonlijke informatie die het verzamelt. De applicatie verzamelt maar liefst 22 van de 35 mogelijke typen gebruikersgegevens. Dit omvat zeer gevoelige gegevens zoals:
- Precieze locatiegegevens: Het exact lokaliseren van de geografische locatie van de gebruiker.
- Gebruikersinhoud: Het vastleggen van de inhoud van gebruikersinteracties binnen de app.
- Contactenlijst: Toegang tot de contacten van het apparaat van de gebruiker.
- Browsegeschiedenis: Het volgen van de webbrowse-activiteit van de gebruiker.
Deze uitgebreide dataverzameling overtreft die van andere populaire chatbots die in het onderzoek zijn onderzocht, ruimschoots. DeepSeek, het onderwerp van veel controverse, stond op de vijfde plaats van de tien applicaties en verzamelde een relatief bescheiden 11 unieke gegevenstypen.
Locatiegegevens en delen met derden: een nadere blik
De studie bracht ook zorgwekkende trends aan het licht met betrekking tot locatiegegevens en het delen van gegevens met derden. Alleen Gemini, Copilot en Perplexity bleken precieze locatiegegevens te verzamelen, een zeer gevoelig stuk informatie dat veel kan onthullen over de bewegingen en gewoonten van een gebruiker.
Meer in het algemeen bleek ongeveer 30% van de geanalyseerde chatbots gevoelige gebruikersgegevens, waaronder locatiegegevens en browsegeschiedenis, te delen met externe entiteiten zoals databrokers. Deze praktijk roept aanzienlijke privacybezwaren op, omdat het gebruikersinformatie blootstelt aan een breder netwerk van actoren, mogelijk voor doeleinden buiten de kennis of controle van de gebruiker.
Gebruikersgegevens volgen: gerichte advertenties en meer
Een andere alarmerende bevinding was de praktijk van het volgen van gebruikersgegevens voor gerichte advertenties en andere doeleinden. Dertig procent van de chatbots, met name Copilot, Poe en Jasper, bleek gegevens te verzamelen om hun gebruikers te volgen. Dit betekent dat de gebruikersgegevens die van de app worden verzameld, worden gekoppeld aan gegevens van derden, waardoor gerichte advertenties of het meten van de effectiviteit van advertenties mogelijk wordt.
Copilot en Poe bleken apparaat-ID’s voor dit doel te verzamelen, terwijl Jasper nog verder ging en niet alleen apparaat-ID’s verzamelde, maar ook gegevens over productinteractie, advertentiegegevens en “alle andere gegevens over gebruikersactiviteit in de app”, aldus de experts van Surfshark.
DeepSeek: niet de beste, niet de slechtste
Het controversiële DeepSeek R1-model, hoewel onderworpen aan intensief onderzoek, neemt een middenpositie in wat betreft dataverzameling. Het verzamelt gemiddeld 11 unieke gegevenstypen, voornamelijk gericht op:
- Contactinformatie: Namen, e-mailadressen, telefoonnummers, enz.
- Gebruikersinhoud: Inhoud gegenereerd door gebruikers binnen de app.
- Diagnostiek: Gegevens met betrekking tot app-prestaties en probleemoplossing.
Hoewel het niet de meest privacyrespecterende chatbot is, zijn de dataverzamelingspraktijken van DeepSeek minder uitgebreid dan die van sommige van zijn in de VS gevestigde tegenhangers, met name Gemini.
ChatGPT: een vergelijkend perspectief
Ter vergelijking: ChatGPT, een van de meest gebruikte AI-chatbots, verzamelt 10 unieke soorten gegevens. Dit omvat:
- Contactinformatie
- Gebruikersinhoud
- Identificatoren
- Gebruiksgegevens
- Diagnostiek
Het is belangrijk op te merken dat ChatGPT ook chatgeschiedenis verzamelt. Gebruikers hebben echter de mogelijkheid om ‘Temporary chat’ te gebruiken, een functie die is ontworpen om dit te beperken door de gespreksgeschiedenis niet op te slaan.
DeepSeek’s privacybeleid: gebruikerscontrole en gegevensverwijdering
Het privacybeleid van DeepSeek, hoewel voor sommigen een bron van zorg, bevat wel bepalingen voor gebruikerscontrole over de chatgeschiedenis. Het beleid stelt dat gebruikers hun chatgeschiedenis kunnen beheren en de mogelijkheid hebben om deze te verwijderen via hun instellingen. Dit biedt een mate van controle die niet altijd aanwezig is in andere chatbot-applicaties.
De bredere context: AI-ontwikkeling en de dynamiek tussen de VS en China
De zorgen rond DeepSeek, en het bredere debat over AI-dataprivacy, zijn onlosmakelijk verbonden met de snelle versnelling van de wereldwijde AI-ontwikkeling en de vermeende AI-wapenwedloop tussen de VS en China. Deze geopolitieke context voegt een extra laag complexiteit toe aan de kwestie, waardoor angst voor nationale veiligheid en het potentieel voor misbruik van AI-technologieën wordt aangewakkerd.
De bevindingen van de Surfshark-studie dienen echter als een cruciale herinnering dat zorgen over dataprivacy niet beperkt zijn tot AI-modellen die in specifieke landen zijn ontwikkeld. De meest flagrante dataverzamelaar van de populaire chatbots die zijn geanalyseerd, is in feite een in de VS gevestigde applicatie. Dit onderstreept de noodzaak van een meer genuanceerde en alomvattende benadering van AI-dataprivacy, een die nationale grenzen overstijgt en zich richt op de praktijken van individuele bedrijven en de waarborgen die zij implementeren. Het is absoluut noodzakelijk dat gebruikers worden geïnformeerd over de dataverzamelingspraktijken van de AI-tools die ze gebruiken, ongeacht hun oorsprong, en dat er robuuste regelgeving wordt ingevoerd om de privacy van gebruikers te beschermen in het snel evoluerende AI-landschap. De focus moet liggen op het vaststellen van duidelijke normen voor dataverzameling, -gebruik en -deling, het waarborgen van transparantie en gebruikerscontrole, en het verantwoordelijk houden van bedrijven voor hun datapraktijken.