DeepSeek AI: Getraind op Gemini? Een controverse

De wereld van kunstmatige intelligentie (AI) is niet vreemd aan controverse, en de laatste ontwikkeling betreft het Chinese AI-laboratorium DeepSeek. DeepSeek onthulde onlangs een bijgewerkte versie van zijn R1-redeneermodel, met indrukwekkende mogelijkheden in het oplossen van wiskunde- en codeerbenchmarks. De bron van de gegevens die zijn gebruikt om dit model te trainen, heeft echter aanzienlijk debat aangewakkerd onder AI-onderzoekers, waarbij sommigen speculeren dat deze, althans gedeeltelijk, afkomstig kan zijn van de Gemini-familie van AI-modellen van Google. Dit vermoeden roept belangrijke vragen op over ethische praktijken, data-sourcing en het concurrentielandschap binnen de AI-industrie.

Het gepresenteerde bewijs

De controverse begon toen Sam Paech, een ontwikkelaar uit Melbourne die gespecialiseerd is in het creëren van evaluaties van “emotionele intelligentie” voor AI-systemen, presenteerde wat hij beweert bewijs te zijn dat DeepSeek’s nieuwste model was getraind op outputs gegenereerd door Gemini. Volgens Paech vertoont DeepSeek’s model, aangeduid als R1-0528, een voorkeur voor specifieke woorden en uitdrukkingen die opmerkelijk veel lijken op die van Google’s Gemini 2.5 Pro. Hoewel deze observatie alleen misschien niet doorslaggevend is, werpt het een rode vlag op en rechtvaardigt het verder onderzoek.

Als aanvulling op de intrige wees een andere ontwikkelaar, die opereert onder het pseudoniem SpeechMap en bekend staat om het creëren van een “vrije meningsuiting eval” voor AI, erop dat de sporen van het DeepSeek-model - de “gedachten” die het genereert terwijl het naar een conclusie werkt - “lezen als Gemini-sporen.” Deze convergentie van taalkundige patronen en denkprocessen voedt verder het vermoeden dat DeepSeek de outputs van Gemini mogelijk heeft gebruikt tijdens het trainingsproces.

Eerdere beschuldigingen tegen DeepSeek

Dit is niet de eerste keer dat DeepSeek wordt beschuldigd van het trainen van zijn AI-modellen op gegevens van rivaliserende AI-systemen. In december merkten ontwikkelaars op dat DeepSeek’s V3-model zichzelf vaak identificeerde als ChatGPT, het AI-aangedreven chatbotplatform van OpenAI. Dit eigenaardige gedrag suggereerde dat het model mogelijk was getraind op ChatGPT-chatlogs, wat zorgen opriep over de ethische implicaties van een dergelijke praktijk.

Eerder dit jaar informeerde OpenAI de Financial Times dat het bewijs had ontdekt dat DeepSeek in verband bracht met het gebruik van destillatie, een techniek waarbij AI-modellen worden getraind door gegevens te extraheren uit grotere, meer capabele modellen. Bovendien detecteerde Microsoft, een belangrijke samenwerkingspartner en investeerder in OpenAI, eind 2024 aanzienlijke hoeveelheden gegevens die via OpenAI-ontwikkelaaraccounts werden geëxfiltreerd. OpenAI gelooft dat deze accounts zijn aangesloten bij DeepSeek, wat het vermoeden van ongeautoriseerde gegevensextractie verder bevestigt.

Hoewel destillatie niet inherent onethisch is, verbieden de servicevoorwaarden van OpenAI klanten expliciet het gebruik van de modeloutputs van het bedrijf om concurrerende AI-systemen te bouwen. Deze beperking is bedoeld om de intellectuele eigendom van OpenAI te beschermen en een eerlijke concurrentieomgeving binnen de AI-industrie te handhaven. Als DeepSeek inderdaad destillatie heeft gebruikt om zijn R1-model op Gemini-outputs te trainen, zou dit een schending vormen van de servicevoorwaarden van OpenAI en ernstige ethische zorgen oproepen.

De uitdagingen van datacontaminatie

Het is belangrijk om te erkennen dat veel AI-modellen de neiging vertonen zichzelf verkeerd te identificeren en te convergeren naar vergelijkbare woorden en zinsneden. Dit fenomeen kan worden toegeschreven aan de toenemende aanwezigheid van AI-gegenereerde inhoud op het open web, dat dient als de primaire bron van trainingsgegevens voor AI-bedrijven. Contentfarms gebruiken AI om clickbait-artikelen te maken, en bots overspoelen platforms zoals Reddit en X met AI-gegenereerde berichten.

Deze “contaminatie” van het web met AI-gegenereerde inhoud vormt een aanzienlijke uitdaging voor AI-bedrijven, waardoor het buitengewoon moeilijk wordt om AI-outputs grondig uit trainingsdatasets te filteren. Als gevolg hiervan kunnen AI-modellen onbedoeld van elkaar leren, wat leidt tot de waargenomen overeenkomsten in taal en denkprocessen.

Expertenmeningen en perspectieven

Ondanks de uitdagingen van datacontaminatie geloven AI-experts zoals Nathan Lambert, een onderzoeker bij het non-profit AI-onderzoeksinstituut AI2, dat het niet onplausibel is dat DeepSeek getraind is op gegevens van Google’s Gemini. Lambert suggereert dat DeepSeek, geconfronteerd met een tekort aan GPU’s maar met voldoende financiële middelen, ervoor zou hebben gekozen om synthetische gegevens te genereren uit het best beschikbare API-model. Naar zijn mening zou deze aanpak computationeel efficiënter kunnen zijn voor DeepSeek.

Lamberts perspectief benadrukt de praktische overwegingen die AI-bedrijven ertoe kunnen aanzetten alternatieve databevoorradingsstrategieën te onderzoeken. Hoewel het gebruik van synthetische gegevens een legitieme en effectieve techniek kan zijn, is het cruciaal om ervoor te zorgen dat de gegevens ethisch worden gegenereerd en geen servicevoorwaarden of ethische richtlijnen schenden.

Beveiligingsmaatregelen en preventieve inspanningen

Als reactie op de zorgen rond destillatie en datacontaminatie hebben AI-bedrijven hun beveiligingsmaatregelen opgeschroefd. OpenAI heeft bijvoorbeeld een vereiste geïmplementeerd voor organisaties om een ID-verificatieproces te voltooien om toegang te krijgen tot bepaalde geavanceerde modellen. Dit proces vereist een door de overheid uitgegeven ID uit een van de landen die worden ondersteund door OpenAI’s API, waarbij China van de lijst is uitgesloten.

Google heeft ook stappen ondernomen om het risico op destillatie te beperken door de sporen die worden gegenereerd door modellen die beschikbaar zijn via zijn AI Studio-ontwikkelaarsplatform te “samenvatten”. Dit samenvattingsproces maakt het moeilijker om performante rivaliserende modellen te trainen op Gemini-sporen. Evenzo kondigde Anthropic in mei aan dat het zou beginnen met het samenvatten van de sporen van zijn eigen model, daarbij verwijzend naar de noodzaak om zijn “concurrentievoordelen” te beschermen.

Deze veiligheidsmaatregelen vertegenwoordigen een gezamenlijke inspanning van AI-bedrijven om hun intellectuele eigendom te beschermen en ongeautoriseerde gegevensextractie te voorkomen. Door strengere toegangscontroles te implementeren en modelsporen te verdoezelen, willen ze onethische praktijken afschrikken en een gelijk speelveld binnen de AI-industrie handhaven.

Google’s reactie

Toen Google om commentaar werd gevraagd, heeft het nog niet gereageerd op de beschuldigingen. Deze stilte laat ruimte voor speculatie en intensiveert de controverse verder. Terwijl de AI-gemeenschap wacht op een officiële verklaring van Google, blijven de vragen rond DeepSeek’s data-sourcingpraktijken hangen.

De implicaties voor de AI-industrie

De DeepSeek-controverse roept fundamentele vragen op over de ethische grenzen van AI-ontwikkeling en het belang van verantwoorde data-sourcing. Naarmate AI-modellen steeds geavanceerder en capabeler worden, kan de verleiding om de kantjes eraf te lopen en ongeautoriseerde gegevens te gebruiken sterker worden. Dergelijke praktijken kunnen echter schadelijke gevolgen hebben, de integriteit van de AI-industrie ondermijnen en het vertrouwen van het publiek aantasten.

Om de duurzaamheid en ethische ontwikkeling van AI op lange termijn te waarborgen, is het noodzakelijk dat AI-bedrijven zich houden aan strikte ethische richtlijnen en prioriteit geven aan verantwoorde data-sourcingpraktijken. Dit omvat het verkrijgen van expliciete toestemming van data-aanbieders, het respecteren van intellectuele eigendomsrechten en het vermijden van het gebruik van ongeautoriseerde of bevooroordeelde gegevens.

Verder is er meer transparantie en verantwoording nodig binnen de AI-industrie. AI-bedrijven moeten openhartiger zijn over hun data-sourcingpraktijken en de methoden die worden gebruikt om hun modellen te trainen. Deze verhoogde transparantie zal helpen het vertrouwen in AI-systemen te bevorderen en een meer ethisch en verantwoord AI-ecosysteem te bevorderen.

De DeepSeek-controverse dient als een tijdige herinnering aan de uitdagingen en ethische overwegingen die moeten worden aangepakt naarmate de AI-technologie zich blijft ontwikkelen. Door ethische principes te handhaven, transparantie te bevorderen en samenwerking te bevorderen, kan de AI-gemeenschap ervoor zorgen dat AI wordt gebruikt ten behoeve van de samenleving en niet ten koste van ethische waarden.

Diepe duik in de technische aspecten

Om de nuances van deze kwestie verder te begrijpen, is het cruciaal om in te gaan op de technische aspecten van hoe AI-modellen worden getraind en de specifieke technieken in kwestie, namelijk destillatie en synthetische datageneratie.

Destillatie: Intelligentie klonen?

Destillatie verwijst, in de context van AI, naar een modelcompressietechniek waarbij een kleiner, efficiënter “student”-model wordt getraind om het gedrag van een groter, complexer “leraar”-model na te bootsen. Het studentmodel leert door de outputs van het leraarmodel te observeren, waardoor kennis effectief wordt geëxtraheerd en overgebracht naar een kleinere architectuur. Hoewel destillatie gunstig kan zijn voor het implementeren van AI-modellen op apparaten met beperkte bronnen, roept het ethische zorgen op wanneer de gegevens of architectuur van het leraarmodel eigendomsrechtelijk beschermd zijn.

Als DeepSeek de outputs van Gemini heeft gebruikt om zijn R1-model door destillatie te trainen zonder toestemming, zou het neerkomen op het klonen van Gemini’s intelligentie en mogelijk Google’s intellectuele eigendomsrechten schenden. De sleutel hier is het ongeautoriseerde gebruik van Gemini’s outputs, die worden beschermd door auteursrecht en andere juridische mechanismen.

Synthetische datageneratie: Een tweesnijdend zwaard

Synthetische datageneratie omvat het creëren van kunstmatige gegevenspunten die lijken op real-world gegevens. Deze techniek wordt vaak gebruikt om trainingsdatasets aan te vullen, vooral wanneer echte gegevens schaars of duur zijn om te verkrijgen. De kwaliteit en ethische implicaties van synthetische gegevens hangen echter sterk af van hoe ze worden gegenereerd.

Als DeepSeek Gemini’s API heeft gebruikt om synthetische gegevens te genereren, is de vraag: hoe nauwkeurig lijken deze gegevens op werkelijke Gemini-outputs, en maakt het inbreuk op Google’s intellectuele eigendom? Als de synthetische gegevens slechts geïnspireerd zijn door Gemini, maar de outputs niet rechtstreeks repliceren, kan dit worden beschouwd als redelijk gebruik. Als de synthetische gegevens echter vrijwel niet te onderscheiden zijn van Gemini’s outputs, kan dit soortgelijke zorgen oproepen als destillatie.

Implicaties van modeloverfitting

Een andere gerelateerde zorg is modeloverfitting. Overfitting treedt op wanneer een model de trainingsgegevens te goed leert, tot het punt dat het slecht presteert op nieuwe, ongeziene gegevens. Als DeepSeek zijn R1-model overmatig heeft getraind op Gemini’s outputs, zou dit kunnen resulteren in overfitting, waarbij het model in wezen Gemini’s reacties memoriseert in plaats van te generaliseren naar nieuwe situaties.

Dit soort overfitting zou niet alleen de toepasbaarheid van het R1-model beperken, maar het ook gemakkelijker maken om zijn afhankelijkheid van Gemini’s gegevens te detecteren. De “sporen” die SpeechMap opmerkte, kunnen een bewijs zijn van deze overfitting, waarbij het R1-model in wezen patronen oprakelt die zijn geleerd van Gemini’s outputs.

Ethische overwegingen en best practices in de industrie

Naast de technische aspecten benadrukt deze controverse de behoefte aan duidelijke ethische richtlijnen en best practices in de industrie voor AI-ontwikkeling. Enkele belangrijke principes zijn:

  • Transparantie: AI-bedrijven moeten transparant zijn over hun gegevensbronnen en trainingsmethodologieën. Dit maakt onafhankelijke auditing en verificatie mogelijk.
  • Toestemming: AI-bedrijven moeten expliciete toestemming verkrijgen van data-aanbieders voordat ze hun gegevens gebruiken voor training. Dit omvat het respecteren van intellectuele eigendomsrechten en het vermijden van ongeautoriseerde datascraping.
  • Eerlijkheid: AI-modellen moeten eerlijk en onbevooroordeeld zijn. Dit vereist zorgvuldige aandacht voor datadiversiteit en mitigatie van algoritmische bias.
  • Verantwoordelijkheid: AI-bedrijven moeten verantwoordelijk zijn voor de acties van hun AI-modellen. Dit omvat het vaststellen van duidelijke verantwoordelijkheidskaders en het aanpakken van schade veroorzaakt door AI-systemen.
  • Beveiliging: AI-bedrijven moeten prioriteit geven aan de beveiliging van hun AI-modellen en -gegevens. Dit omvat het beschermen tegen ongeautoriseerde toegang en het voorkomen van datalekken.

De rol van regulering

Naast ethische richtlijnen en best practices in de industrie kan regulering nodig zijn om de uitdagingen van AI-ontwikkeling aan te pakken. Enkele potentiële reguleringsmaatregelen zijn:

  • Wetgeving inzake gegevensprivacy: Wetten die de gegevens van individuen beschermen en het gebruik van persoonlijke informatie voor AI-training beperken.
  • Wetgeving inzake intellectuele eigendom: Wetten die AI-modellen en -gegevens beschermen tegen ongeautoriseerd kopiëren en verspreiden.
  • Mededingingswetgeving: Wetten die anticoncurrentieel gedrag in de AI-industrie voorkomen, zoals data hoarding en oneerlijke toegang tot resources.
  • Veiligheidsvoorschriften: Voorschriften die de veiligheid en betrouwbaarheid waarborgen van AI-systemen die worden gebruikt in kritieke toepassingen.

Door ethische richtlijnen, best practices in de industrie en passende regulering te combineren, kunnen we een meer verantwoord en duurzaam AI-ecosysteem creëren dat de samenleving als geheel ten goede komt. De DeepSeek-controverse dient als een wake-up call en spoort ons aan om deze uitdagingen proactief aan te pakken en ervoor te zorgen dat AI wordt ontwikkeld op een manier die aansluit bij onze waarden en principes.