DeepSeek AI onder de loep: Gemini invloed?

Recente speculatie heeft de kop opgestoken dat DeepSeek, een Chinees AI-laboratorium, mogelijk gegevens van Google’s Gemini AI-model heeft gebruikt om zijn nieuwste iteratie, het R1 redeneer-AI-model, te trainen. Dit model heeft sterke prestaties geleverd in wiskunde- en codeerbenchmarks. Hoewel DeepSeek gezwegen heeft over de gegevensbronnen die zijn gebruikt om R1 te trainen, hebben verschillende AI-onderzoekers gesuggereerd dat Gemini, of op zijn minst delen van Gemini, een rol heeft gespeeld.

Bewijs en Beschuldigingen

Sam Paech, een ontwikkelaar uit Melbourne die gespecialiseerd is in het maken van evaluaties van "emotionele intelligentie" voor AI, heeft gepresenteerd wat hij beschouwt als bewijs dat het DeepSeek-model is getraind met behulp van outputs die door Gemini gegenereerd zijn. Paech merkte in een post op X (voorheen Twitter) op dat het DeepSeek-model, met name de R1-0528 versie, een voorkeur vertoont voor taal en uitdrukkingen die vergelijkbaar zijn met die van Google’s Gemini 2.5 Pro.

Verder heeft een andere ontwikkelaar, die opereert onder het pseudoniem van de maker van SpeechMap, een "free speech eval" voor AI, waargenomen dat de "gedachten" die door het DeepSeek-model worden gegenereerd terwijl het naar conclusies toewerkt, sterk lijken op Gemini traces. Deze observatie voegt een nieuwe laag van intrige toe aan de claims.

Dit is niet de eerste keer dat DeepSeek beschuldigingen heeft geuit over het gebruik van gegevens van concurrerende AI-modellen. In december merkten ontwikkelaars op dat DeepSeek’s V3-model zichzelf vaak identificeerde als ChatGPT, het populaire chatbotplatform van OpenAI. Dit suggereerde dat het model was getraind op ChatGPT-chatlogs, wat bezorgdheid opriep over de praktijken op het gebied van gegevensgebruik.

Diepere Beschuldigingen: Distillatie en Data Exfiltratie

Eerder dit jaar deelde OpenAI met de Financial Times dat ze bewijs hadden ontdekt dat DeepSeek in verband bracht met het gebruik van een techniek die distillatie wordt genoemd. Distillatie omvat het trainen van AI-modellen door data te extraheren uit grotere, meer geavanceerde modellen. Bloomberg meldde dat Microsoft, een belangrijke medewerker en investeerder in OpenAI, eind 2024 significante data exfiltratie had gedetecteerd via OpenAI-ontwikkelaarsaccounts. OpenAI gelooft dat deze accounts verbonden zijn met DeepSeek.

Distillatie, hoewel niet inherent onethisch, wordt problematisch wanneer het de servicevoorwaarden schendt. De voorwaarden van OpenAI verbieden klanten uitdrukkelijk om de modeloutputs van het bedrijf te gebruiken om concurrerende AI-systemen te ontwikkelen. Dit roept serieuze vragen op over de naleving van deze voorwaarden door DeepSeek.

De Troebele Wateren van AI-Trainingsdata

Het is belangrijk om te erkennen dat AI-modellen zichzelf vaak verkeerd identificeren en convergeren naar vergelijkbare woorden en zinnen. Dit komt door de aard van het open web, dat dient als de primaire bron van trainingsdata voor veel AI-bedrijven. Het web is in toenemende mate verzadigd met door AI gegenereerde content. Contentfarms gebruiken AI om clickbait te produceren, en bots overspoelen platforms zoals Reddit en X met door AI gegenereerde posts.

Deze "vervuiling" maakt het ongelooflijk moeilijk om AI-outputs effectief uit trainingsdatasets te filteren, waardoor de vraag of DeepSeek opzettelijk Gemini-data heeft gebruikt verder wordt gecompliceerd.

Expertenmeningen en Perspectieven

Ondanks de uitdagingen om de claims definitief te bewijzen, geloven sommige AI-experts dat het plausibel is dat DeepSeek getraind is op data van Google’s Gemini. Nathan Lambert, een onderzoeker bij het non-profit AI-onderzoeksinstituut AI2, verklaarde op X: "Als ik DeepSeek was, zou ik zeker een heleboel synthetische data creëren van het beste API-model dat er is. [DeepSeek heeft] een tekort aan GPU’s en zit vol met geld. Het is letterlijk effectief meer rekenkracht voor hen."

Lamberts perspectief benadrukt de potentiële economische prikkels voor DeepSeek om bestaande AI-modellen te gebruiken om zijn eigen mogelijkheden te verbeteren, met name gezien de beperkingen in de middelen.

Veiligheidsmaatregelen en Tegenmaatregelen

AI-bedrijven zijn bezig hun veiligheidsmaatregelen te intensiveren, mede om praktijken zoals distillatie te voorkomen. OpenAI is in april begonnen organisaties te verplichten een ID-verificatieproces te voltooien om toegang te krijgen tot bepaalde geavanceerde modellen. Dit proces omvat het indienen van een door de overheid uitgegeven ID uit een land dat door de API van OpenAI wordt ondersteund. China ontbreekt opvallend genoeg in deze lijst.

In een andere stap is Google onlangs begonnen met het "samenvatten" van de traces die worden gegenereerd door modellen die beschikbaar zijn via zijn AI Studio-ontwikkelaarsplatform. Deze actie maakt het moeilijker om rivaliserende modellen effectief te trainen op Gemini-traces. Evenzo kondigde Anthropic in mei aan dat het zou beginnen met het samenvatten van de traces van zijn eigen model, daarbij verwijzend naar de noodzaak om zijn "concurrentievoordelen" te beschermen. Deze maatregelen wijzen op een groeiend bewustzijn van de mogelijkheden voor misbruik van AI-modeloutputs en een proactieve inspanning om dergelijke risico’s te beperken.

Implicaties en Gevolgen

De beschuldigingen aan het adres van DeepSeek roepen belangrijke vragen op over de ethiek en legaliteit van AI-trainingspraktijken. Als DeepSeek inderdaad Gemini-data heeft gebruikt om zijn R1-model te trainen, kan het te maken krijgen met juridische repercussies en reputatieschade. Deze situatie benadrukt ook de behoefte aan meer transparantie en regulering in de AI-industrie, met name met betrekking tot de sourcing en het gebruik van data.

De beschuldigingen aan het adres van DeepSeek onderstrepen een cruciaal dilemma: hoe het verlangen naar innovatie en vooruitgang in AI in evenwicht te brengen met de noodzaak om intellectueel eigendom te beschermen en eerlijke concurrentie te waarborgen. De AI-industrie evolueert snel en duidelijke richtlijnen en ethische kaders zijn essentieel om het complexe juridische en ethische landschap te navigeren. Bedrijven moeten transparant zijn over hun databronnen en zich houden aan de servicevoorwaarden om vertrouwen te behouden en potentiële juridische aansprakelijkheden te vermijden.

Verder vormt de kwestie van door AI gegenereerde content die trainingsdatasets vervuilt een grote uitdaging voor de hele AI-gemeenschap. Naarmate AI-modellen bedrevener worden in het genereren van overtuigende tekst, beelden en andere vormen van content, wordt het steeds moeilijker om onderscheid te maken tussen door mensen gegenereerde en door AI gegenereerde data. Deze "vervuiling" kan leiden tot een homogenisering van AI-modellen, waarbij ze allemaal vergelijkbare biases en beperkingen beginnen te vertonen.

Om deze uitdaging aan te gaan, moeten AI-bedrijven investeren in meer geavanceerde datafilteringtechnieken en alternatieve trainingsdatabronnen verkennen. Ze moeten ook transparanter zijn over de samenstelling van hun trainingsdatasets en de methoden die worden gebruikt om door AI gegenereerde content eruit te filteren.

De DeepSeek-controverse onderstreept de dringende noodzaak van een meer genuanceerde discussie over de toekomst van AI-training. Naarmate AI-modellen krachtiger worden en data schaarser wordt, kunnen bedrijven in de verleiding komen om de kantjes er vanaf te lopen en zich in te laten met onethische of illegale praktijken. Dergelijke praktijken ondermijnen echter uiteindelijk de duurzaamheid en betrouwbaarheid van de AI-industrie op de lange termijn.

Een gezamenlijke inspanning van onderzoekers, beleidsmakers en leiders uit de industrie is nodig om ethische richtlijnen en juridische kaders te ontwikkelen die verantwoorde AI-ontwikkeling bevorderen. Deze richtlijnen moeten kwesties aanpakken zoals datasourcing, transparantie en verantwoording. Ze moeten bedrijven ook stimuleren om te investeren in ethische en duurzame AI-trainingspraktijken.

Belangrijkste overwegingen voor de toekomst van AI-training:

  • Transparantie: Bedrijven moeten transparant zijn over de databronnen die worden gebruikt om hun AI-modellen te trainen en de methoden die worden gebruikt om door AI gegenereerde content eruit te filteren.
  • Ethiek: AI-ontwikkeling moet zich houden aan ethische principes die rechtvaardigheid, verantwoording en respect voor intellectueel eigendom bevorderen.
  • Regulering: Beleidsmakers moeten duidelijke juridische kaders creëren die de unieke uitdagingen van AI-training aanpakken.
  • Samenwerking: Onderzoekers, beleidsmakers en leiders uit de industrie moeten samenwerken om ethische richtlijnen en best practices voor AI-ontwikkeling te ontwikkelen.
  • Data Diversiteit: AI-training moet prioriteit geven aan data diversiteit om bias te verminderen en de algehele prestaties van AI-modellen te verbeteren.
  • Duurzaamheid: AI-training moet op een duurzame manier worden uitgevoerd, waarbij de impact op het milieu wordt geminimaliseerd.
  • Beveiliging: Beveiligingsmaatregelen moeten AI-modellen en trainingsdata beschermen tegen ongeautoriseerde toegang en gebruik.

Door deze belangrijkste overwegingen aan te pakken, kan de AI-industrie ervoor zorgen dat AI-ontwikkeling op een verantwoorde en ethische manier wordt uitgevoerd, waardoor innovatie wordt bevorderd en potentiële risico’s worden beperkt.

Het Pad Voorwaarts

De beschuldigingen aan het adres van DeepSeek dienen als een wake-up call voor de AI-gemeenschap. Ze onderstrepen de cruciale behoefte aan meer transparantie, ethisch gedrag en robuuste waarborgen bij AI-ontwikkeling. Aangezien AI steeds meer aspecten van ons leven doordringt, is het essentieel dat we duidelijke grenzen en ethische richtlijnen vaststellen om het verantwoorde en nuttige gebruik ervan te waarborgen.

De DeepSeek-zaak, ongeacht de uiteindelijke uitkomst, zal ongetwijfeld de voortdurende discussie over AI-ethiek vormgeven en de toekomstige koers van AI-ontwikkeling beïnvloeden. Het dient als een herinnering dat het nastreven van innovatie moet worden getemperd met een engagement voor ethische principes en een erkenning van de potentiële gevolgen van onze acties. De toekomst van AI hangt af van ons vermogen om deze complexe uitdagingen met wijsheid en vooruitziendheid aan te gaan.