Dataoorlog in Tijdperk van Open-Source LLM's

Een Golf van Inbreuken Onthult Kwetsbaarheden

De snelle adoptie van open-source Large Language Models (LLM’s) zoals DeepSeek en Ollama is een tweesnijdend zwaard geworden. Terwijl bedrijven deze krachtige tools gebruiken om de efficiëntie te verhogen, creëert de openheid die hun groei stimuleert een parallelle toename van databeveiligingsrisico’s. Een recent rapport samengesteld door NSFOCUS Xingyun Lab schetst een grimmig beeld: in slechts de eerste twee maanden van 2025 was de wereld getuige van vijf significante datalekken die direct verband hielden met LLM’s. Deze incidenten resulteerden in de blootstelling van enorme hoeveelheden gevoelige informatie, variërend van vertrouwelijke chatgeschiedenissen en API-sleutels tot kritieke gebruikersgegevens. Deze gebeurtenissen zijn een wake-up call, die de vaak over het hoofd geziene beveiligingskwetsbaarheden benadrukken die op de loer liggen onder het oppervlak van geavanceerde AI-technologie. Deze verkenning zal deze vijf incidenten ontleden, de aanvalsmethoden ontleden, ze in kaart brengen met het gevestigde MITRE ATT&CK-framework en de blinde vlekken in de beveiliging blootleggen die organisaties dringend moeten aanpakken.

Incident 1: DeepSeek’s Verkeerd Geconfigureerde Database – Een Venster op Privégesprekken

Tijdlijn: 29 januari 2025

Omvang van het Lek: Miljoenen regels loggegevens, inclusief gevoelige chatgeschiedenissen en toegangssleutels.

De Gebeurtenissen Ontvouwen:

Het beveiligingsonderzoeksteam van Wiz initieerde deze ontdekking. Ze identificeerden een blootgestelde ClickHouse-service die toegankelijk was op het openbare internet. Verder onderzoek bevestigde dat deze service toebehoorde aan de Chinese AI-startup, DeepSeek. ClickHouse, ontworpen voor efficiënte verwerking van grote datasets in analytische verwerking, werd helaas een toegangspoort tot de interne gegevens van DeepSeek. De onderzoekers kregen toegang tot ongeveer een miljoen regels van DeepSeek’s logstream, waardoor een schat aan gevoelige informatie werd onthuld, waaronder historische chatlogs en cruciale toegangssleutels.

Wiz waarschuwde DeepSeek onmiddellijk voor de kwetsbaarheid, wat leidde tot onmiddellijke actie en veilige verwijdering van de blootgestelde ClickHouse-service.

De Aanval Ontleden:

Het kernprobleem lag in de kwetsbaarheid van ClickHouse voor ongeautoriseerde toegang. ClickHouse, een open-source kolomgeoriënteerd databasebeheersysteem, blinkt uit in real-time query en analyse van enorme datasets, vaak gebruikt voor log- en gebruikersgedraganalyse. Wanneer het echter wordt geïmplementeerd zonder de juiste toegangscontroles, staat de blootgestelde API-interface iedereen toe om SQL-achtige opdrachten uit te voeren.

De aanpak van het Wiz-beveiligingsteam omvatte een methodische scan van DeepSeek’s internetgerichte subdomeinen. Aanvankelijk concentreerden ze zich op standaardpoorten 80 en 443, waar ze typische webbronnen vonden, zoals chatbotinterfaces en API-documentatie. Om hun zoekopdracht te verbreden, breidden ze uit naar minder gebruikelijke poorten zoals 8123 en 9000, en ontdekten uiteindelijk blootgestelde services op meerdere subdomeinen.

De gecompromitteerde loggegevens, daterend van 6 januari 2025, bevatten een schat aan gevoelige informatie: oproeplogs, tekstlogs voor interne DeepSeek API-endpoints, gedetailleerde chatgeschiedenissen, API-sleutels, back-endsysteemdetails en operationele metadata.

VERIZON Gebeurtenisclassificatie: Diverse Fouten

MITRE ATT&CK Framework Mapping:

  • T1590.002 (Collect Victim Network Information - Domain Name Resolution): Aanvallers hebben waarschijnlijk de primaire domeinnaam gebruikt om subdomein-enumeratie uit te voeren.
  • T1046 (Web Service Discovery): De aanvallers identificeerden open poorten en services die aan het doeldomein waren gekoppeld.
  • T1106 (Native Interface): De aanvallers maakten gebruik van de ClickHouse API om te communiceren met de database.
  • T1567 (Data Exfiltration via Web Service): De aanvallers gebruikten de ClickHouse API om gegevens te stelen.

Incident 2: DeepSeek’s Supply Chain Aanval – Een Trojaans Paard in de Code

Tijdlijn: 3 februari 2025

Omvang van het Lek: Gebruikersgegevens en omgevingsvariabelen.

De Gebeurtenissen Ontvouwen:

De aanval begon op 19 januari 2025, toen een kwaadwillende gebruiker, geïdentificeerd als ‘bvk’, twee kwaadaardige Python-pakketten genaamd ‘deepseek’ en ‘deepseekai’ uploadde naar de populaire PyPI (Python Package Index) repository.

Het threat intelligence team van Positive Technologies Expert Security Center (PT ESC) detecteerde deze verdachte activiteit op dezelfde dag. Hun analyse bevestigde de kwaadaardige aard van de pakketten en ze stelden de PyPI-beheerders onmiddellijk op de hoogte.

PyPI-beheerders verwijderden de kwaadaardige pakketten snel en informeerden PT ESC. Ondanks de snelle reactie bleek uit statistieken dat de malware meer dan 200 keer was gedownload in 17 landen via verschillende kanalen. De kwaadaardige pakketten werden vervolgens geïsoleerd.

De Aanval Ontleden:

De kwaadaardige pakketten die door ‘bvk’ waren geüpload, waren gericht op twee primaire doelstellingen: informatie verzamelen en omgevingsvariabelen stelen. De gestolen gegevens omvatten gevoelige informatie zoals databasegegevens, API-sleutels en toegangsgegevens voor S3-objectopslag. De kwaadaardige payload werd geactiveerd wanneer een gebruiker DeepSeek of Deepseekai vanaf de opdrachtregel uitvoerde.

De aanvaller gebruikte PipeDream als een command-and-control-server om de gestolen gegevens te ontvangen. Het incident benadrukt verschillende bijdragende factoren:

  • Dependency Confusion Attack: De aanvallers maakten misbruik van het prioriteitsverschil tussen de privé-pakketten van een organisatie en openbare pakketten met dezelfde naam.
  • Package Name Impersonation: De kwaadaardige pakketten imiteerden de merknaam van DeepSeek, een bekend AI-bedrijf, om gebruikers te misleiden.
  • PyPI Registration Weakness: Het PyPI-registratieproces miste effectieve verificatie van de identiteit van de ontwikkelaar en de legitimiteit van de pakketnaam.
  • Developer Security Awareness: Ontwikkelaars hebben mogelijk per ongeluk de vergelijkbaar genaamde kwaadaardige pakketten geïnstalleerd.

VERIZON Gebeurtenisclassificatie: Social Engineering

MITRE ATT&CK Framework Mapping:

  • T1593.003 (Search Open Websites/Domains - Search Publicly Available Dependency Repository): De aanvallers zochten naar informatie op PyPI.
  • T1195.002 (Supply Chain Compromise - Compromise Software Supply Chain): De aanvallers gebruikten malware vermomd als Python-afhankelijkheden en uploaden deze naar PyPI.
  • T1059.006 (Command and Scripting Interpreter - Python): De aanvallers implanteerden kwaadaardige code in het pakket, die bij uitvoering gevoelige gegevens lekte.
  • T1041 (Exfiltration Over C2 Channel): De aanvallers exfiltreerden gevoelige informatie via het PipeDream C2-kanaal.

Incident 3: LLM Kaping – DeepSeek Getarget voor Diefstal van Resources

Tijdlijn: 7 februari 2025

Omvang van het Lek: Ongeveer 2 miljard modeltokens illegaal gebruikt.

De Gebeurtenissen Ontvouwen:

Het Sysdig threat research team ontdekte aanvankelijk een nieuwe aanval gericht op LLM’s, genaamd ‘LLM jacking’ of ‘LLM hijacking’, in mei 2024.

In september 2024 rapporteerde Sysdig een toenemende frequentie en prevalentie van deze aanvallen, waarbij DeepSeek steeds vaker een doelwit werd.

Op 26 december 2024 bracht DeepSeek een geavanceerd model uit, DeepSeek-V3. Kort daarna ontdekte het Sysdig-team dat DeepSeek-V3 was geïmplementeerd in een OpenAI reverse proxy (ORP) project gehost op Hugging Face.

Op 20 januari 2025 bracht DeepSeek een inferentiemodel uit genaamd DeepSeek-R1. De volgende dag verscheen er een ORP-project dat DeepSeek-R1 ondersteunde, en aanvallers begonnen het te exploiteren, waarbij ze meerdere ORP’s vulden met DeepSeek API-sleutels.

Het onderzoek van Sysdig gaf aan dat het totale aantal grote modeltokens dat illegaal via ORP’s werd gebruikt, de 2 miljard had overschreden.

De Aanval Ontleden:

LLM-kaping omvat aanvallers die gestolen cloudgegevens gebruiken om cloud-gehoste LLM-services aan te vallen. De aanvallers maken gebruik van een OAI (OpenAI) reverse proxy en gestolen credentials om in wezen toegang te verkopen tot de geabonneerde LLM-services van het slachtoffer. Dit resulteert in aanzienlijke cloudservicekosten voor het slachtoffer.

De OAI reverse proxy fungeert als een centraal beheerpunt voor toegang tot meerdere LLM-accounts, waarbij de onderliggende credentials en resourcepools worden gemaskeerd. Aanvallers kunnen dure LLM’s zoals DeepSeek gebruiken zonder ervoor te betalen, verzoeken via de reverse proxy sturen, resources verbruiken en legitieme servicekosten omzeilen. Het proxymechanisme verbergt de identiteit van de aanvaller, waardoor ze cloudresources onopgemerkt kunnen misbruiken.

Hoewel de OAI reverse proxy een noodzakelijk onderdeel is voor LLM-kaping, is het cruciale element de diefstal van credentials en sleutels voor verschillende LLM-services. Aanvallers maken vaak misbruik van traditionele webservicekwetsbaarheden en configuratiefouten (zoals de CVE-2021-3129-kwetsbaarheid in het Laravel-framework) om deze credentials te stelen. Eenmaal verkregen, geven deze credentials toegang tot cloud-gebaseerde LLM-services zoals Amazon Bedrock, Google Cloud Vertex AI en anderen.

Het onderzoek van Sysdig onthulde dat aanvallers de verbruikskosten van slachtoffers binnen enkele uren snel konden opdrijven tot tienduizenden dollars, en in sommige gevallen tot $100.000 per dag. De motivatie van de aanvallers gaat verder dan het verkrijgen van gegevens; ze profiteren ook door toegangsrechten te verkopen.

VERIZON Gebeurtenisclassificatie: Basis Webapplicatie Aanvallen

MITRE ATT&CK Framework Mapping:

  • T1593 (Search Open Websites/Domains): Aanvallers gebruikten OSINT (Open-Source Intelligence) methoden om informatie te verzamelen over blootgestelde services.
  • T1133 (External Remote Services): De aanvallers identificeerden kwetsbaarheden in blootgestelde services.
  • T1586.003 (Compromise Accounts - Cloud Accounts): Aanvallers maakten misbruik van kwetsbaarheden om LLM-service- of cloudservicegegevens te stelen.
  • T1588.002 (Obtain Capabilities - Tool): De aanvallers implementeerden een open-source OAI reverse proxy tool.
  • T1090.002 (Proxy - External Proxy): Aanvallers gebruikten OAI reverse proxy software om de toegang tot meerdere LLM-accounts te beheren.
  • T1496 (Resource Hijacking): Aanvallers lanceerden een LLM-injectieaanval om LLM-resources te kapen.

Incident 4: OmniGPT Datalek – Gebruikersgegevens Verkocht op het Dark Web

Tijdlijn: 12 februari 2025

Omvang van het Lek: Persoonlijke informatie van meer dan 30.000 gebruikers, inclusief e-mails, telefoonnummers, API-sleutels, encryptiesleutels, credentials en factuurgegevens.

De Gebeurtenissen Ontvouwen:

Op 12 februari 2025 plaatste een gebruiker genaamd ‘SyntheticEmotions’ op BreachForums een bericht waarin hij beweerde gevoelige gegevens van het OmniGPT-platform te hebben gestolen en deze te koop aanbood. De gelekte gegevens omvatten naar verluidt e-mails, telefoonnummers, API-sleutels, encryptiesleutels, credentials en factuurgegevens van meer dan 30.000 OmniGPT-gebruikers, samen met meer dan 34 miljoen regels van hun gesprekken met chatbots. Bovendien werden links naar bestanden die naar het platform waren geüpload, gecompromitteerd, waarvan sommige gevoelige informatie bevatten, zoals vouchers en factuurgegevens.

De Aanval Ontleden:

Hoewel de precieze aanvalsvector niet bekend is gemaakt, suggereren het type en de omvang van de gelekte gegevens verschillende mogelijkheden: SQL-injectie, API-misbruik of social engineering-aanvallen hebben de aanvaller mogelijk toegang verleend tot de back-enddatabase. Het is ook mogelijk dat het OmniGPT-platform verkeerde configuraties of kwetsbaarheden had waardoor de aanvaller de authenticatie kon omzeilen en direct toegang kon krijgen tot de database met gebruikersinformatie.

Het ‘Messages.txt’-bestand dat betrokken was bij een secundair lek bevatte API-sleutels, databasegegevens en betaalkaartinformatie, waardoor mogelijk verdere inbraak in andere systemen of gegevensmanipulatie mogelijk werd. Sommige documenten die door platformgebruikers waren geüpload, bevatten gevoelige bedrijfsgeheimen en projectgegevens, wat een risico vormt voor de bedrijfsvoering als ze worden misbruikt. Dit incident dient als een grimmige herinnering aan de noodzaak van verbeterde gegevensbeveiliging en privacybescherming binnen de AI- en big data-sectoren. Gebruikers moeten uiterste voorzichtigheid betrachten bij het gebruik van deze platforms, en organisaties moeten strikte beleidsregels voor gegevensgebruik opstellen, waarbij maatregelen zoals encryptie, dataminimalisatie en anonimisering voor gevoelige gegevens worden geïmplementeerd. Als dit niet gebeurt, kan dit leiden tot aanzienlijke juridische, reputatie- en economische gevolgen.

VERIZON Gebeurtenisclassificatie: Diverse Fouten

MITRE ATT&CK Framework Mapping:

  • T1071.001 (Application Layer Protocol - Web Protocols): Aanvallers hebben mogelijk toegang gekregen tot gelekte gebruikersinformatie en gevoelige gegevens via de webinterface van OmniGPT.
  • T1071.002 (Application Layer Protocol - Application Programming Interfaces): Gelekte API-sleutels en databasegegevens kunnen aanvallers in staat stellen om via de API van het platform toegang te krijgen tot het systeem en ongeautoriseerde acties uit te voeren.
  • T1071.002 (Application Layer Protocol - Service Execution): Aanvallers kunnen systeemservices of daemons misbruiken om opdrachten of programma’s uit te voeren.
  • T1020.003 (Automated Exfiltration - File Transfer): Gelekte bestandslinks en door gebruikers geüploade gevoelige bestanden kunnen doelen zijn voor aanvallers om te downloaden, waardoor meer gevoelige gegevens worden verkregen voor volgende aanvallen.
  • T1083 (File and Directory Discovery): Aanvallers kunnen de gelekte informatie gebruiken om verdere belangrijke bedrijfsinformatie te verkrijgen.

Incident 5: DeepSeek Credentials Gelekt in Common Crawl – De Gevaren van Hard-Coding

Tijdlijn: 28 februari 2025

Omvang van het Lek: Ongeveer 11.908 geldige DeepSeek API-sleutels, credentials en authenticatietokens.

De Gebeurtenissen Ontvouwen:

Het Truffle-beveiligingsteam gebruikte de open-source tool TruffleHog om 400 TB aan gegevens van december 2024 te scannen in Common Crawl, een crawlerdatabase die 2,67 miljard webpagina’s van 47,5 miljoen hosts omvat. De scan onthulde een schokkende bevinding: ongeveer 11.908 geldige DeepSeek API-sleutels, credentials en authenticatietokens waren direct hard-coded in tal van webpagina’s.

Het onderzoek benadrukte ook het lekken van Mailchimp API-sleutels, met ongeveer 1.500 sleutels die hard-coded waren in JavaScript-code. Mailchimp API-sleutels worden vaak misbruikt voor phishing- en gegevensdiefstalaanvallen.

De Aanval Ontleden:

Common Crawl, een non-profit webcrawlerdatabase, legt regelmatig gegevens van internetpagina’s vast en publiceert deze. Het slaat deze gegevens op in WARC (Web ARChive) bestanden, waarbij de originele HTML, JavaScript-code en serverreacties behouden blijven. Deze datasets worden vaak gebruikt om AI-modellen te trainen. Het onderzoek van Truffle legt een cruciaal probleem bloot: het trainen van modellen op corpora die beveiligingskwetsbaarheden bevatten, kan ertoe leiden dat modellen die kwetsbaarheden erven. Zelfs als LLM’s zoals DeepSeek aanvullende beveiligingsmaatregelen gebruiken tijdens training en implementatie, kan de wijdverbreide aanwezigheid van hard-coded kwetsbaarheden in de trainingsgegevens dergelijke ‘onveilige’ praktijken voor de modellen normaliseren.

Hard-coding, een veel voorkomende maar onveilige coderingspraktijk, is een hardnekkig probleem. Hoewel de oorzaak eenvoudig is, zijn de risico’s ernstig: datalekken, serviceonderbrekingen, supply chain-aanvallen en, met de opkomst van LLM’s, een nieuwe dreiging: LLM-kaping. Zoals eerder besproken, omvat LLM-kaping aanvallers die gestolen credentials gebruiken om cloud-gehoste LLM-services te exploiteren, wat resulteert in aanzienlijke financiële verliezen voor slachtoffers.

VERIZON Gebeurtenisclassificatie: Diverse Fouten

MITRE ATT&CK Framework Mapping:

  • T1596.005 (Search Open Technical Database - Scan Databases): De aanvallers verzamelden informatie uit de openbare crawlerdatabase.
  • T1588.002 (Obtain Capabilities - Tool): De aanvallers implementeerden een tool voor het ontdekken van gevoelige informatie.
  • T1586.003 (Compromise Accounts - Cloud Accounts): Aanvallers gebruikten tools voor het ontdekken van gevoelige informatie om gevoelige credentials in openbare databases te vinden.
  • T1090.002 (Proxy - External Proxy): Aanvallers gebruikten OAI reverse proxy software om de toegang tot meerdere LLM-accounts te beheren.
  • T1496 (Resource Hijacking): Aanvallers lanceerden een LLM-injectieaanval om LLM-resources te kapen.

Het Voorkomen van LLM Datalekkage: Een Veelzijdige Aanpak

De geanalyseerde incidenten benadrukken de dringende behoefte aan robuuste beveiligingsmaatregelen om te beschermen tegen LLM-gerelateerde datalekken. Hier is een overzicht van preventieve strategieën, gecategoriseerd per relevant incident:

Versterking van de Supply Chain:

Van toepassing op Incident II (kwaadaardige afhankelijkheidspakketaanval) en Incident V (openbaar datalek):

  1. Vertrouwde Verificatie van Afhankelijkheidspakketten:

    • Gebruik tools zoals PyPI/Sonatype Nexus Firewall om niet-ondertekende of verdacht afkomstige afhankelijkheidspakketten te onderscheppen.
    • Verbied het direct ophalen van afhankelijkheden van openbare repositories in ontwikkelomgevingen. Verplicht het gebruik van proxy’s voor privé-repositories van bedrijven (bijv. Artifactory).
  2. Supply Chain Threat Monitoring:

    • Integreer tools zoals Dependabot/Snyk om automatisch te scannen op kwetsbaarheden in afhankelijkheden en de introductie van risicovolle componenten te blokkeren.
    • Verifieer de codehandtekening van open-source pakketten om ervoor te zorgen dat de hash-waarde overeenkomt met de officiële.
  3. Gegevensbron Opschonen:

    • Filter tijdens het verzamelen van trainingsgegevens gevoelige informatie uit openbare datasets (zoals Common Crawl) met behulp van reguliere expressies en op AI gebaseerde redactietools voor dubbele verificatie.

Implementatie van Least Privilege en Toegangscontrole:

Van toepassing op Incident I (databaseconfiguratiefout) en Incident IV (datalek van derden):

  • Schakel standaard bidirectionele TLS-authenticatie in voor databases (zoals ClickHouse) en voorkom blootstelling van beheerpoorten op openbare netwerken.
  • Gebruik oplossingen zoals Vault/Boundary om tijdelijke credentials dynamisch te distribueren, waardoor langdurige statische sleutelretentie wordt vermeden.
  • Houd u aan het principe van least privilege, waarbij de gebruikerstoegang wordt beperkt tot alleen noodzakelijke resources via RBAC (Role-Based Access Control).
  • Implementeer IP-whitelisting en rate limiting voor API-aanroepen naar tools van derden (zoals OmniGPT).

Zorgen voor Bescherming van Gevoelige Gegevens Gedurende de Gehele Levenscyclus:

Van toepassing op Incident III (LLM-kaping):

  • Gegevensredactie en Encryptie: Dwing veldniveau-encryptie af (bijv. AES-GCM) voor gebruikersinvoer- en uitvoergegevens. Maskeer gevoelige velden in logs.
  • Schakel real-time redactie in voor de interactieve inhoud van LLM’s (bijv. het vervangen van creditcardnummers en telefoonnummers door tijdelijke aanduidingen).

Deze preventieve maatregelen, in combinatie met continue beveiligingsmonitoring en incident response planning, zijn essentieel voor het beperken van de risico’s die gepaard gaan met het groeiende gebruik van LLM’s. Het ‘onzichtbare slagveld’ van LLM-beveiliging vereist constante waakzaamheid en een proactieve aanpak om gevoelige gegevens te beschermen in dit snel evoluerende technologische landschap.