Guerra por Dados: Era LLM | pt

Uma Onda de Violações Expõe Vulnerabilidades

A rápida adoção de modelos de linguagem grande (LLMs) de código aberto, como DeepSeek e Ollama, tornou-se uma faca de dois gumes. Embora as empresas estejam a aproveitar estas poderosas ferramentas para aumentar a eficiência, a própria abertura que alimenta o seu crescimento está a criar um aumento paralelo nos riscos de segurança de dados. Um relatório recente compilado pelo NSFOCUS Xingyun Lab pinta um quadro sombrio: só nos primeiros dois meses de 2025, o mundo testemunhou cinco violações de dados significativas diretamente ligadas a LLMs. Estes incidentes resultaram na exposição de vastos tesouros de informações confidenciais, desde históricos de conversas confidenciais e chaves de API até credenciais de utilizador críticas. Estes eventos são um alerta, destacando as vulnerabilidades de segurança muitas vezes negligenciadas que se escondem sob a superfície da tecnologia de IA de ponta. Esta exploração irá dissecar estes cinco incidentes, dissecando os métodos de ataque, mapeando-os para a estrutura estabelecida MITRE ATT&CK e expondo os pontos cegos de segurança que as organizações devem abordar urgentemente.

Incidente 1: Base de Dados Mal Configurada da DeepSeek – Uma Janela para Conversas Privadas

Cronologia: 29 de janeiro de 2025

Escala do Vazamento: Milhões de linhas de dados de registo, incluindo históricos de conversas confidenciais e chaves de acesso.

Desenrolar dos Eventos:

A equipa de pesquisa de segurança da Wiz iniciou esta descoberta. Eles identificaram um serviço ClickHouse exposto acessível na Internet pública. Uma investigação mais aprofundada confirmou que este serviço pertencia à startup chinesa de IA, DeepSeek. O ClickHouse, projetado para lidar eficientemente com grandes conjuntos de dados em processamento analítico, infelizmente tornou-se um portal para os dados internos da DeepSeek. Os pesquisadores acederam a aproximadamente um milhão de linhas do fluxo de registo da DeepSeek, revelando um tesouro de informações confidenciais, incluindo registos históricos de conversas e chaves de acesso cruciais.

A Wiz alertou prontamente a DeepSeek sobre a vulnerabilidade, levando a uma ação imediata e ao descarte seguro do serviço ClickHouse exposto.

Dissecando o Ataque:

O problema central residia na vulnerabilidade do ClickHouse ao acesso não autorizado. O ClickHouse, um sistema de gestão de base de dados colunar de código aberto, destaca-se na consulta e análise em tempo real de conjuntos de dados massivos, frequentemente usado para análise de registos e comportamento do utilizador. No entanto, quando implementado sem controlos de acesso adequados, a sua interface API exposta permite que qualquer pessoa execute comandos semelhantes a SQL.

A abordagem da equipa de segurança da Wiz envolveu uma varredura metódica dos subdomínios voltados para a Internet da DeepSeek. Inicialmente focando-se nas portas padrão 80 e 443, eles encontraram recursos web típicos, como interfaces de chatbot e documentação de API. Para ampliar a sua pesquisa, eles expandiram-se para portas menos comuns, como 8123 e 9000, acabando por descobrir serviços expostos em vários subdomínios.

Os dados de registo comprometidos, que remontam a 6 de janeiro de 2025, continham uma riqueza de informações confidenciais: registos de chamadas, registos de texto para endpoints de API internos da DeepSeek, históricos de conversas detalhados, chaves de API, detalhes do sistema de backend e metadados operacionais.

Classificação de Eventos VERIZON: Erros Diversos

Mapeamento da Estrutura MITRE ATT&CK:

T1590.002 (Collect Victim Network Information - Domain Name Resolution): Os atacantes provavelmente usaram o nome de domínio primário para realizar a enumeração de subdomínios.
T1046 (Web Service Discovery): Os atacantes identificaram portas e serviços abertos associados ao domínio alvo.
T1106 (Native Interface): Os atacantes aproveitaram a API do ClickHouse para interagir com a base de dados.
T1567 (Data Exfiltration via Web Service): Os atacantes usaram a API do ClickHouse para roubar dados.

Incidente 2: Ataque à Cadeia de Suprimentos da DeepSeek – Um Cavalo de Troia no Código

Cronologia: 3 de fevereiro de 2025

Escala do Vazamento: Credenciais de utilizador e variáveis de ambiente.

Desenrolar dos Eventos:

O ataque começou em 19 de janeiro de 2025, quando um utilizador malicioso, identificado como “bvk”, carregou dois pacotes Python maliciosos chamados “deepseek” e “deepseekai” para o popular repositório PyPI (Python Package Index).

A equipa de inteligência de ameaças do Positive Technologies Expert Security Center (PT ESC) detetou esta atividade suspeita no mesmo dia. A sua análise confirmou a natureza maliciosa dos pacotes e eles notificaram prontamente os administradores do PyPI.

Os administradores do PyPI removeram rapidamente os pacotes maliciosos e informaram o PT ESC. Apesar da resposta rápida, as estatísticas revelaram que o malware foi descarregado mais de 200 vezes em 17 países através de vários canais. Os pacotes maliciosos foram subsequentemente isolados.

Dissecando o Ataque:

Os pacotes maliciosos carregados por “bvk” focaram-se em dois objetivos principais: recolha de informações e roubo de variáveis de ambiente. Os dados roubados incluíam informações confidenciais, como credenciais de base de dados, chaves de API e credenciais de acesso para armazenamento de objetos S3. A carga maliciosa era acionada sempre que um utilizador executava DeepSeek ou Deepseekai a partir da linha de comando.

O atacante utilizou o PipeDream como um servidor de comando e controlo para receber os dados roubados. O incidente destaca vários fatores contribuintes:

Ataque de Confusão de Dependências: Os atacantes exploraram a diferença de prioridade entre os pacotes privados de uma organização e os pacotes públicos com o mesmo nome.
Impersonificação do Nome do Pacote: Os pacotes maliciosos imitavam o nome da marca DeepSeek, uma empresa de IA bem conhecida, para enganar os utilizadores.
Fraqueza no Registo do PyPI: O processo de registo do PyPI carecia de uma verificação eficaz da identidade do desenvolvedor e da legitimidade do nome do pacote.
Consciência de Segurança do Desenvolvedor: Os desenvolvedores podem ter instalado por engano os pacotes maliciosos com nomes semelhantes.

Classificação de Eventos VERIZON: Engenharia Social

Mapeamento da Estrutura MITRE ATT&CK:

T1593.003 (Search Open Websites/Domains - Search Publicly Available Dependency Repository): Os atacantes pesquisaram informações no PyPI.
T1195.002 (Supply Chain Compromise - Compromise Software Supply Chain): Os atacantes usaram malware disfarçado de dependências Python e carregaram-no no PyPI.
T1059.006 (Command and Scripting Interpreter - Python): Os atacantes implantaram código malicioso no pacote, que, após a execução, vazava dados confidenciais.
T1041 (Exfiltration Over C2 Channel): Os atacantes exfiltraram informações confidenciais através do canal C2 do PipeDream.

Incidente 3: Sequestro de LLM – DeepSeek Alvo de Roubo de Recursos

Cronologia: 7 de fevereiro de 2025

Escala do Vazamento: Aproximadamente 2 biliões de tokens de modelo usados ilegalmente.

Desenrolar dos Eventos:

A equipa de pesquisa de ameaças da Sysdig descobriu inicialmente um novo ataque direcionado a LLMs, apelidado de “LLM jacking” ou “sequestro de LLM”, em maio de 2024.

Em setembro de 2024, a Sysdig relatou uma frequência e prevalência crescentes desses ataques, com a DeepSeek a tornar-se cada vez mais um alvo.

Em 26 de dezembro de 2024, a DeepSeek lançou um modelo avançado, o DeepSeek-V3. Pouco depois, a equipa da Sysdig descobriu que o DeepSeek-V3 havia sido implementado num projeto de proxy reverso OpenAI (ORP) hospedado no Hugging Face.

Em 20 de janeiro de 2025, a DeepSeek lançou um modelo de inferência chamado DeepSeek-R1. No dia seguinte, um projeto ORP com suporte ao DeepSeek-R1 apareceu, e os atacantes começaram a explorá-lo, preenchendo vários ORPs com chaves de API da DeepSeek.

A pesquisa da Sysdig indicou que o número total de tokens de modelo grande usados ilegalmente através de ORPs ultrapassou 2 biliões.

Dissecando o Ataque:

O sequestro de LLM envolve atacantes que exploram credenciais de nuvem roubadas para direcionar serviços LLM hospedados na nuvem. Os atacantes aproveitam um proxy reverso OAI (OpenAI) e credenciais roubadas para essencialmente vender acesso aos serviços LLM subscritos da vítima. Isso resulta em custos significativos de serviços de nuvem para a vítima.

O proxy reverso OAI atua como um ponto de gestão central para acesso a várias contas LLM, mascarando as credenciais subjacentes e os pools de recursos. Os atacantes podem usar LLMs caros como o DeepSeek sem pagar por eles, direcionando solicitações através do proxy reverso, consumindo recursos e contornando as taxas de serviço legítimas. O mecanismo de proxy oculta a identidade do atacante, permitindo que ele use indevidamente os recursos da nuvem sem ser detetado.

Embora o proxy reverso OAI seja um componente necessário para o sequestro de LLM, o elemento crucial é o roubo de credenciais e chaves para vários serviços LLM. Os atacantes frequentemente exploram vulnerabilidades tradicionais de serviços web e erros de configuração (como a vulnerabilidade CVE-2021-3129 no framework Laravel) para roubar estas credenciais. Uma vez obtidas, estas credenciais concedem acesso a serviços LLM baseados na nuvem, como Amazon Bedrock, Google Cloud Vertex AI e outros.

A pesquisa da Sysdig revelou que os atacantes podiam inflacionar rapidamente os custos de consumo das vítimas para dezenas de milhares de dólares em poucas horas e, em alguns casos, até $100.000 por dia. A motivação dos atacantes vai além da aquisição de dados; eles também lucram vendendo direitos de acesso.

Classificação de Eventos VERIZON: Ataques Básicos a Aplicações Web

Mapeamento da Estrutura MITRE ATT&CK:

T1593 (Search Open Websites/Domains): Os atacantes usaram métodos OSINT (Open-Source Intelligence) para recolher informações sobre serviços expostos.
T1133 (External Remote Services): Os atacantes identificaram vulnerabilidades em serviços expostos.
T1586.003 (Compromise Accounts - Cloud Accounts): Os atacantes exploraram vulnerabilidades para roubar credenciais de serviço LLM ou serviço de nuvem.
T1588.002 (Obtain Capabilities - Tool): Os atacantes implantaram uma ferramenta de proxy reverso OAI de código aberto.
T1090.002 (Proxy - External Proxy): Os atacantes usaram software de proxy reverso OAI para gerir o acesso a várias contas LLM.
T1496 (Resource Hijacking): Os atacantes lançaram um ataque de injeção de LLM para sequestrar recursos LLM.

Incidente 4: Violação de Dados da OmniGPT – Dados de Utilizadores Vendidos na Dark Web

Cronologia: 12 de fevereiro de 2025

Escala do Vazamento: Informações pessoais de mais de 30.000 utilizadores, incluindo e-mails, números de telefone, chaves de API, chaves de criptografia, credenciais e informações de faturação.

Desenrolar dos Eventos:

Em 12 de fevereiro de 2025, um utilizador chamado “SyntheticEmotions” publicou no BreachForums, alegando ter roubado dados confidenciais da plataforma OmniGPT e oferecendo-os para venda. Os dados vazados supostamente incluíam e-mails, números de telefone, chaves de API, chaves de criptografia, credenciais e informações de faturação de mais de 30.000 utilizadores da OmniGPT, juntamente com mais de 34 milhões de linhas de suas conversas com chatbots. Além disso, links para arquivos carregados na plataforma foram comprometidos, alguns contendo informações confidenciais como vouchers e dados de faturação.

Dissecando o Ataque:

Embora o vetor de ataque preciso permaneça não divulgado, o tipo e o escopo dos dados vazados sugerem várias possibilidades: injeção de SQL, abuso de API ou ataques de engenharia social podem ter concedido ao atacante acesso à base de dados de backend. Também é possível que a plataforma OmniGPT tivesse configurações incorretas ou vulnerabilidades que permitiram ao atacante contornar a autenticação e aceder diretamente à base de dados contendo informações do utilizador.

O arquivo “Messages.txt” envolvido num vazamento secundário continha chaves de API, credenciais de base de dados e informações de cartão de pagamento, potencialmente permitindo uma intrusão adicional em outros sistemas ou adulteração de dados. Alguns documentos carregados pelos utilizadores da plataforma continham segredos comerciais confidenciais e dados de projetos, representando um risco para as operações comerciais se usados indevidamente. Este incidente serve como um lembrete severo da necessidade de maior segurança de dados e proteção de privacidade nos setores de IA e big data. Os utilizadores devem ter extrema cautela ao utilizar estas plataformas, e as organizações devem estabelecer políticas rigorosas de uso de dados, implementando medidas como criptografia, minimização de dados e anonimização para dados confidenciais. Não o fazer pode levar a consequências legais, de reputação e económicas significativas.

Classificação de Eventos VERIZON: Erros Diversos

Mapeamento da Estrutura MITRE ATT&CK:

T1071.001 (Application Layer Protocol - Web Protocols): Os atacantes podem ter acedido a informações de utilizador vazadas e dados confidenciais através da interface web da OmniGPT.
T1071.002 (Application Layer Protocol - Application Programming Interfaces): Chaves de API e credenciais de base de dados vazadas podem permitir que os atacantes acedam ao sistema através da API da plataforma e realizem ações não autorizadas.
T1071.002 (Application Layer Protocol - Service Execution): Os atacantes podem abusar de serviços ou daemons do sistema para executar comandos ou programas.
T1020.003 (Automated Exfiltration - File Transfer): Links de arquivos vazados e arquivos confidenciais carregados pelo utilizador podem ser alvos para os atacantes descarregarem, obtendo mais dados confidenciais para ataques subsequentes.
T1083 (File and Directory Discovery): Os atacantes podem usar as informações vazadas para obter mais informações comerciais importantes.

Incidente 5: Credenciais da DeepSeek Vazadas no Common Crawl – Os Perigos da Codificação Rígida

Cronologia: 28 de fevereiro de 2025

Escala do Vazamento: Aproximadamente 11.908 chaves de API, credenciais e tokens de autenticação válidos da DeepSeek.

Desenrolar dos Eventos:

A equipa de segurança da Truffle utilizou a ferramenta de código aberto TruffleHog para analisar 400 TB de dados de dezembro de 2024 no Common Crawl, uma base de dados de rastreadores que abrange 2,67 biliões de páginas web de 47,5 milhões de hosts. A análise revelou uma descoberta surpreendente: aproximadamente 11.908 chaves de API, credenciais e tokens de autenticação válidos da DeepSeek estavam codificados diretamente em inúmeras páginas web.

O estudo também destacou o vazamento de chaves de API do Mailchimp, com cerca de 1.500 chaves encontradas codificadas em código JavaScript. As chaves de API do Mailchimp são frequentemente exploradas para ataques de phishing e roubo de dados.

Dissecando o Ataque:

O Common Crawl, uma base de dados de rastreadores web sem fins lucrativos, captura e publica regularmente dados de páginas da Internet. Ele armazena estes dados em arquivos WARC (Web ARChive), preservando o HTML original, o código JavaScript e as respostas do servidor. Estes conjuntos de dados são frequentemente usados para treinar modelos de IA. A pesquisa da Truffle expõe um problema crítico: treinar modelos em corpora contendo vulnerabilidades de segurança pode levar os modelos a herdar essas vulnerabilidades. Mesmo que LLMs como o DeepSeek empreguem medidas de segurança adicionais durante o treino e a implantação, a presença generalizada de vulnerabilidades codificadas nos dados de treino pode normalizar tais práticas “inseguras” para os modelos.

A codificação rígida, uma prática de codificação comum, mas insegura, é um problema generalizado. Embora a causa raiz seja simples, os riscos são graves: violações de dados, interrupções de serviço, ataques à cadeia de suprimentos e, com o aumento dos LLMs, uma nova ameaça – o sequestro de LLM. Como discutido anteriormente, o sequestro de LLM envolve atacantes que usam credenciais roubadas para explorar serviços LLM hospedados na nuvem, resultando em perdas financeiras substanciais para as vítimas.

Classificação de Eventos VERIZON: Erros Diversos

Mapeamento da Estrutura MITRE ATT&CK:

T1596.005 (Search Open Technical Database - Scan Databases): Os atacantes recolheram informações da base de dados pública do rastreador.
T1588.002 (Obtain Capabilities - Tool): Os atacantes implantaram uma ferramenta de descoberta de informações confidenciais.
T1586.003 (Compromise Accounts - Cloud Accounts): Os atacantes usaram ferramentas de descoberta de informações confidenciais para encontrar credenciais confidenciais em bases de dados públicas.
T1090.002 (Proxy - External Proxy): Os atacantes usaram software de proxy reverso OAI para gerir o acesso a várias contas LLM.
T1496 (Resource Hijacking): Os atacantes lançaram um ataque de injeção de LLM para sequestrar recursos LLM.

Prevenindo o Vazamento de Dados de LLM: Uma Abordagem Multifacetada

Os incidentes analisados destacam a necessidade urgente de medidas de segurança robustas para proteger contra violações de dados relacionadas a LLM. Aqui está um detalhamento das estratégias preventivas, categorizadas pelos incidentes relevantes:

Fortalecendo a Cadeia de Suprimentos:

Aplicável ao Incidente II (ataque de pacote de dependência malicioso) e Incidente V (violação de dados públicos):

Verificação Confiável de Pacotes de Dependência:
- Empregar ferramentas como PyPI/Sonatype Nexus Firewall para intercetar pacotes de dependência não assinados ou de origem suspeita.
- Proibir a obtenção direta de dependências de repositórios públicos em ambientes de desenvolvimento. Exigir o uso de proxies de repositório privado corporativo (por exemplo, Artifactory).
Monitorização de Ameaças à Cadeia de Suprimentos:
- Integrar ferramentas como Dependabot/Snyk para analisar automaticamente vulnerabilidades de dependência e bloquear a introdução de componentes de alto risco.
- Verificar a assinatura de código de pacotes de código aberto para garantir que o valor de hash corresponda ao oficial.
Limpeza da Fonte de Dados:
- Durante a recolha de dados de treino, filtrar informações confidenciais de conjuntos de dados públicos (como Common Crawl) usando expressões regulares e ferramentas de redação baseadas em IA para verificação dupla.

Implementando o Princípio do Menor Privilégio e Controlo de Acesso:

Aplicável ao Incidente I (erro de configuração de base de dados) e Incidente IV (violação de dados de ferramenta de terceiros):

Ativar a autenticação TLS bidirecional por padrão para bases de dados (como ClickHouse) e impedir a exposição de portas de gestão em redes públicas.
Utilizar soluções como Vault/Boundary para distribuir dinamicamente credenciais temporárias, evitando a retenção de chaves estáticas de longo prazo.
Aderir ao princípio do menor privilégio, restringindo o acesso do utilizador apenas aos recursos necessários através de RBAC (Role-Based Access Control).
Implementar lista branca de IP e limitação de taxa para chamadas de API para ferramentas de terceiros (como OmniGPT).

Garantindo a Proteção do Ciclo de Vida Completo de Dados Confidenciais:

Aplicável ao Incidente III (sequestro de LLM):

Redação e Criptografia de Dados: Impor criptografia em nível de campo (por exemplo, AES-GCM) para dados de entrada e saída do utilizador. Mascarar campos confidenciais em registos.
Ativar a redação em tempo real para o conteúdo interativo de LLMs (por exemplo, substituindo números de cartão de crédito e números de telefone por marcadores de posição).

Estas medidas preventivas, combinadas com monitorização contínua de segurança e planeamento de resposta a incidentes, são essenciais para mitigar os riscos associados ao uso crescente de LLMs. O “campo de batalha invisível” da segurança de LLM exige vigilância constante e uma abordagem proativa para proteger dados confidenciais nesta paisagem tecnológica em rápida evolução.

atualizado em 2025-03-11

# LLM # AIGC # DeepSeek