Сянката на войната за данни

Вълна от пробиви разкрива уязвимости

Бързото приемане на Large Language Models (LLMs) с отворен код като DeepSeek и Ollama се превърна в нож с две остриета. Докато предприятията използват тези мощни инструменти за повишаване на ефективността, самата отвореност, която подхранва растежа им, създава паралелен скок в рисковете за сигурността на данните. Неотдавнашен доклад, съставен от NSFOCUS Xingyun Lab, рисува сурова картина: само през първите два месеца на 2025 г. светът стана свидетел на пет значителни пробива в данните, пряко свързани с LLMs. Тези инциденти доведоха до излагане на огромни количества чувствителна информация, варираща от поверителни истории на чатове и API ключове до критични потребителски идентификационни данни. Тези събития са сигнал за събуждане, подчертаващ често пренебрегваните уязвимости в сигурността, които се крият под повърхността на авангардната AI технология. Това изследване ще анализира тези пет инцидента, дисектирайки методите на атака, картографирайки ги към установената рамка MITRE ATT&CK и разкривайки слепите петна в сигурността, които организациите трябва спешно да адресират.

Инцидент 1: Погрешно конфигурирана база данни на DeepSeek – Прозорец към лични разговори

Времева линия: 29 януари 2025 г.

Мащаб на изтичане: Милиони редове данни от регистрационни файлове, включително чувствителни истории на чатове и ключове за достъп.

Разгръщане на събитията:

Екипът за изследване на сигурността на Wiz инициира това откритие. Те идентифицираха изложена услуга ClickHouse, достъпна в публичния интернет. По-нататъшно разследване потвърди, че тази услуга принадлежи на китайския AI стартъп, DeepSeek. ClickHouse, проектиран за ефективно обработване на големи набори от данни при аналитична обработка, за съжаление се превърна в портал към вътрешните данни на DeepSeek. Изследователите са получили достъп до приблизително един милион реда от потока от регистрационни файлове на DeepSeek, разкривайки съкровищница от чувствителна информация, включително исторически регистрационни файлове на чатове и ключови ключове за достъп.

Wiz незабавно предупреди DeepSeek за уязвимостта, което доведе до незабавни действия и сигурно изхвърляне на изложената услуга ClickHouse.

Дисекция на атаката:

Основният проблем се състоеше в уязвимостта на ClickHouse към неоторизиран достъп. ClickHouse, система за управление на бази данни с отворен код, ориентирана към колони, се отличава с заявки в реално време и анализ на масивни набори от данни, често използвани за анализ на регистрационни файлове и поведение на потребителите. Въпреки това, когато се разположи без подходящи контроли за достъп, неговият изложен API интерфейс позволява на всеки да изпълнява SQL-подобни команди.

Подходът на екипа за сигурност на Wiz включваше методично сканиране на поддомейните на DeepSeek, обърнати към интернет. Първоначално фокусирайки се върху стандартните портове 80 и 443, те откриха типични уеб ресурси като интерфейси за чатботове и документация за API. За да разширят търсенето си, те се разшириха до по-рядко срещани портове като 8123 и 9000, като в крайна сметка разкриха изложени услуги на множество поддомейни.

Компрометираните данни от регистрационните файлове, датиращи от 6 януари 2025 г., съдържаха богата чувствителна информация: регистрационни файлове на обаждания, текстови регистрационни файлове за вътрешни крайни точки на DeepSeek API, подробни истории на чатове, API ключове, подробности за бекенд системата и оперативни метаданни.

VERIZON Класификация на събитията: Разни грешки

MITRE ATT&CK Рамка за картографиране:

  • T1590.002 (Събиране на информация за мрежата на жертвата - Разрешаване на име на домейн): Атакуващите вероятно са използвали основното име на домейн, за да извършат изброяване на поддомейни.
  • T1046 (Откриване на уеб услуги): Атакуващите са идентифицирали отворени портове и услуги, свързани с целевия домейн.
  • T1106 (Native Interface): Атакуващите са използвали ClickHouse API за взаимодействие с базата данни.
  • T1567 (Ексфилтрация на данни чрез уеб услуга): Атакуващите са използвали ClickHouse API, за да откраднат данни.

Инцидент 2: Атака на веригата за доставки на DeepSeek – Троянски кон в кода

Времева линия: 3 февруари 2025 г.

Мащаб на изтичане: Потребителски идентификационни данни и променливи на средата.

Разгръщане на събитията:

Атаката започна на 19 януари 2025 г., когато злонамерен потребител, идентифициран като “bvk”, качи два злонамерени Python пакета, наречени “deepseek” и “deepseekai”, в популярното хранилище PyPI (Python Package Index).

Екипът за разузнаване на заплахи в Positive Technologies Expert Security Center (PT ESC) откри тази подозрителна дейност на същия ден. Техният анализ потвърди злонамерения характер на пакетите и те незабавно уведомиха администраторите на PyPI.

Администраторите на PyPI бързо премахнаха злонамерените пакети и информираха PT ESC. Въпреки бързата реакция, статистиката разкри, че зловредният софтуер е бил изтеглен над 200 пъти в 17 държави чрез различни канали. Впоследствие злонамерените пакети бяха изолирани.

Дисекция на атаката:

Злонамерените пакети, качени от “bvk”, се фокусираха върху две основни цели: събиране на информация и кражба на променливи на средата. Откраднатите данни включват чувствителна информация като идентификационни данни за база данни, API ключове и идентификационни данни за достъп за S3 обектно хранилище. Злонамереният полезен товар се задейства всеки път, когато потребител изпълни DeepSeek или Deepseekai от командния ред.

Атакуващият е използвал PipeDream като сървър за командване и контрол, за да получава откраднатите данни. Инцидентът подчертава няколко фактора, които допринасят за това:

  • Атака на объркване на зависимости: Атакуващите са използвали разликата в приоритета между частните пакети на организацията и публичните пакети със същото име.
  • Имитация на име на пакет: Злонамерените пакети имитираха името на марката DeepSeek, добре позната AI компания, за да заблудят потребителите.
  • Слабост на регистрацията на PyPI: Процесът на регистрация на PyPI нямаше ефективна проверка на самоличността на разработчика и легитимността на името на пакета.
  • Информираност за сигурността на разработчиците: Разработчиците може по погрешка да са инсталирали подобно наречените злонамерени пакети.

VERIZON Класификация на събитията: Социално инженерство

MITRE ATT&CK Рамка за картографиране:

  • T1593.003 (Търсене на отворени уебсайтове/домейни - Търсене в публично достъпно хранилище на зависимости): Атакуващите са търсили информация в PyPI.
  • T1195.002 (Компрометиране на веригата за доставки - Компрометиране на веригата за доставки на софтуер): Атакуващите са използвали зловреден софтуер, маскиран като Python зависимости, и са го качили в PyPI.
  • T1059.006 (Команден и скриптов интерпретатор - Python): Атакуващите са имплантирали злонамерен код в пакета, който при изпълнение е изтекъл чувствителни данни.
  • T1041 (Ексфилтрация през C2 канал): Атакуващите са ексфилтрирали чувствителна информация чрез PipeDream C2 канала.

Инцидент 3: Отвличане на LLM – DeepSeek, насочен към кражба на ресурси

Времева линия: 7 февруари 2025 г.

Мащаб на изтичане: Приблизително 2 милиарда моделни токена, използвани незаконно.

Разгръщане на събитията:

Екипът за изследване на заплахите на Sysdig първоначално откри нова атака, насочена към LLMs, наречена “LLM jacking” или “LLM hijacking”, през май 2024 г.

До септември 2024 г. Sysdig съобщи за нарастваща честота и разпространение на тези атаки, като DeepSeek все повече се превръща в цел.

На 26 декември 2024 г. DeepSeek пусна усъвършенстван модел, DeepSeek-V3. Малко след това екипът на Sysdig установи, че DeepSeek-V3 е внедрен в проект за обратен прокси сървър на OpenAI (ORP), хостван на Hugging Face.

На 20 януари 2025 г. DeepSeek пусна модел за извод, наречен DeepSeek-R1. Още на следващия ден се появи ORP проект, поддържащ DeepSeek-R1, и нападателите започнаха да го експлоатират, попълвайки множество ORP с DeepSeek API ключове.

Изследванията на Sysdig показват, че общият брой на големите моделни токени, използвани незаконно чрез ORP, е надхвърлил 2 милиарда.

Дисекция на атаката:

Отвличането на LLM включва нападатели, които експлоатират откраднати идентификационни данни в облака, за да се насочат към облачно хоствани LLM услуги. Атакуващите използват обратен прокси сървър на OAI (OpenAI) и откраднати идентификационни данни, за да продават по същество достъп до абонираните LLM услуги на жертвата. Това води до значителни разходи за облачни услуги за жертвата.

Обратният прокси сървър на OAI действа като централна точка за управление на достъпа до множество LLM акаунти, маскирайки основните идентификационни данни и ресурсни пулове. Атакуващите могат да използват скъпи LLMs като DeepSeek, без да плащат за тях, насочвайки заявки през обратния прокси сървър, консумирайки ресурси и заобикаляйки законните такси за услуги. Механизмът на прокси сървъра скрива самоличността на нападателя, позволявайки му да злоупотребява с облачни ресурси незабелязано.

Докато обратният прокси сървър на OAI е необходим компонент за отвличане на LLM, решаващият елемент е кражбата на идентификационни данни и ключове за различни LLM услуги. Атакуващите често експлоатират традиционни уязвимости на уеб услуги и грешки в конфигурацията (като уязвимостта CVE-2021-3129 в рамката Laravel), за да откраднат тези идентификационни данни. След като бъдат получени, тези идентификационни данни предоставят достъп до облачни LLM услуги като Amazon Bedrock, Google Cloud Vertex AI и други.

Изследванията на Sysdig разкриха, че нападателите могат бързо да увеличат разходите за потребление на жертвите до десетки хиляди долари в рамките на часове, а в някои случаи до $100 000 на ден. Мотивацията на нападателите се простира отвъд придобиването на данни; те също печелят от продажбата на права за достъп.

VERIZON Класификация на събитията: Основни атаки на уеб приложения

MITRE ATT&CK Рамка за картографиране:

  • T1593 (Търсене на отворени уебсайтове/домейни): Атакуващите са използвали OSINT (Open-Source Intelligence) методи за събиране на информация за изложени услуги.
  • T1133 (Външни отдалечени услуги): Атакуващите са идентифицирали уязвимости в изложени услуги.
  • T1586.003 (Компрометиране на акаунти - Облачни акаунти): Атакуващите са използвали уязвимости, за да откраднат LLM услуга или идентификационни данни за облачна услуга.
  • T1588.002 (Получаване на възможности - Инструмент): Атакуващите са внедрили инструмент за обратен прокси сървър на OAI с отворен код.
  • T1090.002 (Прокси - Външен прокси): Атакуващите са използвали софтуер за обратен прокси сървър на OAI, за да управляват достъпа до множество LLM акаунти.
  • T1496 (Отвличане на ресурси): Атакуващите са стартирали LLM инжекционна атака, за да отвлекат LLM ресурси.

Инцидент 4: Пробив на данни на OmniGPT – Потребителски данни, продавани в тъмната мрежа

Времева линия: 12 февруари 2025 г.

Мащаб на изтичане: Лична информация на над 30 000 потребители, включително имейли, телефонни номера, API ключове, ключове за криптиране, идентификационни данни и информация за фактуриране.

Разгръщане на събитията:

На 12 февруари 2025 г. потребител на име “SyntheticEmotions” публикува в BreachForums, твърдейки, че е откраднал чувствителни данни от платформата OmniGPT и ги предлага за продажба. Изтеклите данни се съобщава, че включват имейли, телефонни номера, API ключове, ключове за криптиране, идентификационни данни и информация за фактуриране за над 30 000 потребители на OmniGPT, заедно с над 34 милиона реда от техните разговори с чатботове. Освен това връзките към файлове, качени в платформата, бяха компрометирани, като някои съдържаха чувствителна информация като ваучери и данни за фактуриране.

Дисекция на атаката:

Въпреки че точният вектор на атака остава неразкрит, видът и обхватът на изтеклите данни предполагат няколко възможности: SQL инжекция, злоупотреба с API или атаки на социално инженерство може да са предоставили на нападателя достъп до бекенд базата данни. Възможно е също така платформата OmniGPT да е имала грешни конфигурации или уязвимости, които са позволили на нападателя да заобиколи удостоверяването и да получи директен достъп до базата данни, съдържаща потребителска информация.

Файлът “Messages.txt”, участващ във вторично изтичане, съдържа API ключове, идентификационни данни за база данни и информация за платежни карти, което потенциално позволява по-нататъшно проникване в други системи или подправяне на данни. Някои документи, качени от потребители на платформата, съдържат чувствителни бизнес тайни и данни за проекти, което представлява риск за бизнес операциите, ако се злоупотреби. Този инцидент служи като ярко напомняне за необходимостта от повишена сигурност на данните и защита на поверителността в секторите на AI и големите данни. Потребителите трябва да бъдат изключително внимателни, когато използват тези платформи, а организациите трябва да установят строги политики за използване на данни, прилагайки мерки като криптиране, минимизиране на данни и анонимизиране за чувствителни данни. Ако не го направят, това може да доведе до значителни правни, репутационни и икономически последици.

VERIZON Класификация на събитията: Разни грешки

MITRE ATT&CK Рамка за картографиране:

  • T1071.001 (Протокол на приложния слой - Уеб протоколи): Атакуващите може да са получили достъп до изтекла потребителска информация и чувствителни данни чрез уеб интерфейса на OmniGPT.
  • T1071.002 (Протокол на приложния слой - Интерфейси за програмиране на приложения): Изтеклите API ключове и идентификационни данни за база данни могат да позволят на нападателите да получат достъп до системата чрез API на платформата и да извършват неоторизирани действия.
  • T1071.002 (Протокол на приложния слой - Изпълнение на услуга): Атакуващите може да злоупотребяват със системни услуги или демони, за да изпълняват команди или програми.
  • T1020.003 (Автоматизирана ексфилтрация - Прехвърляне на файлове): Изтеклите връзки към файлове и качените от потребителите чувствителни файлове могат да бъдат цели за нападателите да изтеглят, получавайки повече чувствителни данни за последващи атаки.
  • T1083 (Откриване на файлове и директории): Атакуващите могат да използват изтеклата информация, за да получат допълнително ключова бизнес информация.

Инцидент 5: Изтичане на идентификационни данни на DeepSeek в Common Crawl – Опасностите от твърдото кодиране

Времева линия: 28 февруари 2025 г.

Мащаб на изтичане: Приблизително 11 908 валидни DeepSeek API ключа, идентификационни данни и токени за удостоверяване.

Разгръщане на събитията:

Екипът за сигурност на Truffle използва инструмента с отворен код TruffleHog, за да сканира 400 TB данни от декември 2024 г. в Common Crawl, база данни за обхождане, обхващаща 2,67 милиарда уеб страници от 47,5 милиона хоста. Сканирането разкри поразително откритие: приблизително 11 908 валидни DeepSeek API ключа, идентификационни данни и токени за удостоверяване бяха твърдо кодирани директно в многобройни уеб страници.

Проучването също така подчерта изтичането на API ключове на Mailchimp, като около 1500 ключа бяха открити твърдо кодирани в JavaScript код. API ключовете на Mailchimp често се използват за фишинг и атаки за кражба на данни.

Дисекция на атаката:

Common Crawl, база данни за обхождане на уеб с нестопанска цел, редовно улавя и публикува данни от интернет страници. Той съхранява тези данни във файлове WARC (Web ARChive), запазвайки оригиналния HTML, JavaScript код и отговорите на сървъра. Тези набори от данни често се използват за обучение на AI модели. Изследванията на Truffle разкриват критичен проблем: обучението на модели върху корпуси, съдържащи уязвимости в сигурността, може да доведе до наследяване на тези уязвимости от моделите. Дори ако LLMs като DeepSeek използват допълнителни мерки за сигурност по време на обучение и внедряване, широкото разпространение на твърдо кодирани уязвимости в данните за обучение може да нормализира такива “опасни” практики за моделите.

Твърдото кодиране, често срещана, но несигурна практика за кодиране, е широко разпространен проблем. Докато основната причина е проста, рисковете са сериозни: пробиви в данните, прекъсвания на услугите, атаки на веригата за доставки и, с възхода на LLMs, нова заплаха – отвличане на LLM. Както беше обсъдено по-рано, отвличането на LLM включва нападатели, които използват откраднати идентификационни данни, за да експлоатират облачно хоствани LLM услуги, което води до значителни финансови загуби за жертвите.

VERIZON Класификация на събитията: Разни грешки

MITRE ATT&CK Рамка за картографиране:

  • T1596.005 (Търсене в отворена техническа база данни - Сканиране на бази данни): Атакуващите са събрали информация от публичната база данни за обхождане.
  • T1588.002 (Получаване на възможности - Инструмент): Атакуващите са внедрили инструмент за откриване на чувствителна информация.
  • T1586.003 (Компрометиране на акаунти - Облачни акаунти): Атакуващите са използвали инструменти за откриване на чувствителна информация, за да намерят чувствителни идентификационни данни в публични бази данни.
  • T1090.002 (Прокси - Външен прокси): Атакуващите са използвали софтуер за обратен прокси сървър на OAI, за да управляват достъпа до множество LLM акаунти.
  • T1496 (Отвличане на ресурси): Атакуващите са стартирали LLM инжекционна атака, за да отвлекат LLM ресурси.

Предотвратяване на изтичане на данни от LLM: Многостранен подход

Анализираните инциденти подчертават спешната нужда от надеждни мерки за сигурност за защита срещу пробиви на данни, свързани с LLM. Ето разбивка на превантивните стратегии, категоризирани по съответните инциденти:

Укрепване на веригата за доставки:

Приложимо за инцидент II (атака на злонамерен пакет за зависимост) и инцидент V (пробив на публични данни):

  1. Надеждна проверка на пакетите за зависимост:
    *Използвайте инструменти като PyPI/Sonatype Nexus Firewall, за да прихванете неподписани или подозрително извлечени пакети за зависимост.

    • Забранете директното извличане на зависимости от публични хранилища в среди за разработка. Задължително използвайте корпоративни прокси сървъри за частни хранилища (напр. Artifactory).
  2. Мониторинг на заплахите за веригата за доставки:

    • Интегрирайте инструменти като Dependabot/Snyk, за да сканирате автоматично за уязвимости на зависимостите и да блокирате въвеждането на високорискови компоненти.
    • Проверете кодовия подпис на пакетите с отворен код, за да се уверите, че хеш стойността съвпада с официалната.
  3. Почистване на източника на данни:

    • По време на събирането на данни за обучение филтрирайте чувствителната информация от публични набори от данни (като Common Crawl), като използвате регулярни изрази и базирани на AI инструменти за редакция за двойна проверка.

Прилагане на най-малко привилегии и контрол на достъпа:

Приложимо за инцидент I (грешка в конфигурацията на базата данни) и инцидент IV (пробив на данни на инструмент на трета страна):

  • Активирайте двупосочно TLS удостоверяване по подразбиране за бази данни (като ClickHouse) и предотвратете излагането на портове за управление в публични мрежи.
  • Използвайте решения като Vault/Boundary за динамично разпространение на временни идентификационни данни, избягвайки дългосрочното запазване на статични ключове.
  • Придържайте се към принципа на най-малко привилегии, ограничавайки потребителския достъп само до необходимите ресурси чрез RBAC (Role-Based Access Control).
  • Внедрете IP списък с разрешени адреси и ограничаване на скоростта за API повиквания към инструменти на трети страни (като OmniGPT).

Осигуряване на защита на чувствителни данни през целия жизнен цикъл:

Приложимо за инцидент III (отвличане на LLM):

  • Редакция и криптиране на данни: Приложете криптиране на ниво поле (напр. AES-GCM) за потребителски входни и изходни данни. Маскирайте чувствителните полета в регистрационните файлове.
  • Активирайте редакция в реално време за интерактивното съдържание на LLMs (напр. замяна на номера на кредитни карти и телефонни номера с контейнери).

Тези превантивни мерки, комбинирани с непрекъснат мониторинг на сигурността и планиране на реакция при инциденти, са от съществено значение за смекчаване на рисковете, свързани с нарастващото използване на LLMs. “Невидимото бойно поле” на LLM сигурността изисква постоянна бдителност и проактивен подход за защита на чувствителните данни в този бързо развиващ се технологичен пейзаж.