Теневая война за данные LLM | ru

Волна взломов обнажает уязвимости

Стремительное распространение open-source больших языковых моделей (LLM), таких как DeepSeek и Ollama, стало обоюдоострым мечом. В то время как предприятия используют эти мощные инструменты для повышения эффективности, сама открытость, способствующая их росту, создает параллельный всплеск рисков безопасности данных. Недавний отчет, составленный NSFOCUS Xingyun Lab, рисует суровую картину: только за первые два месяца 2025 года в мире произошло пять значительных утечек данных, непосредственно связанных с LLM. Эти инциденты привели к раскрытию огромных массивов конфиденциальной информации, начиная от конфиденциальных историй чатов и ключей API и заканчивая критически важными учетными данными пользователей. Эти события являются тревожным сигналом, подчеркивающим часто упускаемые из виду уязвимости безопасности, скрывающиеся под поверхностью передовых технологий искусственного интеллекта. В этом исследовании будут проанализированы эти пять инцидентов, разобраны методы атак, сопоставлены их с установленной структурой MITRE ATT&CK и выявлены слепые зоны безопасности, которые организации должны срочно устранить.

Инцидент 1: Неправильно настроенная база данных DeepSeek – окно в личные разговоры

Сроки: 29 января 2025 г.

Масштаб утечки: Миллионы строк данных журналов, включая конфиденциальные истории чатов и ключи доступа.

Развитие событий:

Группа исследователей безопасности Wiz инициировала это открытие. Они обнаружили открытую службу ClickHouse, доступную в общедоступном Интернете. Дальнейшее расследование подтвердило, что эта служба принадлежит китайскому стартапу в области искусственного интеллекта DeepSeek. ClickHouse, предназначенный для эффективной обработки больших наборов данных в аналитической обработке, к сожалению, стал шлюзом к внутренним данным DeepSeek. Исследователи получили доступ примерно к миллиону строк потока журналов DeepSeek, обнаружив сокровищницу конфиденциальной информации, включая исторические журналы чатов и важные ключи доступа.

Wiz незамедлительно предупредил DeepSeek об уязвимости, что привело к немедленным действиям и безопасному удалению открытой службы ClickHouse.

Анализ атаки:

Основная проблема заключалась в уязвимости ClickHouse к несанкционированному доступу. ClickHouse, система управления базами данных с открытым исходным кодом, ориентированная на столбцы, превосходно справляется с запросами в реальном времени и анализом массивных наборов данных, часто используемых для анализа журналов и поведения пользователей. Однако при развертывании без надлежащего контроля доступа его открытый интерфейс API позволяет любому выполнять команды, подобные SQL.

Подход группы безопасности Wiz включал методичное сканирование поддоменов DeepSeek, обращенных к Интернету. Первоначально сосредоточившись на стандартных портах 80 и 443, они обнаружили типичные веб-ресурсы, такие как интерфейсы чат-ботов и документация API. Чтобы расширить свой поиск, они расширили его до менее распространенных портов, таких как 8123 и 9000, в конечном итоге обнаружив открытые службы на нескольких поддоменах.

Скомпрометированные данные журнала, датируемые 6 января 2025 года, содержали множество конфиденциальной информации: журналы вызовов, текстовые журналы для внутренних конечных точек API DeepSeek, подробные истории чатов, ключи API, сведения о серверной системе и рабочие метаданные.

Классификация событий VERIZON: Прочие ошибки

Сопоставление со структурой MITRE ATT&CK:

T1590.002 (Сбор информации о сети жертвы - Разрешение доменных имен): Злоумышленники, вероятно, использовали основное доменное имя для перечисления поддоменов.
T1046 (Обнаружение веб-служб): Злоумышленники определили открытые порты и службы, связанные с целевым доменом.
T1106 (Собственный интерфейс): Злоумышленники использовали API ClickHouse для взаимодействия с базой данных.
T1567 (Эксфильтрация данных через веб-службу): Злоумышленники использовали API ClickHouse для кражи данных.

Инцидент 2: Атака на цепочку поставок DeepSeek – троянский конь в коде

Сроки: 3 февраля 2025 г.

Масштаб утечки: Учетные данные пользователей и переменные среды.

Развитие событий:

Атака началась 19 января 2025 года, когда злоумышленник, идентифицированный как ‘bvk’, загрузил два вредоносных пакета Python под названием ‘deepseek’ и ‘deepseekai’ в популярный репозиторий PyPI (Python Package Index).

Группа анализа угроз Positive Technologies Expert Security Center (PT ESC) обнаружила эту подозрительную активность в тот же день. Их анализ подтвердил вредоносный характер пакетов, и они незамедлительно уведомили администраторов PyPI.

Администраторы PyPI быстро удалили вредоносные пакеты и проинформировали PT ESC. Несмотря на быстрый ответ, статистика показала, что вредоносное ПО было загружено более 200 раз в 17 странах по различным каналам. Впоследствии вредоносные пакеты были изолированы.

Анализ атаки:

Вредоносные пакеты, загруженные ‘bvk’, были сосредоточены на двух основных целях: сбор информации и кража переменных среды. Украденные данные включали конфиденциальную информацию, такую как учетные данные базы данных, ключи API и учетные данные доступа для объектного хранилища S3. Вредоносная полезная нагрузка срабатывала всякий раз, когда пользователь выполнял DeepSeek или Deepseekai из командной строки.

Злоумышленник использовал PipeDream в качестве сервера управления и контроля для получения украденных данных. Инцидент выявил несколько способствующих факторов:

Атака с подменой зависимостей: Злоумышленники использовали разницу в приоритете между частными пакетами организации и общедоступными пакетами с тем же именем.
Имитация имени пакета: Вредоносные пакеты имитировали фирменное наименование DeepSeek, известной компании в области искусственного интеллекта, чтобы обмануть пользователей.
Слабость регистрации PyPI: В процессе регистрации PyPI отсутствовала эффективная проверка личности разработчика и легитимности имени пакета.
Осведомленность разработчиков о безопасности: Разработчики могли по ошибке установить вредоносные пакеты с похожими именами.

Классификация событий VERIZON: Социальная инженерия

Сопоставление со структурой MITRE ATT&CK:

T1593.003 (Поиск на открытых веб-сайтах/доменах - Поиск в общедоступном репозитории зависимостей): Злоумышленники искали информацию на PyPI.
T1195.002 (Компрометация цепочки поставок - Компрометация цепочки поставок программного обеспечения): Злоумышленники использовали вредоносное ПО, замаскированное под зависимости Python, и загрузили его в PyPI.
T1059.006 (Интерпретатор команд и сценариев - Python): Злоумышленники внедрили вредоносный код в пакет, который при выполнении приводил к утечке конфиденциальных данных.
T1041 (Эксфильтрация через канал C2): Злоумышленники извлекали конфиденциальную информацию через канал C2 PipeDream.

Инцидент 3: Угон LLM – DeepSeek стал мишенью для кражи ресурсов

Сроки: 7 февраля 2025 г.

Масштаб утечки: Незаконно использовано около 2 миллиардов токенов модели.

Развитие событий:

Группа исследования угроз Sysdig первоначально обнаружила новую атаку, нацеленную на LLM, получившую название ‘LLM jacking’ или ‘LLM hijacking’, в мае 2024 года.

К сентябрю 2024 года Sysdig сообщила о растущей частоте и распространенности этих атак, при этом DeepSeek все чаще становился мишенью.

26 декабря 2024 года DeepSeek выпустила усовершенствованную модель DeepSeek-V3. Вскоре после этого команда Sysdig обнаружила, что DeepSeek-V3 был реализован в проекте обратного прокси-сервера OpenAI (ORP), размещенном на Hugging Face.

20 января 2025 года DeepSeek выпустила модель вывода под названием DeepSeek-R1. На следующий же день появился проект ORP, поддерживающий DeepSeek-R1, и злоумышленники начали использовать его, заполняя несколько ORP ключами API DeepSeek.

Исследование Sysdig показало, что общее количество токенов больших моделей, незаконно использованных через ORP, превысило 2 миллиарда.

Анализ атаки:

Угон LLM включает в себя злоумышленников, использующих украденные учетные данные облака для нацеливания на облачные службы LLM. Злоумышленники используют обратный прокси-сервер OAI (OpenAI) и украденные учетные данные, чтобы, по сути, продавать доступ к подписанным службам LLM жертвы. Это приводит к значительным затратам на облачные сервисы для жертвы.

Обратный прокси-сервер OAI действует как центральная точка управления доступом к нескольким учетным записям LLM, маскируя базовые учетные данные и пулы ресурсов. Злоумышленники могут использовать дорогие LLM, такие как DeepSeek, не платя за них, направляя запросы через обратный прокси-сервер, потребляя ресурсы и обходя законные сборы за обслуживание. Механизм прокси скрывает личность злоумышленника, позволяя ему незаметно использовать облачные ресурсы.

Хотя обратный прокси-сервер OAI является необходимым компонентом для угона LLM, решающим элементом является кража учетных данных и ключей для различных служб LLM. Злоумышленники часто используют традиционные уязвимости веб-служб и ошибки конфигурации (например, уязвимость CVE-2021-3129 в платформе Laravel) для кражи этих учетных данных. После получения эти учетные данные предоставляют доступ к облачным службам LLM, таким как Amazon Bedrock, Google Cloud Vertex AI и другим.

Исследование Sysdig показало, что злоумышленники могут быстро увеличить расходы жертв на потребление до десятков тысяч долларов в течение нескольких часов, а в некоторых случаях и до 100 000 долларов в день. Мотивация злоумышленников выходит за рамки получения данных; они также получают прибыль, продавая права доступа.

Классификация событий VERIZON: Базовые атаки на веб-приложения

Сопоставление со структурой MITRE ATT&CK:

T1593 (Поиск на открытых веб-сайтах/доменах): Злоумышленники использовали методы OSINT (Open-Source Intelligence) для сбора информации об открытых службах.
T1133 (Внешние удаленные службы): Злоумышленники выявили уязвимости в открытых службах.
T1586.003 (Компрометация учетных записей - Облачные учетные записи): Злоумышленники использовали уязвимости для кражи учетных данных службы LLM или облачной службы.
T1588.002 (Получение возможностей - Инструмент): Злоумышленники развернули инструмент обратного прокси-сервера OAI с открытым исходным кодом.
T1090.002 (Прокси - Внешний прокси): Злоумышленники использовали программное обеспечение обратного прокси-сервера OAI для управления доступом к нескольким учетным записям LLM.
T1496 (Угон ресурсов): Злоумышленники запустили атаку с внедрением LLM, чтобы угнать ресурсы LLM.

Инцидент 4: Утечка данных OmniGPT – данные пользователей продаются в даркнете

Сроки: 12 февраля 2025 г.

Масштаб утечки: Личная информация более 30 000 пользователей, включая адреса электронной почты, номера телефонов, ключи API, ключи шифрования, учетные данные и платежную информацию.

Развитие событий:

12 февраля 2025 года пользователь по имени ‘SyntheticEmotions’ разместил сообщение на BreachForums, утверждая, что украл конфиденциальные данные с платформы OmniGPT, и предлагая их для продажи. Сообщается, что утекшие данные включали адреса электронной почты, номера телефонов, ключи API, ключи шифрования, учетные данные и платежную информацию для более чем 30 000 пользователей OmniGPT, а также более 34 миллионов строк их разговоров с чат-ботами. Кроме того, были скомпрометированы ссылки на файлы, загруженные на платформу, некоторые из которых содержали конфиденциальную информацию, такую как ваучеры и платежные данные.

Анализ атаки:

Хотя точный вектор атаки остается нераскрытым, тип и объем утекших данных предполагают несколько возможностей: SQL-инъекция, злоупотребление API или атаки социальной инженерии могли предоставить злоумышленнику доступ к серверной базе данных. Также возможно, что платформа OmniGPT имела неправильные настройки или уязвимости, которые позволили злоумышленнику обойти аутентификацию и получить прямой доступ к базе данных, содержащей информацию о пользователях.

Файл ‘Messages.txt’, участвовавший во вторичной утечке, содержал ключи API, учетные данные базы данных и информацию о платежных картах, что потенциально могло привести к дальнейшему вторжению в другие системы или подделке данных. Некоторые документы, загруженные пользователями платформы, содержали конфиденциальные коммерческие секреты и данные проекта, что создавало риск для деловых операций в случае неправомерного использования. Этот инцидент служит суровым напоминанием о необходимости усиления защиты данных и конфиденциальности в секторах искусственного интеллекта и больших данных. Пользователи должны проявлять крайнюю осторожность при использовании этих платформ, а организации должны установить строгие политики использования данных, внедряя такие меры, как шифрование, минимизация данных и анонимизация для конфиденциальных данных. Невыполнение этого требования может привести к значительным юридическим, репутационным и экономическим последствиям.

Классификация событий VERIZON: Прочие ошибки

Сопоставление со структурой MITRE ATT&CK:

T1071.001 (Протокол прикладного уровня - Веб-протоколы): Злоумышленники могли получить доступ к утекшей информации о пользователях и конфиденциальным данным через веб-интерфейс OmniGPT.
T1071.002 (Протокол прикладного уровня - Интерфейсы прикладного программирования): Утекшие ключи API и учетные данные базы данных могли позволить злоумышленникам получить доступ к системе через API платформы и выполнить несанкционированные действия.
T1071.002 (Протокол прикладного уровня - Выполнение служб): Злоумышленники могли злоупотреблять системными службами или демонами для выполнения команд или программ.
T1020.003 (Автоматизированная эксфильтрация - Передача файлов): Утекшие ссылки на файлы и загруженные пользователями конфиденциальные файлы могли быть целями для злоумышленников для загрузки, получения более конфиденциальных данных для последующих атак.
T1083 (Обнаружение файлов и каталогов): Злоумышленники могли использовать утекшую информацию для дальнейшего получения ключевой деловой информации.

Инцидент 5: Утечка учетных данных DeepSeek в Common Crawl – опасность жесткого кодирования

Сроки: 28 февраля 2025 г.

Масштаб утечки: Приблизительно 11 908 действительных ключей API DeepSeek, учетных данных и токенов аутентификации.

Развитие событий:

Группа безопасности Truffle использовала инструмент с открытым исходным кодом TruffleHog для сканирования 400 ТБ данных за декабрь 2024 года в Common Crawl, базе данных сканера, охватывающей 2,67 миллиарда веб-страниц с 47,5 миллиона хостов. Сканирование выявило поразительный результат: примерно 11 908 действительных ключей API DeepSeek, учетных данных и токенов аутентификации были жестко закодированы непосредственно на многочисленных веб-страницах.

Исследование также выявило утечку ключей API Mailchimp: около 1500 ключей были обнаружены жестко закодированными в коде JavaScript. Ключи API Mailchimp часто используются для фишинга и атак с кражей данных.

Анализ атаки:

Common Crawl, некоммерческая база данных веб-сканера, регулярно захватывает и публикует данные с интернет-страниц. Он хранит эти данные в файлах WARC (Web ARChive), сохраняя исходный HTML, код JavaScript и ответы сервера. Эти наборы данных часто используются для обучения моделей искусственного интеллекта. Исследование Truffle выявляет критическую проблему: обучение моделей на корпусах, содержащих уязвимости безопасности, может привести к тому, что модели унаследуют эти уязвимости. Даже если LLM, такие как DeepSeek, используют дополнительные меры безопасности во время обучения и развертывания, широкое распространение жестко закодированных уязвимостей в обучающих данных может нормализовать такие ‘небезопасные’ практики для моделей.

Жесткое кодирование, распространенная, но небезопасная практика кодирования, является повсеместной проблемой. Хотя первопричина проста, риски серьезны: утечки данных, сбои в обслуживании, атаки на цепочку поставок и, с ростом LLM, новая угроза – угон LLM. Как обсуждалось ранее, угон LLM включает в себя злоумышленников, использующих украденные учетные данные для использования облачных служб LLM, что приводит к значительным финансовым потерям для жертв.

Классификация событий VERIZON: Прочие ошибки

Сопоставление со структурой MITRE ATT&CK:

T1596.005 (Поиск в открытой технической базе данных - Сканирование баз данных): Злоумышленники собирали информацию из общедоступной базы данных сканера.
T1588.002 (Получение возможностей - Инструмент): Злоумышленники развернули инструмент обнаружения конфиденциальной информации.
T1586.003 (Компрометация учетных записей - Облачные учетные записи): Злоумышленники использовали инструменты обнаружения конфиденциальной информации для поиска конфиденциальных учетных данных в общедоступных базах данных.
T1090.002 (Прокси - Внешний прокси): Злоумышленники использовали программное обеспечение обратного прокси-сервера OAI для управления доступом к нескольким учетным записям LLM.
T1496 (Угон ресурсов): Злоумышленники запустили атаку с внедрением LLM, чтобы угнать ресурсы LLM.

Предотвращение утечки данных LLM: многогранный подход

Проанализированные инциденты подчеркивают острую необходимость в надежных мерах безопасности для защиты от утечек данных, связанных с LLM. Вот разбивка превентивных стратегий, сгруппированных по соответствующим инцидентам:

Укрепление цепочки поставок:

Применимо к Инциденту II (атака вредоносного пакета зависимостей) и Инциденту V (утечка общедоступных данных):

Доверенная проверка пакетов зависимостей:
- Используйте такие инструменты, как PyPI/Sonatype Nexus Firewall, для перехвата неподписанных или подозрительно полученных пакетов зависимостей.
- Запретите прямую выборку зависимостей из общедоступных репозиториев в средах разработки. Обяжите использовать корпоративные прокси-серверы частных репозиториев (например, Artifactory).
Мониторинг угроз цепочки поставок:
- Интегрируйте такие инструменты, как Dependabot/Snyk, для автоматического сканирования на наличие уязвимостей зависимостей и блокировки внедрения компонентов с высоким риском.
- Проверяйте кодовую подпись пакетов с открытым исходным кодом, чтобы убедиться, что хэш-значение соответствует официальному.
Очистка источника данных:
- Во время сбора обучающих данных фильтруйте конфиденциальную информацию из общедоступных наборов данных (таких как Common Crawl), используя регулярные выражения и инструменты редактирования на основе искусственного интеллекта для двойной проверки.

Реализация принципа наименьших привилегий и контроля доступа:

Применимо к Инциденту I (ошибка конфигурации базы данных) и Инциденту IV (утечка данных стороннего инструмента):

Включите двунаправленную аутентификацию TLS по умолчанию для баз данных (таких как ClickHouse) и предотвратите раскрытие портов управления в общедоступных сетях.
Используйте такие решения, как Vault/Boundary, для динамического распределения временных учетных данных, избегая долгосрочного хранения статических ключей.
Придерживайтесь принципа наименьших привилегий, ограничивая доступ пользователей только к необходимым ресурсам с помощью RBAC (Role-Based Access Control).
Внедрите белый список IP-адресов и ограничение скорости для вызовов API к сторонним инструментам (таким как OmniGPT).

Обеспечение защиты конфиденциальных данных на протяжении всего жизненного цикла:

Применимо к Инциденту III (угон LLM):

Редактирование и шифрование данных: Принудительно применяйте шифрование на уровне полей (например, AES-GCM) для данных ввода и вывода пользователя. Маскируйте конфиденциальные поля в журналах.
Включите редактирование в реальном времени для интерактивного контента LLM (например, замена номеров кредитных карт и номеров телефонов заполнителями).

Эти превентивные меры в сочетании с непрерывным мониторингом безопасности и планированием реагирования на инциденты необходимы для снижения рисков, связанных с растущим использованием LLM. ‘Невидимое поле битвы’ безопасности LLM требует постоянной бдительности и упреждающего подхода к защите конфиденциальных данных в этом быстро развивающемся технологическом ландшафте.

обновлено 2025-03-11

# LLM # AIGC # DeepSeek