Gemini: лидер по сбору данных

Споры вокруг DeepSeek и реакция американской технологической индустрии

В январе китайская компания DeepSeek представила свою флагманскую модель искусственного интеллекта с открытым исходным кодом. Этот дебют вызвал волну опасений в американской технологической индустрии. Практически сразу же возник хор обеспокоенности по поводу конфиденциальности и безопасности. Частные и правительственные организации, подпитываемые тревогой по поводу потенциальных рисков, быстро запретили использование DeepSeek как внутри страны, так и за рубежом.

В основе опасений лежало убеждение, что DeepSeek, происходящий из Китая, представляет повышенный риск для американской общественности. Часто упоминались опасения по поводу слежки, кибервойны и других угроз национальной безопасности. Подпитывал эти опасения конкретный пункт в политике конфиденциальности DeepSeek, в котором говорилось: ‘Личная информация, которую мы получаем от вас, может храниться на сервере, расположенном за пределами страны вашего проживания. Мы храним информацию, которую собираем, на защищенных серверах, расположенных в Китайской Народной Республике’.

Это, казалось бы, безобидное заявление было истолковано некоторыми как потенциальный шлюз для доступа китайского правительства к конфиденциальным данным пользователей. Быстрое развитие глобального ИИ и предполагаемая ‘гонка вооружений ИИ’ между США и Китаем только усилили эти опасения, создав атмосферу глубокого недоверия и подняв этические вопросы.

Неожиданное открытие: аппетит Gemini к данным

Однако на фоне шумихи вокруг DeepSeek появилось удивительное открытие. Несмотря на пристальное внимание, направленное на китайскую модель ИИ, оказалось, что DeepSeek не является самым значительным сборщиком данных на арене чат-ботов. Недавнее расследование Surfshark, авторитетного VPN-провайдера, пролило свет на практику сбора данных некоторыми из самых популярных приложений-чат-ботов с искусственным интеллектом.

Исследователи тщательно проанализировали информацию о конфиденциальности десяти известных чат-ботов, доступных в Apple App Store: ChatGPT, Gemini, Copilot, Perplexity, DeepSeek, Grok, Jasper, Poe, Claude и Pi. Их анализ был сосредоточен на трех ключевых аспектах:

  1. Типы собираемых данных: Какие конкретные категории пользовательской информации собирает каждое приложение?
  2. Привязка данных: Связаны ли какие-либо из собранных данных напрямую с личностью пользователя?
  3. Сторонние рекламодатели: Передает ли приложение пользовательские данные сторонним рекламным организациям?

Результаты были поразительными. Gemini от Google оказался самым требовательным к данным приложением-чат-ботом с искусственным интеллектом, затмевая своих конкурентов по объему и разнообразию собираемой личной информации. Приложение собирает ошеломляющие 22 из 35 возможных типов пользовательских данных. Сюда входят অত্যন্ত конфиденциальные данные, такие как:

  • Точные данные о местоположении: Определение точного географического местоположения пользователя.
  • Пользовательский контент: Захват содержания взаимодействия пользователей в приложении.
  • Список контактов: Доступ к контактам устройства пользователя.
  • История просмотров: Отслеживание активности пользователя в Интернете.

Этот обширный сбор данных намного превосходит сбор данных другими популярными чат-ботами, рассмотренными в исследовании. DeepSeek, вызвавший много споров, занял пятое место из десяти приложений, собрав сравнительно умеренные 11 уникальных типов данных.

Данные о местоположении и передача третьим лицам: подробный анализ

Исследование также выявило тревожные тенденции в отношении данных о местоположении и обмена данными с третьими сторонами. Было обнаружено, что только Gemini, Copilot и Perplexity собирают точные данные о местоположении — অত্যন্ত конфиденциальную информацию, которая может многое рассказать о передвижениях и привычках пользователя.

В более широком смысле, примерно 30% проанализированных чат-ботов передают конфиденциальные пользовательские данные, включая данные о местоположении и историю просмотров, сторонним организациям, таким как брокеры данных. Эта практика вызывает серьезные опасения по поводу конфиденциальности, поскольку она подвергает пользовательскую информацию более широкой сети субъектов, потенциально для целей, выходящих за рамки знаний или контроля пользователя.

Отслеживание пользовательских данных: таргетированная реклама и не только

Еще одним тревожным открытием стала практика отслеживания пользовательских данных для таргетированной рекламы и других целей. Было обнаружено, что 30% чат-ботов, в частности Copilot, Poe и Jasper, собирают данные для отслеживания своих пользователей. Это означает, что пользовательские данные, собранные из приложения, связаны со сторонними данными, что позволяет осуществлять таргетированную рекламу или измерять эффективность рекламы.

Было обнаружено, что Copilot и Poe собирают идентификаторы устройств для этой цели, в то время как Jasper пошел еще дальше, собирая не только идентификаторы устройств, но и данные о взаимодействии с продуктом, данные о рекламе и ‘любые другие данные об активности пользователя в приложении’, по словам экспертов Surfshark.

DeepSeek: не лучший, не худший

Спорная модель DeepSeek R1, несмотря на пристальное внимание, занимает промежуточное положение с точки зрения сбора данных. Он собирает в среднем 11 уникальных типов данных, в первую очередь сосредотачиваясь на:

  • Контактная информация: Имена, адреса электронной почты, номера телефонов и т. д.
  • Пользовательский контент: Контент, созданный пользователями в приложении.
  • Диагностика: Данные, связанные с производительностью приложения и устранением неполадок.

Хотя DeepSeek и не является самым уважающим конфиденциальность чат-ботом, его практика сбора данных менее обширна, чем у некоторых из его американских аналогов, особенно у Gemini.

ChatGPT: сравнительный анализ

Для сравнения, ChatGPT, один из самых широко используемых чат-ботов с искусственным интеллектом, собирает 10 уникальных типов данных. Это включает в себя:

  • Контактная информация
  • Пользовательский контент
  • Идентификаторы
  • Данные об использовании
  • Диагностика

Важно отметить, что ChatGPT также накапливает историю чата. Однако у пользователей есть возможность использовать ‘Временный чат’ — функцию, предназначенную для смягчения этого путем отказа от хранения истории разговоров.

Политика конфиденциальности DeepSeek: контроль пользователей и удаление данных

Политика конфиденциальности DeepSeek, хотя и вызывает у некоторых беспокойство, включает положения о контроле пользователей над историей чата. В политике говорится, что пользователи могут управлять своей историей чата и имеют возможность удалить ее через свои настройки. Это обеспечивает определенную степень контроля, которая не всегда присутствует в других приложениях-чат-ботах.

Более широкий контекст: разработка ИИ и динамика отношений между США и Китаем

Опасения по поводу DeepSeek и более широкие дебаты о конфиденциальности данных ИИ неразрывно связаны с быстрым ускорением глобального развития ИИ и предполагаемой гонкой вооружений ИИ между США и Китаем. Этот геополитический контекст добавляет еще один уровень сложности к проблеме, подпитывая опасения по поводу национальной безопасности и возможности злоупотребления технологиями ИИ.

Результаты исследования Surfshark, однако, служат важным напоминанием о том, что проблемы конфиденциальности данных не ограничиваются моделями ИИ, разработанными в определенных странах. Самым вопиющим сборщиком данных среди популярных проанализированных чат-ботов на самом деле является приложение, базирующееся в США. Это подчеркивает необходимость более тонкого и всеобъемлющего подхода к конфиденциальности данных ИИ, который выходит за рамки национальных границ и фокусируется на практике отдельных компаний и мерах безопасности, которые они реализуют. Крайне важно, чтобы пользователи были информированы о практике сбора данных инструментов ИИ, которые они используют, независимо от их происхождения, и чтобы были введены надежные правила для защиты конфиденциальности пользователей в быстро развивающейся среде ИИ. Основное внимание должно быть уделено установлению четких стандартов сбора, использования и обмена данными, обеспечению прозрачности и контроля пользователей, а также привлечению компаний к ответственности за их практику работы с данными.