Gemini: Най-големият нарушител?

DeepSeek полемика и отговорът на американската технологична индустрия

През януари DeepSeek, китайска компания, представи своя водещ AI модел с отворен код. Дебютът предизвика вълни от безпокойство в американската технологична индустрия. Почти веднага се надигна хор от опасения за поверителността и сигурността. Частни и правителствени организации, подхранвани от тревоги за потенциални рискове, бързо забраниха използването на DeepSeek както в страната, така и в международен план.

В основата на опасенията беше убеждението, че DeepSeek, с произход от Китай, представлява повишен риск за американската общественост. Често се цитираха страхове от наблюдение, кибервойна и други заплахи за националната сигурност. Подхранването на тези опасения беше конкретна клауза в политиката за поверителност на DeepSeek, която гласеше: “Личната информация, която събираме от вас, може да се съхранява на сървър, разположен извън страната, в която живеете. Ние съхраняваме информацията, която събираме, на сигурни сървъри, разположени в Китайската народна република.”

Това привидно безобидно изявление беше изтълкувано от някои като потенциален портал за китайското правителство за достъп до чувствителни потребителски данни. Бързото развитие на глобалното развитие на AI и възприеманата “надпревара във въоръжаването с AI” между САЩ и Китай само засилиха тези опасения, създавайки атмосфера на дълбоко недоверие и повдигайки етични въпроси.

Изненадващо разкритие: Апетитът на Gemini за данни

Въпреки това, на фона на вълнението около DeepSeek, се появи изненадващо разкритие. Въпреки интензивния контрол, насочен към китайския AI модел, се оказва, че DeepSeek не е най-значимият колектор на данни в арената на чатботовете. Неотдавнашно разследване на Surfshark, реномиран доставчик на VPN, хвърли светлина върху практиките за събиране на данни на някои от най-популярните приложения за AI чатботове.

Изследователите щателно анализираха подробностите за поверителността на десет известни чатбота, всички лесно достъпни в Apple App Store: ChatGPT, Gemini, Copilot, Perplexity, DeepSeek, Grok, Jasper, Poe, Claude и Pi. Техният анализ се фокусира върху три ключови аспекта:

  1. Видове събирани данни: Какви конкретни категории потребителска информация събира всяко приложение?
  2. Свързване на данни: Свързани ли са някоя от събраните данни директно с самоличността на потребителя?
  3. Рекламодатели трети страни: Споделя ли приложението потребителски данни с външни рекламни субекти?

Резултатите бяха стряскащи. Gemini на Google се очерта като най-интензивното приложение за AI чатбот по отношение на данните, засенчвайки конкурентите си по отношение на обема и разнообразието от лична информация, която събира. Приложението събира зашеметяващите 22 от 35 възможни типа потребителски данни. Това включва изключително чувствителни данни като:

  • Точни данни за местоположение: Определяне на точното географско местоположение на потребителя.
  • Потребителско съдържание: Заснемане на съдържанието на потребителските взаимодействия в приложението.
  • Списък с контакти: Достъп до контактите на устройството на потребителя.
  • История на сърфирането: Проследяване на активността на потребителя при сърфиране в мрежата.

Това обширно събиране на данни далеч надхвърля това на други популярни чатботове, изследвани в проучването. DeepSeek, обект на много противоречия, се класира на пето място от десетте приложения, събирайки сравнително умерени 11 уникални типа данни.

Данни за местоположението и споделяне с трети страни: По-внимателен поглед

Проучването също така разкри тревожни тенденции по отношение на данните за местоположението и споделянето на данни с трети страни. Установено е, че само Gemini, Copilot и Perplexity събират точни данни за местоположението, изключително чувствителна информация, която може да разкрие много за движенията и навиците на потребителя.

В по-широк план, приблизително 30% от анализираните чатботове са установени, че споделят чувствителни потребителски данни, включително данни за местоположението и история на сърфирането, с външни субекти като брокери на данни. Тази практика поражда значителни опасения за поверителността, тъй като излага потребителската информация на по-широка мрежа от участници, потенциално за цели извън знанието или контрола на потребителя.

Проследяване на потребителски данни: Целенасочена реклама и отвъд

Друго тревожно откритие беше практиката на проследяване на потребителски данни за целенасочена реклама и други цели. Установено е, че тридесет процента от чатботовете, по-специално Copilot, Poe и Jasper, събират данни, за да проследяват своите потребители. Това означава, че потребителските данни, събрани от приложението, са свързани с данни на трети страни, което позволява целенасочена реклама или измерване на ефективността на рекламата.

Установено е, че Copilot и Poe събират идентификатори на устройства за тази цел, докато Jasper отива още по-далеч, събирайки не само идентификатори на устройства, но и данни за взаимодействие с продукта, рекламни данни и „всякакви други данни за активността на потребителя в приложението“, според експертите на Surfshark.

DeepSeek: Не най-добрият, не най-лошият

Противоречивият модел DeepSeek R1, макар и обект на интензивен контрол, заема средно положение по отношение на събирането на данни. Той събира средно 11 уникални типа данни, като се фокусира основно върху:

  • Информация за контакт: Имена, имейл адреси, телефонни номера и др.
  • Потребителско съдържание: Съдържание, генерирано от потребителите в приложението.
  • Диагностика: Данни, свързани с производителността на приложението и отстраняването на неизправности.

Въпреки че не е най-уважаващият поверителността чатбот, практиките за събиране на данни на DeepSeek са по-малко обширни от тези на някои от неговите американски колеги, особено Gemini.

ChatGPT: Сравнителна перспектива

За сравнение, ChatGPT, един от най-широко използваните AI чатботове, събира 10 уникални типа данни. Това включва:

  • Информация за контакт
  • Потребителско съдържание
  • Идентификатори
  • Данни за употреба
  • Диагностика

Важно е да се отбележи, че ChatGPT също натрупва история на чата. Потребителите обаче имат възможност да използват „Temporary chat“ (Временен чат), функция, предназначена да смекчи това, като не съхранява историята на разговорите.

Политика за поверителност на DeepSeek: Потребителски контрол и изтриване на данни

Политиката за поверителност на DeepSeek, макар и източник на безпокойство за някои, включва разпоредби за потребителски контрол върху историята на чата. Политиката гласи, че потребителите могат да управляват своята история на чата и имат възможност да я изтрият чрез своите настройки. Това предлага степен на контрол, която не винаги присъства в други приложения за чатбот.

По-широкият контекст: Развитие на AI и динамиката между САЩ и Китай

Опасенията около DeepSeek и по-широкият дебат относно поверителността на данните на AI са неразривно свързани с бързото ускоряване на глобалното развитие на AI и възприеманата надпревара във въоръжаването с AI между САЩ и Китай. Този геополитически контекст добавя още един слой сложност към проблема, подхранвайки тревогите за националната сигурност и потенциала за злоупотреба с AI технологии.

Резултатите от проучването на Surfshark обаче служат като решаващо напомняне, че опасенията за поверителността на данните не се ограничават до AI модели, разработени в определени страни. Най-фрапиращият колектор на данни сред анализираните популярни чатботове всъщност е приложение, базирано в САЩ. Това подчертава необходимостта от по-нюансиран и всеобхватен подход към поверителността на данните на AI, който надхвърля националните граници и се фокусира върху практиките на отделните компании и предпазните мерки, които те прилагат. Наложително е потребителите да бъдат информирани за практиките за събиране на данни на AI инструментите, които използват, независимо от техния произход, и да бъдат въведени строги разпоредби за защита на поверителността на потребителите в бързо развиващия се AI пейзаж. Фокусът трябва да бъде върху установяването на ясни стандарти за събиране, използване и споделяне на данни, гарантиране на прозрачност и потребителски контрол и подвеждане на компаниите под отговорност за техните практики за данни.