DeepSeek 걱정? 데이터 침해 주범은 Gemini

DeepSeek 논란과 미국 기술 업계의 반응

인공지능의 발전은 수많은 편리한 도구를 가져왔지만, 데이터 프라이버시에 대한 뜨거운 논쟁도 불러일으켰습니다. AI 챗봇이 일상생활에 점점 더 통합되면서, 이러한 플랫폼이 얼마나 많은 개인 정보를 수집하는지에 대한 질문이 중요해졌습니다. 최근에는 중국 AI 모델인 DeepSeek에 대한 우려가 집중되었지만, 면밀한 조사 결과 놀라운 사실이 드러났습니다. 가장 인기 있는 미국 기반 AI 챗봇 중 일부가 데이터 수집에 있어 훨씬 더 탐욕스러울 수 있다는 것입니다.

1월, 중국 회사인 DeepSeek는 자사의 주력 오픈 소스 AI 모델을 공개했습니다. 이 데뷔는 미국 기술 업계에 불안감을 안겨주었습니다. 거의 즉시 개인 정보 보호 및 보안 문제에 대한 우려의 목소리가 높아졌습니다. 잠재적 위험에 대한 불안감으로 인해 민간 및 정부 기관은 국내외에서 DeepSeek의 사용을 금지하기 위해 신속하게 움직였습니다.

불안감의 핵심은 DeepSeek가 중국에서 시작되었기 때문에 미국 대중에게 더 큰 위험을 초래한다는 믿음에서 비롯되었습니다. 감시, 사이버 전쟁 및 기타 국가 안보 위협에 대한 두려움이 자주 언급되었습니다. 이러한 우려를 부채질한 것은 DeepSeek의 개인 정보 보호 정책에 있는 특정 조항이었습니다. “당사가 귀하로부터 수집하는 개인 정보는 귀하가 거주하는 국가 이외의 서버에 저장될 수 있습니다. 당사는 수집한 정보를 중화인민공화국에 위치한 보안 서버에 저장합니다.”

이 겉보기에는 무해한 진술은 일부 사람들에게 중국 정부가 민감한 사용자 데이터에 접근할 수 있는 잠재적인 통로로 해석되었습니다. 글로벌 AI 개발의 급속한 발전과 미국과 중국 간의 ‘AI 군비 경쟁’에 대한 인식은 이러한 우려를 증폭시켜 심각한 불신 분위기를 조성하고 윤리적 문제를 제기했습니다.

놀라운 폭로: Gemini의 데이터 식욕

그러나 DeepSeek를 둘러싼 소란 속에서 놀라운 사실이 드러났습니다. 중국 AI 모델에 대한 집중적인 조사에도 불구하고, DeepSeek는 챗봇 분야에서 가장 중요한 데이터 수집기가 아닌 것으로 밝혀졌습니다. 평판 좋은 VPN 제공업체인 Surfshark의 최근 조사는 가장 인기 있는 AI 챗봇 애플리케이션 중 일부의 데이터 수집 관행을 밝혀냈습니다.

연구원들은 Apple App Store에서 쉽게 사용할 수 있는 10개의 주요 챗봇(ChatGPT, Gemini, Copilot, Perplexity, DeepSeek, Grok, Jasper, Poe, Claude, Pi)의 개인 정보 보호 세부 정보를 꼼꼼하게 분석했습니다. 분석은 세 가지 핵심 측면에 초점을 맞췄습니다.

  1. 수집되는 데이터 유형: 각 애플리케이션이 수집하는 특정 사용자 정보 범주는 무엇입니까?
  2. 데이터 연결: 수집된 데이터 중 사용자의 신원과 직접적으로 연결되는 데이터가 있습니까?
  3. 제3자 광고주: 애플리케이션이 사용자 데이터를 외부 광고 주체와 공유합니까?

결과는 충격적이었습니다. Google의 Gemini는 가장 데이터 집약적인 AI 챗봇 앱으로 등장하여 수집하는 개인 정보의 양과 다양성 면에서 경쟁사를 압도했습니다. 이 애플리케이션은 가능한 35가지 사용자 데이터 유형 중 무려 22가지를 수집합니다. 여기에는 다음과 같은 매우 민감한 데이터가 포함됩니다.

  • 정확한 위치 데이터: 사용자의 정확한 지리적 위치를 정확히 찾아냅니다.
  • 사용자 콘텐츠: 앱 내에서 사용자 상호 작용의 콘텐츠를 캡처합니다.
  • 연락처 목록: 사용자의 장치 연락처에 액세스합니다.
  • 검색 기록: 사용자의 웹 검색 활동을 추적합니다.

이러한 광범위한 데이터 수집은 연구에서 조사된 다른 인기 있는 챗봇의 데이터 수집을 훨씬 능가합니다. 많은 논란의 대상이었던 DeepSeek는 10개의 애플리케이션 중 5위를 차지했으며, 비교적 적은 11개의 고유한 데이터 유형을 수집했습니다.

위치 데이터 및 제3자 공유: 자세히 살펴보기

이 연구는 또한 위치 데이터 및 제3자와의 데이터 공유와 관련된 우려스러운 추세를 밝혀냈습니다. Gemini, Copilot 및 Perplexity만이 사용자의 움직임과 습관에 대해 많은 것을 드러낼 수 있는 매우 민감한 정보인 정확한 위치 데이터를 수집하는 것으로 밝혀졌습니다.

더 광범위하게, 분석된 챗봇의 약 30%가 위치 데이터 및 검색 기록을 포함한 민감한 사용자 데이터를 데이터 브로커와 같은 외부 주체와 공유하는 것으로 밝혀졌습니다. 이러한 관행은 사용자 정보를 더 광범위한 행위자 네트워크에 노출시켜 사용자가 알지 못하거나 통제할 수 없는 목적으로 사용될 수 있으므로 심각한 개인 정보 보호 문제를 야기합니다.

사용자 데이터 추적: 타겟 광고 및 그 이상

또 다른 놀라운 발견은 타겟 광고 및 기타 목적으로 사용자 데이터를 추적하는 관행이었습니다. 챗봇의 30%(특히 Copilot, Poe, Jasper)가 사용자를 추적하기 위해 데이터를 수집하는 것으로 밝혀졌습니다. 즉, 앱에서 수집된 사용자 데이터가 제3자 데이터와 연결되어 타겟 광고 또는 광고 효과 측정을 가능하게 합니다.

Copilot과 Poe는 이러한 목적으로 장치 ID를 수집하는 것으로 밝혀졌으며, Jasper는 Surfshark 전문가에 따르면 장치 ID뿐만 아니라 제품 상호 작용 데이터, 광고 데이터 및 ‘앱에서 사용자 활동에 대한 기타 모든 데이터’를 수집하여 한 걸음 더 나아갔습니다.

DeepSeek: 최고는 아니지만 최악도 아님

논란의 여지가 있는 DeepSeek R1 모델은 집중적인 조사를 받았지만 데이터 수집 측면에서 중간 위치를 차지합니다. 주로 다음에 초점을 맞춰 평균 11개의 고유한 데이터 유형을 수집합니다.

  • 연락처 정보: 이름, 이메일 주소, 전화번호 등
  • 사용자 콘텐츠: 앱 내에서 사용자가 생성한 콘텐츠
  • 진단: 앱 성능 및 문제 해결과 관련된 데이터

DeepSeek는 가장 개인 정보를 존중하는 챗봇은 아니지만, 특히 Gemini와 같은 일부 미국 기반 챗봇보다 데이터 수집 관행이 덜 광범위합니다.

ChatGPT: 비교 관점

비교를 위해 가장 널리 사용되는 AI 챗봇 중 하나인 ChatGPT는 10가지 고유한 유형의 데이터를 수집합니다. 여기에는 다음이 포함됩니다.

  • 연락처 정보
  • 사용자 콘텐츠
  • 식별자
  • 사용 데이터
  • 진단

ChatGPT는 또한 채팅 기록을 축적한다는 점에 유의하는 것이 중요합니다. 그러나 사용자는 대화 기록을 저장하지 않도록 설계된 기능인 ‘임시 채팅’을 활용할 수 있습니다.

DeepSeek의 개인 정보 보호 정책: 사용자 제어 및 데이터 삭제

DeepSeek의 개인 정보 보호 정책은 일부 사람들에게 우려의 원인이 되지만 채팅 기록에 대한 사용자 제어 조항을 포함합니다. 이 정책은 사용자가 채팅 기록을 관리하고 설정을 통해 삭제할 수 있는 옵션이 있다고 명시합니다. 이는 다른 챗봇 애플리케이션에서 항상 제공되지 않는 수준의 제어 기능을 제공합니다.

더 넓은 맥락: AI 개발과 미중 역학 관계

DeepSeek를 둘러싼 우려와 AI 데이터 프라이버시에 대한 광범위한 논쟁은 글로벌 AI 개발의 급속한 가속화와 미국과 중국 간의 AI 군비 경쟁에 대한 인식과 불가분의 관계에 있습니다. 이러한 지정학적 맥락은 국가 안보와 AI 기술의 오용 가능성에 대한 불안감을 부채질하면서 문제에 또 다른 복잡성을 더합니다.

그러나 Surfshark 연구 결과는 데이터 프라이버시 문제가 특정 국가에서 개발된 AI 모델에만 국한되지 않는다는 점을 상기시켜 줍니다. 분석된 인기 챗봇 중 가장 심각한 데이터 수집기는 실제로 미국 기반 애플리케이션입니다. 이는 국가 경계를 초월하고 개별 회사의 관행과 그들이 구현하는 안전 장치에 초점을 맞춘, AI 데이터 프라이버시에 대한 보다 미묘하고 포괄적인 접근 방식이 필요함을 강조합니다. 사용자는 출처에 관계없이 사용하는 AI 도구의 데이터 수집 관행에 대해 정보를 제공받아야 하며, 빠르게 진화하는 AI 환경에서 사용자 프라이버시를 보호하기 위해 강력한 규정이 마련되어야 합니다. 초점은 데이터 수집, 사용 및 공유에 대한 명확한 표준을 설정하고, 투명성과 사용자 제어를 보장하며, 회사가 데이터 관행에 대해 책임을 지도록 하는 데 있어야 합니다.