Lo ngại DeepSeek? Gemini mới thu thập nhiều

Cuộc tranh cãi DeepSeek và phản ứng của ngành công nghệ Mỹ

Sự trỗi dậy của trí tuệ nhân tạo (AI) đã mang đến vô số công cụ tiện lợi, nhưng nó cũng làm dấy lên một cuộc tranh luận gay gắt xung quanh vấn đề bảo mật dữ liệu. Khi các chatbot AI ngày càng được tích hợp vào cuộc sống hàng ngày của chúng ta, câu hỏi về lượng thông tin cá nhân mà các nền tảng này thu thập đã trở nên tối quan trọng. Trong khi những lo ngại gần đây tập trung vào các mô hình AI của Trung Quốc như DeepSeek, một cuộc kiểm tra kỹ lưỡng hơn cho thấy một sự thật đáng ngạc nhiên: một số chatbot AI phổ biến nhất có trụ sở tại Hoa Kỳ có thể còn thu thập dữ liệu nhiều hơn.

Vào tháng 1, DeepSeek, một công ty Trung Quốc, đã tiết lộ mô hình AI nguồn mở hàng đầu của mình. Sự ra mắt này đã gây ra những làn sóng lo ngại trong ngành công nghệ Mỹ. Gần như ngay lập tức, một loạt các lo ngại về quyền riêng tư và bảo mật đã nảy sinh. Các tổ chức tư nhân và chính phủ, lo ngại về những rủi ro tiềm ẩn, đã nhanh chóng cấm sử dụng DeepSeek cả trong nước và quốc tế.

Cốt lõi của sự lo ngại bắt nguồn từ niềm tin rằng DeepSeek, với nguồn gốc từ Trung Quốc, gây ra rủi ro cao hơn cho công chúng Mỹ. Những lo ngại về giám sát, chiến tranh mạng và các mối đe dọa an ninh quốc gia khác thường xuyên được viện dẫn. Thúc đẩy những lo ngại này là một điều khoản cụ thể trong chính sách bảo mật của DeepSeek, trong đó nêu rõ: ‘Thông tin cá nhân mà chúng tôi thu thập từ bạn có thể được lưu trữ trên một máy chủ đặt bên ngoài quốc gia bạn đang sống. Chúng tôi lưu trữ thông tin chúng tôi thu thập trong các máy chủ an toàn đặt tại Cộng hòa Nhân dân Trung Hoa.’

Tuyên bố có vẻ vô hại này đã được một số người hiểu là một cánh cổng tiềm năng để chính phủ Trung Quốc truy cập dữ liệu nhạy cảm của người dùng. Sự tiến bộ nhanh chóng của sự phát triển AI toàn cầu và ‘cuộc chạy đua vũ trang AI’ được nhận thức giữa Hoa Kỳ và Trung Quốc, chỉ làm tăng thêm những lo ngại này, tạo ra một bầu không khí ngờ vực sâu sắc và đặt ra các câu hỏi đạo đức.

Một tiết lộ đáng ngạc nhiên: ‘Cơn thèm’ dữ liệu của Gemini

Tuy nhiên, giữa những ồn ào xung quanh DeepSeek, một tiết lộ đáng ngạc nhiên đã xuất hiện. Bất chấp sự giám sát chặt chẽ nhắm vào mô hình AI của Trung Quốc, hóa ra DeepSeek không phải là công cụ thu thập dữ liệu quan trọng nhất trong lĩnh vực chatbot. Một cuộc điều tra gần đây của Surfshark, một nhà cung cấp VPN có uy tín, đã làm sáng tỏ các hoạt động thu thập dữ liệu của một số ứng dụng chatbot AI phổ biến nhất.

Các nhà nghiên cứu đã phân tích tỉ mỉ các chi tiết bảo mật của mười chatbot nổi bật, tất cả đều có sẵn trên Apple App Store: ChatGPT, Gemini, Copilot, Perplexity, DeepSeek, Grok, Jasper, Poe, Claude và Pi. Phân tích của họ tập trung vào ba khía cạnh chính:

  1. Các loại dữ liệu được thu thập: Mỗi ứng dụng thu thập các loại thông tin người dùng cụ thể nào?
  2. Liên kết dữ liệu: Có bất kỳ dữ liệu nào được thu thập liên kết trực tiếp với danh tính của người dùng không?
  3. Nhà quảng cáo bên thứ ba: Ứng dụng có chia sẻ dữ liệu người dùng với các thực thể quảng cáo bên ngoài không?

Kết quả thật đáng kinh ngạc. Gemini của Google nổi lên là ứng dụng chatbot AI thu thập nhiều dữ liệu nhất, vượt xa các đối thủ cạnh tranh về khối lượng và sự đa dạng của thông tin cá nhân mà nó thu thập. Ứng dụng thu thập 22 trên 35 loại dữ liệu người dùng có thể có. Điều này bao gồm dữ liệu rất nhạy cảm như:

  • Dữ liệu vị trí chính xác: Xác định chính xác vị trí địa lý của người dùng.
  • Nội dung người dùng: Ghi lại nội dung tương tác của người dùng trong ứng dụng.
  • Danh sách liên hệ: Truy cập danh bạ thiết bị của người dùng.
  • Lịch sử duyệt web: Theo dõi hoạt động duyệt web của người dùng.

Việc thu thập dữ liệu rộng rãi này vượt xa so với các chatbot phổ biến khác được kiểm tra trong nghiên cứu. DeepSeek, đối tượng của nhiều tranh cãi, xếp thứ năm trong số mười ứng dụng, thu thập 11 loại dữ liệu duy nhất, tương đối khiêm tốn.

Dữ liệu vị trí và chia sẻ với bên thứ ba: Xem xét kỹ hơn

Nghiên cứu cũng phát hiện ra những xu hướng đáng lo ngại liên quan đến dữ liệu vị trí và chia sẻ dữ liệu với các bên thứ ba. Chỉ có Gemini, Copilot và Perplexity được phát hiện là thu thập dữ liệu vị trí chính xác, một phần thông tin rất nhạy cảm có thể tiết lộ nhiều điều về chuyển động và thói quen của người dùng.

Nói rộng hơn, khoảng 30% các chatbot được phân tích đã được phát hiện chia sẻ dữ liệu người dùng nhạy cảm, bao gồm dữ liệu vị trí và lịch sử duyệt web, với các thực thể bên ngoài như các nhà môi giới dữ liệu. Hành động này làm dấy lên những lo ngại đáng kể về quyền riêng tư, vì nó khiến thông tin người dùng bị lộ ra một mạng lưới rộng lớn hơn, có khả năng cho các mục đích vượt quá sự hiểu biết hoặc kiểm soát của người dùng.

Theo dõi dữ liệu người dùng: Quảng cáo nhắm mục tiêu và hơn thế nữa

Một phát hiện đáng báo động khác là việc theo dõi dữ liệu người dùng cho quảng cáo nhắm mục tiêu và các mục đích khác. Ba mươi phần trăm các chatbot, cụ thể là Copilot, Poe và Jasper, được phát hiện thu thập dữ liệu để theo dõi người dùng của họ. Điều này có nghĩa là dữ liệu người dùng được thu thập từ ứng dụng được liên kết với dữ liệu của bên thứ ba, cho phép quảng cáo nhắm mục tiêu hoặc đo lường hiệu quả quảng cáo.

Copilot và Poe được phát hiện thu thập ID thiết bị cho mục đích này, trong khi Jasper còn tiến xa hơn, thu thập không chỉ ID thiết bị mà còn cả dữ liệu tương tác sản phẩm, dữ liệu quảng cáo và ‘bất kỳ dữ liệu nào khác về hoạt động của người dùng trong ứng dụng’, theo các chuyên gia của Surfshark.

DeepSeek: Không phải tốt nhất, không phải tệ nhất

Mô hình DeepSeek R1 gây tranh cãi, mặc dù bị giám sát chặt chẽ, chiếm vị trí trung gian về mặt thu thập dữ liệu. Nó thu thập trung bình 11 loại dữ liệu duy nhất, chủ yếu tập trung vào:

  • Thông tin liên hệ: Tên, địa chỉ email, số điện thoại, v.v.
  • Nội dung người dùng: Nội dung do người dùng tạo ra trong ứng dụng.
  • Chẩn đoán: Dữ liệu liên quan đến hiệu suất ứng dụng và khắc phục sự cố.

Mặc dù không phải là chatbot tôn trọng quyền riêng tư nhất, các hoạt động thu thập dữ liệu của DeepSeek ít hơn so với một số đối tác có trụ sở tại Hoa Kỳ, đặc biệt là Gemini.

ChatGPT: Một góc nhìn so sánh

Để so sánh, ChatGPT, một trong những chatbot AI được sử dụng rộng rãi nhất, thu thập 10 loại dữ liệu duy nhất. Điều này bao gồm:

  • Thông tin liên hệ
  • Nội dung người dùng
  • Mã định danh
  • Dữ liệu sử dụng
  • Chẩn đoán

Điều quan trọng cần lưu ý là ChatGPT cũng tích lũy lịch sử trò chuyện. Tuy nhiên, người dùng có tùy chọn sử dụng ‘Trò chuyện tạm thời’, một tính năng được thiết kế để giảm thiểu điều này bằng cách không lưu trữ lịch sử trò chuyện.

Chính sách bảo mật của DeepSeek: Kiểm soát người dùng và xóa dữ liệu

Chính sách bảo mật của DeepSeek, mặc dù là một nguồn gây lo ngại cho một số người, nhưng có bao gồm các điều khoản cho phép người dùng kiểm soát lịch sử trò chuyện. Chính sách nêu rõ rằng người dùng có thể quản lý lịch sử trò chuyện của họ và có tùy chọn xóa nó thông qua cài đặt của họ. Điều này cung cấp một mức độ kiểm soát không phải lúc nào cũng có trong các ứng dụng chatbot khác.

Bối cảnh rộng hơn: Phát triển AI và động lực Mỹ-Trung

Những lo ngại xung quanh DeepSeek và cuộc tranh luận rộng hơn về quyền riêng tư dữ liệu AI, gắn liền với sự tăng tốc nhanh chóng của sự phát triển AI toàn cầu và cuộc chạy đua vũ trang AI được nhận thức giữa Hoa Kỳ và Trung Quốc. Bối cảnh địa chính trị này thêm một lớp phức tạp khác cho vấn đề, làm dấy lên những lo ngại về an ninh quốc gia và khả năng lạm dụng các công nghệ AI.

Tuy nhiên, những phát hiện của nghiên cứu Surfshark đóng vai trò như một lời nhắc nhở quan trọng rằng những lo ngại về quyền riêng tư dữ liệu không chỉ giới hạn ở các mô hình AI được phát triển ở các quốc gia cụ thể. Công cụ thu thập dữ liệu nghiêm trọng nhất trong số các chatbot phổ biến được phân tích trên thực tế là một ứng dụng có trụ sở tại Hoa Kỳ. Điều này nhấn mạnh sự cần thiết của một cách tiếp cận toàn diện và sắc thái hơn đối với quyền riêng tư dữ liệu AI, một cách tiếp cận vượt qua biên giới quốc gia và tập trung vào các hoạt động của các công ty riêng lẻ và các biện pháp bảo vệ mà họ thực hiện. Điều bắt buộc là người dùng phải được thông báo về các hoạt động thu thập dữ liệu của các công cụ AI mà họ sử dụng, bất kể nguồn gốc của chúng, và các quy định mạnh mẽ được đưa ra để bảo vệ quyền riêng tư của người dùng trong bối cảnh AI đang phát triển nhanh chóng. Trọng tâm nên là thiết lập các tiêu chuẩn rõ ràng về thu thập, sử dụng và chia sẻ dữ liệu, đảm bảo tính minh bạch và kiểm soát của người dùng, đồng thời buộc các công ty phải chịu trách nhiệm về các hoạt động dữ liệu của họ.