מחלוקת DeepSeek ותגובת תעשיית הטכנולוגיה האמריקאית
בינואר, DeepSeek, חברה סינית, חשפה את מודל הבינה המלאכותית הקוד פתוח שלה. ההשקה עוררה גלי חשש בתעשיית הטכנולוגיה האמריקאית. כמעט מיד, עלה מקהלה של חששות בנוגע לפרטיות ואבטחה. ארגונים פרטיים וממשלתיים, מונעים מחששות מפני סיכונים פוטנציאליים, פעלו במהירות לאסור את השימוש ב-DeepSeek הן בארה”ב והן בעולם.
עיקר החשש נבע מהאמונה ש-DeepSeek, שמקורה בסין, מהווה סיכון מוגבר לציבור האמריקאי. חששות ממעקב, לוחמת סייבר ואיומים אחרים על הביטחון הלאומי צוינו לעתים קרובות. מה שהזין את החששות הללו היה סעיף ספציפי במדיניות הפרטיות של DeepSeek, שקבע: “המידע האישי שאנו אוספים ממך עשוי להיות מאוחסן בשרת הממוקם מחוץ למדינה שבה אתה גר. אנו מאחסנים את המידע שאנו אוספים בשרתים מאובטחים הממוקמים ברפובליקה העממית של סין.”
הצהרה זו, שנראית תמימה, פורשה על ידי חלקם כשער פוטנציאלי לממשלת סין לגשת לנתוני משתמשים רגישים. ההתקדמות המהירה של פיתוח הבינה המלאכותית העולמית, ו”מרוץ החימוש” הנתפס בין ארה”ב לסין, רק הגבירו את החששות הללו, ויצרו אווירה של חוסר אמון עמוק והעלו שאלות אתיות.
גילוי מפתיע: תיאבון הנתונים של ג’מיני
עם זאת, בתוך הסערה סביב DeepSeek, התגלה גילוי מפתיע. למרות הבדיקה האינטנסיבית שהופנתה למודל הבינה המלאכותית הסיני, מסתבר ש-DeepSeek אינה אספן הנתונים המשמעותי ביותר בזירת הצ’אטבוטים. חקירה שנערכה לאחרונה על ידי Surfshark, ספקית VPN בעלת מוניטין, שפכה אור על נוהלי איסוף הנתונים של כמה מיישומי הצ’אטבוט הפופולריים ביותר.
החוקרים ניתחו בקפידה את פרטי הפרטיות של עשרה צ’אטבוטים בולטים, כולם זמינים ב-Apple App Store: ChatGPT, Gemini, Copilot, Perplexity, DeepSeek, Grok, Jasper, Poe, Claude, and Pi. הניתוח שלהם התמקד בשלושה היבטים מרכזיים:
- סוגי הנתונים שנאספים: אילו קטגוריות ספציפיות של מידע משתמש כל יישום אוסף?
- קישור נתונים: האם יש נתונים שנאספים המקושרים ישירות לזהות המשתמש?
- מפרסמים מצד שלישי: האם האפליקציה משתפת נתוני משתמשים עם גורמי פרסום חיצוניים?
הממצאים היו מזעזעים. Gemini של גוגל התגלתה כאפליקציית הצ’אטבוט עתירת הנתונים ביותר, ועקפה את מתחרותיה בהיקף ובמגוון המידע האישי שהיא אוספת. האפליקציה אוספת 22 מתוך 35 סוגי נתוני משתמש אפשריים. זה כולל נתונים רגישים ביותר כגון:
- נתוני מיקום מדויקים: מציינים את המיקום הגיאוגרפי המדויק של המשתמש.
- תוכן משתמש: לכידת תוכן האינטראקציות של המשתמש בתוך האפליקציה.
- רשימת אנשי קשר: גישה לאנשי הקשר במכשיר של המשתמש.
- היסטוריית גלישה: מעקב אחר פעילות הגלישה באינטרנט של המשתמש.
איסוף נתונים נרחב זה עולה בהרבה על זה של צ’אטבוטים פופולריים אחרים שנבדקו במחקר. DeepSeek, נושא המחלוקת הרבה, דורג במקום החמישי מתוך עשרת היישומים, ואסף 11 סוגי נתונים ייחודיים באופן יחסי.
נתוני מיקום ושיתוף עם צד שלישי: מבט מקרוב
המחקר חשף גם מגמות מדאיגות בנוגע לנתוני מיקום ושיתוף נתונים עם צדדים שלישיים. רק Gemini, Copilot ו-Perplexity נמצאו אוספים נתוני מיקום מדויקים, פיסת מידע רגישה ביותר שיכולה לחשוף רבות על תנועותיו והרגליו של המשתמש.
באופן רחב יותר, כ-30% מהצ’אטבוטים שנותחו נמצאו משתפים נתוני משתמשים רגישים, כולל נתוני מיקום והיסטוריית גלישה, עם גורמים חיצוניים כגון סוחרי נתונים. נוהג זה מעלה חששות משמעותיים לפרטיות, שכן הוא חושף מידע משתמש לרשת רחבה יותר של שחקנים, פוטנציאלית למטרות שאינן בידיעת המשתמש או בשליטתו.
מעקב אחר נתוני משתמשים: פרסום ממוקד ומעבר לכך
ממצא מדאיג נוסף היה הנוהג של מעקב אחר נתוני משתמשים לצורך פרסום ממוקד ומטרות אחרות. שלושים אחוז מהצ’אטבוטים, ספציפית Copilot, Poe ו-Jasper, נמצאו אוספים נתונים כדי לעקוב אחר המשתמשים שלהם. משמעות הדבר היא שנתוני המשתמש שנאספים מהאפליקציה מקושרים לנתוני צד שלישי, מה שמאפשר פרסום ממוקד או מדידת יעילות הפרסום.
Copilot ו-Poe נמצאו אוספים מזהי מכשירים למטרה זו, בעוד ש-Jasper הרחיק לכת ואסף לא רק מזהי מכשירים אלא גם נתוני אינטראקציה עם מוצרים, נתוני פרסום ו”כל נתון אחר על פעילות המשתמש באפליקציה”, על פי מומחי Surfshark.
DeepSeek: לא הטוב ביותר, לא הגרוע ביותר
מודל DeepSeek R1 השנוי במחלוקת, בעודו נתון לבדיקה אינטנסיבית, תופס מקום באמצע מבחינת איסוף נתונים. הוא אוסף בממוצע 11 סוגי נתונים ייחודיים, ומתמקד בעיקר ב:
- פרטי קשר: שמות, כתובות דוא”ל, מספרי טלפון וכו’.
- תוכן משתמש: תוכן שנוצר על ידי משתמשים בתוך האפליקציה.
- אבחון: נתונים הקשורים לביצועי האפליקציה ופתרון בעיות.
בעוד שאינו הצ’אטבוט המכבד ביותר את הפרטיות, נוהלי איסוף הנתונים של DeepSeek פחות נרחבים מאלה של חלק מעמיתיו בארה”ב, במיוחד Gemini.
ChatGPT: פרספקטיבה השוואתית
לשם השוואה, ChatGPT, אחד מצ’אטבוטי הבינה המלאכותית הנפוצים ביותר, אוסף 10 סוגים ייחודיים של נתונים. זה כולל:
- פרטי קשר
- תוכן משתמש
- מזהים
- נתוני שימוש
- אבחון
חשוב לציין ש-ChatGPT גם צובר היסטוריית צ’אט. עם זאת, למשתמשים יש אפשרות להשתמש ב”צ’אט זמני”, תכונה שנועדה לצמצם זאת על ידי אי אחסון היסטוריית השיחות.
מדיניות הפרטיות של DeepSeek: בקרת משתמשים ומחיקת נתונים
מדיניות הפרטיות של DeepSeek, בעוד שהיא מקור לדאגה עבור חלקם, אכן כוללת הוראות לשליטת משתמשים בהיסטוריית הצ’אט. המדיניות קובעת שמשתמשים יכולים לנהל את היסטוריית הצ’אט שלהם ויש להם אפשרות למחוק אותה דרך ההגדרות שלהם. זה מציע מידה של שליטה שאינה תמיד קיימת ביישומי צ’אטבוט אחרים.
ההקשר הרחב יותר: פיתוח בינה מלאכותית והדינמיקה בין ארה”ב לסין
החששות סביב DeepSeek, והדיון הרחב יותר על פרטיות נתונים בבינה מלאכותית, קשורים באופן בלתי נפרד להאצה המהירה של פיתוח הבינה המלאכותית העולמית ולמרוץ החימוש הנתפס בין ארה”ב לסין. ההקשר הגיאופוליטי הזה מוסיף רובד נוסף של מורכבות לנושא, ומזין חששות לגבי ביטחון לאומי ופוטנציאל לשימוש לרעה בטכנולוגיות בינה מלאכותית.
ממצאי מחקר Surfshark, עם זאת, משמשים תזכורת מכרעת לכך שחששות לפרטיות נתונים אינם מוגבלים למודלים של בינה מלאכותית שפותחו במדינות ספציפיות. אספן הנתונים המחפיר ביותר מבין הצ’אטבוטים הפופולריים שנותחו הוא, למעשה, יישום מבוסס ארה”ב. זה מדגיש את הצורך בגישה מגוונת ומקיפה יותר לפרטיות נתונים בבינה מלאכותית, כזו שחוצה גבולות לאומיים ומתמקדת בפרקטיקות של חברות בודדות ובאמצעי ההגנה שהן מיישמות. חיוני שמשתמשים יהיו מיודעים לגבי נוהלי איסוף הנתונים של כלי הבינה המלאכותית שבהם הם משתמשים, ללא קשר למקורם, ושתקנות חזקות יותקנו כדי להגן על פרטיות המשתמשים בנוף הבינה המלאכותית המתפתח במהירות. ההתמקדות צריכה להיות בקביעת סטנדרטים ברורים לאיסוף נתונים, שימוש ושיתוף, הבטחת שקיפות ושליטת משתמשים, ואחריות חברות על נוהלי הנתונים שלהן. יש צורך בסטנדרטים גלובליים, שיתוף פעולה בינלאומי, ואכיפה עקבית כדי להבטיח שפרטיות המשתמשים תישמר בעידן הבינה המלאכותית.