DeepSeek ואשמת השימוש ב-Gemini

העולם של בינה מלאכותית אינו זר למחלוקות, וההתפתחות האחרונה כוללת את מעבדת ה-AI הסינית DeepSeek. לאחרונה, DeepSeek חשפה גרסה מעודכנת של מודל ההיסק R1 שלה, שהציגה יכולות מרשימות בהתמודדות עם מבחני ביצועים במתמטיקה וקידוד. עם זאת, מקור הנתונים המשמשים לאימון מודל זה עורר ויכוח משמעותי בקרב חוקרי AI, כאשר חלקם משערים שהוא עשוי לנבוע, לפחות בחלקו, ממשפחת ה-Gemini של גוגל. חשד זה מעלה שאלות משמעותיות לגבי שיטות עבודה אתיות, מקורות נתונים ונוף תחרותי בתעשיית ה-AI.

העדויות שהוצגו

המחלוקת החלה כאשר סם פאך, מפתח מבוסס במלבורן, שמתמחה ביצירת הערכות "אינטליגנציה רגשית" למערכות AI, הציג את מה שהוא טוען כעדות לכך שהמודל האחרון של DeepSeek אומן על פלטים שנוצרו על ידי Gemini. לדברי פאך, המודל של DeepSeek, המזוהה כ-R1-0528, מפגין העדפה למילים וביטויים ספציפיים הדומים באופן ניכר לאלה המועדפים על ידי Gemini 2.5 Pro של גוגל. אמנם תצפית זו לבדה אולי אינה חד משמעית, אך היא מעלה דגל אדום ומצדיקה חקירה נוספת.

כדי להוסיף לתככים, מפתח אחר, הפועל תחת הכינוי SpeechMap וידוע ביצירת "הערכת חופש ביטוי" עבור AI, ציין כי העקבות של מודל DeepSeek - ה"מחשבות" שהוא מייצר כשהוא עובד לקראת מסקנה - "נקראות כמו עקבות של Gemini". התכנסות זו של דפוסים לשוניים ותהליכי מחשבה מגבירה עוד יותר את החשד ש-DeepSeek השתמשה בפלטים של Gemini במהלך תהליך האימון.

האשמות קודמות נגד DeepSeek

זו לא הפעם הראשונה ש-DeepSeek עומדת בפני האשמות על אימון מודלי ה-AI שלה על נתונים ממערכות AI מתחרות. בדצמבר האחרון, מפתחים הבחינו כי מודל V3 של DeepSeek מזוהה לעתים קרובות כ-ChatGPT, פלטפורמת הצ’אטבוט המופעלת על ידי AI של OpenAI. התנהגות מוזרה זו העלתה את ההצעה שהמודל אולי אומן על יומני צ’אט של ChatGPT, מה שהעלה חששות לגבי ההשלכות האתיות של פרקטיקה כזו.

מוקדם יותר השנה, OpenAI הודיעה ל"פייננשל טיימס" כי היא חשפה ראיות המקשרות את DeepSeek לשימוש בזיקוק (distillation), טכניקה הכוללת אימון מודלי AI על ידי הפקת נתונים ממודלים גדולים ויכולים יותר. יתר על כן, מיקרוסופט, שותפה ומשקיעה מרכזית ב-OpenAI, זיהתה כמויות משמעותיות של נתונים שחולצו דרך חשבונות מפתחים של OpenAI בסוף 2024. OpenAI מאמינה שחשבונות אלה קשורים ל-DeepSeek, מה שמחזק עוד יותר את החשד להפקה בלתי מורשית של נתונים.

אמנם זיקוק אינו בלתי אתי מטבעו, אך תנאי השירות של OpenAI אוסרים במפורש על לקוחות להשתמש בפלטי המודלים של החברה לבניית מערכות AI מתחרות. הגבלה זו נועדה להגן על הקניין הרוחני של OpenAI ולשמור על סביבה תחרותית הוגנת בתעשיית ה-AI. אם DeepSeek אכן השתמשה בזיקוק כדי לאמן את מודל R1 שלה על פלטי Gemini, זה יהווה הפרה של תנאי השירות של OpenAI ויעלה חששות אתיים רציניים.

האתגרים של זיהום נתונים

חשוב להכיר בכך שמודלי AI רבים מראים נטייה לזהות את עצמם באופן שגוי ולהתכנס למילים וביטויים דומים. תופעה זו יכולה להיות מיוחסת לנוכחות הגוברת של תוכן שנוצר על ידי AI באינטרנט הפתוח, המשמש כמקור העיקרי של נתונים לאימון עבור חברות AI. חוות תוכן משתמשות ב-AI כדי ליצור מאמרי קליकबייט ובוטים מציפים פלטפורמות כמו Reddit ו-X עם פוסטים שנוצרו על ידי AI.

"זיהום" זה של האינטרנט עם תוכן שנוצר על ידי AI מציב אתגר משמעותי לחברות AI, מה שהופך זאת לקשה ביותר לסנן ביסודיות פלטי AI ממערכי נתונים לאימון. כתוצאה מכך, מודלי AI עשויים ללמוד זה מזה שלא במתכוון, מה שמוביל לדמיון שנצפה בשפה ובתהליכי המחשבה.

חוות דעת ונקודות מבט של מומחים

למרות האתגרים של זיהום נתונים, מומחי AI כמו נתן למברט, חוקר במכון המחקר הלא-ממשלתי AI2, מאמינים שלא בלתי סביר ש-DeepSeek אומנה על נתונים מ-Gemini של גוגל. למברט מציע ש-DeepSeek, העומדת בפני מחסור ב-GPU אך בעלת משאבים כספיים נרחבים, אולי בחרה ליצור נתונים סינתטיים ממודל ה-API הזמין הטוב ביותר. לדעתו, גישה זו יכולה להיות יעילה יותר מבחינה חישובית עבור DeepSeek.

הפרספקטיבה של למברט מדגישה את השיקולים המעשיים שעשויים להניע חברות AI לחקור אסטרטגיות אלטרנטיביות למקורות נתונים. בעוד שהשימוש בנתונים סינתטיים יכול להיות טכניקה לגיטימית ויעילה, חיוני להבטיח שהנתונים ייווצרו באופן אתי ואינם מפרים תנאי שירות או הנחיות אתיות כלשהן.

אמצעי אבטחה ומאמצי מניעה

בתגובה לחששות סביב זיקוק וזיהום נתונים, חברות AI מגבירות את אמצעי האבטחה שלהן. OpenAI, למשל, הטמיעה דרישה לארגונים להשלים תהליך אימות זהות על מנת לגשת למודלים מתקדמים מסוימים. תהליך זה מצריך תעודת זהות שהונפקה על ידי הממשלה מאחת המדינות הנתמכות על ידי ה-API של OpenAI, למעט סין מהרשימה.

גוגל גם נקטה צעדים להפחתת הסיכון של זיקוק על ידי "סיכום" העקבות שנוצרו על ידי מודלים הזמינים דרך פלטפורמת המפתחים AI Studio שלה. תהליך סיכום זה מקשה יותר לאמן מודלים מתחרים המבצעים עקבות Gemini. באופן דומה, Anthropic הודיעה במאי שהיא תתחיל לסכם את העקבות של המודל שלה, בטענה לצורך להגן על "יתרונותיה התחרותיים".

אמצעי אבטחה אלה מייצגים מאמץ מתואם של חברות AI להגן על הקניין הרוחני שלהן ולמנוע הפקה בלתי מורשית של נתונים. על ידי הטמעת אמצעי בקרת גישה מחמירים יותר וטשטוש עקבות מודלים, הם שואפים להרתיע שיטות עבודה לא אתיות ולשמור על מגרש משחקים שווה בתעשיית ה-AI.

תגובת גוגל

כשפנו אליה לבקשת תגובה, גוגל טרם הגיבה להאשמות. שתיקה זו משאירה מקום לספקולציות ומגבירה עוד יותר את המחלוקת. בזמן שקהילת ה-AI ממתינה להצהרה רשמית מגוגל, השאלות סביב שיטות מקור הנתונים של DeepSeek ממשיכות לרחף.

ההשלכות על תעשיית ה-AI

מחלוקת DeepSeek מעלה שאלות יסוד לגבי הגבולות האתיים של פיתוח AI וחשיבותם של מקורות נתונים אחראיים. ככל שמודלי AI הופכים מתוחכמים ויכולים יותר ויותר, הפיתוי לקצר דרך ולהשתמש בנתונים לא מורשים עשוי להתחזק. עם זאת, לשיטות עבודה כאלה יכולות להיות השלכות מזיקות, ולערער את שלמות תעשיית ה-AI ולכרסם באמון הציבור.

כדי להבטיח את הקיימות ארוכת הטווח והפיתוח האתי של AI, חיוני שחברות AI יצייתו להנחיות אתיות קפדניות ויתנו עדיפות לשיטות אחראיות למקורות נתונים. זה כולל קבלת הסכמה מפורשת מספקי נתונים, כיבוד זכויות קניין רוחני והימנעות משימוש בנתונים בלתי מורשים או מוטים.

יתר על כן, נדרשת שקיפות ואחריות גדולה יותר בתעשיית ה-AI. חברות AI צריכות להיות גלויות יותר לגבי שיטות מקור הנתונים שלהן והשיטות המשמשות לאימון המודלים שלהן. שקיפות מוגברת זו תסייע לטפח אמון וביטחון במערכות AI ולקדם מערכת אקולוגית אתית ואחראית יותר של AI.

מחלוקת DeepSeek משמשת תזכורת בזמן לאתגרים והשיקולים האתיים שיש לטפל בהם כאשר טכנולוגיית ה-AI ממשיכה להתקדם. על ידי הקפדה על עקרונות אתיים, קידום שקיפות וטיפוח שיתוף פעולה, קהילת ה-AI יכולה להבטיח ש-AI ישמש לתועלת החברה ולא על חשבון ערכים אתיים.

צלילה עמוקה להיבטים הטכניים

כדי להבין עוד יותר את הניואנסים של סוגיה זו, חיוני להתעמק בהיבטים הטכניים של אופן אימון מודלי AI ובטכניקות הספציפיות שנמצאות בסימן שאלה, כלומר זיקוק ויצירת נתונים סינתטיים.

זיקוק: שיבוט אינטליגנציה?

זיקוק, בהקשר של AI, מתייחס לטכניקת דחיסת מודלים שבה מאמנים מודל "סטודנט" קטן ויעיל יותר לחקות את ההתנהגות של מודל "מורה" גדול ומורכב יותר. מודל הסטודנט לומד על ידי התבוננות בפלטים של מודל המורה, תוך שהוא מפיק ביעילות ידע ומעביר אותו לארכיטקטורה קטנה יותר. אמנם זיקוק יכול להועיל לפריסת מודלי AI במכשירים מוגבלי משאבים, אך הוא מעלה חששות אתיים כאשר הנתונים או הארכיטקטורה של מודל המורה הם קנייניים.

אם DeepSeek השתמשה בפלטים של Gemini כדי לאמן את מודל R1 שלה באמצעות זיקוק ללא רשות, זה יהיה דומה לשכפול האינטליגנציה של Gemini ועלול להפר את זכויות הקניין הרוחני של גוגל. המפתח כאן הוא השימוש הבלתי מורשה בפלטים של Gemini, המוגנים על ידי זכויות יוצרים ומנגנונים משפטיים אחרים.

יצירת נתונים סינתטיים: חרב פיפיות

יצירת נתונים סינתטיים כוללת יצירת נקודות נתונים מלאכותיות הדומות לנתונים מהעולם האמיתי. טכניקה זו משמשת לעתים קרובות להרחבת מערכי נתונים לאימון, במיוחד כאשר נתונים אמיתיים הם נדירים או יקרים להשגה. עם זאת, האיכות וההשלכות האתיות של נתונים סינתטיים תלויות במידה רבה באופן יצירתם.

אם DeepSeek השתמשה ב-API של Gemini כדי ליצור נתונים סינתטיים, השאלה הופכת להיות: עד כמה הנתונים האלה דומים לפלטים בפועל של Gemini, והאם הם מפרים את הקניין הרוחני של גוגל? אם הנתונים הסינתטיים רק קיבלו השראה מ-Gemini אך אינם משכפלים ישירות את הפלטים שלו, זה עשוי להיחשב כשימוש הוגן. עם זאת, אם הנתונים הסינתטיים כמעט ואינם ניתנים להבחנה מהפלטים של Gemini, זה עלול לעורר חששות דומים לזיקוק.

השלכות של התאמת יתר של מודל

דאגה נוספת קשורה היא התאמת יתר של מודל. התאמת יתר מתרחשת כאשר מודל לומד את נתוני האימון יתר על המידה, עד כדי כך שהוא מתפקד בצורה גרועה בנתונים חדשים שלא נראו. אם DeepSeek אומנה את מודל R1 שלה יתר על המידה על הפלטים של Gemini, זה יכול היה לגרום להתאמת יתר, כאשר המודל בעצם משנן את התגובות של Gemini במקום להכליל למצבים חדשים.

סוג זה של התאמת יתר לא רק יגביל את היישום של מודל R1, אלא גם יקל על זיהוי ההסתמכות שלו על הנתונים של Gemini. ה"עקבות" ש-SpeechMap ציינה יכולות להיות עדות להתאמת יתר זו, כאשר מודל R1 בעצם מעלה דפוסים שנלמדו מהפלטים של Gemini.

שיקולים אתיים ושיטות עבודה מומלצות בתעשייה

מעבר להיבטים הטכניים, מחלוקת זו מדגישה את הצורך בהנחיות אתיות ברורות ושיטות עבודה מומלצות בתעשייה לפיתוח AI. כמה עקרונות מפתח כוללים:

  • שקיפות: חברות AI צריכות להיות שקופות לגבי מקורות הנתונים שלהן ומתודולוגיות האימון שלהן. זה מאפשר ביקורת ואימות עצמאיים.
  • הסכמה: חברות AI צריכות לקבל הסכמה מפורשת מספקי נתונים לפני השימוש בנתונים שלהם לאימון. זה כולל כיבוד זכויות קניין רוחני והימנעות מחילוץ נתונים בלתי מורשה.
  • הוגנות: מודלי AI צריכים להיות הוגנים ובלתי מוטים. זה דורש תשומת לב זהירה למגוון נתונים והפחתת הטיות אלגוריתמיות.
  • אחריות: חברות AI צריכות להיות אחראיות לפעולות של מודלי ה-AI שלהן. זה כולל הקמת מסגרות אחריות ברורות והתמודדות עם נזקים שנגרמים על ידי מערכות AI.
  • אבטחה: חברות AI צריכות לתת עדיפות לאבטחת מודלי ה-AI והנתונים שלהן. זה כולל הגנה מפני גישה בלתי מורשית ומניעת הפרות נתונים.

תפקיד הרגולציה

בנוסף להנחיות אתיות ושיטות עבודה מומלצות בתעשייה, ייתכן שיהיה צורך ברגולציה כדי להתמודד עם האתגרים שמציב פיתוח AI. כמה אמצעי רגולטוריים פוטנציאליים כוללים:

  • חוקי פרטיות נתונים: חוקים המגנים על נתוני הפרט ומגבילים את השימוש במידע אישי לאימון AI.
  • חוקי קניין רוחני: חוקים המגנים על מודלי AI ונתונים מפני העתקה והפצה בלתי מורשית.
  • חוקי תחרות: חוקים המונעים התנהגות אנטי-תחרותית בתעשיית ה-AI, כגון צבירת נתונים וגישה לא הוגנת למשאבים.
  • תקנות בטיחות: תקנות המבטיחות את הבטיחות והאמינות של מערכות AI המשמשות ביישומים קריטיים.

על ידי שילוב של הנחיות אתיות, שיטות עבודה מומלצות בתעשייה ורגולציה מתאימה, אנו יכולים ליצור מערכת אקולוגית אחראית ויציבה יותר של AI שתועיל לחברה כולה. מחלוקת DeepSeek משמשת קריאת השכמה, ומדרבנת אותנו להתמודד עם אתגרים אלה באופן יזום ולהבטיח ש-AI יפותח באופן שתואם את הערכים והעקרונות שלנו.