הועלו ספקולציות לאחרונה לפיהן מעבדת הבינה המלאכותית הסינית DeepSeek השתמשה בנתונים ממודל הבינה המלאכותית Gemini של גוגל כדי לאמן את האיטרציה האחרונה שלה, מודל ה-R1 ההגיוני. מודל זה הדגים ביצועים חזקים במבחני ביצועים במתמטיקה ובקידוד. בעוד DeepSeek שמרה על שתיקה לגבי מקורות הנתונים ששימשו לאימון R1, מספר חוקרי בינה מלאכותית הציעו שג’מיני, או לפחות חלקים מג’מיני, מילאו תפקיד.
ראיות והאשמות
סם פאץ’, מפתח שבסיסו במלבורן המתמחה ביצירת הערכות של "אינטליגנציה רגשית" עבור בינה מלאכותית, הציג את מה שהוא מאמין שהוא ראיה לכך שמודל DeepSeek אומן באמצעות פלטים שנוצרו על ידי Gemini. פאץ’ ציין בפוסט ב-X (לשעבר טוויטר) כי המודל של DeepSeek, ספציפית גרסת R1-0528, מציג העדפה לשפה ולביטויים הדומים לאלה המועדפים על ידי Gemini 2.5 Pro של גוגל.
יתר על כן, מפתח נוסף, הפועל תחת הכינוי של יוצר SpeechMap, "Eval חופשי לדיבור" עבור בינה מלאכותית, הבחין כי ה"מחשבות" שנוצרו על ידי מודל DeepSeek כאשר הוא עובד לקראת מסקנות, דומות מאוד לעקבות Gemini. תצפית זו מוסיפה נדבך נוסף של סקרנות לטענות.
זו לא הפעם הראשונה ש-DeepSeek מתמודדת עם טענות על מינוף נתונים ממודלים מתחרים של בינה מלאכותית. עוד בדצמבר, הבחינו מפתחים כי מודל ה-V3 של DeepSeek זיהה את עצמו לעתים קרובות כ-ChatGPT, פלטפורמת הצ’אטבוט הפופולרית של OpenAI. זה העלה את ההשערה שהמודל אומן על יומני צ’אט של ChatGPT, מה שהעלה חששות לגבי נוהלי השימוש בנתונים.
האשמות עמוקות יותר: זיקוק והדלפת נתונים
מוקדם יותר השנה, OpenAI שיתפה עם ה”פייננשל טיימס” כי גילתה ראיות המקשרות את DeepSeek לשימוש בטכניקה הנקראת זיקוק. זיקוק כולל אימון מודלים של בינה מלאכותית על ידי חילוץ נתונים ממודלים גדולים ומתוחכמים יותר. בלומברג דיווח כי מיקרוסופט, שותפה ומשקיעה מרכזית ב-OpenAI, זיהתה הדלפת נתונים משמעותית באמצעות חשבונות מפתחים של OpenAI בסוף 2024. OpenAI מאמינה שחשבונות אלה קשורים ל-DeepSeek.
זיקוק, למרות שהוא לא בהכרח לא אתי, הופך לבעייתי כאשר הוא מפר תנאי שימוש. התנאים של OpenAI אוסרים במפורש על לקוחות להשתמש בתפוקות המודל של החברה כדי לפתח מערכות בינה מלאכותית מתחרות. זה מעלה שאלות רציניות לגבי הקפדת DeepSeek על תנאים אלה.
המים העכורים של נתוני אימון של בינה מלאכותית
חשוב להכיר בכך שלעתים קרובות מודלים של בינה מלאכותית מזהים את עצמם באופן שגוי ומתכנסים למילים ולביטויים דומים. הסיבה לכך היא טבעה של הרשת הפתוחה, המשמשת כמקור העיקרי של נתוני אימון עבור חברות בינה מלאכותית רבות. הרשת רוויה יותר ויותר בתכנים שנוצרו על ידי בינה מלאכותית. חוות תוכן משתמשות בבינה מלאכותית כדי ליצור פיתיון קליקים, ובוטים מציפים פלטפורמות כמוReddit ו-X בפוסטים שנוצרו על ידי בינה מלאכותית.
"זיהום" זה מקשה מאוד על סינון יעיל של תפוקות בינה מלאכותית ממערכי נתונים של אימון, מה שמסבך עוד יותר את השאלה האם DeepSeek השתמשה בכוונה בנתוני Gemini.
דעות ונקודות מבט של מומחים
למרות האתגרים בהוכחת הטענות באופן סופי, כמה מומחי בינה מלאכותית סבורים שזה סביר ש-DeepSeek התאמנה על נתונים מ-Gemini של גוגל. נתן למברט, חוקר במכון המחקר AI2 ללא מטרות רווח, הצהיר ב-X, "אם הייתי DeepSeek, בהחלט הייתי יוצר טונה של נתונים סינתטיים ממודל ה-API הטוב ביותר שיש. [ל-DeepSeek] יש מעט GPU ויש הרבה מזומנים. זה ממש יותר מחשוב עבורם”.
הפרספקטיבה של למברט מדגישה את התמריצים הכלכליים הפוטנציאליים עבור DeepSeek למנף מודלים קיימים של בינה מלאכותית כדי לשפר את היכולות שלה, במיוחד לאור מגבלות המשאבים שלה.
אמצעי אבטחה ואמצעי נגד
חברות בינה מלאכותית מגבירות את אמצעי האבטחה, בין השאר כדי למנוע שיטות עבודה כמו זיקוק. באפריל, OpenAI החלה לדרוש מארגונים להשלים תהליך אימות זהות כדי לגשת למודלים מתקדמים מסוימים. תהליך זה כולל הגשת תעודת זהות שהונפקה על ידי הממשלה ממדינה הנתמכת על ידי ה-API של OpenAI. סין נעדרת באופן בולט מרשימה זו.
במהלך נוסף, גוגל החלה לאחרונה "לסכם" את העקבות שנוצרו על ידי מודלים הזמינים דרך פלטפורמת המפתחים AI Studio שלה. פעולה זו מקשה על אימון מודלים מתחרים על עקבות Gemini ביעילות. באופן דומה, Anthropic הודיעה במאי כי תתחיל לסכם את העקבות של המודל שלה, תוך ציון הצורך להגן על "היתרונות התחרותיים" שלה. צעדים אלה מצביעים על מודעות גוברת לפוטנציאל לשימוש לרעה בתפוקות מודל של בינה מלאכותית ומאמץ יזום לצמצם סיכונים כאלה.
השלכות ותוצאות
הטענות נגד DeepSeek מעלות שאלות משמעותיות לגבי האתיקה והחוקיות של נוהלי אימון של בינה מלאכותית. אם DeepSeek אכן השתמשה בנתוני Gemini כדי לאמן את דגם ה-R1 שלה, היא עלולה לעמוד בפני השלכות משפטיות ונזק למוניטין. מצב זה מדגיש גם את הצורך בשקיפות ורגולציה גדולים יותר בתעשיית הבינה המלאכותית, במיוחד בנוגע למקורות נתונים ושימוש בהם.
ההאשמות נגד DeepSeek מדגישות דילמה קריטית: כיצד לאזן את הרצון לחדשנות וקידום בבינה מלאכותית עם הצורך להגן על קניין רוחני ולהבטיח תחרות הוגנת. תעשיית הבינה המלאכותית מתפתחת במהירות, וחיוניים קווים מנחים ברורים ומסגרות אתיות כדי לנווט בנוף המשפטי והאתי המורכב. חברות חייבות להיות שקופות לגבי מקורות הנתונים שלהן ולדבוק בהסכמי תנאי שימוש כדי לשמור על אמון ולהימנע מחבויות משפטיות פוטנציאליות.
יתר על כן, הסוגיה של תוכן שנוצר על ידי בינה מלאכותית המזהם מערכי נתונים של אימון מציגה אתגר מרכזי לכל קהילת הבינה המלאכותית. ככל שמודלים של בינה מלאכותית הופכים למיומנים יותר ביצירת טקסט, תמונות וצורות תוכן משכנעות אחרות, כך קשה יותר ויותר להבדיל בין נתונים שנוצרו על ידי בני אדם לנתונים שנוצרו על ידי בינה מלאכותית. "זיהום" זה עלול להוביל להומוגניזציה של מודלים של בינה מלאכותית, שבהם כולם מתחילים להציג הטיות ומגבלות דומות.
כדי להתמודד עם אתגר זה, חברות בינה מלאכותית צריכות להשקיע בטכניקות סינון נתונים מתוחכמות יותר ולחקור מקורות נתוני אימון חלופיים. הן גם צריכות להיות שקופות יותר לגבי הרכב מערכי הנתונים של האימון שלהן והשיטות המשמשות לסינון תוכן שנוצר על ידי בינה מלאכותית.
ניווט בעתיד אימון הבינה המלאכותית
המחלוקת סביב DeepSeek מדגישה את הצורך הדחוף בדיון מעמיק יותר על עתיד אימון הבינה המלאכותית. ככל שמודלים של בינה מלאכותית הופכים לחזקים יותר ונתונים הופכים נדירים יותר, חברות עשויות להתפתות לקצר פינות ולהשתתף בשיטות לא אתיות או בלתי חוקיות. עם זאת, שיטות אלה בסופו של דבר מערערות את הקיימות והאמינות ארוכות הטווח של תעשיית הבינה המלאכותית.
יש צורך במאמץ שיתופי הכולל חוקרים, קובעי מדיניות ומובילי תעשייה כדי לפתח קווים מנחים אתיים ומסגרות משפטיות המקדמות פיתוח אחראי של בינה מלאכותית. קווים מנחים אלה צריכים לטפל בנושאים כגון מקורות נתונים, שקיפות ואחריות. הם צריכים גם לתמרץ חברות להשקיע בנוהלי אימון אתיים וברי קיימא של בינה מלאכותית.
שיקולים מרכזיים לעתיד אימון הבינה המלאכותית:
- שקיפות: חברות צריכות להיות שקופות לגבי מקורות הנתונים המשמשים לאימון מודלי הבינה המלאכותית שלהן והשיטות המשמשות לסינון תוכן שנוצר על ידי בינה מלאכותית.
- אתיקה: פיתוח בינה מלאכותית צריך לדבוק בעקרונות אתיים המקדמים הוגנות, אחריות וכבוד לקניין רוחני.
- רגולציה: קובעי מדיניות צריכים ליצור מסגרות משפטיות ברורות הנותנות מענה לאתגרים הייחודיים שמציב אימון בינה מלאכותית.
- שיתוף פעולה: חוקרים, קובעי מדיניות ומובילי תעשייה צריכים לשתף פעולה כדי לפתח קווים מנחים אתיים ושיטות עבודה מומלצות לפיתוח בינה מלאכותית.
- מגוון נתונים: אימון בינה מלאכותית צריך לתת עדיפות למגוון נתונים כדי להפחית הטיה ולשפר את הביצועים הכוללים של מודלי בינה מלאכותית.
- קיימות: אימון בינה מלאכותית צריך להתבצע בצורה בת קיימא, תוך מזעור ההשפעה הסביבתית שלו.
- אבטחה: אמצעי אבטחה צריכים להגן על מודלי בינה מלאכותית ועל נתוני אימון מפני גישה ושימוש בלתי מורשים.
על ידי התייחסות לשיקולים מרכזיים אלה, תעשיית הבינה המלאכותית יכולה להבטיח שפיתוח בינה מלאכותית מתבצע בצורה אחראית ואתית, תוך קידום חדשנות וצמצום סיכונים פוטנציאליים.
הדרך קדימה
הטענות נגד DeepSeek משמשות כקריאת השכמה עבור קהילת הבינה המלאכותית. הן מדגישות את הצורך המכריע בשקיפות גדולה יותר, התנהלות אתית ואמצעי הגנה חזקים בפיתוח בינה מלאכותית. ככל שבינה מלאכותית ממשיכה לחלחל להיבטים שונים של חיינו, חיוני שנקים גבולות ברורים וקווים מנחים אתיים כדי להבטיח את השימוש האחראי והמועיל בה.
המקרה של DeepSeek, ללא קשר לתוצאה הסופית שלו, ללא ספק יעצב את השיח המתמשך סביב אתיקה של בינה מלאכותית וישפיע על המסלול העתידי של פיתוח בינה מלאכותית. הוא משמש תזכורת לכך שהחתירה לחדשנות חייבת להיות מתונה עם מחויבות לעקרונות אתיים והכרה בהשלכות הפוטנציאליות של מעשינו. עתיד הבינה המלאכותית תלוי ביכולתנו לנווט באתגרים מורכבים אלה בחוכמה ובתבונה.