חשיפת מקורות האימון של DeepSeek-R1
מחקר שנערך לאחרונה על ידי Copyleaks, חברה המתמחה בזיהוי וניהול AI, הצביע על תשובה מוחלטת לשאלה האם DeepSeek-R1 אומן על המודל של OpenAI: כן. DeepSeek, צ’אטבוט המופעל על ידי AI וזמין ללא עלות, דומה באופן מפתיע ל-ChatGPT במראה, בתחושה ובפונקציונליות שלו.
טכניקת טביעת האצבע: זיהוי ה-AI המחבר
כדי לשפוך אור על מקורותיו של טקסט שנוצר על ידי AI, פיתחו החוקרים כלי חדשני לטביעת אצבע של טקסט. כלי זה נועד לקבוע את מודל ה-AI הספציפי האחראי ליצירת קטע טקסט נתון. החוקרים הכשירו בקפידה את הכלי באמצעות מערך נתונים עצום של אלפי דוגמאות שנוצרו על ידי AI. לאחר מכן, הם העמידו אותו למבחן באמצעות מודלי AI ידועים, והתוצאות היו חד משמעיות.
דמיון מדהים: DeepSeek-R1 ו-OpenAI
הבדיקה חשפה נתון סטטיסטי משכנע: 74.2 אחוזים ניכרים מהטקסטים שהופקו על ידי DeepSeek-R1 הציגו התאמה סגנונית לפלט של OpenAI. מתאם חזק זה מצביע בבירור על כך ש-DeepSeek שילבה את המודל של OpenAI במהלך שלב האימון שלה.
ניגוד בגישה: Phi-4 של מיקרוסופט
כדי לספק פרספקטיבה מנוגדת, שקול את מודל Phi-4 של מיקרוסופט. באותה בדיקה, Phi-4 הפגין 99.3 אחוזים מרשימים של ‘אי הסכמה’ עם כל מודל ידוע. תוצאה זו משמשת כהוכחה משכנעת לאימון עצמאי, ומסמנת ש-Phi-4 פותח מבלי להסתמך על מודלים קיימים. הניגוד המוחלט בין האופי העצמאי של Phi-4 לבין הדמיון המכריע של DeepSeek ל-OpenAI מדגיש את השכפול או ההעתקה לכאורה של האחרון.
חששות אתיים וקניין רוחני
גילוי זה מעלה חששות רציניים לגבי הדמיון הרב של DeepSeek-R1 למודל של OpenAI. חששות אלה מקיפים מספר תחומים קריטיים, כולל:
- מקור הנתונים: מקור הנתונים ששימשו לאימון DeepSeek-R1 הופך לשאלה מכרעת.
- זכויות קניין רוחני: ההפרה הפוטנציאלית של זכויות הקניין הרוחני של OpenAI היא דאגה משמעותית.
- שקיפות: חוסר השקיפות לגבי מתודולוגיית האימון של DeepSeek מעלה שאלות אתיות.
צוות המחקר והמתודולוגיה
צוות מדעי הנתונים של Copyleaks, בראשות יהונתן ביטון, שי ניסן ואלעד ביטון, ערך מחקר פורץ דרך זה. המתודולוגיה שלהם התמקדה בגישת ‘חבר מושבעים פה אחד’. גישה זו כללה שלוש מערכות זיהוי נפרדות, שכל אחת מהן הוטלה לסווג טקסטים שנוצרו על ידי AI. פסק דין סופי הושג רק כאשר כל שלוש המערכות הסכימו.
השלכות תפעוליות ושווקיות
מעבר לחששות האתיים והקניין הרוחני, ישנן השלכות תפעוליות מעשיות שיש לקחת בחשבון. הסתמכות שלא פורסמה על מודלים קיימים עלולה להוביל למספר בעיות:
- חיזוק הטיות: הטיות קיימות בתוך המודל המקורי יכולות להיות מונצחות.
- מגוון מוגבל: מגוון התפוקות עשוי להיות מוגבל, ולעכב חדשנות.
- סיכונים משפטיים ואתיים: השלכות משפטיות או אתיות בלתי צפויות עלולות להתעורר.
יתר על כן, טענותיה של DeepSeek על שיטת אימון מהפכנית וחסכונית, אם יתגלו כמבוססות על זיקוק לא מורשה של הטכנולוגיה של OpenAI, עלולות להיות בעלות השלכות משמעותיות על השוק. ייתכן שזה תרם להפסד משמעותי של NVIDIA ביום אחד של 593 מיליארד דולר, ואולי סיפק ל-DeepSeek יתרון תחרותי לא הוגן.
גישה קפדנית: שילוב מספר מסווגים
מתודולוגיית המחקר נקטה בגישה קפדנית ביותר, תוך שילוב שלושה מסווגי AI מתקדמים. כל אחד מהמסווגים הללו הוכשר בקפידה על דגימות טקסט מארבעה מודלי AI בולטים:
- Claude
- Gemini
- Llama
- OpenAI
מסווגים אלה תוכננו לזהות ניואנסים סגנוניים עדינים, כולל:
- מבנה משפט: סידור המילים והביטויים בתוך משפטים.
- אוצר מילים: בחירת המילים ותדירותן.
- ניסוח: הסגנון והטון הכללי של הביטוי.
מערכת ‘חבר מושבעים פה אחד’: הבטחת דיוק
מערכת ‘חבר המושבעים פה אחד’ הייתה מרכיב מרכזי במתודולוגיה, והבטיחה בדיקה חזקה מפני תוצאות חיוביות שגויות. מערכת זו דרשה שכל שלושת המסווגים יסכימו באופן עצמאי על סיווג לפני שהוא נחשב סופי. קריטריון מחמיר זה הביא לשיעור דיוק יוצא דופן של 99.88 אחוזים ושיעור חיובי שגוי נמוך להפליא של 0.04 אחוזים בלבד. המערכת הוכיחה את יכולתה לזהות במדויק טקסטים הן ממודלי AI ידועים והן ממודלים לא ידועים.
מעבר לזיהוי AI: ייחוס ספציפי למודל
‘עם מחקר זה, עברנו מעבר לזיהוי AI כללי כפי שהכרנו אותו ולייחוס ספציפי למודל, פריצת דרך שמשנה באופן מהותי את האופן שבו אנו ניגשים לתוכן AI’, אמר שי ניסן, מדען נתונים ראשי ב-Copyleaks.
החשיבות של ייחוס מודל
ניסן הדגיש עוד את המשמעות של יכולת זו: ‘יכולת זו חיונית ממספר סיבות, כולל שיפור השקיפות הכוללת, הבטחת שיטות אימון אתיות של AI, והכי חשוב, הגנה על זכויות הקניין הרוחני של טכנולוגיות AI, ובתקווה, מניעת שימוש לרעה פוטנציאלי בהן.’
העמקה: ההשלכות של הגישה של DeepSeek
לממצאי מחקר זה יש השלכות מרחיקות לכת החורגות מהשאלה המיידית האם DeepSeek העתיקה את המודל של OpenAI. הבה נחקור כמה מההשלכות הללו ביתר פירוט:
אשליית החדשנות
אם האימון של DeepSeek הסתמך במידה רבה על המודל של OpenAI, זה מעלה שאלות לגבי היקף החדשנות האמיתי שלה. בעוד ש-DeepSeek אולי הציגה את הצ’אטבוט שלה כיצירה חדשה, הטכנולוגיה הבסיסית עשויה להיות פחות פורצת דרך ממה שנטען בתחילה. זה עלול להטעות משתמשים ומשקיעים שמאמינים שהם מתקשרים עם מערכת AI ייחודית באמת.
ההשפעה על נוף ה-AI
אימוץ נרחב של מודלי AI שאומנו על מודלים אחרים עלול להשפיע על הומוגניות על נוף ה-AI. אם מערכות AI רבות נגזרות בסופו של דבר מכמה מודלים בסיסיים, זה עלול להגביל את מגוון הגישות והפרספקטיבות בתחום. זה עלול לחנוק חדשנות ולהוביל למערכת אקולוגית של AI פחות דינמית ותחרותית.
הצורך בשקיפות רבה יותר
מקרה זה מדגיש את הצורך הדחוף בשקיפות רבה יותר בפיתוח ובפריסה של מודלי AI. משתמשים ובעלי עניין ראויים לדעת כיצד מאומנות מערכות AI ואילו מקורות נתונים משמשים. מידע זה חיוני להערכת ההטיות הפוטנציאליות, המגבלות וההשלכות האתיות של מערכות אלו.
תפקיד הרגולציה
המקרה של DeepSeek עשוי גם לתדלק את הדיון על הצורך ברגולציה רבה יותר של תעשיית ה-AI. ממשלות וגופים רגולטוריים עשויים להזדקק לשקול צעדים כדי להבטיח שמפתחי AI יעמדו בהנחיות אתיות, יגנו על זכויות קניין רוחני ויקדמו שקיפות.
עתיד פיתוח ה-AI
המחלוקת סביב שיטות האימון של DeepSeek יכולה לשמש כזרז לדיון רחב יותר על עתיד פיתוח ה-AI. זה עשוי לעורר הערכה מחדש של שיטות עבודה מומלצות, שיקולים אתיים והחשיבות של מקוריות ביצירת מערכות AI.
קריאה לפיתוח AI אחראי
המקרה של DeepSeek משמש כתזכורת לחשיבות של פיתוח AI אחראי. זה מדגיש את הצורך ב:
- מקוריות: מפתחי AI צריכים לשאוף ליצור מודלים חדשים באמת במקום להסתמך במידה רבה על מודלים קיימים.
- שקיפות: יש לחשוף את נתוני האימון והמתודולוגיות המשמשות לפיתוח מערכות AI למשתמשים ולבעלי עניין.
- שיקולים אתיים: פיתוח AI צריך להיות מונחה על ידי עקרונות אתיים, כולל הוגנות, אחריות וכבוד לזכויות קניין רוחני.
- שיתוף פעולה: שיתוף פעולה פתוח ושיתוף ידע בתוך קהילת ה-AI יכולים לעזור לטפח חדשנות ולמנוע שכפול של הטיות קיימות.
הדרך קדימה: הבטחת עתיד AI מגוון ואתי
המטרה הסופית צריכה להיות יצירת מערכת אקולוגית של AI מגוונת ואתית שבה החדשנות פורחת והמשתמשים יכולים לסמוך על המערכות שהם מתקשרים איתן. זה דורש מחויבות לשיטות פיתוח AI אחראיות, שקיפות ודיאלוג מתמשך על ההשלכות האתיות של טכנולוגיה זו המתפתחת במהירות. המקרה של DeepSeek משמש כשיעור חשוב, המדגיש את המלכודות הפוטנציאליות של הסתמכות רבה מדי על מודלים קיימים ומדגיש את החשיבות של מקוריות ושיקולים אתיים במרדף אחר קידום AI. עתיד ה-AI תלוי בבחירות שאנו עושים היום, וחשוב שנתעדף פיתוח אחראי כדי להבטיח עתיד מועיל ושוויוני לכולם.
ממצאי חקירת Copyleaks שפכו אור על היבט מכריע בפיתוח AI, וחיוני שהתעשייה כולה תלמד מניסיון זה כדי לטפח עתיד שקוף, אתי וחדשני יותר.