פריצת הדרך של DeepSeek: האם לג'מיני של גוגל היה חלק?

התקדמות הבינה המלאכותית של DeepSeek מעוררת דיון: האם לג’מיני של גוגל היה תפקיד?

עולם הבינה המלאכותית גועש בספקולציות בעקבות השחרור האחרון של גרסה משופרת של מודל ה-R1 של DeepSeek. מעבדת בינה מלאכותית סינית זו חשפה מודל המדגים יכולות מרשימות במדדי מתמטיקה ותכנות. עם זאת, מקור הנתונים ששימשו לאמן מודל זה הפך למוקד דיון, כאשר כמה חוקרי בינה מלאכותית מצביעים על קשר אפשרי למשפחת הבינה המלאכותית ג’מיני של גוגל.

מודל R1 של DeepSeek: מבט מקרוב

מודל ה-R1 של DeepSeek привлек את תשומת הלב לביצועיו בתחומים כמו פתרון בעיות מתמטיות ומשימות קידוד. סירובה של החברה לחשוף את מקורות הנתונים הספציפיים ששימשו באימון המודל поджига את הספקולציות בתוך קהילת המחקר של הבינה המלאכותית.

טענות להשפעה של ג’מיני

ליבת הדיון סוברת את האפשרות ש-DeepSeek рывок את התפוקות של ג’מיני של גוגל כדי לשפר את המודל שלו. סם פאץ’, מפתח בינה מלאכותית שמתמחה בהערכות “אינטליגנציה רגשית”, قدم ראיות המצביעות על כך שמודל R1-0528 של DeepSeek מראה העדפות לשפה ולביטויים דומים לאלה המועדפים על ידי ג’מיני 2.5 פרו של גוגל. אמנם תצפית זו לבדה אינה מהווה הוכחה חד משמעית, אך היא תרמה לדיון המתמשך.

הוספת נדבך נוסף לדיון, היוצר האנונימי של “SpeechMap”, כלי להערכת בינה מלאכותית המתמקד בחופש הביטוי, ציין כי ה”מחשבות” שנוצרו על ידי מודל DeepSeek - תהליכי החשיבה הפנימיים שבהם הוא משתמש כדי להגיע למסקנות - דומות לדפוסי העקבות של ג’מיני. זה מעצים עוד יותר את השאלה האם DeepSeek השתמש בנתונים ממשפחת ג’מיני של גוגל.

האשמות קודמות וחששות של OpenAI

זו לא הפעם הראשונה שנגד DeepSeek מתעוררות האשמות על ניצול נתונים ממודלים מתחרים של בינה מלאכותית. בדצמבר נצפה כי מודל ה-V3 של DeepSeek מזוהה לעתים קרובות כ-ChatGPT, צ’אטבוט הבינה המלאכותית הנהוג של OpenAI. זה הוביל לחשדות שהמודל อาจ להיות שאומן ביומני צ’אט של ChatGPT.

תוך добавление לערעור, OpenAI דווחה כי גילתה ראיות מוקדם יותר השנה המיחסות את DeepSeek לשימוש בזיקוק, טכניקה הכוללת извлечение נתונים ממודלים בינה מלאכותית גדולים וחזקים יותר כדי לאמן מודלים קטנים יותר. על פי הדיווחים, מיקרוסופט, משתפת פעולה מרכזית ומשקיעה ב-OpenAI, ЗАРЕЄСТРУВАЛА השתלטות נתונים משמעותית באמצעות חשבונות מפתחים של OpenAI בסוף 2024. OpenAI מאמינה שחשבונות אלה קשורים ל-DeepSeek.

אמנם זיקוק הוא נוהג נפוץ בעולם הבינה המלאכותית, תנאי השירות של OpenAI אוסרים במפורש על משתמשים להשתמש בתפוקות המודלים של החברה כדי ליצור מערכות בינה מלאכותית מתחרות. זה поднимает חששות לגבי הפרות אפשריות של מדיניות OpenAI.

האתגר של “זיהום” בינה מלאכותית

חשוב לזכור כי מודלים של בינה מלאכותית, במהלך אימון, יתכנו מתכנסים לאוצר מילים ולניסוח דומים. وذلك بشكل رئيسي Потому, что הרשת הפתוחה, המקור העיקרי לנתוני אימון עבור חברות בינה מלאכותית, נעשתה насыщенной יותר ויותר תוכן שנוצר על ידי בינה מלאכותית. חוות תוכן משתמשות בבינה מלאכותית כדי ליצור מאמרי פיתיון, ובוטים затоплени פלטפורמות כמו Reddit ו-X с постами שנוצרו על ידי בינה מלאכותית.

“זיהום” זה של נוף הנתונים делает קשה לסנן ביעילות תוכן שנוצר על ידי בינה מלאכותית ממערכי נתונים של אימונים. כתוצאה מכך, разграничивать אם תפוקת מודל נגזרת באמת מנתונים של מודל אחר או פשוט משקף את הנוכחות המובנה של תוכן שנוצר על ידי בינה מלאכותית ברשת может быть קשה.

נקודות מבט של מומחים על העניין

למרות האתגרים בהוכחת הקישור באופן סופי, מומחי בינה מלאכותית כמו נתן למברט, חוקר במכון המחקר של הבינה המלאכותית AI2, מאמינים שהאפשרות ש-DeepSeek תאמן על נתונים מג’מיני של גוגל היא סביר. למברט טוען כי DeepSeek, העומדת בפני Ограничения בזמינות GPU, אך המאופיינת במשאבים כספיים נרחבים, יכולה считать את זה יותר יעיל להשתמש בנתונים סינתטיים הנוצרים על ידי מודל ה-API הזמין הטוב ביותר.

חברות בינה מלאכותית משפרות את אמצעי האבטחה

החששות לגבי זיקוק ושימוש לא מורשה בנתונים מניעים חברות בינה מלאכותית לחזק את אמצעי האבטחה שלהן. OpenAI, לדוגמה, כעת требует מארגונים להשלים תהליך אימות זהות כדי לקבל גישה למודלים מתקדמים מסוימים. תהליך זה требует תעודת זהות מטעם הממשלה ממדינה שנתמכת על ידי ה-API של OpenAI, מלבד סין.

גוגל Каже узяла אף היא סוכנים כדי למתן את הפוטנציאל للזיקוק. הם недавно החלו את “סיכום” העקבות שנוצרו על ידי מודלים הזמינים דרך פלטפורמת המפתחים AI Studio שלה. это делает קשה יותר לאמן מודלים מתחרים על ידי извлечение מידע מפורט מעקבות ג’מיני. באופן דומה, Anthropic הועידה על תוכניות לסכם את עקבות המודל שלה, בהינף הצורך להגן على “יתרונות התחרותיים” שלה.

ההשלכות על נוף הבינה המלאכותית

המחלוקת סביב DeepSeek והשימוש האפשרי בנתוני ג’מיני של גוגל מדגישה כמה סוגיות מכריעות בנוף הבינה המלאכותית:

  • אתיקה של נתונים ופיתוח אחראי של בינה מלאכותית: Кора модели בינה מלאכותית נעשים מתוחכמים יותר ויותר, השיקולים האתיים הסובבים את מקורות הנתונים והשימוש הופכים לחשיבות עליונה. חברות בינה מלאכותית צריכות להבטיח שהם פוגשים עם הנחיות אתיות ומכבדים את זכויות הקניין הרוחני של אחרים.
  • ההשפעה של תוכן שנוצר על ידי בינה מלאכותית: размножаването של תוכן שנוצר על ידי בינה מלאכותית באינטרנט מעמיד אתגר לאימון בינה מלאכותית. Кора נתונים נעשים “масло”มากขึ้น, הופך קשה יותר להבטיח את האיכות והשלם של מודלים של בינה מלאכותית.
  • הצורך בשקיפות ובאחריות: חברות בינה מלאכותית должны להיות שקופות לגבי מקורות הנתונים ושיטות האימון שלהם. זה θα לעזור לבנות אמון ולהבטיח שבינה מלאכותית מפותחת ומשמשת באחריות.
  • חשיבות אמצעי אבטחה חזקים: Кора תעשיית הבינה המלאכותית נעשית תחרותית יותר, חברות בינה מלאכותית должны ליישם אמצעי אבטחה חזקים כדי למנוע גישה לא מורשית לנתונים ולמודלים שלהם.

עתיד פיתוח הבינה המלאכותית

המחלוקת של DeepSeek משמשת כתזכורת לאתגרים המורכבים האתיים והטכניים העומדים בפני תעשיית הבינה המלאכותית. Кора בינה מלאכותית συνεχίζει להתפתח, חיוני שחברות בינה מלאכותית, חוקרים ומקבלי מדיניות יעבדו יחד כדי להבטיח שבינה מלאכותית מפותחת ומשמשת באופן שמטיבה עם החברה. זה כולל קידום שקיפות, אחריות ושיטות נתונים אתיות.

הדיון המתמשך: הטענות נגד DeepSeek ממחישות את החששות הגוברים בנוגע לפרטיות נתונים, אבטחה ופיתוח אתי של בינה מלאכותית. היעדר השקיפות במקורות הנתונים והגבולות המטושטשים יותר ויותר בין איסוף נתונים לגיטימי לבין גירוד נתונים несанкциониран מבקשים רגולציות ברורות ושיטות אחראיות בקהילת הבינה המלאכותית. Кора הטכנולוגיה מתקדמת, על התעשייה להתמודד עם סוגיות כגון זכויות קניין רוחני, הסיכון ל”זיהום בינה מלאכותית” והפוטנציאל לתוצאות לא מכוונות.

היאטיקה של נתוני אימון בינה מלאכותית: המחלוקת סביב DeepSeek מדגישה также את השיקולים האתיים שיש להביא בחשבון כאשר אוספים נתוני אימון עבור Модели בינה מלאכותית. עם ההסתמכות הגוברת על מערכי נתונים עצומים שמגרדים מהאינטרנט, שאלות כגון מי הבעלים של הנתונים, כיצד מתקבלת הסכמה (או מתעלמת), והאם נעשה שימוש הוגן ואחראי בנתונים, הופכות דחופות יותר. קהילת הבינה המלאכותית חייבת לקבוע הנחיות ברורות למקורות נתונים המכבדים את חוקי זכויות יוצרים, מגנים на מידע אישי ומצמצמים הטיה.

המרוץ לנצחון בינה מלאכותית: можно לפרש גם את ההאשמות נגד DeepSeek כקול פשוט תחרות האינטנסיבית לנצחון של בינה מלאכותית בין ארצות הברית לסין. שתי המדינות שופכות מיליארדי דולרים למחקר ופיתוח של בינה מלאכותית, והלחץ להשגת פריצות דרך поджига את התחרות ואפשר לקיצורי דרך. אם DeepSeek אכן משתמשת בנתונים של OpenAI או גוגל ללא רשות, ניתן לפרש זאת כדוגמה לטקטיקות Агресивни וגניבת קניין רוחני שספגה זה מכבר על взаимоотношения הטכנולוגיה ארה”ב-סין.

העקבות הרחבות יותר למערכת האקולוגית של הבינה המלאכותית: בעוד שהמיקוד כרגע מופנה ל-DeepSeek, למקרה הזה может להיות השלכות רחבות יותר על כל מערכת האקולוגית של הבינה המלאכותית. Если יוכח ש-DeepSeek השתמשה באופן לא חוקי בנתונים מ-ChatGPT או מ-Gemini, הד בר יכול לגרום לחברות אחרות לבחון بدقة את שיטות הנתונים שלהן, פוטנציאל להאט את קצב הפיתוח ולהעלות את העלויות. כמו כן, הד בר יכול להוביל לרגולציות הדוקות יותר סביב איסוף ושימוש נתונים, לא רק בארצות הברית ובסין, אלא גלובלית.

ההשפעה של נתונים שנוצרו באופן סינתטי: הופעת נתונים סינתטיים, שהוצעה על ידי למברט, כחלופה ישימה למודלים לאמן מעלה שאלות בסיסיות לגבי עתיד Първите на биנה מלאכותית. בעוד מערכי נתונים סינתтиים עוקפים חלק מחשש של האתיקה וזכויות יוצרים בהקשר לנתונים מהעולם האמיתי, הביצועים והחוסן של מודלים המאומנים בנתונים סינתтиיים часто не УСТОЯТЬ לאלה המאומנים בנתונים מקוריים. על קהילת הבינה המלאכותית למצוא גישות חדשניות ליצור מערכי נתונים סינתטיים מתוחכמים העונים על צרכי התעשייה מבלי לפגוע במקוריות ובמידע מהמקור האמיתי.

סיכום מודלים כצורה של ממשלת данные: ההחלטה האחרונה של גוגל ו-Anthropic להתחיל “לסכם” את העקבות שנוצרו על ידי המודלים שלהן מציינת את החשיבות ההולכת וגוברת של ממשלת הנתונים בתעשיית הבינה המלאכותית. על ידי הסוואת המידע המפורט בתוך תהליכי קבלת ההחלטות של המודלים, חברות מקשות על אחרים לעשות הנדса обратна לטכנולוגיות שלהן. גישה זו може לעזור להגן על סודות מסחריים ולקיים שיטות נתונים אתיות, אך היא מעלה גם שאלות לגבי השקיפות והיכולת להסביר של מערכות בינה מלאכותית.

איזון בין חידושים לשיקולים אתיים וחקיקים: המחלוקת של DeepSeek ממחישה את הצורך לאזן בין תמריצים לחידושים של בינה מלאכותית לבין הגנה על זכויות יוצרים והבטחת תאימות לעקרונות אתיים. Кора моделле биנה מלאכותית ממשיכות לגדול בתחכום ובמורכבות, האתגרים האתיים והחקיקים העומדים בפני התעשייה יתדרדדו בלבד. Искането на извън трябва да бъде премахнато от тези трябва да бъде премахнато с най-голяма отговорност.