מסכת 'הקוד הפתוח' ב-AI: קריאה ליושרה מדעית

שחיקת ערכו של מושג יסוד: שחיקת 'הקוד הפתוח'

המונח ‘קוד פתוח’ שימש בעבר כמגדלור בנוף הטכנולוגי והמדעי. הוא ייצג אתוס רב עוצמה המבוסס על שקיפות, גישה בלתי מוגבלת, שיפור שיתופי, והעיקרון הבסיסי של שחזור (reproducibility). עבור דורות של חוקרים ומפתחים, הוא סימן מחויבות לידע משותף ולהתקדמות קולקטיבית. החל מכלי הסטטיסטיקה הבסיסיים הנמצאים בסביבות כמו R Studio, המעצימים אינספור ניתוחים בתחומים שונים, ועד לפלטפורמות סימולציה מתוחכמות כמו OpenFOAM, המשמשות לפענוח מורכבויות של דינמיקת נוזלים, תוכנות קוד פתוח היו זרז חיוני לחדשנות. הן האיצו את הגילוי בכך שאפשרו למדענים ברחבי העולם לבדוק, לאמת, לשנות ולהתבסס על עבודתם של אחרים, ובכך הבטיחו שניתן לשחזר ולאמת ממצאים – אבן היסוד של השיטה המדעית.

עם זאת, צל מרחף כעת מעל ייעוד מהימן זה, צל המוטל על ידי תחום הבינה המלאכותית המתפתח במהירות. כפי שהודגש בדיונים ביקורתיים אחרונים, כולל אלה שצוינו בפרסומים כמו Nature, התפתחה מגמה מדאיגה שבה מפתחי AI בולטים מאמצים את התווית ‘קוד פתוח’ עבור המודלים שלהם, בעודם מסתירים במקביל רכיבים חיוניים הדרושים לפתיחות אמיתית. פרקטיקה זו מסכנת את דילול משמעות המונח, והופכת אותו מסמל של שקיפות לסיסמה שיווקית שעלולה להטעות. סוגיית הליבה נעוצה לעתים קרובות באופי הייחודי של מערכות AI מודרניות. בניגוד לתוכנה מסורתית שבה קוד המקור הוא החשוב ביותר, הכוח וההתנהגות של מודלי AI גדולים קשורים באופן בלתי נפרד למאגרי הנתונים העצומים ששימשו לאימונם ולארכיטקטורות המורכבות המגדירות אותם. כאשר הגישה לנתוני אימון אלה או למידע מפורט על בניית המודל ומשקולותיו מוגבלת, הטענה להיות ‘קוד פתוח’ נשמעת חלולה, ללא קשר לשאלה אם חלק כלשהו מקוד המודל זמין. פער זה פוגע בלב הפילוסופיה של הקוד הפתוח, ויוצר אשליה של נגישות תוך הסתרת האלמנטים החיוניים ביותר לבחינה ושחזור עצמאיים.

הצורך ההכרחי בפתיחות אמיתית ב-AI מדעי

הסיכונים הכרוכים בשמירה על פתיחות אמיתית ב-AI, במיוחד בתחום המדעי, אינם יכולים להיות גבוהים יותר. המדע משגשג על היכולת לאמת תוצאות באופן עצמאי, להבין מתודולוגיות ולהתבסס על עבודה קודמת. כאשר הכלים עצמם – מודלי AI מתוחכמים יותר ויותר – הופכים לקופסאות שחורות, תהליך יסודי זה נמצא בסכנה. הסתמכות על מערכות AI שפעולתן הפנימית, הטיות נתוני האימון שלהן או מצבי הכשל הפוטנציאליים שלהן אינם שקופים, מכניסה רמה בלתי קבילה של אי-ודאות למחקר. כיצד יכול מדען לבסס בביטחון מסקנות על פלט של AI אם הגורמים המעצבים פלט זה אינם ידועים או בלתי ניתנים לאימות? כיצד יכולה הקהילה לסמוך על ממצאים שנוצרו על ידי מערכות קנייניות שלא ניתן לבקר או לשחזר באופן עצמאי?

ההצלחה ההיסטורית של תוכנות קוד פתוח במדע מספקת ניגוד חד ונקודת ייחוס ברורה. השקיפות הטבועה בפרויקטים מסורתיים של קוד פתוח טיפחה אמון ואפשרה ביקורת עמיתים חזקה. חוקרים יכלו לבחון את האלגוריתמים, להבין את מגבלותיהם ולהתאים אותם לצרכים ספציפיים. מערכת אקולוגית שיתופית זו האיצה את ההתקדמות בתחומים החל מביואינפורמטיקה ועד אסטרופיזיקה. הפוטנציאל של AI לחולל מהפכה בגילוי המדעי הוא עצום, ומבטיח לנתח מערכי נתונים מורכבים, ליצור השערות ולדמות תהליכים מורכבים בקנה מידה חסר תקדים. עם זאת, מימוש פוטנציאל זה תלוי בשמירה על אותם עקרונות של שקיפות ושחזור שתמיד עמדו בבסיס ההתקדמות המדעית. מעבר למערכות AI סגורות וקנייניות, אפילו כאלה המתחזות ל’פתוחות’, מאיים לפצל את קהילת המחקר, להפריע לשיתוף פעולה, ובסופו של דבר להאט את קצב הגילוי על ידי הקמת מחסומים להבנה ואימות. המאמץ המדעי דורש כלים שאינם רק חזקים, אלא גם שקופים ואמינים.

חידת הנתונים: אתגר השקיפות של AI

בלב הדיון על ‘קוד פתוח’ ב-AI נמצאת הסוגיה הקריטית של נתוני אימון. בניגוד לתוכנה קונבנציונלית המוגדרת בעיקר על ידי הקוד שלה, מודלי שפה גדולים (LLMs) ומערכות AI יסודיות אחרות מעוצבים באופן יסודי על ידי מאגרי הנתונים העצומים שהם קולטים במהלך פיתוחם. המאפיינים, ההטיות והמקור של נתונים אלה משפיעים עמוקות על התנהגות המודל, יכולותיו ומגבלותיו הפוטנציאליות. פתיחות אמיתית ב-AI, אם כן, מחייבת רמה של שקיפות בנוגע לנתונים אלה החורגת הרבה מעבר לשחרור פשוט של משקולות מודל או קוד היסק (inference).

מודלים רבים המשווקים כיום תחת המטריה של ‘קוד פתוח’ לוקים בחסר באופן בולט בחזית זו. קחו לדוגמה דוגמאות בולטות כמו סדרת Llama של Meta, Phi-2 של Microsoft, או Mixtral של Mistral AI. בעוד שחברות אלה משחררות רכיבים מסוימים, המאפשרים למפתחים להריץ או לכוונן את המודלים, הן מטילות לעתים קרובות הגבלות משמעותיות או מספקות פרטים מועטים על נתוני האימון הבסיסיים. מאגרי הנתונים המעורבים יכולים להיות עצומים, קנייניים, שנגרפו מהאינטרנט עם מעט אצירה (curation), או כפופים למגבלות רישוי, מה שהופך שחרור ציבורי מלא למאתגר או בלתי אפשרי. עם זאת, ללא מידע מקיף על:

  • מקורות הנתונים: מאיפה הגיע המידע? האם היה זה בעיקר טקסט, תמונות, קוד? מאילו אתרי אינטרנט, ספרים או מאגרי מידע?
  • אצירת נתונים: כיצד הנתונים סוננו, נוקו ועובדו? באילו קריטריונים השתמשו כדי לכלול או לא לכלול מידע?
  • מאפייני הנתונים: מהן ההטיות הידועות בתוך הנתונים (למשל, דמוגרפיות, תרבותיות, לשוניות)? איזו תקופת זמן הם מכסים?
  • שלבי עיבוד מקדים: אילו טרנספורמציות הוחלו על הנתונים לפני האימון?

…נהיה קשה ביותר לחוקרים עצמאיים להבין במלואם את התנהגות המודל, לשחזר את פיתוחו, או להעריך באופן ביקורתי את ההטיות הפוטנציאליות ונקודות הכשל שלו. חוסר שקיפות נתונים זה הוא הסיבה העיקרית לכך ששחרורים רבים של ‘קוד פתוח’ ב-AI כיום אינם עומדים ברוח, אם לא באות, של פתיחות אמיתית כפי שנקבעה בעולם התוכנה. בניגוד לכך, יוזמות כמו מודל OLMo של Allen Institute for AI או מאמצים מונעי-קהילה כגון CrystalCoder של LLM360 עשו מאמצים מרוכזים יותר לספק שקיפות רבה יותר בנוגע לנתונים ולמתודולוגיות האימון שלהם, ובכך קבעו סטנדרט גבוה יותר התואם יותר לערכי הקוד הפתוח המסורתיים.

'Openwashing': תיוג אסטרטגי או עקיפה רגולטורית?

הניכוס של התווית ‘קוד פתוח’ על ידי ישויות שאינן מאמצות במלואן את עקרונותיה העלה חששות לגבי ‘openwashing’. מונח זה מתאר את הנוהג של מינוף הקונוטציות החיוביות של פתיחות לטובת יחסי ציבור או יתרון אסטרטגי, מבלי להתחייב לרמת השקיפות והנגישות הנלווית. מדוע חברות עשויות לעסוק בכך? מספר גורמים יכולים להיות מעורבים. המותג ‘קוד פתוח’ נושא מוניטין חיובי משמעותי, המרמז על מחויבות לקהילה ולהתקדמות משותפת, דבר שיכול להיות אטרקטיבי למפתחים וללקוחות.

יתר על כן, כפי שצוין על ידי Nature ומשקיפים אחרים, נופים רגולטוריים עשויים לעודד התנהגות כזו באופן בלתי מכוון. חוק הבינה המלאכותית (AI Act) של האיחוד האירופי, שנוסחו הסופי הושלם בשנת 2024, כולל הוראות המטילות דרישות מחמירות יותר על מערכות AI בסיכון גבוה ולמטרות כלליות. עם זאת, הוא מכיל גם פטורים פוטנציאליים או דרישות קלות יותר עבור מודלי AI המשוחררים תחת רישיונות קוד פתוח. הדבר יוצר פרצה פוטנציאלית שבה חברות עשויות לתייג באופן אסטרטגי את המודלים שלהן כ’קוד פתוח’ – גם אם רכיבי מפתח כמו נתוני אימון נותרים מוגבלים – במיוחד כדי לנווט מכשולים רגולטוריים ולהימנע מחובות ציות מחמירות יותר.

פוטנציאל זה לארביטראז’ רגולטורי מדאיג מאוד. אם ‘openwashing’ מאפשר למערכות AI חזקות לעקוף פיקוח שנועד להבטיח בטיחות, הוגנות ואחריותיות, הוא מערער את עצם מטרת הרגולציה. הוא גם מציב את הקהילה המדעית במצב רעוע. חוקרים עשויים להימשך למערכות ‘פתוחות’ לכאורה אלה בשל נגישותן בהשוואה להצעות מסחריות סגורות לחלוטין, רק כדי למצוא את עצמם תלויים בכלים שהמתודולוגיות שלהם נותרות אטומות ובלתי ניתנות לאימות. תלות זו מסכנת את פגיעה ביושרה המדעית, ומקשה על הבטחת מחקר שניתן לשחזור, נטול הטיות, ובנוי על בסיס מוצק ומובן. הפיתוי של תווית מוכרת עלול להסוות הגבלות בסיסיות המעכבות חקירה מדעית אמיתית.

הגדרה מחדש של פתיחות לעידן ה-AI: מסגרת OSAID

מתוך הכרה באי-ההתאמה של הגדרות קוד פתוח מסורתיות לאתגרים הייחודיים שמציבה הבינה המלאכותית, יוזמת הקוד הפתוח (Open Source Initiative - OSI) – גוף ותיק המופקד על עקרונות הקוד הפתוח – יצאה למאמץ גלובלי חיוני. מטרתם היא לקבוע הגדרה ברורה וחזקה המותאמת במיוחד לבינה מלאכותית: הגדרת הבינה המלאכותית בקוד פתוח (Open Source AI Definition - OSAID 1.0). יוזמה זו מייצגת צעד חיוני לקראת החזרת משמעות המונח ‘פתוח’ בהקשר של AI וקביעת סטנדרטים חד-משמעיים לשקיפות ואחריותיות.

חידוש מרכזי במסגרת OSAID המוצעת הוא הרעיון של ‘מידע על נתונים’ (data information). מתוך הכרה בכך ששחרור מלא של מאגרי נתוני אימון עצומים עשוי להיות לעתים קרובות בלתי מעשי או אסור מבחינה משפטית בשל חששות לפרטיות, הגבלות זכויות יוצרים או קנה מידה עצום, OSAID מתמקדת בהטלת חובה על חשיפה מקיפה אודות הנתונים. הדבר כולל דרישות ממפתחים לספק מידע מפורט בנוגע ל:

  1. מקורות והרכב: זיהוי ברור של מקורות נתוני האימון.
  2. מאפיינים: תיעוד תכונות ידועות, מגבלות והטיות פוטנציאליות בתוך הנתונים.
  3. שיטות הכנה: הסבר על התהליכים ששימשו לניקוי, סינון והכנת הנתונים לאימון.

גם אם לא ניתן לשתף את הנתונים הגולמיים, אספקת מטא-נתונים אלה מאפשרת לחוקרים ולמבקרים לקבל תובנות קריטיות לגבי הגורמים שעיצבו את מודל ה-AI. היא מאפשרת הבנה טובה יותר של הטיות פוטנציאליות, מאפשרת הערכות סיכונים מושכלות יותר, ומספקת בסיס לניסיון שחזור או מחקרים השוואתיים.

מעבר למידע על נתונים, המאמץ של OSI, לצד תמיכה מארגונים כמו Open Future, מקדם מעבר רחב יותר למודל של ‘מאגר נתונים משותף’ (data-commons). חזון זה צופה עתיד שבו מאגרי נתונים חיוניים לאימון AI ייאצרו ויועמדו לרשות הציבור באופן פתוח ושוויוני יותר, תוך טיפוח מערכת אקולוגית שקופה ושיתופית יותר לפיתוח AI, במיוחד בקהילת המחקר. הגדרת OSAID שואפת לספק אמת מידה ברורה שבאמצעותה ניתן להעריך מערכות AI, תוך התקדמות מעבר לתוויות שטחיות להערכת מחויבות אמיתית לפתיחות.

אחריות קולקטיבית: הנעת שקיפות AI אמיתית

אתגר הבטחת הפתיחות האמיתית ב-AI אינו יכול להיפתר על ידי הגדרות בלבד; הוא דורש פעולה מתואמת מצד בעלי עניין מרובים. הקהילה המדעית, הן כמפתחת והן כמשתמשת עיקרית בכלי AI מתוחכמים, נושאת באחריות משמעותית. חוקרים חייבים לעסוק באופן פעיל ביוזמות כמו OSAID 1.0, להבין את עקרונותיה ולקדם את אימוצם. עליהם להעריך באופן ביקורתי את טענות ה’פתיחות’ של מודלי AI שהם שוקלים להשתמש בהם, תוך מתן עדיפות לאלה המציעים שקיפות רבה יותר בנוגע לנתוני אימון ומתודולוגיות, גם אם הדבר דורש התנגדות לפיתוי של מערכות נוחות לכאורה אך אטומות. הבעת הצורך בכלים של AI הניתנים לאימות ושחזור בפרסומים, כנסים ודיונים מוסדיים היא בעלת חשיבות עליונה.

לסוכנויות מימון ציבוריות ולגופים ממשלתיים יש גם תפקיד קריטי למלא. הם מפעילים השפעה ניכרת באמצעות דרישות מענקים ומדיניות רכש. מוסדות כמו המכונים הלאומיים לבריאות בארה”ב (US National Institutes of Health - NIH), שכבר מחייבים רישוי פתוח לנתוני מחקר שנוצרו באמצעות המימון שלהם, מספקים תקדים חשוב. באופן דומה, דוגמאות כמו הדרישה של איטליה מגופי מינהל ציבורי לתעדף תוכנות קוד פתוח מדגימות כיצד מדיניות יכולה להניע אימוץ. עקרונות אלה יכולים וצריכים להתרחב לתחום ה-AI. ממשלות וגופי מימון צריכים לשקול:

  • חיוב עמידה בתקני AI קוד פתוח חזקים (כמו OSAID) למחקר ופיתוח AI במימון ציבורי.
  • השקעה ביצירת מאגרי נתונים פתוחים באמת ואיכותיים – ‘מאגר נתונים משותף’ – המתאימים לאימון מודלי AI ממוקדי מחקר.
  • הבטחה שתקנות, כמו חוק ה-AI של האיחוד האירופי, מיושמות באופן שמונע ‘openwashing’ ומטיל אחריות על כל מערכות ה-AI החזקות, ללא קשר לטענות הרישוי שלהן.

בסופו של דבר, שמירה על עתיד ה-AI במחקר דורשת חזית מאוחדת. מדענים חייבים לדרוש שקיפות, מוסדות חייבים ליישם מדיניות שמתעדפת פתיחות אמיתית, ורגולטורים חייבים להבטיח שהתווית ‘קוד פתוח’ מסמלת מחויבות משמעותית לאחריותיות, ולא פתח מילוט נוח. ללא מאמצים קולקטיביים אלה, הפוטנציאל העצום של AI לגילוי מדעי מסתכן בפגיעה על ידי נוף הנשלט על ידי מערכות סגורות וקנייניות, מה שמערער באופן יסודי את האופי השיתופי והניתן לאימות של ההתקדמות המדעית עצמה. היושרה של המחקר העתידי תלויה על כף המאזניים.