סערה מתפתחת: זכויות יוצרים בעידן ה-AI
עולם הבינה המלאכותית, ובפרט מודלי השפה הגדולים (LLMs) המתוחכמים שפותחו על ידי ענקיות תעשייה כמו OpenAI, ניצב בפני סערה משפטית ואתית גוברת. בלב הסערה הזו ניצבת שאלה יסודית: איזה מידע מתדלק את המכונות העוצמתיות הללו, והאם זכויות היוצרים כובדו בתהליך? ההאשמות נערמות, ומצביעות על כך שכמויות עצומות של חומר המוגן בזכויות יוצרים – רומנים, מאמרים, קוד ועוד – ייתכן שנקלטו על ידי מודלים אלה במהלך שלב האימון שלהם, ללא ההרשאות או הפיצויים הנדרשים. זה אינו רק דיון אקדמי; הוא מסלים במהירות להתדיינות משפטית בעלת סיכון גבוה.
OpenAI מוצאת את עצמה מסובכת יותר ויותר בקרבות משפטיים שיזמו סופרים, מתכנתים ובעלי זכויות שונים. תובעים אלה טוענים כי הקניין הרוחני שלהם נוצל באופן בלתי הולם לבניית אותם מודלי AI המייצרים כותרות ומשנים תעשיות. טיעונם נשען על הטענה שחוק זכויות היוצרים הנוכחי אינו מתיר במפורש שימוש סיטונאי ביצירות מוגנות כחומר גלם לאימון מערכות AI מסחריות. OpenAI, בתגובה, הסתמכה בעקביות על דוקטרינת ה’שימוש הוגן’ (‘fair use’), עיקרון משפטי מורכב המאפשר שימוש מוגבל בחומר המוגן בזכויות יוצרים ללא רשות בנסיבות ספציפיות. עם זאת, תחולת ה’שימוש הוגן’ על ההיקף והאופי חסרי התקדים של אימון AI נותרה אזור אפור שנוי במחלוקת עזה, המכין את הקרקע לתקדימים משפטיים מכוננים. המתח המרכזי סובב סביב השאלה האם הפיכת יצירות המוגנות בזכויות יוצרים לדפוסים סטטיסטיים בתוך מודל מהווה ‘שימוש טרנספורמטיבי’ – מרכיב מרכזי ב’שימוש הוגן’ – או פשוט שכפול בלתי מורשה בקנה מידה עצום. תוצאות התביעות הללו עשויות לעצב באופן עמוק את מסלול ההתפתחות העתידי של AI, ועלולות להטיל מגבלות או עלויות משמעותיות על יוצרי מודלים.
הצצה לתוך הקופסה השחורה: שיטה חדשה לאיתור שינון
מה שמוסיף שמן למדורה הלוהטת הזו הוא מחקר שפורסם לאחרונה על ידי צוות חוקרים משותף ממוסדות בולטים, כולל University of Washington, University of Copenhagen ו-Stanford University. עבודתם מציגה טכניקה חדשנית שתוכננה במיוחד לאיתור מקרים שבהם מודלי AI, אפילו אלה הנגישים רק דרך ממשקי תכנות יישומים (APIs) מגבילים כמו אלה של OpenAI, נראים כאילו ‘שיננו’ חלקים ספציפיים מנתוני האימון שלהם. זוהי פריצת דרך קריטית מכיוון שגישה לפעולה הפנימית או למאגרי הנתונים המדויקים של מודלים מסחריים כמו GPT-4 היא בדרך כלל בלתי אפשרית לחוקרים חיצוניים.
הבנת אופן הפעולה של מודלים אלה היא המפתח לתפיסת משמעות המחקר. בליבתם, LLMs הם מנועי חיזוי מתוחכמים להפליא. הם מאומנים על כמויות עצומות באמת של טקסט וקוד, ולומדים קשרים סטטיסטיים מורכבים בין מילים, ביטויים ומושגים. תהליך למידה זה מאפשר להם ליצור טקסט קוהרנטי, לתרגם שפות, לכתוב סוגים שונים של תוכן יצירתי ולענות על שאלות בצורה אינפורמטיבית. בעוד שהמטרה היא שהמודל יכליל דפוסים במקום פשוט לאחסן מידע מילה במילה, ההיקף העצום של נתוני האימון הופך מידה מסוימת של שינון לכמעט בלתי נמנעת. חשבו על זה כמו סטודנט הלומד אינספור ספרי לימוד; בעוד שהוא שואף להבין מושגים, הוא עלול לשנן בשוגג משפטים או הגדרות ספציפיות, במיוחד כאלה שהם ייחודיים. תצפיות קודמות כבר הראו מודלים ליצירת תמונות המשחזרים אלמנטים מזוהים מסרטים שעליהם אומנו, ומודלי שפה המייצרים טקסט דומה באופן בולט, או מועתק ישירות, ממקורות כמו כתבות חדשותיות. תופעה זו מעלה חששות רציניים לגבי פלגיאט והמקוריות האמיתית של תוכן שנוצר על ידי AI.
המתודולוגיה שהוצעה על ידי החוקרים היא חכמה וחושפנית כאחד. היא מתמקדת בזיהוי ושימוש במה שהם מכנים ‘מילים בעלות הפתעה גבוהה’ (‘high-surprisal’ words). אלו הן מילים שנראות יוצאות דופן או בלתי צפויות מבחינה סטטיסטית בהקשר הספציפי של משפט או קטע. קחו למשל את הביטוי: ‘המלח הקדמון ניווט לאור הזוהר הקלוש של הסקסטנט.’ המילה ‘סקסטנט’ עשויה להיחשב כבעלת הפתעה גבוהה מכיוון שבקורפוס כללי של טקסט, מילים כמו ‘כוכבים’, ‘ירח’ או ‘מצפן’ עשויות להיות סבירות יותר מבחינה סטטיסטית בהקשר זה. החוקרים שיערו שאם מודל אכן שינן קטע טקסט ספציפי במהלך האימון, הוא יהיה טוב במיוחד בחיזוי המילים הייחודיות הללו, בעלות ההפתעה הגבוהה, אם הן יוסרו מהקטע.
כדי לבדוק השערה זו, צוות המחקר בחן באופן שיטתי כמה מהמודלים המובילים של OpenAI, כולל ה-GPT-4 העוצמתי וקודמו, GPT-3.5. הם לקחו קטעי טקסט ממקורות ידועים, כגון רומנים פופולריים ומאמרים מ-The New York Times. באופן מכריע, הם מיסכו או הסירו את המילים שזוהו כבעלות הפתעה גבוהה מקטעים אלה. לאחר מכן, המודלים התבקשו למלא את החסר – למעשה, ‘לנחש’ את המילים החסרות, הבלתי סבירות מבחינה סטטיסטית. ההיגיון המרכזי של המחקר משכנע: אם מודל חוזה באופן עקבי ומדויק את המילים בעלות ההפתעה הגבוהה הללו, הדבר מרמז بقوة שהמודל לא רק למד דפוסי שפה כלליים אלא למעשה שמר זיכרון ספציפי של רצף הטקסט המדויק הזה מנתוני האימון שלו. סיכוי אקראי או הבנת שפה כללית בלבד לא היו צפויים להפיק ניחושים מדויקים כאלה למילים נדירות בהקשרים ספציפיים.
הממצאים: הדים של טקסט המוגן בזכויות יוצרים בפלט ה-AI
התוצאות שהתקבלו מבדיקות קפדניות אלו מספקות ראיות משכנעות, אם כי ראשוניות, התומכות בטענות להפרת זכויות יוצרים. על פי ממצאי המחקר שפורסמו, GPT-4, המודל המתקדם ביותר של OpenAI הזמין לציבור בזמן המחקר, הראה סימנים משמעותיים לכך ששינן חלקים מילה במילה מספרי סיפורת פופולריים. זה כלל טקסטים שנמצאו במאגר נתונים ספציפי המכונה BookMIA, המורכב מדגימות שנלקחו מספרים אלקטרוניים המוגנים בזכויות יוצרים – מאגר נתונים המעורב לעתים קרובות בדיונים על מקורות אימון שעלולים להפר זכויות. המודל לא רק נזכר בנושאים כלליים או סגנונות; הוא שחזר במדויק רצפי טקסט המכילים את אותן מילים ייחודיות, בעלות הפתעה גבוהה, מה שמעיד על רמת שימור עמוקה יותר מאשר הכללת דפוסים פשוטה.
יתר על כן, החקירה גילתה ש-GPT-4 הראה גם עדויות לשינון קטעים ממאמרים של ה-New York Times. עם זאת, החוקרים ציינו ששיעור השינון לכאורה עבור כתבות חדשותיות היה נמוך יחסית לזה שנצפה עבור ספרי הסיפורת. הבדל זה יכול להיות מיוחס לגורמים שונים, כגון התדירות או ההצגה של סוגי טקסט שונים אלה במאגר הנתונים המקורי של האימון, או אולי שינויים באופן שבו המודל עיבד פרוזה עיתונאית לעומת פרוזה נרטיבית. ללא קשר לשיעור המדויק, העובדה שהשינון התרחש על פני סוגים שונים של תוכן המוגן בזכויות יוצרים – הן יצירות ספרותיות והן קטעים עיתונאיים – מחזקת את הטיעון שהתופעה אינה מבודדת לז’אנר או מקור יחיד.
לממצאים אלה משקל משמעותי בדיונים המשפטיים והאתיים המתמשכים. אם מודלים כמו GPT-4 אכן מסוגלים לפלוט קטעים ספציפיים המוגנים בזכויות יוצרים שעליהם אומנו, הדבר מסבך את הגנת ה’שימוש הוגן’ של OpenAI. ‘שימוש הוגן’ מעדיף לעתים קרובות שימושים המשנים את היצירה המקורית; שכפול מילה במילה, גם אם אינו מכוון או הסתברותי, נוטה להתרחק מטרנספורמציה ולכיוון העתקה פשוטה. ראיות אלה עשויות לשמש את התובעים בתביעות זכויות יוצרים כדי לטעון ששיטות האימון של OpenAI הביאו ליצירת יצירות נגזרות מפרות או הקלו על הפרה ישירה על ידי הפלטים של המודל. זה מדגיש את הקשר המוחשי בין הנתונים ששימשו לאימון לבין הפלטים הספציפיים שנוצרו על ידי ה-AI, מה שהופך את המושג המופשט של ‘למידת דפוסים’ להרגיש קרוב הרבה יותר לשכפול קונקרטי.
הצורך באמון ושקיפות בפיתוח AI
Abhilasha Ravichander, דוקטורנטית ב-University of Washington ואחת ממחברות המחקר, הדגישה את ההשלכות הרחבות יותר של מחקרן. היא ציינה כי ממצאים אלה שופכים אור חיוני על ‘הנתונים השנויים במחלוקת’ הפוטנציאליים שעשויים להוות את הבסיס למודלי AI עכשוויים רבים. היכולת לזהות תוכן שנשנן מספקת חלון, קטן ככל שיהיה, למאגרי הנתונים הבלתי שקופים בדרך כלל המשמשים חברות כמו OpenAI.
Ravichander ביטאה סנטימנט גובר בקהילת חוקרי ה-AI ובקרב הציבור: ‘כדי שיהיו לנו מודלי שפה גדולים אמינים, אנו זקוקים למודלים שנוכל לבחון, לבקר ולבדוק מדעית.’ אמירה זו מדגישה אתגר קריטי העומד בפני תעשיית ה-AI. ככל שמודלים אלה משתלבים יותר בהיבטים שונים של החברה – מיצירת כתבות חדשותיות וכתיבת קוד ועד לסיוע באבחון רפואי וניתוח פיננסי – הצורך באמון ובאחריות הופך לחיוני ביותר. משתמשים, רגולטורים והציבור זקוקים להבטחה שמערכות אלה פועלות בהגינות, באמינות ובאופן אתי. אופי ה’קופסה השחורה’ של רבים מה-LLMs הנוכחיים, שבו אפילו יוצריהם עשויים שלא להבין במלואם כל ניואנס בפעולתם הפנימית או את המקור המדויק של פלטים ספציפיים, מעכב את ביסוס האמון הזה.
המתודולוגיה המוצעת במחקר מייצגת יותר מסתם טכניקה לאיתור שינון של זכויות יוצרים; היא משמשת ככלי פוטנציאלי לביקורת AI (AI auditing) רחבה יותר. היכולת לבחון מודלים, אפילו כאלה הנגישים רק באמצעות APIs, מאפשרת אימות וניתוח עצמאיים. Ravichander הדגישה עוד את ה**’צורך בשקיפות נתונים גדולה יותר בכל המערכת האקולוגית.’** מבלי לדעת על אילו נתונים מודלים אלה מאומנים, קשה להפליא להעריך הטיות פוטנציאליות, לזהות פגיעויות אבטחה, להבין את מקור הפלטים המזיקים או הלא מדויקים, או, כפי שמחקר זה מדגיש, לקבוע את היקף ההפרה הפוטנציאלית של זכויות יוצרים. הקריאה לשקיפות אינה רק אקדמית; היא דרישה בסיסית לבניית עתיד AI אחראי ובר קיימא. הדבר כרוך בפשרות מורכבות בין הגנה על מידע קנייני וקניין רוחני (כולל המודלים עצמם) לבין הבטחת אחריות ציבורית ובטיחות. פיתוח כלי ביקורת ומסגרות חזקים, לצד סטנדרטים ברורים יותר לגילוי נתונים, הופך לקריטי יותר ויותר ככל שה-AI ממשיך בהתקדמותו המהירה.
עמדת OpenAI והדרך הלא סלולה קדימה
מול לחץ גובר מצד יוצרים ומחוקקים, OpenAI דגלה בעקביות בסביבה משפטית ורגולטורית המאפשרת שימוש נרחב בחומרים המוגנים בזכויות יוצרים לאימון מודלי AI. החברה טוענת שגמישות כזו חיונית לחדשנות וכדי שארה’ב תשמור על יתרון תחרותי במירוץ ה-AI העולמי. מאמצי השתדלנות שלה התמקדו בשכנוע ממשלות ברחבי העולם לפרש או לקודד חוקי זכויות יוצרים קיימים, במיוחד את מושג ה’שימוש הוגן’ בארצות הברית, באופן המיטיב עם מפתחי AI. הם טוענים שאימון מודלים על מאגרי נתונים מגוונים, כולל יצירות המוגנות בזכויות יוצרים, הוא שימוש טרנספורמטיבי הנחוץ ליצירת מערכות AI עוצמתיות ומועילות.
עם זאת, מתוך הכרה בחששות הגוברים, OpenAI נקטה גם בכמה צעדים כדי לטפל בנושא, אם כי צעדים שמבקרים רואים בהם לעתים קרובות כבלתי מספקים. החברה חתמה על הסכמי רישוי תוכן (content licensing agreements) עם מוציאים לאור ויוצרי תוכן מסוימים, והבטיחה אישור מפורש לשימוש בחומר שלהם. עסקאות אלה, על אף שהן משמעותיות, מייצגות רק חלק קטן מהנתונים ששימשו ככל הנראה לאימון מודלים כמו GPT-4. יתר על כן, OpenAI יישמה מנגנוני ביטול הסכמה (opt-out mechanisms). אלה מאפשרים לבעלי זכויות יוצרים לבקש רשמית שהתוכן שלהם לא ישמש למטרות אימון AI עתידיות. בעוד שזה נראה כצעד לקראת כיבוד זכויות היוצרים, היעילות והמעשיות של מערכות ביטול הסכמה אלה שנויות במחלוקת. הן מטילות את הנטל על יוצרים בודדים לגלות שעבודתם עשויה לשמש ולאחר מכן לנווט בהליכים הספציפיים של OpenAI כדי לבטל את הסכמתם. יתר על כן, מנגנונים אלה בדרך כלל אינם מתייחסים לשימוש בתוכן במודלים שכבר אומנו.
המצב הנוכחי משקף מתח יסודי: רצונן של חברות AI למנף את היקום הדיגיטלי העצום של המידע לחדשנות מול זכותם של יוצרים לשלוט ביצירותיהם המקוריות ולהפיק מהן תועלת. המחקר המדגים שינון מוסיף שכבה נוספת של מורכבות, ומצביע על כך שהקו בין ‘למידה מ-‘ לבין ‘העתקת’ נתונים מטושטש יותר ואולי נחצה בתדירות גבוהה יותר ממה שהודו בעבר מפתחי המודלים. הדרך קדימה נותרה לא ברורה. היא עשויה לכלול חקיקה חדשה המתייחסת ספציפית לנתוני אימון AI, פסיקות בית משפט מכוננות המפרשות את חוק זכויות היוצרים הקיים בהקשר חדש זה, פיתוח של שיטות עבודה מומלצות ומסגרות רישוי כלל-תעשייתיות, או פתרונות טכנולוגיים כמו מעקב משופר אחר מקור הנתונים או טכניקות להפחתת שינון במודלים. מה שנראה ברור הוא שהדיון על AI וזכויות יוצרים רחוק מלהסתיים; למעשה, ייתכן שהוא רק מתחיל, עם השלכות עמוקות הן על עתיד הבינה המלאכותית והן על הכלכלה היצירתית. הממצאים בנוגע לשינון משמשים תזכורת חדה לכך שלנתונים הדיגיטליים המתדלקים את הכלים העוצמתיים הללו יש מקורות, בעלים וזכויות שלא ניתן להתעלם מהם.