ההתקדמות הבלתי פוסקת בפיתוח בינה מלאכותית, בהובלת ענקיות כמו OpenAI, מתנגשת לעיתים קרובות בעקרונות ותיקים של קניין רוחני ובעלות על נתונים. התנגשות זו הציתה שוב מחלוקת, עם טענות חדשות שעולות כי מודל הדגל החדש ביותר של OpenAI, GPT-4o, אומן אולי באמצעות חומרים המוגנים בזכויות יוצרים הנמצאים מאחורי חומות תשלום, פוטנציאלית מבלי להבטיח את ההרשאות הנדרשות. טענות אלו מגיעות מקבוצת פיקוח חדשה שהוקמה, ה-AI Disclosures Project, ומוסיפות רובד נוסף של מורכבות לוויכוח הסבוך ממילא סביב המקורות האתיים של נתונים לאימון מערכות AI מתוחכמות.
נביחת כלב השמירה: טענות מ-AI Disclosures Project
ה-AI Disclosures Project, שהושק בשנת 2024, מציג את עצמו כישות ללא מטרות רווח המוקדשת לבחינת הפרקטיקות הלא שקופות לעיתים קרובות בתעשיית ה-AI. בין מייסדיו נמנים דמויות בולטות כמו יזם המדיה Tim O’Reilly, מייסד O’Reilly Media, מוציאה לאור בולטת של ספרים טכניים, והכלכלן Ilan Strauss. קשר זה ל-O’Reilly Media רלוונטי במיוחד, שכן דוח הפצצה הראשוני של הפרויקט מתמקד ספציפית בנוכחות לכאורה של תוכן ספרי O’Reilly הנמצא מאחורי חומת תשלום בתוך מערך הנתונים לאימון של GPT-4o.
הטענה המרכזית במחקרם היא פרובוקטיבית: למרות היעדר הסכם רישוי ידוע כלשהו בין OpenAI ל-O’Reilly Media, מודל GPT-4o מפגין רמת היכרות גבוהה באופן ניכר עם תוכן שמקורו ישירות בספרים המוגנים בזכויות יוצרים של O’Reilly. היכרות זו, טוען הדוח, מרמזת بقوة שחומרים אלו שמאחורי חומת תשלום שולבו בקורפוס הנתונים העצום ששימש לבניית יכולות המודל. המחקר מדגיש הבדל משמעותי בהשוואה למודלים ישנים יותר של OpenAI, במיוחד GPT-3.5 Turbo, ומרמז על שינוי או הרחבה פוטנציאליים בפרקטיקות רכישת הנתונים שהובילו לפיתוח GPT-4o.
ההשלכות משמעותיות. אם תוכן קנייני, בתשלום, מוזן למודלי AI ללא אישור או פיצוי, הדבר מעלה שאלות יסוד לגבי חוק זכויות היוצרים בעידן ה-AI הגנרטיבי. מוציאים לאור וסופרים מסתמכים על מודלים של מנוי או רכישה, המבוססים על בלעדיות התוכן שלהם. השימוש לכאורה בחומר זה לאימון יכול להיתפס כערעור על מודלים עסקיים אלה, ועלול להפחית את ערכו של התוכן עצמו שדורש השקעה משמעותית ליצירתו. האשמה ספציפית זו חורגת מגרידת אתרי אינטרנט זמינים לציבור, ונכנסת לתחום הגישה לתוכן המיועד במפורש ללקוחות משלמים.
הצצה לתוך הקופסה השחורה: מתקפת הסקת החברות (Membership Inference Attack)
כדי לבסס את טענותיהם, החוקרים ב-AI Disclosures Project השתמשו בטכניקה מתוחכמת המכונה ‘מתקפת הסקת חברות’ (membership inference attack), תוך שימוש ספציפי בשיטה שהם מכנים DE-COP. הרעיון המרכזי מאחורי גישה זו הוא לבדוק האם מודל AI ‘שינן’ או לפחות פיתח היכרות חזקה עם קטעי טקסט ספציפיים. במהותה, המתקפה בוחנת את המודל כדי לראות אם הוא יכול להבחין באופן מהימן בין קטעי טקסט מקוריים (במקרה זה, מספרי O’Reilly) לבין גרסאות מנוסחות מחדש (paraphrased) של אותם קטעים, שנוצרו על ידי AI אחר.
ההיגיון הבסיסי הוא שאם מודל מראה באופן עקבי יכולת גבוהה יותר מאשר אקראית לזהות את הטקסט המקורי שנכתב על ידי אדם בהשוואה לניסוח מחדש קרוב, הדבר מרמז שהמודל נתקל בטקסט המקורי הזה בעבר – ככל הנראה במהלך שלב האימון שלו. זה דומה לבדיקה אם מישהו מזהה תצלום ספציפי ופחות מוכר שהוא טוען שמעולם לא ראה; זיהוי עקבי מרמז על חשיפה קודמת.
היקף הבדיקה של ה-AI Disclosures Project היה ניכר. הם השתמשו ב-13,962 קטעי פסקה נפרדים שנלקחו מ-34 ספרים שונים של O’Reilly Media. קטעים אלו ייצגו את סוג התוכן המיוחד ובעל הערך הגבוה שנמצא בדרך כלל מאחורי חומת התשלום של המוציא לאור. המחקר מדד אז את הביצועים של GPT-4o ושל קודמו, GPT-3.5 Turbo, במשימת ההבחנה הזו.
התוצאות, כפי שהוצגו בדוח, היו מרשימות. GPT-4o הפגין יכולת מוגברת משמעותית לזהות את תוכן O’Reilly שמאחורי חומת התשלום. ביצועיו כומתו באמצעות ציון AUROC (Area Under the Receiver Operating Characteristic curve), מדד נפוץ להערכת ביצועים של מסווגים בינאריים. GPT-4o השיג ציון AUROC של 82%. לעומת זאת, GPT-3.5 Turbo קיבל ציון מעט מעל 50%, שהוא למעשה שווה ערך לניחוש אקראי – מה שמצביע על זיהוי ספציפי מועט או לא קיים כלל של החומר שנבדק. הבדל חד זה, טוען הדוח, מספק ראיות משכנעות, אם כי עקיפות, לכך שהתוכן שמאחורי חומת התשלום אכן היה חלק מתזונת האימון של GPT-4o. ציון של 82% מרמז על אות חזק, הרבה מעבר למה שניתן היה לצפות במקרה או מידע כללי.
הסתייגויות הכרחיות ושאלות פתוחות
בעוד שהממצאים מציגים נרטיב משכנע, מחברי המחקר המשותפים, כולל חוקר ה-AI Sruly Rosenblat, מכירים באופן ראוי לשבח במגבלות פוטנציאליות הטמונות במתודולוגיה שלהם ובאופי המורכב של אימון AI. הסתייגות משמעותית אחת שהם מעלים היא האפשרות של הזנת נתונים עקיפה. ייתכן, הם מציינים, שמשתמשי ChatGPT (הממשק הפופולרי של OpenAI) העתיקו והדביקו קטעים מספרי O’Reilly שמאחורי חומת תשלום ישירות לממשק הצ’אט למטרות שונות, כגון שאילת שאלות על הטקסט או בקשת סיכומים. אם זה קרה בתדירות מספקת, המודל יכול היה ללמוד את התוכן בעקיפין דרך אינטראקציות עם משתמשים, ולא דרך הכללה ישירה במערך הנתונים הראשוני לאימון. הפרדה בין חשיפה ישירה באימון לבין למידה עקיפה באמצעות הנחיות משתמשים נותרה אתגר משמעותי בפורנזיקה של AI.
יתר על כן, היקף המחקר לא התרחב לאיטרציות המודלים העדכניות ביותר או המיוחדות של OpenAI שאולי פותחו או שוחררו במקביל או לאחר מחזור האימון העיקרי של GPT-4o. מודלים שעשויים לכלול את GPT-4.5 (אם הוא קיים תחת מינוח ספציפי זה או רמת יכולת זו) ומודלים ממוקדי הסקה כמו o3-mini ו-o1 לא נבדקו באותן מתקפות הסקת חברות. זה משאיר פתוחה את השאלה האם פרקטיקות המקור של נתונים אולי התפתחו עוד יותר, או אם מודלים חדשים אלה מפגינים דפוסים דומים של היכרות עם תוכן שמאחורי חומת תשלום. מחזורי האיטרציה המהירים בפיתוח AI פירושם שכל ניתוח נקודתי עלול להפוך למיושן מעט כמעט מיד.
מגבלות אלו אינן מבטלות בהכרח את ממצאי הליבה של המחקר, אך הן מוסיפות שכבות חיוניות של ניואנסים. הוכחה חד משמעית של מה נמצא בתוך טרה-בייטים של נתונים המשמשים לאימון מודל יסוד היא קשה לשמצה. מתקפות הסקת חברות מציעות ראיות הסתברותיות, המרמזות על סבירות במקום להציע ודאות מוחלטת. OpenAI, כמו מעבדות AI אחרות, שומרת על הרכב נתוני האימון שלה בקפדנות, תוך ציון חששות קנייניים ורגישויות תחרותיות.
סכסוך רחב יותר: קרבות זכויות יוצרים בזירת ה-AI
ההאשמות שהועלו על ידי ה-AI Disclosures Project אינן קיימות בחלל ריק. הן מייצגות את ההתנגשות האחרונה בסכסוך רחב הרבה יותר ומתמשך בין מפתחי AI ליוצרים על השימוש בחומר המוגן בזכויות יוצרים למטרות אימון. OpenAI, יחד עם שחקנים בולטים אחרים כמו Google, Meta ו-Microsoft, מוצאת את עצמה מסובכת במספר תביעות משפטיות רמות פרופיל. אתגרים משפטיים אלה, שהוגשו על ידי סופרים, אמנים, ארגוני חדשות ובעלי זכויות אחרים, טוענים בדרך כלל להפרת זכויות יוצרים נרחבת הנובעת מגרידה והזנה לא מורשית של כמויות עצומות של טקסט ותמונות מהאינטרנט לאימון מודלי AI גנרטיביים.
הגנת הליבה המועלית לעיתים קרובות על ידי חברות AI נשענת על דוקטרינת השימוש ההוגן (fair use) (בארצות הברית) או חריגים דומים בתחומי שיפוט אחרים. הן טוענות כי שימוש ביצירות המוגנות בזכויות יוצרים לאימון מהווה שימוש ‘טרנספורמטיבי’ – מודלי ה-AI אינם משכפלים רק את היצירות המקוריות אלא משתמשים בנתונים כדי ללמוד דפוסים, סגנונות ומידע ליצירת פלטים חדשים לחלוטין. תחת פרשנות זו, תהליך האימון עצמו, שמטרתו ליצור כלי חדש ועוצמתי, צריך להיות מותר מבלי לדרוש רישיונות לכל פיסת נתונים שמוזנת.
עם זאת, בעלי זכויות חולקים בתוקף על השקפה זו. הם טוענים כי היקף ההעתקה המעורב, האופי המסחרי של מוצרי ה-AI הנבנים, והפוטנציאל של פלטי AI להתחרות ישירות ביצירות המקוריות ולהחליפן, מכריעים בכבדות נגד קביעה של שימוש הוגן. הטענה היא שחברות AI בונות מיזמים בשווי מיליארדי דולרים על גבם של יצירה יצירתית מבלי לפצות את היוצרים.
על רקע משפטי זה, OpenAI פעלה באופן יזום כדי למתן חלק מהסיכונים על ידי חתימה על עסקאות רישוי עם ספקי תוכן שונים. הוכרזו הסכמים עם מוציאים לאור גדולים של חדשות (כמו Associated Press ו-Axel Springer), פלטפורמות מדיה חברתית (כמו Reddit), וספריות מדיה למלאי (כמו Shutterstock). עסקאות אלו מספקות ל-OpenAI גישה לגיטימית למערכי נתונים ספציפיים בתמורה לתשלום, מה שעשוי להפחית את הסתמכותה על נתונים שנגרדו מהאינטרנט ועלולים להפר זכויות. החברה גם דיווחה על שכירת עיתונאים, שהוטל עליהם לסייע בשיפור וחידוד האיכות והאמינות של פלטי המודלים שלה, מה שמרמז על מודעות לצורך בקלט איכותי, פוטנציאלית מאוצר.
אפקט האדווה: חששות לגבי המערכת האקולוגית של התוכן
הדוח של ה-AI Disclosures Project מרחיב את חששותיו מעבר להשלכות המשפטיות המיידיות על OpenAI. הוא ממסגר את הנושא כאיום מערכתי שעלול להשפיע לרעה על הבריאות והמגוון של כל המערכת האקולוגית של התוכן הדיגיטלי. המחקר מציג לולאת משוב שעלולה להזיק: אם חברות AI יכולות להשתמש בחופשיות בתוכן איכותי שנוצר באופן מקצועי (כולל חומר מאחורי חומת תשלום) מבלי לפצות את היוצרים, הדבר שוחק את הכדאיות הכלכלית של הפקת תוכן כזה מלכתחילה.
יצירת תוכן מקצועי – בין אם זה עיתונות חוקרת, מדריכים טכניים מעמיקים, כתיבת סיפורת או מחקר אקדמי – דורשת לעיתים קרובות זמן, מומחיות והשקעה כספית משמעותית. חומות תשלום ומודלים של מנוי הם לעיתים קרובות מנגנונים חיוניים למימון עבודה זו. אם זרמי ההכנסות התומכים במאמצים אלה מצטמצמים מכיוון שהתוכן משמש למעשה לאימון מערכות AI מתחרות ללא תמורה, התמריץ ליצור תוכן איכותי ומגוון עלול לרדת. הדבר עלול להוביל לציבור פחות מיודע, לצמצום במשאבי ידע מיוחדים, ופוטנציאלית לאינטרנט הנשלט על ידי תוכן באיכות נמוכה יותר או תוכן שנוצר על ידי AI חסר מומחיות ואימות אנושיים.
כתוצאה מכך, ה-AI Disclosures Project תומך בתוקף בשקיפות ואחריות רבה יותר מצד חברות AI בנוגע לפרקטיקות נתוני האימון שלהן. הם קוראים ליישום מדיניות חזקה ומסגרות רגולטוריות פוטנציאליות שיבטיחו שיוצרי תוכן יפוצו באופן הוגן כאשר עבודתם תורמת לפיתוח מודלי AI מסחריים. הדבר מהדהד קריאות רחבות יותר מצד קבוצות יוצרים ברחבי העולם המבקשות מנגנונים – בין אם באמצעות הסכמי רישוי, מערכות תמלוגים או מיקוח קולקטיבי – להבטיח שהם יקבלו חלק מהערך שנוצר על ידי מערכות AI שאומנו על הקניין הרוחני שלהם. הוויכוח מתמקד במציאת שיווי משקל בר קיימא שבו חדשנות AI יכולה לפרוח לצד מערכת אקולוגית משגשגת ליצירתיות ויצירת ידע אנושיים. פתרון הקרבות המשפטיים המתמשכים והפוטנציאל לחקיקה חדשה או לתקנים תעשייתיים יהיו קריטיים בעיצוב איזון עתידי זה. השאלה כיצד לעקוב אחר מקור הנתונים ולייחס ערך במודלי AI מסיביים ומורכבים נותרה משוכה טכנית ואתית משמעותית.