בינה מלאכותית ממקורות אתיים: חלום שהתגשם

המשימה ההרקוויאנית של מקורות נתונים אתיים

המסע לנווה המדבר האתי הזה של בינה מלאכותית היה רחוק מלהיות טיול בפארק. כפי שהחוקרים מודים בפה מלא, צוואר הבקבוק האמיתי לא היה כוח חישובי, אלא מאמץ אנושי גרידא. תהליך ההרכבה של Common Pile v0.1, מערך נתונים עצום העולה על שמונה טרה-בייטים, דרש ניקוי ידני קפדני ועיצוב מחדש כדי להפוך אותו למתאים לאימון בינה מלאכותית. תארו לעצמכם מסננת בערימות כמעט אינסופיות של מידע דיגיטלי, בחיפוש אחר כל סוג של שגיאה שעלולה לשחית את מערך הנתונים.

אבל האתגר האמיתי טמון בבדיקה הכפולה הקפדנית של סטטוס זכויות היוצרים. בתחום הכאוטי של האינטרנט, רישוי משנה משתולל הוא הנורמה, והופך את אימות זכויות היוצרים למשימה סיזיפית.

"זה לא משהו שבו אתה יכול פשוט להגדיל את המשאבים שיש לך", אמרה סטלה בידרמן, שותפה למחקר, ל-WaPo. "אנחנו משתמשים בכלים אוטומטיים, אבל כל הדברים שלנו סומנו ידנית בסופו של דבר ונבדקו על ידי אנשים. וזה פשוט ממש קשה."

תהליך סינון טרה-בייטים של נתונים בחיפוש אחר בעיות זכויות יוצרים אינו קל. החוקרים לא יכלו פשוט להוסיף שבבי מחשב נוספים לתהליך ולקוות לפתרון. במקום זאת, הם נאלצו לאמת ולסמן ידנית את כל הנתונים.

ניצחון על פני מצוקה: לידתה של בינה מלאכותית אתית

למרות המכשולים המפחידים, בידרמן והצוות המסור שלה התמידו. לאחר השלמת המשימה המפרכת של יצירת Common Pile, הם שחררו את הפוטנציאל שלה כדי לאמן מודל שפה גדול (LLM) של שבעה מיליארד פרמטרים. הבינה המלאכותית שהתקבלה לא רק החזיקה מעמד מול מדדי תעשייה כמו Meta’s Llama 1 ו-Llama 2 7B, אלא גם עשתה זאת במצפון אתי נקי.

אבל נוף המחקר של הבינה המלאכותית מתפתח מהר כמו כדור במהירות. חשוב לזכור שמטא שחררה את לאמה 1 ולאמה 2 לפני כמה שנים, נצח יחסי בעולם הבינה המלאכותית.

העובדה שצוות רזה ונחוש הצליח להשיג תוצאות דומות עם משאבים מוגבלים היא עדות לתבונתם. ממצא מעורר השראה במיוחד היה אוצר של למעלה מ-130,000 ספרי שפה אנגלית בספריית הקונגרס שקודם לכן התעלמו ממנו.

המים הבוציים של בינה מלאכותית וזכויות יוצרים

זכויות יוצרים נותרו נושא אתי ומשפטי בעייתי בעידן הבינה המלאכותית. ענקיות תעשייה כמו OpenAI וגוגל צברו מערכי נתונים עצומים על ידי זלילת כל מה שבדרך, החל ממאמרי חדשות ועד לפוסטים אישיים במדיה חברתית. נוהג זה עורר ביקורת מכל הצדדים. מחברים אף הגישו תביעות משפטיות, בטענה לשימוש בלתי חוקי בספרים מוגנים בזכויות יוצרים לאימון מודלים של בינה מלאכותית.

תעשיית הטכנולוגיה טוענת ששיטות כאלה מהוות שימוש הוגן, וטוענת שפיתוח בינה מלאכותית יהיה "בלתי אפשרי" ללא גישה בלתי מוגבלת לנתונים. המחקר האחרון הזה מציג נזיפה צורבת לנרטיב הזה של עמק הסיליקון.

בעוד שהישג זה מסמן צעד משמעותי קדימה, הוא אינו מבטל את כל השיקולים האתיים. מודלים גדולים של שפה, עם הפוטנציאל שלהם להחליף עובדים אנושיים, עדיין מעלים שאלות בסיסיות לגבי עתיד העבודה. יתר על כן, השימוש ביצירות בנחלת הכלל עשוי שלא לשבת טוב עם כולם, במיוחד אלה שתרומותיהם היצירתיות מוחזרות כעת על ידי בינה מלאכותית.

גם בעתיד היפותטי שבו חברות בינה מלאכותית נאלצות לבקש רשות או לספק פיצוי עבור שימוש בנתונים, בעלי זכויות יוצרים עשויים עדיין לעמוד בפני לחץ בלתי הולם לאפשר אימון בינה מלאכותית. המשאבים העצומים שניתן להשתמש בהם בעת אימון מודלים של בינה מלאכותית פירושם שרוב בעלי זכויות היוצרים לא יוכלו לעמוד בפני הלחץ מחברות בינה מלאכותית גדולות לאפשר להם להשתמש בנתונים.

לקראת שקיפות ואחריות בבינה מלאכותית

בידרמן, לעומת זאת, נותרה פרגמטית. אין לה אשליות שחברות כמו OpenAI יאמצו לפתע מקורות נתונים אתיים. במקום זאת, היא מקווה שהעבודה שלה תעודד שקיפות רבה יותר בשימוש בנתונים. אילו מערכי נתונים שימשו לאימון אילו מוצרי בינה מלאכותית? הידיעה את התשובה לשאלה הזו יכולה להיות בעלת השלכות משמעותיות על עתיד הבינה המלאכותית.

"אפילו לשקיפות חלקית יש כמות עצומה של ערך חברתי וכמות מתונה של ערך מדעי", היא אמרה ל-WaPo.

נכון לעכשיו, מערכי הנתונים המדויקים המשמשים לאימון בינה מלאכותית נתונה הם סודות שמורים בקפדנות. הדרך היחידה לשכפל מודל בינה מלאכותית היא או שיגידו לך בדיוק כיצד נוצר מודל הבינה המלאכותית הנוכחי, או להנדס לאחור את מודל הבינה המלאכותית שיכול לקחת המון זמן ומאמץ.

שינוי פרדיגמה בפיתוח בינה מלאכותית

ההשלכות של מחקר זה חורגות הרבה מעבר לתחום האתיקה של הבינה המלאכותית. זה מסמל שינוי מהותי באופן שבו ניתן לפתח בינה מלאכותית, ומדגים ששיקולים אתיים והתקדמות טכנולוגית אינם צריכים להיות הדדיים. על ידי מתן עדיפות לשקיפות, מקורות נתונים אחראיים ופיקוח אנושי, אנו יכולים לעצב עתיד שבו הבינה המלאכותית משרתת את האנושות, ולא להפך.

התייחסות לדאגות אתיות והשפעות חברתיות

הטיעון של תעשיית הטכנולוגיה לפיו שימוש בנתונים אתיים הוא מכשול בלתי עביר עורער כעת באופן מכריע. הצלחת פרויקט זה מדגישה את ההיתכנות של בניית מודלים של בינה מלאכותית על תשתית אתית מוצקה. עם זאת, הממדים האתיים של פיתוח בינה מלאכותית חורגים מנושאי זכויות יוצרים. ההשפעות החברתיות-כלכליות של בינה מלאכותית, כולל עקירת עבודה והטיה אלגוריתמית, דורשים שיקול דעת מדוקדק.

השיקולים האתיים המשפיעים על מודלים של בינה מלאכותית חורגים רק ממקורות. עלינו גם לוודא שהנתונים לא גורמים למודלים של בינה מלאכותית להיות מוטים כלפי או נגד כל פלח באוכלוסייה.

קידום שקיפות ואחריותיות

כדי לטפח אמון ולהבטיח חדשנות אחראית, על תעשיית הבינה המלאכותית לאמץ שקיפות ואחריות. חברות צריכות להיות פתוחות לגבי מקורות הנתונים המשמשים לאימון הדגמים שלהן והמתודולוגיות המועסקות כדי להפחית הטיה. ביקורות עצמאיות ופיקוח חיצוני יכולים לשפר עוד יותר את האחריות ולמנוע מחדלים אתיים.

ניתן ליישם שקיפות בינה מלאכותית כדי לוודא שמערכי הנתונים מכילים התפלגות רחבה מספיק כדי למנוע הטיה במודל הבינה המלאכותית. ניתן ליישם אחריות בינה מלאכותית על ידי ביקורות חיצוניות כדי לבדוק אם יש מחדלים אתיים פוטנציאליים.

שיתוף פעולה ופתרונות קוד פתוח

פיתוח של בינה מלאכותית ממקורות אתיים, דורש שיתוף פעולה ופתרונות קוד פתוח. על ידי שיתוף מערכי נתונים, מתודולוגיות ושיטות עבודה מומלצות, חוקרים ומפתחים יכולים להאיץ את ההתקדמות ולטפל ביחד באתגרים בפיתוח בינה מלאכותית אתית. יוזמות קוד פתוח יכולות גם להעצים ארגונים קטנים יותר ואנשים פרטיים להשתתף במהפכת הבינה המלאכותית, ולהבטיח שהיתרונות של טכנולוגיה זו ישותפו באופן שוויוני יותר.

ההבטחה לעתיד מזהיר יותר

יצירת מודל בינה מלאכותית, שאומן כולו על נתונים ממקורות אתיים מייצג נקודת ציון בחיפוש אחר בינה מלאכותית אחראית ומועילה. הישג פורץ דרך זה לא רק מוכיח שפיתוח בינה מלאכותית אתית הוא אפשרי, אלא גם מספק מפת דרכים לאחרים לעקוב אחריה. על ידי אימוץ שקיפות, שיתוף פעולה ומחויבות לעקרונות אתיים, אנו יכולים לפתוח את הפוטנציאל המלא של בינה מלאכותית תוך הגנה על ערכים אנושיים וקידום עתיד צודק ושוויוני יותר.