המאמץ ליצור בינה מלאכותית (AI) שיכולה לחקות אינטראקציה אנושית הוביל להתפתחויות מרתקות, ולעיתים מטרידות. במסע ליצירת עוזרי AI שהם לא רק אינטליגנטיים אלא גם ניתנים להתייחסות, חברות משתמשות בטכניקות שונות כדי לאמן את מודלי הקול שלהן. גילויים אחרונים שופכים אור על אחד המאמצים הללו: "פרויקט קסילופון" (Project Xylophone) של xAI.
בתוך פרויקט קסילופון: יצירת AI שיחתי
מסמכים שהודלפו חשפו את הפעילות הפנימית של פרויקט קסילופון, יוזמה של Scale AI שנועדה לחדד את מודלי הקול של xAI. הפרויקט סובב סביב העסקת קבלנים להקליט את עצמם מאלתרים שיחות במגוון רחב של נושאים. המטרה הכוללת היא להחדיר למודלים של xAI איכות טבעית ודמוית אדם יותר, ולהתרחק מהטון הרובוטי שמאפיין לעתים קרובות אינטראקציות AI.
קבלנים אלה, שמקורם בחברת תיוג הנתונים Scale AI, מקבלים תשלום עבור הקלטת שיחות עם עמיתיהם בנושאים שונים, החל מחולין ועד דמיוני, הכל במטרה לגרום למודלי הקול של xAI להישמע אותנטיים יותר. נכון לחודש אפריל, Scale AI ניהלה לפחות 10 פרויקטים של AI גנרטיבי עבור xAI, מה שמשקף את המאמץ האינטנסיבי המושקע בתחום זה.
הדחיפה הנרחבת בתעשייה ל-AI שיחתי יותר נובעת מרצון למשוך משתמשים לגרסאות פרימיום בתשלום של שירותים אלה. על ידי הפיכת אינטראקציות AI למהנות וטבעיות יותר, חברות מקוות לפתות משתמשים להשקיע בטכנולוגיות מתקדמות אלה.
התוכנית ליצירת שיחות אימון
Business Insider השיג סדרה של מסמכי Scale AI המציעים מבט מפורט על אופן הפעולה של פרויקט קסילופון. מסמכים אלה, כולל הוראות פרויקט, הנחיות סוקר ומדריכי נושאי שיחה, מספקים סקירה מקיפה של המתודולוגיה של הפרויקט.
בעוד שהמודל הספציפי של xAI שאומן נותר לא גלוי במסמכים, ההתמקדות של הפרויקט ב"איכות שמע ושטף טבעי" מצביעה על דגש חזק ביצירת חוויית משתמש חלקה ומושכת. קבלנים בעלי ניסיון במשחק קולי מעודדים במיוחד להשתתף, מה שמשקף את החשיבות של ביצועים קוליים בהשגת רמת הריאליזם הרצויה.
פרויקט קסילופון מובנה סביב שני מרכיבים עיקריים: "שיחות" (Conversations) ו"שטחי עשב" (Grasslands). מרכיב ה"שיחות" כולל צוותים של שלושה קבלנים המשתתפים בשיחות מציאותיות ב-Zoom. שיחות אלה מודרכות על ידי גיליון אלקטרוני המכיל מאות בקשות, המכסות מגוון רחב של נושאים, החל מטקטיקות הישרדות בעולם פוסט-אפוקליפטי ועד ניהול חרדה ותכנון טיולים בינלאומיים.
צלילה עמוקה לתוך הנחיות שיחה: הצצה לדמיונו של ה-AI
הנחיות השיחה המשמשות בפרויקט קסילופון מציעות הצצה מרתקת לסוג התרחישים והנושאים שמודלי AI מאומנים להתמודד איתם. ההנחיות נעות בין פרקטיות לפילוסופיות, ואף מתעמקות בתחום המדע הבדיוני.
הנה כמה דוגמאות לפותחי שיחה המשמשים במסמכי Scale AI:
- אם הייתם מעצבים את ה'תרבות' עבור ההתיישבות הראשונה במאדים, איזו מסורת ארצית הייתם בהחלט רוצים לשחזר, ומה הייתם שמחים להשאיר מאחור לנצח?
- מהו 'נבל' בחיי היומיום שלכם שהייתם רוצים שצוות גיבורי על יוכל להסתער עליו ולתקן אותו עבור כולם?
- אם אפוקליפסת הזומבים תכה מחר, מה הדבר הראשון שהייתם תופסים מהבית שלכם לפני שאתם בורחים?
- תארו לעצמכם שאתם הפסיכולוג של המשימה עבור מושבה במאדים - איזה סוג אישיות או תכונה מוזרה הייתם מקווים בסתר למצוא אצל חבריכם המתיישבים?
- מהי תקלת האינסטלציה הבלתי נשכחת ביותר שחוויתם כבעלי בית - והאם ניסיתם לתקן אותה בעצמכם או התקשרתם מיד לעזרה?
- האם אתם זוכרים את הפעם הראשונה שהייתם צריכים לבקש יותר כסף או הטבות טובות יותר? מה עבר לכם בראש?
הנחיות אלה נועדו לעורר תגובות טבעיות ולא כתובות מראש מהקבלנים, אשר לאחר מכן ניתן להשתמש בהן כדי לאמן את מודלי ה-AI להתמודד עם מגוון רחב של תרחישי שיחה.
הוראות לשיחות "טובות" מדגישות את החשיבות של להישמע טבעי ורגשי, עם אינטונציות והפרעות מגוונות. המטרה היא לחקות את הספונטניות וחוסר הניבוי של שיחה אנושית אמיתית.
גישת שטחי העשב: לא כתוב ואותנטי
בניגוד למרכיב ה"שיחות" המובנה, מרכיב ה"שטחי עשב" מתמקד בעובדים עצמאיים היוצרים הקלטות לא כתובות שנשמעות טבעיות בשפות האם שלהם. לעובדים אלה ניתנים סוג שיחה ותת-קטגוריה ומעודדים אותם לתת לשיחה לזרום בחופשיות, אפילו רעשי רקע מעודדים.
מרכיב ה"שטחי עשב" כולל עשרות תת-קטגוריות, כולל "שאלה סוקרטית", "סיפור סיפורים רפלקטיבי", "תרחישי אהבה אביריים", "עימותי גיבור-נבל" ו"פתרון חידות משותף". תת-קטגוריות אלה כוללות לעתים קרובות דרישות ספציפיות, כגון מבטאים שונים, אפקטים קוליים או דפוסים לשוניים מומצאים.
גישת ה"שטחי עשב" משקפת רצון ללכוד את הניואנסים והמורכבויות של שיחה אנושית בצורה אותנטית ולא מאולצת יותר.
הכלכלה של אימון AI: הצצה לפיצויים
קבלני Scale AI המעורבים בפרויקט קסילופון מקבלים פיצויים עבור תרומתם, מה שמדגיש את ההיבט הכלכלי של אימון AI. על פי דיווחים, קבלנים מקבלים תשלום של כמה דולרים לכל משימה עבור עבודתם.
מבנה התשלום עבור פרויקט ה"שטחי עשב" החל ככל הנראה ב-3 דולר למשימה, אך לאחר מכן הופחת ל-1 דולר למשימה. כל משימה כוללת הקלטת קובץ שמע, שאותו מעלים הקבלנים לאחר מכן לפלטפורמת Scale AI ומתמללים באופן ידני.
שיעורי התשלום הנמוכים מדגישים את העבודה הבלתי נראית לעתים קרובות הכרוכה ביצירה ואימון של מודלי AI.
החשיבות של איכות נתונים: לכידת הניואנסים של דיבור אנושי
ההצלחה של מודלי קול של AI תלויה בזמינות של כמויות עצומות של נתונים באיכות גבוהה. פרויקט קסילופון משקף את המאמץ ליצור נתונים מתאימים על ידי יצירת תרחישים בעולם האמיתי, כגון שיחות שנשמעות טבעיות בין אנשים.
מסמך ה"שטחי עשב" מורה במפורש לקבלנים לכלול מילות מילוי כגון "אה" בתמלולים שלהם. תשומת לב זו לפרטים מדגישה את החשיבות של לכידת הניואנסים העדינים של דיבור אנושי, כולל הפסקות, היסוסים ורמזים לא מילוליים אחרים.
על ידי שילוב אלמנטים אלה בנתוני האימון, מודלי AI יכולים ללמוד לייצר שיחות טבעיות ומושכות יותר.
הזרקת אישיות לתוך AI: יתרון תחרותי
פרויקט קסילופון הוא חלק ממגמה רחבה יותר בקרב חברות AI להחדיר אישיות למודלי ה-AI שלהן, במטרה לבדל את עצמן בשוק צפוף יותר ויותר.
מטא (Meta), לדוגמה, ניהלה ככל הנראה פרויקט באמצעות Scale AI שביקש מעובדי גיג לאמן את ה-AI שלה לאמץ דמויות שונות, כגון "קוסם חכם ומיסטי" או "סטודנט נרגש מאוד לתורת המוזיקה".
סם אלטמן (Sam Altman) מ-OpenAI הודה שה-GPT-4o האחרון הפך "מתחנף ומעצבן מדי", מה שגרם לאיפוס כדי להפוך את התגובות שלו לטבעיות יותר.
מאמצים אלה משקפים הכרה בכך שמודלי AI צריכים להיות יותר מסתם אינטליגנטיים - הם גם צריכים להיות חביבים וקשורים.
הממדים האתיים של אימון AI: איזון בין דיוק להטיה
ככל שמודלי AI הופכים למתוחכמים יותר, גדלים החששות לגבי הטיות ושיקולים אתיים, מה שמעורר דיונים על פיתוח AI אחראי.
xAI שיווקה את Grok כצ’אטבוט בעל יתרון פוליטי בהשוואה ליריבים של מאסק שכינה אותם "ערים", עם שיטות אימון שלעתים נשענות בכבדות על השקפות ימין או מנוגדות.
xAI גם הגבירה את מאמציה לשלוט בצד הבלתי צפוי של Grok. עובדים חדשים "עושים צוות אדום" ל-Grok, בודקים אותו בעומס יתר לתגובות לא בטוחות או מפרות מדיניות, במיוחד בנושאים שנויים במחלוקת ובמצבי "NSFW" או "משוגעים".
מאמצים אלה מדגישים את האתגרים ביצירת מודלי AI שהם גם אינפורמטיביים וגם אתיים, ואת הצורך בניטור והערכה מתמשכים.
האבולוציה המתמשכת של מודלי קול של AI: עתיד של אינטראקציה חלקה
פרויקט קסילופון ויוזמות דומות מייצגות צעד משמעותי קדימה במסע ליצירת מודלי קול של AI שיכולים ליצור אינטראקציה חלקה עם בני אדם. ככל שטכנולוגיית ה-AI ממשיכה להתפתח, אנו יכולים לצפות לראות בעתיד עוזרי AI מתוחכמים וטבעיים עוד יותר.
החתירה למודלי קול של AI דמויי אדם אינה חפה מאתגרים. חששות לגבי הטיה, שיקולים אתיים והפוטנציאל לשימוש לרעה נותרו בעינם. עם זאת, היתרונות הפוטנציאליים של טכנולוגיות אלה הם עצומים, החל משיפור הנגישות ועד לשיפור התקשורת והשיתוף פעולה.
ככל שמודלי קול של AI יהפכו לנפוצים יותר, חשוב לטפל באתגרים אלה באופן יזום ולהבטיח שטכנולוגיות אלה ישמשו באחריות ובאופן אתי. העתיד של מודלי קול של AI טומן בחובו הבטחה גדולה, אך עלינו לעצב את העתיד הזה באופן שיועיל לכל האנושות.
המאמץ ליצור AI שנשמע אנושי יותר הוא קשה, כפי שמודגם במסמכים שהודלפו. לא רק שה-AI חייב לדבר בצורה שוטפת עם דקדוק נכון, אלא שהוא חייב גם להיות בעל אישיות שנראית אמיתית לאדם שמדבר איתו. המשימה המונומנטלית הזו היא המקום שבו חברות אלה מוצאות את עצמן כעת.