התגברות על ‘בעיות קטסטרופליות’ באימון בקנה מידה גדול
המסע ליצירת GPT-4.5 לא היה חף ממכשולים. הצוות נתקל ב’בעיות קטסטרופליות’ רבות במהלך שלב המחקר והפיתוח. השימוש באשכול של 100,000 מעבדים גרפיים חשף כשלים בתשתית שלא נראו קודם לכן, בהסתברות נמוכה, אך עמוקים. כדי לאזן בין יעילות לביצועים מיטביים, צוות המערכת של OpenAI נאלץ לאמץ גישת ‘תקן תוך כדי תנועה’. באג חמקמק במיוחד הטריד את האשכול בשגיאות תכופות, ונשאר בלתי מזוהה עד שחלפו כ-40% מתהליך האימון.
למרות האתגרים הללו, פרויקט GPT-4.5 זירז את הפיתוח של מחסנית טכנולוגית חזקה יותר. כיום, צוות מצומצם של 5-10 אנשים בלבד יכול לשכפל מודל גדול הדומה ל-GPT-4. הרווחים בביצועים מ-GPT-4 ל-GPT-4.5 היו בערך פי עשרה, והניבו ‘אינטליגנציה שקשה לכמת אך משופרת בכל ההיבטים’, תוצאה שהפתיעה אפילו את אנשי OpenAI עצמם.
שינוי מוקד: מכוח חישובי ליעילות נתונים
OpenAI הבינה כי השגת הקפיצה הבאה פי עשרה או פי מאה בביצועים אינה תלויה בכוח חישובי גולמי אלא ביעילות נתונים – במיוחד, היכולת לחלץ יותר ידע מאותה כמות נתונים תוך רתימת משאבים חישוביים גדולים יותר.
הארכיטקטורה מתפתחת גם היא מאשכול יחיד לפרדיגמה מרובת אשכולות. איטרציות אימון עתידיות עשויות לכלול למידה שיתופית על פני עד 10 מיליון מעבדים גרפיים, הדורשת סובלנות תקלות מוגברת.
הדיאלוג של סם אלטמן עם צוות GPT-4.5
להלן אוסף ערוך של דיון בין סם אלטמן לצוות OpenAI GPT-4.5:
סם אלטמן: מה נדרש כדי לבנות מודל גדול כמו GPT-4.5?
אלכס פאינו: התחלנו את הפרויקט הזה לפני כשנתיים. באותה תקופה, OpenAI עמדה להשיק אשכול מחשוב גדול חדש, והצוות שלנו ראה בכך הזדמנות לערוך סדרה של פעולות כדי לקבוע את הפונקציות שהמודל צריך לכלול, וערך מספר רב של בדיקות מבצעים להפחתת סיכונים.
פיתחנו תוכנית ארוכה לכך, הכוללת את כל המחסנית הטכנולוגית מהמערכת ועד ללמידת מכונה. צמצום סיכונים והכנה לאימון הוא תהליך ביצוע ארוך, ואימון עצמו הוא פרויקט גדול מאוד.
אמין טוטונצ’יאן: אני חושב שהתהליך הזה דורש שיתוף פעולה הדוק בין צוות למידת המכונה וצוות המערכת מההתחלה, עד שנבהיר איזה מודל אנחנו רוצים לאמן, ואז נתחיל להתאמן.
עשינו תחזיות הן בהיבטי למידת מכונה והן בהיבטי מערכת, בניסיון לצמצם את הפער בין הציפייה למציאות ככל האפשר. אבל מכיוון שקצב העבודה שלנו מהיר ואנחנו צריכים להשתמש במשאבי המחשוב העדכניים ביותר, אימון מודלים הפך למשהו שקשה לתכנן מראש בצורה מושלמת.
כמעט תמיד מתחילים להתאמן עם בעיות רבות שלא נפתרו ומנסים להתגבר על אתגרים ולהתקדם במהלך הפעולה. הפתרון העיקרי הוא להוסיף עוד משאבי מחשוב.
השלב הסופי הוא ביצוע, הדורש מאנשים רבים להשקיע אנרגיה ומוטיבציה רבה במשך זמן רב כדי להשלים את תהליך האימון.
סם אלטמן: כמה לדעתך הפער בין הציפיות שלנו למציאות?
אמין טוטונצ’יאן: מבחינת המערכת, אנחנו בדרך כלל רחוקים מהמצב הצפוי בהתחלה. תמיד עומדת בפנינו בחירה: האם לדחות את ההתחלה ולהמתין לפתרון הבעיה, או להתחיל מוקדם ולפתור את הבעיה בתהליך. זה תמיד דורש פשרה כדי להימנע מעיכובים בלתי סבירים בתהליך.
אבל כמעט תמיד יש בעיות בלתי צפויות, ומה שאנחנו צריכים לעשות זה להתמודד עם הצמתים האלה ככל האפשר, להתמודד עם הגורמים הלא ידועים ולגבש תוכנית לאימון מודלים.
אלכס פאינו: בפרויקט הזה, המטרה שלנו היא ליצור GPT-4.5, מה שאומר שהיכולות שלו צריכות להיות פי 10 חכמות יותר מ-GPT-4. זו המטרה הראשונית שהצבנו לפני כשנתיים.
הרבה דברים קרו במהלך התהליך הזה. חשבנו אם נוכל לעשות יותר טוב או שיהיה גרוע מהצפוי? זה תהליך מאוד מסובך, אבל בסופו של דבר, מבחינת החישובים האפקטיביים שהשקענו, קיבלנו מודל שלדעתנו הגיע פי 10 חכם יותר מ-GPT-4.
אמין טוטונצ’יאן: מבחינת ביצוע, הזמן שהושקע בפרויקט GPT-4.5 רחוק ממה שציפינו בתחילה.
סם אלטמן: מדוע נתקלתם בכל כך הרבה בעיות כאשר האשכול התרחב מ-10,000 כרטיסים ל-100,000 כרטיסים?
אמין טוטונצ’יאן: אני חושב שאם מפתחי מערכות רגישים מספיק, ניתן להבחין ברוב הבעיות בשלב בקנה מידה קטן.
חלק מהבעיות אינן ייחודיות לשלב האימונים בקנה מידה גדול, אך קרו לעתים קרובות בעבר, אך יהפכו לבעיות קטסטרופליות לאחר הגדלת קנה המידה, במיוחד כאשר הצוות לא צפה שבעיות אלה יחמירו עד כדי כך.
סם אלטמן: אילו דברים גרמו לתוצאות קטסטרופליות?
אמין טוטונצ’יאן: אני חושב שבעיות תשתית ידועות היטב, בין אם קצב הכשלים, סוג הכשלים או הכמות הכוללת של הכשלים גבוהה מאוד. אשכול 100,000 הכרטיסים הוא מאגר דגימות בקנה מידה גדול, ולכן גילינו גם בעיות שספק הכוח החישוב לא צפה בהן.
הרשת היא אחת מהן, ומאיצים בודדים יכולים גם הם להיות בעיות. אבל זה גם היופי של המערכת הזו - כמעט כל הרכיבים צריכים לעבוד כצפוי כדי להפיק את התוצאות הצפויות. העבודה שלנו היא למזער את הבעיה הזו ככל האפשר.
סם אלטמן: אכן קשה לעבוד בגבול גודל האשכול, אבל שמתי לב שנעשה הרבה יותר קל לעשות דברים שכבר אינם בחזית הטכנולוגיה. אימון GPT-4.5 דורש מאות אנשים, ול-OpenAI יש כמעט את כולם על הסיפון.
אבל היום, אם היית בוחר את הצוות הקטן ביותר מ-OpenAI ומאמן מחדש את GPT-4 מאפס עם כל הידע ועבודת המערכת שאנחנו מכירים, כמה אנשים זה ייקח?
אלכס פאינו: אני חושב שייקח בערך 5 עד 10 אנשים כדי ליצור מודל ברמת GPT-4 עכשיו. מחסנית הטכנולוגיה השתפרה מאוד בתהליך השלמת GPT-4.5.
למעשה, עשינו דברים דומים בתהליך אימון GPT-4.5 - אימנו את GPT-4o, שהוא מודל ברמת GPT-4, ואימנו אותו מחדש באמצעות הרבה מאותו תוכן מפרויקט המחקר GPT-4.5. נעשה שימוש בפחות אנשים לאימון הזה.
סם אלטמן: מנקודת המבט שלך, דן? מדוע קשה לאמן מודלים גדולים?
דניאל סלסם: אני חושב שקשה לעשות משהו חדש. אני חושב שאפילו רק לגלות שמישהו אחר עשה משהו מקל על זה בהרבה, כי החלק הקשה ביותר הוא האמונה לעשות משהו מלכתחילה. אני חושב שרק לדעת שמשהו אפשרי הוא קוד רמאות סופר שמקל על דברים בהרבה.
אלכס פאינו: אנחנו מרחיבים את ריצת האימון המקדים של GPT פי 10 מגודלה הקודם, ואנחנו תמיד מוצאים דברים חדשים ומעניינים שאי אפשר בהכרח לצפות אותם.
סם אלטמן: מה נדרש כדי להשיג את הצמיחה הבאה פי 10 או פי 100 בקנה המידה של האימון המקדים?
דניאל סלסם: יעילות נתונים. ארכיטקטורת ה-Transformer (כלומר GPT) יעילה מאוד בניצול נתונים. היא יכולה לספוג ולדחוס מידע היטב ולהשיג הכללה. התכונה הגדולה ביותר שלה היא שהיא יכולה לספוג מידע ביעילות עם משאבי מחשוב.
עם זאת, עומק התובנה שהיא משיגה מנתונים מוגבל. כאשר כוח המחשוב גדל במהירות והנתונים גדלים לאט יחסית, נתונים הופכים לצוואר בקבוק עבור המודל הסטנדרטי הזה. זה דורש חדשנות אלגוריתמית כדי לפתח שיטות שיכולות להשתמש ביותר כוח מחשוב כדי ללמוד יותר ידע מאותה כמות נתונים.
סם אלטמן: מה עוד אתה חושב שאנחנו צריכים כדי לשמור על התרחבות?
אמין טוטונצ’יאן: התשובה שלי היא על המערכת. אני חושב שכמות העבודה העצומה הנדרשת עבור GPT-4.5 היא בעצם התוצאה הבלתי נמנעת של מפרטי המודל. אנחנו לא יכולים לאמן את GPT-4.5 עם אותה ארכיטקטורה טכנית בדיוק כמו GPT-4.
מבחינת ניהול מצב, מכיוון שמשאבי המחשוב הנדרשים חרגו מיכולת הקיבולת של אשכול בודד, אנחנו צריכים לפנות לארכיטקטורת אימון מרובת אשכולות. כדי להשיג מטרה זו, עלינו לשלב מספר זרימות עבודה שונות בפרק זמן קצר.
למרות שזה אכן עזר לנו להשיג פריצות דרך בשלב, כדי להשיג את סדר הגודל הבא של שיפור ביצועים, אנחנו עדיין צריכים לפתור מספר בעיות טכניות ידועות אך שהושהו זמנית - לא ניתן להימנע מבעיות אלה. זה סוג של פשרה טכנית שמרחיבה כל הזמן את מחזור המחקר והפיתוח של המערכת המושלמת, ואנחנו תמיד עושים פשרות אסטרטגיות בתהליך של השגת תוכנית היישום האופטימלית.
צריך להיות ברור שהמערכת עצמה אינה המטרה הסופית, וערך הפלט בפועל שלה הוא השיקול המרכזי. לשיפור הביצועים הבא פי 10, אני חושב שהפריצה בסובלנות תקלות היא חיונית. אנחנו צריכים לבנות מנגנון סובלני תקלות שהוא סינרגטי עמוק עם עומס העבודה כדי להפחית משמעותית את חרדת התפעול והתחזוקה. מורכבות התפעול והתחזוקה של מערכות בקנה מידה גדול במיוחד הנוכחי שונה במהותה ממערכות קודמות.
סם אלטמן: האם אתה יודע איזה אחוז מהכשלים נגרמו על ידי רכיבים מסוימים במהלך אימון GPT-4.5?
אמין טוטונצ’יאן: אין לי מספרים ספציפיים לשתף, אבל באופן כללי, בשלבים המוקדמים של פריסת דור חדש של חומרה, פעולת המערכת מתמודדת לעתים קרובות עם אתגרים טכניים רבים שאינם מובנים במלואם. בחרנו לקדם את הפרויקט לפני שהבעיה הוגדרה במלואה, מה שהוביל לקצב כשלים ראשוני גבוה.
אבל הניסיון הראה שכאשר הסיבה העיקרית מזוהה ונפתרת, קצב הכשלים יקטן משמעותית. תופעה זו משקפת במהותה את העמקת ההבנה שלנו בתשתית - יש אנשים שקוראים לזה ניקוי התשתית או הבנת הבעיות הבסיסיות של התשתית.
השלבים המוקדמים של הביצוע כמעט תמיד די כואבים. תוך כדי קידום הפרויקט, אנחנו גם מגלים ופותרים כל הזמן מצבי כשל חדשים, אבל קצב הכשלים יקטן בהדרגה וזמן הפעולה התקינה יהפוך לארוך יותר.
זה בעיקרו של דבר עניין של פשרות עדיפויות: בשלבים המוקדמים של מחזור חיי התשתית, קשה לעתים קרובות להעריך במדויק את סיכון הכשלים שלה; ואם אנחנו רודפים יתר על המידה אחר המצב האידיאלי האולטימטיבי (המקור הוא ‘City Estate’, עיצוב מדינת העיר האידיאלית), זה עלול להוביל למערכת ביצועי הזמינות בשלבים המוקדמים גרועים ביותר.
סם אלטמן: למרות שמודל ההיגיון הוא מרכיב מפתח במחסנית הטכנולוגיה העתידית שלנו, בואו נתמקד זמנית בגבול הפיתוח של מודל האימון המקדים המסורתי. נניח שיש לנו כוח מחשוב GPU בלתי מוגבל, רוחב פס רשת בלתי מוגבל ואספקת חשמל בלתי מוגבלת, אך עדיין מוגבלים על ידי צווארי בקבוק טכניים קיימים - כולל בעיות אמינות מערכת, היעדר שיטות אימון סובלניות תקלות ומגבלות של ערכות נתונים קיימות.
בהתאם לחוק האבולוציה שלנו להשגת עלייה של פי 100 בסולם בכל מספר גרסת GPT גדול, בהתבסס על הגבולות הטכניים הנוכחיים, לאיזו רמה יכול להגיע הפיתוח של מודל האימון המקדים? באופן ספציפי למודלי סדרת GPT, עם מערכת הידע הקיימת שלנו, איזה סוג של מודל אנחנו יכולים לאמן תיאורטית? האם ניתן ליצור GPT-5.5?
אלכס פאינו: מנקודת המבט של למידת מכונה ופיתוח אלגוריתמים, עדיין לא הגענו לגבול עליון תיאורטי ברור. למעשה, אנחנו רק מתחילים לחקור אלגוריתמים עם יעילות נתונים גבוהה יותר וכיצד לנצל באופן מלא יותר משאבי נתונים קיימים. מצב זה מעניין מאוד - אפילו מודלים כמו GPT-4 מפותחים במידה רבה תחת מגבלות של משאבי מחשוב מוגבלים, מה שגם קובע את הכיוון של רוב המחקרים הקודמים.
אבל המצב שונה לחלוטין עכשיו. מאז GPT-4.5, בממדים מרכזיים מסוימים, נתונים ולא מחשוב הופכים למגבלה העיקרית. שינוי זה הופך את המחקר הקשור לפחות מרגש.
סם אלטמן: אבל זו אכן התקדמות מדהימה, והעולם אולי לא מבין במלואו שמשאבי מחשוב כבר אינם צוואר הבקבוק העיקרי במודל הטוב ביותר שאנחנו יכולים לבנות. שינוי זה הוא עמוק, אחרי הכל, חיינו בסביבה מוגבלת מחשוב במשך זמן רב מדי.
סם אלטמן: מהו ניסיון למידת המכונה המעניין ביותר שלמדנו בתהליך אימון GPT-4.5? רק תדבר על מה שאתה רוצה לשתף.
אמין טוטונצ’יאן: באופן כללי, מעוררי המחשבה ביותר הם אותם מצבים הסוטים מהתחזיות שלנו - במיוחד כאשר אנחנו מנסים להבין מדוע הביצועים בפועל סוטים מהעקומה הצפויה.
אלכס פאינו: אחד הממצאים המפתיעים ביותר עבורנו הוא שביצועי המדרגיות של רכיבי למידת מכונה שונים משתנים מאוד. ניתן להרחיב חלקים מסוימים היטב, בעוד שאחרים אינם יכולים. זה מה שהבנו באמת בתהליך האימון בפועל. ניסיון זה נתן לנו הרבה השראה.
דניאל סלסם: אני חושב ששני המאפיינים העיקריים של פרדיגמת GPT הם: ראשית, ניתן לחזות במדויק את אובדן הבדיקה (מדד למדידת עד כמה המודל מתפקד היטב על נתוני בדיקה בלתי נראים); שנית, ביצועי המודל מראים שיפור צפוי עם הרחבת הסולם. באופן קסום יותר, צמצום אובדן הבדיקה יתורגם לרמה משופרת בכל ההיבטים של אינטליגנציה בדרכים שקשה לכמת אך מדהימות.
סם אלטמן: האם אתה אופטימי לחלוטין לגבי זה? האם אתה מסכים באופן מלא עם השקפה זו?
דניאל סלסם: למעשה, מה שאני רוצה להגיד הוא שמצאנו תופעות מעניינות במיוחד במבחן GPT-4.5 - לאחר בדיקה מחדש, המודל הראה יכולות עדינות רבות שחרגו לחלוטין מהציפיות של כולם.
אנחנו בטוחים שהוא יהפוך לחכם יותר בדרכים שונות שאי אפשר להגדיר מראש, ולאחר פריסה בפועל, אנחנו יכולים לראות את רמות השיפור העדינות האלה משביעות רצון המשתמשים: מאגרי חוש הומור חזקים יותר, יכולות הבנה הקשרית מדויקות יותר, ואחיזה סמנטית עדינה יותר - זה בדיוק הקסם שמביאים אותם אובדני בדיקה נוספים. לדעתי, חוק המדרגיות אומת בצורה מושלמת בממד הזה.
סם אלטמן: מה היה הרגע החיובי ביותר במהלך כל תהליך האימון? מה הזיכרון האהוב עליך? ברור שיש הרבה כאב, אבל אני מקווה שהכאבים האלה הוקלו.
אלכס פאינו: יש לי רגע כזה. עשינו הרבה עבודת למידת מכונה במהלך האימון. אני חושב שלחלק מהשינויים שעשינו במהלך הפעולה הייתה השפעה טובה למדי, אולי טובה מהצפוי, שהיה רגע מרגש מאוד עבורנו.
אמין טוטונצ’יאן: מבחינתי, במקביל לאימון, אנחנו גם בונים תשתית. אנחנו מאמינים בתוקף שאנחנו יכולים לחצות את הצוק הזה של הביצועים, ויש לנו תוכנית, וכולם מבצעים אותה, אבל זה לוקח הרבה זמן. זה עבודה קשה ובהחלט קשה יותר ממה שחשבתי. התחזית שלי הייתה שגויה, והערכתי בחסר את הזמן שיידרש לפתור את הבעיות האלה.
הרגע שבו הצוות התגבר לבסוף על אותן בעיות מפתח והביצועים השתפרו משמעותית עדיין טרי בזיכרוני. אתה יכול להרגיש בבירור את שינוי האנרגיה של כל הצוות - כולם פתאום מלאים באנרגיה וממהרים לעבר המטרה הסופית עם מוטיבציה חדשה.
הדבר הקסום ביותר הוא שזמן הסיום המשוער המוצג במעקב הסטטוס שלנו המשיך להתקצר משנתיים הראשונות, ובסופו של דבר ננעל בצומת זמן ברור. להתקדמות גלויה זו יש דחיפה שלא תסולא בפז למורל הצוות. אני חושב שזה היופי בזה.
ברצוני להדגיש שעבודת למידת המכונה מעולם לא פסקה. אפילו לאחר תחילת האימון, תהליך העיצוב המשותף של למידת מכונה זה ממשיך. צוות למידת המכונה לא רק עוקב באופן פעיל אחר אותם נושאים שסומנו כ’עיבוד שלאחר מכן’, אלא גם ממשיך לספק שיפורים שמייעלים באמת את זמן האימון.
זה משקף בצורה מושלמת את רוח הצוות שלנו - אין כאן גבול עבודה של ‘כל אדם מטאטא את השלג מול דלתו’, אלא שיתוף פעולה חלק באמת, והלכידות הזו היא החוזק הגדול ביותר שלנו.
סם אלטמן: העולם החיצון דן הרבה על האתגרים ודיוק החיזוי של האימון הזה עצמו. אבל למעשה, כל זה מבוסס על תכנון יסודי ביותר - אתה יכול לדבר על זה ביתר פירוט?
אלכס פאינו: זו בהחלט התוכנית היסודית ביותר שלנו עד כה. כפי שאמרתי, התחלנו להתכונן לפרויקט זה שנה לפני תחילת האימון הרשמי. במהלך תקופה זו, ערכנו מספר בדיקות בקרת סיכונים בקנה מידה גדול.
אנו מקדישים תשומת לב מיוחדת להצגת כל השיפורים בהדרגה: החל מתצורה בסיסית בביטחון גבוה - אשר ניתן להבין כארכיטקטורה בוגרת הדומה ל-GPT-4, שלמדנו באופן מלא ברמת למידת המכונה - ולאחר מכן הוספת תכונות חדשות שכבה אחר שכבה כמו אבני בניין.
המפתח הוא לאמת בקפדנות את המדרגיות של כל שיפור בסולמות שונים: לא רק לראות שיפורי ביצועים, אלא גם להבטיח שהשיפורים האלה ממשיכים להיות יעילים ככל שסולם המודל מתרחב. שיפורים רבים מתפקדים היטב בבדיקות בקנה מידה קטן, אך ייכשלו ביישומים בקנה מידה גדול.
לכן, שמרנו על רמת ערנות גבוהה לאורך כל התהליך והמשכנו לחזור ולשפר את מתודולוגיית חוק ההתרחבות שלנו. באמצעות תרגול בקרת סיכונים זה, צברנו ניסיון רב ערך שימשיך להנחות את הפיתוח של מודלים עתידיים בסדרת GPT.
אמין טוטונצ’יאן: אני זוכר רגע מעניין במיוחד שאני מתגעגע אליו מאוד. אתה יודע, אנחנו כמעט תמיד נתקלים בבאגים שונים בכל פעם שאנחנו מתחילים משימת אימון. זה כבר עניין שבשגרה. אבל המפתח הוא להבטיח שההתקדמות לא תיחסם ותמיד לאשר שההתקדמות הנוכחית אכן נמצאת על המסלול הנכון והאם לבאגים האלה תהיה השפעה קטלנית על בריאות האימון.
למרות שבתחילה היינו בטוחים מאוד שיש פגמים גדולים, באמצעות כל מערכת הניטור שבנינו, הצלחנו להבחין במדויק בשורש הבעיה: האם זה כשל חומרה? איזה סוג של כשל חומרה? האם זה שיבוש נתונים? או שזה באג במודל למידת המכונה עצמו? או שזה מצב מרוץ בקוד?
באותה תקופה, היו לנו מספר אזורי דיון בעיות פתוחים בו זמנית, עם תסמינים שונים. לאחר סדרה של תיקוני באגים, נתקענו: היו מספר בעיות לא פתורות מולנו, וכולם שברו את הראש - האם אלה נגרמו על ידי באגים שונים? או שזה באג בעבודה?
מאוחר יותר, ערכנו הצבעה כדי לאפשר לחברי הצוות להצביע עבור הסיבה השורשית הסבירה ביותר. האפשרות הכי פחות מבטיחה פגעה באמת: התברר שיש בעיה בפונקציה torch.sum במעלה הזרם של PyTorch, פעולת סיכום פשוטה.
הבאג הזה מעניין במיוחד. אתה יודע, אנחנו משתמשים בעיקר בגרעין Triton, ואנחנו נחזור לפעולות לפיד רק בתרחישי קצה לא חשובים מסוימים. והבאג של פונקציית torch.sum שאומץ על ידי נתיב הקוד הספציפי שלנו יגרום בטעות לגישה לא חוקית לזיכרון עקב מאפייני הפצת נתונים - הוא טעה בחישוב היסט הזיכרון.
הדבר הדרמטי ביותר הוא שכאשר מהנדס איתר לבסוף את הבעיה והגיש תיקון, כל דוחות השגיאות עם תסמינים שונים נעלמו. כולם שינו בהתרגשות את ערוץ ה-Slack מ’תאוריית ריבוי באגים’ ל’תאוריית באג בודד’, והסצנה הייתה שמחה מאוד.
כמה זמן הבאג הזה ארב? הוא קיים מאז השלבים המוקדמים של האימון ולא זוהה עד שסרגל ההתקדמות עבר כ-40%. תהליך הגילוי היה גם מלא בדרמה: באותה תקופה, גרעין מורכב קרא ברצף לרצפים, והקריאה השנייה עוררה גישה לא חוקית לזיכרון.
למרות שתדירות קריסה זו נמוכה במיוחד (היא מתרחשת רק פעם בכמה מאות או אפילו אלפי שלבי אימון), קל להתעלם ממנה ככישלון מזדמן, אך ההנחיה של הצוות שלנו היא: לעולם אל תשחרר אנומליות. החלק הטוב ביותר בסיפור הזה טמון בהתמדה הזו של לא לוותר בקלות.
סם אלטמן: מה עוד אתה צריך לעשות לאחר התחלת אימון מוקדם של GPT-4.5?
אלכס פאינו: כולנו צריכים להתבונן בעקומת ההפסד בתדירות גבוהה. בנוסף, עלינו להמשיך לייעל את המערכת ולשפר את התכנון המשותף שלא הושלם לפני תחילת האימון. אנו עוקבים מקרוב אחר סטטיסטיקות שונות במהלך תהליך האימון כדי להבטיח שאין מגמות בלתי צפויות. במקביל, אנו חוקרים תוכניות שיפור אפשריות מנקודת מבט של למידת מכונה. למרות שעבודה ברמת הנתונים תצומצם זמנית לאחר תחילת האימון המוקדם, עדיין יש הרבה משימות שיש לעבד.
אמין טוטונצ’יאן: אני חושב שלמידת מכונה תלויה במידה רבה בשיפוט הנכונות. לאחר תחילת האימון המוקדם, מול כמות גדולה של אותות רעש, אנחנו כמו מגדת עתידות שמפרשת משקעי תה, ואנחנו צריכים לשפוט האם המערכת בריאה. זו האחריות שלנו.
סם אלטמן: ברמת המערכת, מה יגביל אותנו מביצוע אימון מודלים? האם זה שבב, מעבד, זיכרון, רשת או אספקת חשמל?
אמין טוטונצ’יאן: היופי של המערכת הוא שכאשר עושים עיצוב שיתופי, עומס העבודה יכול להתאים את עצמו לתשתית שאתה בונה. אין אמירה אוניברסלית שהרשת היא צוואר הבקבוק, או שרוחב הפס של הזיכרון הוא צוואר הבקבוק וכו’. אפילו עבור מודלים עם אותו מפרט, אנחנו יכולים לבחור להעביר דרישות משאבים. אנחנו יכולים לבחור ליצור מערכת מאוזנת יותר, אבל תמיד מועיל שיהיה רוחב פס זיכרון רב יותר. קשה לענות על שאלה זו ללא תנאי הגבלה.
בעת תכנון GPT-4.5, ייתכן שנצטרך שיהיה תכונה מסוימת במערכת, אשר צריכה להיווצר באמצעות הנחיה אנושית. לכן, עיצוב שיתופי חשוב מאוד ליצירת ארכיטקטורת המודל ואלמנטים אדריכליים, ובמידה מסוימת מחבר בין המערכת להיבטי למידת המכונה. אם למערכת יש תכונה שאנחנו לא רוצים שתהיה מאוד. המצב האידיאלי שלי הוא שהכל צריך להיות מנותק כדי לתת אחד לשני את המרחב הגדול ביותר.
לפעמים דברים מחוברים זה לזה, ואנחנו צריכים לעמוד בדרישות התשתית, או שדברים צריכים להיות כאלה. רוב הזמן, אנחנו צריכים מערכת מאוזנת, תקשורת מאוזנת. ואמצעי הרגולציה הטוב ביותר שיש לנו הוא כל העיצובים השיתופיים האלה.
סם אלטמן: כמה רחוקים אנחנו ממטרת המערכת האידיאלית הזו?
אמין טוטונצ’יאן: אנחנו רחוקים מהמטרה הזו. תהליך בניית מערכת הוא תמיד כזה: קודם כל יש השקפה אידיאלית על איך דברים צריכים לעבוד, ואז ההבדלים האלה מיושבים עם משאבים קיימים.
אני לא חושב שאנחנו עושים את זה בשביל תיאוריה למען התיאוריה, אלא רק כדי לדון במה אנחנו רוצים שזה יהפוך, לממש את זה ולהתקרב לאידיאל הזה ככל האפשר. זה אולי החלק המרגש ביותר בתחום המערכת. אנשים נהגו להגיד שזה עיצוב מערכת אלגנטי, ובסופו של דבר ההיסטוריה תגיד לנו אם הבחירה הזו נכונה או שגויה.
סם אלטמן: אם היית יכול לקבל תשובה לשאלת למידת מכונה לפני האימון הגדול הבא, מה היית רוצה לדעת יותר מכל?
אלכס פאינו: אני רוצה לדעת באילו אלגוריתמים עלינו להשתמש תחת נתונים מוגבלים ותחומים ספציפיים. למרות שזו שאלה רחבה, היא אכן הקריטית ביותר.
סם אלטמן: האם תנהל אימון מוקדם סינכרוני עם 10 מיליון מעבדים גרפיים או יותר בעתיד?
אלכס פאינו: אני חושב שיהיו, אבל זה אולי לא מודל האימון המקדים המסורתי. הצורה שלו עשויה להיות שונה מאוד מטכנולוגיות קיי