הופעת GPT-4.5: מסע של שנתיים
במבט חטוף נדיר אל מאחורי הקלעים, OpenAI שיתפה לאחרונה פרטים על הפיתוח של המודל השאפתני ביותר שלה עד כה, GPT-4.5. הגילוי הזה הגיע יותר מחודש לאחר שחרור המודל, בשיחה גלויה בת 45 דקות בהשתתפות מייסד שותף ומנכ’ל OpenAI, סם אלטמן, לצד שלושה אנשי מפתח טכניים מפרויקט GPT-4.5. הדיון חשף שורה של אתגרים לא ידועים בעבר, כולל חריגות משמעותיות בציר הזמן, כשלים תכופים באשכול החישובי, ונתיבים בלתי צפויים לשיפור ביצועים.
יוזמת GPT-4.5, שהוגתה שנתיים לפני השקתה, ייצגה את המיזם המתוכנן ביותר של OpenAI עד כה. זה דרש את המאמץ המשותף של מאות אנשים, כאשר אלטמן ציין שהפרויקט בעצם העסיק ‘כמעט את כולם’ ב-OpenAI. מעורבות נרחבת זו מדגישה את החשיבות האסטרטגית של GPT-4.5 בתוך המשימה הרחבה יותר של הארגון.
במהלך שלב הפיתוח, צוות OpenAI נתקל במה שהם כינו ‘בעיות קטסטרופליות’. הפריסה של אשכול GPU של 100,000 חשפה פגיעויות תשתיתיות סמויות שהתבטאו ככשלים נדירים אך עמוקים. כדי ליצור איזון בין יעילות לביצועים אופטימליים, מהנדסי המערכת אימצו גישה איטרטיבית, בעצם ‘בונים ומתקנים’ במקביל. באג אחד חמקמק במיוחד פגע באשכול עם שגיאות חוזרות ונשנות, ונשאר לא מזוהה עד שתהליך האימון הגיע לכ-40% השלמה.
באופן פרדוקסלי, ניסיונות אלו תרמו לחיזוק הבסיס הטכני של OpenAI. המומחיות שנרכשה מאפשרת כעת לצוות מצומצם של 5-10 אנשים לשכפל מודל בגודל של GPT-4. קפיצת הביצועים מ-GPT-4 ל-GPT-4.5, המוערכת בכעשר פעמים, אופיינה ב’אינטליגנציה משופרת באופן מקיף אך קשה לכימות’, והפתיעה אפילו את אלה שבתוך OpenAI. קפיצה איכותית זו מצביעה על התקדמות מעבר לסתם קנה מידה, ומצביעה על שיפורים מהותיים ביכולת הנימוק וההבנה של המודל.
במבט קדימה, OpenAI מכירה בכך שהשגת סדר הגודל הבא בביצועים תהיה תלויה לא רק בכוח חישובי בלבד, אלא ביעילות נתונים. המוקד עובר לפיתוח אלגוריתמים שיכולים לחלץ יותר ידע ממערכות נתונים קיימות, ובכך למקסם את התועלת של משאבי המחשוב הזמינים.
יתר על כן, הארכיטקטורה מתפתחת מאשכול יחיד לעיצוב מרובה אשכולות, אשר חושב על תרחישי אימון עתידיים הכוללים למידה שיתופית על פני עד 10 מיליון GPUs. מעבר זה מחייב שיפורים משמעותיים בסובלנות תקלות כדי להבטיח את היציבות והאמינות של מערכות מבוזרות בקנה מידה גדול שכזה.
השיחה עסקה גם בקשר בין ‘הזנב הארוך’ של הנתונים לחוקי קנה המידה, היתרונות של שיתוף פעולה הדוק בין צוותי למידת מכונה ומערכות (עיצוב משותף), המהות של למידה לא מפוקחת, ותרבות של פתרון בעיות קפדני.
שחקני מפתח מאחורי GPT-4.5
מלבד אלטמן, שלושת חברי צוות OpenAI האחרים שלקחו חלק בשיחה זו היו:
- אלכס פאינו: אחראי על אלגוריתמי למידת מכונה לאימון מוקדם של GPT-4.5.
- אמין טוטונצ’יאן: האדריכל הראשי של מערכת OpenAI.
- דניאל סלסם: חוקר יעילות נתונים ואלגוריתמים.
מקורות והתפתחות של GPT-4.5
סם אלטמן: מה באמת נדרש כדי לבנות מודל גדול כמו GPT-4.5?
אלכס פאינו: התחלנו את הפרויקט הזה לפני כשנתיים. באותה תקופה, OpenAI עמדה להשיק אשכול מחשוב גדול חדש, והצוות שלנו ראה את ההזדמנות הזו ועשה סדרה של משימות כדי לקבוע את הפונקציות שהמודל צריך לכלול, וערך מספר רב של בדיקות פעולות להפחתת סיכונים.
פיתחנו תוכנית ארוכה לזה, הכוללת את כל מחסנית הטכנולוגיה ממערכת ללמידת מכונה. צמצום סיכונים והכנה לאימון הוא תהליך ביצוע ארוך, והאימון עצמו הוא גם פרויקט גדול מאוד.
אמין טוטונצ’יאן: אני חושב שהתהליך הזה דורש שיתוף פעולה הדוק בין צוות למידת המכונה לצוות המערכת מההתחלה, עד שאנחנו יודעים בבירור איזה מודל אנחנו רוצים לאמן, ואז מתחילים באימון.
עשינו תחזיות בלמידת מכונה ובמערכות, בניסיון למזער את הפער בין ציפיות למציאות. עם זאת, מכיוון שקצב העבודה שלנו מהיר מאוד ואנחנו צריכים להשתמש במשאבי המחשוב העדכניים ביותר, אימון מודלים הפך למשהו שקשה לתכנן מראש בצורה מושלמת.
אנחנו כמעט תמיד מתחילים אימון עם הרבה בעיות לא פתורות ומנסים להתגבר על אתגרים ולהתקדם במהלך התהליך. הפתרון העיקרי הוא להגדיל יותר משאבי מחשוב.
השלב הסופי הוא ביצוע, שדורש מהרבה אנשים להשקיע הרבה אנרגיה ומוטיבציה במשך זמן רב כדי להשלים את תהליך האימון.
סם אלטמן: כמה אתה חושב שהפער בין הציפיות שלנו למציאות?
אמין טוטונצ’יאן: מבחינת המערכת, בהתחלה, אנחנו בדרך כלל רחוקים מהמצב הצפוי. אנחנו תמיד עומדים בפני בחירה: האם לדחות את ההשקה ולהמתין עד שהבעיה תיפתר, או להתחיל מוקדם ולפתור את הבעיה בתהליך. זה תמיד דורש פשרות כדי להימנע מעיכובים לא סבירים בתהליך.
אבל כמעט תמיד יש בעיות בלתי צפויות, ומה שאנחנו צריכים לעשות זה להתמודד עם הצמתים האלה ככל האפשר, להתמודד עם הגורמים הלא ידועים ולגבש תוכנית לאימון מודלים.
אלכס פאינו: בפרויקט הזה, המטרה שלנו היא ליצור GPT-4.5, מה שאומר שהיכולות שלו צריכות להיות פי 10 חכמות יותר מ-GPT-4. זו המטרה הראשונית שהצבנו לפני כשנתיים.
הרבה דברים קרו בתהליך הזה. חשבנו על האם נוכל לעשות יותר טוב או גרוע מהצפוי? זה תהליך מסובך מאוד, אבל בסופו של דבר, מבחינת החישובים האפקטיביים שהכנסנו, קיבלנו מודל שאנחנו חושבים שהוא פי 10 חכם יותר מ-GPT-4.
אמין טוטונצ’יאן: מבחינת ביצוע, הזמן שהושקע בפרויקט GPT-4.5 רחוק ממה שציפינו בתחילה.
מהפכת הצוות המצומצם: אימון GPT-4 עם משאבים מינימליים
סם אלטמן: כשהאשכול התרחב מ-10,000 כרטיסים ל-100,000 כרטיסים, מדוע נתקלתם בכל כך הרבה בעיות?
אמין טוטונצ’יאן: אני חושב שאם מפתחי מערכות רגישים מספיק, ניתן לראות את רוב הבעיות בשלב בקנה מידה קטן.
יש גם כמה בעיות שאינן ייחודיות לשלב האימון בקנה מידה גדול, אבל במקור התרחשו לעתים קרובות, אבל יהפכו לבעיות קטסטרופליות לאחר הגדלת קנה המידה, במיוחד כאשר הצוות לא צפה מראש שהבעיות האלה יחמירו עד כדי כך.
סם אלטמן: אילו דברים גרמו לתוצאות הרסניות?
אמין טוטונצ’יאן: אני חושב שבעיות התשתית ידועות היטב. שיעור הכשלים, סוג הכשל, וכמות הכשלים הכוללת גבוהים מאוד. אשכול 100,000 הכרטיסים הוא מאגר דגימות בקנה מידה גדול, כך שגילינו גם בעיות שספק הכוח החישובי לא הבחין בהן.
הרשת היא חלק אחד ממנה, וגם למאיצים בודדים יכולות להיות בעיות. אבל זה גם היופי של המערכת הזו - כמעט כל הרכיבים צריכים לעבוד כצפוי כדי להפיק את התוצאות הצפויות. העבודה שלנו היא למזער את הבעיה הזו ככל האפשר.
סם אלטמן: אכן קשה לעבוד בגבול קנה המידה של האשכול, אבל שמתי לב שגם לעשות דברים שכבר לא בחזית הטכנולוגיה הפך להרבה יותר קל. אימון GPT-4.5 דורש מאות אנשים, וכמעט כולם ב-OpenAI מעורבים.
אבל היום, אם תיתן לך לבחור צוות קטן ביותר מ-OpenAI ולאמן מחדש את GPT-4 מאפס עם כל הידע שאנחנו יודעים וכל עבודת המערכת, כמה אנשים זה ידרוש?
אלכס פאינו: אני חושב שאולי יידרשו כ-5 עד 10 אנשים כדי ליצור מודל ברמת GPT-4 עכשיו. מחסנית הטכנולוגיה השתפרה מאוד בתהליך השלמת GPT-4.5.
למעשה, עשינו דברים דומים בתהליך של אימון GPT-4.5 - אימנו את GPT-4o, שהוא מודל ברמת GPT-4, ואימנו אותו מחדש באמצעות רבים מאותו תוכן מפרויקט המחקר GPT-4.5. פחות אנשים שימשו לאימון הזה.
יעילות נתונים: המפתח לפתיחת הדור הבא של מודלים
סם אלטמן: מנקודת המבט שלך, דן? מדוע קשה לאמן מודלים גדולים?
דניאל סלסם: אני חושב שקשה לעשות כל דבר חדש. אני חושב שאפילו רק לגלות שמישהו אחר עשה משהו מקל על זה בהרבה, כי החלק הקשה ביותר הוא להאמין מלכתחילה שאתה יכול לעשות משהו. אני חושב שרק לדעת שמשהו אפשרי זה קוד רמאות סופר, מה שהופך את הדברים להרבה יותר קלים.
אלכס פאינו: אנחנו מרחיבים את פעולת האימון המוקדם של GPT פי 10 ממה שהיה קודם, ואנחנו תמיד נמצא כמה דברים חדשים ומעניינים שאתה לא יכול בהכרח לצפות.
סם אלטמן: מה נדרש כדי להשיג את צמיחת 10x או 100x הבאה בסולם אימון מוקדם?
דניאל סלסם: יעילות נתונים. ארכיטקטורת ה-Transformer (שהיא GPT) יעילה מאוד בשימוש בנתונים. היא יכולה לספוג ולדחוס מידע היטב ולהשיג הכללה. התכונה הגדולה ביותר שלה היא שהיא יכולה לספוג ביעילות מידע עם משאבי מחשוב.
עם זאת, עומק התובנה שהיא משיגה מנתונים מוגבל. כאשר כוח המחשוב גדל במהירות בעוד שהנתונים גדלים יחסית לאט, הנתונים הופכים לצוואר בקבוק במודל הסטנדרטי הזה. זה דורש חדשנות אלגוריתמית, פיתוח שיטות שיכולות להשתמש ביותר כוח מחשוב כדי ללמוד יותר ידע מאותה כמות נתונים.
סם אלטמן: מה עוד אתה חושב שאנחנו צריכים כדי לשמור על הרחבה מלבד זה?
אמין טוטונצ’יאן: התשובה שלי היא על המערכת. אני חושב שהכמות העצומה של עבודה הנדרשת עבור GPT-4.5 היא בעצם התוצאה הבלתי נמנעת של מפרטי מודל. אנחנו לא יכולים לאמן את GPT-4.5 עם אותה ארכיטקטורה טכנית בדיוק כמו GPT-4.
מבחינת ניהול מצב, מכיוון שמשאבי המחשוב הנדרשים חרגו מיכולת הנשיאה של אשכול יחיד, אנחנו צריכים לעבור לארכיטקטורת אימון מרובת אשכולות. כדי להשיג מטרה זו, עלינו לשלב מספר זרימות עבודה שונות בתוך זמן קצר.
למרות שזה אכן עזר לנו להשיג פריצת דרך בשלבים, כדי להשיג את סדר הגודל הבא של שיפור ביצועים, אנחנו עדיין צריכים לפתור כמה בעיות טכניות ידועות אך מושהות זמנית - לא ניתן להימנע מבעיות אלה. זה סוג כזה של פשרה טכנית שמארכת כל הזמן את מחזור הפיתוח של מערכת מושלמת. אנחנו תמיד עושים פשרות אסטרטגיות בתהליך של חיפוש אחר תוכנית היישום האופטימלית.
צריך להיות ברור שהמערכת עצמה אינה המטרה הסופית. ערך התפוקה הממשי שלה הוא השיקול המרכזי. לשיפור הביצועים הבא של 10x, אני חושב שהפריצה בסובלנות תקלות היא קריטית. אנחנו צריכים לבנות מנגנון סובלני תקלות שמשתף פעולה באופן הדוק עם העומס כדי להפחית משמעותית את חרדת התפעול והתחזוקה. מורכבות התפעול והתחזוקה של המערכת הסופר-גדולה הנוכחית שונה באופן מהותי מזו של מערכות קודמות.
סם אלטמן: האם אתה יודע איזה אחוז מהכשלים נגרמו על ידי רכיבים מסוימים במהלך אימון GPT-4.5?
אמין טוטונצ’יאן: אין לי נתונים ספציפיים לחלוק, אך באופן כללי, הפריסה הראשונית של דור חדש של חומרה מתמודדת לעתים קרובות עם אתגרים טכניים רבים שלא הובנו במלואם. בחרנו לקדם את הפרויקט לפני שהבעיה התבררה במלואה, מה שהוביל לשיעור כשלים ראשוני גבוה.
אבל הניסיון מראה שככל שמזוהה ונפתר שורש הבעיה, שיעור הכשלים יופחת משמעותית. תופעה זו משקפת בעצם את העמקת ההבנה שלנו בתשתית - יש אנשים שקוראים לזה ניקוי התשתית או הבנת הבעיות הבסיסיות של התשתית.
השלבים המוקדמים של הביצוע כמעט תמיד די כואבים. בזמן שאנחנו מקדמים את הפרויקט, אנחנו גם מגלים ופותרים ברציפות מצבי כשל חדשים, אבל בסופו של דבר שיעור הכשלים יירד בהדרגה וזמן הריצה הרגיל יגדל.
זו בעצם שאלה של פשרות בסדרי עדיפויות: בשלבים המוקדמים של מחזור חיי התשתית, קשה לעתים קרובות להעריך במדויק את סיכון הכשל שלה; ואם אנחנו רודפים יתר על המידה אחר המצב האידיאלי האולטימטיבי (המקורי הוא ‘City Estate’, עיצוב עיר-מדינה אידיאלי), זה עלול להוביל לביצועי זמינות ראשוניים ירודים ביותר.
מעבר למחשוב: חדשנות אלגוריתמית והפוטנציאל הלא ממומש של נתונים
סם אלטמן: למרות שמודל ההסקות הוא מרכיב מפתח במחסנית הטכנולוגיה העתידית שלנו, בואו נתמקד זמנית בגבולות הפיתוח של מודלים מסורתיים לאימון מוקדם. בהנחה שיש לנו כוח מחשוב GPU בלתי מוגבל, רוחב פס רשת בלתי מוגבל, ואספקת חשמל בלתי מוגבלת, אך עדיין מוגבלים על ידי צווארי בקבוק טכניים קיימים - כולל בעיות אמינות מערכת, חוסר שיטות אימון סובלניות תקלות, ומגבלות של מערכות נתונים קיימות.
לפי כלל האבולוציה שלנו של השגת גידול בקנה מידה של 100 עבור כל מספר גרסת GPT עיקרי, בהתבסס על הגבולות הטכניים הנוכחיים, לאיזו רמה יכול להגיע הפיתוח של מודלים לאימון מוקדם? באופן ספציפי, עבור מודלי סדרת GPT, בהתבסס על מערכת הידע הקיימת שלנו, איזה סוג של מודל ניתן לאמן תיאורטית? האם אנחנו יכולים ליצור GPT-5.5?
אלכס פאינו: מנקודת המבט של למידת מכונה ופיתוח אלגוריתמים, עדיין לא הגענו לגבול תיאורטי ברור. למעשה, רק התחלנו לחקור אלגוריתמים עם יעילות נתונים גבוהה יותר וכיצד להשתמש באופן מלא יותר במשאבי נתונים קיימים. מצב זה מעניין מאוד - אפילו מודלים כמו GPT-4 מפותחים במידה רבה בתנאים של משאבי מחשוב מוגבלים, מה שקבע את כיוון רוב המחקרים הקודמים.
אבל המצב שונה לגמרי עכשיו. מאז GPT-4.5, בממדים מרכזיים מסוימים, נתונים ולא מחשוב הופכים לאילוץ העיקרי. שינוי זה הופך את המחקר הקשור לפחות מרגש.
סם אלטמן: אבל זו אכן התקדמות מדהימה, והעולם אולי לא מבין במלואו שמשאבי מחשוב הם כבר לא צוואר הבקבוק העיקרי במודל הטוב ביותר שאנחנו יכולים לבנות. שינוי זה משמעותי מאוד, אחרי הכל, חיינו בסביבה מוגבלת מבחינת מחשוב במשך זמן רב מדי.
חשיפת ההפתעות: יכולת חיזוי לעומת אינטליגנציה בלתי צפויה
סם אלטמן: מהו ניסיון למידת המכונה המעניין ביותר שלמדנו במהלך האימון של GPT-4.5? פשוט תגיד מה שאתה רוצה לשתף.
אמין טוטונצ’יאן: באופן כללי, הדברים המעוררים מחשבה ביותר הם אלה שחורגים מהתחזיות שלנו - במיוחד כאשר אנחנו מנסים להבין מדוע הביצועים בפועל חורגים מהעקומה הצפויה.
אלכס פאינו: אחת התגליות המפתיעות ביותר עבורנו היא שלרכיבי למידת מכונה שונים יש ביצועי מדרגיות שונים מאוד. חלקים מסוימים ניתנים להרחבה היטב, בעוד שאחרים לא. זה מה שהבנו באמת במהלך תהליך האימון בפועל. ניסיון זה נתן לנו הרבה השראה.
דניאל סלסם: אני חושב ששתי המאפיינים המרכזיים של פרדיגמת GPT הם: ראשית, ניתן לחזות במדויק את אובדן הבדיקה (מדד שמודד עד כמה המודל מתפקד טוב בנתוני בדיקה בלתי נראים); שנית, ביצועי המודל מראים שיפור צפוי עם הגידול בקנה המידה. מה שמדהים עוד יותר הוא שהירידה באובדן הבדיקה תתורגם לרמה משופרת כוללת של אינטליגנציה בדרכים קשות לכימות אך מדהימות ומסתוריות שונות.
סם אלטמן: האם אתה אופטימי לחלוטין לגבי זה? האם אתה מסכים לחלוטין עם נקודת המבט הזו?
דניאל סלסם: בעצם, מה שאני רוצה להגיד הוא שמצאנו תופעה מעניינת במיוחד בבדיקת GPT-4.5 - לאחר בדיקה חוזרת, היכולות המתוחכמות הרבות שהוצגו על ידי המודל חרגו לחלוטין מהציפיות של כולם.
אנחנו בטוחים שזה יהפוך לחכם יותר בדרכים שונות שקשה להגדיר מראש, וניתן לראות את השיפורים העדינים הללו משביעות רצון המשתמש לאחר פריסה בפועל: עתודות שכל ישר חזקות יותר, יכולת הבנה הקשרית מדויקת יותר, ויכולת תפיסה סמנטית עדינה יותר - זה הקסם שמביא אובדן הבדיקה הנוסף הזה. לדעתי, חוק קנה המידה אומת באופן מושלם בממד זה.
העוצמה של שיתוף פעולה: צוותי למידת מכונה ומערכות עובדים בהרמוניה
סם אלטמן: מה היה הרגע החיובי ביותר במהלך כל תהליך האימון? מה הזיכרון האהוב עליך? ברור שיש הרבה כאב, אבל אני מקווה שהכאב הזה הוקל.
אלכס פאינו: אכן יש לי רגע כזה. עשינו הרבה עבודת למידת מכונה במהלך האימון, ואני חושב שלחלק מהשינויים שעשינו במהלך התהליך הייתה השפעה טובה למדי, אולי אפילו טובה מהצפוי, וזה היה רגע מרגש מאוד עבורנו.
אמין טוטונצ’יאן: מבחינתי, במקביל לאימון, אנחנו גם בונים תשתית. אנחנו מאמינים בתוקף שאנחנו יכולים לחצות את צוק הביצועים הזה, ויש לנו תוכנית, וכולם מבצעים אותה, אבל זה לוקח הרבה זמן. זו עבודה קשה ובהחלט יותר קשה ממה שחשבתי. התחזית שלי הייתה שגויה, והערכתי בחסר את הזמן שיידרש כדי לפתור את הבעיות האלה.
הרגע שבו הצוות סוף סוף התגבר על הבעיות המרכזיות הללו והביצועים השתפרו משמעותית עדיין טרי בזיכרוני. אתה יכול להרגיש בבירור את שינוי האנרגיה בכל הצוות - כולם מלאים פתאום באנרגיה וממהרים לעבר המטרה הסופית עם מוטיבציה חדשה.
הדבר המדהים ביותר הוא שזמן ההשלמה המשוער המוצג במעקב הסטטוס שלנו המשיך להתקצר משנתיים הראשונות, ובסופו של דבר ננעל על צומת זמן ברור. התקדמות נראית לעין זו היא לאין ערוך לחיזוק המורל של הצוות. אני חושב שזה היופי שבזה.
אני רוצה להדגיש שעבודת למידת המכונה מעולם לא פסקה. גם לאחר תחילת האימון, תהליך העיצוב המשותף הזה של למידת המכונה עדיין מתנהל. צוות למידת המכונה לא רק עקב באופן פעיל אחר הבעיות שסומנו כ’עיבוד שלאחר מכן’, אלא גם המשיך לספק שיפורים שייעלו באמת את זמן האימון.
זה מגלם בצורה מושלמת את רוח הצוות שלנו - אין כאן גבול עבודה של ‘לטאטא את השלג מול הדלת שלך’, אלא שיתוף פעולה חלק באמת. הלכידות הזו היא היתרון הגדול ביותר שלנו.
תכנון קפדני ומרדף בלתי פוסק אחר אנומליות באימון מוקדם של GPT-4.5
דניאל סלסם: העולם החיצון דן הרבה על האתגרים והדיוק החיזוי של האימון הזה עצמו. אבל למעשה, כל זה בנוי על תכנון קפדני ביותר - האם תוכל לדבר על זה ביתר פירוט?
אלכס פאינו: זו בהחלט התוכנית הקפדנית ביותר שהכנו עד כה. כפי שאמרתי, התחלנו להתכונן לפרויקט זה שנה לפני ההשקה הרשמית של האימון. במהלך תקופה זו, ערכנו מספר רב של ניסויי בדיקות בקרת סיכונים בקנה מידה גדול.
אנו מקדישים תשומת לב מיוחדת להצגת כל השיפורים בהדרגה: החל מתצורה בסיסית בעלת אמון גבוה - אשר ניתן להבין כארכיטקטורה בוגרת הדומה ל-GPT-4, שלמדנו את התצורה הזו במלואה ברמת למידת המכונה - ולאחר מכן שכבת תכונות חדשות כמו אבני בניין.
המפתח הוא לאמת בקפדנות את יכולת המדרגיות של כל שיפור בקנה מידה שונה: לא רק כדי לראות שיפורי ביצועים, אלא גם כדי להבטיח שהשיפורים הללו ימשיכו להיות יעילים ככל שגודל המודל יגדל. שיפורים רבים מתפקדים היטב בבדיקות בקנה מידה קטן, אך ייכשלו ביישומים בקנה מידה גדול.
לכן, שמרנו על מידה גבוהה של ערנות לאורך התהליך וממשיכים לחזור ולשפר את מתודולוגיית חוק קנה המידה שלנו. באמצעות תרגול בקרת סיכונים זה, צברנו ניסיון רב ערך, שימשיך להנחות את הפיתוח של מודלים עתידיים מסדרת GPT.
אמין טוטונצ’יאן: אני זוכר רגע מעניין במיוחד שאני מתגעגע אליו מאוד. אתה יודע, אנחנו כמעט בלתי נמנעים נתקלים בבאגים שונים בכל פעם שאנחנו מתחילים משימת אימון, וזה דבר שבשגרה. אבל המפתח הוא להבטיח שההתקדמות לא תיפגע, ואנחנו חייבים תמיד לאשר האם ההתקדמות הנוכחית אכן נמצאת על המסלול הנכון והאם לבאגים האלה תהיה השפעה קטלנית על בריאות האימון.
למרות שבתחילה היינו בטוחים מאוד שיש פגמים גדולים, באמצעות מערכת הניטור כולה שבנינו, הצלחנו להבחין במדויק בשורש הבעיה: האם זה כשל חומרה? איזה סוג של כשל חומרה? האם זה נזק לנתונים? או שזה באג במודל למידת המכונה עצמו? או שזה מצב מירוץ בקוד?
באותה תקופה, היו לנו מספר אזורי דיון פתוחים בו זמנית, עם מגוון רחב של תסמינים. לאחר סדרה של תיקוני באגים, נקלענו למבוי סתום: מספר בעיות לא פתורות נערמו לפנינו, וכולם שברו את הראש - האם אלה נגרמו על ידי באגים שונים? או שזה באג שגורם לבעיות?
מאוחר יותר, ערכנו הצבעה וביקשנו מחברי הצוות להצביע על שורש הבעיה הסביר ביותר. כתוצאה מכך, האפשרות הפחות אופטימית פגעה באמת: התברר שיש בעיה בפונקציה torch.sum במעלה הזרם של PyTorch, פעולת סכום פשוטה.
הבאג הזה מעניין מאוד. אתה יודע שאנחנו משתמשים בעיקר בליבת טריטון, ורק בתרחישים שוליים חסרי משמעות מסוימים ניפול חזרה לפעולות torch. הבאג torch.sum שהופעל על ידי נתיב הקוד הספציפי שלנו יגרום מדי פעם לגישה בלתי חוקית לזיכרון עקב מאפייני חלוקת הנתונים - הוא עשה טעות בעת חישוב היסט הזיכרון.
הדבר הדרמטי ביותר הוא שכאשר מהנדס איתר סוף סוף את הבעיה והגיש תיקון, כל השגיאות עם תסמינים שונים נעלמו. כולם שינו בהתרגשות את ערוץ Slack מ’תאוריית הרב-באגים’ ל’תאוריית הבאגים היחיד’, והסצנה הייתה שמחה מאוד.
כמה זמן הבאג הזה מסתתר? הוא קיים מאז השלבים המוקדמים של האימון ולא נמצא עד ששורת ההתקדמות עברה כ-40%. גם תהליך הגילוי היה מלא דרמה: באותה תקופה, ליבה מורכבת קראה ברציפות לרצף, והקריאה השנייה עוררה גישה בלתי חוקית לזיכרון.
למרות שתדירות הקריסה הזו נמוכה במיוחד (היא מתרחשת רק פעם בכמה מאות או אפילו אלפי שלבי אימון), קל להתעלם ממנה ככשל מזדמן, אך עקרון הצוות שלנו הוא: לעולם אל תוותרו על כל חריגה. החלק הטוב ביותר בסיפור הזה טמון בהתמדה הזו של לא לוותר בקלות.
המסע אחר מערכות אידיאליות: אופק רחוק
סם אלטמן: לאחר תחילת האימון המוקדם של GPT-4.5, מה עוד עליכם לעשות?
אלכס פאינו: כולנו צריכים להתבונן בעקומת האובדן בתדירות גבוהה. בנוסף, עלינו לייעל ברציפות את המערכת ולשפר את העיצוב המשותף שלא הושלם לפני תחילת האימון. אנחנו עוקבים מקרוב אחר מדדים סטטיסטיים שונים במהלך תהליך האימון כדי לוודא שאין מגמות חריגות בלתי צפויות. במקביל, אנחנו חוקרים תוכניות שיפור אפשריות מנקודת מבט של למידת מכונה. למרות שעבודה ברמת הנתונים תצומצם זמנית לאחר תחילת האימון המוקדם, עדיין יש מספר רב של משימות לעיבוד.
אמין טוטונצ’יאן: אני חושב שלמידת מכונה תלויה במידה רבה בנכונות השיפוט. לאחר תחילת האימון המוקדם, מול מספר רב של אותות רעש, אנחנו כמו מגדי עתידות שמפרשים עלי תה, ואנחנו צריכים לשפוט האם המערכת בריאה. זו האחריות שלנו.
סם אלטמן: ברמת המערכת, מה מגביל אותנו מלקיים אימון מודלים? האם