האם GPT-4.5 היה כישלון?

הגודל וההיקף של GPT-4.5

GPT-4.5 מייצג את המיזם השאפתני ביותר של OpenAI עד כה מבחינת גודל. למרות שפרטים מדויקים לגבי הארכיטקטורה ונתוני האימון שלו נותרו מעטים, ידוע שתהליך האימון היה כה אינטנסיבי מבחינה חישובית עד שהוא הצריך הפצה על פני מספר מרכזי נתונים. זה לבדו מרמז על המשאבים המונומנטליים שהושקעו בפיתוחו.

מבנה התמחור של המודל מדגיש עוד יותר את מיצובו כהיצע פרימיום. העלויות גבוהות משמעותית מאלו של קודמיו, ועולות על GPT-4o בפקטור של 15-30X, o1 ב-3-5X, ו-Claude 3.7 Sonnet ב-10-25X. הגישה מוגבלת כעת למנויי ChatGPT Pro (בעלות כבדה של 200 דולר לחודש) וללקוחות API המוכנים לשלם על בסיס אסימון.

עם זאת, שיפורי הביצועים, לפחות בתחומים מסוימים, לא ממש תאמו את תג המחיר. מבחני ביצועים ראשוניים חשפו שיפורים צנועים בלבד לעומת GPT-4o ואף הראו ש-GPT-4.5 מפגר אחרי מודלים כמו o1 ו-o3-mini במשימות חשיבה.

הבנת המטרה המיועדת של GPT-4.5

חשוב להכיר בכך ש-OpenAI מעולם לא שיווקה במפורש את GPT-4.5 כמודל הדגל שלה, לכל מטרה. למעשה, גרסאות מוקדמות של הפוסט בבלוג שלהם הבהירו שהוא לא נועד להיות “מודל חזית” שפורץ את הגבולות המוחלטים של היכולת. יתר על כן, הוא לא תוכנן בעיקר כמודל חשיבה, מה שהופך השוואות ישירות עם מודלים המותאמים למטרה זו (כמו o3 ו-DeepSeek-R1) למטעות במקצת.

OpenAI ציינה ש-GPT-4.5 יהיה המודל האחרון שלה שאינו שרשרת מחשבות (non-chain-of-thought). משמעות הדבר היא שהאימון שלו התמקד במידה רבה בהטמעת כמויות עצומות של ידע עולמי ובהתאמה להעדפות המשתמש, ולא בפיתוח יכולות חשיבה מורכבות.

היכן GPT-4.5 עשוי לזרוח: ידע וניואנסים

היתרון המרכזי של מודלים גדולים יותר טמון לעתים קרובות ביכולת המורחבת שלהם לרכישת ידע. GPT-4.5, בהתאם לעיקרון זה, מדגים נטייה מופחתת להזות בהשוואה למקביליו הקטנים יותר. זה הופך אותו לבעל ערך פוטנציאלי בתרחישים שבהם הקפדה על עובדות ומידע הקשרי היא בעלת חשיבות עליונה.

יתר על כן, GPT-4.5 מציג יכולת משופרת לעקוב אחר הוראות והעדפות המשתמש. זה הודגם בהדגמות שונות על ידי OpenAI ואושר על ידי חוויות משתמש ששותפו באינטרנט. נראה שהמודל תופס את הניואנסים של כוונת המשתמש בצורה יעילה יותר, מה שמוביל לפלטים מותאמים ורלוונטיים יותר.

הדיון על איכות הפרוזה: סובייקטיביות ופוטנציאל

דיון ער התעורר לגבי יכולתו של GPT-4.5 לייצר פרוזה מעולה. כמה מנהלים ב-OpenAI שיבחו את איכות הפלט של המודל, כאשר המנכ”ל סם אלטמן אף הציע שהאינטראקציה איתו סיפקה הצצה ל-“AGI” (בינה מלאכותית כללית) עבור כמה בודקים בעלי אבחנה.

עם זאת, התגובה הרחבה יותר הייתה מעורבת בהחלט. מייסד שותף של OpenAI, אנדריי קרפטי, צפה שיפורים במשימות פחות תלויות בחשיבה טהורה, תוך שימת דגש על תחומים כמו “EQ” (אינטליגנציה רגשית), יצירתיות, יצירת אנלוגיות והומור – היבטים שלעתים קרובות נתקלים במחסום של ידע עולמי והבנה כללית.

מעניין לציין שסקר שנערך לאחר מכן על ידי קרפטי חשף העדפה כללית של המשתמשים לתגובות של GPT-4o על פני אלו של GPT-4.5 מבחינת איכות הכתיבה. זה מדגיש את הסובייקטיביות המובנית בהערכת פרוזה ומציע שהנדסת הנחיות מיומנת עשויה להפיק איכות דומה ממודלים קטנים ויעילים יותר.

קרפטי עצמו הודה בעמימות התוצאות, והציע הסברים אפשריים שונים: בודקי ה-“high-taste” עשויים לתפוס שיפורים מבניים עדינים שאחרים החמיצו, הדוגמאות שנבדקו אולי לא היו אידיאליות, או שההבדלים עשויים להיות פשוט עדינים מכדי להבחין בהם במדגם קטן.

מגבלות ההרחבה ועתיד ה-LLMs

השחרור של GPT-4.5, במובנים מסוימים, מדגיש את המגבלות הפוטנציאליות של הרחבה פשוטה של מודלים שאומנו על מערכי נתונים עצומים. איליה סוצקבר, מייסד שותף נוסף של OpenAI ומדען ראשי לשעבר, אמר ב-NeurIPS 2024 ש”אימון מוקדם כפישאנו מכירים אותו יסתיים ללא ספק… הגענו לשיא הנתונים ולא יהיה יותר. אנחנו צריכים להתמודד עם הנתונים שיש לנו. יש רק אינטרנט אחד”.

התשואות הפוחתות שנצפו עם GPT-4.5 משמשות עדות לאתגרים של הרחבת מודלים לשימוש כללי שאומנו בעיקר על נתוני אינטרנט וכוונו להתאמה באמצעות למידת חיזוק ממשוב אנושי (RLHF).

החזית הבאה עבור מודלי שפה גדולים נראית כ-test-time scaling (או inference-time scaling). זה כרוך באימון מודלים “לחשוב” למשך זמן ארוך יותר על ידי יצירת אסימוני שרשרת מחשבות (CoT). הרחבת זמן הבדיקה משפרת את יכולתו של מודל להתמודד עם בעיות חשיבה מורכבות והייתה גורם מרכזי בהצלחתם של מודלים כמו o1 ו-R1.

לא כישלון, אלא בסיס

בעוד ש-GPT-4.5 אולי אינו הבחירה האופטימלית עבור כל משימה, חשוב להכיר בתפקידו הפוטנציאלי כמרכיב בסיסי להתקדמות עתידית. בסיס ידע חזק חיוני לפיתוח מודלים מתוחכמים יותר של חשיבה.

גם אם GPT-4.5 עצמו לא יהפוך למודל המומלץ עבור רוב היישומים, הוא יכול לשמש כאבן בניין מכרעת עבור מודלים עוקבים של חשיבה. אפילו סביר להניח שהוא כבר מנוצל בתוך מודלים כמו o3.

כפי שהסביר מארק צ’ן, מנהל המחקר הראשי של OpenAI, “אתה צריך ידע כדי לבנות חשיבה על גביו. מודל לא יכול להיכנס בעיוורון ופשוט ללמוד חשיבה מאפס. אז אנחנו מוצאים ששתי הפרדיגמות האלה די משלימות, ואנחנו חושבים שיש להן לולאות משוב זו על זו”.

הפיתוח של GPT-4.5, אם כן, מייצג לא מבוי סתום, אלא צעד אסטרטגי בהתפתחות המתמשכת של מודלי שפה גדולים. זוהי עדות לאופי האיטרטיבי של מחקר AI, שבו כל צעד, גם אם נראה לכאורה לא מרשים בפני עצמו, תורם להתקדמות הרחבה יותר לקראת מערכות AI בעלות יכולת ורב-תכליתיות רבה יותר. המיקוד עובר כעת למינוף בסיס הידע החזק הזה כדי לבנות מודלים שיכולים לא רק להיזכר במידע אלא גם לחשוב ולפתור בעיות ביעילות חסרת תקדים. המסע לקראת AI אינטליגנטי באמת נמשך, ו-GPT-4.5, למרות קבלת הפנים המעורבת שלו, ממלא תפקיד משמעותי במסע הזה.
המיקוד כעת הוא לא רק על כמה מודל יודע, אלא עד כמה הוא יכול להשתמש בידע הזה. זהו האתגר המרכזי שקהילת ה-AI מתמודדת איתו, ו-GPT-4.5, למרות שאינו פתרון מושלם, מספק תובנות חשובות ובסיס איתן לפריצות דרך עתידיות. הדרך קדימה כוללת שילוב של גישות: חידוד טכניקות קיימות, חקירת ארכיטקטורות חדשות ופיתוח שיטות מתוחכמות יותר לאימון והערכה. המטרה הסופית נותרה זהה: ליצור מערכות AI שיכולות לא רק להבין וליצור שפה אנושית אלא גם לחשוב, ללמוד ולהסתגל בדרכים שנחשבו בעבר לתחום הבלעדי של האינטליגנציה האנושית.