מודלי הסקה, שהוכרזו כקפיצת המדרגה הגדולה הבאה באבולוציה של מודלי שפה גדולים (LLMs), הוכיחו התקדמות ניכרת, במיוחד בתחומים הדורשים פתרון בעיות מורכב, כמו מתמטיקה ותכנות מחשבים. מערכות מתוחכמות אלה, המזוהות על ידי שלב “אימון הסקה” נוסף, ממנפות למידת חיזוק כדי לכוונן את יכולותיהן להתמודדות עם אתגרים מורכבים. o3 של OpenAI בולט כדוגמה חלוצית, המציגה רווחי ביצועים משמעותיים על פני קודמו, o1, על פי הערכות בנצ’מרק. השאלה המרכזית המרחפת כעת מעל התחום היא קיימות ההתקדמות הזו. האם מודלים אלה יכולים להמשיך להתקדם באותו קצב פשוט על ידי הגדלת כוח המחשוב?
Epoch AI, ארגון מחקר המתמקד בהשפעות החברתיות של בינה מלאכותית, לקח על עצמו את המשימה לפענח שאלה זו. ג’וש יו, אנליסט נתונים ב- Epoch AI, ערך ניתוח מקיף כדי לקבוע את הרמות הנוכחיות של השקעה חישובית באימון הסקה ולהעריך את הפוטנציאל הנותר להתרחבות.
הגל החישובי מאחורי מודלי הסקה
OpenAI הצהירה בפומבי כי o3 אומן עם פי עשרה ממשאבי המחשוב המוקדשים להסקה בהשוואה ל- o1 - עלייה ניכרת שהושגה תוך ארבעה חודשים בלבד. תרשים שהופק על ידי OpenAI ממחיש באופן חי את הקשר ההדוק בין כוח מחשוב לביצועים על בנצ’מרק המתמטיקה AIME. Epoch AI משערת שנתונים אלה מתייחסים במיוחד לשלב השני של האימון, אימון ההסקה, ולא לתהליך אימון המודל השלם.
כדי להכניס נתונים אלה לפרופורציות, Epoch AI בחנה מודלים דומים. DeepSeek-R1, לדוגמה, שאומן לפי הדיווחים עם כ- 6e23 FLOP (פעולות נקודה צפה בשנייה) בעלות משוערת של מיליון דולר, השיג תוצאות בנצ’מרק דומות ל- o1.
ענקיות הטכנולוגיה Nvidia ו- Microsoft תרמו גם הן לפיתוח של מודלי הסקה, וסיפקו נתוני אימון נגישים לציבור. Llama-Nemotron Ultra 253B של Nvidia השתמש בכ- 140,000 שעות GPU H100, השווים בערך ל- 1e23 FLOP, עבור שלב אימון ההסקה שלו. Phi-4-reasoning של מיקרוסופט השתמש אפילו בפחות כוח מחשוב, מתחת ל- 1e20 FLOP. גורם מכריע המבדיל בין מודלים אלה הוא התלות הכבדה שלהם בנתוני אימון סינתטיים שנוצרו על ידי מערכות AI אחרות. Epoch AI מדגישה כי תלות זו מקשה על השוואות ישירות עם מודלים כמו o3 בגלל ההבדלים המובנים בין נתונים אמיתיים לסינתטיים והשפעתם על למידה והכללה של מודלים.
הגדרת “אימון הסקה”: תחום אפלולי
רובד מורכבות נוסף נובע מהיעדר הגדרה מקובלת אוניברסלית של “אימון הסקה”. בנוסף ללמידת חיזוק, חלק מהמודלים משלבים טכניקות כמו כוונון עדין בפיקוח. העמימות סביב הרכיבים הכלולים בהערכות חישוביות מציגה אי-עקביות, מה שמקשה על השוואה מדויקת של משאבים בין מודלים שונים.
נכון לעכשיו, מודלי הסקה עדיין צורכים כוח מחשוב משמעותית פחות מריצות אימון ה- AI הנרחבות ביותר, כמו Grok 3, החורגות מ- 1e26 FLOP. שלבי אימון הסקה עכשוויים פועלים בדרך כלל בין 1e23 ל- 1e24 FLOP, ומשאירים מקום ניכר להתרחבות פוטנציאלית - או כך נראה במבט ראשון.
דריו אמודי, מנכ”ל Anthropic, חולק השקפה דומה. הוא מעלה כי השקעה של מיליון דולר באימון הסקה יכולה להניב התקדמות משמעותית. עם זאת, חברות בוחנות באופן פעיל דרכים להגדיל את התקציב לשלב אימון משני זה למאות מיליוני דולרים ומעלה, דבר המצביע על עתיד שבו הכלכלה של האימון משתנה באופן דרמטי.
אם המגמה הנוכחית של עליות פי עשרה בערך בכוח המחשוב כל שלושה עד חמישה חודשים תימשך, חישוב אימון ההסקה עלול להדביק את חישוב האימון הכולל של מודלים מובילים כבר בשנה הבאה. עם זאת, ג’וש יו צופה שהצמיחה תואט בסופו של דבר לכ- 4x עלייה בשנה, בהתאם למגמות רחבות יותר בתעשייה. האטה זו צפויה להיגרם על ידי שילוב של גורמים, כולל תפוקה פוחתת על השקעה באימונים, העלות הגוברת של משאבי חישוב והמגבלות של נתוני האימון הזמינים.
מעבר לחישוב: צווארי הבקבוק באופק
Epoch AI מדגישה כי כוח המחשוב אינו הגורם המגביל היחיד. אימון הסקה דורש כמויות ניכרות של משימות מאתגרות באיכות גבוהה. השגת נתונים כאלה היא קשה; יצירתם באופן סינתטי קשה עוד יותר. הבעיה עם נתונים סינתטיים היא לא רק אותנטיות; רבים טוענים שהאיכות ירודה. בנוסף, יעילות גישה זו מחוץ לתחומים מובנים מאוד כמו מתמטיקה ותכנות מחשבים נותרה לא ודאית. עם זאת, פרויקטים כמו “מחקר מעמיק” ב- ChatGPT, המשתמשים בגרסה מותאמת אישית של o3, מצביעים על פוטנציאל ליישום רחב יותר.
משימות מאחורי הקלעים עתירות עבודה, כגון בחירת משימות מתאימות, תכנון פונקציות תגמול ופיתוח אסטרטגיות אימון, מציבות גם הן אתגרים. עלויות פיתוח אלה, שלעתים קרובות אינן נכללות בהערכות חישוביות, תורמות באופן משמעותי לעלות הכוללת של אימון הסקה.
למרות אתגרים אלה, OpenAI ומפתחים אחרים נותרים אופטימיים. כפי שמציין Epoch AI, עקומות קנה מידה עבור אימון הסקה דומות כיום להתקדמות הלוגריתמית-ליניארית הקלאסית שנצפתה באימון מוקדם. יתר על כן, o3 מדגים רווחים ניכרים לא רק במתמטיקה אלא גם במשימות תוכנה מבוססות סוכנים, דבר המצביע על הפוטנציאל הרב-תכליתי של גישה חדשה זו.
עתיד התקדמות זו תלוי ביכולת ההרחבה של אימון הסקה - מבחינה טכנית, כלכלית ובמונחי תוכן. הנקודות הבאות בוחנות מספר גורמי מפתח שיקבעו את עתידם של מודלים אלה:
- יכולת הרחבה טכנית: מתייחסת ליכולת להגדיל את משאבי המחשוב המשמשים באימון מבלי להיתקל במכשולים טכניים בלתי עבירים. זה כולל התקדמות בחומרה, תוכנה ואלגוריתמים כדי להשתמש ביעילות במערכות נתונים גדולות יותר ובתשתית מחשוב חזקה יותר. ככל שמודלים גדלים בגודלם ובמורכבותם, יכולת הרחבה טכנית הופכת לקריטית יותר ויותר להמשך ההתקדמות. האדריכלות הבסיסית תצטרך להתפתח כדי לעמוד בקצב עם סולם המודלים.
- יכולת הרחבה כלכלית: כרוכה בהיתכנות של הגדלת משאבי מחשוב במגבלות תקציב סבירות. אם עלות האימון גדלה באופן ליניארי או אקספוננציאלי עם גודל המודל, זה עלול להיות יקר מדי מכדי להמשיך ברווחים נוספים. ככזה, אימון זול ויעיל יותר עשוי להיות הכרחי. חידושים בחומרה ובטכניקות אופטימיזציה המפחיתים את העלות לכל FLOP הם קריטיים ליכולת הרחבה כלכלית. המגמה הייתה להתמקד במודלים גדולים יותר ויותר, אך עם תקציב מוגבל, התמריצים יעברו לאימון המודלים היעילים ביותר.
- יכולת הרחבת תוכן: מדגישה את הזמינות של נתוני אימון איכותיים שיכולים להניע ביעילות רווחים ביכולת ההסקה. ככל שהמודלים נעשים מתוחכמים יותר, יש צורך במערכות נתונים קשות ומגוונות יותר כדי לאתגר אותם ולמנוע התאמת יתר. הזמינות של מערכות נתונים כאלה מוגבלת, במיוחד בתחומים הדורשים הסקה מורכבת. טכניקות יצירת נתונים סינתטיים יכולות לעזור להקל על צוואר בקבוק זה, אך עליהן להיות מתוכננות בקפידה כדי למנוע הטיות או אי דיוקים שעלולים לפגוע בביצועי המודל.
עתיד המחשוב
קל לנו כהדיוטות לחשוב שאנחנו נמצאים בנתיב של מחשוב אינסופי. עם זאת, במציאות, הוא מוגבל, ובעתיד, המגבלה הזו עלולה להיות בולטת יותר. בסעיף זה, נחקור כמה דרכים שבהן מחשוב עשוי להתפתח בעתיד וכיצד שינויים אלה ישפיעו על תעשיית ה- LLM.
מחשוב קוונטי
מחשוב קוונטי מייצג שינוי פרדיגמה בחישוב, תוך מינוף עקרונות המכניקה הקוונטית כדי לפתור בעיות שאינן ניתנות לפתרון עבור מחשבים קלאסיים. למרות שהוא עדיין בשלביו הראשונים, מחשוב קוונטי טומן בחובו פוטנציאל עצום להאצת עומסי עבודה של AI, כולל אימון מודלים הסקה. אלגוריתמים קוונטיים כמו חישול קוונטי ופותרים עצמיים קוונטיים וריאציונים (VQEs) יכולים לייעל את פרמטרי המודל ביעילות רבה יותר משיטות אופטימיזציה קלאסיות, ולהפחית את משאבי המחשוב הנדרשים לאימון. לדוגמה, אלגוריתמים של למידת מכונה קוונטית יכולים לשפר את האופטימיזציה של רשתות עצביות מורכבות, מה שיוביל לזמני אימון מהירים יותר ולביצועי מודל טובים יותר.
עם זאת, אתגרים משמעותיים עדיין קיימים בהגדלת מחשבים קוונטיים ופיתוח אלגוריתמים קוונטיים חזקים. הטכנולוגיה עדיין ברובה ניסיונית, ומחשבים קוונטיים מעשיים עם מספיק קיוביטים (ביטים קוונטיים) וזמני קוהרנטיות עדיין אינם זמינים בקלות. יתר על כן, פיתוח אלגוריתמים קוונטיים המותאמים למשימות AI ספציפיות דורש מומחיות מיוחדת והוא תחום מחקר מתמשך. אימוץ נרחב של מחשוב קוונטי ב- AI נותר מספר שנים אחורה וסביר שיהיה מעשי רק לאחר שמחשבים יהיו זמינים.
מחשוב נוירומורפי
מחשוב נוירומורפי מחקה את המבנה והתפקוד של מוח האדם לביצוע חישובים. שלא כמו מחשבים מסורתיים המסתמכים על לוגיקה בינארית ועיבוד רציף, שבבים נוירומורפיים משתמשים בנוירונים מלאכותיים וסינפסות כדי לעבד מידע באופן מקבילי ויעיל באנרגיה. ארכיטקטורה זו מתאימה היטב למשימות AI הכוללות זיהוי תבניות, למידה והתאמה, כגון אימון מודלים הסקה. שבבים נוירומורפיים יכולים להפחית את צריכת האנרגיה ואת זמן האחזור הקשורים לאימון מודלי AI גדולים, ולהפוך אותו לכדאי יותר מבחינה כלכלית ובת קיימא מבחינה סביבתית.
Loihi של אינטל ו- TrueNorth של IBM הן דוגמאות לשבבים נוירומורפיים שהדגימו תוצאות מבטיחות ביישומי AI. שבבים אלה מסוגלים לבצע משימות AI מורכבות עם צריכת חשמל נמוכה משמעותית בהשוואה למעבדים מרכזיים ומעבדים גרפיים מסורתיים. עם זאת, מחשוב נוירומורפי הוא עדיין תחום חדש יחסית, ואתגרים נותרו בפיתוח כלי תכנות חזקים ואופטימיזציה של אלגוריתמים עבור ארכיטקטורות נוירומורפיות. יתר על כן, הזמינות המוגבלת של חומרה נוירומורפית והיעדר מומחיות נרחבת במחשוב נוירומורפי עיכבו את האימוץ של טכנולוגיה זו ביישומי AI מיינסטרים.
מחשוב אנלוגי
מחשוב אנלוגי משתמש בכמויות פיזיות רציפות, כגון מתח או זרם, כדי לייצג ולעבד מידע, ולא באותות דיגיטליים בדידים. מחשבים אנלוגיים יכולים לבצע פעולות מתמטיות מסוימות, כגון משוואות דיפרנציאליות ואלגברה ליניארית, הרבה יותר מהר ויעיל ממחשבים דיגיטליים, במיוחד במשימות שעשויות להיות שימושיות להסקה. חישוב אנלוגי יכול להיות שימושי לאימון מודלים או להפעלת הסקה בעת הצורך.
עם זאת, מחשוב אנלוגי מתמודד עם אתגרים בדיוק, יכולת הרחבה ויכולת תכנות. מעגלים אנלוגיים רגישים לרעש וסחף, מה שעלול לפגוע בדיוק החישובים. הגדלת מחשבים אנלוגיים לטיפול במודלי AI גדולים ומורכבים היא גם אתגר טכני. יתר על כן, תיכנות מחשבים אנלוגיים דורש בדרך כלל מומחיות מיוחדת וקשה יותר מתיכנות מחשבים דיגיטליים. למרות אתגרים אלה, יש עניין גובר במחשוב אנלוגי כחלופה אפשרית למחשוב דיגיטלי עבור יישומי AI ספציפיים, במיוחד אלה הדורשים מהירות גבוהה ויעילות אנרגטית.
מחשוב מבוזר
מחשוב מבוזר כולל הפצת עומסי עבודה של AI על פני מספר מכונות או מכשירים המחוברים באמצעות רשת. גישה זו מאפשרת לארגונים למנף את כוח המחשוב הקיבוצי של מספר גדול של משאבים כדי להאיץ אימון והסקה של AI. מחשוב מבוזר חיוני לאימון מודלי שפה גדולים (LLMs) ומודלי AI מורכבים אחרים הדורשים מערכות נתונים מסיביות ומשאבי מחשוב.
מסגרות כמו TensorFlow, PyTorch ו- Apache Spark מספקות כלים וממשקי API להפצת עומסי עבודה של AI על פני אשכולות של מכונות. מסגרות אלה מאפשרות לארגונים להגדיל את יכולות ה- AI שלהם על ידי הוספת משאבי מחשוב נוספים לפי הצורך. עם זאת, מחשוב מבוזר מציג אתגרים בניהול נתונים, תקורה תקשורתית וסנכרון. הפצה יעילה של נתונים על פני מספר מכונות ומזעור עיכובים בתקשורת הם קריטיים למקסום הביצועים של מערכות Ai מבוזרות. בנוסף, הבטחה שהמכונות או המכשירים השונים מסונכרנים ומתואמים כראוי חיונית להשגת תוצאות מדויקות ואמינות.
מסקנה
המסלול של מודלי הסקה שזור ללא ספק בזמינות וביכולת ההרחבה של משאבי מחשוב. אמנם קצב ההתקדמות הנוכחי המונע על ידי מחשוב מוגבר הוא מרשים, אך מספר גורמים, כולל המחסור בנתוני אימון באיכות גבוהה, העלות הגוברת של מחשוב והופעתן של פרדיגמות מחשוב חלופיות, מצביעים על כך שתקופת קנה המידה הבלתי מוגבלת של מחשוב עשויה להתקרב לסיומה. עתיד המודלים של ההסקה יהיה תלוי כנראה ביכולתנו להתגבר על מגבלות אלה ולחקור גישות חדשות לשיפור יכולות ה- AI. עם כל המידע הזה, אנו יכולים להניח שהעלייה ביכולות מודל ההסקה עלולה להתחיל בקרוב להאט בגלל אחד מהאילוצים הרבים שנדונו.