Nvidia: הגדרת 'GPU' מחדש ועליית מחירי תשתית AI

תיקון מסקרן: Nvidia חושבת מחדש על ספירת ה-GPU שלה

בזירה עתירת ההימורים של חדשנות במוליכים למחצה, כנס טכנולוגיית ה-GPU (GTC) של Nvidia משמש במה מרכזית לחשיפת העתיד. במהלך הכנס האחרון שלה, בין ההכרזות הצפויות סביב התקדמויות בבינה מלאכותית ומחשוב מואץ, החברה הציגה שינוי עדין אך בעל פוטנציאל עמוק – שינוי באופן שבו היא מגדירה באופן יסודי יחידת עיבוד גרפי (GPU). זו לא הייתה רק הערת שוליים טכנית; זו הייתה כיול מחדש עם השלכות משמעותיות במורד הזרם, במיוחד בנוגע למבנה העלויות לפריסת פתרונות ה-AI המתקדמים של Nvidia.

המנכ”ל Jensen Huang עצמו התייחס לשינוי ישירות מבמת ה-GTC, ומסגר אותו כתיקון של השמטה קודמת בנוגע לארכיטקטורת Blackwell המתקדמת שלהם. “אחד הדברים שטעיתי בהם: Blackwell הוא למעשה שני GPUs בשבב Blackwell אחד,” הוא הצהיר. ההיגיון שהוצג התמקד בבהירות ועקביות, במיוחד בנוגע למוסכמות השמות הקשורות ל-NVLink, טכנולוגיית החיבור המהיר של Nvidia. “קראנו לשבב האחד הזה GPU וזה היה שגוי. הסיבה לכך היא שזה משבש את כל הנומנקלטורה של NVLink,” הסביר Huang. בעוד שפישוט מספרי הדגמים מציע מידה של סדר לוגי, הגדרה מחדש זו נושאת משקל רב מעבר לסמנטיקה בלבד.

ליבת השינוי טמונה במעבר מספירת המודולים הפיזיים (במיוחד, תצורת ה-SXM הנפוצה בשרתים בעלי ביצועים גבוהים) כ-GPUs בודדים לספירת ה-dies הנפרדים של הסיליקון בתוך אותם מודולים. התאמה זו, שנראית מינורית בטרמינולוגיה, טומנת בחובה פוטנציאל לשנות באופן דרמטי את הנוף הפיננסי עבור ארגונים הממנפים את חבילת התוכנה AI Enterprise של Nvidia.

אפקט האדווה הפיננסי: הכפלה של רישוי AI Enterprise?

Nvidia AI Enterprise היא פלטפורמת תוכנה מקיפה שנועדה לייעל את הפיתוח והפריסה של יישומי AI. היא כוללת מגוון רחב של כלים, מסגרות עבודה, ובאופן קריטי, גישה ל-Nvidia Inference Microservices (NIMs), שהם קונטיינרים ממוטבים להרצת מודלי AI ביעילות. מודל הרישוי עבור חבילה עוצמתית זו היה קשור היסטורית ישירות למספר ה-GPUs הפרוסים. מבני התמחור הנוכחיים מציבים את העלות על כ-$4,500 ל-GPU בשנה, או תעריף מבוסס ענן של $1 ל-GPU לשעה.

קחו בחשבון את הדור הקודם או תצורות Blackwell מסוימות. שרת Nvidia HGX B200, המצויד בשמונה מודולי SXM, כאשר כל מודול הכיל מה שנחשב אז ל-GPU Blackwell יחיד, היה דורש שמונה רישיונות AI Enterprise. זה תורגם לעלות מנוי תוכנה שנתית של $36,000 (8 GPUs * $4,500/GPU) או עלות ענן שעתית של $8 (8 GPUs * $1/GPU/hour).

כעת, היכנסו לנוף המוגדר מחדש עם מערכות כמו ה-HGX B300 NVL16. מערכת זו כוללת גם שמונה מודולי SXM פיזיים. עם זאת, תחת ההגדרה המתוקנת, Nvidia סופרת כעת כל die סיליקון בתוך מודולים אלה כ-GPU בודד. מכיוון שכל מודול בתצורה ספציפית זו מכיל שני dies, ספירת ה-GPU הכוללת למטרות רישוי מוכפלת למעשה ל-16 GPUs (8 מודולים * 2 dies/מודול).

בהנחה ש-Nvidia תשמור על מבנה התמחור הקיים שלה לכל GPU עבור חבילת AI Enterprise – נקודה שהחברה ציינה שעדיין לא סופית – ההשלכות ברורות. אותה מערכת HGX B300 בעלת שמונה מודולים תדרוש כעת פוטנציאלית 16 רישיונות, ותקפיץ את עלות התוכנה השנתית ל-$72,000 (16 GPUs * $4,500/GPU) או $16 לשעה בענן. זה מייצג עלייה של 100% בעלות מנוי התוכנה עבור צפיפות חומרה שנראית דומה, הנובעת ישירות מהשינוי באופן שבו נספר “GPU”.

סיפור של שתי ארכיטקטורות: יישוב הצהרות עבר

שינוי זה בנומנקלטורה מציג ניגוד מעניין לאפיונים הקודמים של Nvidia לארכיטקטורת Blackwell. כאשר Blackwell נחשפה לראשונה, התעוררו דיונים בנוגע לעיצובה, הכולל מספר פיסות סיליקון (dies) המחוברות יחד בתוך מארז מעבד יחיד. באותה עת, Nvidia התנגדה באופן פעיל לתיאור Blackwell באמצעות המונח ארכיטקטורת “chiplet” – מונח תעשייתי נפוץ לעיצובים המשתמשים במספר dies קטנים יותר ומחוברים ביניהם. במקום זאת, החברה הדגישה פרספקטיבה שונה.

כפי שדווח במהלך סיקור השקת Blackwell, Nvidia טענה שהיא השתמשה ב-“ארכיטקטורת die מוגבלת לשני רטיקולים הפועלת כ-GPU יחיד ומאוחד.” ניסוח זה רמז بقوة שלמרות הנוכחות הפיזית של שני dies, הם תפקדו באופן קוהרנטי כיחידת עיבוד לוגית אחת. שיטת הספירה החדשה שהוחלה על תצורת ה-B300 נראית כמתרחקת מתפיסת ה-“GPU היחיד והמאוחד” הזו, לפחות מנקודת מבט של רישוי תוכנה, ומתייחסת ל-dies כישויות נפרדות. זה מעלה שאלות האם התיאור הראשוני התמקד בעיקר בפוטנציאל התפקודי של החומרה או שהפרספקטיבה האסטרטגית על רישוי התפתחה.

שיפורי ביצועים לעומת עליות עלויות פוטנציאליות: הערכת הצעת ה-B300

כאשר שוקלים את ההכפלה הפוטנציאלית של דמי רישוי התוכנה עבור ה-HGX B300 בהשוואה לקודמיו כמו ה-B200, חיוני לבחון את שיפורי הביצועים המוצעים על ידי החומרה החדשה יותר. האם ה-B300 מספק פי שניים מכוח העיבוד של AI כדי להצדיק את ההכפלה הפוטנציאלית של עלויות התוכנה? המפרטים מציעים תמונה מורכבת יותר.

ה-HGX B300 אכן מתגאה בשיפורים:

  • קיבולת זיכרון מוגדלת: הוא מציע כ-2.3 Terabytes של זיכרון ברוחב פס גבוה (HBM) למערכת, קפיצה משמעותית של בערך פי 1.5 בהשוואה ל-1.5TB הזמינים ב-B200. זה חיוני לטיפול במודלי AI ומערכי נתונים גדולים יותר.
  • ביצועים משופרים בדיוק נמוך: ה-B300 מדגים שיפור ניכר בביצועים עבור חישובים המשתמשים בדיוק נקודה צפה של 4 סיביות (FP4). תפוקת ה-FP4 שלו מגיעה לקצת יותר מ-105 petaFLOPS צפופים למערכת, עלייה של כ-50% לעומת ה-B200. האצה זו מועילה במיוחד למשימות מסוימות של הסקת AI (inference) שבהן דיוק נמוך יותר מקובל.

עם זאת, יתרון הביצועים אינו אוניברסלי בכל עומסי העבודה. באופן מכריע, עבור משימות הדורשות אריתמטיקה של נקודה צפה בדיוק גבוה יותר (כגון FP8, FP16 או FP32), ה-B300 אינו מציע יתרון משמעותי בפעולות נקודה צפה לעומת מערכת ה-B200 הישנה יותר. משימות אימון AI מורכבות רבות ומחשוב מדעי מסתמכים במידה רבה על פורמטים אלה בדיוק גבוה יותר.

לכן, ארגונים המעריכים את ה-B300 עומדים בפני חישוב מורכב. הם מרוויחים קיבולת זיכרון משמעותית ושיפור בביצועי FP4, אך ההכפלה הפוטנציאלית של עלויות תוכנת AI Enterprise עשויה שלא להיות תואמת להכפלה מקבילה בביצועים עבור עומסי העבודה הספציפיים שלהם בדיוק גבוה יותר. הצעת הערך הופכת תלויה מאוד באופי משימות ה-AI המורצות.

ההצדקה הטכנית: חיבורים פנימיים ועצמאות

באופן מסקרן, מתודולוגיית ספירת ה-die החדשה הזו אינה מיושמת באופן אוניברסלי בכל מערכות Blackwell החדשות שהוכרזו ב-GTC. מערכות ה-GB300 NVL72 החזקות יותר, מקוררות בנוזל, למשל, ממשיכות לדבוק במוסכמה הישנה יותר, וסופרות את כל המארז (המכיל שני dies) כ-GPU יחיד למטרות רישוי. סטייה זו מעלה את השאלה: מדוע ההבדל?

Nvidia מספקת רציונל טכני המושרש בטכנולוגיית החיבור הפנימי בתוך מארזי ה-GPU עצמם. לדברי Ian Buck, סגן נשיא ומנהל כללי של Hyperscale ו-HPC ב-Nvidia, ההבחנה טמונה בנוכחות או היעדר של חיבור chip-to-chip (C2C) חיוני המקשר ישירות בין שני ה-dies בתוך המארז.

  • תצורת HGX B300: מארזי ה-Blackwell הספציפיים המשמשים במערכות HGX B300 מקוררות באוויר חסרים את חיבור ה-C2C הישיר הזה. כפי שהסביר Buck, בחירת עיצוב זו נעשתה כדי לייעל את צריכת החשמל וניהול התרמי בתוך מגבלות השלדה מקוררת האוויר. התוצאה, עם זאת, היא ששני ה-dies במודול B300 יחיד פועלים במידה רבה יותר של עצמאות. אם die אחד צריך לגשת לנתונים המאוחסנים בזיכרון ברוחב פס גבוה המחובר פיזית ל-die האחר באותו מודול, הוא אינו יכול לעשות זאת ישירות. במקום זאת, בקשת הנתונים חייבת לצאת מהמארז, לעבור דרך רשת ה-NVLink החיצונית (ככל הנראה דרך שבב מתג NVLink בלוח האם של השרת), ואז לחזור לבקר הזיכרון של ה-die השני. עיקוף זה מחזק את התפיסה שמדובר בשתי יחידות עיבוד נפרדות מבחינה תפקודית החולקות מארז משותף אך דורשות נתיבי תקשורת חיצוניים לשיתוף זיכרון מלא. הפרדה זו, טוענת Nvidia, מצדיקה את ספירתם כשני GPUs נפרדים.

  • תצורת GB300 NVL72: בניגוד לכך, מארזי ה-“Superchip” המשמשים במערכות GB300 המתקדמות יותר שומרים על חיבור ה-C2C המהיר. קישור ישיר זה מאפשר לשני ה-dies בתוך המארז לתקשר ולשתף משאבי זיכרון בצורה יעילה וישירה הרבה יותר, ללא צורך בעיקוף מחוץ למארז דרך מתג ה-NVLink. מכיוון שהם יכולים לתפקד בצורה קוהרנטית יותר ולשתף זיכרון בצורה חלקה, הם מטופלים, מנקודת מבט של תוכנה ורישוי, כ-GPU יחיד ומאוחד, בהתאם לתיאור ה-“מאוחד” הראשוני של ארכיטקטורת Blackwell.

הבחנה טכנית זו מספקת בסיס לוגי לשיטות הספירה השונות. ה-dies של ה-B300 מופרדים יותר מבחינה תפקודית בשל היעדר קישור ה-C2C, מה שמעניק אמינות לספירת שני ה-GPUs. ה-dies של ה-GB300 מחוברים היטב, ותומכים בספירת ה-GPU היחיד.

מבט אל העתיד: Vera Rubin קובעת את התקדים

בעוד שה-GB300 מייצג כיום חריג, גישת ספירת ה-die שאומצה עבור ה-B300 נראית כמצביעה על הכיוון העתידי של Nvidia. החברה כבר אותתה שהפלטפורמה מהדור הבא שלה, בשם הקוד Vera Rubin, המיועדת לשחרור בהמשך הדרך, תאמץ במלואה את הנומנקלטורה החדשה הזו.

מוסכמת השמות עצמה מציעה רמז. מערכות המבוססות על ארכיטקטורת Rubin מסומנות במספרים גבוהים, כגון NVL144. ייעוד זה מרמז بقوة על ספירת dies בודדים ולא מודולים. בהתאם להיגיון של ה-B300, מערכת NVL144 תורכב ככל הנראה ממספר מסויםשל מודולים, שכל אחד מהם מכיל מספר dies, שיסתכמו ל-144 dies של GPU הניתנים לספירה למטרות רישוי ומפרט.

מגמה זו בולטת עוד יותר במפת הדרכים של Nvidia לסוף 2027 עם פלטפורמת Vera Rubin Ultra. פלטפורמה זו מתגאה במספר מדהים של 576 GPUs למדף (rack). כפי שנותח בעבר, מספר מרשים זה אינו מושג על ידי דחיסת 576 מודולים פיזיים נפרדים למדף. במקום זאת, הוא משקף את פרדיגמת הספירה החדשה המיושמת באופן כפלני. הארכיטקטורה כוללת ככל הנראה 144 מודולים פיזיים למדף, אך כאשר כל מודול מכיל ארבעה dies סיליקון נפרדים. לפיכך, 144 מודולים כפול 4 dies למודול מניבים את נתון הכותרת של 576 “GPUs”.

פרספקטיבה צופה פני עתיד זו מציעה ששיטת ספירת ה-die של ה-B300 אינה רק התאמה זמנית למערכות ספציפיות מקוררות באוויר, אלא העיקרון הבסיסי לאופן שבו Nvidia מתכוונת לכמת את משאבי ה-GPU שלה בדורות הבאים. לקוחות המשקיעים באקוסיסטם של Nvidia צריכים לצפות שהשינוי הזה יהפוך לסטנדרט.

הגורם הבלתי מדובר: מקסום זרמי הכנסות מתוכנה?

בעוד שההסבר הטכני בנוגע לחיבור ה-C2C מספק רציונל לספירת ה-GPU הנפרדת של ה-B300, התזמון וההשלכות הפיננסיות המשמעותיות מובילים בהכרח לספקולציות לגבי מניעים עסקיים בסיסיים. האם הגדרה מחדש זו, שהוצגה בתחילה כתיקון של “טעות” בנומנקלטורה, יכולה לשמש גם כמנוף אסטרטגי להגברת הכנסות תוכנה חוזרות?

בשנה שחלפה מאז ש-Blackwell פורטה לראשונה עם המסר של “GPU יחיד ומאוחד”, סביר להניח ש-Nvidia זיהתה הזדמנות הכנסה משמעותית שנותרה בלתי מנוצלת. חבילת AI Enterprise מייצגת רכיב צומח ובעל רווחיות גבוהה בעסקי Nvidia. קשירת הרישוי שלה ישירות למספר ה-dies של הסיליקון, במקום למודולים פיזיים, מציעה נתיב להגדלה משמעותית של הכנסות התוכנה הנגזרות מכל פריסת חומרה, במיוחד כאשר ספירת ה-dies למודול עשויה לגדול בארכיטקטורות עתידיות כמו Vera Rubin Ultra.

כאשר נשאלה כיצד שינוי זה בהגדרת ה-GPU ישפיע באופן ספציפי על עלויות רישוי AI Enterprise עבור מערכות ה-B300 החדשות, Nvidia שמרה על מידה של עמימות. דובר החברה מסר שהפרטים הפיננסיים עדיין נשקלים. “פרטי התמחור עדיין מסוכמים עבור B300 ואין פרטים לחלוק על Rubin מעבר למה שהוצג בנאום המרכזי ב-GTC בשלב זה,” הצהיר הדובר, ואישר במפורש שזה כולל את מבנה התמחור עבור AI Enterprise בפלטפורמות אלה.

חוסר זה בתמחור סופי, יחד עם הכפלת ה-GPUs הניתנים לספירה בתצורות חומרה מסוימות, יוצר אי ודאות עבור לקוחות המתכננים השקעות עתידיות בתשתית AI. בעוד שההצדקות הטכניות קיימות, הפוטנציאל לעלייה משמעותית בעלויות מנוי התוכנה מרחף באוויר. השינוי מדגיש את החשיבות הגוברת של תוכנה בשרשרת הערך של המוליכים למחצה ואת האסטרטגיה הנראית לעין של Nvidia למנף בצורה יעילה יותר את פלטפורמת ה-AI המקיפה שלה על ידי התאמת מדדי הרישוי באופן הדוק יותר למורכבות הסיליקון הבסיסית. כאשר ארגונים מתקצבים מערכות AI מהדור הבא, ההגדרה של “GPU” הפכה פתאום למשתנה קריטי, ופוטנציאלית יקר הרבה יותר.