אסטרטגיית Nvidia: בינה מלאכותית סוכנים

אסטרטגיית החומרה: הגדלה אנכית ואופקית

Nvidia שמה לעצמה למטרה את הגל העתידי של בינה מלאכותית מבוססת סוכנים (agent-based AI), תחום שמבטיח להציב דרישות חסרות תקדים על יכולות ההיקש (inference capabilities). כדי לעמוד באתגר זה, Nvidia חשפה אסטרטגיה מקיפה הכוללת חידושים בתחום החומרה והתוכנה כאחד.

בבסיס אסטרטגיית החומרה של Nvidia טמונה השאיפה הבלתי פוסקת למעבדים גרפיים (GPU) חזקים יותר ויותר. החברה נוקטת בגישה דו-כיוונית, ומתמקדת תחילה בהגדלה אנכית (vertical scaling), ולאחר מכן בהגדלה אופקית (horizontal scaling). המטרה היא לא רק לפתח מחשב-על יחיד וחזק במיוחד של בינה מלאכותית במארז אחד, אלא ליצור מערכת אקולוגית שלמה של מארזים מחוברים זה לזה, היוצרים מתחם עצום של מחשב-על לבינה מלאכותית. גישה זו של ‘מפעל בינה מלאכותית’ (AI factory) נועדה לספק את הכוח החישובי הנדרש עבור עומסי העבודה התובעניים ביותר של בינה מלאכותית.

מחשב העל החדש Blackwell Ultra המותקן על מתקן (rack-mounted AI supercomputer), שנחשף בכנס ה-GTC האחרון, מדגים אסטרטגיה זו. Blackwell Ultra, שתוכנן להאיץ הן את האימון והן את היקש קנה המידה בזמן הבדיקה (test-time scaling inference), ממנף את ארכיטקטורת Blackwell הקיימת אך משלב את GB300 NVL72 החזק יותר. תצורה זו כוללת 72 מעבדים גרפיים מסוג Blackwell Ultra המחוברים ביניהם באמצעות NVLink, המספקים הספק מחשוב מדהים של 1.1 אקסאפלופס (Exaflops) של דיוק FP4. ה-GB300 NVL72 מתגאה בביצועי בינה מלאכותית הגדולים פי 1.5 מביצועי ה-GB200 NVL72. מערכת DGS GB300 בודדת מציעה 15 אקסאפלופס של מחשוב. ה-Blackwell Ultra, שמיועד לשחרור במחצית השנייה של 2025, ייתמך על ידי מגוון רחב של ספקי ציוד שרתים, כולל סיסקו (Cisco), דל (Dell), HPE, לנובו (Lenovo), ASUS, פוקסקון (Foxconn), גיגהבייט (Gigabyte), פגטרון (Pegatron) וקואנטה (Quanta). בנוסף, ספקי שירותי ענן כמו AWS, GCP ואזור (Azure) יציעו שירותי מחשוב המבוססים על Blackwell Ultra.

מעבר למערכות מפעל הבינה המלאכותית ברמת תחנת הכוח הללו, Nvidia הציגה גם קו מחשבים חדש שמכוון לצרכי היקש בתוך ארגונים. אלה כוללים את מחשבי הבינה המלאכותית האישיים DGX Spark ו-DGX Station. ה-DGX Spark, הדומה בגודלו למק מיני (Mac mini), מספק עד 1 פטהפלופס (PFlops) של כוח מחשוב.

כדי להעמיד זאת בפרספקטיבה, מחשב העל טאיוואניה 3 (Taiwania 3), שהושק בשנת 2021 עם למעלה מ-50,000 ליבות, מספק רק 2.7 פטהפלופס של ביצועים. תוך ארבע שנים בלבד, כוח המחשוב של שלושה מחשבי בינה מלאכותית אישיים בגודל שולחן עבודה עלה על זה של טאיוואניה 3. מחשבי הבינה המלאכותית האישיים החדשים הללו, שמחירם 3,999 דולר (כ-130,000 NT$) עבור תצורת זיכרון של 128GB, נועדו להפעיל את צרכי הבינה המלאכותית הפנימיים העתידיים בתוך ארגונים, ולשמש כמפעלי בינה מלאכותית מיניאטוריים או אפילו לפעול בסביבות בינה מלאכותית קצה (edge AI environments).

מפת הדרכים העתידית: ורה רובין ומעבר לה

במבט קדימה, מנכ’ל Nvidia, ג’נסן הואנג (Jensen Huang), הציג מפת דרכים למוצרים לשנתיים הקרובות. במחצית השנייה של 2026, החברה מתכננת לשחרר את ורה רובין NVL144, על שמה של האסטרונומית האמריקאית שגילתה את החומר האפל. ורה רובין NVL144 תציע פי 3.3 מהביצועים של GB300 NVL72, כאשר קיבולת הזיכרון, רוחב הפס ומהירויות NVLink יגדלו ביותר מפי 1.6. במחצית השנייה של 2027, Nvidia תשיק את רובין אולטרה NVL576, שתספק פי 14 מהביצועים של GB300 NVL72, עם קיבולת זיכרון ומהירויות רוחב פס משופרות משמעותית באמצעות NVLink7 ו-CX9.

לאחר ארכיטקטורת ורה רובין, הארכיטקטורה מהדור הבא של Nvidia תיקרא על שמו של הפיזיקאי האמריקאי הנודע ריצ’רד פיינמן (Richard Feynman), הידוע בעבודתו על חקירת אסון מעבורת החלל צ’לנג’ר.

אסטרטגיית התוכנה: Nvidia Dynamo

Nvidia תמיד שמה דגש חזק על תוכנה, ורואה אותה כחשובה עוד יותר מחומרה. מיקוד אסטרטגי זה חל גם על יוזמות מפעל הבינה המלאכותית של החברה.

בנוסף להרחבת ספריית האצת הבינה המלאכותית CUDA-X לתחומים שונים ופיתוח ספריות האצה מיוחדות, Nvidia הציגה את Nvidia Dynamo, מערכת הפעלה חדשה של מפעל בינה מלאכותית. באופן משמעותי, Nvidia הפכה את מערכת ההפעלה הזו לקוד פתוח.

Nvidia Dynamo היא מסגרת שירות היקשים בקוד פתוח (open-source inference service framework) שנועדה לבנות פלטפורמות המספקות שירותי היקש LLM. ניתן לפרוס אותה בסביבות K8s ולהשתמש בה כדי לפרוס ולנהל משימות היקש AI בקנה מידה גדול. Nvidia מתכננת לשלב את Dynamo במסגרת המיקרו-שירותים NIM שלה, ולהפוך אותה לרכיב במסגרת Nvidia AI Enterprise.

Dynamo הוא הדור הבא של פלטפורמת שרת ההיקשים בקוד פתוח הקיימת של Nvidia, טריטון (Triton). התכונה העיקרית שלה היא חלוקת משימות היקש LLM לשני שלבים, המאפשרת ניצול גמיש ויעיל יותר של מעבדים גרפיים כדי לייעל את עיבוד ההיקשים, לשפר את היעילות ולמקסם את ניצול המעבדים הגרפיים. Dynamo יכולה להקצות באופן דינמי מעבדים גרפיים בהתבסס על דרישות ההיקש ולהאיץ העברת נתונים אסינכרונית בין מעבדים גרפיים, ובכך להפחית את זמני התגובה של היקש מודל.

מודלים של GAI מבוססי שנאים מחלקים את ההיקש לשני שלבים: Prefill (קדם-קלט), שממיר נתוני קלט לאסימונים לאחסון, ו-Decode, תהליך רציף שמייצר את האסימון הבא בהתבסס על הקודם.

היקש LLM מסורתי מקצה אתמשימות Prefill ו-Decode לאותו מעבד גרפי. עם זאת, בשל המאפיינים החישוביים השונים של משימות אלה, Dynamo מפצלת אותן, ומקצה משאבי מעבד גרפי בהתאם ומתאימה באופן דינמי את ההקצאה בהתבסס על מאפייני המשימה. זה מייעל את ביצועי אשכול המעבדים הגרפיים.

בדיקות של Nvidia מראות ששימוש ב-Dynamo עם מודל DeepSeek-R1 בעל 671 מיליארד פרמטרים ב-GB200 NVL72 יכול לשפר את ביצועי ההיקש פי 30. ניתן גם לשפר את הביצועים ב-Llama 70B הפועל על מעבדים גרפיים מסוג Hopper ביותר מפי שניים.

ניהול משימות היקש הוא מורכב בשל האופי המסובך של חישוב ההיקש ומגוון מודלים של עיבוד מקבילי. הואנג הדגיש כי Nvidia השיקה את מסגרת Dynamo כדי לספק מערכת הפעלה למפעלי בינה מלאכותית.

מרכזי נתונים מסורתיים מסתמכים על מערכות הפעלה כמו VMware כדי לתזמר יישומים שונים על משאבי IT ארגוניים. סוכני בינה מלאכותית הם היישומים של העתיד, ומפעלי בינה מלאכותית דורשים את Dynamo, לא VMware.

הבחירה של הואנג בשם Dynamo למערכת ההפעלה החדשה של מפעל הבינה המלאכותית, על שם המנוע שהצית את המהפכה התעשייתית, חושפת את הציפיות והשאיפות שלו לגבי הפלטפורמה.