הנוף של עיבוד בינה מלאכותית (AI) השתנה באופן משמעותי עם חשיפת יחידת העיבוד הטנזורית (TPU) מהדור השביעי של גוגל, הידועה בשם Ironwood. מאיץ בינה מלאכותית חדשני זה מתגאה ביכולות חישוביות, שבהיקפים גדולים, עולות על המחשב העל המהיר בעולם ביותר מפי 24.
השבב החדש הזה, שנחשף בכנס Google Cloud Next ‘25, מסמן רגע מכריע באסטרטגיית עשר השנים של גוגל בפיתוח שבבי AI. שלא כמו קודמיו, שתוכננו בעיקר עבור עומסי עבודה של אימון והסקת מסקנות של AI, Ironwood תוכנן במיוחד עבור הסקת מסקנות, ומסמן שינוי אסטרטגי לקראת אופטימיזציה של יעילות פריסת AI.
אמין ואחדאת, סגן נשיא ומנהל כללי של Machine Learning, Systems ו-Cloud AI בגוגל, הדגיש את המעבר הזה באומרו, “Ironwood נועד לתמוך בשלב הבא של AI גנרטיבי ובדרישות החישוב והתקשורת העצומות שלו. זה מה שאנו מכנים ‘עידן ההסקות’, שבו סוכני AI יאחזרו ויפיקו נתונים באופן יזום כדי לספק תובנות ותשובות בשיתוף פעולה, ולא רק לעבד נתונים.”
שבירת מחסומים עם 42.5 אקסה-פלופס של כוח מחשוב
המפרט הטכני של Ironwood מרשים באמת. כאשר הוא מותאם לגודל של 9,216 שבבים, הוא מספק 42.5 אקסה-פלופס מדהימים של מחשוב AI. כדי להמחיש זאת, הוא גורם למחשב העל המהיר בעולם הנוכחי, El Capitan, הפועל ב-1.7 אקסה-פלופס, להיראות קטן. כל שבב Ironwood בודד יכול להשיג יכולת מחשוב שיא של 4614 TFLOPs.
מעבר לכוח העיבוד הגולמי, Ironwood משפר באופן משמעותי את הזיכרון ורוחב הפס. כל שבב מצויד ב-192GB של זיכרון בעל רוחב פס גבוה (HBM), גידול פי שישה בהשוואה ל-TPU מהדור הקודם, Trillium, ששוחרר בשנה שעברה. רוחב הפס של הזיכרון לכל שבב מגיע ל-7.2 טרה-ביט/שנייה, פי 4.5 מזה של Trillium.
- כוח מחשוב: 42.5 אקסה-פלופס (לכל פוד של 9,216 שבבים)
- שיא מחשוב לכל שבב: 4614 TFLOPs
- זיכרון: 192GB HBM לכל שבב
- רוחב פס של זיכרון: 7.2 טרה-ביט/שנייה לכל שבב
בעידן שבו מרכזי נתונים מתרחבים וצריכת החשמל היא דאגה גוברת, Ironwood גם מדגים שיפורים משמעותיים ביעילות אנרגטית. הוא מציע ביצועים כפולים לוואט בהשוואה ל-Trillium וכמעט פי 30 מזה של ה-TPU הראשון שהוצג בשנת 2018.
אופטימיזציה זו להסקה מסמלת נקודת מפנה קריטית באבולוציה של AI. בשנים האחרונות, מעבדות AI מובילות התרכזו בפיתוח מודלים בסיסיים גדולים יותר ויותר עם ספירות פרמטרים מתרחבות. ההתמקדות של גוגל באופטימיזציה של הסקה מצביעה על מעבר לקראת פרדיגמה חדשה המתמקדת ביעילות פריסה ויכולות הסקה.
בעוד שאימון מודלים נותר חיוני, פעולות הסקה תדירות הרבה יותר, ומתרחשות מיליארדי פעמים ביום ככל שטכנולוגיות AI הופכות לנפוצות יותר. עבור עסקים הממנפים AI, הכלכלה קשורה באופן מהותי לעלויות הסקה ככל שמודלים הופכים למורכבים יותר.
הביקוש למחשוב AI של גוגל גדל פי עשרה בשמונה השנים האחרונות, והגיע ל-100 מיליון מדהימים. ללא ארכיטקטורות מיוחדות כמו Ironwood, לא ניתן היה לקיים את מסלול הצמיחה הזה באמצעות התקדמות מסורתית בחוק מור בלבד.
יש לציין שההודעה של גוגל הדגישה התמקדות ב”מודלים של חשיבה” המסוגלים לבצע משימות הסקה מורכבות ולא זיהוי דפוסים פשוט. זה מצביע על אמונה שהעתיד של AI טמון לא רק במודלים גדולים יותר אלא גם במודלים המסוגלים לפרק בעיות, לעסוק בחשיבה רב-שלבית ולחקות תהליכי חשיבה דמויי אדם.
הפעלת מודלים גדולים מהדור הבא
גוגל ממקמת את Ironwood כתשתית הבסיסית עבור מודלי ה-AI המתקדמים ביותר שלה, כולל Gemini 2.5 שלה, המתגאה ב”יכולות חשיבה מובנות”.
החברה הציגה לאחרונה גם את Gemini 2.5 Flash, גרסה קטנה יותר של מודל הדגל שלה שנועדה “להתאים את עומק החשיבה בהתאם למורכבות הבקשה”. מודל זה מיועד ליישומים יומיומיים הדורשים זמני תגובה מהירים.
גוגל הציגה עוד את החבילה המקיפה שלה של מודלי יצירת מולטימודל, הכוללת טקסט לתמונה, טקסט לווידאו ואת יכולת הטקסט למוזיקה החדשה שלה, Lyria. הדגמה ממחישה כיצד ניתן לשלב כלים אלה כדי ליצור סרטון קידום מכירות שלם לקונצרט.
Ironwood הוא רק מרכיב אחד באסטרטגיית תשתית ה-AI הרחבה יותר של גוגל. החברה הכריזה גם על Cloud WAN, שירות רשת אזורית רחבה מנוהל המספק לארגונים גישה לתשתית הרשת הפרטית בקנה מידה עולמי של גוגל.
גוגל מרחיבה גם את הצעות התוכנה שלה עבור עומסי עבודה של AI, כולל Pathways, זמן ריצה של למידת מכונה שפותחה על ידי Google DeepMind. Pathways מאפשרת כעת ללקוחות להרחיב את מודל השירות על פני מאות TPUs.
הצגת A2A: טיפוח מערכת אקולוגית של שיתוף פעולה בין סוכנים אינטליגנטיים
מעבר להתקדמות החומרה, גוגל הציגה את החזון שלה עבור AI המרוכז במערכות מרובות סוכנים, וחנכה פרוטוקול להקלת הפיתוח של סוכנים אינטליגנטיים: Agent-to-Agent (A2A). פרוטוקול זה נועד לקדם תקשורת מאובטחת ומתוקננת בין סוכני AI שונים.
גוגל מאמינה ש-2025 תסמן שנה טרנספורמטיבית עבור AI, כאשר היישום של AI גנרטיבי מתפתח ממענה על שאלות בודדות לפתרון בעיות מורכבות באמצעות מערכות סוכנים אינטליגנטיים.
פרוטוקול A2A מאפשר יכולת פעולה הדדית בין פלטפורמות ומסגרות, ומספק לסוכנים “שפה” משותפת וערוצי תקשורת מאובטחים. ניתן לראות בפרוטוקול זה כשכבת הרשת עבור סוכנים אינטליגנטיים, שמטרתה לפשט את שיתוף הפעולה בין סוכנים בתהליכי עבודה מורכבים. הוא מעצים סוכני AI מיוחדים לעבוד יחד על משימות בעלות מורכבות ומשך משתנים, ובסופו של דבר משפר את היכולות הכוללות באמצעות שיתוף פעולה.
כיצד A2A עובד
גוגל סיפקה השוואה בין פרוטוקולי MCP ו-A2A בפוסט הבלוג שלה:
- MCP (Model Context Protocol): לניהול כלים ומשאבים
- מחבר סוכנים לכלים, ממשקי API ומשאבים באמצעות קלט/פלט מובנים.
- Google ADK תומך בכלי MCP, ומאפשר לשרתי MCP שונים לעבוד עם סוכנים.
- A2A (Agent2Agent Protocol): לשיתוף פעולה בין סוכנים
- מאפשר תקשורת מולטימודלית דינמית בין סוכנים מבלי לשתף זיכרון, משאבים או כלים.
- תקן פתוח המונע על ידי הקהילה.
- ניתן לראות דוגמאות באמצעות כלים כגון Google ADK, LangGraph ו-Crew.AI.
בעיקרון, A2A ו-MCP משלימים זה את זה. MCP מספק לסוכנים תמיכה בכלי עבודה, בעוד ש-A2A מאפשר לסוכנים מצוידים אלה לתקשר ולשתף פעולה זה עם זה.
רשימת השותפים שהוכרזה על ידי גוגל מצביעה על כך ש-A2A צפוי לקבל תשומת לב דומה לזו של MCP. היוזמה כבר משכה יותר מ-50 חברות לקבוצת שיתוף הפעולה הראשונית שלה, כולל חברות טכנולוגיה מובילות וספקי שירותי ייעוץ ושילוב מערכות גלובליים מובילים.
גוגל הדגישה את הפתיחות של הפרוטוקול, ומיקמה אותו כשיטה הסטנדרטית לסוכנים לשתף פעולה, ללא תלות במסגרות טכנולוגיות או ספקי שירותים בסיסיים. החברה הצהירה כי היא דבקה בחמשת העקרונות המרכזיים הבאים בתכנון הפרוטוקול עם שותפיה:
- אמץ את יכולות הסוכן: A2A מתמקד באפשרות לסוכנים לשתף פעולה בדרכים הטבעיות והלא מובנות שלהם, גם אם הם לא חולקים זיכרון, כלים והקשר. המטרה היא לאפשר תרחישים אמיתיים מרובי סוכנים מבלי להגביל סוכנים ל”כלים” גרידא.
- בנה על סטנדרטים קיימים: הפרוטוקול בנוי על סטנדרטים פופולריים קיימים, כולל HTTP, SSE ו-JSON-RPC, מה שמקל על השילוב עם מחסני IT קיימים המשמשים ארגונים.
- מאובטח כברירת מחדל: A2A נועד לתמוך באימות והרשאה ברמה ארגונית, הדומה לסכימות האימות של OpenAPI בעת ההשקה.
- תמיכה במשימות הפועלות לאורך זמן: A2A תוכנן בגמישות כדי לתמוך במגוון רחב של תרחישים, ממשימות מהירות ועד למחקר מעמיק שעשוי להימשך שעות או אפילו ימים (כאשר מעורבים בני אדם). לאורך כל התהליך, A2A יכול לספק למשתמשים משוב בזמן אמת, התראות ועדכוני סטטוס.
- אגנוסטיות לאופן: עולם הסוכנים אינו מוגבל לטקסט, וזו הסיבה ש-A2A נועד לתמוך באופנים שונים, כולל זרמי אודיו ווידאו.
דוגמה: תהליך גיוס יעיל באמצעות A2A
דוגמה שסיפקה גוגל ממחישה כיצד A2A יכול לייעל משמעותית את תהליך הגיוס.
בתוך ממשק מאוחד כמו Agentspace, מנהל גיוס יכול להקצות סוכן למצוא מועמדים מתאימים על סמך דרישות התפקיד. סוכן זה יכול ליצור אינטראקציה עם סוכנים מיוחדים בתחומים ספציפיים כדי להשלים את מיקור המועמדים. המשתמש יכול גם להורות לסוכן לתזמן ראיונות ולאפשר לסוכנים מיוחדים אחרים לסייע בבדיקות רקע, ובכך לאפשר גיוס שיתופי חוצה מערכות אוטומטי לחלוטין.
אימוץ MCP: הצטרפות למערכת האקולוגית של Model Context Protocol
במקביל, גוגל מאמצת גם את MCP. שבועות ספורים לאחר שאופנהיימר הודיעה על אימוץ פרוטוקול הקשר המודל של Anthropic (MCP), גוגל הלכה בעקבותיה והצטרפה ליוזמה.
מנכ”ל Google DeepMind, דמיס הסאביס, הודיע ב-X שגוגל תוסיף תמיכה ב-MCP למודלי Gemini ול-SDK שלה, אם כי ציר זמן ספציפי לא סופק.
הסאביס הצהיר, “MCP הוא פרוטוקול מצוין שהופך במהירות לתקן הפתוח לעידן סוכני ה-AI. אנו מצפים לעבוד עם צוות MCP ושותפים אחרים בתעשייה כדי לקדם את הפיתוח של טכנולוגיה זו.”
מאז שחרורו בנובמבר 2024, MCP צבר במהירות פופולריות ותשומת לב נרחבת, והופיע כדרך פשוטה ומתוקננת לחבר מודלים של שפה עם כלים ונתונים.
MCP מאפשר למודלי AI לגשת לנתונים ממקורות נתונים כגון כלי ארגון ותוכנה כדי להשלים משימות ולגשת לספריות תוכן וסביבות פיתוח אפליקציות. הפרוטוקול מאפשר למפתחים ליצור חיבורים דו-כיווניים בין מקורות נתונים ליישומים מונעי AI, כגון צ’אטבוטים.
מפתחים יכולים לחשוף ממשקי נתונים באמצעות שרתי MCP ולבנות לקוחות MCP (כגון אפליקציות ותהליכי עבודה) כדי להתחבר לשרתים אלה. מכיוון ש-Anthropic פתחה את הקוד של MCP, מספר חברות שילבו תמיכה ב-MCP בפלטפורמות שלהן.
פירוט משופר של מושגי מפתח:
כדי להבהיר עוד יותר את ההשפעה והמשמעות של ההודעות האחרונות של גוגל, בואו נתעמק במרכיבי הליבה: Ironwood, A2A ו-MCP.
Ironwood: צלילה עמוקה לעידן ההסקה
המעבר מהתמקדות בעיקר באימון מודלים לאופטימיזציה להסקה הוא אבולוציה קריטית בנוף ה-AI. אימון כרוך בהזנת כמויות עצומות של נתונים למודל כדי ללמד אותו לזהות דפוסים ולבצע תחזיות. הסקה, לעומת זאת, היא תהליך של שימוש במודל מאומן כדי לבצע תחזיות על נתונים חדשים ולא נראים.
בעוד שאימון הוא אירוע עתיר משאבים, חד פעמי (או לא תדיר), הסקה מתרחשת ברציפות ובקנה מידה גדול ביישומים בעולם האמיתי. שקול יישומים כמו:
- צ’אטבוטים: מענה לשאילתות משתמש בזמן אמת.
- מערכות המלצה: הצעת מוצרים או תוכן על סמך העדפות משתמש.
- זיהוי הונאה: זיהוי עסקאות הונאה כשהן מתרחשות.
- זיהוי תמונות: ניתוח תמונות לזיהוי אובייקטים, אנשים או סצנות.
יישומים אלה דורשים הסקה מהירה ויעילה כדי לספק חוויית משתמש חלקה. Ironwood תוכנן במיוחד כדי להצטיין במשימות אלה.
יתרונות עיקריים של Ironwood להסקה:
- תפוקה גבוהה: כוח המחשוב המאסיבי (42.5 אקסה-פלופס) מאפשר ל-Ironwood לטפל במספר גדול של בקשות הסקה בו זמנית.
- השהיה נמוכה: זיכרון רוחב הפס הגבוה (HBM) וארכיטקטורה יעילה ממזערים את הזמן שלוקח לעבד כל בקשת הסקה.
- יעילות אנרגטית: הביצועים המשופרים לוואט מפחיתים את עלויות התפעול הקשורות להפעלת פריסות הסקה בקנה מידה גדול.
על ידי אופטימיזציה להסקה, גוגל מאפשרת לעסקים לפרוס יישומים המופעלים על ידי AI בצורה יעילה וחסכונית יותר.
A2A: הבסיס ל-AI שיתופי
פרוטוקול Agent-to-Agent (A2A)מייצג צעד משמעותי לקראת יצירת מערכות AI מתוחכמות ושיתופיות יותר. במערכת מרובת סוכנים, סוכני AI מרובים עובדים יחד כדי לפתור בעיה מורכבת. לכל סוכן עשויות להיות כישורים וידע מיוחדים משלו, והם מתקשרים ומתאמים זה עם זה כדי להשיג מטרה משותפת.
שקול תרחיש הכולל תמיכת לקוחות אוטומטית:
- סוכן 1: מבין את השאילתה הראשונית של הלקוח ומזהה את הבעיה הבסיסית.
- סוכן 2: ניגש לבסיס ידע כדי למצוא מידע רלוונטי.
- סוכן 3: מתזמן פגישת מעקב עם סוכן אנושי במידת הצורך.
סוכנים אלה צריכים להיות מסוגלים לתקשר ולשתף מידע בצורה חלקה כדי לספק חוויית לקוח מגובשת. A2A מספק את המסגרת לסוג זה של שיתוף פעולה.
יתרונות עיקריים של A2A:
- יכולת פעולה הדדית: מאפשר לסוכנים שפותחו על פלטפורמות ומסגרות שונות לתקשר זה עם זה.
- תקינה: מספק “שפה” משותפת וערכת פרוטוקולים לתקשורת סוכנים.
- אבטחה: מבטיח תקשורת מאובטחת בין סוכנים, ומגן על נתונים רגישים.
- גמישות: תומך במגוון רחב של אופני תקשורת, כולל טקסט, אודיו ווידאו.
על ידי טיפוח שיתוף פעולה בין סוכני AI, A2A מאפשר את הפיתוח של מערכות AI חזקות ורב-תכליתיות יותר.
MCP: גישור על הפער בין AI לנתונים
פרוטוקול Model Context Protocol (MCP) מטפל באתגר של חיבור מודלי AI לכמויות העצומות של נתונים הנדרשים לביצוע משימותיהם ביעילות. מודלי AI צריכים גישה לנתונים בזמן אמת ממקורות שונים, כגון מסדי נתונים, ממשקי API ושירותי ענן, כדי לבצע תחזיות מדויקות ולקבל החלטות מושכלות.
MCP מספק דרך מתוקננת למודלי AI לגשת לנתונים אלה ולקיים איתם אינטראקציה. הוא מגדיר קבוצה של פרוטוקולים עבור:
- גילוי נתונים: זיהוי מקורות הנתונים הזמינים.
- גישה לנתונים: אחזור נתונים ממקורות הנתונים.
- שינוי נתונים: המרת הנתונים לפורמט שמודל ה-AI יכול להבין.
על ידי מתן ממשק מתוקנן לגישה לנתונים, MCP מפשט את תהליך השילוב של מודלי AI עם נתונים בעולם האמיתי.
יתרונות עיקריים של MCP:
- שילוב פשוט: מקל על חיבור מודלי AI למקורות נתונים.
- תקינה: מספק קבוצה משותפת של פרוטוקולים לגישה לנתונים.
- יעילות מוגברת: מפחית את הזמן והמאמץ הנדרשים לגישה לנתונים ולשינוי שלהם.
- דיוק משופר: מאפשר למודלי AI לגשת למידע העדכני ביותר, מה שמוביל לתחזיות מדויקות יותר.
על ידי חיבור מודלי AI לנתונים שהם צריכים, MCP מאפשר להם לבצע ביצועים יעילים יותר ולספק ערך רב יותר.