נוף הבינה המלאכותית עובר שינוי משמעותי. במשך שנים, הדרישות החישוביות העצומות של מודלי AI מתוחכמים, במיוחד מודלי שפה גדולים (LLMs), קשרו את פעולתם בעיקר לשרתים חזקים וצורכי אנרגיה אינטנסיביים, החבויים במרכזי נתונים עצומים. הגישה כללה בדרך כלל שליחת שאילתות דרך האינטרנט והמתנה לתגובות שעובדו מרחוק. עם זאת, שינוי משכנע לעבר חישוב מקומי צובר תאוצה, מונע על ידי התקדמות בטכנולוגיית המעבדים וחששות גוברים לגבי פרטיות נתונים והשהיה. Advanced Micro Devices (AMD), שחקנית אדירה בזירת המוליכים למחצה, מאמצת באופן פעיל מגמה זו, ומבקשת להעצים משתמשים לרתום את היכולות של AI גנרטיבי ישירות במחשבים האישיים שלהם. היוזמה האחרונה של החברה בתחום זה היא פרויקט קוד פתוח בשם המסקרן GAIA, ראשי תיבות של ‘Generative AI Is Awesome’.
פתיחת עידן עיבוד AI מקומי
המשיכה בהרצת מודלי AI גנרטיביים באופן מקומי היא רב-גונית. ראשית, היא מתייחסת לחששות פרטיות גוברים. כאשר נתונים מעובדים במכשיר של המשתמש עצמו, הצורך לשדר מידע שעלול להיות רגיש לשרתי צד שלישי מתבטל, ומציע פרדיגמת פעולה מאובטחת יותר מטבעה. שנית, ביצוע מקומי יכול להפחית משמעותית את ההשהיה; העיכוב בין קלט לפלט ממוזער כאשר העבודה החישובית הכבדה מתרחשת מילימטרים ספורים מממשק המשתמש, במקום לחצות פוטנציאלית יבשות. שלישית, זה מדמוקרטיזציה של הגישה. בעוד ש-AI מבוסס ענן כרוך לעתים קרובות בדמי מנוי או מגבלות שימוש, עיבוד במכשיר ממנף חומרה שהמשתמש כבר מחזיק, מה שעלול להוריד את מחסום הכניסה להתנסות ושימוש בכלי AI.
מתוך הכרה בפוטנציאל זה, AMD משלבת באופן אסטרטגי ליבות עיבוד מיוחדות שתוכננו במפורש עבור עומסי עבודה של AI בארכיטקטורות המעבדים שלה. שיאם של מאמצים אלה ניכר במעבדי סדרת Ryzen AI 300 האחרונים שלה, הכוללים יחידות עיבוד עצבי (NPUs) משופרות. NPUs אלה מתוכננים להתמודד עם הסוגים הספציפיים של פעולות מתמטיות הנפוצות במשימות למידת מכונה, ועושים זאת ביעילות רבה יותר באופן משמעותי - הן מבחינת מהירות והן מבחינת צריכת חשמל - בהשוואה לליבות CPU מסורתיות. זו בדיוק החומרה הייעודית הזו ש-AMD שואפת לפתוח למשתמשים רגילים באמצעות פרויקט GAIA שלה. Victoria Godsoe, מנהלת הפעלת מפתחי AI ב-AMD, הדגישה מטרה זו, וקבעה כי GAIA ‘ממנפת את העוצמה של יחידת העיבוד העצבי (NPU) של Ryzen AI להרצת מודלי שפה גדולים (LLMs) פרטיים ומקומיים’. היא הדגישה עוד את היתרונות: ‘שילוב זה מאפשר עיבוד מהיר ויעיל יותר - כלומר, צריכת חשמל נמוכה יותר - תוך שמירה על הנתונים שלך מקומיים ומאובטחים’.
הכירו את GAIA: פישוט פריסת LLM במכשיר
GAIA מופיעה כתשובה של AMD לשאלה: כיצד משתמשים יכולים לנצל בקלות את יכולות ה-NPU של מכונות ה-Ryzen AI החדשות שלהם כדי להריץ מודלי AI מתוחכמים? GAIA, המוצגת כיישום קוד פתוח, מספקת ממשק יעיל המותאם במיוחד לפריסה ואינטראקציה עם LLMs בקנה מידה קטן ישירות על מחשבי Windows המצוידים בחומרה העדכנית ביותר של AMD. הפרויקט מתבסס במודע על מסגרות קוד פתוח קיימות, ומציין במיוחד את Lemonade כבסיס, מה שמדגים רוח שיתופית בתוך קהילת הפיתוח הרחבה יותר.
הפונקציה המרכזית של GAIA היא להפשיט חלק ניכר מהמורכבות הקשורה בדרך כלל להגדרה והרצה של LLMs. למשתמשים מוצגת סביבה נגישה יותר, מותאמת מהיסוד לארכיטקטורת Ryzen AI של AMD. אופטימיזציה זו חיונית; היא מבטיחה שהתוכנה מנצלת ביעילות את ה-NPU, ממקסמת את הביצועים וממזערת את טביעת הרגל האנרגטית. בעוד שהיעד העיקרי הוא סדרת Ryzen AI 300 עם ה-NPU החזק שלה, AMD לא הרחיקה לחלוטין משתמשים בתצורות חומרה ישנות יותר או שונות.
הפרויקט תומך במשפחות LLM פופולריות וקומפקטיות יחסית, כולל מודלים המבוססים על ארכיטקטורות Llama ו-Phi הנגישות באופן נרחב. מודלים אלה, אף שאולי אינם בעלי קנה המידה העצום של ענקים כמו GPT-4, מסוגלים להפליא למגוון משימות במכשיר. AMD מציעה מקרי שימוש פוטנציאליים החל מצ’אטבוטים אינטראקטיביים המסוגלים לשיחה טבעית ועד למשימות חשיבה מורכבות יותר, מה שמדגים את הרבגוניות הצפויה עבור AI מקומי המופעל על ידי GAIA.
חקר יכולות GAIA: סוכנים וכוח היברידי
כדי להציג את היישומים המעשיים ולהפוך את הטכנולוגיה לשימושית באופן מיידי, GAIA מגיעה עם מבחר של ‘סוכנים’ מוגדרים מראש, שכל אחד מהם מותאם לפונקציה ספציפית:
- Chaty: כפי שהשם מרמז, סוכן זה מספק חווית AI שיחתית, ופועל כצ’אטבוט לאינטראקציה ודיאלוג כלליים. הוא ממנף את יכולת ה-LLM הבסיסי ליצור תגובות טקסט דמויות אנוש.
- Clip: סוכן זה מתמקד במשימות מענה לשאלות. יש לציין שהוא משלב יכולות Retrieval-Augmented Generation (RAG), המאפשרות לו לאחזר מידע ממקורות חיצוניים כמו תמלילי YouTube כדי לספק תשובות מושכלות יותר או רלוונטיות מבחינה הקשרית. פונקציונליות RAG זו משפרת משמעותית את בסיס הידע של הסוכן מעבר לנתוני האימון הראשוניים של ה-LLM.
- Joker: סוכן נוסף מבוסס RAG, Joker תוכנן במיוחד להומור, ומטרתו לייצר בדיחות. זה מדגים את הפוטנציאל ליישומים מיוחדים ויצירתיים של LLMs מקומיים.
- Simple Prompt Completion: זה מציע קו ישיר יותר למודל ה-LLM הבסיסי, ומאפשר למשתמשים להזין הנחיות ולקבל השלמות פשוטות ללא השכבות השיחתיות או הספציפיות למשימה של הסוכנים האחרים. הוא משמש כממשק בסיסי לאינטראקציה ישירה עם המודל.
הביצוע של סוכנים אלה, במיוחד תהליך ההסקה (inference) שבו המודל מייצר תגובות, מטופל בעיקר על ידי ה-NPU בשבבי סדרת Ryzen AI 300 תואמים. זה מבטיח פעולה יעילה וצריכת חשמל נמוכה. עם זאת, AMD שילבה גם מצב ‘היברידי’ מתקדם יותר עבור מודלים נתמכים מסוימים. גישה חדשנית זו מפעילה באופן דינמי את יחידת עיבוד הגרפיקה המשולבת (iGPU) של המעבד לצד ה-NPU. על ידי מינוף כוח העיבוד המקבילי של ה-iGPU, מצב היברידי זה יכול לספק דחיפה משמעותית בביצועים למשימות AI תובעניות, ומציע למשתמשים דרך להאיץ את ההסקה מעבר למה שה-NPU יכול להשיג לבדו.
מתוך הכרה בנוף החומרה המגוון, AMD מספקת גם אפשרות חלופית. קיימת גרסה של GAIA המסתמכת אך ורק על ליבות ה-CPU לחישוב. למרות שהיא איטית משמעותית ופחות יעילה מבחינת צריכת חשמל מאשר מצבי ה-NPU או ההיברידי, גרסת ה-CPU בלבד הזו מבטיחה נגישות רחבה יותר, ומאפשרת למשתמשים ללא חומרת Ryzen AI העדכנית ביותר להתנסות עם GAIA, אם כי עם פגיעה בביצועים.
מיצוב אסטרטגי ויתרון הקוד הפתוח
ניתן לראות את השקת GAIA בהקשר הרחב יותר של שוק המוליכים למחצה התחרותי, במיוחד בכל הנוגע להאצת AI. במשך תקופה ניכרת, NVIDIA נהנתה מעמדה דומיננטית בתחום ה-AI, בעיקר בזכות ה-GPUs החזקים שלה ומערכת התוכנה הבוגרת CUDA (Compute Unified Device Architecture), שהפכה לתקן דה פקטו ללמידת מכונה עתירת ביצועים. הרצת מודלים גדולים יותר ביעילות על חומרת צרכנים כיוונה לעתים קרובות מפתחים וחובבים להצעות של NVIDIA.
יוזמת GAIA של AMD, יחד עם חומרת ה-NPU הייעודית בשבבי Ryzen AI, מייצגת מהלך אסטרטגי לאתגר את הדומיננטיות הזו, במיוחד בשוק המתפתח של AI במכשיר במחשבים ניידים ושולחניים. על ידי אספקת כלי קל לשימוש, מותאם וקוד פתוח, AMD שואפת לבנות מערכת אקולוגית סביב יכולות חומרת ה-AI שלה, ולהפוך את פלטפורמות Ryzen AI לאטרקטיביות יותר למפתחים ולמשתמשי קצה המעוניינים בביצוע AI מקומי. ההתמקדות המפורשת באופטימיזציה של NPU מבדילה אותה מגישות ממוקדות GPU ומדגישה את יתרונות יעילות צריכת החשמל הטמונים במעבדים עצביים ייעודיים למשימות AI ספציפיות.
ההחלטה לשחרר את GAIA תחת רישיון הקוד הפתוח המתירני MIT היא גם משמעותית מבחינה אסטרטגית. היא מזמינה שיתוף פעולה ותרומה מקהילת המפתחים העולמית. גישה זו יכולה להאיץ את פיתוח הפרויקט, להוביל לשילוב של תכונות ומודלים חדשים, ולטפח קהילה המושקעת בפלטפורמת ה-AI של AMD. AMD מברכת במפורש על בקשות משיכה (pull requests) לתיקוני באגים ושיפורי תכונות, מה שמסמןמחויבות לפיתוח GAIA באמצעות מאמץ קולקטיבי. קוד פתוח מוריד את המחסום למפתחים להתנסות, לשלב, ואולי לבנות יישומים מסחריים על גבי מסגרת GAIA, ובכך ממריץ עוד יותר את המערכת האקולוגית סביב Ryzen AI.
בעוד שהאיטרציה הנוכחית מתמקדת ב-LLMs קטנים יותר המתאימים לביצוע במכשיר, הבסיס שהונח על ידי GAIA יכול לסלול את הדרך לתמיכה במודלים ויישומים מורכבים יותר ככל שטכנולוגיית ה-NPU ממשיכה להתקדם. זה מייצג הצהרת כוונות ברורה מ-AMD: להיות כוח מרכזי בעידן הבינה המלאכותית האישית והמקומית, ולספק את החומרה ואת כלי התוכנה הנגישים הדרושים כדי להביא את יכולות ה-AI ישירות לידי המשתמשים, באופן מאובטח ויעיל. הכינוי ‘Generative AI Is Awesome’, אף שאולי אינו רשמי, מדגיש את ההתלהבות והשאיפה של החברה בגבול הטכנולוגי המתפתח במהירות זה.