הנוף הדיגיטלי שוקק בינה מלאכותית, אך רובה עדיין מוגבלת, פועלת במסגרת פרמטרים מוגדרים מראש או מסתמכת במידה רבה על הזנות נתונים מובנות ו-APIs. החלום על סוכנים אוטונומיים באמת – עוזרים דיגיטליים המסוגלים לנווט בסביבה המבולגנת והבלתי צפויה של ה-World Wide Web כדי להשיג מטרות מורכבות – נותר ברובו חמקמק. Amazon נכנסת כעת באומץ לזירה זו, וחושפת את Nova Act, מודל AI מתוחכם שתוכנן בקפידה כדי להעצים סוכנים שיכולים להבין ולקיים אינטראקציה עם דפדפני אינטרנט, ולבצע משימות מורכבות בדומה למשתמש אנושי. יוזמה זו מסמנת דחיפה משמעותית מעבר למגבלות הנוכחיות, במטרה להוביל לעידן של עוזרי AI בעלי יכולות גבוהות יותר, אמינים ורב-תכליתיים יותר.
החזון הגדול: מעבר לפקודות פשוטות לפתרון בעיות מורכבות
השאיפה של Amazon משתרעת הרבה מעבר לאחזור דוחות מזג אוויר או הגדרת טיימרים. החברה מציגה חזון משכנע שבו סוכני AI מנהלים בצורה חלקה יעדים רב-פנים הן בתחום הדיגיטלי והן, פוטנציאלית, בתחומים פיזיים מחוברים. דמיינו AI המסוגל לתזמר את הפרטים הרבים של תכנון חתונה, תיאום ספקים, ניהול תקציבים ומעקב אחר אישורי הגעה (RSVPs) דרך פורטלים מקוונים שונים. דמיינו סוכנים מתוחכמים המתמודדים עם משימות ניהול IT מורכבות, פתרון בעיות רשת, ניהול רישיונות תוכנה או קליטת עובדים חדשים על ידי אינטראקציה ישירה עם כלים פנימיים מבוססי אינטרנט. זה מייצג שינוי פרדיגמה מבוטים ספציפיים למשימה לשותפים דיגיטליים מוכווני מטרה, שנועדו לשפר משמעותית את הנוחות האישית ולהגביר את הפרודוקטיביות העסקית.
מודלי AI גנרטיביים נוכחיים, למרות שהם מיומנים בשיחה ויצירת תוכן, לעתים קרובות כושלים כאשר הם מתמודדים עם האופי הדינמי ולעתים קרובות הלא עקבי של ממשקי אינטרנט. ביצוע רצף של פעולות – כניסה למערכת, ניווט בתפריטים, מילוי טפסים, פירוש רמזים חזותיים ותגובה לחלונות קופצים בלתי צפויים – דורש רמה של הבנה הקשרית ואמינות תפעולית שהיה קשה להשיג באופן עקבי. Amazon מכירה במפורש במכשולים אלה, וממקמת את Nova Act כתגובה האסטרטגית שלה, שתוכננה מהיסוד כדי לשלוט במורכבויות של ביצוע משימות מבוססות אינטרנט.
הכירו את Nova Act: המנוע לניווט אינטרנטי חכם
Nova Act אינו רק עוד מודל שפה גדול; זוהי מערכת מיוחדת המתמקדת בתרגום כוונת אנוש לפעולות קונקרטיות בתוך דפדפן אינטרנט. הוא מייצג מאמץ מתואם להקנות ל-AI את היכולת לתפוס, להבין ולתפעל רכיבי אינטרנט ביעילות. האתגר המרכזי טמון בגישור על הפער בין הוראות בשפה טבעית (‘הזמן חדר ישיבות ליום שלישי הבא’) לבין רצף הלחיצות, הגלילות והזנת הטקסט הספציפי הנדרש כדי למלא בקשה זו באתר אינטרנט או יישום אינטרנט נתון.
הגישה של Amazon מכירה בכך שהאינטרנט אינו ישות סטטית. אתרי אינטרנט משנים פריסות, ממשקים משתנים באופן פרוע, ותוכן דינמי נטען באופן בלתי צפוי. לכן, סוכן זקוק ליותר מסתם יכולת לשונית; הוא דורש הבנה חזקה של מבני אינטרנט (HTML, DOM), אלמנטים חזותיים ודפוסי אינטראקציה. Nova Act מפותח כדי להחזיק בהבנה ניואנסית זו, מה שמאפשר לו לפעול בדיוק וביכולת הסתגלות רבה יותר בסביבות מקוונות מגוונות. התמקדות זו באינטראקציה טבעית לאינטרנט (web-native) היא מה שמבדיל את מטרתו של Nova Act ממודלי AI כלליים יותר.
העצמת מפתחים: ערכת פיתוח התוכנה של Nova Act
כדי לתרגם יכולת AI מתקדמת זו ליישומים מעשיים, Amazon משחררת תצוגה מקדימה למחקר של ערכת פיתוח התוכנה (SDK) של Nova Act. ערכת כלים זו מיועדת למפתחים הלהוטים לבנות את הדור הבא של סוכנים אוטונומיים. היא מספקת את אבני הבניין והבקרות הדרושים כדי לרתום את כוחו של Nova Act לאוטומציה של זרימות עבודה מבוססות אינטרנט.
אבן יסוד בפילוסופיית העיצוב של ה-SDK היא פירוק תהליכים מורכבים ליחידות בסיסיות ואמינות הנקראות ‘פקודות אטומיות’ (‘atomic commands’). חשבו עליהן כעל הפעלים הבסיסיים של אינטראקציה באינטרנט:
- חיפוש (Searching): איתור מידע או אלמנטים ספציפיים בדף.
- תשלום בקופה (Checking Out): השלמת תהליך רכישה במסחר אלקטרוני.
- אינטראקציה (Interacting): עיסוק ברכיבי ממשק ספציפיים כמו תפריטים נפתחים, תיבות סימון, בוררי תאריכים או חלונות קופצים מודאליים.
- ניווט (Navigating): מעבר בין דפים או אזורים באתר אינטרנט.
- הזנת נתונים (Inputting Data): מילוי טפסים או שדות טקסט בצורה מדויקת.
המפתחים אינם מוגבלים לפקודות ברמה גבוהה אלו. ה-SDK מאפשר הוספת הוראות מפורטות כדי לחדד את התנהגות הסוכן. לדוגמה, סוכן המוטל עליו להזמין טיסה יכול לקבל הוראה ספציפית להתעלם מהצעות לביטוח נסיעות או לדלג על הצעות לשדרוג מושבים במהלך תהליך התשלום. רמת שליטה גרעינית זו חיונית ליצירת סוכנים המבצעים משימות בדיוק כפי שתוכננו, תוך הקפדה על העדפות משתמש ספציפיות או כללים עסקיים.
כדי לחזק את האמינות והדיוק הנדרשים על ידי אוטומציה אינטרנטית בעולם האמיתי, ה-SDK משלב מספר מנגנונים רבי עוצמה:
- מניפולציה של דפדפן באמצעות Playwright: ממנף את מסגרת Playwright הפופולרית לאוטומציה חזקה וחוצת-דפדפנים, ומספק שליטה מדויקת על פעולות הדפדפן.
- קריאות API: מאפשר לסוכנים לקיים אינטראקציה ישירה עם שירותי אינטרנט באמצעות APIs כאשר הם זמינים, ומציע חלופה יציבה ויעילה יותר למניפולציה של ממשק משתמש עבור משימות מסוימות.
- שילובי Python: מאפשר למפתחים להטמיע קוד Python מותאם אישית, המאפשר לוגיקה מורכבת, עיבוד נתונים או אינטגרציה עם מערכות אחרות בתוך זרימת העבודה של הסוכן.
- עיבוד מקבילי (Parallel Threading): מסייע בהפחתת עיכובים הנגרמים כתוצאה מדפי אינטרנט הנטענים לאט או השהיית רשת על ידי מתן אפשרות לפעולות מסוימות לפעול במקביל, ומשפר את מהירות השלמת המשימות הכוללת ואת החוסן.
ערכת כלים מקיפה זו שואפת לספק למפתחים את הגמישות והעוצמה הדרושים כדי להתמודד עם אתגרי אוטומציה מתוחכמים שבעבר היו לא מעשיים או לא אמינים.
מדידה: התמקדות בביצועים ואמינות מעשית
בעוד שציוני בנצ’מרק הם מטבע עובר לסוחר בעולם ה-AI, Amazon מדגישה שפיתוח Nova Act נותן עדיפות לאמינות מעשית על פני פשוט כיבוש טבלאות מובילים במבחנים מופשטים. המטרה היא לבנות סוכנים שעובדים באופן עקבי בתרחישים בעולם האמיתי, גם אם זה אומר להתמקד ביכולות ספציפיות החיוניות לאינטראקציה באינטרנט.
עם זאת, Nova Act מפגין ביצועים יוצאי דופן בבנצ’מרקים שתוכננו במיוחד להערכת אינטראקציה עם ממשקי אינטרנט. Amazon מדגישה ציונים מרשימים העולים על 90% דיוק בהערכות פנימיות המכוונות ליכולות שלעתים קרובות מאתגרות מודלים מתחרים.
בבנצ’מרקים מבוססים, התוצאות ראויות לציון:
- ScreenSpot Web Text: בנצ’מרק זה מעריך את יכולתו של AI לפרש הוראות בשפה טבעית הקשורות לאינטראקציות מבוססות טקסט בדפי אינטרנט (למשל, ‘הגדל את גודל הגופן’, ‘מצא את הפסקה המזכירה מנויים’). Nova Act השיג ציון כמעט מושלם של 0.939, ועקף באופן משמעותי מודלים בולטים כמו Claude 3.7 Sonnet (0.900) ו-CUA (Conceptual User Agent benchmark) של OpenAI (0.883).
- ScreenSpot Web Icon: מבחן זה מתמקד באינטראקציות עם אלמנטים חזותיים שאינם טקסטואליים כמו דירוגי כוכבים, סמלים או מחוונים. Nova Act שוב הציג ביצועים חזקים, וקיבל ציון של 0.879.
מעניין לציין שבמבחן GroundUI Web, המעריך באופן כללי מיומנות בניווט במגוון רכיבי ממשק משתמש, Nova Act הראה ביצועים מעט נמוכים יותר בהשוואה למתחרים מסוימים. Amazon מודה בכך בכנות, וממסגרת זאת לא ככישלון אלא כתחום המיועד לשיפור ככל שהמודל ממשיך להתפתח באמצעות אימון ועידון מתמשכים. שקיפות זו מדגישה את ההתמקדות בבניית כלי שימושי באמת, תוך הכרה בכך שהפיתוח הוא תהליך איטרטיבי.
הדגש נותר איתן על ביצוע אמין. Amazon מדגישה שברגע שסוכן שנבנה באמצעות ה-SDK של Nova Act מבצע משימה בצורה נכונה ואמינה בפיתוח, למפתחים צריכה להיות רמת ביטחון גבוהה בפריסתו. ניתן להריץ סוכנים אלה ללא ממשק גרפי (headlessly) (ללא חלון דפדפן גלוי), לשלב אותם ביישומים גדולים יותר באמצעות APIs, או אפילו לתזמן אותם לביצוע משימות באופן אוטונומי בזמנים ספציפיים. הדוגמה שסופקה – סוכן שמזמין אוטומטית סלט מועדף למשלוח בכל יום שלישי בערב מבלי לדרוש אינטראקציה כלשהי מצד המשתמש לאחר ההגדרה הראשונית – ממחישה בצורה מושלמת את החזון הזה של אוטומציה חלקה ואמינה למטלות דיגיטליות שגרתיות.
קפיצת מדרגה ביכולת ההסתגלות: למידה והעברת הבנת ממשק משתמש
אחד ההיבטים המשכנעים ביותר של Nova Act הוא יכולתו המוצהרת להכליל את הבנתו בממשקי משתמש וליישם אותה ביעילות בסביבות חדשות עם מינימום או ללא צורך באימון מחדש ספציפי למשימה. יכולת זו, המכונה לעתים קרובות למידת העברה (transfer learning), חיונית ליצירת סוכנים רב-תכליתיים באמת שאינם שבירים או נשברים בקלות על ידי עיצובים מחדש קלים של אתרי אינטרנט או מפגש עם פריסות יישומים לא מוכרות.
Amazon שיתפה אנקדוטה משכנעת שבה Nova Act הפגין יכולת בהפעלת משחקים מבוססי דפדפן, למרות שנתוני האימון שלו לא כללו במפורש חוויות של משחקי וידאו. הדבר מצביע על כך שהמודל לומד עקרונות בסיסיים של אינטראקציה באינטרנט – זיהוי כפתורים, פירוש משוב חזותי, הבנת שדות קלט – במקום פשוט לשנן מבני אתרים ספציפיים. אם יכולת זו תתברר כנכונה במגוון רחב של יישומים, היא מייצגת התקדמות משמעותית. פירוש הדבר שמפתחים יוכלו פוטנציאלית לבנות סוכנים המסוגלים להתמודד עם משימות באתרי אינטרנט או יישומי אינטרנט חדשים שנתקלו בהם ברמת הצלחה סבירה, מה שמפחית באופן דרמטי את הצורך באימון מתמיד ומותאם אישית לכל פלטפורמת יעד בודדת.
יכולת הסתגלות זו ממצבת את Nova Act כמנוע פוטנציאלי רב עוצמה למגוון רחב של יישומים מעבר לאוטומציה פשוטה של משימות. הוא יכול להניע כלי גירוד אינטרנט (web scrapers) חכמים יותר, כלי הזנת נתונים אינטואיטיביים יותר, או עוזרי נגישות בעלי יכולות גבוהות יותר.
Amazon כבר ממנפת יכולת זו בתוך המערכת האקולוגית שלה. Alexa+, שכבת הפרימיום של העוזרת הקולית שלה, משתמשת ב-Nova Act כדי לאפשר ניווט אינטרנטי מונחה-עצמי. כאשר משתמש מגיש בקשה שלא ניתן למלא במלואה באמצעות כישורי Alexa קיימים או APIs זמינים (מגבלה נפוצה), Nova Act יכול פוטנציאלית להיכנס לפעולה, לפתוח דף אינטרנט רלוונטי ולנסות להשלים את המשימה על ידי אינטראקציה ישירה עם ממשק המשתמש של האתר. זה מייצג צעד מוחשי לקראת החזון של עוזרי AI הפחות תלויים באינטגרציות מובנות מראש ויכולים לתפקד באופן אוטונומי ודינמי יותר על ידי רתימת האינטרנט הפתוח.
הדרך קדימה: צעד יסודי באסטרטגיית AI ארוכת טווח
Amazon מבהירה באופן חד משמעי ש-Nova Act, בצורתו הנוכחית, מייצג רק את השלב הראשוני במשימה רחבה וארוכת טווח הרבה יותר. המטרה הסופית היא לטפח סוכני AI אינטליגנטיים ביותר, בעלי יכולת הסתגלות ואמינים, המסוגלים לנהל זרימות עבודה מורכבות ורב-שלביות יותר ויותר, שעשויות להשתרע על פני מספר אתרי אינטרנט, יישומים והפעלות.
האסטרטגיה של החברה כוללת מעבר להדגמות פשטניות או אימון אך ורק על מערכי נתונים מוגבלים. ההתמקדות היא בשימוש בטכניקות למידת חיזוק (reinforcement learning) על פני מגוון תרחישים בעולם האמיתי. משמעות הדבר היא אימון מודלי Nova על ידי כך שהם מנסים לבצע משימות, לומדים מהצלחות וכישלונות, ובונים בהדרגה מיומנות בניווט במורכבויות ובחוסר הוודאות הטבועים בסביבת האינטרנט החיה. גישה איטרטיבית זו, מונעת ניסיון, נחשבת חיונית לבניית חוסן ואינטליגנציה אמיתית.
Nova Act משמש כנקודת ביקורת קריטית במה ש-Amazon מתארת כתכנית לימודים ארוכת טווח למשפחת מודלי Nova שלה. הדבר מצביע על מחויבות מתמשכת ושאיפה אסטרטגית לעצב מחדש באופן יסודי את נוף סוכני ה-AI, ולהעביר אותם מכלים נישתיים לשותפים חיוניים בניווט בחיינו הדיגיטליים. המודל הנוכחי הוא יסוד שעליו ייבנו יכולות מתוחכמות יותר לאורך זמן.
יצירה משותפת של העתיד: התפקיד ההכרחי של קהילת המפתחים
מתוך הכרה בכך שהיישומים הטרנספורמטיביים ביותר של טכנולוגיה זו טרם הומצאו, Amazon מערבת בכוונה את קהילת המפתחים בשלב מוקדם באמצעות התצוגה המקדימה למחקר של ה-SDK של Nova Act. ‘מקרי השימוש היקרי הערך ביותר עבור סוכנים טרם נבנו’, הצהירה החברה. ‘המפתחים והמעצבים הטובים ביותר יגלו אותם’.
אסטרטגיית שחרור זו משרתת מטרות מרובות. היא מאפשרת לבונים חדשניים להתנסות מעשית בטכנולוגיה, לדחוף את גבולותיה ולחקור את הפוטנציאל שלה בדרכים שצוותי הפנים של Amazon אולי לא ידמיינו. היא גם יוצרת לולאת משוב חיונית. על ידי התבוננות כיצד מפתחים משתמשים ב-SDK, באילו אתגרים הם נתקלים ואילו תכונות הם מבקשים, Amazon יכולה לבצע איטרציות במהירות, ולעדן את Nova Act ואת הכלים הנלווים בהתבסס על שימוש בעולם האמיתי וצרכים מעשיים. גישה שיתופית זו, המרוכזת סביב יצירת אבות טיפוס מהירים ומשוב איטרטיבי, נתפסת כדרך המהירה ביותר לפתוח את הפוטנציאל האמיתי של סוכני AI טבעיים לאינטרנט.
למעשה, Nova Act הוא יותר מסתם מודל או SDK חדש; זוהי הזמנה למפתחים והצהרת כוונות מצד Amazon. הוא מייצג צעד נחוש לקראת הפיכת סוכני AI לשימושיים באמת עבור המשימות המורכבות, הדינמיות ולעתים קרובות המבולגנות המגדירות חלק ניכר מהאינטראקציה שלנו עם העולם הדיגיטלי. על ידי חשיבה מחודשת על בנצ’מרקים, מתן עדיפות לאמינות, טיפוח יכולת הסתגלות ואימוץ שיתוף פעולה, Amazon שואפת להעצים בונים ליצור פתרונות אוטונומיים שמתקדמים משמעותית מעבר ליכולות של כלי ה-AI של ימינו. המסע רק החל, אך הכיוון ברור: לעבר עתיד המאוכלס בעוזרים דיגיטליים חכמים ואוטונומיים יותר, המנווטים באינטרנט בשמנו.