הבינה המלאכותית הרובוטית החדשה של גוגל

החיפוש אחר בינה מלאכותית מגולמת: מטרת ירח

במשך שנים, תעשיית הרובוטיקה רדפה אחר המטרה החמקמקה של ‘בינה מלאכותית מגולמת’ – יצירת בינה מלאכותית המסוגלת לשלוט באופן אוטונומי ברובוטים במגוון רחב של תרחישים חדשים ובלתי צפויים, תוך שמירה על בטיחות ודיוק. שאיפה זו, שנמשכת באופן פעיל על ידי חברות כמו Nvidia, נותרה ‘הגביע הקדוש’ עם פוטנציאל להפוך רובוטים לעובדים רב-תכליתיים המסוגלים לבצע מגוון עצום של משימות בעולם האמיתי.

Gemini Robotics: בנייה על בסיס של שפה וחזון

המודלים החדשים של גוגל ממנפים את העוצמה של מודל השפה הגדול Gemini 2.0, ומרחיבים את יכולותיו כך שיכללו את הדרישות הספציפיות של יישומים רובוטיים. Gemini Robotics משלב את מה שגוגל מכנה יכולות ‘ראייה-שפה-פעולה’ (VLA). זה מאפשר למודל לעבד קלט חזותי, לפרש פקודות בשפה טבעית ולתרגם קלטים אלה לתנועות פיזיות מדויקות. לעומת זאת, Gemini Robotics-ER מתמקד ב’חשיבה מגולמת’, ומתגאה בהבנה מרחבית משופרת המאפשרת אינטגרציה חלקה עם מערכות בקרת רובוטים קיימות.

מהבנה לפעולה: עידן חדש של מיומנות

ההשלכות המעשיות של התקדמות זו הן עמוקות. תארו לעצמכם שאתם מורים לרובוט המצויד ב-Gemini Robotics ‘להרים את הבננה ולהכניס אותה לסל’. הרובוט, תוך שימוש בראייה מבוססת מצלמה, יזהה את הבננה וינחה במיומנות את זרועו הרובוטית לבצע את המשימה. או שקלו את הפקודה, ‘לקפל שועל אוריגמי’. הרובוט, בהסתמך על הידע שלו באוריגמי ואמנות קיפול הנייר העדינה, יבצע בקפידה את המשימה המורכבת.

בשנת 2023, מודל RT-2 של גוגל סימן צעד משמעותי לקראת יכולות רובוטיות כלליות. על ידי מינוף נתוני אינטרנט, RT-2 העצים רובוטים להבין פקודות שפה ולהסתגל למצבים חדשים, והכפיל את הביצועים במשימות בלתי נראות בהשוואה לקודמו. שנתיים לאחר מכן, נראה ש-Gemini Robotics עשה קפיצה משמעותית נוספת, ועבר מעבר להבנה בלבד כדי לכלול ביצוע של מניפולציות פיזיות מורכבות שהיו מעבר להישג ידו של RT-2 באופן מפורש.

בעוד ש-RT-2 הוגבל לשימוש חוזר בתנועות פיזיות שנלמדו מראש, Gemini Robotics מציג על פי הדיווחים שיפור יוצא דופן במיומנות. מיומנות חדשה זו פותחת משימות שלא היו ניתנות להשגה בעבר, כגון אמנות קיפול האוריגמי העדינה ואריזה מדויקת של חטיפים בשקיות Zip-loc. מעבר זה – מרובוטים שמבינים פקודות בלבד לרובוטים המסוגלים לבצע משימות פיזיות עדינות – מסמן ש-DeepMind עשויה להיות על סף פתרון אחד האתגרים המתמשכים ביותר ברובוטיקה: לאפשר לרובוטים לתרגם את ‘הידע’ שלהם לתנועות זהירות ומדויקות בעולם האמיתי.

הכללה: המפתח ליכולת הסתגלות בעולם האמיתי

DeepMind מדגישה שמערכת Gemini Robotics החדשה מדגימה הכללה משופרת משמעותית – היכולת לבצע משימות חדשות שעבורן היא לא אומנה במפורש. זוהי התקדמות מכרעת. על פי הודעת החברה, Gemini Robotics ‘מכפיל יותר מפי שניים את הביצועים במדד הכללה מקיף בהשוואה למודלים אחרים של ראייה-שפה-פעולה חדישים’.

הכללה היא בעלת חשיבות עליונה מכיוון שרובוטים המסוגלים להסתגל לתרחישים חדשים מבלי לדרוש אימון ספציפי לכל מצב הם המפתח לפעולה יעילה בסביבות בלתי צפויות בעולם האמיתי. יכולת הסתגלות זו היא מה שמפריד בין רובוט מיוחד וספציפי למשימה לבין מכונה רב-תכליתית וניתנת להתאמה באמת.

מוח רובוט כללי: החזון השאפתני של גוגל

מאמציה של גוגל מכוונים בבירור ליצירת ‘מוח רובוט כללי’ – בינה מלאכותית רב-תכליתית המסוגלת לשלוט במגוון רחב של פלטפורמות רובוטיות. בהתאם לחזון זה, החברה הודיעה על שותפות עם Apptronik, חברת רובוטיקה מובילה, כדי ‘לבנות את הדור הבא של רובוטים דמויי אדם עם Gemini 2.0’.

בעוד שאומן בעיקר על פלטפורמת רובוט דו-ידנית המכונה ALOHA 2, גוגל מצהירה כי ל-Gemini Robotics יש את הרבגוניות לשלוט בסוגי רובוטים מגוונים. זה כולל זרועות רובוטיות Franka המכוונות למחקר ומערכות דמויות אדם מתוחכמות יותר כמו הרובוט Apollo של Apptronik. יכולת הסתגלות זו מדגישה את הפוטנציאל של Gemini Robotics להפוך ל’מוח’ אוניברסלי עבור מגוון רחב של יישומים רובוטיים.

הנוף הרובוטי דמוי האדם: חומרה ותוכנה מתלכדות

המרדף אחר רובוטיקה דמוית אדם הוא מאמץ שיתופי, כאשר חברות רבות תורמות להיבטים שונים של האתגר. חברות כמו Figure AI ו-Boston Dynamics (לשעבר חברת בת של Alphabet) פיתחו במרץ חומרת רובוטיקה דמוית אדם מתקדמת. עם זאת, ‘נהג’ בינה מלאכותית יעיל באמת – רכיב התוכנה שמקנה לרובוטים אלה אינטליגנציה ואוטונומיה – נותר חלק חסר קריטי.

מאמציה של גוגל בתחום זה צוברים תאוצה. החברה העניקה גישה מוגבלת ל-Gemini Robotics-ER באמצעות תוכנית ‘בודק מהימן’ לחברות רובוטיקה מובילות, כולל Boston Dynamics, Agility Robotics ו-Enchanted Tools. גישה שיתופית זו מצביעה על מאמץ משותף להאיץ את הפיתוח והפריסה של רובוטים דמויי אדם בעלי יכולת אמיתית.

בטיחות תחילה: גישה רב-שכבתית לרובוטיקה אחראית

מתוך הכרה בחשיבות העליונה של בטיחות ברובוטיקה, גוגל מדגישה ‘גישה רב-שכבתית והוליסטית’ המשלבת אמצעי בטיחות רובוטיים מסורתיים. אמצעים אלה כוללים הימנעות מהתנגשות ומגבלות כוח, מה שמבטיח שרובוטים פועלים בפרמטרים בטוחים.

יתר על כן, החברה מתארת את הפיתוח של מסגרת ‘חוקת רובוט’. מסגרת זו, בהשראת שלושת חוקי הרובוטיקה של אייזק אסימוב, מספקת מערכת של עקרונות מנחים לפיתוח ופריסה אתיים ובטוחים של רובוטים. בשילוב עם מסגרת זו, גוגל פרסמה מערך נתונים, שנקרא כראוי ‘ASIMOV’, שנועד לסייע לחוקרים בהערכת השלכות הבטיחות של פעולות רובוטיות.

מערך הנתונים ASIMOV: תקינה של הערכת בטיחות

מערך הנתונים ASIMOV מייצג את מאמציה של גוגל לבסס שיטות סטנדרטיות להערכת בטיחות רובוטים, החורגות ממניעת נזק פיזי. מערך הנתונים נועד לעזור לחוקרים להעריך עד כמה מודלי בינה מלאכותית מבינים את ההשלכות האפשריות של פעולות הרובוט בתרחישים שונים. על פי הודעת גוגל, מערך הנתונים ‘יעזור לחוקרים למדוד בקפדנות את השלכות הבטיחות של פעולות רובוטיות בתרחישים בעולם האמיתי’. יוזמה זו מדגישה את מחויבותה של גוגל לחדשנות אחראית בתחום הרובוטיקה.

עתיד הרובוטיקה: הצצה לאפשרויות

בעוד שגוגל טרם הודיעה על לוחות זמנים ספציפיים או יישומים מסחריים עבור מודלי הבינה המלאכותית החדשים, שנמצאים כעת בשלב מחקר, ההתקדמות המוצגת היא ללא ספק משמעותית. סרטוני ההדגמה שפרסמה גוגל מציגים התקדמות יוצאת דופן ביכולות המונעות על ידי בינה מלאכותית. עם זאת, חשוב להכיר בכך שהדגמות אלו נערכו בסביבות מחקר מבוקרות. המבחן האמיתי של מערכות אלו יהיה ביכולתן לפעול בצורה אמינה ובטוחה בסביבות הבלתי צפויות והדינמיות של העולם האמיתי.

הפיתוח של Gemini Robotics ו-Gemini Robotics-ER מייצג רגע מרכזי באבולוציה של הרובוטיקה. למודלים אלה יש פוטנציאל לפתוח עידן חדש של מיומנות, יכולת הסתגלות ואוטונומיה, ולסלול את הדרך לרובוטים להשתלב בצורה חלקה בחיינו ולתרום למגוון רחב של משימות. ככל שהמחקר מתקדם וטכנולוגיות אלו מתבגרות, אנו יכולים לצפות לעתיד שבו רובוטים ממלאים תפקיד בולט יותר ויותר בבתינו, במקומות העבודה ובקהילות שלנו. המסע לקראת בינה מלאכותית מגולמת באמת נמשך, אך ההתקדמות האחרונה של גוגל מציעה הצצה משכנעת לאפשרויות המרגשות הצפויות לנו. המיזוג של חומרה מתוחכמת ותוכנה חכמה יותר ויותר עומד לשנות את נוף הרובוטיקה, ולקרב אותנו לעתיד שבו רובוטים הם לא רק כלים, אלא שותפים רב-תכליתיים בחיי היומיום שלנו.