ההבטחה של AGI
בתחום המתפתח של בינה מלאכותית, הרעיון של “בינה מלאכותית כללית” (AGI) הפך לאפשרות מפתה. מנהיגי התעשייה טוענים יותר ויותר שאנחנו על סף יצירת סוכנים וירטואליים המסוגלים להשתוות, או אפילו להתעלות, על ההבנה והביצועים האנושיים במגוון רחב של משימות קוגניטיביות. ציפייה זו הזינה מרוץ בין חברות טכנולוגיה, שכל אחת מהן שואפת להיות הראשונה להשיג את אבן הדרך פורצת הדרך הזו.
OpenAI, שחקנית מרכזית בזירת ה-AI, רומזת בעדינות על הגעתו הקרובה של סוכן AI “ברמת דוקטורט”. סוכן זה, הם מציעים, יכול לפעול באופן אוטונומי, ולבצע ברמה של “עובד ידע בעל הכנסה גבוהה”. אילון מאסק, היזם השאפתן, השמיע תחזיות נועזות אף יותר, וקבע כי סביר להניח שתהיה לנו בינה מלאכותית “חכמה יותר מכל אדם אחד” עד סוף 2025. דריו אמודי, מנכ”ל Anthropic, חברת AI בולטת נוספת, מציע ציר זמן מעט שמרני יותר, אך חולק חזון דומה, ומציע ש-AI יכול להיות “טוב יותר מבני אדם כמעט בכל דבר” עד סוף 2027.
הניסוי ‘קלוד משחק פוקימון’ של Anthropic
על רקע תחזיות שאפתניות אלו, הציגה Anthropic את הניסוי שלה “קלוד משחק פוקימון” בחודש שעבר. פרויקט זה, שהוצג כצעד לקראת עתיד ה-AGI הצפוי, תואר כהצגת “ניצוצות של מערכות AI המתמודדות עם אתגרים ביכולת הולכת וגוברת, לא רק באמצעות אימון אלא עם חשיבה מוכללת”. Anthropic זכתה לתשומת לב משמעותית בכך שהדגישה כיצד “יכולות החשיבה המשופרות” של Claude 3.7 Sonnet אפשרו למודל העדכני ביותר של החברה להתקדם במשחק ה-Game Boy RPG הקלאסי, Pokémon, בדרכים ש”למודלים ישנים יותר לא היה סיכוי להשיג”.
החברה הדגישה כי “החשיבה המורחבת” של Claude 3.7 Sonnet אפשרה למודל החדש “לתכנן קדימה, לזכור את מטרותיו ולהסתגל כאשר אסטרטגיות ראשוניות נכשלות”. אלה, טענה Anthropic, הן “מיומנויות קריטיות לקרב מול מנהיגי מכון כושר מפוקסלים. ואנחנו טוענים, בפתרון בעיות בעולם האמיתי”. הרמז היה ברור: ההתקדמות של קלוד ב-Pokémon לא הייתה רק משחק; זו הייתה הדגמה של היכולת המתפתחת של ה-AI להתמודד עם אתגרים מורכבים בעולם האמיתי.
בדיקת המציאות: המאבקים של קלוד
עם זאת, ההתרגשות הראשונית סביב הביצועים של קלוד ב-Pokémon התמתנה על ידי מנה של מציאות. בעוד ש-Claude 3.7 Sonnet ללא ספק התעלה על קודמיו, הוא לא השיג שליטה במשחק. אלפי צופים ב-Twitch היו עדים למאבקים המתמשכים של קלוד, וצפו בטעויות התכופות ובחוסר היעילות שלו.
למרות הפסקות “חשיבה” ממושכות בין מהלכים – שבמהלכן הצופים יכולים לצפות בתהליך החשיבה המדומה של המערכת – קלוד מוצא את עצמו לעתים קרובות:
- ביקור חוזר בערים שהושלמו: ה-AI חוזר לעתים קרובות לאזורים שכבר חקר, לכאורה ללא מטרה.
- נתקע בפינות עיוורות: קלוד נלכד לעתים קרובות בפינות המפה לתקופות ממושכות, ואינו מסוגל לנווט החוצה.
- אינטראקציה חוזרת ונשנית עם NPCs לא מועילים: ה-AI נצפה מנהל שיחות חסרות תועלת עם אותן דמויות שאינן שחקנים שוב ושוב.
דוגמאות אלו לביצועים תת-אנושיים מובהקים במשחק מציירות תמונה רחוקה מהאינטליגנציה העל-אנושית שחזו חלקם. כשצופים בקלוד נאבק במשחק המיועד לילדים, קשה לדמיין שאנו עדים לשחר של עידן חדש של אינטליגנציה ממוחשבת.
לקחים מביצועים תת-אנושיים
למרות חסרונותיו, רמת הביצועים הנוכחית של קלוד ב-Pokémon מציעה תובנות חשובות לגבי החיפוש המתמשך אחר בינה מלאכותית כללית ברמה אנושית. אפילו המאבקים שלו טומנים בחובם לקחים משמעותיים שיכולים להשפיע על מאמצי הפיתוח העתידיים.
במובן מסוים, זה מדהים שקלוד יכול לשחק Pokémon בכלל. בעת פיתוח מערכות AI למשחקים כמו Go ו-Dota 2, מהנדסים בדרך כלל מספקים לאלגוריתמים שלהם ידע נרחב על כללי המשחק ואסטרטגיות, יחד עם פונקציית תגמול שתנחה את הלמידה שלהם. לעומת זאת, דיוויד הרשי, המפתח מאחורי פרויקט Claude Plays Pokémon, התחיל עם מודל Claude כללי שלא שונה, שלא אומן או כוון במיוחד לשחק במשחקי Pokémon.
הרשי הסביר ל-Ars, “זה אך ורק הדברים האחרים ש[קלוד] מבין על העולם שמשמשים להצביע על משחקי וידאו”. הוא הוסיף, “אז יש לו תחושה של פוקימון. אם תלך ל-claude.ai ותשאל על פוקימון, הוא יודע מה זה פוקימון על סמך מה שהוא קרא… אם תשאל, הוא יגיד לך שיש שמונה תגי מכון, הוא יגיד לך שהראשון הוא ברוק… הוא יודע את המבנה הרחב”.
האתגרים של פרשנות חזותית
בנוסף לניטור כתובות RAM מרכזיות של Game Boy לקבלת מידע על מצב המשחק, קלוד מפרש את הפלט החזותי של המשחק בדומה לשחקן אנושי. עם זאת, למרות ההתקדמות האחרונה בעיבוד תמונה ב-AI, קלוד עדיין מתקשה לפרש את העולם המפוקסל ברזולוציה נמוכה של צילום מסך של Game Boy באותה דיוק כמו אדם.
“קלוד עדיין לא טוב במיוחד בהבנת מה יש על המסך בכלל”, הודה הרשי. “אתה תראה אותו מנסה ללכת לתוך קירות כל הזמן”.
הרשי חושד שנתוני האימון של קלוד כנראה חסרים תיאורים טקסטואליים מפורטים של תמונות הדומות למסכי Game Boy. משמעות הדבר היא, באופן מעט מנוגד לאינטואיציה, שקלוד עשוי למעשה להציג ביצועים טובים יותר עם תמונות מציאותיות יותר.
“זה אחד הדברים המצחיקים האלה בבני אדם שאנחנו יכולים לפזול לעבר גושי הפיקסלים האלה של שמונה על שמונה של אנשים ולהגיד, ‘זו ילדה עם שיער כחול’”, ציין הרשי. “לאנשים, אני חושב, יש את היכולת הזו למפות מהעולם האמיתי שלנו כדי להבין ולסוג של להבין את זה… אז אני באמת מופתע שקלוד טוב כמו שהוא מסוגל לראות שיש אדם על המסך”.
חוזקות שונות, חולשות שונות
גם עם פרשנות חזותית מושלמת, הרשי מאמין שקלוד עדיין יתקשה עם אתגרי ניווט דו-ממדיים שהם טריוויאליים לבני אדם. “די קל לי להבין ש[בניין במשחק] הוא בניין ושאני לא יכול ללכת דרך בניין”, הוא אמר. “וזה [משהו] שדי מאתגר את קלוד להבין… זה מצחיק כי זה פשוט חכם בדרכים שונות, אתה יודע?”
המקום שבו קלוד מצטיין, לדברי הרשי, הוא בהיבטים מבוססי הטקסט של המשחק. במהלך קרבות, קלוד מבחין בקלות כאשר המשחק מציין שהתקפה של פוקימון מסוג חשמל “לא יעילה במיוחד” נגד יריב מסוג סלע. לאחר מכן הוא מאחסן מידע זה בבסיס הידע הכתוב העצום שלו לעיון עתידי. קלוד יכול גם לשלב פיסות ידע מרובות לאסטרטגיות קרב מתוחכמות, ואף להרחיב אסטרטגיות אלו לתוכניות ארוכות טווח ללכידה וניהול של צוותי פוקימונים.
קלוד אפילו מפגין “אינטליגנציה” מפתיעה כאשר הטקסט של המשחק מטעה או לא שלם בכוונה. הרשי ציין משימה מוקדמת במשחק שבה נאמר לשחקן למצוא את פרופסור אוק בבית הסמוך, רק כדי לגלות שהוא לא שם. “כילד בן 5, זה היה מאוד מבלבל אותי”, אמר הרשי. “אבל קלוד למעשה בדרך כלל עובר את אותה סדרה של תנועות שבה הוא מדבר עם אמא, הולך למעבדה, לא מוצא את [אוק], אומר, ‘אני צריך להבין משהו’… הוא מספיק מתוחכם כדי לעבור את התנועות של הדרך שבה [בני אדם] אמורים ללמוד את זה, גם כן”.
חוזקות וחולשות מנוגדות אלו, בהשוואה למשחק ברמה אנושית, משקפות את המצב הכללי של מחקר ויכולות AI, הסביר הרשי. “אני חושב שזה פשוט סוג של דבר אוניברסלי לגבי המודלים האלה… בנינו את הצד הטקסטואלי שלו קודם, והצד הטקסטואלי הוא בהחלט… חזק יותר. איך המודלים האלה יכולים לחשוב על תמונות משתפר, אבל אני חושב שזה קצת מאחור”.
גבולות הזיכרון
מעבר לאתגרים עם פרשנות חזותית וטקסטואלית, הרשי הודה שקלוד מתקשה “לזכור” את מה שלמד. למודל הנוכחי יש “חלון הקשר” של 200,000 טוקנים, המגביל את כמות המידע היחסי שהוא יכול לאחסן ב”זיכרון” שלו בכל רגע נתון. כאשר בסיס הידע המתרחב של המערכת ממלא חלון זה, קלוד עובר תהליך סיכום מורכב, ודוחס הערות מפורטות לסיכומים קצרים יותר שמאבדים בהכרח כמה פרטים עדינים.
זה יכול להוביל לכך שקלוד “מתקשה לעקוב אחר דברים במשך זמן רב מאוד ובאמת יש לו תחושה נהדרת של מה שהוא ניסה עד כה”, אמר הרשי. “אתה בהחלט תראה אותו מדי פעם מוחק משהו שהוא לא היה צריך. כל דבר שלא נמצא בבסיס הידע שלך או לא בסיכום שלך ייעלם, אז אתה צריך לחשוב על מה שאתה רוצה לשים שם”.
הסכנות של מידע שגוי
בעייתי יותר משכחת מידע חשוב הוא הנטייה של קלוד להכניס בטעות מידע שגוי לבסיס הידע שלו. כמו תיאורטיקן קונספירציה הבונה תפיסת עולם על הנחת יסוד פגומה, קלוד יכול להיות איטי להפליא בזיהוי כאשר שגיאה בבסיס הידע שכתב בעצמו מובילה את משחק ה-Pokémon שלו לסטות.
“הדברים שכתובים בעבר, הוא סומך עליהם בצורה עיוורת למדי”, אמר הרשי. “ראיתי אותו משתכנע מאוד שהוא מצא את היציאה ל[מיקום במשחק] Viridian Forest בקואורדינטות ספציפיות, ואז הוא מבלה שעות על גבי שעות בחקר ריבוע קטן סביב הקואורדינטות השגויות האלה במקום לעשות כל דבר אחר. לוקח לו הרבה מאוד זמן להחליט שזה היה ‘כישלון’”.
למרות אתגרים אלה, הרשי ציין ש-Claude 3.7 Sonnet טוב משמעותית ממודלים קודמים ב”תשאול ההנחות שלו, ניסיון אסטרטגיות חדשות ומעקב לאורך אופקים ארוכים של אסטרטגיות שונות כדי [לראות] אם הן עובדות או לא”. בעוד שהמודל החדש עדיין “נאבק לפרקי זמן ארוכים מאוד” בניסיון חוזר של אותן פעולות, הוא בסופו של דבר נוטה “לקבל תחושה של מה שקורה ומה שהוא ניסה בעבר, והוא נתקל הרבה פעמים בהתקדמות ממשית מזה”, אמר הרשי.
הדרך קדימה
אחד ההיבטים המרתקים ביותר של התבוננות ב-Claude Plays Pokémon לאורך איטרציות מרובות, אמר הרשי, הוא לראות כיצד ההתקדמות והאסטרטגיה של המערכת יכולות להשתנות באופן משמעותי בין ריצות. לפעמים, קלוד מפגין את “היכולת שלו לבנות אסטרטגיה קוהרנטית למדי” על ידי “שמירת הערות מפורטות על הנתיבים השונים לנסות”, הוא הסביר. אבל “רוב הזמן הוא לא… רוב הזמן, הוא משוטט לתוך הקיר כי הוא בטוח שהוא רואה את היציאה”.
אחת המגבלות העיקריות של הגרסה הנוכחית של קלוד, לדברי הרשי, היא ש”כשהוא מפיק את האסטרטגיה הטובה הזו, אני לא חושב שיש לו בהכרח את המודעות העצמית לדעת שאסטרטגיה אחת [שהוא] הגה טובה יותר מאחרת”. וזה, הוא הודה, לא בעיה טריוויאלית לפתור.
עם זאת, הרשי רואה “פירות נמוכים” לשיפור משחק ה-Pokémon של קלוד על ידי שיפור ההבנה של המודל בצילומי מסך של Game Boy. “אני חושב שיש סיכוי שהוא יוכל לנצח את המשחק אם תהיה לו תחושה מושלמת של מה שעל המסך”, הוא אמר, והציע שמודל כזה כנראה יציג ביצועים “קצת פחות מאנושיים”.
הרחבת חלון ההקשר עבור מודלי Claude עתידיים תאפשר להם גם “לחשוב על מסגרות זמן ארוכות יותר ולטפל בדברים בצורה קוהרנטית יותר לאורך תקופה ארוכה”, הוסיף הרשי. מודלים עתידיים ישתפרו על ידי כך שיהיו “קצת יותר טובים בלזכור, לעקוב אחר קבוצה קוהרנטית של מה שהוא צריך לנסות כדי להתקדם”, הוא אמר.
בעוד שהסיכוי לשיפורים קרובים במודלי AI אינו מוטל בספק, הביצועים הנוכחיים של קלוד ב-Pokémon אינם מצביעים על כך שהוא על סף הכנסת עידן של בינה מלאכותית ברמה אנושית, כללית לחלוטין. הרשי הודה שצפייה ב-Claude 3.7 Sonnet נתקע בהר מון במשך 80 שעות יכולה לגרום לו “להיראות כמו מודל שלא יודע מה הוא עושה”.
עם זאת, הרשי נותר מתרשם מהניצוצות המזדמנים של מודעות שמודל החשיבה החדש של קלוד מפגין, וציין שלפעמים הוא “כאילו יגיד שהוא לא יודע מה הוא עושה ויודע שהוא צריך לעשות משהו אחר. וההבדל בין ‘לא יכול לעשות את זה בכלל’ לבין ‘יכול לעשות את זה’ הוא די גדול עבורי בדברים האלה של AI”, הוא המשיך. “אתה יודע, כשמשהו יכול לעשות משהו זה בדרך כלל אומר שאנחנו די קרובים לגרום לו להיות מסוגל לעשות משהו ממש, ממש טוב”.