האם ChatGPT יכול לעבור את מבחן טיורינג?

התפיסה ש-ChatGPT יצליח לעבור את מבחן טיורינג הולכת ומתחזקת כתוצאה בלתי נמנעת. ואכן, חוקרים מסוימים כבר משוכנעים שהוא השיג הישג זה.

האבולוציה של צ’אטבוטים, כפי שמודגם על ידי ChatGPT, מציגה זינוק מדהים באינטליגנציה, טבעיות ותכונות דמויות אדם. התקדמות זו הגיונית, בהתחשב בכך שבני אדם הם האדריכלים של מודלי השפה הגדולים (LLMs) המהווים את הבסיס לצ’אטבוטים אלה של AI. כאשר כלים אלה מעדנים את יכולות ה”חשיבה” שלהם ומדמים דיבור אנושי בדיוק רב יותר, עולה שאלה קריטית: האם הם מתקדמים מספיק כדי לעבור את מבחן טיורינג?

במשך עשרות שנים, מבחן טיורינג עמד כאמת מידה מרכזית בהערכת אינטליגנציה של מכונות. כיום, חוקרים מעבירים באופן פעיל LLM כמו ChatGPT להערכה קפדנית זו. תוצאה מוצלחת תייצג אבן דרך מונומנטלית בתחום פיתוח הבינה המלאכותית.

אז, האם ChatGPT מסוגל לעבור את מבחן טיורינג? חלק מהחוקרים מאשרים שכן. עם זאת, התוצאות נשארות פתוחות לפרשנות. מבחן טיורינג אינו מציע תוצאה בינארית פשוטה, מה שהופך את הממצאים למעורפלים במידת מה. יתר על כן, גם אם ChatGPT יעבור את מבחן טיורינג, ייתכן שהוא לא יספק אינדיקציה מוחלטת לתכונות ה”דמויות אדם” הטמונות ב-LLM.

בואו נעמיק במורכבויות.

פירוק מבחן טיורינג

מהות מבחן טיורינג פשוטה להפליא.

משחק החיקוי, כפי שהוא כונה בתחילה, שהגה המתמטיקאי הבריטי אלן טיורינג, דמות חלוצית במדעי המחשב, משמש כמבחן לקמוס לאינטליגנציה של מכונות. מבחן טיורינג כולל מעריך אנושי המנהל שיחות הן עם אדם והן עם מכונה, מבלי לדעת מי זה מי. אם המעריך אינו מסוגל להבחין בין המכונה לאדם, המכונה נחשבת כמי שעברה את מבחן טיורינג. במסגרת מחקר, מבחן זה נערך מספר פעמים עם מעריכים מגוונים.

חשוב להכיר בכך שמבחן זה אינו קובע באופן מוחלט אם ל-LLM יש את אותה רמת אינטליגנציה כמו לאדם. במקום זאת, הוא מעריך את יכולתו של ה-LLM לחקות באופן משכנע אדם.

תהליך החשיבה של LLMs

ל-LLMs, מטבעם, חסר מוח פיזי, תודעה או הבנה מקיפה של העולם. הם חסרי מודעות עצמית ואינם מחזיקים בדעות או אמונות אמיתיות.

מודלים אלה מאומנים על מערכי נתונים עצומים המקיפים מגוון רחב של מקורות מידע, כולל ספרים, מאמרים מקוונים, מסמכים ותמלילים. כאשר משתמש מספק קלט טקסטואלי, מודל הבינה המלאכותית משתמש ביכולות ה”חשיבה” שלו כדי להבחין במשמעות ובכוונה הסבירים ביותר מאחורי הקלט. לאחר מכן, המודל מייצר תגובה על סמך פרשנות זו.

בבסיסם, LLMs מתפקדים כמנועי חיזוי מילים מתוחכמים. על ידי מינוף נתוני האימון הנרחבים שלהם, הם מחשבים הסתברויות עבור ה”אסימון” הראשוני (בדרך כלל מילה בודדת) של התגובה, תוך הסתמכות על אוצר המילים שלהם. תהליך איטרטיבי זה נמשך עד שנוסחה תגובה מלאה. בעוד שהסבר זה פשוט, הוא לוכד את המהות של האופן שבו LLMs מייצרים תגובות המבוססות על הסתברויות סטטיסטיות ולא על הבנה אמיתית של העולם.

לכן, לא מדויק להציע ש-LLMs “חושבים” במובן המקובל.

ראיות אמפיריות: ChatGPT ומבחן טיורינג

מחקרים רבים חקרו את הביצועים של ChatGPT במבחן טיורינג, כאשר רבים הניבו תוצאות חיוביות. זה הוביל כמה מדעני מחשב לטעון ש-LLM כגון GPT-4 ו-GPT-4.5 עברו כעת את סף מבחן טיורינג.

רוב ההערכות הללו מתרכזות במודל GPT-4 של OpenAI, המפעיל את רוב האינטראקציות של ChatGPT. מחקר שנערך על ידי UC San Diego גילה שלעתים קרובות מעריכים אנושיים לא הצליחו להבחין בין GPT-4 לאדם. במחקר זה, GPT-4 זוהה בטעות כאדם ב-54% מהמקרים. עם זאת, ביצועים אלה עדיין פיגרו מאחורי אלה של בני אדם בפועל, שזוהו נכון כבני אדם ב-67% מהמקרים.

בעקבות שחרורו של GPT-4.5, החוקרים של UC San Diego שיכפלו את המחקר. הפעם, ה-LLM זוהה כאדם ב-73% מהמקרים, ועלה על הביצועים שלבני אדם בפועל. המחקר גם הצביע על כך ש-LLaMa-3.1-405B של Meta מסוגל לעבור את המבחן.

מחקרים דומים שנערכו באופן עצמאי מ-UC San Diego גם העניקו ציוני עובר ל-GPT. מחקר שנערך בשנת 2024 על ידי אוניברסיטת רדינג כלל את GPT-4 המייצר תגובות להערכות הביתה עבור קורסים לתואר ראשון. המדרגים לא היו מודעים לניסוי וסימנו רק הגשה אחת מתוך 33. ChatGPT קיבל ציונים מעל הממוצע עבור 32 הערכים הנותרים.

האם מחקרים אלה חד משמעיים? לא לגמרי. כמה מבקרים טוענים שממצאי מחקר אלה פחות מרשימים ממה שהם נראים. ספקנות זו מונעת מאיתנו להצהיר באופן מוחלט ש-ChatGPT עבר את מבחן טיורינג.

עם זאת, ברור שבעוד שדורות קודמים של LLM, כגון GPT-4, עברו מדי פעם את מבחן טיורינג, תוצאות מוצלחות הופכות נפוצות יותר ויותר ככל ש-LLM ממשיכים להתקדם. עם הופעתם של מודלים חדשניים כמו GPT-4.5, אנו מתקרבים במהירות לנקודה שבה מודלים יכולים לעבור באופן עקבי את מבחן טיורינג.

OpenAI חוזה עתיד שבו ההבחנה בין אדם לבינה מלאכותית הופכת לבלתי אפשרית. חזון זה בא לידי ביטוי בהשקעה של מנכ”ל OpenAI, סם אלטמן, בפרויקט אימות אנושי הכולל מכשיר לסריקת גלגלי עיניים המכונה The Orb.

הערכה עצמית של ChatGPT

כשנשאל אם הוא יכול לעבור את מבחן טיורינג, ChatGPT הגיב בחיוב, אם כי עם הסתייגויות שכבר נדונו. כאשר נשאל בשאלה, “האם ChatGPT יכול לעבור את מבחן טיורינג?” הצ’אטבוט של AI (באמצעות מודל 4o) הצהיר כי “ChatGPT יכול לעבור את מבחן טיורינג בתרחישים מסוימים, אך לא בצורה מהימנה או אוניברסלית.” הצ’אטבוט סיכם כי “ייתכן שהוא יעבור את מבחן טיורינג עם משתמש ממוצע בתנאים מזדמנים, אך חוקר נחוש ומתחשב כמעט תמיד יכול לחשוף אותו.”

מגבלות מבחן טיורינג

כמה מדעני מחשב רואים כיום את מבחן טיורינג כמיושן ובעל ערך מוגבל בהערכת LLM. גארי מרקוס, פסיכולוג אמריקאי, מדען קוגניציה, סופר ופרשן AI, סיכם בקצרה את נקודת המבט הזו בפוסט בבלוג שנכתב לאחרונה, וקבע כי “כפי שאני (ורבים אחרים) אמרתי במשך שנים, מבחן טיורינג הוא מבחן של תמימות אנושית, לא מבחן של אינטליגנציה.”

חשוב גם לזכור שמבחן טיורינג מתמקד בתפיסה של אינטליגנציה ולא באינטליגנציה בפועל. הבחנה זו היא מכרעת. מודל כמו ChatGPT 4o עשוי לעבור את המבחן פשוט על ידי חיקוי דיבור אנושי. יתר על כן, הצלחת LLM במבחן תהיה תלויה בנושא הדיון ובמעריך. ChatGPT עשוי להצטיין בשיחה מזדמנת אך יתקשה באינטראקציות הדורשות אינטליגנציה רגשית אמיתית. יתר על כן, מערכות בינה מלאכותית מודרניות משמשות יותר ויותר ליישומים מעבר לשיחה פשוטה, במיוחד כשאנחנו מתקדמים לעבר עולם של AI סוכני.

אין זה מרמז שמבחן טיורינג אינו רלוונטי לחלוטין. הוא נותר אמת מידה היסטורית משמעותית, וראוי לציין ש-LLM מסוגלים לעבור אותו. עם זאת, מבחן טיורינג אינו המדד האולטימטיבי לאינטליגנציה של מכונות.

מעבר למבחן טיורינג: חיפוש אחר אמת מידה טובה יותר

מבחן טיורינג, למרות חשיבותו ההיסטורית, נתפס יותר ויותר כמדד לא מספק לבינה מלאכותית אמיתית. ההתמקדות שלו בחיקוי שיחה אנושית מתעלמת מהיבטים מכריעים של אינטליגנציה, כגון פתרון בעיות, יצירתיות ויכולת הסתגלות. הסתמכותו של המבחן על הונאה מעוררת גם חששות אתיים, שכן הוא מעודד מערכות AI להעמיד פנים שיש להן תכונות דמויות אדם במקום לפתח אינטליגנציה אמיתית.

הצורך במדדים חדשים

ככל שטכנולוגיית הבינה המלאכותית מתקדמת, הצורך באמות מידה מקיפות ורלוונטיות יותר הופך ברור יותר ויותר. מדדים חדשים אלה צריכים לתת מענה לחסרונות של מבחן טיורינג ולספק הערכה מדויקת יותר של יכולות הבינה המלאכותית. כמה כיוונים פוטנציאליים עבור אמות מידה עתידיות כוללים:

  • פתרון בעיות בעולם האמיתי: מבחנים הדורשים ממערכות AI לפתור בעיות מורכבות בעולם האמיתי, כגון תכנון רשת אנרגיה בת קיימא או פיתוח תרופה למחלה.
  • משימות יצירתיות: הערכות המעריכות את היכולת של AI ליצור תוכן מקורי ודמיוני, כגון כתיבת רומן, הלחנת מוזיקה או יצירת יצירות אמנות.
  • יכולת הסתגלות ולמידה: מדדים המודדים את יכולתו של AI ללמוד מחוויות חדשות ולהסתגל לסביבות משתנות.
  • שיקולים אתיים: הערכות המעריכות את יכולתו של AI לקבל החלטות אתיות ולהימנע מהטיות.

דוגמאות לאמות מידה מתפתחות

מספר אמות מידה חדשות צצות כדי לתת מענה למגבלות של מבחן טיורינג. אלה כוללים:

  • אתגר הסכמה של וינוגרד: מבחן זה מתמקד ביכולתו של AI להבין כינויי גוף מעורפלים במשפטים.
  • אתגר ההסקה AI2: אמת מידה זו מעריכה את היכולת של AI להסיק מסקנות ולענות על שאלות המבוססות על טקסטים מורכבים.
  • אתגר ההסקה השכל הישר: מבחן זה מעריך את ההבנה של AI של ידע בשכל הישר ואת יכולתו להסיק מסקנות.

עתיד הערכת הבינה המלאכותית

עתיד הערכת הבינה המלאכותית צפוי לכלול שילוב של אמות מידה שונות, שכל אחת מהן נועדה להעריך היבטים ספציפיים של אינטליגנציה. אמות מידה אלה צריכות להתפתח כל הזמן כדי לעמוד בקצב ההתקדמות המהירה בטכנולוגיית הבינה המלאכותית. יתר על כן, חיוני לערב בעלי עניין מגוונים, כולל חוקרים, קובעי מדיניות והציבור, בפיתוח והערכה של אמות מידה של AI.

מעבר לחיקוי

בסופו של דבר, המטרה של מחקר הבינה המלאכותית צריכה להיות פיתוח מערכות שהן לא רק אינטליגנטיות אלא גם מועילות לאנושות. זה דורש מעבר מעבר למרדף אחר חיקוי דמוי אדם והתמקדות בפיתוח מערכות AI שיכולות לפתור בעיות בעולם האמיתי, לשפר את היצירתיות ולקדם קבלת החלטות אתיות. על ידי אימוץ אמות מידה חדשות והתמקדות ביעדים רחבים יותר אלה, נוכל לפתוח את מלוא הפוטנציאל של AI וליצור עתיד שבו AI ובני אדם עובדים יחד כדי ליצור עולם טוב יותר.