بحران آزمون تورینگ: آیا هوش مصنوعی معیار را شکست داده؟

افشای توهم هوشمندی

برای دهه‌ها، آزمون تورینگ (Turing Test) به عنوان یک نقطه عطف، هرچند اغلب اشتباه درک شده، در تلاش برای سنجش هوش مصنوعی مطرح بوده است. این آزمون که توسط آلن تورینگ (Alan Turing) نابغه ابداع شد، چالشی ساده اما عمیق را پیشنهاد می‌کرد: آیا یک ماشین می‌تواند از طریق مکالمه متنی صرف، یک انسان را متقاعد کند که او نیز انسان است؟ بسیاری موفقیت در این آزمون را به عنوان طلوع تفکر ماشینی واقعی، نشانه‌ای از اینکه مغزهای سیلیکونی سرانجام توانایی‌های شناختی ما را منعکس می‌کنند، تفسیر کرده‌اند. با این حال، این تفسیر همواره با بحث و جدل همراه بوده و تحولات اخیر شامل مدل‌های پیچیده هوش مصنوعی مانند GPT-4.5 از OpenAI، بازنگری انتقادی را ضروری می‌سازد.

تحقیقات پیشگامانه‌ای که از دانشگاه کالیفرنیا در سن دیگو (University of California at San Diego) منتشر شده، این بحث را به شدت برجسته می‌کند. محققان در آنجا آزمایش‌هایی را انجام دادند که انسان‌ها را در مقابل مدل‌های زبان بزرگ (LLMs) پیشرفته در قالب کلاسیک آزمون تورینگ (Turing Test) قرار می‌داد. نتایج شگفت‌انگیز بود: آخرین نسخه OpenAI، که طبق گزارش‌ها GPT-4.5 است، نه تنها قبول شد؛ بلکه درخشید و در جعل هویت انسانی خود متقاعدکننده‌تر از شرکت‌کنندگان انسانی واقعی در اثبات انسانیت خودشان عمل کرد. این نشان‌دهنده جهشی قابل توجه در ظرفیت هوش مصنوعی مولد برای ساخت پاسخ‌هایی است که به طور اصیل انسانی به نظر می‌رسند. با این حال، حتی محققان پشت این مطالعه نیز نسبت به برابر دانستن این مهارت مکالمه‌ای با دستیابی به هوش عمومی مصنوعی (AGI) - هدف دست‌نیافتنی ایجاد ماشین‌هایی با توانایی‌های شناختی در سطح انسان - هشدار می‌دهند. به نظر می‌رسد این آزمون ممکن است بیشتر در مورد محدودیت‌های خود آزمون و فرضیات انسانی ما آشکارسازی کند تا در مورد ماهیت واقعی هوش ماشینی.

پیچ و تابی مدرن در یک آزمایش کلاسیک

جذابیت پایدار آزمون تورینگ (Turing Test) در سادگی ظریف آن نهفته است. تورینگ (Turing) یک ‘بازی تقلید’ را با سه بازیکن تصور کرد: یک بازجوی انسانی (قاضی)، یک شاهد انسانی و یک شاهد کامپیوتری. شاهدان که از یکدیگر جدا شده بودند و تنها از طریق پیام‌های متنی ارتباط برقرار می‌کردند، تلاش می‌کردند تا قاضی را از هویت انسانی خود متقاعد کنند. قاضی که می‌دانست یکی از شرکت‌کنندگان ماشین است، باید تشخیص می‌داد کدام یک کدام است. نبوغ این تنظیمات در ماهیت مقایسه‌ای ذاتی آن است. اگر قاضی به اشتباه کامپیوتر را به عنوان انسان شناسایی کند، این نه تنها به معنای عملکرد متقاعدکننده ماشین است، بلکه به معنای شکست بالقوه شاهد انسانی در نشان دادن کافی انسانیت خود، یا شاید ناتوانی قاضی در درک صحیح آن سیگنال‌ها است. این به همان اندازه که معیاری برای قابلیت محاسباتی است، به یک بررسی جذاب از ادراک، باور و نشانه‌های ظریفی که ما با انسان بودن مرتبط می‌دانیم، تبدیل می‌شود.

با تکیه بر این پایه، محققان UC San Diego، کامرون جونز (Cameron Jones) و بنجامین برگن (Benjamin Bergen)، نسخه‌ای معاصر از آزمون را با بهره‌گیری از قدرت LLMهای مدرن و با مشارکت دانشجویان کارشناسی اجرا کردند. طراحی آزمایشی آنها به دقت به ساختار سه‌جانبه تورینگ (Turing) پایبند بود. دانشجویان به طور تصادفی به نقش‌هایی گمارده شدند: برخی به عنوان قاضی عمل کردند، برخی دیگر به عنوان شاهد انسانی. هر قاضی به طور همزمان و مستقل به مدت پنج دقیقه با یک شاهد انسانی و یک شاهد هوش مصنوعی چت متنی انجام داد. چالش برای قاضی همان بود: شناسایی ماشین.

برای بررسی قابلیت‌های هوش مصنوعی فعلی، چندین مدل به عنوان شاهد کامپیوتری به کار گرفته شدند:

  • GPT-4.5 (دستورالعمل حداقلی): این نسخه فقط دستورالعمل‌های اولیه را دریافت کرد.
  • GPT-4.5 (دستورالعمل PERSONA): به این نسخه راهنمایی‌های بسیار دقیق‌تری داده شد. دستورالعمل به هوش مصنوعی دستور می‌داد تا یک شخصیت خاص را اتخاذ کند - شخصیت یک ‘فرد جوان درونگرا، آگاه به فرهنگ اینترنت و استفاده کننده از اصطلاحات عامیانه’. هدف از این کار، آزمایش سازگاری هوش مصنوعی و توانایی آن در تقلید از کهن‌الگوهای انسانی خاص بود.
  • GPT-4o: مدل برجسته دیگر OpenAI به عنوان نقطه مقایسه عمل کرد.
  • Llama 3.1 405b: LLM قدرتمند Meta Platforms برای گسترش دامنه تحقیق گنجانده شد.
  • ELIZA: یک برنامه چت‌بات پیشگام از دهه 1960 به عنوان کنترل گنجانده شد. سادگی نسبی آن برای کمک به تعیین اینکه آیا موفقیت LLMها ناشی از برنامه‌نویسی پیچیده است یا صرفاً شانس تصادفی و قضات به راحتی فریب خورده، در نظر گرفته شده بود.

این رویکرد چند مدلی، همراه با تعاملات ساختاریافته و زمان‌بندی شده و مقایسه بین هوش مصنوعی با دستورالعمل حداقلی و هوش مصنوعی مبتنی بر شخصیت، مجموعه داده غنی‌ای را برای تجزیه و تحلیل اینکه ماشین‌ها اکنون چقدر می‌توانند مکالمه انسانی را تقلید کنند و انسان‌ها چگونه این تلاش‌ها را درک می‌کنند، فراهم کرد.

وقتی تقلید از واقعیت پیشی می‌گیرد

یافته‌های مطالعه UC San Diego، به ویژه در مورد عملکرد GPT-4.5 هنگامی که توسط دستورالعمل دقیق PERSONA هدایت می‌شد، چیزی کمتر از قابل توجه نبود. این پیکربندی خاص به نرخ برد شگفت‌انگیز 73% دست یافت. در اصل، تقریباً سه چهارم مواقع، قضات انسانی که با این هوش مصنوعی تعامل داشتند، به این نتیجه رسیدند که با یک انسان دیگر صحبت می‌کنند. این رقم نه تنها به دلیل ارزش مطلق آن، بلکه در مقایسه با سایر شرکت‌کنندگان نیز قابل توجه است.

معیارها را در نظر بگیرید:

  • شاهدان انسانی: به طرز طعنه‌آمیزی، انسان‌های واقعی که به عنوان شاهد شرکت می‌کردند، در متقاعد کردن قضات به انسانیت خود کمتر از GPT-4.5 مبتنی بر شخصیت موفق بودند.
  • سایر مدل‌های هوش مصنوعی: GPT-4.5 با دستورالعمل حداقلی، همراه با GPT-4o و Llama 3.1 (حتی زمانی که دستورالعمل‌های شخصیت مشابهی به آنها داده شد)، به طور قابل توجهی امتیاز کمتری کسب کردند، با نرخ برد بین 21% تا 56%. این امر قابلیت‌های پیشرفته مدل خاص GPT-4.5 آزمایش شده و تأثیر قابل توجه دستورالعمل‌های متناسب را برجسته می‌کند.
  • عملکرد قبلی GPT-4: در تکرار قبلی آزمایش که توسط همین محققان تنها یک سال قبل انجام شده بود، GPT-4 نرخ برد تنها 54% را به دست آورد که به سختی از آستانه شانس تصادفی (50%) فراتر می‌رفت. جهش به 73% با GPT-4.5 پیشرفت سریع در توانایی مدل برای تولید متن شبیه به انسان را نشان می‌دهد.
  • ELIZA: چت‌بات قدیمی، همانطور که انتظار می‌رفت، عملکرد ضعیفی داشت و هدف خود را به عنوان یک خط پایه برآورده کرد و تأیید کرد که موفقیت LLMها صرفاً به دلیل فریب خوردن آسان قضات توسط هر برنامه‌ای نبوده است.

نتیجه‌گیری جونز (Jones) و برگن (Bergen) صریح بود: قضات صرفاً در تمایز قائل شدن بین انسان و ماشین دچار مشکل نبودند؛ آنها فعالانه بیشتر تمایل داشتند باور کنند که GPT-4.5 مبتنی بر شخصیت، انسان است تا اینکه باور کنند شرکت‌کنندگان انسانی واقعی انسان هستند. این نشان می‌دهد که هوش مصنوعی، هنگامی که به درستی آموزش داده شود، می‌تواند ظرایف درک شده تعامل انسانی را - شاید حتی با فیلتر کردن ناهنجاری‌ها یا تناقضات موجود در چت انسانی واقعی - به طور مؤثرتری نسبت به خود انسان‌ها در این محیط خاص و محدود شبیه‌سازی کند. موفقیت فقط در مورد قبول شدن نبود؛ بلکه در مورد فراتر رفتن از خط پایه انسانی در ‘انسانیت’ درک شده در محدوده آزمون بود.

مانع شباهت به انسان: هوشمندی یا سازگاری؟

آیا پیروزی GPT-4.5 در این تکرار مدرن آزمون تورینگ (Turing Test) نشان‌دهنده ظهور AGI است؟ محققان، همراه با بسیاری از کارشناسان در این زمینه، به احتیاط توصیه می‌کنند. ‘بحث‌برانگیزترین سوال’ پیرامون این آزمون، همانطور که جونز (Jones) و برگن (Bergen) اذعان دارند، همیشه این بوده است که آیا واقعاً هوشمندی را اندازه‌گیری می‌کند یا چیز دیگری را. در حالی که توانایی GPT-4.5 در فریب دادن انسان‌ها به این شکل مؤثر، بدون شک یک شاهکار فنی است، ممکن است بیشتر به تقلید پیچیده و سازگاری مدل اشاره داشته باشد تا به درک یا آگاهی واقعی.

یک دیدگاه این است که این LLMهای پیشرفته در تطبیق الگو و پیش‌بینی به طور استثنایی ماهر شده‌اند. با تغذیه مقادیر عظیمی از داده‌های متنی انسانی، آنها احتمال آماری توالی کلمات، نوبت‌های مکالمه و عناصر سبکی مرتبط با انواع مختلف تعامل انسانی را یاد می‌گیرند. دستورالعمل PERSONA به GPT-4.5 یک الگوی هدف خاص ارائه داد - یک فرد جوان درونگرا و آگاه به فرهنگ اینترنت. بنابراین، موفقیت هوش مصنوعی را می‌توان نمایشی از توانایی آن در ‘تطبیق رفتار خود’ برای مطابقت با شخصیت درخواستی، با استفاده از داده‌های آموزشی خود برای تولید پاسخ‌های سازگار با آن مشخصات، دانست. این نمایش قابل توجهی از انعطاف‌پذیری و قدرت مولد است که به ماشین اجازه می‌دهد در چارچوب تعریف شده توسط دستورالعمل، به طور متقاعدکننده‌ای انسانی به نظر برسد.

با این حال، این سازگاری از هوش عمومی که انسان‌ها دارند، متمایز است، که شامل استدلال، درک عمیق زمینه، یادگیری از تجربیات جدید و داشتن آگاهی است - ویژگی‌هایی که LLMهای فعلی به طور قابل اثبات از خود نشان نمی‌دهند. همانطور که ملانی میچل (Melanie Mitchell)، محقق هوش مصنوعی، استدلال کرده است، تسلط بر زبان طبیعی، بسیار شبیه به تسلط بر شطرنج، اثبات قطعی هوش عمومی نیست. این تسلط بر یک حوزه مهارتی خاص، هرچند پیچیده، را اثبات می‌کند. بنابراین، در حالی که عملکرد GPT-4.5 یک نقطه عطف در تولید زبان طبیعی است، چارچوب‌بندی آن صرفاً به عنوان گامی به سوی AGI ممکن است گمراه‌کننده باشد. به نظر می‌رسد توصیف آن به عنوان دستیابی به درجه بالایی از ‘شباهت به انسان’ در مکالمه مبتنی بر متن، مفهومی ظریف اما به طور حیاتی متفاوت از هوش در سطح انسان، دقیق‌تر باشد.

آینه تعامل: آزمون چه چیزی را درباره ما آشکار می‌کند؟

شاید جذاب‌ترین جنبه مطالعه UC San Diego نه در آنچه در مورد هوش مصنوعی آشکار می‌کند، بلکه در آنچه در مورد قضاوت انسانی و فرضیاتی که ما به تعاملات، به ویژه آنلاین، می‌آوریم، نهفته باشد. این واقعیت که قضات انسانی اغلب فریب می‌خوردند و گاهی اوقات حتی سبک تعامل هوش مصنوعی را ترجیح می‌دادند، به ذهنیت ذاتی و نقص‌های بالقوه در استفاده از ادراک انسانی به عنوان داور نهایی هوش ماشینی در این قالب اشاره دارد.

محققان الگوهای جالبی را در استدلال قضات مشاهده کردند:

  • رفتار غیرمنتظره: حتی برنامه ابتدایی ELIZA موفق شد قضات را در 23% مواقع فریب دهد. این به این دلیل نبود که ELIZA هوشمندی نشان داد، بلکه اغلب به این دلیل بود که با تصورات از پیش تعیین شده قضات در مورد اینکه یک هوش مصنوعی باید چگونه رفتار کند، مطابقت نداشت. قضات دلایلی مانند ‘طعنه‌آمیز’ یا ‘بی‌ادب’ بودن شاهد را ذکر کردند، ویژگی‌هایی که از یک ماشین انتظار نداشتند، بنابراین نتیجه گرفتند که باید انسان باشد.
  • تمرکز بر اجتماعی بودن به جای هوش: برخلاف انتظار آلن تورینگ (Alan Turing) مبنی بر اینکه قضات به دنبال دانش و ظرفیت فکری خواهند بود، شرکت‌کنندگان در این مطالعه اغلب به نظر می‌رسید بیشتر بر سبک مکالمه، لحن عاطفی و نشانه‌های اجتماعی متمرکز بودند.
  • پارادوکس نقص: در یک چرخش شگفت‌انگیز، یکی از عواملی که قضات برای شناسایی صحیح یک شاهد به عنوان انسان استفاده کردند، فقدان دانش درک شده بود. این نشان‌دهنده یک فرض اساسی است که انسان‌ها خطاپذیر و ناقص هستند، در حالی که ممکن است انتظار رود هوش مصنوعی دایره‌المعارفی یا بیش از حد دقیق باشد.

این مشاهدات جونز (Jones) و برگن (Bergen) را به این نتیجه می‌رساند که تصمیمات قضات ‘فرضیات پیچیده‌ای در مورد نحوه رفتار احتمالی انسان‌ها و سیستم‌های هوش مصنوعی’ را در بر می‌گیرد و از ارزیابی ساده هوشمندی فراتر می‌رود. معیارها با انتظارات اجتماعی، قضاوت‌های شخصیتی و حتی سوگیری‌ها در مورد قابلیت‌های تکنولوژیکی در هم تنیده می‌شوند. در عصری که ارتباطات مبتنی بر متن همه جا حاضر است، ما عادات و انتظارات ریشه‌داری را برای تعاملات آنلاین ایجاد کرده‌ایم. آزمون تورینگ (Turing Test)، که در ابتدا به عنوان یک کاوش بدیع در تعامل انسان و کامپیوتر طراحی شده بود، اکنون بیشتر به عنوان آزمونی برای این عادات و سوگیری‌های آنلاین انسانی عمل می‌کند. این آزمون توانایی ما را در تجزیه و تحلیل شخصیت‌های دیجیتال، تحت تأثیر تجربیات روزمره ما با انسان‌ها و ربات‌ها به صورت آنلاین، اندازه‌گیری می‌کند. اساساً، آزمون تورینگ (Turing Test) مدرن، همانطور که توسط این تحقیق نشان داده شده است، به نظر می‌رسد کمتر ارزیابی مستقیمی از هوش ماشینی باشد و بیشتر معیاری برای شباهت درک شده به انسان، که از طریق لنز انتظار انسانی فیلتر شده است.

فراتر از بازی تقلید: ترسیم مسیری جدید برای ارزیابی هوش مصنوعی

با توجه به عملکرد قانع‌کننده مدل‌هایی مانند GPT-4.5 و محدودیت‌ها و سوگیری‌های برجسته ذاتی در قالب سنتی آزمون تورینگ (Turing Test)، این سوال مطرح می‌شود: آیا این معیار چند دهه‌ای هنوز ابزار مناسبی برای اندازه‌گیری پیشرفت به سوی AGI است؟ محققان UC San Diego، همراه با گروه رو به رشدی در جامعه هوش مصنوعی، پیشنهاد می‌کنند که احتمالاً نه - حداقل، نه به عنوان یک معیار واحد یا قطعی.

موفقیت بسیار زیاد GPT-4.5، به ویژه اتکای آن به دستورالعمل PERSONA، یک محدودیت کلیدی را برجسته می‌کند: آزمون عملکرد را در یک زمینه مکالمه‌ای خاص و اغلب محدود ارزیابی می‌کند. لزوماً توانایی‌های شناختی عمیق‌تر مانند استدلال، برنامه‌ریزی، خلاقیت یا درک عقل سلیم در موقعیت‌های متنوع را بررسی نمی‌کند. همانطور که جونز (Jones) و برگن (Bergen) بیان می‌کنند، ‘هوشمندی پیچیده و چندوجهی است’، که به این معنی است که ‘هیچ آزمون واحدی از هوشمندی نمی‌تواند تعیین‌کننده باشد.’

این به نیاز به مجموعه‌ای جامع‌تر از روش‌های ارزیابی اشاره دارد. چندین مسیر بالقوه پدیدار می‌شود:

  1. طرح‌های آزمون اصلاح‌شده: خود محققان تغییراتی را پیشنهاد می‌کنند. چه می‌شد اگر قضات متخصصان هوش مصنوعی بودند که انتظارات متفاوتی داشتند و شاید روش‌های پیچیده‌تری برای بررسی قابلیت‌های یک ماشین داشتند؟ چه می‌شد اگر انگیزه‌های مالی قابل توجهی معرفی می‌شد که قضات را تشویق می‌کرد تا پاسخ‌ها را با دقت و تفکر بیشتری بررسی کنند؟ این تغییرات می‌توانند پویایی‌ها را تغییر دهند و به طور بالقوه نتایج متفاوتی به همراه داشته باشند و تأثیر زمینه و انگیزه بر نتیجه آزمون را بیشتر برجسته کنند.
  2. آزمایش قابلیت گسترده‌تر: فراتر از تسلط مکالمه‌ای، ارزیابی‌ها می‌توانند بر طیف وسیع‌تری از وظایف تمرکز کنند که جنبه‌های مختلف هوشمندی را می‌طلبند - حل مسئله در حوزه‌های جدید، برنامه‌ریزی بلندمدت، درک روابط علی پیچیده، یا نشان دادن خلاقیت واقعی به جای بازترکیب پیچیده داده‌های آموزشی.
  3. ارزیابی انسان-در-حلقه (HITL): روند فزاینده‌ای به سمت ادغام سیستماتیک‌تر قضاوت انسانی در ارزیابی هوش مصنوعی وجود دارد، اما شاید به روش‌های ساختاریافته‌تری نسبت به آزمون تورینگ (Turing Test) کلاسیک. این می‌تواند شامل ارزیابی خروجی‌های هوش مصنوعی توسط انسان‌ها بر اساس معیارهای خاص (مانند دقت واقعی، انسجام منطقی، ملاحظات اخلاقی، سودمندی) به جای صرفاً قضاوت دودویی انسان/ماشین باشد. انسان‌ها می‌توانند به اصلاح مدل‌ها، شناسایی نقاط ضعف و هدایت توسعه بر اساس بازخورد دقیق کمک کنند.

ایده اصلی این است که ارزیابی چیزی به پیچیدگی هوشمندی مستلزم نگاهی فراتر از تقلید ساده است. در حالی که آزمون تورینگ (Turing Test) یک چارچوب اولیه ارزشمند ارائه کرد و همچنان بحث‌های مهمی را برمی‌انگیزد، اتکای صرف به آن خطر اشتباه گرفتن تقلید پیچیده با درک واقعی را به همراه دارد. مسیر به سوی درک و دستیابی بالقوه به AGI مستلزم روش‌های ارزیابی غنی‌تر، متنوع‌تر و شاید دقیق‌تر است.

معمای AGI و آینده ارزیابی

آزمایش‌های اخیر بر چالش اساسی تأکید می‌کنند که فراتر از خود آزمون تورینگ (Turing Test) است: ما در تعریف دقیق آنچه هوش عمومی مصنوعی (Artificial General Intelligence) را تشکیل می‌دهد، مشکل داریم، چه رسد به توافق بر سر اینکه چگونه آن را در صورت مواجهه قطعی تشخیص دهیم. اگر انسان‌ها، با تمام سوگیری‌ها و فرضیات ذاتی خود، می‌توانند به این راحتی توسط یک LLM با دستورالعمل خوب در یک رابط چت ساده تحت تأثیر قرار گیرند، چگونه می‌توانیم به طور قابل اعتماد قابلیت‌های شناختی عمیق‌تر سیستم‌های آینده بالقوه بسیار پیشرفته‌تر را قضاوت کنیم؟

سفر به سوی AGI در ابهام پوشیده شده است. مطالعه UC San Diego به عنوان یادآوری قدرتمندی عمل می‌کند که معیارهای فعلی ما ممکن است برای کار پیش رو کافی نباشند. این مطالعه دشواری عمیق در جداسازی رفتار شبیه‌سازی شده از درک واقعی را برجسته می‌کند، به خصوص زمانی که شبیه‌سازی به طور فزاینده‌ای پیچیده می‌شود. این منجر به سوالات گمانه‌زنانه، اما قابل تأمل، در مورد پارادایم‌های ارزیابی آینده می‌شود. آیا می‌توانیم به نقطه‌ای برسیم، یادآور روایت‌های علمی تخیلی، که در آن قضاوت انسانی برای تشخیص هوش مصنوعی پیشرفته از انسان‌ها بسیار غیرقابل اعتماد تلقی شود؟

شاید، به طور متناقض، ارزیابی هوش ماشینی بسیار پیشرفته به کمک ماشین‌های دیگر نیاز داشته باشد. سیستم‌هایی که به طور خاص برای بررسی عمق شناختی، سازگاری و استدلال واقعی طراحی شده‌اند، و به طور بالقوه کمتر مستعد نشانه‌های اجتماعی و سوگیری‌هایی هستند که قضات انسانی را تحت تأثیر قرار می‌دهند، ممکن است به اجزای ضروری جعبه ابزار ارزیابی تبدیل شوند. یا، حداقل، درک عمیق‌تری از تعامل بین دستورالعمل‌های انسانی (دستورالعمل‌ها)، سازگاری هوش مصنوعی و درک حاصل از هوشمندی، حیاتی خواهد بود. ممکن است لازم باشد از ماشین‌ها بپرسیم که آنها هنگام مشاهده پاسخ ماشین‌های دیگر به تلاش‌های انسانی برای استخراج رفتارهای خاص و بالقوه فریبنده، چه چیزی را تشخیص می‌دهند. تلاش برای سنجش هوش مصنوعی ما را مجبور می‌کند نه تنها با ماهیت هوش ماشینی، بلکه با ماهیت پیچیده و اغلب شگفت‌انگیز خودمان نیز روبرو شویم.