افشای توهم هوشمندی
برای دههها، آزمون تورینگ (Turing Test) به عنوان یک نقطه عطف، هرچند اغلب اشتباه درک شده، در تلاش برای سنجش هوش مصنوعی مطرح بوده است. این آزمون که توسط آلن تورینگ (Alan Turing) نابغه ابداع شد، چالشی ساده اما عمیق را پیشنهاد میکرد: آیا یک ماشین میتواند از طریق مکالمه متنی صرف، یک انسان را متقاعد کند که او نیز انسان است؟ بسیاری موفقیت در این آزمون را به عنوان طلوع تفکر ماشینی واقعی، نشانهای از اینکه مغزهای سیلیکونی سرانجام تواناییهای شناختی ما را منعکس میکنند، تفسیر کردهاند. با این حال، این تفسیر همواره با بحث و جدل همراه بوده و تحولات اخیر شامل مدلهای پیچیده هوش مصنوعی مانند GPT-4.5 از OpenAI، بازنگری انتقادی را ضروری میسازد.
تحقیقات پیشگامانهای که از دانشگاه کالیفرنیا در سن دیگو (University of California at San Diego) منتشر شده، این بحث را به شدت برجسته میکند. محققان در آنجا آزمایشهایی را انجام دادند که انسانها را در مقابل مدلهای زبان بزرگ (LLMs) پیشرفته در قالب کلاسیک آزمون تورینگ (Turing Test) قرار میداد. نتایج شگفتانگیز بود: آخرین نسخه OpenAI، که طبق گزارشها GPT-4.5 است، نه تنها قبول شد؛ بلکه درخشید و در جعل هویت انسانی خود متقاعدکنندهتر از شرکتکنندگان انسانی واقعی در اثبات انسانیت خودشان عمل کرد. این نشاندهنده جهشی قابل توجه در ظرفیت هوش مصنوعی مولد برای ساخت پاسخهایی است که به طور اصیل انسانی به نظر میرسند. با این حال، حتی محققان پشت این مطالعه نیز نسبت به برابر دانستن این مهارت مکالمهای با دستیابی به هوش عمومی مصنوعی (AGI) - هدف دستنیافتنی ایجاد ماشینهایی با تواناییهای شناختی در سطح انسان - هشدار میدهند. به نظر میرسد این آزمون ممکن است بیشتر در مورد محدودیتهای خود آزمون و فرضیات انسانی ما آشکارسازی کند تا در مورد ماهیت واقعی هوش ماشینی.
پیچ و تابی مدرن در یک آزمایش کلاسیک
جذابیت پایدار آزمون تورینگ (Turing Test) در سادگی ظریف آن نهفته است. تورینگ (Turing) یک ‘بازی تقلید’ را با سه بازیکن تصور کرد: یک بازجوی انسانی (قاضی)، یک شاهد انسانی و یک شاهد کامپیوتری. شاهدان که از یکدیگر جدا شده بودند و تنها از طریق پیامهای متنی ارتباط برقرار میکردند، تلاش میکردند تا قاضی را از هویت انسانی خود متقاعد کنند. قاضی که میدانست یکی از شرکتکنندگان ماشین است، باید تشخیص میداد کدام یک کدام است. نبوغ این تنظیمات در ماهیت مقایسهای ذاتی آن است. اگر قاضی به اشتباه کامپیوتر را به عنوان انسان شناسایی کند، این نه تنها به معنای عملکرد متقاعدکننده ماشین است، بلکه به معنای شکست بالقوه شاهد انسانی در نشان دادن کافی انسانیت خود، یا شاید ناتوانی قاضی در درک صحیح آن سیگنالها است. این به همان اندازه که معیاری برای قابلیت محاسباتی است، به یک بررسی جذاب از ادراک، باور و نشانههای ظریفی که ما با انسان بودن مرتبط میدانیم، تبدیل میشود.
با تکیه بر این پایه، محققان UC San Diego، کامرون جونز (Cameron Jones) و بنجامین برگن (Benjamin Bergen)، نسخهای معاصر از آزمون را با بهرهگیری از قدرت LLMهای مدرن و با مشارکت دانشجویان کارشناسی اجرا کردند. طراحی آزمایشی آنها به دقت به ساختار سهجانبه تورینگ (Turing) پایبند بود. دانشجویان به طور تصادفی به نقشهایی گمارده شدند: برخی به عنوان قاضی عمل کردند، برخی دیگر به عنوان شاهد انسانی. هر قاضی به طور همزمان و مستقل به مدت پنج دقیقه با یک شاهد انسانی و یک شاهد هوش مصنوعی چت متنی انجام داد. چالش برای قاضی همان بود: شناسایی ماشین.
برای بررسی قابلیتهای هوش مصنوعی فعلی، چندین مدل به عنوان شاهد کامپیوتری به کار گرفته شدند:
- GPT-4.5 (دستورالعمل حداقلی): این نسخه فقط دستورالعملهای اولیه را دریافت کرد.
- GPT-4.5 (دستورالعمل PERSONA): به این نسخه راهنماییهای بسیار دقیقتری داده شد. دستورالعمل به هوش مصنوعی دستور میداد تا یک شخصیت خاص را اتخاذ کند - شخصیت یک ‘فرد جوان درونگرا، آگاه به فرهنگ اینترنت و استفاده کننده از اصطلاحات عامیانه’. هدف از این کار، آزمایش سازگاری هوش مصنوعی و توانایی آن در تقلید از کهنالگوهای انسانی خاص بود.
- GPT-4o: مدل برجسته دیگر OpenAI به عنوان نقطه مقایسه عمل کرد.
- Llama 3.1 405b: LLM قدرتمند Meta Platforms برای گسترش دامنه تحقیق گنجانده شد.
- ELIZA: یک برنامه چتبات پیشگام از دهه 1960 به عنوان کنترل گنجانده شد. سادگی نسبی آن برای کمک به تعیین اینکه آیا موفقیت LLMها ناشی از برنامهنویسی پیچیده است یا صرفاً شانس تصادفی و قضات به راحتی فریب خورده، در نظر گرفته شده بود.
این رویکرد چند مدلی، همراه با تعاملات ساختاریافته و زمانبندی شده و مقایسه بین هوش مصنوعی با دستورالعمل حداقلی و هوش مصنوعی مبتنی بر شخصیت، مجموعه داده غنیای را برای تجزیه و تحلیل اینکه ماشینها اکنون چقدر میتوانند مکالمه انسانی را تقلید کنند و انسانها چگونه این تلاشها را درک میکنند، فراهم کرد.
وقتی تقلید از واقعیت پیشی میگیرد
یافتههای مطالعه UC San Diego، به ویژه در مورد عملکرد GPT-4.5 هنگامی که توسط دستورالعمل دقیق PERSONA هدایت میشد، چیزی کمتر از قابل توجه نبود. این پیکربندی خاص به نرخ برد شگفتانگیز 73% دست یافت. در اصل، تقریباً سه چهارم مواقع، قضات انسانی که با این هوش مصنوعی تعامل داشتند، به این نتیجه رسیدند که با یک انسان دیگر صحبت میکنند. این رقم نه تنها به دلیل ارزش مطلق آن، بلکه در مقایسه با سایر شرکتکنندگان نیز قابل توجه است.
معیارها را در نظر بگیرید:
- شاهدان انسانی: به طرز طعنهآمیزی، انسانهای واقعی که به عنوان شاهد شرکت میکردند، در متقاعد کردن قضات به انسانیت خود کمتر از GPT-4.5 مبتنی بر شخصیت موفق بودند.
- سایر مدلهای هوش مصنوعی: GPT-4.5 با دستورالعمل حداقلی، همراه با GPT-4o و Llama 3.1 (حتی زمانی که دستورالعملهای شخصیت مشابهی به آنها داده شد)، به طور قابل توجهی امتیاز کمتری کسب کردند، با نرخ برد بین 21% تا 56%. این امر قابلیتهای پیشرفته مدل خاص GPT-4.5 آزمایش شده و تأثیر قابل توجه دستورالعملهای متناسب را برجسته میکند.
- عملکرد قبلی GPT-4: در تکرار قبلی آزمایش که توسط همین محققان تنها یک سال قبل انجام شده بود، GPT-4 نرخ برد تنها 54% را به دست آورد که به سختی از آستانه شانس تصادفی (50%) فراتر میرفت. جهش به 73% با GPT-4.5 پیشرفت سریع در توانایی مدل برای تولید متن شبیه به انسان را نشان میدهد.
- ELIZA: چتبات قدیمی، همانطور که انتظار میرفت، عملکرد ضعیفی داشت و هدف خود را به عنوان یک خط پایه برآورده کرد و تأیید کرد که موفقیت LLMها صرفاً به دلیل فریب خوردن آسان قضات توسط هر برنامهای نبوده است.
نتیجهگیری جونز (Jones) و برگن (Bergen) صریح بود: قضات صرفاً در تمایز قائل شدن بین انسان و ماشین دچار مشکل نبودند؛ آنها فعالانه بیشتر تمایل داشتند باور کنند که GPT-4.5 مبتنی بر شخصیت، انسان است تا اینکه باور کنند شرکتکنندگان انسانی واقعی انسان هستند. این نشان میدهد که هوش مصنوعی، هنگامی که به درستی آموزش داده شود، میتواند ظرایف درک شده تعامل انسانی را - شاید حتی با فیلتر کردن ناهنجاریها یا تناقضات موجود در چت انسانی واقعی - به طور مؤثرتری نسبت به خود انسانها در این محیط خاص و محدود شبیهسازی کند. موفقیت فقط در مورد قبول شدن نبود؛ بلکه در مورد فراتر رفتن از خط پایه انسانی در ‘انسانیت’ درک شده در محدوده آزمون بود.
مانع شباهت به انسان: هوشمندی یا سازگاری؟
آیا پیروزی GPT-4.5 در این تکرار مدرن آزمون تورینگ (Turing Test) نشاندهنده ظهور AGI است؟ محققان، همراه با بسیاری از کارشناسان در این زمینه، به احتیاط توصیه میکنند. ‘بحثبرانگیزترین سوال’ پیرامون این آزمون، همانطور که جونز (Jones) و برگن (Bergen) اذعان دارند، همیشه این بوده است که آیا واقعاً هوشمندی را اندازهگیری میکند یا چیز دیگری را. در حالی که توانایی GPT-4.5 در فریب دادن انسانها به این شکل مؤثر، بدون شک یک شاهکار فنی است، ممکن است بیشتر به تقلید پیچیده و سازگاری مدل اشاره داشته باشد تا به درک یا آگاهی واقعی.
یک دیدگاه این است که این LLMهای پیشرفته در تطبیق الگو و پیشبینی به طور استثنایی ماهر شدهاند. با تغذیه مقادیر عظیمی از دادههای متنی انسانی، آنها احتمال آماری توالی کلمات، نوبتهای مکالمه و عناصر سبکی مرتبط با انواع مختلف تعامل انسانی را یاد میگیرند. دستورالعمل PERSONA به GPT-4.5 یک الگوی هدف خاص ارائه داد - یک فرد جوان درونگرا و آگاه به فرهنگ اینترنت. بنابراین، موفقیت هوش مصنوعی را میتوان نمایشی از توانایی آن در ‘تطبیق رفتار خود’ برای مطابقت با شخصیت درخواستی، با استفاده از دادههای آموزشی خود برای تولید پاسخهای سازگار با آن مشخصات، دانست. این نمایش قابل توجهی از انعطافپذیری و قدرت مولد است که به ماشین اجازه میدهد در چارچوب تعریف شده توسط دستورالعمل، به طور متقاعدکنندهای انسانی به نظر برسد.
با این حال، این سازگاری از هوش عمومی که انسانها دارند، متمایز است، که شامل استدلال، درک عمیق زمینه، یادگیری از تجربیات جدید و داشتن آگاهی است - ویژگیهایی که LLMهای فعلی به طور قابل اثبات از خود نشان نمیدهند. همانطور که ملانی میچل (Melanie Mitchell)، محقق هوش مصنوعی، استدلال کرده است، تسلط بر زبان طبیعی، بسیار شبیه به تسلط بر شطرنج، اثبات قطعی هوش عمومی نیست. این تسلط بر یک حوزه مهارتی خاص، هرچند پیچیده، را اثبات میکند. بنابراین، در حالی که عملکرد GPT-4.5 یک نقطه عطف در تولید زبان طبیعی است، چارچوببندی آن صرفاً به عنوان گامی به سوی AGI ممکن است گمراهکننده باشد. به نظر میرسد توصیف آن به عنوان دستیابی به درجه بالایی از ‘شباهت به انسان’ در مکالمه مبتنی بر متن، مفهومی ظریف اما به طور حیاتی متفاوت از هوش در سطح انسان، دقیقتر باشد.
آینه تعامل: آزمون چه چیزی را درباره ما آشکار میکند؟
شاید جذابترین جنبه مطالعه UC San Diego نه در آنچه در مورد هوش مصنوعی آشکار میکند، بلکه در آنچه در مورد قضاوت انسانی و فرضیاتی که ما به تعاملات، به ویژه آنلاین، میآوریم، نهفته باشد. این واقعیت که قضات انسانی اغلب فریب میخوردند و گاهی اوقات حتی سبک تعامل هوش مصنوعی را ترجیح میدادند، به ذهنیت ذاتی و نقصهای بالقوه در استفاده از ادراک انسانی به عنوان داور نهایی هوش ماشینی در این قالب اشاره دارد.
محققان الگوهای جالبی را در استدلال قضات مشاهده کردند:
- رفتار غیرمنتظره: حتی برنامه ابتدایی ELIZA موفق شد قضات را در 23% مواقع فریب دهد. این به این دلیل نبود که ELIZA هوشمندی نشان داد، بلکه اغلب به این دلیل بود که با تصورات از پیش تعیین شده قضات در مورد اینکه یک هوش مصنوعی باید چگونه رفتار کند، مطابقت نداشت. قضات دلایلی مانند ‘طعنهآمیز’ یا ‘بیادب’ بودن شاهد را ذکر کردند، ویژگیهایی که از یک ماشین انتظار نداشتند، بنابراین نتیجه گرفتند که باید انسان باشد.
- تمرکز بر اجتماعی بودن به جای هوش: برخلاف انتظار آلن تورینگ (Alan Turing) مبنی بر اینکه قضات به دنبال دانش و ظرفیت فکری خواهند بود، شرکتکنندگان در این مطالعه اغلب به نظر میرسید بیشتر بر سبک مکالمه، لحن عاطفی و نشانههای اجتماعی متمرکز بودند.
- پارادوکس نقص: در یک چرخش شگفتانگیز، یکی از عواملی که قضات برای شناسایی صحیح یک شاهد به عنوان انسان استفاده کردند، فقدان دانش درک شده بود. این نشاندهنده یک فرض اساسی است که انسانها خطاپذیر و ناقص هستند، در حالی که ممکن است انتظار رود هوش مصنوعی دایرهالمعارفی یا بیش از حد دقیق باشد.
این مشاهدات جونز (Jones) و برگن (Bergen) را به این نتیجه میرساند که تصمیمات قضات ‘فرضیات پیچیدهای در مورد نحوه رفتار احتمالی انسانها و سیستمهای هوش مصنوعی’ را در بر میگیرد و از ارزیابی ساده هوشمندی فراتر میرود. معیارها با انتظارات اجتماعی، قضاوتهای شخصیتی و حتی سوگیریها در مورد قابلیتهای تکنولوژیکی در هم تنیده میشوند. در عصری که ارتباطات مبتنی بر متن همه جا حاضر است، ما عادات و انتظارات ریشهداری را برای تعاملات آنلاین ایجاد کردهایم. آزمون تورینگ (Turing Test)، که در ابتدا به عنوان یک کاوش بدیع در تعامل انسان و کامپیوتر طراحی شده بود، اکنون بیشتر به عنوان آزمونی برای این عادات و سوگیریهای آنلاین انسانی عمل میکند. این آزمون توانایی ما را در تجزیه و تحلیل شخصیتهای دیجیتال، تحت تأثیر تجربیات روزمره ما با انسانها و رباتها به صورت آنلاین، اندازهگیری میکند. اساساً، آزمون تورینگ (Turing Test) مدرن، همانطور که توسط این تحقیق نشان داده شده است، به نظر میرسد کمتر ارزیابی مستقیمی از هوش ماشینی باشد و بیشتر معیاری برای شباهت درک شده به انسان، که از طریق لنز انتظار انسانی فیلتر شده است.
فراتر از بازی تقلید: ترسیم مسیری جدید برای ارزیابی هوش مصنوعی
با توجه به عملکرد قانعکننده مدلهایی مانند GPT-4.5 و محدودیتها و سوگیریهای برجسته ذاتی در قالب سنتی آزمون تورینگ (Turing Test)، این سوال مطرح میشود: آیا این معیار چند دههای هنوز ابزار مناسبی برای اندازهگیری پیشرفت به سوی AGI است؟ محققان UC San Diego، همراه با گروه رو به رشدی در جامعه هوش مصنوعی، پیشنهاد میکنند که احتمالاً نه - حداقل، نه به عنوان یک معیار واحد یا قطعی.
موفقیت بسیار زیاد GPT-4.5، به ویژه اتکای آن به دستورالعمل PERSONA، یک محدودیت کلیدی را برجسته میکند: آزمون عملکرد را در یک زمینه مکالمهای خاص و اغلب محدود ارزیابی میکند. لزوماً تواناییهای شناختی عمیقتر مانند استدلال، برنامهریزی، خلاقیت یا درک عقل سلیم در موقعیتهای متنوع را بررسی نمیکند. همانطور که جونز (Jones) و برگن (Bergen) بیان میکنند، ‘هوشمندی پیچیده و چندوجهی است’، که به این معنی است که ‘هیچ آزمون واحدی از هوشمندی نمیتواند تعیینکننده باشد.’
این به نیاز به مجموعهای جامعتر از روشهای ارزیابی اشاره دارد. چندین مسیر بالقوه پدیدار میشود:
- طرحهای آزمون اصلاحشده: خود محققان تغییراتی را پیشنهاد میکنند. چه میشد اگر قضات متخصصان هوش مصنوعی بودند که انتظارات متفاوتی داشتند و شاید روشهای پیچیدهتری برای بررسی قابلیتهای یک ماشین داشتند؟ چه میشد اگر انگیزههای مالی قابل توجهی معرفی میشد که قضات را تشویق میکرد تا پاسخها را با دقت و تفکر بیشتری بررسی کنند؟ این تغییرات میتوانند پویاییها را تغییر دهند و به طور بالقوه نتایج متفاوتی به همراه داشته باشند و تأثیر زمینه و انگیزه بر نتیجه آزمون را بیشتر برجسته کنند.
- آزمایش قابلیت گستردهتر: فراتر از تسلط مکالمهای، ارزیابیها میتوانند بر طیف وسیعتری از وظایف تمرکز کنند که جنبههای مختلف هوشمندی را میطلبند - حل مسئله در حوزههای جدید، برنامهریزی بلندمدت، درک روابط علی پیچیده، یا نشان دادن خلاقیت واقعی به جای بازترکیب پیچیده دادههای آموزشی.
- ارزیابی انسان-در-حلقه (HITL): روند فزایندهای به سمت ادغام سیستماتیکتر قضاوت انسانی در ارزیابی هوش مصنوعی وجود دارد، اما شاید به روشهای ساختاریافتهتری نسبت به آزمون تورینگ (Turing Test) کلاسیک. این میتواند شامل ارزیابی خروجیهای هوش مصنوعی توسط انسانها بر اساس معیارهای خاص (مانند دقت واقعی، انسجام منطقی، ملاحظات اخلاقی، سودمندی) به جای صرفاً قضاوت دودویی انسان/ماشین باشد. انسانها میتوانند به اصلاح مدلها، شناسایی نقاط ضعف و هدایت توسعه بر اساس بازخورد دقیق کمک کنند.
ایده اصلی این است که ارزیابی چیزی به پیچیدگی هوشمندی مستلزم نگاهی فراتر از تقلید ساده است. در حالی که آزمون تورینگ (Turing Test) یک چارچوب اولیه ارزشمند ارائه کرد و همچنان بحثهای مهمی را برمیانگیزد، اتکای صرف به آن خطر اشتباه گرفتن تقلید پیچیده با درک واقعی را به همراه دارد. مسیر به سوی درک و دستیابی بالقوه به AGI مستلزم روشهای ارزیابی غنیتر، متنوعتر و شاید دقیقتر است.
معمای AGI و آینده ارزیابی
آزمایشهای اخیر بر چالش اساسی تأکید میکنند که فراتر از خود آزمون تورینگ (Turing Test) است: ما در تعریف دقیق آنچه هوش عمومی مصنوعی (Artificial General Intelligence) را تشکیل میدهد، مشکل داریم، چه رسد به توافق بر سر اینکه چگونه آن را در صورت مواجهه قطعی تشخیص دهیم. اگر انسانها، با تمام سوگیریها و فرضیات ذاتی خود، میتوانند به این راحتی توسط یک LLM با دستورالعمل خوب در یک رابط چت ساده تحت تأثیر قرار گیرند، چگونه میتوانیم به طور قابل اعتماد قابلیتهای شناختی عمیقتر سیستمهای آینده بالقوه بسیار پیشرفتهتر را قضاوت کنیم؟
سفر به سوی AGI در ابهام پوشیده شده است. مطالعه UC San Diego به عنوان یادآوری قدرتمندی عمل میکند که معیارهای فعلی ما ممکن است برای کار پیش رو کافی نباشند. این مطالعه دشواری عمیق در جداسازی رفتار شبیهسازی شده از درک واقعی را برجسته میکند، به خصوص زمانی که شبیهسازی به طور فزایندهای پیچیده میشود. این منجر به سوالات گمانهزنانه، اما قابل تأمل، در مورد پارادایمهای ارزیابی آینده میشود. آیا میتوانیم به نقطهای برسیم، یادآور روایتهای علمی تخیلی، که در آن قضاوت انسانی برای تشخیص هوش مصنوعی پیشرفته از انسانها بسیار غیرقابل اعتماد تلقی شود؟
شاید، به طور متناقض، ارزیابی هوش ماشینی بسیار پیشرفته به کمک ماشینهای دیگر نیاز داشته باشد. سیستمهایی که به طور خاص برای بررسی عمق شناختی، سازگاری و استدلال واقعی طراحی شدهاند، و به طور بالقوه کمتر مستعد نشانههای اجتماعی و سوگیریهایی هستند که قضات انسانی را تحت تأثیر قرار میدهند، ممکن است به اجزای ضروری جعبه ابزار ارزیابی تبدیل شوند. یا، حداقل، درک عمیقتری از تعامل بین دستورالعملهای انسانی (دستورالعملها)، سازگاری هوش مصنوعی و درک حاصل از هوشمندی، حیاتی خواهد بود. ممکن است لازم باشد از ماشینها بپرسیم که آنها هنگام مشاهده پاسخ ماشینهای دیگر به تلاشهای انسانی برای استخراج رفتارهای خاص و بالقوه فریبنده، چه چیزی را تشخیص میدهند. تلاش برای سنجش هوش مصنوعی ما را مجبور میکند نه تنها با ماهیت هوش ماشینی، بلکه با ماهیت پیچیده و اغلب شگفتانگیز خودمان نیز روبرو شویم.