آیا ChatGPT از آزمون تورینگ پیشی می‌گیرد؟

به نظر می‌رسد که تصور از اینکه ChatGPT با موفقیت از آزمون تورینگ عبور خواهد کرد، به طور فزاینده‌ای به عنوان یک نتیجه اجتناب‌ناپذیر تلقی می‌شود. در واقع، برخی از محققان از قبل متقاعد شده‌اند که این شاهکار را انجام داده است.

تکامل چت‌بات‌ها، که توسط ChatGPT نمونه‌سازی می‌شود، نشان‌دهنده افزایش چشمگیری در هوش، طبیعی بودن و ویژگی‌های شبیه به انسان است. این پیشرفت منطقی است، با توجه به اینکه انسان‌ها معماران مدل‌های زبانی بزرگ (LLMs) هستند که بستر اصلی این چت‌بات‌های هوش مصنوعی را تشکیل می‌دهند. با اصلاح قابلیت‌های «استدلال» و تقلید از گفتار انسان با دقت بیشتر، یک سوال اساسی مطرح می‌شود: آیا آنها به اندازه کافی پیشرفته هستند که از آزمون تورینگ عبور کنند؟

دهه‌هاست که آزمون تورینگ به عنوان یک معیار محوری در ارزیابی هوش ماشین ایستاده است. در حال حاضر، محققان به طور فعال LLMهایی مانند ChatGPT را در معرض این ارزیابی دقیق قرار می‌دهند. یک نتیجه موفقیت‌آمیز نشان‌دهنده یک نقطه عطف بزرگ در قلمرو توسعه هوش مصنوعی خواهد بود.

بنابراین، آیا ChatGPT قادر به گذراندن آزمون تورینگ است؟ برخی از محققان تأیید می‌کنند که چنین است. با این حال، نتایج همچنان برای تفسیر باز هستند. آزمون تورینگ یک نتیجه باینری سرراست ارائه نمی‌دهد و یافته‌ها را تا حدودی مبهم می‌کند. علاوه بر این، حتی اگر ChatGPT از آزمون تورینگ عبور کند، ممکن است نشانه قطعی از ویژگی‌های «شبیه به انسان» ذاتی در یک LLM ارائه نکند.

بیایید به پیچیدگی‌ها بپردازیم.

باز کردن آزمون تورینگ

ماهیت آزمون تورینگ به طرز قابل توجهی ساده است.

این آزمون که توسط ریاضیدان بریتانیایی، آلن تورینگ، چهره پیشگام در علوم کامپیوتر، ابداع شد، بازی تقلید، همانطور که در ابتدا شناخته می‌شد، به عنوان یک آزمون تعیین کننده برای هوش ماشین عمل می‌کند. آزمون تورینگ شامل یک ارزیاب انسانی است که در گفتگو با هم یک انسان و هم یک ماشین شرکت می‌کند، بدون اینکه بداند کدام یک است. اگر ارزیاب نتواند ماشین را از انسان تشخیص دهد، ماشین به عنوان عبور از آزمون تورینگ در نظر گرفته می‌شود. در یک محیط تحقیقاتی، این آزمایش چندین بار با ارزیابان مختلف انجام می‌شود.

بسیار مهم است که تشخیص دهیم این آزمایش به طور قطعی تعیین نمی‌کند که آیا یک LLM همان سطح هوش یک انسان را دارد یا خیر. در عوض، توانایی LLM را در جعل هویت یک انسان به طور متقاعد کننده ارزیابی می‌کند.

فرآیند تفکر LLMها

LLMها، بنا به ماهیت خود، فاقد مغز فیزیکی، آگاهی یا درک جامعی از جهان هستند. آنها فاقد خودآگاهی هستند و نظرات یا باورهای واقعی ندارند.

این مدل‌ها بر روی مجموعه‌های داده‌ای گسترده آموزش داده می‌شوند که طیف گسترده‌ای از منابع اطلاعاتی، از جمله کتاب‌ها، مقالات آنلاین، اسناد و رونوشت‌ها را در بر می‌گیرند. هنگامی که یک کاربر ورودی متنی ارائه می‌دهد، مدل هوش مصنوعی از قابلیت‌های «استدلال» خود برای تشخیص محتمل‌ترین معنا و نیت پشت ورودی استفاده می‌کند. متعاقباً، مدل یک پاسخ بر اساس این تفسیر تولید می‌کند.

LLMها در هسته خود به عنوان موتورهای پیش‌بینی کلمه پیچیده عمل می‌کنند. آنها با استفاده از داده‌های آموزشی گسترده خود، احتمالات را برای «توکن» اولیه (به طور معمول یک کلمه واحد) پاسخ، با تکیه بر واژگان خود محاسبه می‌کنند. این فرآیند تکراری تا زمانی ادامه می‌یابد که یک پاسخ کامل فرموله شود. در حالی که این توضیح ساده شده است، جوهره نحوه تولید پاسخ‌ها توسط LLMها را بر اساس احتمالات آماری به جای درک واقعی از جهان به تصویر می‌کشد.

بنابراین، این نادرست است که پیشنهاد کنیم LLMها به معنای متعارف «فکر می‌کنند».

شواهد تجربی: ChatGPT و آزمون تورینگ

مطالعات متعددی عملکرد ChatGPT را در آزمون تورینگ بررسی کرده‌اند و بسیاری از آنها نتایج مثبتی به دست آورده‌اند. این امر باعث شده است که برخی از دانشمندان علوم کامپیوتر ادعا کنند که LLMهایی مانند GPT-4 و GPT-4.5 اکنون از آستانه آزمون تورینگ فراتر رفته‌اند.

بیشتر این ارزیابی‌ها بر روی مدل GPT-4 OpenAI تمرکز دارند، که اکثر تعاملات ChatGPT را تامین می‌کند. مطالعه‌ای که توسط UC San Diego انجام شد، نشان داد که ارزیابان انسانی اغلب قادر به تمایز GPT-4 از یک انسان نیستند. در این مطالعه، GPT-4 در 54 درصد موارد به اشتباه به عنوان انسان شناسایی شد. با این حال، این عملکرد هنوز از عملکرد انسان‌های واقعی، که در 67 درصد مواقع به درستی به عنوان انسان شناسایی شدند، عقب مانده است.

پس از انتشار GPT-4.5، محققان UC San Diego این مطالعه را تکرار کردند. این بار، LLM در 73 درصد موارد به عنوان انسان شناسایی شد و از عملکرد انسان‌های واقعی پیشی گرفت. این مطالعه همچنین نشان داد که LLaMa-3.1-405B متا قادر به گذراندن این آزمایش است.

مطالعات مشابهی که به طور مستقل از UC San Diego انجام شده است، نمرات قبولی را به GPT اختصاص داده‌اند. مطالعه‌ای در سال 2024 توسط دانشگاه ریدینگ شامل GPT-4 بود که پاسخ‌هایی را برای ارزیابی‌های خانگی برای دوره‌های کارشناسی تولید می‌کرد. درجه‌دهنده‌ها از آزمایش اطلاعی نداشتند و فقط یک مورد از 33 مورد ارسالی را نشانه‌گذاری کردند. ChatGPT نمرات بالاتر از حد متوسط ​​را برای 32 ورودی باقی‌مانده دریافت کرد.

آیا این مطالعات قطعی هستند؟ نه کاملاً. برخی از منتقدان استدلال می‌کنند که این یافته‌های تحقیق کمتر از آنچه به نظر می‌رسد چشمگیر هستند. این تردید مانع از آن می‌شود که به طور قطعی اعلام کنیم که ChatGPT از آزمون تورینگ عبور کرده است.

با این وجود، بدیهی است که در حالی که نسل‌های قبلی LLMها، مانند GPT-4، گهگاه از آزمون تورینگ عبور می‌کردند، با ادامه پیشرفت LLMها، نتایج موفقیت‌آمیز به طور فزاینده‌ای رایج می‌شوند. با ظهور مدل‌های پیشرفته‌ای مانند GPT-4.5، به سرعت به نقطه‌ای نزدیک می‌شویم که مدل‌ها می‌توانند به طور مداوم از آزمون تورینگ عبور کنند.

OpenAI آینده‌ای را متصور است که در آن تشخیص بین انسان و هوش مصنوعی غیرممکن شود. این دیدگاه در سرمایه‌گذاری مدیرعامل OpenAI، سام آلتمن، در یک پروژه تأیید هویت انسانی شامل یک دستگاه اسکن چشم به نام The Orb منعکس شده است.

خودارزیابی ChatGPT

هنگامی که از ChatGPT پرسیده شد که آیا می‌تواند از آزمون تورینگ عبور کند، پاسخ مثبت داد، البته با احتیاط‌هایی که قبلاً مورد بحث قرار گرفته است. هنگامی که با این سوال مطرح شد که «آیا ChatGPT می‌تواند از آزمون تورینگ عبور کند؟»، چت‌بات هوش مصنوعی (با استفاده از مدل 4o) بیان کرد که «ChatGPT می‌تواند در برخی سناریوها از آزمون تورینگ عبور کند، اما نه به طور قابل اعتماد یا جهانی.» این چت‌بات نتیجه گرفت که «ممکن است از آزمون تورینگ با یک کاربر متوسط ​​در شرایط معمولی عبور کند، اما یک بازجو مصمم و متفکر تقریباً همیشه می‌تواند آن را فاش کند.»

محدودیت‌های آزمون تورینگ

برخی از دانشمندان علوم کامپیوتر اکنون آزمون تورینگ را منسوخ شده و با ارزش محدود در ارزیابی LLMها می‌دانند. گری مارکوس، روانشناس، دانشمند شناختی، نویسنده و مفسر هوش مصنوعی آمریکایی، این دیدگاه را به طور خلاصه در یک پست وبلاگ اخیر خلاصه کرد و اظهار داشت که «همانطور که من (و بسیاری دیگر) سال‌ها گفته‌ایم، آزمون تورینگ آزمونی برای زودباوری انسان است، نه آزمونی برای هوش.»

همچنین مهم است که به یاد داشته باشیم که آزمون تورینگ بر درک هوش تمرکز دارد تا هوش واقعی. این تمایز بسیار مهم است. یک مدل مانند ChatGPT 4o ممکن است به سادگی با تقلید از گفتار انسان از آزمون عبور کند. علاوه بر این، موفقیت یک LLM در آزمون به موضوع بحث و ارزیاب بستگی دارد. ChatGPT ممکن است در مکالمات معمولی عالی باشد، اما با تعاملاتی که نیاز به هوش هیجانی واقعی دارند، مشکل داشته باشد. علاوه بر این، سیستم‌های هوش مصنوعی مدرن به طور فزاینده‌ای برای کاربردهایی فراتر از مکالمات ساده استفاده می‌شوند، به ویژه با حرکت به سمت دنیای هوش مصنوعی نمایندگی.

این بدان معنا نیست که آزمون تورینگ کاملاً بی‌ربط است. این آزمون همچنان یک معیار تاریخی مهم است و قابل توجه است که LLMها قادر به گذراندن آن هستند. با این حال، آزمون تورینگ معیار نهایی هوش ماشین نیست.

فراتر از آزمون تورینگ: جستجوی یک معیار بهتر

آزمون تورینگ، در حالی که از نظر تاریخی مهم است، به طور فزاینده‌ای به عنوان یک معیار ناکافی برای هوش مصنوعی واقعی در نظر گرفته می‌شود. تمرکز آن بر تقلید از گفتار انسان، جنبه‌های مهم هوش، مانند حل مسئله، خلاقیت و سازگاری را نادیده می‌گیرد. اتکای این آزمون به فریب نیز نگرانی‌های اخلاقی را برمی‌انگیزد، زیرا سیستم‌های هوش مصنوعی را تشویق می‌کند تا به جای توسعه هوش واقعی، ویژگی‌های شبیه به انسان را جعل کنند.

نیاز به معیارهای جدید

با پیشرفت فناوری هوش مصنوعی، نیاز به معیارهای جامع‌تر و مرتبط‌تر به طور فزاینده‌ای آشکار می‌شود. این معیارهای جدید باید به نقاط ضعف آزمون تورینگ بپردازند و ارزیابی دقیق‌تری از قابلیت‌های هوش مصنوعی ارائه دهند. برخی از مسیرهای بالقوه برای معیارهای آینده عبارتند از:

  • حل مسئله در دنیای واقعی: آزمایشاتی که از سیستم‌های هوش مصنوعی می‌خواهند مشکلات پیچیده دنیای واقعی را حل کنند، مانند طراحی یک شبکه انرژی پایدار یا توسعه درمانی برای یک بیماری.
  • وظایف خلاقانه: ارزیابی‌هایی که توانایی هوش مصنوعی را در تولید محتوای اصیل و تخیلی، مانند نوشتن یک رمان، آهنگسازی موسیقی یا خلق آثار هنری ارزیابی می‌کنند.
  • سازگاری و یادگیری: معیارهایی که ظرفیت هوش مصنوعی را برای یادگیری از تجربیات جدیدو انطباق با محیط‌های در حال تغییر اندازه گیری می‌کنند.
  • ملاحظات اخلاقی: ارزیابی‌هایی که توانایی هوش مصنوعی را برای تصمیم‌گیری‌های اخلاقی و اجتناب از سوگیری‌ها ارزیابی می‌کنند.

نمونه‌هایی از معیارهای نوظهور

چندین معیار جدید در حال ظهور هستند تا به محدودیت‌های آزمون تورینگ رسیدگی کنند. اینها عبارتند از:

  • چالش شمای وینوگراد: این آزمایش بر توانایی هوش مصنوعی در درک ضمایر مبهم در جملات تمرکز دارد.
  • چالش استدلال AI2: این معیار توانایی هوش مصنوعی را برای استدلال و پاسخ دادن به سوالات بر اساس متون پیچیده ارزیابی می‌کند.
  • چالش استدلال عقل سلیم: این آزمایش درک هوش مصنوعی از دانش عقل سلیم و توانایی آن در نتیجه گیری را ارزیابی می‌کند.

آینده ارزیابی هوش مصنوعی

آینده ارزیابی هوش مصنوعی احتمالاً شامل ترکیبی از معیارهای مختلف خواهد بود که هر کدام برای ارزیابی جنبه‌های خاصی از هوش طراحی شده‌اند. این معیارها باید به طور مداوم در حال تکامل باشند تا با پیشرفت‌های سریع در فناوری هوش مصنوعی همگام شوند. علاوه بر این، مشارکت دادن سهامداران مختلف، از جمله محققان، سیاست‌گذاران و مردم، در توسعه و ارزیابی معیارهای هوش مصنوعی بسیار مهم است.

حرکت فراتر از تقلید

در نهایت، هدف تحقیقات هوش مصنوعی باید توسعه سیستم‌هایی باشد که نه تنها هوشمند باشند، بلکه برای بشریت نیز مفید باشند. این امر مستلزم فراتر رفتن از پیگیری تقلید شبیه به انسان و تمرکز بر توسعه سیستم‌های هوش مصنوعی است که می‌توانند مشکلات دنیای واقعی را حل کنند، خلاقیت را افزایش دهند و تصمیم‌گیری‌های اخلاقی را ترویج کنند. با استقبال از معیارهای جدید و تمرکز بر این اهداف گسترده‌تر، می‌توانیم پتانسیل کامل هوش مصنوعی را باز کنیم و آینده‌ای را ایجاد کنیم که در آن هوش مصنوعی و انسان‌ها با هم برای ایجاد دنیایی بهتر کار کنند.