به نظر میرسد که تصور از اینکه ChatGPT با موفقیت از آزمون تورینگ عبور خواهد کرد، به طور فزایندهای به عنوان یک نتیجه اجتنابناپذیر تلقی میشود. در واقع، برخی از محققان از قبل متقاعد شدهاند که این شاهکار را انجام داده است.
تکامل چتباتها، که توسط ChatGPT نمونهسازی میشود، نشاندهنده افزایش چشمگیری در هوش، طبیعی بودن و ویژگیهای شبیه به انسان است. این پیشرفت منطقی است، با توجه به اینکه انسانها معماران مدلهای زبانی بزرگ (LLMs) هستند که بستر اصلی این چتباتهای هوش مصنوعی را تشکیل میدهند. با اصلاح قابلیتهای «استدلال» و تقلید از گفتار انسان با دقت بیشتر، یک سوال اساسی مطرح میشود: آیا آنها به اندازه کافی پیشرفته هستند که از آزمون تورینگ عبور کنند؟
دهههاست که آزمون تورینگ به عنوان یک معیار محوری در ارزیابی هوش ماشین ایستاده است. در حال حاضر، محققان به طور فعال LLMهایی مانند ChatGPT را در معرض این ارزیابی دقیق قرار میدهند. یک نتیجه موفقیتآمیز نشاندهنده یک نقطه عطف بزرگ در قلمرو توسعه هوش مصنوعی خواهد بود.
بنابراین، آیا ChatGPT قادر به گذراندن آزمون تورینگ است؟ برخی از محققان تأیید میکنند که چنین است. با این حال، نتایج همچنان برای تفسیر باز هستند. آزمون تورینگ یک نتیجه باینری سرراست ارائه نمیدهد و یافتهها را تا حدودی مبهم میکند. علاوه بر این، حتی اگر ChatGPT از آزمون تورینگ عبور کند، ممکن است نشانه قطعی از ویژگیهای «شبیه به انسان» ذاتی در یک LLM ارائه نکند.
بیایید به پیچیدگیها بپردازیم.
باز کردن آزمون تورینگ
ماهیت آزمون تورینگ به طرز قابل توجهی ساده است.
این آزمون که توسط ریاضیدان بریتانیایی، آلن تورینگ، چهره پیشگام در علوم کامپیوتر، ابداع شد، بازی تقلید، همانطور که در ابتدا شناخته میشد، به عنوان یک آزمون تعیین کننده برای هوش ماشین عمل میکند. آزمون تورینگ شامل یک ارزیاب انسانی است که در گفتگو با هم یک انسان و هم یک ماشین شرکت میکند، بدون اینکه بداند کدام یک است. اگر ارزیاب نتواند ماشین را از انسان تشخیص دهد، ماشین به عنوان عبور از آزمون تورینگ در نظر گرفته میشود. در یک محیط تحقیقاتی، این آزمایش چندین بار با ارزیابان مختلف انجام میشود.
بسیار مهم است که تشخیص دهیم این آزمایش به طور قطعی تعیین نمیکند که آیا یک LLM همان سطح هوش یک انسان را دارد یا خیر. در عوض، توانایی LLM را در جعل هویت یک انسان به طور متقاعد کننده ارزیابی میکند.
فرآیند تفکر LLMها
LLMها، بنا به ماهیت خود، فاقد مغز فیزیکی، آگاهی یا درک جامعی از جهان هستند. آنها فاقد خودآگاهی هستند و نظرات یا باورهای واقعی ندارند.
این مدلها بر روی مجموعههای دادهای گسترده آموزش داده میشوند که طیف گستردهای از منابع اطلاعاتی، از جمله کتابها، مقالات آنلاین، اسناد و رونوشتها را در بر میگیرند. هنگامی که یک کاربر ورودی متنی ارائه میدهد، مدل هوش مصنوعی از قابلیتهای «استدلال» خود برای تشخیص محتملترین معنا و نیت پشت ورودی استفاده میکند. متعاقباً، مدل یک پاسخ بر اساس این تفسیر تولید میکند.
LLMها در هسته خود به عنوان موتورهای پیشبینی کلمه پیچیده عمل میکنند. آنها با استفاده از دادههای آموزشی گسترده خود، احتمالات را برای «توکن» اولیه (به طور معمول یک کلمه واحد) پاسخ، با تکیه بر واژگان خود محاسبه میکنند. این فرآیند تکراری تا زمانی ادامه مییابد که یک پاسخ کامل فرموله شود. در حالی که این توضیح ساده شده است، جوهره نحوه تولید پاسخها توسط LLMها را بر اساس احتمالات آماری به جای درک واقعی از جهان به تصویر میکشد.
بنابراین، این نادرست است که پیشنهاد کنیم LLMها به معنای متعارف «فکر میکنند».
شواهد تجربی: ChatGPT و آزمون تورینگ
مطالعات متعددی عملکرد ChatGPT را در آزمون تورینگ بررسی کردهاند و بسیاری از آنها نتایج مثبتی به دست آوردهاند. این امر باعث شده است که برخی از دانشمندان علوم کامپیوتر ادعا کنند که LLMهایی مانند GPT-4 و GPT-4.5 اکنون از آستانه آزمون تورینگ فراتر رفتهاند.
بیشتر این ارزیابیها بر روی مدل GPT-4 OpenAI تمرکز دارند، که اکثر تعاملات ChatGPT را تامین میکند. مطالعهای که توسط UC San Diego انجام شد، نشان داد که ارزیابان انسانی اغلب قادر به تمایز GPT-4 از یک انسان نیستند. در این مطالعه، GPT-4 در 54 درصد موارد به اشتباه به عنوان انسان شناسایی شد. با این حال، این عملکرد هنوز از عملکرد انسانهای واقعی، که در 67 درصد مواقع به درستی به عنوان انسان شناسایی شدند، عقب مانده است.
پس از انتشار GPT-4.5، محققان UC San Diego این مطالعه را تکرار کردند. این بار، LLM در 73 درصد موارد به عنوان انسان شناسایی شد و از عملکرد انسانهای واقعی پیشی گرفت. این مطالعه همچنین نشان داد که LLaMa-3.1-405B متا قادر به گذراندن این آزمایش است.
مطالعات مشابهی که به طور مستقل از UC San Diego انجام شده است، نمرات قبولی را به GPT اختصاص دادهاند. مطالعهای در سال 2024 توسط دانشگاه ریدینگ شامل GPT-4 بود که پاسخهایی را برای ارزیابیهای خانگی برای دورههای کارشناسی تولید میکرد. درجهدهندهها از آزمایش اطلاعی نداشتند و فقط یک مورد از 33 مورد ارسالی را نشانهگذاری کردند. ChatGPT نمرات بالاتر از حد متوسط را برای 32 ورودی باقیمانده دریافت کرد.
آیا این مطالعات قطعی هستند؟ نه کاملاً. برخی از منتقدان استدلال میکنند که این یافتههای تحقیق کمتر از آنچه به نظر میرسد چشمگیر هستند. این تردید مانع از آن میشود که به طور قطعی اعلام کنیم که ChatGPT از آزمون تورینگ عبور کرده است.
با این وجود، بدیهی است که در حالی که نسلهای قبلی LLMها، مانند GPT-4، گهگاه از آزمون تورینگ عبور میکردند، با ادامه پیشرفت LLMها، نتایج موفقیتآمیز به طور فزایندهای رایج میشوند. با ظهور مدلهای پیشرفتهای مانند GPT-4.5، به سرعت به نقطهای نزدیک میشویم که مدلها میتوانند به طور مداوم از آزمون تورینگ عبور کنند.
OpenAI آیندهای را متصور است که در آن تشخیص بین انسان و هوش مصنوعی غیرممکن شود. این دیدگاه در سرمایهگذاری مدیرعامل OpenAI، سام آلتمن، در یک پروژه تأیید هویت انسانی شامل یک دستگاه اسکن چشم به نام The Orb منعکس شده است.
خودارزیابی ChatGPT
هنگامی که از ChatGPT پرسیده شد که آیا میتواند از آزمون تورینگ عبور کند، پاسخ مثبت داد، البته با احتیاطهایی که قبلاً مورد بحث قرار گرفته است. هنگامی که با این سوال مطرح شد که «آیا ChatGPT میتواند از آزمون تورینگ عبور کند؟»، چتبات هوش مصنوعی (با استفاده از مدل 4o) بیان کرد که «ChatGPT میتواند در برخی سناریوها از آزمون تورینگ عبور کند، اما نه به طور قابل اعتماد یا جهانی.» این چتبات نتیجه گرفت که «ممکن است از آزمون تورینگ با یک کاربر متوسط در شرایط معمولی عبور کند، اما یک بازجو مصمم و متفکر تقریباً همیشه میتواند آن را فاش کند.»
محدودیتهای آزمون تورینگ
برخی از دانشمندان علوم کامپیوتر اکنون آزمون تورینگ را منسوخ شده و با ارزش محدود در ارزیابی LLMها میدانند. گری مارکوس، روانشناس، دانشمند شناختی، نویسنده و مفسر هوش مصنوعی آمریکایی، این دیدگاه را به طور خلاصه در یک پست وبلاگ اخیر خلاصه کرد و اظهار داشت که «همانطور که من (و بسیاری دیگر) سالها گفتهایم، آزمون تورینگ آزمونی برای زودباوری انسان است، نه آزمونی برای هوش.»
همچنین مهم است که به یاد داشته باشیم که آزمون تورینگ بر درک هوش تمرکز دارد تا هوش واقعی. این تمایز بسیار مهم است. یک مدل مانند ChatGPT 4o ممکن است به سادگی با تقلید از گفتار انسان از آزمون عبور کند. علاوه بر این، موفقیت یک LLM در آزمون به موضوع بحث و ارزیاب بستگی دارد. ChatGPT ممکن است در مکالمات معمولی عالی باشد، اما با تعاملاتی که نیاز به هوش هیجانی واقعی دارند، مشکل داشته باشد. علاوه بر این، سیستمهای هوش مصنوعی مدرن به طور فزایندهای برای کاربردهایی فراتر از مکالمات ساده استفاده میشوند، به ویژه با حرکت به سمت دنیای هوش مصنوعی نمایندگی.
این بدان معنا نیست که آزمون تورینگ کاملاً بیربط است. این آزمون همچنان یک معیار تاریخی مهم است و قابل توجه است که LLMها قادر به گذراندن آن هستند. با این حال، آزمون تورینگ معیار نهایی هوش ماشین نیست.
فراتر از آزمون تورینگ: جستجوی یک معیار بهتر
آزمون تورینگ، در حالی که از نظر تاریخی مهم است، به طور فزایندهای به عنوان یک معیار ناکافی برای هوش مصنوعی واقعی در نظر گرفته میشود. تمرکز آن بر تقلید از گفتار انسان، جنبههای مهم هوش، مانند حل مسئله، خلاقیت و سازگاری را نادیده میگیرد. اتکای این آزمون به فریب نیز نگرانیهای اخلاقی را برمیانگیزد، زیرا سیستمهای هوش مصنوعی را تشویق میکند تا به جای توسعه هوش واقعی، ویژگیهای شبیه به انسان را جعل کنند.
نیاز به معیارهای جدید
با پیشرفت فناوری هوش مصنوعی، نیاز به معیارهای جامعتر و مرتبطتر به طور فزایندهای آشکار میشود. این معیارهای جدید باید به نقاط ضعف آزمون تورینگ بپردازند و ارزیابی دقیقتری از قابلیتهای هوش مصنوعی ارائه دهند. برخی از مسیرهای بالقوه برای معیارهای آینده عبارتند از:
- حل مسئله در دنیای واقعی: آزمایشاتی که از سیستمهای هوش مصنوعی میخواهند مشکلات پیچیده دنیای واقعی را حل کنند، مانند طراحی یک شبکه انرژی پایدار یا توسعه درمانی برای یک بیماری.
- وظایف خلاقانه: ارزیابیهایی که توانایی هوش مصنوعی را در تولید محتوای اصیل و تخیلی، مانند نوشتن یک رمان، آهنگسازی موسیقی یا خلق آثار هنری ارزیابی میکنند.
- سازگاری و یادگیری: معیارهایی که ظرفیت هوش مصنوعی را برای یادگیری از تجربیات جدیدو انطباق با محیطهای در حال تغییر اندازه گیری میکنند.
- ملاحظات اخلاقی: ارزیابیهایی که توانایی هوش مصنوعی را برای تصمیمگیریهای اخلاقی و اجتناب از سوگیریها ارزیابی میکنند.
نمونههایی از معیارهای نوظهور
چندین معیار جدید در حال ظهور هستند تا به محدودیتهای آزمون تورینگ رسیدگی کنند. اینها عبارتند از:
- چالش شمای وینوگراد: این آزمایش بر توانایی هوش مصنوعی در درک ضمایر مبهم در جملات تمرکز دارد.
- چالش استدلال AI2: این معیار توانایی هوش مصنوعی را برای استدلال و پاسخ دادن به سوالات بر اساس متون پیچیده ارزیابی میکند.
- چالش استدلال عقل سلیم: این آزمایش درک هوش مصنوعی از دانش عقل سلیم و توانایی آن در نتیجه گیری را ارزیابی میکند.
آینده ارزیابی هوش مصنوعی
آینده ارزیابی هوش مصنوعی احتمالاً شامل ترکیبی از معیارهای مختلف خواهد بود که هر کدام برای ارزیابی جنبههای خاصی از هوش طراحی شدهاند. این معیارها باید به طور مداوم در حال تکامل باشند تا با پیشرفتهای سریع در فناوری هوش مصنوعی همگام شوند. علاوه بر این، مشارکت دادن سهامداران مختلف، از جمله محققان، سیاستگذاران و مردم، در توسعه و ارزیابی معیارهای هوش مصنوعی بسیار مهم است.
حرکت فراتر از تقلید
در نهایت، هدف تحقیقات هوش مصنوعی باید توسعه سیستمهایی باشد که نه تنها هوشمند باشند، بلکه برای بشریت نیز مفید باشند. این امر مستلزم فراتر رفتن از پیگیری تقلید شبیه به انسان و تمرکز بر توسعه سیستمهای هوش مصنوعی است که میتوانند مشکلات دنیای واقعی را حل کنند، خلاقیت را افزایش دهند و تصمیمگیریهای اخلاقی را ترویج کنند. با استقبال از معیارهای جدید و تمرکز بر این اهداف گستردهتر، میتوانیم پتانسیل کامل هوش مصنوعی را باز کنیم و آیندهای را ایجاد کنیم که در آن هوش مصنوعی و انسانها با هم برای ایجاد دنیایی بهتر کار کنند.