چشمانداز هوش مصنوعی دائماً در حال تغییر است و با نقاط عطفی مشخص میشود که زمانی جزو داستانهای علمی تخیلی بودند. در میان ماندگارترین معیارها، آزمون تورینگ قرار داشته است که بیش از هفتاد سال پیش به عنوان معیاری برای سنجش توانایی یک ماشین در تقلید قانعکننده از مکالمه انسانی ابداع شد. برای دههها، این آزمون یک چالش مهیب و شاید نمادین باقی ماند. با این حال، تحولات اخیر نشان میدهد که این آستانه ممکن است قاطعانه پشت سر گذاشته شده باشد. مطالعهای که از دانشگاه کالیفرنیا در سن دیگو (University of California at San Diego) منتشر شده، نشان میدهد که مدل زبان پیشرفته OpenAI، یعنی GPT-4.5، نه تنها آزمون را پشت سر گذاشته، بلکه این کار را با موفقیت شگفتانگیزی انجام داده و اغلب در جعل هویت انسانی خود قانعکنندهتر از انسانهای واقعی عمل کرده است. این نتیجه، گفتگو در مورد قابلیتهای هوش مصنوعی را به قلمرو جدیدی سوق میدهد و نیازمند بررسی دقیقتر خود آزمون، ماهیت هوش ماشینی و پیامدهای ایجاد موجودیتهایی است که میتوانند رفتار زبانی ما را به این شکل مؤثر تقلید کنند.
رمزگشایی فریب دیجیتال: درون آزمایش
پروژه تحقیقاتی، که به درستی “مدلهای زبان بزرگ آزمون تورینگ را پشت سر میگذارند” نامگذاری شده و در حال حاضر تحت بررسی همتایان قرار دارد، از روشی استفاده کرد که برای بررسی تواناییهای مکالمهای هوش مصنوعی در مقایسه مستقیم با انسانها طراحی شده بود. محیط آزمایش یک پلتفرم آنلاین بود که در آن تعاملات صرفاً از طریق متن انجام میشد و نشانههای دیداری و شنیداری که ممکن بود هویت یک شرکتکننده غیرانسانی را فاش کنند، حذف شده بودند. نزدیک به سیصد دانشجوی دانشگاه برای این نقشآفرینی دیجیتال استخدام شدند. هر شرکتکننده به طور تصادفی یکی از سه نقش را بر عهده گرفت: قاضی تشخیصدهنده، یک “شاهد” انسانی، یا، بدون اطلاع اولیه قاضی، یک “شاهد” هوش مصنوعی.
وظیفه اصلی یک بازی اقناع بود. هم شاهد انسانی و هم شاهد هوش مصنوعی، که از اتاقهای دیجیتال جداگانه عمل میکردند، با قاضی وارد مکالمه متنی میشدند. هدف آنها واحد بود: قاضی را از هویت انسانی خود متقاعد کنند. قاضی، پس از یک دوره تعامل، با تصمیم حیاتی روبرو میشد – تشخیص دهد کدام طرف گفتگو انسان و کدام ماشین است.
این صرفاً آزمایشی برای یک هوش مصنوعی در برابر معیار انسانی نبود. محققان چندین برنامه هوش مصنوعی مختلف را در برابر این چالش قرار دادند تا دیدگاهی مقایسهای در مورد وضعیت هوش مصنوعی مکالمهای ارائه دهند:
- GPT-4.5 (با دستورالعمل شخصیتپردازی): این مدل، هنگامی که به طور خاص دستور داده شد تا شخصیتی شبیه انسان اتخاذ کند، به یک شاهکار قابل توجه دست یافت. در ۷۳٪ از مبادلاتی که تحت این شرایط عمل میکرد، قضات به اشتباه آن را به عنوان شرکتکننده انسانی شناسایی کردند. این رقم نه تنها در مقیاس مطلق بالا است؛ بلکه از نرخ موفقیت شاهدان انسانی واقعی که سعی در اثبات انسانیت خود در همان چارچوب آزمایشی داشتند، فراتر رفت.
- LLaMa 3.1 405b متا (با دستورالعمل شخصیتپردازی): یکی دیگر از مدلهای زبان بزرگ معاصر قدرتمند، LLaMa 3.1، نیز هنگامی که به طور مشابه دستور داده شد، توانایی اقناع قابل توجهی از خود نشان داد و قضات را در ۵۶٪ مواقع فریب داد. اگرچه در این آزمایش خاص به اوج GPT-4.5 نرسید، عملکرد آن همچنان مرزهای بین ارتباطات انسانی و ماشینی را به طور قابل توجهی محو کرد.
- GPT-4o (مدل قبلی OpenAI): جالب اینجاست که مدل کمی قدیمیتر OpenAI، یعنی GPT-4o، هنگامی که بدون دستورالعمل شخصیتپردازی خاص آزمایش شد، عملکرد کاملاً متفاوتی داشت. تنها در ۲۱٪ مواقع به عنوان انسان شناسایی شد، که نشاندهنده نقش حیاتی دستورالعملهای متناسب یا شاید تفاوتهای ذاتی در سبکهای مکالمهای مدلها در صورت عدم هدایت صریح است.
- ELIZA: به عنوان یک معیار تاریخی، محققان ELIZA را نیز شامل کردند، یک چتبات پیشگام که در دهه ۱۹۶۰ توسعه یافته بود و به خاطر تکنیکهای ساده تطبیق الگو که یک رواندرمانگر راجری را شبیهسازی میکرد، شناخته شده بود. جای تعجب نیست که تلاشهای ELIZA برای تقلید انسانی برای شرکتکنندگان مدرن بسیار کمتر قانعکننده بود و تنها در ۲۳٪ مواقع به عنوان انسان قضاوت شد. این امر پیشرفت عظیم در پردازش زبان طبیعی طی دهههای گذشته را برجسته میکند.
Cameron Jones، محققی که در این مطالعه از آزمایشگاه زبان و شناخت UC San Diego مشارکت داشت، این یافته شگفتانگیز را به طور خلاصه بیان کرد. او خاطرنشان کرد که قضات انسانی به طور قابل توجهی دچار مشکل شدند و در تلاش برای تمایز بین انسانها و نسخههای دارای دستورالعمل GPT-4.5 یا LLaMa، عملکردی بهتر از شانس تصادفی نداشتند. به طور مشخصتر، او بر نتیجه غیرمنتظره تأکید کرد: “و ۴.۵ حتی به طور قابل توجهی بیشتر از انسانهای واقعی به عنوان انسان قضاوت شد!” این نشان میدهد که هوش مصنوعی، تحت شرایط خاص، ممکن است در اجرای انسانیت در متن بهتر از خود انسانها باشد، شاید با پایبندی دقیقتر به هنجارهای مکالمهای یا اجتناب از نشانههای منحصر به فردی که افراد واقعی از خود بروز میدهند. پیامد این امر عمیق است – هوش مصنوعی فقط در حال عبور از آزمون نبود؛ بلکه در حال تعیین استاندارد جدیدی برای انسانیت درک شده در این زمینه خاص بود.
بازنگری در معیار: آیا آزمون تورینگ هنوز استاندارد طلایی است؟
این خبر که یک ماشین به طور بالقوه آزمون تورینگ را “پشت سر گذاشته”، به ویژه با عملکرد بهتر از انسانها، ناگزیر بحثهایی را برمیانگیزد. آیا این نشاندهنده طلوع هوش ماشینی واقعی است، همان نوعی که خود Alan Turing در مورد آن گمانهزنی میکرد؟ یا صرفاً محدودیتهای آزمونی را که او در دورهای بسیار متفاوت از دوران ما پیشنهاد کرد، آشکار میسازد؟ چندین صدای برجسته در جامعه هوش مصنوعی خواستار احتیاط هستند و معتقدند که موفقیت در این آزمون خاص معادل دستیابی به هوش عمومی مصنوعی (AGI) نیست – توانایی فرضی یک هوش مصنوعی برای درک، یادگیری و به کارگیری دانش در طیف وسیعی از وظایف در سطح انسانی.
Melanie Mitchell، محقق هوش مصنوعی در موسسه Santa Fe، این تردید را به شدت در مجله Science بیان کرد. او استدلال میکند که آزمون تورینگ، به ویژه در شکل مکالمهای کلاسیک خود، ممکن است کمتر معیاری برای توانایی شناختی واقعی باشد و بیشتر بازتابی از تمایلات و مفروضات انسانی خود ما باشد. ما موجوداتی اجتماعی هستیم و مستعد تفسیر زبان روان به عنوان نشانهای از تفکر و نیت زیربنایی هستیم. مدلهای زبان بزرگ مانند GPT-4.5 بر روی مجموعه دادههای عظیمی از متن انسانی آموزش دیدهاند و آنها را قادر میسازد تا در شناسایی الگوها و تولید پاسخهای زبانی آماری محتمل، فوقالعاده ماهر شوند. آنها در نحو عالی عمل میکنند، جریان مکالمه را تقلید میکنند و حتی میتوانند تفاوتهای ظریف سبکی را تکرار کنند. با این حال، Mitchell معتقد است، “توانایی روان صحبت کردن به زبان طبیعی، مانند بازی شطرنج، دلیل قطعی بر هوش عمومی نیست.” تسلط بر یک مهارت خاص، حتی مهارتی به پیچیدگی زبان، لزوماً به معنای درک گسترده، آگاهی یا ظرفیت استدلال بدیع فراتر از الگوهای آموخته شده در طول آموزش نیست.
Mitchell همچنین به تفسیر در حال تحول، و شاید کمرنگ شدن، خود مفهوم آزمون تورینگ اشاره میکند. او به اعلامیهای در سال ۲۰۲۴ از دانشگاه Stanford در مورد تحقیق بر روی مدل قبلی GPT-4 اشاره میکند. تیم Stanford یافتههای خود را به عنوان یکی از “اولین دفعاتی که یک منبع هوش مصنوعی آزمون تورینگ دقیقی را پشت سر گذاشته است” تحسین کردند. با این حال، همانطور که Mitchell مشاهده میکند، روششناسی آنها شامل مقایسه الگوهای آماری در پاسخهای GPT-4 در نظرسنجیهای روانشناختی و بازیهای تعاملی با دادههای انسانی بود. در حالی که این یک شکل معتبر از تحلیل مقایسهای است، او با لحنی خشک خاطرنشان میکند که این فرمولبندی “ممکن است برای Turing قابل تشخیص نباشد”، که پیشنهاد اصلی او بر مکالمه غیرقابل تشخیص متمرکز بود.
این نکتهای حیاتی را برجسته میکند: آزمون تورینگ یک موجودیت یکپارچه نیست. تفسیر و کاربرد آن متفاوت بوده است. به نظر میرسد آزمایش UC San Diego به تمرکز مکالمهای اصلی Turing نزدیکتر باشد، اما حتی در اینجا نیز سؤالاتی مطرح میشود. آیا آزمون واقعاً هوش را اندازهگیری میکرد، یا توانایی هوش مصنوعی در اجرای یک وظیفه خاص – اتخاذ شخصیت و تقلید مکالمهای – را به طور استثنایی خوب اندازهگیری میکرد؟ این واقعیت که GPT-4.5 هنگامی که “دستورالعمل شخصیتپردازی” به آن داده شد، عملکرد بهتری داشت، نشان میدهد که موفقیت آن ممکن است بیشتر مربوط به بازیگری ماهرانه بر اساس دستورالعملها باشد تا یک کیفیت ذاتی و قابل تعمیم شبیه به انسان.
منتقدان استدلال میکنند که LLMها اساساً متفاوت از ذهن انسان عمل میکنند. آنها مفاهیم را به روشی که انسانها درک میکنند، “نمیفهمند”؛ آنها نمادها را بر اساس روابط آماری آموخته شده دستکاری میکنند. آنها فاقد تجربه زیسته، تجسم، آگاهی و قصد واقعی هستند. در حالی که میتوانند متنی درباره احساسات یا تجربیات تولید کنند، آنها را احساس نمیکنند. بنابراین، گذراندن آزمونی که صرفاً بر اساس خروجی زبانی است، ممکن است یک شاهکار چشمگیر مهندسی و علم داده باشد، اما لزوماً شکاف به سمت هوش واقعی و دارای ادراک را پر نمیکند. این آزمون ممکن است بیشتر در مورد قدرت مجموعه دادههای عظیم و الگوریتمهای پیچیده در تکرار رفتار سطحی انسان آشکار کند تا در مورد حالات درونی خود ماشینها. این ما را مجبور میکند تا با این مسئله روبرو شویم که آیا روانی زبانی یک نماینده کافی برای ماهیت عمیقتر و چندوجهی هوش انسانی است یا خیر.
پیمایش در جهانی که مرزها محو میشوند
صرف نظر از اینکه عملکرد GPT-4.5 هوش واقعی را تشکیل میدهد یا صرفاً تقلید پیچیده است، پیامدهای عملی آن غیرقابل انکار و گسترده است. ما وارد دورهای میشویم که تشخیص بین متن تولید شده توسط انسان و ماشین به صورت آنلاین به طور فزایندهای دشوار میشود، اگر نگوییم در برخی زمینهها غیرممکن است. این امر پیامدهای عمیقی برای اعتماد، ارتباطات و تار و پود جامعه دیجیتال ما دارد.
توانایی هوش مصنوعی در جعل هویت قانعکننده انسان، نگرانیهای فوری در مورد اطلاعات نادرست و دستکاری ایجاد میکند. بازیگران مخرب میتوانند از چنین فناوری برای کلاهبرداریهای فیشینگ پیچیده، انتشار تبلیغات متناسب با افراد، یا ایجاد ارتشهایی از پروفایلهای جعلی رسانههای اجتماعی برای تأثیرگذاری بر افکار عمومی یا ایجاد اختلال در جوامع آنلاین استفاده کنند. اگر حتی کاربران فهیم در یک آزمایش کنترل شده برای تشخیص تفاوت تلاش میکنند، پتانسیل فریب در اینترنت باز بسیار زیاد است. رقابت تسلیحاتی بین جعل هویت مبتنی بر هوش مصنوعی و ابزارهای تشخیص هوش مصنوعی احتمالاً تشدید خواهد شد، اما مزیت ممکن است اغلب با جعلکنندگان باشد، به خصوص با پیشرفت مدلها.
فراتر از استفادههای مخرب، محو شدن مرزها بر تعاملات روزمره تأثیر میگذارد. خدمات مشتری چگونه تغییر خواهد کرد وقتی چتباتها از نمایندگان انسانی غیرقابل تشخیص شوند؟ آیا پروفایلهای دوستیابی آنلاین یا تعاملات اجتماعی به اشکال جدیدی از تأیید هویت نیاز خواهند داشت؟ تأثیر روانی بر انسانها نیز قابل توجه است. دانستن اینکه موجودیتی که با آن به صورت آنلاین گفتگو میکنید ممکن است یک هوش مصنوعی باشد، میتواند باعث بیاعتمادی و بیگانگی شود. برعکس، ایجاد وابستگیهای عاطفی به همراهان هوش مصنوعی بسیار قانعکننده، حتی با دانستن ماهیت آنها، مجموعه مسائل اخلاقی و اجتماعی خاص خود را ارائه میدهد.
موفقیت مدلهایی مانند GPT-4.5 همچنین سیستمهای آموزشی و صنایع خلاق ما را به چالش میکشد. چگونه کار دانشجویان را ارزیابی کنیم وقتی هوش مصنوعی میتواند مقالات قابل قبولی تولید کند؟ ارزش تألیف انسانی چیست وقتی هوش مصنوعی میتواند مقالات خبری، فیلمنامه یا حتی شعری تولید کند که با خوانندگان طنینانداز شود؟ در حالی که هوش مصنوعی میتواند ابزار قدرتمندی برای تقویت و کمک باشد، توانایی آن در تکرار خروجی انسانی مستلزم ارزیابی مجدد اصالت، خلاقیت و مالکیت معنوی است.
علاوه بر این، مطالعه UC San Diego بر محدودیتهای اتکای صرف به آزمونهای مکالمهای برای سنجش پیشرفت هوش مصنوعی تأکید میکند. اگر هدف ساختن سیستمهای واقعاً هوشمند (AGI) باشد، نه فقط مقلدان خبره، شاید تمرکز باید به سمت معیارهایی تغییر کند که استدلال، حل مسئله در حوزههای مختلف، سازگاری با موقعیتهای جدید و شاید حتی جنبههایی از آگاهی یا خودآگاهی را ارزیابی میکنند – مفاهیمی که تعریف آنها، چه رسد به اندازهگیری، بسیار دشوار است. آزمون تورینگ، که در عصر فناوری متفاوتی ابداع شد، ممکن است هدف خود را به عنوان یک نقطه عطف الهامبخش برآورده کرده باشد، اما پیچیدگیهای هوش مصنوعی مدرن ممکن است نیازمند چارچوبهای ارزیابی دقیقتر و چندوجهیتری باشد.
دستاورد GPT-4.5 کمتر یک نقطه پایان و بیشتر یک کاتالیزور برای تأمل انتقادی است. این قدرت خارقالعاده تکنیکهای فعلی هوش مصنوعی در تسلط بر زبان انسان را نشان میدهد، شاهکاری با پتانسیل عظیم هم برای سود و هم برای ضرر. این ما را مجبور میکند تا با سؤالات اساسی در مورد هوش، هویت و آینده تعامل انسان و ماشین در جهانی دست و پنجه نرم کنیم که در آن توانایی “حرف زدن” قانعکننده دیگر منحصراً در قلمرو انسان نیست. بازی تقلید به سطح جدیدی رسیده است و درک قوانین، بازیکنان و مخاطرات هرگز مهمتر از این نبوده است.