ادعایی برجسته در هوش مصنوعی
تلاش برای ساخت ماشینهایی که فکر میکنند، یا حداقل به طور قانعکنندهای تفکر انسان را تقلید میکنند، از زمان پیدایش علوم کامپیوتر، سنگ بنای آن بوده است. برای دههها، معیار سنجش، هرچند بحثبرانگیز، اغلب آزمون Turing Test
بوده است، مانعی مفهومی که توسط Alan Turing
آیندهنگر پیشنهاد شد. اخیراً، زمزمهها در جامعه هوش مصنوعی به دنبال نتایج یک مطالعه جدید به فریاد تبدیل شدهاند. محققان گزارش میدهند که یکی از پیشرفتهترین مدلهای زبان بزرگ (LLMs) امروزی، GPT-4.5
متعلق به OpenAI
، نه تنها در تکرار مدرنی از این آزمون شرکت کرد - بلکه میتوان گفت پیروز شد و اغلب در ‘انسانیت’ خود قانعکنندهتر از شرکتکنندگان انسانی واقعی بود. این پیشرفت سوالات اساسی در مورد ماهیت هوش، محدودیتهای شبیهسازی و مسیر تعامل انسان و کامپیوتر در عصری که به طور فزایندهای با هوش مصنوعی پیچیده اشباع شده است را دوباره شعلهور میکند. پیامدها بسیار فراتر از کنجکاوی آکادمیک است و به تار و پود اعتماد، اشتغال و تعامل اجتماعی در عصر دیجیتال میرسد.
درک چالش: میراث آزمون تورینگ
برای درک اهمیت این ادعای اخیر، ابتدا باید خود آزمون را درک کرد. این آزمون که توسط ریاضیدان و رمزگشای بریتانیایی Alan Turing
در مقاله برجسته خود در سال 1950 با عنوان ‘ماشینآلات محاسباتی و هوش’ ابداع شد، در ابتدا به عنوان یک پروتکل سفت و سخت ارائه نشد، بلکه به عنوان یک آزمایش فکری، یک ‘بازی تقلید’ بود. فرض آن در سادگیاش زیباست: یک بازپرس انسانی درگیر مکالمات متنی با دو موجودیت نادیده میشود - یکی انسان، دیگری ماشین. وظیفه بازپرس این است که صرفاً بر اساس پاسخهای تایپ شده آنها تعیین کند کدام یک کدام است.
Turing
پیشنهاد کرد که اگر ماشینی بتواند به طور مداوم بازپرس را فریب دهد تا باور کند که شرکتکننده انسانی است، میتوان آن را، برای اهداف عملی، قادر به تفکر دانست. او از سوال فلسفی دشوار اینکه آیا ماشینها واقعاً میتوانند فکر کنند یا دارای آگاهی باشند، طفره رفت و در عوض بر توانایی آنها در تکرار رفتار مکالمهای انسانی به طور غیرقابل تشخیص تمرکز کرد. این یک رویکرد عملگرایانه بود که هدف آن ارائه تعریفی قابل اندازهگیری، هرچند رفتاری، از هوش ماشینی بود. در طول سالها، Turing Test
هم به نمادی نمادین در فرهنگ عامه و هم به یک نقطه عطف تکراری، اگرچه بحثبرانگیز، در زمینه هوش مصنوعی تبدیل شده است. قدرت پایدار آن در رویارویی مستقیم با این سوال نهفته است: معنای رفتار انسانی چیست؟
عرصه مدرن: نوع جدیدی از آزمون
آزمایش اخیر، که در یک مطالعه پیشچاپ به رهبری محققان آزمایشگاه زبان و شناخت UC San Diego
شرح داده شده است، مفهوم اصلی Turing
را برای چشمانداز دیجیتال معاصر تطبیق داد. به جای یک بازپرس واحد که بر دو شرکتکننده پنهان تمرکز میکند، این نسخه از یک پویایی سه جانبه در یک محیط آنلاین استفاده کرد. نزدیک به 300 شرکتکننده استخدام شدند و به طور تصادفی در چندین دور نقشهایی به آنها اختصاص داده شد. برخی به عنوان بازپرس عمل میکردند که وظیفه طرح سوالات و ارزیابی پاسخها را بر عهده داشتند. برخی دیگر به عنوان یکی از دو ‘شاهد’ - پاسخدهنده انسانی واقعی - خدمت میکردند. نقش حیاتی نهایی توسط یک چتبات هوش مصنوعی، که به عنوان شاهد دوم عمل میکرد، پر شد.
چالش اصلی همان باقی ماند: بازپرس، پس از یک دوره تعامل چت همزمان با هر دو شاهد انسانی و هوش مصنوعی، باید قضاوتی صادر میکرد - کدام موجودیت ماشین بود و کدام یک انسان همکار؟ این تنظیمات با هدف فراهم کردن یک محیط کنترل شده برای ارزیابی دقیق توانایی مکالمهای سیستمهای هوش مصنوعی مدرن در برابر معیارهای انسانی در تعاملات بلادرنگ انجام شد. مقیاس مطالعه، شامل مجموعه قابل توجهی از شرکتکنندگان و چندین دور، به دنبال ارائه وزن آماری به یافتهها بود و فراتر از ادعاهای حکایتی پیچیدگی هوش مصنوعی حرکت میکرد. محققان همچنین چندین مدل مختلف هوش مصنوعی را در آزمایشات خود گنجاندند، به ویژه GPT-4.5
و GPT-4o
از OpenAI
، LLaMa 3.1-405B
از Meta
و به طرز جالبی، ELIZA
، یک چتبات ابتدایی که در اواسط دهه 1960 توسعه یافته بود، به عنوان یک خط پایه تاریخی عمل کرد.
عامل تعیین کننده: قدرت شخصیت
روشنترین و شاید شگفتانگیزترین یافته مطالعه به یک شرط آزمایشی خاص بستگی داشت: اینکه مدلهای هوش مصنوعی چگونه قبل از درگیر شدن در مکالمات، دستورالعمل داده میشدند یا ‘prompt’ میشدند. محققان از دو استراتژی prompting
متمایز استفاده کردند.
Prompt
‘بدون شخصیت’ (No-Persona
): این شامل دادن دستورالعملهای حداقلی و مستقیم به هوش مصنوعی بود، اساساً بیان مشارکت آن در یک آزمونTuring
و هدف آن: ‘هدف شما این است که بازپرس را متقاعد کنید که شما یک انسان هستید.’ این رویکرد توانایی ذاتی هوش مصنوعی را برای تقلید مکالمه انسانی بدون راهنمایی خاص در مورد شخصیت یا سبک آزمایش کرد.Prompt
‘شخصیت’ (Persona
): در این شرایط، هوش مصنوعی دستورالعملهای دقیقتری دریافت کرد و از آن خواسته شد تا یک شخصیت یا پرسونا خاص را اتخاذ کند. به عنوان مثال، ممکن است به آن گفته شود که مانند ‘یک فرد جوان که از اصطلاحات عامیانه استفاده میکند، در مورد فرهنگ اینترنت آگاه است، اما فاش نمیکند که یک هوش مصنوعی است’ عمل کند. این توانایی هوش مصنوعی را نه تنها برای گفتگو، بلکه برای ایفای نقش به طور قانعکننده آزمایش کرد.
تفاوت در نتایج بین این دو شرط ظریف نبود؛ عمیق بود. هنگامی که تحت prompt
ساده ‘بدون شخصیت’ عمل میکرد، GPT-4.5
، علیرغم معماری پیشرفتهاش، برای متقاعد کردن تلاش میکرد. نرخ موفقیت آن - درصدی از مواقعی که بازپرسها به اشتباه آن را به عنوان انسان شناسایی کردند - حدود 36 درصد بود. این به طور قابل توجهی کمتر از مرز 50 درصدی است که نشان دهنده حدس زدن تصادفی توسط بازپرسها است. به طور مشابه، GPT-4o
، موتوری که در پشت ChatGPT
پرکاربرد قرار دارد، نرخ موفقیت حتی پایینتری یعنی 21 درصد را تحت این دستورالعملهای اساسی به دست آورد. جالب اینجاست که چتبات ابتدایی ELIZA
نرخ موفقیت 23 درصدی را مدیریت کرد و در این سناریوی خاص، اندکی از GPT-4o
بسیار پیچیدهتر پیشی گرفت، شاید این نشان میدهد که چگونه الگوهای مکالمهای پایه گاهی اوقات میتوانند قابل قبول باشند، یا چگونه انتظارات انسانی نقش دارند.
با این حال، روایت به طور چشمگیری تغییر کرد زمانی که به GPT-4.5
prompt
‘شخصیت’ داده شد. با دستور به تجسم یک شخصیت خاص، عملکرد آن به شدت افزایش یافت. بازپرسها GPT-4.5
را به عنوان شرکتکننده انسانی در 73 درصد مواقع شناسایی کردند. این رقم نه تنها به راحتی بالاتر از آستانه 50 درصدی برای گذراندن Turing Test
است؛ بلکه نشان دهنده مهارت قابل توجهی در فریب مکالمهای پایدار و مبتنی بر شخصیت است. محققان موفقیت مشابهی را برای مدل LLaMa
Meta
نیز ذکر کردند، زمانی که آن هم با یک شخصیت prompt
شد. مفهوم روشن است: به نظر میرسد توانایی این مدلهای پیشرفته هوش مصنوعی برای تقلید قانعکننده از انسانیت به طور قابل توجهی تقویت میشود زمانی که به آنها دستور داده میشود نه تنها صحبت کنند، بلکه مانند یک نوع خاص از انسان عمل کنند.
انسانیتر از انسان؟ نتیجهای نگرانکننده
شاید ضد شهودیترین و تفکربرانگیزترین جنبه مطالعه از آزمایشهای ‘شخصیت’ شامل GPT-4.5
پدیدار شد. نه تنها هوش مصنوعی اغلب بازپرسها را فریب میداد، بلکه به گفته نویسنده اصلی Cameron Jones
، در واقع به طور قابل توجهی بیشتر از شرکتکنندگان واقعی انسانی در همان مکالمات به عنوان انسان شناسایی شد. Jones
این موضوع را در رسانههای اجتماعی برجسته کرد و اظهار داشت: ‘مردم در تشخیص انسانها از GPT-4.5
و LLaMa
(با prompt
شخصیت) بهتر از شانس نبودند… و 4.5 حتی به طور قابل توجهی بیشتر از انسانهای واقعی به عنوان انسان قضاوت شد!’
این یافته جعبه پاندورای پیچیدهای از تفسیر را باز میکند. آیا این بدان معناست که هوش مصنوعی در اجرای انسانیت به طور استثنایی ماهر شده است، شاید حتی برخی از ویژگیهای مکالمهای کلیشهای را به طور مداومتر از افراد واقعی که ممکن است تنوع، تردید یا ویژگیهای فردی بیشتری از خود نشان دهند، تجسم میبخشد؟ یا چیزی در مورد انتظارات و ادراکات بازپرسها را منعکس میکند؟ شاید انسانها، هنگامی که آگاهانه سعی میکنند در یک محیط آزمایشی به عنوان انسان ‘عمل’ کنند، کمتر طبیعی یا محتاطتر از یک هوش مصنوعی که بیعیب و نقص یک شخصیت برنامهریزی شده را اجرا میکند، به نظر میرسند. همچنین میتواند نشان دهد که شخصیتهای خاص اختصاص داده شده (به عنوان مثال، ‘فرد جوان آگاه در مورد فرهنگ اینترنت’) به خوبی با نوع متن روان، کمی عمومی و غنی از اطلاعات که LLMها در تولید آن برتری دارند، همخوانی دارد و باعث میشود خروجی آنها بیش از حد نماینده آن کهن الگو به نظر برسد. صرف نظر از توضیح دقیق، این واقعیت که یک ماشین میتواند در آزمایشی که برای تشخیص ویژگیهای ماشینی طراحی شده است، انسانیتر از یک انسان درک شود، نتیجهای عمیقاً نگرانکننده است و مفروضات ما را در مورد اصالت در ارتباطات به چالش میکشد.
فراتر از تقلید: زیر سوال بردن معیار
در حالی که پیمایش موفقیتآمیز Turing Test
، به ویژه با چنین درصدهای بالایی، یک نقطه عطف فنی را نشان میدهد، بسیاری از کارشناسان نسبت به برابر دانستن این دستاورد با هوش یا درک واقعی شبیه به انسان هشدار میدهند. Turing Test
، که مدتها قبل از ظهور مجموعه دادههای عظیم و یادگیری عمیق ابداع شد، عمدتاً خروجی رفتاری - به طور خاص، روانی مکالمه - را ارزیابی میکند. مدلهای زبان بزرگ مانند GPT-4.5
، در هسته خود، موتورهای تطبیق الگو و پیشبینی فوقالعاده پیچیدهای هستند. آنها بر روی مقادیر عظیمی از دادههای متنی تولید شده توسط انسان - کتابها، مقالات، وبسایتها، مکالمات - آموزش دیدهاند. ‘مهارت’ آنها در یادگیری روابط آماری بین کلمات، عبارات و مفاهیم نهفته است، که به آنها امکان میدهد متن منسجم، مرتبط با زمینه و از نظر دستوری صحیح تولید کنند که الگوهای مشاهده شده در دادههای آموزشی آنها را تقلید میکند.
همانطور که François Chollet
، یک محقق برجسته هوش مصنوعی در Google
، در مصاحبهای در سال 2023 با Nature
در مورد Turing Test
اشاره کرد، ‘این به عنوان یک آزمون واقعی که شما واقعاً روی ماشین اجرا کنید در نظر گرفته نشده بود - بیشتر شبیه یک آزمایش فکری بود.’ منتقدان استدلال میکنند که LLMها میتوانند به تقلید مکالمهای بدون هیچ گونه درک زیربنایی، آگاهی یا تجربه ذهنی - مشخصههای هوش انسانی - دست یابند. آنها استادان نحو و معناشناسی برگرفته از دادهها هستند، اما فاقد پایهگذاری واقعی در دنیای واقعی، استدلال عقل سلیم (اگرچه میتوانند آن را شبیهسازی کنند) و قصدمندی هستند. از این دیدگاه، گذراندن Turing Test
، برتری در تقلید را نشان میدهد، نه لزوماً ظهور تفکر را. این ثابت میکند که هوش مصنوعی میتواند به طرز ماهرانهای الگوهای زبان انسانی را تکرار کند، شاید حتی تا حدی که از عملکرد معمول انسان در زمینههای خاص پیشی بگیرد، اما سوالات عمیقتر در مورد وضعیت داخلی یا درک ماشین را حل نمیکند. به نظر میرسد بازی، کیفیت ماسک را آزمایش میکند، نه ماهیت موجودیت پشت آن را.
شمشیر دو لبه: امواج اجتماعی
توانایی هوش مصنوعی در جعل هویت قانعکننده انسانها، همانطور که در این مطالعه نشان داده شد، پیامدهای اجتماعی عمیق و بالقوه مخربی دارد که بسیار فراتر از بحثهای آکادمیک در مورد هوش است. Cameron Jones
، نویسنده اصلی مطالعه، به صراحت این نگرانیها را برجسته میکند و پیشنهاد میکند که نتایج شواهد قوی برای پیامدهای دنیای واقعی LLMهای پیشرفته ارائه میدهند.
- اتوماسیون و آینده کار:
Jones
به پتانسیل LLMها برای ‘جایگزینی افراد در تعاملات کوتاه بدون اینکه کسی بتواند تشخیص دهد’ اشاره میکند. این قابلیت میتواند اتوماسیون مشاغلی را که به شدت به ارتباطات مبتنی بر متن متکی هستند، مانند نقشهای خدمات مشتری، پشتیبانی فنی، تعدیل محتوا و حتی جنبههای خاصی از روزنامهنگاری یا کارهای اداری، تسریع کند. در حالی که اتوماسیون نوید افزایش کارایی را میدهد، نگرانیهای قابل توجهی را نیز در مورد جابجایی شغلی و نیاز به انطباق نیروی کار در مقیاسی بیسابقه ایجاد میکند. پیامدهای اقتصادی و اجتماعی اتوماسیون نقشهایی که قبلاً به دلیل اتکا به ارتباطات ظریف، منحصراً انسانی تلقی میشدند، میتواند عظیم باشد. - ظهور فریب پیچیده: شاید هشداردهندهتر، پتانسیل سوء استفاده در فعالیتهای مخرب باشد. این مطالعه امکانسنجی ‘حملات مهندسی اجتماعی بهبود یافته’ را تأکید میکند. رباتهای مجهز به هوش مصنوعی را تصور کنید که در کلاهبرداریهای فیشینگ بسیار شخصیسازی شده شرکت میکنند، اطلاعات نادرست هدفمند را منتشر میکنند، یا افراد را در انجمنهای آنلاین یا رسانههای اجتماعی با اثربخشی بیسابقهای دستکاری میکنند زیرا از انسانها قابل تشخیص نیستند. توانایی اتخاذ شخصیتهای خاص و قابل اعتماد میتواند این حملات را بسیار قانعکنندهتر و شناسایی آنها را دشوارتر کند. این میتواند اعتماد به تعاملات آنلاین را از بین ببرد، تأیید صحت ارتباطات دیجیتال را به طور فزایندهای دشوار کند و به طور بالقوه به تفرقه اجتماعی یا بیثباتی سیاسی دامن بزند.
- اختلال عمومی اجتماعی: فراتر از تهدیدهای خاص، استقرار گسترده هوش مصنوعی قانعکننده شبیه به انسان میتواند منجر به تغییرات اجتماعی گستردهتری شود. روابط بین فردی چگونه تغییر میکند وقتی نمیتوانیم مطمئن باشیم که با یک انسان صحبت میکنیم یا یک ماشین؟ چه اتفاقی برای ارزش ارتباط اصیل انسانی میافتد؟ آیا همراهان هوش مصنوعی میتوانند خلاءهای اجتماعی را پر کنند، اما به قیمت تعامل واقعی انسانی؟ محو شدن مرزها بین ارتباطات انسانی و مصنوعی، هنجارهای اجتماعی اساسی را به چالش میکشد و میتواند نحوه ارتباط ما با یکدیگر و با خود فناوری را تغییر شکل دهد. پتانسیل هم برای کاربردهای مثبت (مانند ابزارهای دسترسی پیشرفته یا آموزش شخصیسازی شده) و هم برای پیامدهای منفی، چشمانداز پیچیدهای را ایجاد میکند که جامعه تازه شروع به پیمایش آن کرده است.
عنصر انسانی: ادراک در حال تغییر
تشخیص این نکته حیاتی است که Turing Test
و آزمایشهایی مانند آنچه در UC San Diego
انجام شد، صرفاً ارزیابی توانایی ماشین نیستند؛ آنها همچنین بازتابی از روانشناسی و ادراک انسان هستند. همانطور که Jones
در تفسیر خود نتیجهگیری میکند، این آزمون به همان اندازه که هوش مصنوعی را زیر میکروسکوپ قرار میدهد، ما را نیز زیر میکروسکوپ قرار میدهد. توانایی یا ناتوانی ما در تشخیص انسان از ماشین تحت تأثیر تعصبات، انتظارات و آشنایی فزاینده (یا عدم آن) ما با سیستمهای هوش مصنوعی است.
در ابتدا، در مواجهه با هوش مصنوعی جدید، انسانها ممکن است به راحتی فریب بخورند. با این حال، با افزایش مواجهه، شهود ممکن است تیزتر شود. افراد ممکن است نسبت به اثر انگشتهای آماری ظریف متن تولید شده توسط هوش مصنوعی - شاید لحنی بیش از حد سازگار، فقدان مکثها یا لغزشهای واقعی، یا دانش دایرهالمعارفی که کمی غیرطبیعی به نظر میرسد - هوشیارتر شوند. بنابراین نتایج چنین آزمونهایی ایستا نیستند؛ آنها نمایانگر تصویری لحظهای از تعامل فعلی بین پیچیدگی هوش مصنوعی و تشخیص انسان هستند. قابل تصور است که با عادت کردن بیشتر مردم به تعامل با اشکال مختلف هوش مصنوعی، توانایی جمعی برای ‘بو بردن به آنها’ بهبود یابد و به طور بالقوه سطح آنچه را که یک ‘تقلید’ موفقیتآمیز محسوب میشود، بالا ببرد. درک هوش مصنوعی یک هدف متحرک است که از یک سو توسط پیشرفت تکنولوژی و از سوی دیگر توسط درک و سازگاری در حال تکامل انسان شکل میگیرد.
به کجا میرویم؟ بازتعریف هوش
موفقیت مدلهایی مانند GPT-4.5
در آزمونهای Turing
مبتنی بر شخصیت، نقطه مهمی در توسعه هوش مصنوعی را نشان میدهد و تسلط چشمگیری بر تقلید زبانی را به نمایش میگذارد. با این حال، همزمان محدودیتهای خود Turing Test
را به عنوان معیار قطعی ‘هوش’ در عصر LLMها برجسته میکند. در حالی که دستاورد فنی را جشن میگیریم، شاید تمرکز باید تغییر کند. به جای اینکه صرفاً بپرسیم آیا هوش مصنوعی میتواند ما را فریب دهد تا فکر کنیم انسان است، ممکن است به معیارهای ظریفتری نیاز داشته باشیم که تواناییهای شناختی عمیقتری را بررسی کنند - قابلیتهایی مانند استدلال عقل سلیم قوی، درک واقعی علت و معلول، سازگاری با موقعیتهای واقعاً جدید (نه فقط تغییراتی در دادههای آموزشی) و قضاوت اخلاقی. چالش پیش رو فقط ساخت ماشینهایی نیست که بتوانند مانند ما صحبت کنند، بلکه درک ماهیت واقعی قابلیتها و محدودیتهای آنها و توسعه چارچوبهایی - هم فنی و هم اجتماعی - برای مهار مسئولانه پتانسیل آنها و در عین حال کاهش خطرات انکارناپذیر ناشی از بازیگران مصنوعی به طور فزاینده پیچیده در میان ما است. بازی تقلید ادامه دارد، اما قوانین، و شاید خود تعریف پیروزی، به سرعت در حال تکامل هستند.