مدل‌های پیشرفته هوش مصنوعی آزمون تورینگ را گذراندند

چشم‌انداز هوش مصنوعی دائماً در حال تغییر است و با نقاط عطفی مشخص می‌شود که زمانی به قلمرو داستان‌های علمی-تخیلی محدود بودند. یک پیشرفت اخیر موج‌هایی را در جامعه فناوری و فراتر از آن ایجاد کرده است: گزارش شده که دو مدل پیچیده هوش مصنوعی با موفقیت از پیچیدگی‌های آزمون Turing Test عبور کرده‌اند. این معیار نمادین که توسط ریاضیدان برجسته بریتانیایی Alan Turing در اواسط قرن بیستم ابداع شد، مدت‌هاست که به عنوان قله اورست مفهومی برای هوش ماشینی مطرح بوده است - معیاری برای اینکه آیا یک ماشین می‌تواند آنقدر قانع‌کننده گفتگو کند که از یک انسان قابل تشخیص نباشد. این خبر که مدل‌های GPT-4.5 از OpenAI و Llama-3.1 از Meta احتمالاً به این قله رسیده‌اند، نشان‌دهنده لحظه‌ای بالقوه محوری در تکامل هوش مصنوعی است و بررسی مجدد مرزهای فزاینده مبهم بین شناخت انسان و قابلیت مصنوعی را ضروری می‌سازد.

آزمایش برجسته: طراحی و نتایج شگفت‌انگیز

ادعای اینکه این سیستم‌های هوش مصنوعی آزمون Turing Test را پشت سر گذاشته‌اند، از تحقیقات انجام شده توسط Cameron R. Jones و Benjamin K. Bergen در دانشگاه کالیفرنیا سن دیگو (University of California San Diego) نشأت می‌گیرد. مطالعه آنها، که در حال حاضر منتظر بررسی دقیق همتایان است، از روشی استفاده کرد که به دقت به روح پیشنهاد اصلی Turing پایبند باشد و در عین حال دقت مدرن را در بر گیرد. Jones و Bergen با تشخیص محدودیت‌های آزمون‌های ساده‌تر دو طرفه، یک مدل تعامل سه طرفه چالش‌برانگیزتر را پیاده‌سازی کردند.

در این تنظیمات، یک شرکت‌کننده انسانی (بازجو) به طور همزمان در مکالمات جداگانه مبتنی بر متن به مدت پنج دقیقه شرکت می‌کرد. یکی از طرفین گفتگو، انسانی دیگر بود، در حالی که دیگری یک سیستم هوش مصنوعی بود. نکته مهم این بود که بازجو نمی‌دانست کدام یک کدام است. پس از تبادل پنج دقیقه‌ای، وظیفه بازجو مشخص بود: شناسایی ماشین. این ساختار مقایسه مستقیم را تحمیل می‌کند و ارزیابی قوی‌تری نسبت به صرفاً پرسیدن اینکه آیا یک هوش مصنوعی به نظر انسان می‌رسد در انزوا، در نظر گرفته می‌شود.

برای اطمینان از اینکه یافته‌ها توسط یک جمعیت‌شناسی خاص منحرف نشده‌اند، محققان تنظیمات خود را در دو جمعیت متمایز آزمایش کردند:

  1. دانشجویان مقطع کارشناسی، که نماینده یک جمعیت جوان‌تر و عموماً آشنا با ارتباطات دیجیتال هستند.
  2. کارگران پرکار (که از پلتفرم‌های آنلاین استخدام شده‌اند)، که نماینده مقطع وسیع‌تری از جمعیت هستند که به تعاملات آنلاین متنوع عادت دارند.

نتایج حاصل از این رویکرد دقیق، قابل توجه بود.

  • GPT-4.5 از OpenAI به طرز چشمگیری متقاعد کننده ظاهر شد. هنگامی که به طور خاص دستور داده شد تا شخصیت خاصی را اتخاذ کند (جزئیات بیشتر در ادامه)، نه تنها قانع کننده بود؛ بلکه بیشتر از انسان‌های واقعی درگیر، قانع کننده بود. بازجوها GPT-4.5 را به عنوان شرکت‌کننده انسانی در ۷۳٪ موارد شناسایی کردند. این رقم به طور قابل توجهی نه تنها از آستانه قبولی مرسوم ۵۰٪ فراتر می‌رود، بلکه از نرخی که بازجوها شرکای انسانی واقعی را به درستی شناسایی کردند نیز بیشتر است.
  • Llama-3.1-405B از Meta، یکی دیگر از مدل‌های زبان بزرگ پیشرفته، نیز عملکرد چشمگیری داشت. این مدل به نرخ موفقیت ۵۶٪ در شناسایی شدن به عنوان انسان دست یافت، که عملاً با عملکرد پایه مورد انتظار در صورت تصادفی بودن انتخاب‌ها (حدود ۵۰٪) مطابقت دارد و توانایی قوی در تقلید الگوهای مکالمه انسانی را نشان می‌دهد.

این نرخ‌های موفقیت بالا در تضاد کامل با عملکرد مدل‌های پایه و کنترل گنجانده شده در آزمایش قرار دارند:

  • GPT-4o، یک مدل توانمند اما بالقوه کمتر پیشرفته OpenAI، نرخ برد تنها ۲۱٪ داشت.
  • ELIZA، یک چت‌بات ابتدایی که در دهه ۱۹۶۰ توسعه یافت، به عنوان کنترل عمل کرد. گنجاندن آن برای تأیید اینکه بازجوها واقعاً می‌توانند پاسخ‌های غیرانسانی را هنگام مواجهه با یک سیستم کمتر پیچیده تشخیص دهند، حیاتی بود. همانطور که انتظار می‌رفت، ELIZA عملکرد ضعیفی داشت و در اکثر موارد به درستی به عنوان غیرانسان شناسایی شد (نرخ برد تنها ۲۳٪، که اساساً سطح نویز یا خطای شرکت‌کننده را اندازه‌گیری می‌کند).

شکاف قابل توجه بین عملکرد GPT-4.5 و Llama-3.1 در مقایسه با GPT-4o و ELIZA بر پیشرفت‌های حاصل شده در توسعه اخیر هوش مصنوعی تأکید می‌کند. محققان ادعا می‌کنند که مطالعه آنها “اولین شواهد قوی مبنی بر اینکه هر سیستمی آزمون Turing Test سه طرفه اصلی را پشت سر می‌گذارد” ارائه می‌دهد، ادعایی که در انتظار بررسی همتایان، لحظه مهمی در تاریخ هوش مصنوعی را رقم می‌زند.

نقش حیاتی شخصیت و دستوردهی (Prompting)

با این حال، روایت پیروزی هوش مصنوعی با یک تبصره مهم همراه است، تبصره‌ای که واقعیت ظریف پشت ارقام اصلی را برجسته می‌کند. نرخ‌های موفقیت چشمگیر GPT-4.5 و Llama-3.1 صرفاً از طریق قابلیت‌های ذاتی و آماده به کار آنها به دست نیامد. در عوض، توانایی آنها در فریب بازجوهای انسانی به شدت به دستورالعمل‌های خاص - دستورها (prompts) - که قبل از شروع تعاملات به آنها داده شده بود، وابسته بود.

محققان به مدل‌های هوش مصنوعی دستور دادند تا یک شخصیت با دقت تعریف شده را اتخاذ کنند: شخصیت یک فرد جوان، تا حدودی درونگرا که از فرهنگ اینترنت آگاه است. به نظر می‌رسد این شخصیت‌پردازی خاص کلید موفقیت آنها بوده است. هنگامی که همان مدل‌های پیشرفته هوش مصنوعی (GPT-4.5 و Llama-3.1) بدون این دستور شخصیت در آزمون اجرا شدند، عملکرد آنها به طور قابل توجهی کاهش یافت. آنها بسیار راحت‌تر توسط بازجوهای انسانی به عنوان ماشین شناسایی شدند.

این یافته به چند دلیل بسیار مهم است:

  1. بر قدرت مهندسی دستور (prompt engineering) تأکید می‌کند: توانایی ساخت دستورهای مؤثر به طور فزاینده‌ای برای بهره‌برداری از قابلیت‌های مدل‌های زبان بزرگ حیاتی می‌شود. این مطالعه نشان می‌دهد که دستوردهی فقط مربوط به دریافت اطلاعات صحیح از یک هوش مصنوعی نیست؛ بلکه مربوط به شکل دادن به رفتار، لحن و شخصیت ظاهری آن برای تناسب با یک زمینه خاص نیز هست. موفقیت در اینجا ممکن است به همان اندازه که گواهی بر معماری زیربنایی هوش مصنوعی است، گواهی بر دستوردهی ماهرانه نیز باشد.
  2. سوالاتی را در مورد معنای ‘قبولی’ مطرح می‌کند: اگر یک هوش مصنوعی فقط زمانی می‌تواند آزمون Turing Test را پشت سر بگذارد که به طور خاص برای رفتار مانند نوع خاصی از انسان آموزش داده شده باشد، آیا واقعاً روح چالش اصلی Turing را برآورده می‌کند؟ یا صرفاً انعطاف‌پذیری مدل و ظرفیت آن برای تقلید پیچیده را هنگامی که دستورالعمل‌های صحنه‌ای صریح داده می‌شود، به نمایش می‌گذارد؟
  3. سازگاری را به عنوان یک ویژگی کلیدی برجسته می‌کند: همانطور که Jones و Bergen در مقاله خود اشاره می‌کنند، “مسلماً سهولتی که با آن می‌توان به LLMها دستور داد تا رفتار خود را با سناریوهای مختلف تطبیق دهند، آنها را بسیار انعطاف‌پذیر می‌کند: و ظاهراً بسیار قادر به جا زدن خود به عنوان انسان.” این سازگاری بدون شک یک ویژگی قدرتمند است، اما تمرکز را از ‘هوش’ ذاتی به عملکرد قابل برنامه‌ریزی تغییر می‌دهد.

اتکا به شخصیت نشان می‌دهد که هوش مصنوعی فعلی، حتی در پیشرفته‌ترین حالت خود، ممکن است دارای کیفیت ‘شبیه به انسان’ تعمیم‌یافته و ذاتی نباشد، بلکه در اتخاذ ماسک‌های خاص شبیه به انسان هنگامی که به آن دستور داده می‌شود، برتری دارد.

فراتر از تقلید: زیر سوال بردن هوش واقعی

خود محققان مراقب هستند که تفسیر یافته‌های خود را تعدیل کنند. گذراندن این آزمون مکالمه‌ای خاص، حتی تحت شرایط سختگیرانه، نباید به طور خودکار با ظهور هوش ماشینی واقعی، آگاهی یا درک برابر دانسته شود. آزمون Turing Test، اگرچه از نظر تاریخی مهم است، عمدتاً عدم تمایز رفتاری را در یک زمینه محدود (یک مکالمه متنی کوتاه) ارزیابی می‌کند. لزوماً توانایی‌های شناختی عمیق‌تر مانند استدلال، عقل سلیم، قضاوت اخلاقی یا خودآگاهی واقعی را بررسی نمی‌کند.

مدل‌های زبان بزرگ مدرن (LLMs) مانند GPT-4.5 و Llama-3.1 بر روی مجموعه داده‌های غیرقابل تصور عظیمی آموزش دیده‌اند که شامل متن و کدی است که از اینترنت جمع‌آوری شده است. آنها در شناسایی الگوها، پیش‌بینی کلمه بعدی در یک دنباله و تولید متنی که از نظر آماری شبیه به ارتباطات انسانی است، برتری دارند. همانطور که Sinead Bovell، بنیانگذار شرکت آموزش فناوری Waye، به درستی پرسید: “آیا کاملاً تعجب‌آور است که… هوش مصنوعی در نهایت ما را در ‘انسانی به نظر رسیدن’ شکست دهد، در حالی که بر روی داده‌های انسانی بیشتری نسبت به آنچه هر فردی می‌تواند بخواند یا تماشا کند، آموزش دیده است؟”

این دیدگاه نشان می‌دهد که هوش مصنوعی لزوماً مانند یک انسان ‘فکر’ نمی‌کند، بلکه نوعی تطبیق الگو و تقلید فوق‌العاده پیچیده را به کار می‌گیرد که با قرار گرفتن در معرض تریلیون‌ها کلمه نماینده مکالمات، مقالات و تعاملات انسانی بی‌شمار، تقویت شده است. بنابراین، موفقیت در آزمون ممکن است منعکس‌کننده حجم و گستردگی محض داده‌های آموزشی آن باشد تا یک جهش اساسی به سمت شناخت شبیه به انسان.

در نتیجه، بسیاری از کارشناسان، از جمله نویسندگان مطالعه، استدلال می‌کنند که آزمون Turing Test، اگرچه یک نشانگر تاریخی ارزشمند است، ممکن است دیگر مناسب‌ترین معیار برای سنجش پیشرفت معنادار در هوش مصنوعی نباشد. اجماع فزاینده‌ای وجود دارد که ارزیابی‌های آینده باید بر معیارهای سخت‌گیرانه‌تری تمرکز کنند، مانند:

  • استدلال قوی: ارزیابی توانایی هوش مصنوعی در حل مسائل پیچیده، استنتاج منطقی و درک علت و معلول.
  • همسویی اخلاقی: ارزیابی اینکه آیا فرآیندهای تصمیم‌گیری هوش مصنوعی با ارزش‌های انسانی و اصول اخلاقی همسو هستند یا خیر.
  • عقل سلیم: آزمایش درک هوش مصنوعی از دانش ضمنی در مورد جهان فیزیکی و اجتماعی که انسان‌ها آن را بدیهی می‌دانند.
  • سازگاری با موقعیت‌های جدید: اندازه‌گیری اینکه هوش مصنوعی در مواجهه با سناریوهایی که به طور قابل توجهی با داده‌های آموزشی آن متفاوت است، چقدر خوب عمل می‌کند.

بحث از “آیا می‌تواند مانند ما صحبت کند؟” به “آیا می‌تواند مانند ما استدلال کند، بفهمد و مسئولانه رفتار کند؟” تغییر می‌کند.

زمینه تاریخی و تلاش‌های قبلی

تلاش برای ایجاد ماشینی که بتواند آزمون Turing Test را پشت سر بگذارد، دهه‌هاست که دانشمندان کامپیوتر و عموم مردم را مجذوب خود کرده است. این مطالعه اخیر اولین باری نیست که ادعای موفقیت مطرح شده است، اگرچه موارد قبلی اغلب با شک و تردید یا صلاحیت روبرو شده‌اند.

شاید مشهورترین ادعای قبلی مربوط به چت‌بات Eugene Goostman در سال ۲۰۱۴ باشد. این برنامه با هدف شبیه‌سازی یک پسر ۱۳ ساله اوکراینی طراحی شده بود. در مسابقه‌ای به مناسبت شصتمین سالگرد مرگ Alan Turing، Goostman موفق شد ۳۳٪ از داوران را در طول مکالمات پنج دقیقه‌ای متقاعد کند که انسان است. در حالی که به طور گسترده‌ای گزارش شد که آزمون Turing Test را “پشت سر گذاشته” است، این ادعا بحث‌برانگیز بود. بسیاری استدلال کردند که نرخ موفقیت ۳۳٪ از آستانه ۵۰٪ که اغلب ضروری تلقی می‌شود (اگرچه خود Turing هرگز درصد دقیقی را مشخص نکرد) کمتر است. علاوه بر این، منتقدان خاطرنشان کردند که شبیه‌سازی یک نوجوان غیر بومی انگلیسی زبان ممکن است باعث شود اشتباهات گرامری و شکاف‌های دانش قابل قبول‌تر به نظر برسند و به طور بالقوه سطح فریب را پایین بیاورند.

گنجاندن ELIZA در مطالعه Jones و Bergen زمینه تاریخی ارزشمندی را فراهم می‌کند. ELIZA که توسط Joseph Weizenbaum در MIT در دهه ۱۹۶۰ توسعه یافت، با استفاده از تطبیق الگوی ساده و جایگزینی کلمات کلیدی عمل می‌کرد و اغلب اظهارات کاربر را به عنوان سؤال بازتاب می‌داد (به عنوان مثال، کاربر: “من احساس غمگینی می‌کنم.” ELIZA: “چرا احساس غمگینی می‌کنید؟”). علیرغم سادگی آن، برخی از کاربران به طرز مشهوری درک شبیه به انسان را به آن نسبت دادند. عملکرد ضعیف آن (نرخ برد ۲۳٪) در آزمون سه طرفه اخیر و دقیق‌تر تأیید می‌کند که طراحی آزمایشی به اندازه کافی حساس بوده است تا بین تقلید ابتدایی و توانایی‌های مکالمه‌ای پیچیده LLMهای مدرن تمایز قائل شود. سفر از ELIZA به GPT-4.5 نشان‌دهنده جهش عظیمی در قدرت محاسباتی، پیچیدگی الگوریتمی و در دسترس بودن داده‌ها است.

عنصر انسانی: تاکتیک‌های بازجویی و ادراکات

مطالعه UC San Diego همچنین بینش‌های شگفت‌انگیزی در مورد چگونگی تلاش انسان‌ها برای تشخیص مصنوعی بودن در مکالمه ارائه می‌دهد. تجزیه و تحلیل استراتژی‌های بازجوها رویکردهای رایج را آشکار کرد:

  • درگیر شدن در صحبت‌های کوتاه (۶۱٪ بازی‌ها): بحث در مورد فعالیت‌های روزانه، سرگرمی‌ها یا جزئیات شخصی پیش پا افتاده یک تاکتیک مکرر است، شاید بر اساس این فرض که هوش مصنوعی ممکن است با ظرافت‌های تجربه روزمره انسانی دست و پنجه نرم کند یا فاقد تاریخچه شخصی قانع کننده باشد.
  • کاوش برای کیفیت‌های اجتماعی و عاطفی (۵۰٪): بازجوها اغلب سعی می‌کردند پاسخ‌هایی مربوط به احساسات، نظرات، همدلی یا درک اجتماعی را استخراج کنند، حوزه‌هایی که به طور سنتی منحصر به انسان در نظر گرفته می‌شوند.
  • آزمایش با موارد عجیب: برخی از مؤثرترین استراتژی‌ها شامل انحراف از مکالمه عادی بود. این شامل گفتن چیزی عجیب یا غیرمنتظره برای سنجش واکنش، آزمایش توانایی هوش مصنوعی در مدیریت ظریف موارد جدید یا پوچ بود.
  • تلاش برای ‘Jailbreaking’: بازجوهای با دانش فنی بیشتر سعی کردند از دستورها یا سؤالات خاصی استفاده کنند که برای دور زدن پروتکل‌های ایمنی هوش مصنوعی یا وادار کردن آن به افشای ماهیت زیربنایی خود به عنوان یک ماشین طراحی شده‌اند.

این تاکتیک‌ها نشان می‌دهند که انسان‌ها اغلب بر عمق عاطفی درک شده، ثبات در روایت شخصی و توانایی مدیریت پیچیدگی‌های مکالمه‌ای به عنوان نشانه‌های انسانیت تکیه می‌کنند.

جالب اینجاست که موفقیت GPT-4.5، به ویژه رتبه بالای آن حتی در مقایسه با انسان‌های واقعی، باعث شد متفکر نوآوری John Nosta اظهار کند: “ما به هوش مصنوعی نمی‌بازیم. ما به همدلی مصنوعی می‌بازیم.” این اظهار نظر به مهارت فزاینده هوش مصنوعی نه تنها در تقلید الگوهای زبانی بلکه در شبیه‌سازی کیفیت‌های عاطفی تعامل انسانی اشاره دارد - ابراز درک، نگرانی یا احساس مشترک ظاهری، حتی اگر اینها به صورت الگوریتمی تولید شده باشند تا اینکه واقعاً احساس شوند. توانایی تولید پاسخ‌هایی با صدای همدلانه به نظر می‌رسد ابزار قدرتمندی در متقاعد کردن انسان‌ها به اصالت هوش مصنوعی باشد.

پیامدهای گسترده‌تر: اقتصاد، جامعه و آینده

پیمایش موفقیت‌آمیز معیار آزمون Turing Test توسط مدل‌هایی مانند GPT-4.5 و Llama-3.1، حتی با قید و شرط دستوردهی، پیامدهایی بسیار فراتر از حوزه‌های دانشگاهی یا فنی دارد. این نشان‌دهنده سطحی از روانی مکالمه و سازگاری رفتاری در هوش مصنوعی است که می‌تواند جنبه‌های مختلف زندگی را به طور قابل توجهی تغییر دهد.

اختلال اقتصادی: توانایی هوش مصنوعی برای تعامل به روش‌های شبیه به انسان، نگرانی‌های بیشتری را در مورد جابجایی شغلی ایجاد می‌کند. نقش‌هایی که به شدت به ارتباطات، خدمات مشتری، تولید محتوا و حتی اشکال خاصی از همراهی یا مربیگری متکی هستند، به طور بالقوه می‌توانند توسط سیستم‌های هوش مصنوعی که می‌توانند به طور طبیعی و مؤثر گفتگو کنند، خودکار یا به طور قابل توجهی تغییر کنند.

نگرانی‌های اجتماعی: پیچیدگی فزاینده تقلید هوش مصنوعی چالش‌هایی را برای روابط انسانی و اعتماد اجتماعی ایجاد می‌کند.

  • آیا تعامل گسترده با چت‌بات‌های هوش مصنوعی بسیار قانع‌کننده می‌تواند منجر به کاهش ارزش ارتباط واقعی انسانی شود؟
  • چگونه شفافیت را تضمین کنیم تا مردم بدانند که آیا با یک انسان یا یک هوش مصنوعی در تعامل هستند، به ویژه در زمینه‌های حساس مانند خدمات پشتیبانی یا روابط آنلاین؟
  • پتانسیل سوء استفاده در ایجاد شخصیت‌های ‘دیپ‌فیک’ بسیار باورپذیر برای کلاهبرداری، کمپین‌های اطلاعات نادرست یا مهندسی اجتماعی مخرب به طور قابل توجهی بیشتر می‌شود.

ظهور هوش مصنوعی عامل (Agentic AI): این تحولات با روند گسترده‌تر به سمت هوش مصنوعی عامل همسو است - سیستم‌هایی که نه تنها برای پاسخ به دستورها بلکه برای پیگیری مستقل اهداف، انجام وظایف و تعامل با محیط‌های دیجیتال طراحی شده‌اند. شرکت‌هایی مانند Microsoft، Adobe، Zoom و Slack فعالانه در حال توسعه عوامل هوش مصنوعی هستند که به عنوان همکاران مجازی عمل کنند و وظایفی از برنامه‌ریزی جلسات و خلاصه کردن اسناد گرفته تا مدیریت پروژه‌ها و تعامل با مشتریان را خودکار کنند. هوش مصنوعی که بتواند به طور قانع‌کننده‌ای در مکالمه جای انسان را بگیرد، یک عنصر اساسی برای ایجاد عوامل هوش مصنوعی مؤثر و یکپارچه است.

صداهای هشدار: همسویی و پیامدهای پیش‌بینی نشده

در میان هیجان پیرامون پیشرفت‌های هوش مصنوعی، صداهای برجسته‌ای خواستار احتیاط هستند و بر اهمیت حیاتی ایمنی و ملاحظات اخلاقی تأکید می‌کنند. Susan Schneider، مدیر مؤسس مرکز ذهن آینده (Center for the Future Mind) در دانشگاه آتلانتیک فلوریدا (Florida Atlantic University)، نگرانی خود را در مورد همسویی این چت‌بات‌های قدرتمند ابراز کرد. او هشدار داد: “حیف که این چت‌بات‌های هوش مصنوعی به درستی همسو نشده‌اند”، و بر خطرات بالقوه در صورتی که توسعه هوش مصنوعی از توانایی ما برای اطمینان از عملکرد ایمن این سیستم‌ها و مطابق با ارزش‌های انسانی پیشی بگیرد، تأکید کرد.

Schneider آینده‌ای پر از چالش را پیش‌بینی می‌کند اگر همسویی در اولویت قرار نگیرد: “با این حال، من پیش‌بینی می‌کنم: آنها به افزایش ظرفیت‌ها ادامه خواهند داد و این یک کابوس خواهد بود - ویژگی‌های نوظهور، ‘دیپ‌فیک‌های عمیق‌تر’، جنگ‌های سایبری چت‌بات‌ها.”

  • ویژگی‌های نوظهور به رفتارها یا قابلیت‌های غیرمنتظره‌ای اشاره دارد که می‌توانند در سیستم‌های پیچیده‌ای مانند هوش مصنوعی پیشرفته به وجود آیند، که ممکن است به صراحت توسط سازندگان آنها برنامه‌ریزی یا پیش‌بینی نشده باشند.
  • ‘دیپ‌فیک‌های عمیق‌تر’ فراتر از تصاویر یا ویدئوهای دستکاری شده گسترش می‌یابند و به طور بالقوه شامل شخصیت‌های کاملاً ساختگی و تعاملی می‌شوند که برای فریب در مقیاس بزرگ استفاده می‌شوند.
  • ‘جنگ‌های سایبری چت‌بات‌ها’ سناریوهایی را متصور می‌شود که در آن سیستم‌های هوش مصنوعی علیه یکدیگر یا علیه سیستم‌های انسانی برای اهداف مخرب، مانند اطلاعات نادرست در مقیاس بزرگ یا دستکاری اجتماعی خودکار، مستقر می‌شوند.

این دیدگاه محتاطانه به شدت با دیدگاه‌های خوش‌بینانه‌تر که اغلب با آینده‌پژوهانی مانند Ray Kurzweil (که Schneider به او اشاره می‌کند) مرتبط است، در تضاد است. Kurzweil به طور مشهوری آینده‌ای را پیش‌بینی می‌کند که عمدتاً به طور مثبت توسط هوش مصنوعی با پیشرفت تصاعدی که منجر به یک تکینگی فناوری می‌شود، دگرگون شده است. این بحث بر عدم قطعیت عمیق و مخاطرات بالای موجود در پیمایش مراحل بعدی توسعه هوش مصنوعی تأکید می‌کند. توانایی تقلید قانع‌کننده مکالمه انسانی یک شاهکار فنی قابل توجه است، اما همچنین جعبه پاندورایی از سؤالات اخلاقی، اجتماعی و وجودی را باز می‌کند که با ورود بیشتر ما به این عصر جدید، نیازمند بررسی دقیق است.