بازی تقلید: آیا مدل‌های هوش مصنوعی مکالمه را آموخته‌اند؟

تلاش برای ساخت ماشین‌هایی که قادر به تفکر، یا حداقل گفتگو، مانند انسان‌ها باشند، جاه‌طلبی دیرینه‌ای در حوزه هوش مصنوعی است. برای دهه‌ها، معیار سنجش، هرچند بحث‌برانگیز، اغلب آزمون تورینگ بوده است که توسط ریاضیدان برجسته آلن تورینگ در اواسط قرن بیستم ابداع شد. فرض آن ساده اما عمیق است: آیا یک ماشین می‌تواند با یک بازجوی انسانی به گونه‌ای متقاعدکننده تعامل کند که قاضی نتواند به طور قابل اعتمادی آن را از یک انسان دیگر تشخیص دهد؟ تحولات اخیر نشان می‌دهد که برخی از پیچیده‌ترین مدل‌های زبان بزرگ (LLMs) ممکن است به این نقطه عطف جذاب رسیده باشند، یا شاید حتی از آن فراتر رفته باشند، و بحث‌های تازه‌ای را در مورد ماهیت هوش، تقلید و مسیر آینده هوش مصنوعی برانگیخته‌اند.

آماده‌سازی صحنه: دور جدیدی از چالش‌های مکالمه‌ای

مطالعه‌ای که از دانشگاه کالیفرنیا سن دیگو منتشر شده، این پرسش را به شدت دوباره در کانون توجه قرار داده است. محققان Cameron R. Jones و Benjamin K. Bergen نسخه‌ای معاصر از آزمون تورینگ را برای ارزیابی مهارت مکالمه‌ای سیستم‌های پیشرفته هوش مصنوعی طراحی کردند. آزمایش آن‌ها شرکت‌کنندگان انسانی را در مقابل چندین مدل هوش مصنوعی، از جمله GPT-4.5 بسیار مورد توجه OpenAI و LLaMa-3.1-405B قدرتمند Meta قرار داد. تنظیمات شامل یک قاضی انسانی بود که به طور همزمان در مکالمات متنی پنج دقیقه‌ای شرکت می‌کرد - یکی با یک شرکت‌کننده انسانی پنهان و دیگری با یک مدل هوش مصنوعی پنهان. پس از این تعاملات کوتاه، وظیفه قاضی ساده بود: تشخیص اینکه کدام شریک مکالمه ماشین و کدام انسان بود.

نتایج، به ویژه برای مدل‌هایی که برای اتخاذ یک شخصیت خاص راهنمایی شده بودند، چشمگیر بود.

  • عملکرد GPT-4.5: گزارش شده است که GPT-4.5، هنگامی که دستور داده شد مانند یک انسان رفتار کند، قضات را در 73% موارد به طرز چشمگیری فریب داد. این رقم قابل توجه است زیرا نشان می‌دهد که قضات بیشتر احتمال داشت هوش مصنوعی را به عنوان انسان شناسایی کنند تا شرکت‌کننده انسانی واقعی درگیر در مکالمه.
  • نمایش LLaMa-3.1-405B: مدل بزرگ Meta، LLaMa-3.1-405B (که در آن 405B نشان‌دهنده تعداد بسیار زیاد پارامترهایی است که قابلیت‌های آن را شکل می‌دهند)، نیز تحت همان شرط ‘پرسونا’ عملکرد قابل قبولی داشت. این مدل در 56% موارد به عنوان انسان شناسایی شد. اگرچه این امتیاز پایین‌تر از GPT-4.5 است، اما همچنان آن را بالاتر از آستانه حیاتی 50% قرار می‌دهد که اغلب نشان‌دهنده قبولی در آزمون در نظر گرفته می‌شود، و نشان می‌دهد که پاسخ‌های آن از نظر آماری به سختی از پاسخ‌های شرکت‌کنندگان انسانی قابل تشخیص بود.
  • مقایسه‌های پایه: برای ارائه زمینه و اطمینان از اینکه قضات صرفاً به طور تصادفی حدس نمی‌زدند، محققان مدل‌های پایه را نیز شامل کردند. ELIZA، یک چت‌بات اولیه معروف از دهه 1960 که توسط Joseph Weizenbaum در MIT طراحی شده بود، به عنوان کنترل گنجانده شد. جای تعجب نیست که عملکرد آن منعکس‌کننده پیشرفت‌های گسترده در هوش مصنوعی از زمان ایجادش بود و تنها به رتبه ‘انسانی’ 23% دست یافت. جالب اینجاست که GPT-4o، یک مدل جدیدتر OpenAI که در سال 2024 منتشر شد، نیز در این تنظیمات آزمایشی خاص در سطح پایه مشابهی عمل کرد و تنها در 21% موارد به عنوان انسان قضاوت شد. این امر نشان می‌دهد که پیکربندی‌های خاص، آموزش، یا شاید خود استراتژی راهنمایی (prompting)، نقش‌های حیاتی در دستیابی به عملکرد مکالمه‌ای شبیه به انسان ایفا می‌کنند.

روش‌شناسی این مطالعه، با استفاده از این تنظیمات سه طرفه (قاضی، انسان پنهان، هوش مصنوعی پنهان)، به دلیل دقت آن در مقایسه با برخی تلاش‌های قبلی برای ارزیابی هوش مصنوعی در برابر معیار تورینگ، مورد توجه قرار گرفته است. هدف آن ایجاد سناریویی چالش‌برانگیزتر و واقع‌گرایانه‌تر برای ارزیابی عدم تمایز مکالمه‌ای است.

قدرت پرسونا: هوش مصنوعی به عنوان بازیگر متد

یک عامل حیاتی که بر میزان موفقیت GPT-4.5 و LLaMa-3.1-405B در این مطالعه خاص تأثیر گذاشت، استفاده از دستورالعمل‌های ‘پرسونا’ خاص بود. محققان مدل‌ها را هم با و هم بدون دستورالعمل برای اتخاذ شخصیت یا لحن شبیه به انسان آزمایش کردند. جهش قابل توجه در عملکرد هنگامی که دستورالعمل پرسونا اعمال شد، جنبه کلیدی LLMهای مدرن را برجسته می‌کند: توانایی قابل توجه آن‌ها در تطبیق خروجی خود بر اساس دستورالعمل‌ها.

‘اتخاذ پرسونا’ برای یک هوش مصنوعی به چه معناست؟ این بدان معناست که مدل موارد زیر را تنظیم می‌کند:

  1. لحن و سبک: تقلید از زبان محاوره‌ای، استفاده از اصطلاحات عامیانه، یا حتی شبیه‌سازی تردید یا تأمل.
  2. تمرکز محتوا: به طور بالقوه اشاره به تجربیات شخصی (هرچند ساختگی)، بیان نظرات، یا درگیر شدن در صحبت‌های کوتاه مرتبط با شخصیت اتخاذ شده.
  3. الگوی تعامل: پاسخ دادن به روش‌هایی که بیشتر تعاملی به نظر می‌رسند و کمتر شبیه یک سیستم بازیابی اطلاعات صرف هستند.

این توانایی مستقیماً از نحوه آموزش این مدل‌ها ناشی می‌شود. LLMها الگوها، سبک‌ها و اطلاعات را از مجموعه داده‌های عظیمی که به آن‌ها داده می‌شود، یاد می‌گیرند، که عمدتاً شامل متن و کدی است که توسط انسان‌ها در سراسر اینترنت و ادبیات دیجیتالی تولید شده است. هنگامی که از مدل خواسته می‌شود مانند نوع خاصی از شخص عمل کند، مدل از نمونه‌های گسترده مکالمه انسانی در داده‌های آموزشی خود که با آن پرسونا همخوانی دارد، استفاده می‌کند. این کمتر به شخصیت واقعی مربوط می‌شود و بیشتر به تطبیق الگو و تولید پیچیده مربوط می‌شود.

این منجر به این ایده می‌شود که توسط ناظرانی مانند John Nosta، بنیانگذار اندیشکده نوآوری NostaLab، بیان شده است، که شاید آنچه ما شاهد آن هستیم لزوماً هوش مصنوعی به معنای انسانی آن نیست، بلکه همدلی مصنوعی بسیار پیشرفته است - یا حداقل، شبیه‌سازی متقاعدکننده آن. هوش مصنوعی همدلی را احساس نمی‌کند، اما الگوهای زبانی مرتبط با بیان آن را آموخته است. موفقیت به تقلید رفتاری بستگی دارد، تنظیم پاسخ‌ها با سبکی که به عنوان شبیه به انسان طنین‌انداز می‌شود، به ویژه در طول تعاملات کوتاه مانند مکالمات پنج دقیقه‌ای مورد استفاده در آزمون.

خود محققان این سازگاری را برجسته کردند: ‘مسلماً سهولتی که LLMها می‌توانند برای تطبیق رفتار خود با سناریوهای مختلف راهنمایی شوند، آن‌ها را بسیار انعطاف‌پذیر می‌کند: و ظاهراً بسیار قادر به جا زدن خود به عنوان انسان هستند.’ این انعطاف‌پذیری یک شمشیر دولبه است، که امکان روانی مکالمه‌ای قابل توجه را فراهم می‌کند و همزمان سؤالاتی را در مورد اصالت و پتانسیل دستکاری ایجاد می‌کند.

یک دستاورد برجسته یا معیاری ناقص؟ بازنگری آزمون تورینگ

در حالی که ممکن است تیترها از ‘قبولی’ هوش مصنوعی در آزمون تورینگ خبر دهند، اهمیت این دستاورد نیازمند بررسی دقیق است. آیا متقاعد کردن اکثریت قضات در یک چت متنی کوتاه واقعاً معادل هوش سطح انسانی است؟ اکثر کارشناسان، از جمله به طور ضمنی نویسندگان مطالعه، پاسخ منفی خواهند داد.

آزمون تورینگ، که مدت‌ها قبل از ظهور LLMهای آموزش دیده بر روی داده‌های در مقیاس اینترنت ابداع شد، عمدتاً عملکرد مکالمه‌ای را اندازه‌گیری می‌کند، نه توانایی‌های شناختی عمیق‌تر مانند:

  • درک مطلب: آیا هوش مصنوعی واقعاً ظرایف و پیامدهای مکالمه را درک می‌کند، یا صرفاً کلمات بعدی با بیشترین احتمال آماری را پیش‌بینی می‌کند؟
  • آگاهی: تجربه ذهنی آگاهی و تفکر همچنان قاطعانه در قلمرو انسان‌ها (و به طور بالقوه سایر موجودات زنده) باقی می‌ماند. مدل‌های هوش مصنوعی فعلی هیچ مدرکی دال بر داشتن آن نشان نمی‌دهند.
  • استدلال: در حالی که هوش مصنوعی می‌تواند مراحل منطقی را در حوزه‌های خاص انجام دهد، توانایی آن برای استدلال عمومی، عقل سلیم و درک علت و معلول در موقعیت‌های جدید هنوز در مقایسه با انسان‌ها محدود است.
  • قصد: پاسخ‌های هوش مصنوعی بر اساس الگوریتم‌ها و داده‌ها تولید می‌شوند؛ آن‌ها فاقد باورها، خواسته‌ها یا نیات واقعی هستند که ارتباطاتشان را هدایت کند.

بنابراین، کسب امتیاز بالا در آزمون تورینگ نشان می‌دهد که یک هوش مصنوعی می‌تواند بازی تقلید را به طرز استثنایی خوب انجام دهد، به خصوص زمانی که توسط دستورالعمل‌های خاص هدایت شود. این مدل یاد گرفته است که متنی تولید کند که با الگوهای مکالمه انسانی بسیار همخوانی دارد. Sinead Bovell، بنیانگذار شرکت آموزش فناوری Waye، در این باره تأمل کرد و پرسید که آیا واقعاً تعجب‌آور است که هوش مصنوعی آموزش دیده بر روی ‘داده‌های انسانی بیشتر از آنچه هر فردی می‌تواند بخواند یا تماشا کند’ در نهایت در ‘شبیه انسان به نظر رسیدن’ برتری یابد.

این یک سؤال اساسی را مطرح می‌کند: آیا آزمون تورینگ هنوز یک معیار مرتبط یا کافی برای پیشرفت هوش مصنوعی در قرن بیست و یکم است؟ برخی استدلال می‌کنند که تمرکز آن بر فریب از طریق مکالمه بسیار محدود و به طور بالقوه گمراه‌کننده است. این آزمون به اندازه کافی قابلیت‌هایی را که ما اغلب با هوش واقعی مرتبط می‌دانیم، مانند حل مسئله، خلاقیت، قضاوت اخلاقی، یا سازگاری با محیط‌های فیزیکی یا مفهومی کاملاً جدید، ارزیابی نمی‌کند.

زمینه تاریخی نیز مرتبط است. ادعاهای قبولی هوش مصنوعی در آزمون تورینگ قبلاً نیز مطرح شده است. در سال 2014، یک چت‌بات به نام ‘Eugene Goostman’، که برای شبیه‌سازی یک پسر 13 ساله اوکراینی طراحی شده بود، طبق گزارش‌ها 33% از قضات را در یک رویداد آزمایشی مشابه متقاعد کرد. در حالی که این امر در آن زمان توسط برخی مورد تحسین قرار گرفت، نرخ موفقیت 33% از آستانه 50% که معمولاً ذکر می‌شود کمتر بود و با استفاده از یک پرسونا (یک نوجوان غیر بومی انگلیسی زبان) به دست آمد که می‌توانست خطاهای دستوری یا شکاف‌های دانشی را توجیه کند. در مقایسه با نتایج اخیر که از 50% فراتر رفته و حتی با مدل‌های پیچیده‌تر به 73% رسیده است، پیشرفت در هوش مصنوعی مکالمه‌ای غیرقابل انکار است، اما محدودیت‌های خود آزمون همچنان پابرجاست.

نگاهی به درون موتور: عوامل پیشران مهارت مکالمه‌ای

عملکرد چشمگیر مدل‌هایی مانند GPT-4.5 تصادفی نیست؛ این نتیجه نوآوری و اصلاح بی‌وقفه در توسعه هوش مصنوعی، به ویژه در حوزه مدل‌های زبان بزرگ است. چندین عامل به توانایی آن‌ها در تولید چنین متن شبیه به انسان کمک می‌کند:

  1. مجموعه داده‌های عظیم: LLMهای مدرن بر روی مقادیر واقعاً حیرت‌انگیزی از متن و کد آموزش دیده‌اند. این مواجهه گسترده به آن‌ها امکان می‌دهد ساختارهای دستوری پیچیده، واژگان متنوع، ظرایف سبکی، اطلاعات واقعی (اگرچه نه همیشه دقیق) و توالی‌های مکالمه‌ای رایج را بیاموزند.
  2. معماری‌های پیچیده: فناوری زیربنایی، که اغلب مبتنی بر معماری Transformer است، از مکانیسم‌هایی مانند ‘توجه’ (attention) استفاده می‌کند که به مدل اجازه می‌دهد هنگام تولید خروجی، اهمیت کلمات مختلف در دستورالعمل ورودی را بسنجد. این به حفظ زمینه و انسجام در بخش‌های طولانی‌تر متن کمک می‌کند.
  3. تکنیک‌های آموزش پیشرفته: تکنیک‌هایی مانند یادگیری تقویتی از بازخورد انسانی (RLHF) برای تنظیم دقیق مدل‌ها استفاده می‌شود. انسان‌ها پاسخ‌های مختلف هوش مصنوعی را رتبه‌بندی می‌کنند و مدل را به سمت تولید خروجی‌هایی هدایت می‌کنند که مفیدتر، بی‌ضررتر و صادقانه‌تر باشند - و اغلب، بیشتر شبیه به انسان به نظر برسند.
  4. مقیاس پارامتر: مدل‌هایی مانند LLaMa-3.1-405B، با صدها میلیارد پارامتر، ظرفیت بیشتری برای ذخیره و پردازش اطلاعات آموخته شده در طول آموزش دارند، که امکان تولید متن پیچیده‌تر و ظریف‌تر را فراهم می‌کند.
  5. حفظ زمینه: مدل‌های جدیدتر توانایی‌های بهبود یافته‌ای را برای ‘به خاطر سپردن’ بخش‌های قبلی مکالمه نشان می‌دهند که منجر به تعاملات منسجم‌تر و مرتبط‌تر می‌شود، که جنبه کلیدی گفتگوی انسانی است.
  6. بنیان‌های چندوجهی: ساخت بر روی پیشینیانی مانند GPT-4، که قابلیت‌هایی فراتر از متن (مانند درک تصویر) را در خود جای داده بود، به مدل‌های جدیدتر یک نمایش داخلی بالقوه غنی‌تر می‌دهد، حتی اگر تعامل آزمون صرفاً مبتنی بر متن باشد.

هنگامی که OpenAI پیش‌نمایش GPT-4.5 را ارائه داد، مدیر عامل Sam Altman اظهار داشت: ‘این اولین مدلی است که برای من حس صحبت کردن با یک فرد متفکر را دارد.’ اگرچه ذهنی است، این احساس منعکس‌کننده جهش کیفی در توانایی مکالمه‌ای است که این پیشرفت‌های فنی امکان‌پذیر کرده‌اند. سپس دستورالعمل پرسونا به عنوان یک اهرم قدرتمند عمل می‌کند و این قابلیت‌ها را به سمت تقلید از یک سبک مکالمه انسانی خاص که از داده‌های آموخته شده استخراج شده، هدایت می‌کند.

موج‌ها در واقعیت: ملاحظات اجتماعی و اقتصادی

اینکه هوش مصنوعی می‌تواند به طور متقاعدکننده‌ای مکالمه انسانی را تقلید کند، حتی اگر معادل هوش واقعی نباشد، پیامدهای قابل توجهی در دنیای واقعی دارد که بسیار فراتر از آزمون‌های آکادمیک است. همانطور که Sinead Bovell اشاره کرد، این پیشرفت‌ها به طور بالقوه ‘پیامدهای اقتصادی و اجتماعی بزرگی’ دارند.

  • اختلال در بازار کار: حوزه‌هایی که به شدت به ارتباطات متکی هستند، کاندیداهای اصلی برای ادغام هوش مصنوعی و جابجایی بالقوه هستند. نقش‌های خدمات مشتری، تولید محتوا (نوشتن مقالات، متن بازاریابی)، خدمات ترجمه و حتی جنبه‌های خاصی از تدریس خصوصی یا دستیاری شخصی می‌توانند به طور فزاینده‌ای توسط چت‌بات‌ها و عوامل هوش مصنوعی پیچیده انجام شوند. فشار اخیر به سمت ‘هوش مصنوعی عامل’ (Agentic AI) - سیستم‌هایی که برای انجام گردش کار به طور مستقل در زمینه‌هایی مانند تجزیه و تحلیل داده‌ها، پشتیبانی فروش یا مدیریت مراقبت‌های بهداشتی طراحی شده‌اند - اگر این عوامل بتوانند با روانی شبیه به انسان نیز ارتباط برقرار کنند، انگیزه بیشتری می‌گیرد.
  • روابط انسانی و اعتماد: با ماهرتر شدن هوش مصنوعی در تقلید همدلی و شخصیت، می‌تواند پویایی تعاملات انسانی را تغییر دهد. آیا مردم با همراهان هوش مصنوعی پیوندهای عاطفی برقرار خواهند کرد؟ چگونه اصالت را در تعاملات آنلاین تضمین خواهیم کرد، زمانی که تشخیص بین انسان و هوش مصنوعی دشوارتر می‌شود؟ پتانسیل فریب، چه برای کلاهبرداری، انتشار اطلاعات نادرست یا دستکاری نظرات، به طور قابل توجهی افزایش می‌یابد.
  • ظهور ‘دیپ‌فیک‌های عمیق‌تر’: Susan Schneider، مدیر موسس مرکز ذهن آینده در FAU، نگرانی‌هایی را در مورد این مسیر ابراز کرد و سناریوی بالقوه ‘کابوس‌وار’ شامل ‘دیپ‌فیک‌های عمیق‌تر’ و حتی ‘جنگ‌های سایبری چت‌بات‌ها’ را پیش‌بینی کرد. اگر هوش مصنوعی بتواند به طور متقاعدکننده‌ای افراد را در متن تقلید کند، پتانسیل جعل هویت مخرب به طرز چشمگیری افزایش می‌یابد.
  • همسویی اخلاقی: Schneider همچنین بر مسئله حیاتی همسویی تأکید کرد: اطمینان از اینکه سیستم‌های هوش مصنوعی مطابق با ارزش‌های انسانی رفتار می‌کنند. هوش مصنوعی که می‌تواند مکالمه انسانی را کاملاً تقلید کند اما فاقد قطب‌نمای اخلاقی است یا بر اساس داده‌های مغرضانه آموخته شده در طول آموزش عمل می‌کند، می‌تواند کلیشه‌های مضر را تداوم بخشد یا توصیه‌های غیراخلاقی ارائه دهد، در حالی که کاملاً منطقی به نظر می‌رسد. این واقعیت که این مدل‌ها بدون اینکه لزوماً ‘به درستی همسو شده باشند’ آزمون را پشت سر گذاشتند، برای بسیاری از محققان نگران‌کننده است.

توانایی ‘جا زدن’ به عنوان مکالمه‌گر انسانی صرفاً یک کنجکاوی فنی نیست؛ این مستقیماً با نحوه کار، ارتباط، اعتماد و ارتباط ما با یکدیگر در دنیایی که به طور فزاینده‌ای دیجیتالی می‌شود، تلاقی می‌کند.

ترسیم آینده: فراتر از تقلید به سوی قابلیت واقعی

در حالی که نتایج اخیر آزمون تورینگ شامل GPT-4.5 و LLaMa-3.1 نقاط عطف قابل توجهی در تاریخ توسعه هوش مصنوعی هستند، آن‌ها عمدتاً پیشرفت خیره‌کننده در تولید زبان طبیعی و تقلید را برجسته می‌کنند. اجماع در میان بسیاری از کارشناسان این است که تمرکز اکنون باید به سمت توسعه هوش مصنوعی معطوف شود که درک، استدلال و رفتار اخلاقی واقعی را نشان دهد، نه اینکه فقط در تقلید مکالمه‌ای برتری داشته باشد.

این امر مستلزم فراتر رفتن از آزمون تورینگ سنتی به سمت معیارها و روش‌های ارزیابی جدید است. این‌ها ممکن است چگونه باشند؟

  • آزمون‌هایی با تمرکز بر حل مسئله پیچیده در موقعیت‌های جدید.
  • ارزیابی استدلال عقل سلیم قوی.
  • سنجش تصمیم‌گیری اخلاقی در سناریوهای مبهم.
  • معیارهای خلاقیت و تفکر اصیل، نه فقط ترکیب مجدد الگوهای موجود.
  • آزمون‌هایی که نیازمند برنامه‌ریزی بلندمدت و تفکر استراتژیک هستند.

هدف نهایی برای بسیاری در این زمینه فقط ایجاد مکالمه‌گران متقاعدکننده نیست، بلکه توسعه هوش مصنوعی است که بتواند به عنوان ابزارهای قابل اعتماد و امین برای حل مشکلات دنیای واقعی و تقویت قابلیت‌های انسانی عمل کند. همانطور که افکار پایانی در گزارش اصلی نشان داد، آینده هوش مصنوعی احتمالاً بیشتر در کاربرد عملی آن نهفته است - کمک به کشف علمی، بهبود مراقبت‌های بهداشتی، مدیریت سیستم‌های پیچیده - تا صرفاً در توانایی آن برای چت کردن متقاعدکننده.

سفر به سوی هوش مصنوعی عمومی (AGI)، اگر قابل دستیابی باشد، طولانی و پیچیده است. نقاط عطفی مانند قبولی در آزمون تورینگ نشانگرهای مهمی در طول مسیر هستند که قدرت تکنیک‌های فعلی را نشان می‌دهند. با این حال، آن‌ها همچنین به عنوان یادآوری‌های حیاتی از محدودیت‌های معیارهای فعلی ما و سؤالات عمیق اخلاقی و اجتماعی که باید با ادامه تکامل این فناوری‌های قدرتمند به آن‌ها بپردازیم، عمل می‌کنند. بازی تقلید ممکن است قهرمانان جدیدی داشته باشد، اما چالش ساخت هوش مصنوعی واقعاً هوشمند، مفید و همسو تازه آغاز شده است.