تلاش برای ساخت ماشینهایی که قادر به تفکر، یا حداقل گفتگو، مانند انسانها باشند، جاهطلبی دیرینهای در حوزه هوش مصنوعی است. برای دههها، معیار سنجش، هرچند بحثبرانگیز، اغلب آزمون تورینگ بوده است که توسط ریاضیدان برجسته آلن تورینگ در اواسط قرن بیستم ابداع شد. فرض آن ساده اما عمیق است: آیا یک ماشین میتواند با یک بازجوی انسانی به گونهای متقاعدکننده تعامل کند که قاضی نتواند به طور قابل اعتمادی آن را از یک انسان دیگر تشخیص دهد؟ تحولات اخیر نشان میدهد که برخی از پیچیدهترین مدلهای زبان بزرگ (LLMs) ممکن است به این نقطه عطف جذاب رسیده باشند، یا شاید حتی از آن فراتر رفته باشند، و بحثهای تازهای را در مورد ماهیت هوش، تقلید و مسیر آینده هوش مصنوعی برانگیختهاند.
آمادهسازی صحنه: دور جدیدی از چالشهای مکالمهای
مطالعهای که از دانشگاه کالیفرنیا سن دیگو منتشر شده، این پرسش را به شدت دوباره در کانون توجه قرار داده است. محققان Cameron R. Jones و Benjamin K. Bergen نسخهای معاصر از آزمون تورینگ را برای ارزیابی مهارت مکالمهای سیستمهای پیشرفته هوش مصنوعی طراحی کردند. آزمایش آنها شرکتکنندگان انسانی را در مقابل چندین مدل هوش مصنوعی، از جمله GPT-4.5 بسیار مورد توجه OpenAI و LLaMa-3.1-405B قدرتمند Meta قرار داد. تنظیمات شامل یک قاضی انسانی بود که به طور همزمان در مکالمات متنی پنج دقیقهای شرکت میکرد - یکی با یک شرکتکننده انسانی پنهان و دیگری با یک مدل هوش مصنوعی پنهان. پس از این تعاملات کوتاه، وظیفه قاضی ساده بود: تشخیص اینکه کدام شریک مکالمه ماشین و کدام انسان بود.
نتایج، به ویژه برای مدلهایی که برای اتخاذ یک شخصیت خاص راهنمایی شده بودند، چشمگیر بود.
- عملکرد GPT-4.5: گزارش شده است که GPT-4.5، هنگامی که دستور داده شد مانند یک انسان رفتار کند، قضات را در 73% موارد به طرز چشمگیری فریب داد. این رقم قابل توجه است زیرا نشان میدهد که قضات بیشتر احتمال داشت هوش مصنوعی را به عنوان انسان شناسایی کنند تا شرکتکننده انسانی واقعی درگیر در مکالمه.
- نمایش LLaMa-3.1-405B: مدل بزرگ Meta، LLaMa-3.1-405B (که در آن 405B نشاندهنده تعداد بسیار زیاد پارامترهایی است که قابلیتهای آن را شکل میدهند)، نیز تحت همان شرط ‘پرسونا’ عملکرد قابل قبولی داشت. این مدل در 56% موارد به عنوان انسان شناسایی شد. اگرچه این امتیاز پایینتر از GPT-4.5 است، اما همچنان آن را بالاتر از آستانه حیاتی 50% قرار میدهد که اغلب نشاندهنده قبولی در آزمون در نظر گرفته میشود، و نشان میدهد که پاسخهای آن از نظر آماری به سختی از پاسخهای شرکتکنندگان انسانی قابل تشخیص بود.
- مقایسههای پایه: برای ارائه زمینه و اطمینان از اینکه قضات صرفاً به طور تصادفی حدس نمیزدند، محققان مدلهای پایه را نیز شامل کردند. ELIZA، یک چتبات اولیه معروف از دهه 1960 که توسط Joseph Weizenbaum در MIT طراحی شده بود، به عنوان کنترل گنجانده شد. جای تعجب نیست که عملکرد آن منعکسکننده پیشرفتهای گسترده در هوش مصنوعی از زمان ایجادش بود و تنها به رتبه ‘انسانی’ 23% دست یافت. جالب اینجاست که GPT-4o، یک مدل جدیدتر OpenAI که در سال 2024 منتشر شد، نیز در این تنظیمات آزمایشی خاص در سطح پایه مشابهی عمل کرد و تنها در 21% موارد به عنوان انسان قضاوت شد. این امر نشان میدهد که پیکربندیهای خاص، آموزش، یا شاید خود استراتژی راهنمایی (prompting)، نقشهای حیاتی در دستیابی به عملکرد مکالمهای شبیه به انسان ایفا میکنند.
روششناسی این مطالعه، با استفاده از این تنظیمات سه طرفه (قاضی، انسان پنهان، هوش مصنوعی پنهان)، به دلیل دقت آن در مقایسه با برخی تلاشهای قبلی برای ارزیابی هوش مصنوعی در برابر معیار تورینگ، مورد توجه قرار گرفته است. هدف آن ایجاد سناریویی چالشبرانگیزتر و واقعگرایانهتر برای ارزیابی عدم تمایز مکالمهای است.
قدرت پرسونا: هوش مصنوعی به عنوان بازیگر متد
یک عامل حیاتی که بر میزان موفقیت GPT-4.5 و LLaMa-3.1-405B در این مطالعه خاص تأثیر گذاشت، استفاده از دستورالعملهای ‘پرسونا’ خاص بود. محققان مدلها را هم با و هم بدون دستورالعمل برای اتخاذ شخصیت یا لحن شبیه به انسان آزمایش کردند. جهش قابل توجه در عملکرد هنگامی که دستورالعمل پرسونا اعمال شد، جنبه کلیدی LLMهای مدرن را برجسته میکند: توانایی قابل توجه آنها در تطبیق خروجی خود بر اساس دستورالعملها.
‘اتخاذ پرسونا’ برای یک هوش مصنوعی به چه معناست؟ این بدان معناست که مدل موارد زیر را تنظیم میکند:
- لحن و سبک: تقلید از زبان محاورهای، استفاده از اصطلاحات عامیانه، یا حتی شبیهسازی تردید یا تأمل.
- تمرکز محتوا: به طور بالقوه اشاره به تجربیات شخصی (هرچند ساختگی)، بیان نظرات، یا درگیر شدن در صحبتهای کوتاه مرتبط با شخصیت اتخاذ شده.
- الگوی تعامل: پاسخ دادن به روشهایی که بیشتر تعاملی به نظر میرسند و کمتر شبیه یک سیستم بازیابی اطلاعات صرف هستند.
این توانایی مستقیماً از نحوه آموزش این مدلها ناشی میشود. LLMها الگوها، سبکها و اطلاعات را از مجموعه دادههای عظیمی که به آنها داده میشود، یاد میگیرند، که عمدتاً شامل متن و کدی است که توسط انسانها در سراسر اینترنت و ادبیات دیجیتالی تولید شده است. هنگامی که از مدل خواسته میشود مانند نوع خاصی از شخص عمل کند، مدل از نمونههای گسترده مکالمه انسانی در دادههای آموزشی خود که با آن پرسونا همخوانی دارد، استفاده میکند. این کمتر به شخصیت واقعی مربوط میشود و بیشتر به تطبیق الگو و تولید پیچیده مربوط میشود.
این منجر به این ایده میشود که توسط ناظرانی مانند John Nosta، بنیانگذار اندیشکده نوآوری NostaLab، بیان شده است، که شاید آنچه ما شاهد آن هستیم لزوماً هوش مصنوعی به معنای انسانی آن نیست، بلکه همدلی مصنوعی بسیار پیشرفته است - یا حداقل، شبیهسازی متقاعدکننده آن. هوش مصنوعی همدلی را احساس نمیکند، اما الگوهای زبانی مرتبط با بیان آن را آموخته است. موفقیت به تقلید رفتاری بستگی دارد، تنظیم پاسخها با سبکی که به عنوان شبیه به انسان طنینانداز میشود، به ویژه در طول تعاملات کوتاه مانند مکالمات پنج دقیقهای مورد استفاده در آزمون.
خود محققان این سازگاری را برجسته کردند: ‘مسلماً سهولتی که LLMها میتوانند برای تطبیق رفتار خود با سناریوهای مختلف راهنمایی شوند، آنها را بسیار انعطافپذیر میکند: و ظاهراً بسیار قادر به جا زدن خود به عنوان انسان هستند.’ این انعطافپذیری یک شمشیر دولبه است، که امکان روانی مکالمهای قابل توجه را فراهم میکند و همزمان سؤالاتی را در مورد اصالت و پتانسیل دستکاری ایجاد میکند.
یک دستاورد برجسته یا معیاری ناقص؟ بازنگری آزمون تورینگ
در حالی که ممکن است تیترها از ‘قبولی’ هوش مصنوعی در آزمون تورینگ خبر دهند، اهمیت این دستاورد نیازمند بررسی دقیق است. آیا متقاعد کردن اکثریت قضات در یک چت متنی کوتاه واقعاً معادل هوش سطح انسانی است؟ اکثر کارشناسان، از جمله به طور ضمنی نویسندگان مطالعه، پاسخ منفی خواهند داد.
آزمون تورینگ، که مدتها قبل از ظهور LLMهای آموزش دیده بر روی دادههای در مقیاس اینترنت ابداع شد، عمدتاً عملکرد مکالمهای را اندازهگیری میکند، نه تواناییهای شناختی عمیقتر مانند:
- درک مطلب: آیا هوش مصنوعی واقعاً ظرایف و پیامدهای مکالمه را درک میکند، یا صرفاً کلمات بعدی با بیشترین احتمال آماری را پیشبینی میکند؟
- آگاهی: تجربه ذهنی آگاهی و تفکر همچنان قاطعانه در قلمرو انسانها (و به طور بالقوه سایر موجودات زنده) باقی میماند. مدلهای هوش مصنوعی فعلی هیچ مدرکی دال بر داشتن آن نشان نمیدهند.
- استدلال: در حالی که هوش مصنوعی میتواند مراحل منطقی را در حوزههای خاص انجام دهد، توانایی آن برای استدلال عمومی، عقل سلیم و درک علت و معلول در موقعیتهای جدید هنوز در مقایسه با انسانها محدود است.
- قصد: پاسخهای هوش مصنوعی بر اساس الگوریتمها و دادهها تولید میشوند؛ آنها فاقد باورها، خواستهها یا نیات واقعی هستند که ارتباطاتشان را هدایت کند.
بنابراین، کسب امتیاز بالا در آزمون تورینگ نشان میدهد که یک هوش مصنوعی میتواند بازی تقلید را به طرز استثنایی خوب انجام دهد، به خصوص زمانی که توسط دستورالعملهای خاص هدایت شود. این مدل یاد گرفته است که متنی تولید کند که با الگوهای مکالمه انسانی بسیار همخوانی دارد. Sinead Bovell، بنیانگذار شرکت آموزش فناوری Waye، در این باره تأمل کرد و پرسید که آیا واقعاً تعجبآور است که هوش مصنوعی آموزش دیده بر روی ‘دادههای انسانی بیشتر از آنچه هر فردی میتواند بخواند یا تماشا کند’ در نهایت در ‘شبیه انسان به نظر رسیدن’ برتری یابد.
این یک سؤال اساسی را مطرح میکند: آیا آزمون تورینگ هنوز یک معیار مرتبط یا کافی برای پیشرفت هوش مصنوعی در قرن بیست و یکم است؟ برخی استدلال میکنند که تمرکز آن بر فریب از طریق مکالمه بسیار محدود و به طور بالقوه گمراهکننده است. این آزمون به اندازه کافی قابلیتهایی را که ما اغلب با هوش واقعی مرتبط میدانیم، مانند حل مسئله، خلاقیت، قضاوت اخلاقی، یا سازگاری با محیطهای فیزیکی یا مفهومی کاملاً جدید، ارزیابی نمیکند.
زمینه تاریخی نیز مرتبط است. ادعاهای قبولی هوش مصنوعی در آزمون تورینگ قبلاً نیز مطرح شده است. در سال 2014، یک چتبات به نام ‘Eugene Goostman’، که برای شبیهسازی یک پسر 13 ساله اوکراینی طراحی شده بود، طبق گزارشها 33% از قضات را در یک رویداد آزمایشی مشابه متقاعد کرد. در حالی که این امر در آن زمان توسط برخی مورد تحسین قرار گرفت، نرخ موفقیت 33% از آستانه 50% که معمولاً ذکر میشود کمتر بود و با استفاده از یک پرسونا (یک نوجوان غیر بومی انگلیسی زبان) به دست آمد که میتوانست خطاهای دستوری یا شکافهای دانشی را توجیه کند. در مقایسه با نتایج اخیر که از 50% فراتر رفته و حتی با مدلهای پیچیدهتر به 73% رسیده است، پیشرفت در هوش مصنوعی مکالمهای غیرقابل انکار است، اما محدودیتهای خود آزمون همچنان پابرجاست.
نگاهی به درون موتور: عوامل پیشران مهارت مکالمهای
عملکرد چشمگیر مدلهایی مانند GPT-4.5 تصادفی نیست؛ این نتیجه نوآوری و اصلاح بیوقفه در توسعه هوش مصنوعی، به ویژه در حوزه مدلهای زبان بزرگ است. چندین عامل به توانایی آنها در تولید چنین متن شبیه به انسان کمک میکند:
- مجموعه دادههای عظیم: LLMهای مدرن بر روی مقادیر واقعاً حیرتانگیزی از متن و کد آموزش دیدهاند. این مواجهه گسترده به آنها امکان میدهد ساختارهای دستوری پیچیده، واژگان متنوع، ظرایف سبکی، اطلاعات واقعی (اگرچه نه همیشه دقیق) و توالیهای مکالمهای رایج را بیاموزند.
- معماریهای پیچیده: فناوری زیربنایی، که اغلب مبتنی بر معماری Transformer است، از مکانیسمهایی مانند ‘توجه’ (attention) استفاده میکند که به مدل اجازه میدهد هنگام تولید خروجی، اهمیت کلمات مختلف در دستورالعمل ورودی را بسنجد. این به حفظ زمینه و انسجام در بخشهای طولانیتر متن کمک میکند.
- تکنیکهای آموزش پیشرفته: تکنیکهایی مانند یادگیری تقویتی از بازخورد انسانی (RLHF) برای تنظیم دقیق مدلها استفاده میشود. انسانها پاسخهای مختلف هوش مصنوعی را رتبهبندی میکنند و مدل را به سمت تولید خروجیهایی هدایت میکنند که مفیدتر، بیضررتر و صادقانهتر باشند - و اغلب، بیشتر شبیه به انسان به نظر برسند.
- مقیاس پارامتر: مدلهایی مانند LLaMa-3.1-405B، با صدها میلیارد پارامتر، ظرفیت بیشتری برای ذخیره و پردازش اطلاعات آموخته شده در طول آموزش دارند، که امکان تولید متن پیچیدهتر و ظریفتر را فراهم میکند.
- حفظ زمینه: مدلهای جدیدتر تواناییهای بهبود یافتهای را برای ‘به خاطر سپردن’ بخشهای قبلی مکالمه نشان میدهند که منجر به تعاملات منسجمتر و مرتبطتر میشود، که جنبه کلیدی گفتگوی انسانی است.
- بنیانهای چندوجهی: ساخت بر روی پیشینیانی مانند GPT-4، که قابلیتهایی فراتر از متن (مانند درک تصویر) را در خود جای داده بود، به مدلهای جدیدتر یک نمایش داخلی بالقوه غنیتر میدهد، حتی اگر تعامل آزمون صرفاً مبتنی بر متن باشد.
هنگامی که OpenAI پیشنمایش GPT-4.5 را ارائه داد، مدیر عامل Sam Altman اظهار داشت: ‘این اولین مدلی است که برای من حس صحبت کردن با یک فرد متفکر را دارد.’ اگرچه ذهنی است، این احساس منعکسکننده جهش کیفی در توانایی مکالمهای است که این پیشرفتهای فنی امکانپذیر کردهاند. سپس دستورالعمل پرسونا به عنوان یک اهرم قدرتمند عمل میکند و این قابلیتها را به سمت تقلید از یک سبک مکالمه انسانی خاص که از دادههای آموخته شده استخراج شده، هدایت میکند.
موجها در واقعیت: ملاحظات اجتماعی و اقتصادی
اینکه هوش مصنوعی میتواند به طور متقاعدکنندهای مکالمه انسانی را تقلید کند، حتی اگر معادل هوش واقعی نباشد، پیامدهای قابل توجهی در دنیای واقعی دارد که بسیار فراتر از آزمونهای آکادمیک است. همانطور که Sinead Bovell اشاره کرد، این پیشرفتها به طور بالقوه ‘پیامدهای اقتصادی و اجتماعی بزرگی’ دارند.
- اختلال در بازار کار: حوزههایی که به شدت به ارتباطات متکی هستند، کاندیداهای اصلی برای ادغام هوش مصنوعی و جابجایی بالقوه هستند. نقشهای خدمات مشتری، تولید محتوا (نوشتن مقالات، متن بازاریابی)، خدمات ترجمه و حتی جنبههای خاصی از تدریس خصوصی یا دستیاری شخصی میتوانند به طور فزایندهای توسط چتباتها و عوامل هوش مصنوعی پیچیده انجام شوند. فشار اخیر به سمت ‘هوش مصنوعی عامل’ (Agentic AI) - سیستمهایی که برای انجام گردش کار به طور مستقل در زمینههایی مانند تجزیه و تحلیل دادهها، پشتیبانی فروش یا مدیریت مراقبتهای بهداشتی طراحی شدهاند - اگر این عوامل بتوانند با روانی شبیه به انسان نیز ارتباط برقرار کنند، انگیزه بیشتری میگیرد.
- روابط انسانی و اعتماد: با ماهرتر شدن هوش مصنوعی در تقلید همدلی و شخصیت، میتواند پویایی تعاملات انسانی را تغییر دهد. آیا مردم با همراهان هوش مصنوعی پیوندهای عاطفی برقرار خواهند کرد؟ چگونه اصالت را در تعاملات آنلاین تضمین خواهیم کرد، زمانی که تشخیص بین انسان و هوش مصنوعی دشوارتر میشود؟ پتانسیل فریب، چه برای کلاهبرداری، انتشار اطلاعات نادرست یا دستکاری نظرات، به طور قابل توجهی افزایش مییابد.
- ظهور ‘دیپفیکهای عمیقتر’: Susan Schneider، مدیر موسس مرکز ذهن آینده در FAU، نگرانیهایی را در مورد این مسیر ابراز کرد و سناریوی بالقوه ‘کابوسوار’ شامل ‘دیپفیکهای عمیقتر’ و حتی ‘جنگهای سایبری چتباتها’ را پیشبینی کرد. اگر هوش مصنوعی بتواند به طور متقاعدکنندهای افراد را در متن تقلید کند، پتانسیل جعل هویت مخرب به طرز چشمگیری افزایش مییابد.
- همسویی اخلاقی: Schneider همچنین بر مسئله حیاتی همسویی تأکید کرد: اطمینان از اینکه سیستمهای هوش مصنوعی مطابق با ارزشهای انسانی رفتار میکنند. هوش مصنوعی که میتواند مکالمه انسانی را کاملاً تقلید کند اما فاقد قطبنمای اخلاقی است یا بر اساس دادههای مغرضانه آموخته شده در طول آموزش عمل میکند، میتواند کلیشههای مضر را تداوم بخشد یا توصیههای غیراخلاقی ارائه دهد، در حالی که کاملاً منطقی به نظر میرسد. این واقعیت که این مدلها بدون اینکه لزوماً ‘به درستی همسو شده باشند’ آزمون را پشت سر گذاشتند، برای بسیاری از محققان نگرانکننده است.
توانایی ‘جا زدن’ به عنوان مکالمهگر انسانی صرفاً یک کنجکاوی فنی نیست؛ این مستقیماً با نحوه کار، ارتباط، اعتماد و ارتباط ما با یکدیگر در دنیایی که به طور فزایندهای دیجیتالی میشود، تلاقی میکند.
ترسیم آینده: فراتر از تقلید به سوی قابلیت واقعی
در حالی که نتایج اخیر آزمون تورینگ شامل GPT-4.5 و LLaMa-3.1 نقاط عطف قابل توجهی در تاریخ توسعه هوش مصنوعی هستند، آنها عمدتاً پیشرفت خیرهکننده در تولید زبان طبیعی و تقلید را برجسته میکنند. اجماع در میان بسیاری از کارشناسان این است که تمرکز اکنون باید به سمت توسعه هوش مصنوعی معطوف شود که درک، استدلال و رفتار اخلاقی واقعی را نشان دهد، نه اینکه فقط در تقلید مکالمهای برتری داشته باشد.
این امر مستلزم فراتر رفتن از آزمون تورینگ سنتی به سمت معیارها و روشهای ارزیابی جدید است. اینها ممکن است چگونه باشند؟
- آزمونهایی با تمرکز بر حل مسئله پیچیده در موقعیتهای جدید.
- ارزیابی استدلال عقل سلیم قوی.
- سنجش تصمیمگیری اخلاقی در سناریوهای مبهم.
- معیارهای خلاقیت و تفکر اصیل، نه فقط ترکیب مجدد الگوهای موجود.
- آزمونهایی که نیازمند برنامهریزی بلندمدت و تفکر استراتژیک هستند.
هدف نهایی برای بسیاری در این زمینه فقط ایجاد مکالمهگران متقاعدکننده نیست، بلکه توسعه هوش مصنوعی است که بتواند به عنوان ابزارهای قابل اعتماد و امین برای حل مشکلات دنیای واقعی و تقویت قابلیتهای انسانی عمل کند. همانطور که افکار پایانی در گزارش اصلی نشان داد، آینده هوش مصنوعی احتمالاً بیشتر در کاربرد عملی آن نهفته است - کمک به کشف علمی، بهبود مراقبتهای بهداشتی، مدیریت سیستمهای پیچیده - تا صرفاً در توانایی آن برای چت کردن متقاعدکننده.
سفر به سوی هوش مصنوعی عمومی (AGI)، اگر قابل دستیابی باشد، طولانی و پیچیده است. نقاط عطفی مانند قبولی در آزمون تورینگ نشانگرهای مهمی در طول مسیر هستند که قدرت تکنیکهای فعلی را نشان میدهند. با این حال، آنها همچنین به عنوان یادآوریهای حیاتی از محدودیتهای معیارهای فعلی ما و سؤالات عمیق اخلاقی و اجتماعی که باید با ادامه تکامل این فناوریهای قدرتمند به آنها بپردازیم، عمل میکنند. بازی تقلید ممکن است قهرمانان جدیدی داشته باشد، اما چالش ساخت هوش مصنوعی واقعاً هوشمند، مفید و همسو تازه آغاز شده است.