كشف وهم الذكاء
لعقود من الزمن، ظل اختبار Turing Test معلمًا بارزًا، وإن كان يُساء فهمه كثيرًا، في السعي لقياس الذكاء الاصطناعي. صممه العبقري Alan Turing، واقترح تحديًا بسيطًا ولكنه عميق: هل يمكن لآلة أن تقنع إنسانًا، من خلال محادثة نصية فقط، بأنها بشرية أيضًا؟ لقد فسر الكثيرون النجاح في هذا الاختبار على أنه فجر التفكير الآلي الحقيقي، وعلامة على أن العقول المصنوعة من السيليكون تعكس أخيرًا قدراتنا المعرفية. ومع ذلك، كان هذا التفسير دائمًا محفوفًا بالجدل، والتطورات الأخيرة التي تشمل نماذج الذكاء الاصطناعي المتطورة مثل GPT-4.5 من OpenAI تفرض إعادة تقييم نقدية.
يسلط بحث رائد ناشئ من University of California at San Diego الضوء على هذا الجدل. أجرى العلماء هناك تجارب وضعوا فيها البشر في مواجهة نماذج لغوية كبيرة متقدمة (LLMs) في صيغة اختبار Turing Test الكلاسيكية. كانت النتائج مذهلة: لم يجتاز الإصدار الأخير من OpenAI، الذي يُقال إنه GPT-4.5، الاختبار فحسب؛ بل تفوق، وأثبت أنه أكثر إقناعًا في انتحاله لشخصية الإنسان من المشاركين البشريين الفعليين في إثبات إنسانيتهم. يمثل هذا قفزة كبيرة في قدرة الذكاء الاصطناعي التوليدي على صياغة ردود تبدو بشرية أصيلة. ومع ذلك، حتى الباحثون الذين يقفون وراء هذه الدراسة يحذرون من مساواة هذه البراعة الحوارية بتحقيق الذكاء الاصطناعي العام (AGI) - الهدف بعيد المنال المتمثل في إنشاء آلات ذات قدرات معرفية على المستوى البشري. يبدو أن الاختبار قد يكشف المزيد عن حدود الاختبار نفسه، وافتراضاتنا البشرية، أكثر من كشفه عن الطبيعة الحقيقية لذكاء الآلة.
لمسة عصرية على تجربة كلاسيكية
يكمن الجاذبية الدائمة لاختبار Turing Test في بساطته الأنيقة. تصور Turing ‘لعبة تقليد’ تضم ثلاثة لاعبين: محقق بشري (القاضي)، وشاهد بشري، وشاهد حاسوبي. معزولين عن بعضهم البعض، ويتواصلون فقط عبر الرسائل النصية، سيحاول الشهود إقناع القاضي بهويتهم البشرية. يجب على القاضي، الذي يدرك أن أحد المشاركين هو آلة، تحديد أيهما هو. تكمن عبقرية هذا الإعداد في طبيعته المقارنة المتأصلة. إذا أخطأ القاضي في تحديد الكمبيوتر على أنه إنسان، فهذا لا يعني فقط أداء الآلة المقنع ولكن أيضًا فشلًا محتملاً من قبل الشاهد البشري في الإشارة بشكل كافٍ إلى إنسانيته، أو ربما عدم قدرة القاضي على إدراك تلك الإشارات بشكل صحيح. يصبح فحصًا رائعًا للإدراك البشري والمعتقد والإشارات الدقيقة التي نربطها بكوننا بشرًا، بقدر ما هو مقياس للقدرة الحاسوبية.
بناءً على هذا الأساس، قام باحثو UC San Diego، Cameron Jones و Benjamin Bergen، بتطبيق نسخة معاصرة من الاختبار، مستفيدين من قوة نماذج LLMs الحديثة وإشراك طلاب جامعيين. التزم تصميمهم التجريبي بشكل وثيق بهيكل Turing ثلاثي الاتجاهات. تم تعيين الطلاب عشوائيًا لأدوار: عمل البعض كقضاة، والبعض الآخر كشهود بشريين. انخرط كل قاضٍ في محادثات نصية متزامنة ومستقلة مدتها خمس دقائق مع كل من شاهد بشري وشاهد ذكاء اصطناعي. ظل التحدي للقاضي كما هو: تحديد الآلة.
لاستكشاف قدرات الذكاء الاصطناعي الحالية، تم نشر عدة نماذج كشاهد حاسوبي:
- GPT-4.5 (Minimal Prompt): تلقى هذا الإصدار تعليمات أساسية فقط.
- GPT-4.5 (PERSONA Prompt): تم إعطاء هذا البديل إرشادات أكثر تفصيلاً بشكل كبير. وجهت التعليمات الذكاء الاصطناعي لتبني شخصية محددة - شخصية ‘شاب انطوائي، مطلع على ثقافة الإنترنت، ويستخدم العامية’. كان الهدف من ذلك اختبار قدرة الذكاء الاصطناعي على التكيف وقدرته على تقليد نماذج بشرية محددة.
- GPT-4o: نموذج OpenAI البارز الآخر كان بمثابة نقطة مقارنة.
- Llama 3.1 405b: تم تضمين نموذج LLM القوي من Meta Platforms لتوسيع النطاق.
- ELIZA: تم تضمين برنامج chatbot أساسي من الستينيات كعنصر تحكم. كان القصد من بساطته النسبية المساعدة في تحديد ما إذا كان أي نجاح لنماذج LLMs يرجع إلى البرمجة المتطورة أو مجرد الصدفة العشوائية والقضاة الذين يسهل خداعهم.
هذا النهج متعدد النماذج، جنبًا إلى جنب مع التفاعلات المنظمة والموقوتة والمقارنة بين الذكاء الاصطناعي ذي التوجيه الأدنى والذكاء الاصطناعي القائم على الشخصية، قدم مجموعة بيانات غنية لتحليل مدى فعالية الآلات الآن في تقليد المحادثة البشرية وكيف يدرك البشر هذه المحاولات.
عندما يتفوق التقليد على الواقع
كانت النتائج المستخلصة من دراسة UC San Diego مذهلة بكل المقاييس، لا سيما فيما يتعلق بأداء GPT-4.5 عند توجيهه بواسطة تعليمات PERSONA المفصلة. حقق هذا التكوين المحدد ‘معدل فوز’ مذهلاً بلغ 73%. في جوهر الأمر، في ما يقرب من ثلاثة أرباع الوقت، خلص القضاة البشريون الذين تفاعلوا مع هذا الذكاء الاصطناعي إلى أنهم كانوا يتحدثون مع إنسان آخر. هذا الرقم مهم ليس فقط بقيمته المطلقة ولكن أيضًا بالمقارنة مع المشاركين الآخرين.
لننظر إلى المعايير المرجعية:
- الشهود البشريون: للمفارقة، كان البشر الفعليون المشاركون كشهود أقل نجاحًا في إقناع القضاة بإنسانيتهم من GPT-4.5 الموجه بالشخصية.
- نماذج الذكاء الاصطناعي الأخرى: سجل GPT-4.5 ذو التوجيه الأدنى، جنبًا إلى جنب مع GPT-4o و Llama 3.1 (حتى عند إعطائهما توجيهات شخصية مماثلة)، درجات أقل بكثير، بمعدلات فوز تتراوح بين 21% و 56%. يسلط هذا الضوء على القدرات المتقدمة لنموذج GPT-4.5 المحدد الذي تم اختباره والتأثير الكبير للتوجيه المخصص.
- أداء GPT-4 السابق: في تكرار سابق للتجربة أجراه نفس الباحثين قبل عام واحد فقط، حقق GPT-4 معدل فوز بلغ 54% فقط، بالكاد يتجاوز عتبة الصدفة العشوائية (50%). تُظهر القفزة إلى 73% مع GPT-4.5 تقدمًا سريعًا في قدرة النموذج على إنشاء نص شبيه بالبشر.
- ELIZA: أدى برنامج chatbot القديم، كما هو متوقع، أداءً ضعيفًا، حيث خدم غرضه كخط أساس وأكد أن نجاح نماذج LLMs لم يكن ببساطة بسبب سهولة خداع القضاة بواسطة أي برنامج.
كان استنتاج Jones و Bergen صارخًا: لم يكن القضاة يكافحون فقط للتمييز بين الإنسان والآلة؛ بل كانوا يميلون بنشاط أكثر إلى الاعتقاد بأن GPT-4.5 الموجه بالشخصية كان بشريًا أكثر من ميلهم إلى الاعتقاد بأن المشاركين البشريين الفعليين كانوا كذلك. يشير هذا إلى أن الذكاء الاصطناعي، عند توجيهه بشكل صحيح، يمكنه محاكاة الفروق الدقيقة المتصورة للتفاعل البشري - ربما حتى تصفية الإحراج أو التناقضات الموجودة في الدردشة البشرية الحقيقية - بشكل أكثر فعالية من البشر أنفسهم في هذه البيئة المحددة والمقيدة. لم يكن النجاح يتعلق فقط بالاجتياز؛ بل كان يتعلق بتجاوز خط الأساس البشري في ‘الإنسانية’ المتصورة ضمن حدود الاختبار.
عقبة الشبه بالإنسان: ذكاء أم تكيف؟
هل يشير انتصار GPT-4.5 في هذا التكرار الحديث لاختبار Turing Test إلى وصول AGI؟ يحث الباحثون، إلى جانب العديد من الخبراء في هذا المجال، على توخي الحذر. ‘السؤال الأكثر إثارة للجدل’ المحيط بالاختبار، كما يعترف Jones و Bergen، كان دائمًا ما إذا كان يقيس الذكاء حقًا أم شيئًا آخر تمامًا. في حين أن قدرة GPT-4.5 على خداع البشر بهذه الفعالية هي بلا شك إنجاز تقني، إلا أنها قد تتحدث أكثر عن التقليد المتطور للنموذج وقدرته على التكيف أكثر من الفهم الحقيقي أو الوعي.
أحد وجهات النظر هو أن هذه النماذج اللغوية الكبيرة المتقدمة أصبحت بارعة بشكل استثنائي في مطابقة الأنماط والتنبؤ. بعد تغذيتها بكميات هائلة من بيانات النصوص البشرية، تتعلم الاحتمالية الإحصائية لتسلسلات الكلمات، وأدوار المحادثة، والعناصر الأسلوبية المرتبطة بأنواع مختلفة من التفاعل البشري. قدمت تعليمات PERSONA لـ GPT-4.5 نمطًا مستهدفًا محددًا - شاب انطوائي وملم بثقافة الإنترنت. وبالتالي، يمكن اعتبار نجاح الذكاء الاصطناعي دليلاً على قدرته على ‘تكييف سلوكه’ ليتناسب مع الشخصية المطلوبة، بالاعتماد على بيانات التدريب الخاصة به لإنشاء استجابات تتفق مع هذا الملف الشخصي. إنه عرض رائع للمرونة والقوة التوليدية، مما يسمح للآلة بالظهور بمظهر بشري مقنع ضمن السياق المحدد بواسطة التعليمات.
ومع ذلك، فإن هذه القدرة على التكيف تختلف عن الذكاء العام الذي يمتلكه البشر، والذي يتضمن التفكير، وفهم السياق بعمق، والتعلم من التجارب الجديدة، وامتلاك الوعي - وهي صفات لا تظهرها نماذج LLMs الحالية بشكل واضح. كما جادلت عالمة الذكاء الاصطناعي Melanie Mitchell، فإن الطلاقة في اللغة الطبيعية، مثل إتقان الشطرنج، ليست دليلاً قاطعًا على الذكاء العام. إنها تثبت إتقان مجال مهارة محدد، وإن كان معقدًا. لذلك، في حين أن أداء GPT-4.5 يعد علامة فارقة في توليد اللغة الطبيعية، فإن تأطيره فقط كخطوة نحو AGI قد يكون مضللاً. يبدو من الأدق وصفه بأنه تحقيق درجة عالية من ‘الشبه بالإنسان’ في المحادثة النصية، وهو مفهوم يختلف بمهارة ولكن بشكل حاسم عن الذكاء على المستوى البشري.
مرآة التفاعل: ما يكشفه الاختبار عنا
ربما يكمن الجانب الأكثر إثارة للاهتمام في دراسة UC San Diego ليس فيما تكشفه عن الذكاء الاصطناعي، ولكن فيما تكشفه عن الحكم البشري والافتراضات التي نأتي بها إلى التفاعلات، خاصة عبر الإنترنت. حقيقة أن القضاة البشريين تم خداعهم بشكل متكرر، وفي بعض الأحيان فضلوا أسلوب تفاعل الذكاء الاصطناعي، تشير إلى الذاتية المتأصلة والعيوب المحتملة في استخدام الإدراك البشري كحكم نهائي لذكاء الآلة في هذا الشكل.
لاحظ الباحثون أنماطًا رائعة في منطق القضاة:
- السلوك غير المتوقع: حتى برنامج ELIZA البدائي تمكن من خداع القضاة بنسبة 23% من الوقت. لم يكن هذا لأن ELIZA أظهرت براعة، ولكن غالبًا لأنها لم تلبِ المفاهيم المسبقة للقضاة حول كيف يجب أن يتصرف الذكاء الاصطناعي. استشهد القضاة بأسباب مثل كون الشاهد ‘ساخرًا’ أو ‘وقحًا’، وهي سمات لم يتوقعوها من آلة، وبالتالي استنتجوا أنه يجب أن يكون بشريًا.
- التركيز على الاجتماعية بدلاً من الفكر: على عكس توقع Alan Turing بأن القضاة سيبحثون عن المعرفة والقدرة الفكرية، بدا المشاركون في هذه الدراسة غالبًا أكثر تركيزًا على أسلوب المحادثة والنبرة العاطفية والإشارات الاجتماعية.
- مفارقة النقص: في تطور مفاجئ، كان أحد العوامل التي استخدمها القضاة لتحديد الشاهد بشكل صحيح على أنه إنسان هو نقص المعرفة المتصور. يشير هذا إلى افتراض أساسي بأن البشر معرضون للخطأ وغير كاملين، بينما قد يُتوقع أن يكون الذكاء الاصطناعي موسوعيًا أو دقيقًا بشكل مفرط.
تقود هذه الملاحظات Jones و Bergen إلى التأكيد على أن قرارات القضاة تتضمن ‘افتراضات معقدة حول كيفية احتمال تصرف البشر وأنظمة الذكاء الاصطناعي’، متجاوزة التقييم البسيط للذكاء. تصبح المعايير متشابكة مع التوقعات الاجتماعية، وأحكام الشخصية، وحتى التحيزات حول القدرات التكنولوجية. في عصر ينتشر فيه التواصل النصي، طورنا عادات وتوقعات راسخة للتفاعلات عبر الإنترنت. يعمل اختبار Turing Test، الذي تم تصميمه في الأصل كتحقيق جديد في التفاعل بين الإنسان والحاسوب، الآن بشكل أكبر كاختبار لهذه العادات والتحيزات البشرية عبر الإنترنت. إنه يقيس قدرتنا على تحليل الشخصيات الرقمية، متأثرين بتجاربنا اليومية مع كل من البشر والروبوتات عبر الإنترنت. بشكل أساسي، يبدو أن اختبار Turing Test الحديث، كما أظهر هذا البحث، هو تقييم أقل مباشرة لذكاء الآلة وأكثر مقياسًا للشبه المتصور بالإنسان، يتم تصفيته من خلال عدسة التوقع البشري.
ما وراء لعبة التقليد: رسم مسار جديد لتقييم الذكاء الاصطناعي
بالنظر إلى الأداء المقنع لنماذج مثل GPT-4.5 والقيود والتحيزات المبرزة المتأصلة في شكل اختبار Turing Test التقليدي، يطرح السؤال التالي: هل لا يزال هذا المعيار الذي يعود تاريخه إلى عقود هو الأداة الصحيحة لقياس التقدم نحو AGI؟ يقترح باحثو UC San Diego، جنبًا إلى جنب مع جوقة متنامية في مجتمع الذكاء الاصطناعي، أنه ربما لا - على الأقل، ليس كمقياس وحيد أو نهائي.
إن نجاح GPT-4.5 ذاته، لا سيما اعتماده على تعليمات PERSONA، يؤكد على قيد رئيسي: يقيم الاختبار الأداء ضمن سياق محادثة محدد، وغالبًا ما يكون ضيقًا. إنه لا يبحث بالضرورة في القدرات المعرفية الأعمق مثل التفكير أو التخطيط أو الإبداع أو فهم الحس السليم عبر مواقف متنوعة. كما يصرح Jones و Bergen، ‘الذكاء معقد ومتعدد الأوجه’، مما يعني أن ‘لا يمكن لأي اختبار واحد للذكاء أن يكون حاسمًا’.
يشير هذا إلى الحاجة إلى مجموعة أكثر شمولاً من طرق التقييم. تظهر عدة طرق محتملة:
- تصاميم اختبار معدلة: يقترح الباحثون أنفسهم اختلافات. ماذا لو كان القضاة خبراء في الذكاء الاصطناعي، يمتلكون توقعات مختلفة وربما طرقًا أكثر تطوراً لاستكشاف قدرات الآلة؟ ماذا لو تم تقديم حوافز مالية كبيرة، لتشجيع القضاة على فحص الردود بعناية وتفكير أكبر؟ يمكن لهذه التغييرات أن تغير الديناميكيات وربما تسفر عن نتائج مختلفة، مما يسلط الضوء بشكل أكبر على تأثير السياق والدافع على نتيجة الاختبار.
- اختبار القدرات الأوسع: بالانتقال إلى ما هو أبعد من الطلاقة في المحادثة، يمكن أن تركز التقييمات على مجموعة أوسع من المهام التي تتطلب جوانب مختلفة من الذكاء - حل المشكلات في مجالات جديدة، والتخطيط طويل الأجل، وفهم العلاقات السببية المعقدة، أو إظهار الإبداع الحقيقي بدلاً من إعادة المزج المتطور لبيانات التدريب.
- التقييم بمشاركة الإنسان (HITL): هناك اتجاه متزايد نحو دمج الحكم البشري بشكل أكثر منهجية في تقييم الذكاء الاصطناعي، ولكن ربما بطرق أكثر تنظيماً من اختبار Turing Test الكلاسيكي. قد يشمل ذلك تقييم البشر لمخرجات الذكاء الاصطناعي بناءً على معايير محددة (مثل الدقة الواقعية، والتماسك المنطقي، والاعتبارات الأخلاقية، والفائدة) بدلاً من مجرد إصدار حكم ثنائي إنسان/آلة. يمكن للبشر المساعدة في تحسين النماذج، وتحديد نقاط الضعف، وتوجيه التطوير بناءً على ملاحظات دقيقة.
الفكرة الأساسية هي أن تقييم شيء معقد مثل الذكاء يتطلب النظر إلى ما هو أبعد من التقليد البسيط. في حين أن اختبار Turing Test قدم إطارًا أوليًا قيمًا ولا يزال يثير مناقشات مهمة، فإن الاعتماد عليه وحده يخاطر بالخلط بين التقليد المتطور والفهم الحقيقي. يتطلب المسار نحو فهم وربما تحقيق AGI طرق تقييم أغنى وأكثر تنوعًا وربما أكثر صرامة.
لغز AGI ومستقبل التقييم
تؤكد التجارب الأخيرة على تحدٍ أساسي يمتد إلى ما هو أبعد من اختبار Turing Test نفسه: نحن نكافح لتحديد ما يشكل الذكاء الاصطناعي العام بدقة، ناهيك عن الاتفاق على كيفية التعرف عليه بشكل قاطع إذا واجهناه. إذا كان من الممكن التأثير بسهولة على البشر، بكل تحيزاتهم وافتراضاتهم المتأصلة، بواسطة نموذج LLM موجه جيدًا في واجهة دردشة بسيطة، فكيف يمكننا الحكم بشكل موثوق على القدرات المعرفية الأعمق للأنظمة المستقبلية التي يحتمل أن تكون أكثر تقدمًا؟
الرحلة نحو AGI محاطة بالغموض. تعمل دراسة UC San Diego بمثابة تذكير قوي بأن معاييرنا الحالية قد تكون غير كافية للمهمة المقبلة. إنها تسلط الضوء على الصعوبة العميقة في فصل السلوك المحاكى عن الفهم الحقيقي، خاصة عندما تصبح المحاكاة متطورة بشكل متزايد. يؤدي هذا إلى أسئلة تخمينية، ولكنها مثيرة للتفكير، حول نماذج التقييم المستقبلية. هل يمكن أن نصل إلى نقطة، تذكرنا بروايات الخيال العلمي، حيث يعتبر الحكم البشري غير موثوق به للغاية للتمييز بين الذكاء الاصطناعي المتقدم والبشر؟
ربما، للمفارقة، سيتطلب تقييم ذكاء الآلة المتقدم للغاية مساعدة من آلات أخرى. قد تصبح الأنظمة المصممة خصيصًا للبحث عن العمق المعرفي والاتساق والتفكير الحقيقي، والتي يحتمل أن تكون أقل عرضة للإشارات الاجتماعية والتحيزات التي تؤثر على القضاة البشريين، مكونات ضرورية لمجموعة أدوات التقييم. أو، على الأقل، سيكون الفهم الأعمق للتفاعل بين التعليمات البشرية (التوجيهات)، وتكيف الذكاء الاصطناعي، والإدراك الناتج للذكاء أمرًا بالغ الأهمية. قد نحتاج إلى أن نسأل الآلات عما تميزه عند ملاحظة آلات أخرى تستجيب لمحاولات بشرية لاستنباط سلوكيات محددة، وربما خادعة. إن السعي لقياس الذكاء الاصطناعي يجبرنا على مواجهة ليس فقط طبيعة ذكاء الآلة ولكن أيضًا الطبيعة المعقدة، والمفاجئة غالبًا، لطبيعتنا.