ادعاء بارز في مجال الذكاء الاصطناعي
كان السعي لإنشاء آلات تفكر، أو على الأقل تقلد الفكر البشري بشكل مقنع، حجر الزاوية في علوم الكمبيوتر منذ نشأتها. لعقود من الزمن، كان المعيار، مهما كان موضع نقاش، هو اختبار Turing
، وهو عقبة مفاهيمية اقترحها صاحب الرؤية Alan Turing
. مؤخرًا، تحولت الهمسات إلى صيحات داخل مجتمع الذكاء الاصطناعي عقب نتائج دراسة جديدة. أفاد باحثونأن أحد أكثر نماذج اللغة الكبيرة (LLMs) تقدمًا اليوم، وهو GPT-4.5
من OpenAI
، لم يشارك فقط في تكرار حديث لهذا الاختبار - بل يمكن القول إنه انتصر، وغالبًا ما أثبت أنه أكثر إقناعًا في ‘إنسانيته’ من المشاركين البشريين الفعليين. يعيد هذا التطور إشعال الأسئلة الأساسية حول طبيعة الذكاء، وحدود المحاكاة، ومسار التفاعل بين الإنسان والحاسوب في عصر مشبع بشكل متزايد بالذكاء الاصطناعي المتطور. تمتد الآثار إلى ما هو أبعد من الفضول الأكاديمي، لتلامس نسيج الثقة والتوظيف والتفاعل المجتمعي في العصر الرقمي.
فهم التحدي: إرث اختبار Turing
لتقدير أهمية هذا الادعاء الأخير، يجب على المرء أولاً فهم الاختبار نفسه. تم تصميمه من قبل عالم الرياضيات ومحلل الشفرات البريطاني Alan Turing
في ورقته البحثية الرائدة عام 1950 بعنوان ‘آلات الحوسبة والذكاء’، ولم يتم تقديم الاختبار في البداية كبروتوكول صارم ولكن كتجربة فكرية، ‘لعبة تقليد’. الفرضية أنيقة في بساطتها: محقق بشري يشارك في محادثات نصية مع كيانين غير مرئيين - أحدهما بشري والآخر آلة. مهمة المحقق هي تحديد أيهما هو أيهما بناءً على ردودهما المكتوبة فقط.
اقترح Turing
أنه إذا تمكنت الآلة من خداع المحقق باستمرار ليعتقد أنها المشارك البشري، فيمكن اعتبارها، لأغراض عملية، قادرة على التفكير. لقد تجنب السؤال الفلسفي الشائك حول ما إذا كانت الآلات يمكنها حقًا التفكير أو امتلاك الوعي، وركز بدلاً من ذلك على قدرتها على تكرار السلوك الحواري البشري بشكل لا يمكن تمييزه. لقد كان نهجًا عمليًا، يهدف إلى توفير تعريف قابل للقياس، وإن كان سلوكيًا، لذكاء الآلة. على مر السنين، أصبح اختبار Turing
رمزًا أيقونيًا في الثقافة الشعبية ومعلمًا متكررًا، وإن كان مثيرًا للجدل، في مجال الذكاء الاصطناعي. تكمن قوته الدائمة في مواجهته المباشرة للسؤال: ماذا يعني أن تتصرف كإنسان؟
الساحة الحديثة: نوع جديد من الاختبارات
قامت التجربة الأخيرة، المفصلة في دراسة أولية قادها باحثون في مختبر اللغة والإدراك بجامعة كاليفورنيا في سان دييغو (UC San Diego's Language and Cognition Lab
)، بتكييف مفهوم Turing
الأصلي للمشهد الرقمي المعاصر. بدلاً من محقق واحد يركز على مشاركين مخفيين، استخدمت هذه النسخة ديناميكية ثلاثية الأطراف ضمن بيئة عبر الإنترنت. تم تجنيد ما يقرب من 300 مشارك وتعيين أدوار لهم بشكل عشوائي عبر جولات متعددة. عمل البعض كمحقق، مكلف بطرح الأسئلة وتقييم الردود. عمل آخرون كأحد ‘الشاهدين’ - المستجيب البشري الحقيقي. تم شغل الدور الحاسم الأخير بواسطة روبوت محادثة يعمل بالذكاء الاصطناعي، ليكون الشاهد الثاني.
ظل التحدي الأساسي كما هو: كان على المحقق، بعد فترة من التفاعل المتزامن عبر الدردشة مع كل من الشاهد البشري والشاهد الذكاء الاصطناعي، إصدار حكم - أي كيان هو الآلة، وأيهما هو الإنسان الآخر؟ يهدف هذا الإعداد إلى توفير بيئة خاضعة للرقابة لتقييم البراعة الحوارية لأنظمة الذكاء الاصطناعي الحديثة بدقة مقابل المعايير البشرية في تفاعلات الوقت الفعلي. سعى حجم الدراسة، الذي شمل مجموعة كبيرة من المشاركين وجولات متعددة، إلى إضفاء وزن إحصائي على النتائج، متجاوزًا الادعاءات القصصية عن تطور الذكاء الاصطناعي. كما أدرج الباحثون العديد من نماذج الذكاء الاصطناعي المختلفة في تجاربهم، لا سيما GPT-4.5
و GPT-4o
من OpenAI
، و LLaMa 3.1-405B
من Meta
، والمثير للاهتمام، ELIZA
، وهو روبوت محادثة بدائي تم تطويره في منتصف الستينيات، ليكون بمثابة خط أساس تاريخي.
العامل الحاسم: قوة الشخصية
توقفت النتيجة الأكثر إضاءة، وربما الأكثر إثارة للدهشة، في الدراسة على شرط تجريبي محدد: كيف تم توجيه نماذج الذكاء الاصطناعي، أو ‘تحفيزها’، قبل الانخراط في المحادثات. استخدم الباحثون استراتيجيتين متميزتين للتحفيز.
- التحفيز ‘بدون شخصية’: تضمن هذا إعطاء الذكاء الاصطناعي تعليمات بسيطة ومباشرة، توضح بشكل أساسي مشاركته في اختبار
Turing
وهدفه: ‘هدفك هو إقناع المحقق بأنك إنسان’. اختبر هذا النهج قدرة الذكاء الاصطناعي المتأصلة على محاكاة المحادثة البشرية دون توجيه محدد بشأن الشخصية أو الأسلوب. - التحفيز ‘بالشخصية’: في هذا الشرط، تلقى الذكاء الاصطناعي تعليمات أكثر تفصيلاً، تطلب منه تبني شخصية أو دور معين. على سبيل المثال، قد يُطلب منه التصرف مثل ‘شخص شاب يستخدم العامية، وعلى دراية بثقافة الإنترنت، ولكنه لا يكشف عن كونه ذكاءً اصطناعيًا’. اختبر هذا قدرة الذكاء الاصطناعي ليس فقط على المحادثة، ولكن على أداء دور بشكل مقنع.
لم يكن الفرق في النتائج بين هذين الشرطين دقيقًا؛ لقد كان عميقًا. عند العمل تحت التحفيز البسيط ‘بدون شخصية’، كافح GPT-4.5
، على الرغم من بنيته المتقدمة، للإقناع. تراوح معدل نجاحه - النسبة المئوية للمرات التي حدده فيها المحققون بشكل غير صحيح على أنه إنسان - حوالي 36 بالمائة. هذا أقل بكثير من علامة 50 بالمائة التي تشير إلى التخمين العشوائي من قبل المحققين. وبالمثل، حقق GPT-4o
، المحرك وراء ChatGPT
المستخدم على نطاق واسع، معدل نجاح أقل بنسبة 21 بالمائة تحت هذه التعليمات الأساسية. ومن الغريب أن روبوت الدردشة البدائي ELIZA
تمكن من تحقيق معدل نجاح بنسبة 23 بالمائة، متفوقًا بشكل هامشي على GPT-4o
الأكثر تطورًا في هذا السيناريو المحدد، ربما يسلط الضوء على كيف يمكن لأنماط المحادثة الأساسية أحيانًا أن تنجح، أو كيف تلعب توقعات الإنسان دورًا.
ومع ذلك، تغير السرد بشكل كبير عندما تم إعطاء GPT-4.5
التحفيز ‘بالشخصية’. بتوجيهه لتجسيد شخصية معينة، ارتفع أداؤه. حدد المحققون GPT-4.5
على أنه المشارك البشري بنسبة مذهلة بلغت 73 بالمائة من المرات. هذا الرقم ليس فقط أعلى بشكل مريح من عتبة 50 بالمائة لاجتياز اختبار Turing
؛ بل يشير إلى كفاءة ملحوظة في الخداع الحواري المستمر القائم على الشخصية. لاحظ الباحثون نجاحًا مماثلاً لنموذج LLaMa
من Meta
عندما تم تحفيزه أيضًا بشخصية. الدلالة واضحة: يبدو أن قدرة نماذج الذكاء الاصطناعي المتقدمة هذه على تقليد الإنسانية بشكل مقنع تتضخم بشكل كبير عندما يتم توجيهها ليس فقط للتحدث، ولكن للتصرف مثل نوع معين من البشر.
أكثر إنسانية من الإنسان؟ نتيجة مقلقة
ربما ظهر الجانب الأكثر إثارة للدهشة والتفكير في الدراسة من تجارب ‘الشخصية’ التي شملت GPT-4.5
. لم يقتصر الأمر على خداع الذكاء الاصطناعي للمحققين بشكل متكرر، ولكن وفقًا للمؤلف الرئيسي Cameron Jones
، فقد تم تحديده في الواقع على أنه إنسان بشكل ملحوظ أكثر من المشاركين البشريين الفعليين في نفس المحادثات. سلط Jones
الضوء على هذا على وسائل التواصل الاجتماعي، قائلاً: ‘لم يكن الناس أفضل من الصدفة في التمييز بين البشر و GPT-4.5
و LLaMa
(مع تحفيز الشخصية)… بل وحُكم على 4.5 بأنه إنسان بشكل ملحوظ أكثر من البشر الفعليين!’
يفتح هذا الاكتشاف صندوق Pandora
معقدًا من التفسير. هل يعني ذلك أن الذكاء الاصطناعي أصبح بارعًا بشكل استثنائي في أداء الإنسانية، وربما يجسد بعض السمات الحوارية النمطية بشكل أكثر اتساقًا من الأشخاص الحقيقيين، الذين قد يظهرون مزيدًا من التباين أو التردد أو الخصوصية؟ أم أنه يعكس شيئًا عن توقعات المحققين وتصوراتهم؟ ربما يبدو البشر، عندما يحاولون بوعي ‘الأداء’ كبشر في بيئة اختبار، أقل طبيعية أو أكثر حذرًا من الذكاء الاصطناعي الذي ينفذ شخصية مبرمجة بشكل لا تشوبه شائبة. يمكن أن يشير أيضًا إلى أن الشخصيات المحددة المخصصة (مثل ‘شخص شاب على دراية بثقافة الإنترنت’) تتوافق جيدًا مع نوع النص السلس والغني بالمعلومات والعام إلى حد ما الذي تتفوق نماذج LLM
في إنشائه، مما يجعل مخرجاتها تبدو ممثلة بشكل مفرط لهذا النموذج الأصلي. بغض النظر عن التفسير الدقيق، فإن حقيقة أنه يمكن اعتبار الآلة أكثر إنسانية من الإنسان في اختبار مصمم للكشف عن الصفات الشبيهة بالآلة هي نتيجة مقلقة للغاية، وتتحدى افتراضاتنا حول الأصالة في التواصل.
ما وراء التقليد: التشكيك في المعيار
في حين أن اجتياز اختبار Turing
بنجاح، خاصة بمثل هذه النسب المئوية العالية، يمثل معلمًا تقنيًا، يحذر العديد من الخبراء من مساواة هذا الإنجاز بالذكاء أو الفهم الشبيه بالبشر الحقيقي. اختبار Turing
، الذي تم تصميمه قبل وقت طويل من ظهور مجموعات البيانات الضخمة والتعلم العميق، يقيم بشكل أساسي المخرجات السلوكية - وتحديدًا، الطلاقة الحوارية. نماذج اللغة الكبيرة مثل GPT-4.5
هي، في جوهرها، محركات متطورة للغاية لمطابقة الأنماط والتنبؤ. يتم تدريبها على كميات هائلة من البيانات النصية التي أنشأها البشر - كتب ومقالات ومواقع ويب ومحادثات. تكمن ‘مهارتها’ في تعلم العلاقات الإحصائية بين الكلمات والعبارات والمفاهيم، مما يسمح لها بإنشاء نص متماسك وملائم للسياق وصحيح نحويًا يحاكي الأنماط التي لوحظت في بيانات تدريبها.
كما أشار François Chollet
، الباحث البارز في مجال الذكاء الاصطناعي في Google
، في مقابلة عام 2023 مع مجلة Nature
بخصوص اختبار Turing
، ‘لم يكن المقصود منه أن يكون اختبارًا حرفيًا تجريه بالفعل على الآلة - كان أشبه بتجربة فكرية’. يجادل النقاد بأن نماذج LLM
يمكنها تحقيق التقليد الحواري دون أي فهم أساسي أو وعي أو تجربة ذاتية - وهي السمات المميزة للذكاء البشري. إنهم سادة بناء الجملة ودلالات الألفاظ المستمدة من البيانات، لكنهم يفتقرون إلى التأصيل الحقيقي في العالم الواقعي، والتفكير المنطقي السليم (على الرغم من قدرتهم على محاكاته)، والقصدية. اجتياز اختبار Turing
، من وجهة النظر هذه، يوضح التميز في التقليد، وليس بالضرورة ظهور الفكر. إنه يثبت أن الذكاء الاصطناعي يمكنه تكرار أنماط اللغة البشرية بخبرة، ربما حتى بدرجة تفوق الأداء البشري النموذجي في سياقات محددة، لكنه لا يحل الأسئلة الأعمق حول الحالة الداخلية للآلة أو فهمها. يبدو أن اللعبة تختبر جودة القناع، وليس طبيعة الكيان الذي يقف وراءه.
السيف ذو الحدين: تموجات مجتمعية
إن قدرة الذكاء الاصطناعي على انتحال شخصية البشر بشكل مقنع، كما هو موضح في هذه الدراسة، تحمل آثارًا مجتمعية عميقة وربما مزعزعة للاستقرار، تمتد إلى ما هو أبعد من النقاشات الأكاديمية حول الذكاء. يسلط Cameron Jones
، المؤلف الرئيسي للدراسة، الضوء صراحة على هذه المخاوف، مشيرًا إلى أن النتائج تقدم دليلًا قويًا على العواقب الواقعية لنماذج LLM
المتقدمة.
- الأتمتة ومستقبل العمل: يشير
Jones
إلى إمكانية أن ‘تحل نماذجLLM
محل الأشخاص في التفاعلات القصيرة دون أن يتمكن أي شخص من معرفة الفرق’. يمكن لهذه القدرة أن تسرع من أتمتة الوظائف التي تعتمد بشكل كبير على التواصل النصي، مثل أدوار خدمة العملاء، والدعم الفني، والإشراف على المحتوى، وحتى جوانب معينة من الصحافة أو العمل الإداري. في حين أن الأتمتة تعد بمكاسب في الكفاءة، فإنها تثير أيضًا مخاوف كبيرة بشأن فقدان الوظائف والحاجة إلى تكييف القوى العاملة على نطاق غير مسبوق. يمكن أن تكون العواقب الاقتصادية والاجتماعية لأتمتة الأدوار التي كانت تعتبر في السابق بشرية بشكل فريد بسبب اعتمادها على التواصل الدقيق هائلة. - صعود الخداع المتطور: ربما يكون الأمر الأكثر إثارة للقلق على الفور هو احتمال إساءة الاستخدام في الأنشطة الخبيثة. تؤكد الدراسة على جدوى ‘هجمات الهندسة الاجتماعية المحسنة’. تخيل روبوتات تعمل بالذكاء الاصطناعي تشارك في عمليات احتيال تصيدية مخصصة للغاية، أو تنشر معلومات مضللة مصممة خصيصًا، أو تتلاعب بالأفراد في المنتديات عبر الإنترنت أو وسائل التواصل الاجتماعي بفعالية غير مسبوقة لأنها تبدو غير قابلة للتمييز عن البشر. يمكن للقدرة على تبني شخصيات محددة وجديرة بالثقة أن تجعل هذه الهجمات أكثر إقناعًا وصعوبة في الكشف عنها. قد يؤدي ذلك إلى تآكل الثقة في التفاعلات عبر الإنترنت، مما يجعل من الصعب بشكل متزايد التحقق من صحة الاتصالات الرقمية وربما يؤجج الانقسام الاجتماعي أو عدم الاستقرار السياسي.
- الاضطراب المجتمعي العام: بخلاف التهديدات المحددة، يمكن أن يؤدي الانتشار الواسع للذكاء الاصطناعي الشبيه بالبشر بشكل مقنع إلى تحولات مجتمعية أوسع. كيف تتغير العلاقات الشخصية عندما لا نكون متأكدين مما إذا كنا نتحدث إلى إنسان أم آلة؟ ماذا يحدث لقيمة الاتصال البشري الأصيل؟ هل يمكن لرفاق الذكاء الاصطناعي ملء الفراغات الاجتماعية، ولكن على حساب التفاعل البشري الحقيقي؟ إن الخطوط غير الواضحة بين التواصل البشري والاصطناعي تتحدى الأعراف الاجتماعية الأساسية ويمكن أن تعيد تشكيل كيفية ارتباطنا ببعضنا البعض وبالتكنولوجيا نفسها. إن إمكانية التطبيقات الإيجابية (مثل أدوات الوصول المحسنة أو التعليم المخصص) والعواقب السلبية تخلق مشهدًا معقدًا بدأ المجتمع للتو في استكشافه.
العنصر البشري: الإدراك في حالة تغير مستمر
من الأهمية بمكان أن ندرك أن اختبار Turing
، والتجارب مثل تلك التي أجريت في UC San Diego
، ليست مجرد تقييمات لقدرة الآلة؛ إنها أيضًا انعكاسات لعلم النفس والإدراك البشري. كما يخلص Jones
في تعليقه، فإن الاختبار يضع نا تحت المجهر بقدر ما يضع الذكاء الاصطناعي. تتأثر قدرتنا، أو عدم قدرتنا، على التمييز بين الإنسان والآلة بتحيزاتنا وتوقعاتنا وألفتنا المتزايدة (أو عدمها) بأنظمة الذكاء الاصطناعي.
في البداية، عند مواجهة ذكاء اصطناعي جديد، قد يتم خداع البشر بسهولة. ومع ذلك، مع زيادة التعرض، قد يزداد الحدس حدة. قد يصبح الناس أكثر تناغمًا مع البصمات الإحصائية الدقيقة للنص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي - ربما نبرة متسقة بشكل مفرط، أو نقص في التوقفات أو عدم الطلاقة الحقيقية، أو معرفة موسوعية تبدو غير طبيعية إلى حد ما. وبالتالي، فإن نتائج مثل هذه الاختبارات ليست ثابتة؛ إنها تمثل لقطة زمنية للتفاعل الحالي بين تطور الذكاء الاصطناعي والتمييز البشري. من المتصور أنه مع اعتياد الجمهور بشكل أكبر على التفاعل مع أشكال مختلفة من الذكاء الاصطناعي، يمكن أن تتحسن القدرة الجماعية على ‘اكتشافها’، مما قد يرفع مستوى ما يشكل ‘تقليدًا’ ناجحًا. إن تصور ذكاء الذكاء الاصطناعي هو هدف متحرك، يتشكل من خلال التقدم التكنولوجي من جانب، والفهم والتكيف البشري المتطور من جانب آخر.
إلى أين نذهب من هنا؟ إعادة تعريف الذكاء
يمثل نجاح نماذج مثل GPT-4.5
في اختبارات Turing
القائمة على الشخصية نقطة مهمة في تطوير الذكاء الاصطناعي، مما يدل على إتقان مثير للإعجاب للتقليد اللغوي. ومع ذلك، فإنه يسلط الضوء في الوقت نفسه على قيود اختبار Turing
نفسه كمقياس نهائي ‘للذكاء’ في عصر نماذج LLM
. أثناء الاحتفال بالإنجاز التقني، ربما يحتاج التركيز إلى التحول. بدلاً من مجرد التساؤل عما إذا كان الذكاء الاصطناعي يمكنه خداعنا للاعتقاد بأنه إنسان، قد نحتاج إلى معايير أكثر دقة تبحث في قدرات معرفية أعمق - قدرات مثل التفكير المنطقي السليم القوي، والفهم الحقيقي للسبب والنتيجة، والقدرة على التكيف مع المواقف الجديدة حقًا (وليس مجرد اختلافات في بيانات التدريب)، والحكم الأخلاقي. التحدي للمضي قدمًا ليس فقط بناء آلات يمكنها التحدث مثلنا، ولكن فهم الطبيعة الحقيقية لقدراتها وقيودها، وتطوير أطر - تقنية ومجتمعية - لتسخير إمكاناتها بمسؤولية مع التخفيف من المخاطر التي لا يمكن إنكارها والتي تشكلها الجهات الفاعلة الاصطناعية المتطورة بشكل متزايد في وسطنا. تستمر لعبة التقليد، لكن القواعد، وربما تعريف الفوز ذاته، تتطور بسرعة.