لعبة التقليد: هل أتقنت نماذج الذكاء الاصطناعي المحادثة؟

إن السعي لإنشاء آلات قادرة على التفكير، أو على الأقل التحاور، مثل البشر هو طموح طويل الأمد في مجال الذكاء الاصطناعي. لعقود من الزمن، كان المعيار، مهما كان موضع جدل، هو اختبار Turing Test، الذي ابتكره عالم الرياضيات اللامع Alan Turing في منتصف القرن العشرين. الفرضية بسيطة ولكنها عميقة: هل يمكن لآلة أن تتفاعل مع محقق بشري بشكل مقنع لدرجة أن القاضي لا يستطيع تمييزها بشكل موثوق عن إنسان آخر؟ تشير التطورات الأخيرة إلى أن بعض النماذج اللغوية الكبيرة (LLMs) الأكثر تطوراً قد وصلت، أو ربما تجاوزت، هذا الإنجاز المثير للاهتمام، مما أثار نقاشًا متجددًا حول طبيعة الذكاء والتقليد والمسار المستقبلي للذكاء الاصطناعي.

تمهيد المسرح: جولة جديدة من تحديات المحادثة

أعادت دراسة من جامعة كاليفورنيا سان دييغو هذا السؤال إلى دائرة الضوء بحدة. صمم الباحثان Cameron R. Jones و Benjamin K. Bergen نسخة معاصرة من اختبار Turing Test لتقييم براعة المحادثة لأنظمة الذكاء الاصطناعي المتطورة. وضعت تجربتهما المشاركين البشريين في مواجهة العديد من نماذج الذكاء الاصطناعي، بما في ذلك GPT-4.5 ذو السمعة العالية من OpenAI و LLaMa-3.1-405B الهائل من Meta. تضمن الإعداد قاضيًا بشريًا يشارك في محادثات نصية متزامنة مدتها خمس دقائق - واحدة مع مشارك بشري مخفي والأخرى مع نموذج ذكاء اصطناعي مخفي. بعد هذه التفاعلات القصيرة، كانت مهمة القاضي واضحة ومباشرة: تحديد أي شريك في المحادثة كان الآلة وأيهما كان الإنسان.

كانت النتائج، خاصة بالنسبة للنماذج التي طُلب منها تبني شخصية معينة، مذهلة.

  • أداء GPT-4.5: عندما طُلب منه التصرف كإنسان، أفادت التقارير أن GPT-4.5 خدع الحكام بنسبة مذهلة بلغت 73% من الوقت. هذا الرقم مهم لأنه يشير إلى أن الحكام كانوا أكثر ميلاً لتحديد الذكاء الاصطناعي على أنه إنسان من المشارك البشري الفعلي المشارك في المحادثة.
  • أداء LLaMa-3.1-405B: أظهر نموذج Meta الكبير، LLaMa-3.1-405B (حيث يشير 405B إلى العدد الهائل من المعلمات التي تشكل قدراته)، أداءً ذا مصداقية أيضًا في ظل نفس شرط ‘الشخصية’. تم تحديده على أنه إنسان 56% من الوقت. على الرغم من أن هذه النتيجة أقل من درجة GPT-4.5، إلا أنها لا تزال تضعه فوق عتبة 50% الحاسمة التي غالبًا ما تعتبر مؤشرًا على اجتياز الاختبار، مما يشير إلى أنه كان من الصعب إحصائيًا تمييز ردوده عن ردود المشاركين البشريين.
  • مقارنات خط الأساس: لتوفير السياق والتأكد من أن الحكام لم يكونوا يخمنون بشكل عشوائي، قام الباحثون بتضمين نماذج أساسية. تم تضمين ELIZA، وهو روبوت محادثة مبكر شهير من الستينيات صممه Joseph Weizenbaum في MIT، كعنصر تحكم. ليس من المستغرب أن يعكس أداؤه التطورات الهائلة في الذكاء الاصطناعي منذ إنشائه، حيث حقق تصنيف ‘بشري’ بنسبة 23% فقط. ومن المثير للاهتمام، أن GPT-4o، وهو نموذج أحدث من OpenAI تم إصداره في عام 2024، أدى أيضًا أداءً على مستوى أساسي مماثل في إعداد الاختبار المحدد هذا، حيث تم الحكم عليه بأنه بشري بنسبة 21% فقط من الوقت. وهذا يسلط الضوء على أن التكوينات المحددة أو التدريب أو ربما استراتيجية التلقين نفسها تلعب أدوارًا حاسمة في تحقيق أداء محادثة شبيه بالبشر.

تُعرف منهجية الدراسة، التي تستخدم هذا الإعداد ثلاثي الأطراف (قاضٍ، إنسان مخفي، ذكاء اصطناعي مخفي)، بصرامتها مقارنة ببعض المحاولات السابقة لتقييم الذكاء الاصطناعي مقابل معيار Turing. تهدف إلى إنشاء سيناريو أكثر تحديًا وواقعية لتقييم عدم قابلية التمييز في المحادثة.

قوة الشخصية: الذكاء الاصطناعي كممثل منهجي

كان العامل الحاسم الذي أثر على معدلات نجاح GPT-4.5 و LLaMa-3.1-405B في هذه الدراسة بالذات هو استخدام مطالبات ‘شخصية’ محددة. اختبر الباحثون النماذج مع وبدون تعليمات لتبني شخصية أو نبرة شبيهة بالبشر. تؤكد القفزة الكبيرة في الأداء عند تطبيق مطالبة الشخصية جانبًا رئيسيًا من النماذج اللغوية الكبيرة الحديثة: قدرتها الرائعة على تكييف مخرجاتها بناءً على التعليمات.

ماذا يعني ‘تبني شخصية’ بالنسبة للذكاء الاصطناعي؟ يعني أن النموذج يضبط:

  1. النبرة والأسلوب: تقليد اللغة العامية، واستخدام التعبيرات الاصطلاحية، أو حتى محاكاة التردد أو التفكير.
  2. تركيز المحتوى: الإشارة المحتملة إلى تجارب شخصية (وإن كانت ملفقة)، والتعبير عن الآراء، أو الانخراط في محادثات صغيرة ذات صلة بالشخصية المتبناة.
  3. نمط التفاعل: الاستجابة بطرق تبدو أكثر تفاعلية وأقل شبهاً بنظام استرجاع معلومات بحت.

تنبع هذه القدرة مباشرة من الطريقة التي يتم بها تدريب هذه النماذج. تتعلم النماذج اللغوية الكبيرة الأنماط والأساليب والمعلومات من مجموعات البيانات الهائلة التي يتم تغذيتها بها، والتي تتكون أساسًا من النصوص والرموز التي أنشأها البشر عبر الإنترنت والأدب الرقمي. عندما يُطلب منه التصرف كنوع معين من الأشخاص، يعتمد النموذج على الأمثلة الواسعة للمحادثة البشرية ضمن بيانات التدريب الخاصة به والتي تتوافق مع تلك الشخصية. الأمر يتعلق بدرجة أقل بالشخصية الحقيقية وأكثر بتطابق الأنماط المتطورة وتوليدها.

هذا يؤدي إلى الفكرة، التي عبر عنها مراقبون مثل John Nosta، مؤسس مركز الأبحاث الابتكاري NostaLab، بأن ما نشهده ربما ليس بالضرورة ذكاءً اصطناعيًا بالمعنى البشري، بل هو تعاطف اصطناعي متقدم للغاية - أو على الأقل، محاكاة مقنعة له. الذكاء الاصطناعي لا يشعر بالتعاطف، لكنه تعلم الأنماط اللغوية المرتبطة بالتعبير عنه. يعتمد النجاح على التقليد السلوكي، وتصميم الاستجابات بأسلوب يتردد صداه كأنه بشري، خاصة خلال التفاعلات القصيرة مثل المحادثات التي استمرت خمس دقائق المستخدمة في الاختبار.

أبرز الباحثون أنفسهم هذه القدرة على التكيف: ‘يمكن القول إن السهولة التي يمكن بها مطالبة النماذج اللغوية الكبيرة بتكييف سلوكها مع سيناريوهات مختلفة هي التي تجعلها مرنة للغاية: وقادرة على ما يبدو على الظهور بمظهر بشري’. هذه المرونة سيف ذو حدين، فهي تتيح طلاقة محادثة رائعة بينما تثير في نفس الوقت تساؤلات حول الأصالة وإمكانية التلاعب.

إنجاز تاريخي أم مقياس معيب؟ إعادة تقييم اختبار Turing Test

بينما قد تعلن العناوين الرئيسية عن ‘اجتياز’ الذكاء الاصطناعي لاختبار Turing Test، فإن أهمية هذا الإنجاز تستدعي دراسة متأنية. هل إقناع غالبية الحكام في محادثة نصية قصيرة يعادل حقًا الذكاء على المستوى البشري؟ سيجادل معظم الخبراء، بما في ذلك مؤلفو الدراسة ضمنيًا، بـ لا.

اختبار Turing Test، الذي تم تصوره قبل وقت طويل من ظهور النماذج اللغوية الكبيرة المدربة على بيانات بحجم الإنترنت، يقيس بشكل أساسي أداء المحادثة، وليس القدرات المعرفية الأعمق مثل:

  • الفهم: هل يفهم الذكاء الاصطناعي حقًا الفروق الدقيقة والآثار المترتبة على المحادثة، أم أنه يتنبأ فقط بالكلمات التالية الأكثر احتمالاً إحصائيًا؟
  • الوعي: تظل التجربة الذاتية للوعي والفكر راسخة في عالم البشر (وربما الحياة البيولوجية الأخرى). لا تظهر نماذج الذكاء الاصطناعي الحالية أي دليل على امتلاكها.
  • الاستدلال: بينما يمكن للذكاء الاصطناعي أداء خطوات منطقية في مجالات محددة، فإن قدرته على الاستدلال للأغراض العامة، والحس السليم، وفهم السبب والنتيجة في المواقف الجديدة لا تزال محدودة مقارنة بالبشر.
  • النية: يتم إنشاء استجابات الذكاء الاصطناعي بناءً على الخوارزميات والبيانات؛ فهي تفتقر إلى المعتقدات أو الرغبات أو النوايا الحقيقية التي تقود تواصلها.

لذلك، فإن الحصول على درجة عالية في اختبار Turing Test يوضح أن الذكاء الاصطناعي يمكنه لعب لعبة التقليد بشكل جيد للغاية، خاصة عند توجيهه بمطالبات محددة. لقد تعلم توليد نص يتوافق بشكل وثيق مع أنماط المحادثة البشرية. تأملت Sinead Bovell، مؤسسة شركة تعليم التكنولوجيا Waye، في هذا الأمر، متسائلة عما إذا كان من المفاجئ حقًا أن يتفوق الذكاء الاصطناعي المدرب على ‘بيانات بشرية أكثر مما يمكن لأي شخص قراءته أو مشاهدته’ في النهاية في ‘أن يبدو بشريًا’.

يثير هذا سؤالًا أساسيًا: هل لا يزال اختبار Turing Test معيارًا ذا صلة أو كافيًا لتقدم الذكاء الاصطناعي في القرن الحادي والعشرين؟ يجادل البعض بأن تركيزه على الخداع من خلال المحادثة ضيق للغاية وربما مضلل. إنه لا يقيم بشكل كاف القدرات التي غالبًا ما نربطها بالذكاء الحقيقي، مثل حل المشكلات أو الإبداع أو الحكم الأخلاقي أو التكيف مع بيئات مادية أو مفاهيمية جديدة تمامًا.

السياق التاريخي مهم أيضًا. ظهرت ادعاءات باجتياز الذكاء الاصطناعي لاختبار Turing Test من قبل. في عام 2014، ورد أن روبوت محادثة يُدعى ‘Eugene Goostman’، مصمم لمحاكاة صبي أوكراني يبلغ من العمر 13 عامًا، أقنع 33% من الحكام خلال حدث اختبار مماثل. بينما أشاد البعض بهذا في ذلك الوقت، فإن معدل النجاح البالغ 33% لم يصل إلى عتبة 50% المذكورة بشكل شائع وتم تحقيقه باستخدام شخصية (مراهق غير ناطق باللغة الإنجليزية كلغة أم) يمكن أن تعذر الأخطاء النحوية أو فجوات المعرفة. مقارنة بالنتائج الأخيرة التي تجاوزت 50% ووصلت حتى إلى 73% مع نماذج أكثر تطوراً، فإن التقدم في الذكاء الاصطناعي للمحادثة لا يمكن إنكاره، لكن قيود الاختبار نفسه تظل ذات صلة.

نظرة خاطفة داخل المحرك: دوافع براعة المحادثة

الأداء المثير للإعجاب لنماذج مثل GPT-4.5 ليس عرضيًا؛ إنه نتيجة الابتكار المستمر والتحسين في تطوير الذكاء الاصطناعي، لا سيما في مجال النماذج اللغوية الكبيرة. تساهم عدة عوامل في قدرتها على توليد مثل هذا النص الشبيه بالبشر:

  1. مجموعات البيانات الضخمة: يتم تدريب النماذج اللغوية الكبيرة الحديثة على كميات هائلة حقًا من النصوص والرموز. يتيح لها هذا التعرض الواسع تعلم هياكل نحوية معقدة، ومفردات متنوعة، وفروق دقيقة في الأسلوب، ومعلومات واقعية (وإن لم تكن دقيقة دائمًا)، وتسلسلات محادثة شائعة.
  2. البنى المتطورة: تستخدم التكنولوجيا الأساسية، التي غالبًا ما تعتمد على بنية Transformer، آليات مثل ‘الانتباه’ التي تسمح للنموذج بتقييم أهمية الكلمات المختلفة في مطالبة الإدخال عند إنشاء مخرج. يساعد هذا في الحفاظ على السياق والتماسك على امتدادات أطول من النص.
  3. تقنيات التدريب المتقدمة: تُستخدم تقنيات مثل التعلم المعزز من ردود الفعل البشرية (RLHF) لضبط النماذج. يقوم البشر بتقييم استجابات الذكاء الاصطناعي المختلفة، وتوجيه النموذج نحو توليد مخرجات أكثر فائدة وغير ضارة وصادقة - وغالبًا ما تكون أكثر شبهاً بالصوت البشري.
  4. مقياس المعلمات: تتمتع النماذج مثل LLaMa-3.1-405B، بمئات المليارات من المعلمات، بقدرة أكبر على تخزين ومعالجة المعلومات المكتسبة أثناء التدريب، مما يتيح توليد نصوص أكثر تعقيدًا ودقة.
  5. الاحتفاظ بالسياق: تُظهر النماذج الأحدث قدرات محسنة على ‘تذكر’ الأجزاء السابقة من المحادثة، مما يؤدي إلى تفاعلات أكثر اتساقًا وملاءمة، وهو جانب رئيسي في الحوار البشري.
  6. الأسس متعددة الوسائط: البناء على أسلاف مثل GPT-4، الذي تضمن قدرات تتجاوز النص (مثل فهم الصور)، يمنح النماذج الأحدث تمثيلًا داخليًا أكثر ثراءً، حتى لو كان تفاعل الاختبار نصيًا بحتًا.

عندما قامت OpenAI بمعاينة GPT-4.5، علق الرئيس التنفيذي Sam Altman قائلاً: ‘إنه أول نموذج يبدو وكأنه التحدث إلى شخص مفكر بالنسبة لي’. على الرغم من كونه ذاتيًا، يعكس هذا الشعور القفزة النوعية في القدرة على المحادثة التي مكنتها هذه التطورات التقنية. ثم تعمل مطالبة الشخصية كرافعة قوية، حيث توجه هذه القدرات نحو تقليد أسلوب محادثة بشري معين مستمد من البيانات المكتسبة.

تموجات عبر الواقع: اعتبارات مجتمعية واقتصادية

إن إثبات أن الذكاء الاصطناعي يمكنه تقليد المحادثة البشرية بشكل مقنع، حتى لو لم يكن ذلك يعادل الذكاء الحقيقي، يحمل آثارًا كبيرة في العالم الحقيقي تمتد إلى ما هو أبعد من الاختبارات الأكاديمية. كما أشارت Sinead Bovell، فإن هذه التطورات لها ‘آثار اقتصادية واجتماعية كبيرة’ محتملة.

  • اضطراب سوق العمل: المجالات التي تعتمد بشكل كبير على التواصل هي مرشحة رئيسية لتكامل الذكاء الاصطناعي والإزاحة المحتملة. يمكن التعامل بشكل متزايد مع أدوار خدمة العملاء، وإنشاء المحتوى (كتابة المقالات، ونسخ التسويق)، وخدمات الترجمة، وحتى جوانب معينة من التدريس أو المساعدة الشخصية بواسطة روبوتات المحادثة المتطورة ووكلاء الذكاء الاصطناعي. إن الدفعة الأخيرة نحو ‘الذكاء الاصطناعي الوكيل’ (Agentic AI) - الأنظمة المصممة لأداء مهام سير العمل بشكل مستقل في مجالات مثل تحليل البيانات أو دعم المبيعات أو إدارة الرعاية الصحية - تكتسب زخمًا إضافيًا إذا كان بإمكان هؤلاء الوكلاء أيضًا التواصل بطلاقة شبيهة بالبشر.
  • العلاقات الإنسانية والثقة: مع تزايد براعة الذكاء الاصطناعي في تقليد التعاطف والشخصية، يمكن أن يغير ديناميكيات التفاعل البشري. هل سيشكل الناس روابط عاطفية مع رفقاء الذكاء الاصطناعي؟ كيف سنضمن الأصالة في التفاعلات عبر الإنترنت عندما يصبح التمييز بين الإنسان والذكاء الاصطناعي أكثر صعوبة؟ تزداد بشكل كبير احتمالية الخداع، سواء كان ذلك لعمليات الاحتيال أو نشر المعلومات المضللة أو التلاعب بالآراء.
  • صعود ‘التزييف الأعمق’: أعربت Susan Schneider، المديرة المؤسسة لمركز عقل المستقبل في FAU، عن مخاوفها بشأن المسار، متوقعة سيناريو ‘كابوس’ محتمل يتضمن ‘تزييفًا أعمق’ وحتى ‘حروب روبوتات المحادثة السيبرانية’. إذا كان بإمكان الذكاء الاصطناعي تقليد الأفراد بشكل مقنع في النص، فإن احتمالية انتحال الشخصية الخبيث تتصاعد بشكل كبير.
  • المواءمة الأخلاقية: سلطت Schneider الضوء أيضًا على القضية الحاسمة للمواءمة: ضمان تصرف أنظمة الذكاء الاصطناعي وفقًا للقيم الإنسانية. يمكن للذكاء الاصطناعي الذي يمكنه تقليد المحادثة البشرية تمامًا ولكنه يفتقر إلى بوصلة أخلاقية أو يعمل على بيانات متحيزة تم تعلمها أثناء التدريب أن يديم الصور النمطية الضارة أو يقدم توصيات غير أخلاقية، كل ذلك بينما يبدو معقولًا تمامًا. حقيقة أن هذه النماذج اجتازت الاختبار دون أن تكون بالضرورة ‘متوائمة بشكل صحيح’ هي نقطة قلق للعديد من الباحثين.

إن القدرة على ‘الاجتياز’ كمحادثة بشرية ليست مجرد فضول تقني؛ إنها تتقاطع مباشرة مع كيفية عملنا وتواصلنا وثقتنا وعلاقتنا ببعضنا البعض في عالم رقمي متزايد.

رسم المستقبل: ما وراء التقليد نحو القدرة الحقيقية

بينما تعد نتائج اختبار Turing Test الأخيرة التي تشمل GPT-4.5 و LLaMa-3.1 معالم بارزة في تاريخ تطوير الذكاء الاصطناعي، إلا أنها تسلط الضوء بشكل أساسي على التقدم المذهل في توليد اللغة الطبيعية والتقليد. الإجماع بين العديد من الخبراء هو أن التركيز يجب أن يتحول الآن نحو تطوير ذكاء اصطناعي يظهر فهمًا حقيقيًا واستدلالًا وسلوكًا أخلاقيًا، بدلاً من مجرد التفوق في تقليد المحادثة.

يستلزم هذا تجاوز اختبار Turing Test التقليدي نحو معايير وطرق تقييم جديدة. كيف يمكن أن تبدو هذه؟

  • اختبارات تركز على حل المشكلات المعقدة في المواقف الجديدة.
  • تقييمات للاستدلال المنطقي السليم القوي.
  • تقييمات لاتخاذ القرارات الأخلاقية في سيناريوهات غامضة.
  • مقاييس للإبداع والفكر الأصلي، وليس مجرد إعادة تجميع الأنماط الموجودة.
  • اختبارات تتطلب التخطيط طويل الأجل والتفكير الاستراتيجي.

الهدف النهائي للكثيرين في هذا المجال ليس فقط إنشاء محاورين مقنعين ولكن تطوير ذكاء اصطناعي يمكن أن يكون بمثابة أدوات موثوقة وجديرة بالثقة لحل مشاكل العالم الحقيقي وزيادة القدرات البشرية. كما أشارت الأفكار الختامية في التقرير الأصلي، من المرجح أن يكمن مستقبل الذكاء الاصطناعي بشكل أكبر في فائدته العملية - المساعدة في الاكتشاف العلمي، وتحسين الرعاية الصحية، وإدارة الأنظمة المعقدة - أكثر من قدرته على الدردشة بشكل مقنع فقط.

الرحلة نحو الذكاء الاصطناعي العام (AGI)، إذا كانت قابلة للتحقيق، طويلة ومعقدة. تعد المعالم مثل اجتياز اختبار Turing Test علامات مهمة على طول الطريق، مما يدل على قوة التقنيات الحالية. ومع ذلك، فهي تعمل أيضًا بمثابة تذكير حاسم بقيود مقاييسنا الحالية والأسئلة الأخلاقية والمجتمعية العميقة التي يجب أن نعالجها مع استمرار تطور هذه التقنيات القوية. ربما يكون للعبة التقليد أبطال جدد، لكن تحدي بناء ذكاء اصطناعي ذكي ومفيد ومتوافق حقًا قد بدأ للتو.