فك شفرة اختبار تورينج
جوهر اختبار تورينج بسيط بشكل ملحوظ.
تم تصوره بواسطة عالم الرياضيات البريطاني آلان تورينج، وهو شخصية رائدة في علوم الكمبيوتر، وتعتبر “لعبة التقليد”، كما كانت تُعرف في البداية، بمثابة اختبار حاسم لذكاء الآلة. يتضمن اختبار تورينج مُقيِّمًا بشريًا يشارك في محادثات مع كل من الإنسان والآلة، دون معرفة أيهما. إذا لم يتمكن المُقيِّم من تمييز الآلة عن الإنسان، فيُعتبر أن الآلة قد اجتازت اختبار تورينج. في بيئة بحثية، يتم إجراء هذا الاختبار عدة مرات مع مُقيِّمين متنوعين.
من الأهمية بمكان إدراك أن هذا الاختبار لا يتحقق بشكل قاطع مما إذا كان النموذج اللغوي الكبير (LLM) يمتلك نفس مستوى الذكاء الذي يمتلكه الإنسان. بدلاً من ذلك، فإنه يقيم قدرة النموذج اللغوي الكبير (LLM) على انتحال شخصية الإنسان بشكل مقنع.
عملية التفكير في النماذج اللغوية الكبيرة
بطبيعتها، تفتقر النماذج اللغوية الكبيرة إلى الدماغ المادي أو الوعي أو الفهم الشامل للعالم. إنها خالية من الوعي الذاتي ولا تمتلك آراء أو معتقدات حقيقية.
يتم تدريب هذه النماذج على مجموعات بيانات واسعة تشمل مجموعة واسعة من مصادر المعلومات، بما في ذلك الكتب والمقالات عبر الإنترنت والمستندات والنصوص. عندما يقدم المستخدم مدخلات نصية، يستخدم نموذج الذكاء الاصطناعي قدراته في “الاستدلال” لتمييز المعنى المحتمل والنوايا الكامنة وراء الإدخال. بعد ذلك، ينشئ النموذج استجابة بناءً على هذا التفسير.
في جوهرها، تعمل النماذج اللغوية الكبيرة كمحركات متطورة للتنبؤ بالكلمات. من خلال الاستفادة من بيانات التدريب المكثفة الخاصة بهم، فإنهم يحسبون الاحتمالات الخاصة بـ “الرمز” الأولي (عادةً ما تكون كلمة واحدة) للاستجابة، بالاعتماد على مفرداتهم. تستمر هذه العملية التكرارية حتى يتم صياغة استجابة كاملة. في حين أن هذا التفسير مبسط، إلا أنه يلتقط جوهر كيفية إنشاء النماذج اللغوية الكبيرة للاستجابات بناءً على الاحتمالات الإحصائية بدلاً من الفهم الحقيقي للعالم.
لذلك، من غير الدقيق الإيحاء بأن النماذج اللغوية الكبيرة “تفكر” بالمعنى التقليدي.
الأدلة التجريبية: ChatGPT واختبار تورينج
استكشفت العديد من الدراسات أداء ChatGPT في اختبار تورينج، مع تحقيق العديد منها نتائج إيجابية. وقد دفع هذا بعض علماء الكمبيوتر إلى التأكيد على أن النماذج اللغوية الكبيرة مثل GPT-4 وGPT-4.5 قد تجاوزت الآن عتبة اختبار تورينج.
تركز معظم هذه التقييمات على نموذج GPT-4 الخاص بـ OpenAI، والذي يشغل غالبية تفاعلات ChatGPT. كشفت دراسة أجرتها جامعة كاليفورنيا في سان دييغو أن المقيمين البشريين كانوا في كثير من الأحيان غير قادرين على التمييز بين GPT-4 والإنسان. في هذه الدراسة، تم تحديد GPT-4 خطأً على أنه إنسان في 54٪ من الحالات. ومع ذلك، لا يزال هذا الأداء متخلفًا عن أداء البشر الفعليين، الذين تم تحديدهم بشكل صحيح على أنهم بشر بنسبة 67٪ من الوقت.
بعد إصدار GPT-4.5، قام الباحثون في جامعة كاليفورنيا في سان دييغو بتكرار الدراسة. هذه المرة، تم تحديد النموذج اللغوي الكبير على أنه إنسان في 73٪ من الحالات، متجاوزًا أداء البشر الفعليين. أشارت الدراسة أيضًا إلى أن LLaMa-3.1-405B التابع لـ Meta كان قادرًا على اجتياز الاختبار.
كما قامت دراسات مماثلة أجريت بشكل مستقل عن جامعة كاليفورنيا في سان دييغو بتعيين درجات النجاح لـ GPT. تضمنت دراسة أجريت عام 2024 من قبل جامعة ريدينغ GPT-4 الذي يولد استجابات لتقييمات الواجبات المنزلية للدورات الجامعية. كان المصححون غير مدركين للتجربة وأشاروا إلى مشاركة واحدة فقط من أصل 33 مشاركة. حصل ChatGPT على درجات أعلى من المتوسط للإدخالات الـ 32 المتبقية.
هل هذه الدراسات قاطعة؟ ليس تماما. يجادل بعض النقاد بأن هذه النتائج البحثية أقل إثارة للإعجاب مما تبدو عليه. يمنعنا هذا التشكيك من الإعلان بشكل قاطع بأن ChatGPT قد اجتاز اختبار تورينج.
ومع ذلك، فمن الواضح أنه في حين أن الأجيال السابقة من النماذج اللغوية الكبيرة، مثل GPT-4، اجتازت اختبار تورينج في بعض الأحيان، إلا أن النتائج الناجحة أصبحت سائدة بشكل متزايد مع استمرار تقدم النماذج اللغوية الكبيرة. مع ظهور نماذج متطورة مثل GPT-4.5، نقترب بسرعة من نقطة يمكن فيها للنماذج اجتياز اختبار تورينج باستمرار.
تتصور OpenAI مستقبلًا يصبح فيه التمييز بين الإنسان والذكاء الاصطناعي مستحيلاً. وينعكس هذا التصور في استثمار Sam Altman، الرئيس التنفيذي لشركة OpenAI، في مشروع للتحقق من الهوية البشرية يتضمن جهازًا لمسح مقلة العين يُعرف باسم The Orb.
تقييم ChatGPT الذاتي
عندما سُئل ChatGPT عما إذا كان بإمكانه اجتياز اختبار تورينج، أجاب بالإيجاب، وإن كان مع التحذيرات التي تمت مناقشتها بالفعل. عندما طُرح السؤال “هل يمكن لـ ChatGPT اجتياز اختبار تورينج؟” ذكر روبوت الدردشة بالذكاء الاصطناعي (باستخدام نموذج 4o) أن “ChatGPT يمكنه اجتياز اختبار تورينج في بعض السيناريوهات، ولكن ليس بشكل موثوق أو عالمي”. وخلص روبوت الدردشة إلى أنه “قد يجتاز اختبار تورينج مع مستخدم عادي في ظل ظروف غير رسمية، ولكن يمكن للمحقق المصمم والمفكر دائمًا تقريبًا أن يكشفه”.
قيود اختبار تورينج
يعتبر بعض علماء الكمبيوتر الآن أن اختبار تورينج قديم وذو قيمة محدودة في تقييم النماذج اللغوية الكبيرة. لخص غاري ماركوس، عالم النفس الأمريكي وعالم الإدراك والمؤلف والمعلق في مجال الذكاء الاصطناعي، هذا المنظور بإيجاز في منشور حديث على مدونة، قائلاً “كما قلت (وكثيرون آخرون) لسنوات، فإن اختبار تورينج هو اختبار لسذاجة الإنسان، وليس اختبارًا للذكاء”.
من المهم أيضًا أن نتذكر أن اختبار تورينج يركز على تصور الذكاء بدلاً من الذكاء الفعلي. هذا التمييز أمر بالغ الأهمية. قد يجتاز نموذج مثل ChatGPT 4o الاختبار ببساطة عن طريق تقليد كلام الإنسان. علاوة على ذلك، سيعتمد نجاح النموذج اللغوي الكبير (LLM) في الاختبار على موضوع المناقشة والمُقيِّم. قد يتفوق ChatGPT في المحادثات غير الرسمية ولكنه يعاني من تفاعلات تتطلب ذكاءً عاطفيًا حقيقيًا. علاوة على ذلك، يتم استخدام أنظمة الذكاء الاصطناعي الحديثة بشكل متزايد في تطبيقات تتجاوز المحادثة البسيطة، خاصةً مع انتقالنا نحو عالم الذكاء الاصطناعي الفعال.
هذا لا يعني أن اختبار تورينج غير ذي صلة تمامًا. لا يزال يمثل معيارًا تاريخيًا مهمًا، ومن الجدير بالذكر أن النماذج اللغوية الكبيرة قادرة على اجتيازه. ومع ذلك، فإن اختبار تورينج ليس المقياس المطلق لذكاء الآلة.
ما وراء اختبار تورينج: البحث عن معيار أفضل
في حين أن اختبار تورينج مهم تاريخيًا، إلا أنه يُنظر إليه بشكل متزايد على أنه مقياس غير كافٍ للذكاء الاصطناعي الحقيقي. إن تركيزه على تقليد المحادثة البشرية يتجاهل الجوانب الحاسمة للذكاء، مثل حل المشكلات والإبداع والقدرة على التكيف. كما أن اعتماد الاختبار على الخداع يثير مخاوف أخلاقية، لأنه يشجع أنظمة الذكاء الاصطناعي على التظاهر بصفات شبيهة بالإنسان بدلاً من تطوير ذكاء حقيقي.
الحاجة إلى مقاييس جديدة
مع تقدم تكنولوجيا الذكاء الاصطناعي، تزداد الحاجة إلى معايير أكثر شمولاً وملاءمة. يجب أن تعالج هذه المقاييس الجديدة أوجه القصور في اختبار تورينج وتقديم تقييم أكثر دقة لقدرات الذكاء الاصطناعي. تتضمن بعض التوجهات المحتملة للمعايير المستقبلية ما يلي:
- حل المشكلات في العالم الحقيقي: الاختبارات التي تتطلب من أنظمة الذكاء الاصطناعي حل مشكلات معقدة في العالم الحقيقي، مثل تصميم شبكة طاقة مستدامة أو تطوير علاج لمرض ما.
*المهام الإبداعية: التقييمات التي تقيس قدرة الذكاء الاصطناعي على إنشاء محتوى أصلي وخيالي، مثل كتابة رواية أو تأليف موسيقى أو إنشاء عمل فني. - القدرة على التكيف والتعلم: المقاييس التي تقيس قدرة الذكاء الاصطناعي على التعلم من التجارب الجديدة والتكيف مع البيئات المتغيرة.
- الاعتبارات الأخلاقية: التقييمات التي تقيم قدرة الذكاء الاصطناعي على اتخاذ قرارات أخلاقية وتجنب التحيزات.
أمثلة على المعايير الناشئة
تظهر العديد من المعايير الجديدة لمعالجة قيود اختبار تورينج. وتشمل هذه:
- تحدي مخطط Winograd: يركز هذا الاختبار على قدرة الذكاء الاصطناعي على فهم الضمائر الغامضة في الجمل.
- تحدي الاستدلال AI2: يقيم هذا المعيار قدرة الذكاء الاصطناعي على الاستدلال والإجابة على الأسئلة بناءً على نصوص معقدة.
- تحدي الاستدلال المنطقي السليم: يقيم هذا الاختبار فهم الذكاء الاصطناعي للمعرفة المنطقية السليمة وقدرته على استخلاص النتائج.
مستقبل تقييم الذكاء الاصطناعي
من المحتمل أن يتضمن مستقبل تقييم الذكاء الاصطناعي مجموعة من المعايير المختلفة، تم تصميم كل منها لتقييم جوانب محددة من الذكاء. يجب أن تتطور هذه المعايير باستمرار لمواكبة التطورات السريعة في تكنولوجيا الذكاء الاصطناعي. علاوة على ذلك، من الأهمية بمكان إشراك أصحاب المصلحة المتنوعين، بما في ذلك الباحثين وصناع السياسات وعامة الناس، في تطوير وتقييم معايير الذكاء الاصطناعي.
تجاوز التقليد
في نهاية المطاف، يجب أن يكون الهدف من البحث في مجال الذكاء الاصطناعي هو تطوير أنظمة ليست ذكية فحسب، بل مفيدة أيضًا للبشرية. يتطلب هذا تجاوز السعي وراء التقليد الشبيه بالإنسان والتركيز على تطوير أنظمة الذكاء الاصطناعي التي يمكنها حل مشاكل العالم الحقيقي وتعزيز الإبداع وتعزيز اتخاذ القرارات الأخلاقية. من خلال تبني معايير جديدة والتركيز على هذه الأهداف الأوسع، يمكننا إطلاق العنان للإمكانات الكاملة للذكاء الاصطناعي وإنشاء مستقبل يعمل فيه الذكاء الاصطناعي والبشر معًا لخلق عالم أفضل.