فهم الظاهرة
تسلط الاختبارات الداخلية لـ OpenAI، كما هو مفصل في ورقة بحثية حديثة، الضوء على زيادة كبيرة في معدلات الهلوسة في نماذج مثل o3 و o4-mini. تم تصميم هذه النماذج بقدرات متقدمة للاستنتاج والوسائط المتعددة، وتمثل أحدث ما توصلت إليه تكنولوجيا الذكاء الاصطناعي. يمكنهم إنشاء صور، وإجراء عمليات بحث على الويب، وأتمتة المهام، وتذكر المحادثات السابقة، وحل المشكلات المعقدة. ومع ذلك، يبدو أن هذه التطورات تأتي بتكلفة.
لتحديد مدى هذه الهلوسات كميًا، تستخدم OpenAI اختبارًا محددًا يسمى PersonQA. يتضمن هذا الاختبار تغذية النموذج بمجموعة من الحقائق حول مختلف الأفراد ثم طرح أسئلة حول هؤلاء الأفراد. ثم يتم تقييم دقة النموذج بناءً على قدرته على تقديم إجابات صحيحة.
في التقييمات السابقة، حقق نموذج o1 معدل دقة جدير بالثناء بنسبة 47٪ مع معدل هلوسة لا يتجاوز 16٪. ومع ذلك، عندما تم إخضاع o3 و o4-mini لنفس التقييم، كانت النتائج مختلفة بشكل ملحوظ.
كان من المتوقع أن يُظهر نموذج o4-mini، كونه متغيرًا أصغر حجمًا مع معرفة أقل بالعالم، معدل هلوسة أعلى. ومع ذلك، كان المعدل الفعلي البالغ 48٪ مرتفعًا بشكل مدهش، مع الأخذ في الاعتبار أن o4-mini هو منتج متاح تجاريًا يستخدم على نطاق واسع لعمليات البحث على الويب واسترجاع المعلومات.
أظهر نموذج o3 بالحجم الكامل أيضًا ميلًا مقلقًا للهلوسة. في 33٪ من استجاباته، قام النموذج بتلفيق المعلومات، مما ضاعف فعليًا معدل هلوسة نموذج o1. على الرغم من ذلك، حقق o3 أيضًا معدل دقة مرتفعًا، وهو ما تعزوه OpenAI إلى ميله لتقديم المزيد من الادعاءات بشكل عام.
تعريف الهلوسات
يشير مصطلح ‘هلوسة’ في سياق الذكاء الاصطناعي، إلى ميل النموذج إلى إنشاء استجابات غير صحيحة من الناحية الواقعية أو غير منطقية دون أي مصدر أو مبرر واضح. هذه ليست مجرد أخطاء ناجمة عن بيانات سيئة أو سوء تفسير. بدلاً من ذلك، تمثل الهلوسات عيبًا أساسيًا في عملية استنتاج النموذج.
في حين أن المعلومات غير الدقيقة يمكن أن تنشأ بالتأكيد من مصادر مختلفة، مثل إدخالات ويكيبيديا أو سلاسل Reddit، فإن هذه الحالات أشبه بأخطاء قابلة للتتبع يمكن أن تُعزى إلى نقاط بيانات محددة. من ناحية أخرى، تتميز الهلوسات باختراع نموذج الذكاء الاصطناعي للحقائق في لحظات عدم اليقين، وهي ظاهرة أطلق عليها بعض الخبراء اسم ‘ملء الفجوات الإبداعي’.
لتوضيح هذه النقطة، ضع في اعتبارك السؤال، ‘ما هي نماذج iPhone 16 السبعة المتاحة الآن؟’ نظرًا لأن Apple وحدها هي التي تعرف ماهية iPhone التالي، فمن المحتمل أن يقدم LLM بعض الإجابات الحقيقية - ثم يقوم بتكوين نماذج إضافية لإنهاء المهمة. هذا مثال واضح على الهلوسة، حيث يقوم النموذج بتلفيق المعلومات لإكمال المهمة، أو ما يشار إليه باسم ‘ملء الفجوات الإبداعي’.
دور بيانات التدريب
يتم تدريب روبوتات المحادثة مثل ChatGPT على كميات هائلة من بيانات الإنترنت. هذه البيانات تُعلم محتوى استجاباتهم ولكنها تشكل أيضًا كيفية استجابتهم. تتعرض النماذج لعدد لا يحصى من الأمثلة للاستعلامات والاستجابات المثالية المطابقة، مما يعزز نغمات ومواقف ومستويات معينة من اللباقة.
يمكن أن تساهم عملية التدريب هذه عن غير قصد في مشكلة الهلوسات. يتم تشجيع النماذج على تقديم استجابات واثقة تعالج السؤال مباشرة. يمكن أن يؤدي ذلك إلى إعطائهم الأولوية للإجابة على السؤال، حتى لو اضطروا إلى اختراع معلومات للقيام بذلك، بدلاً من الاعتراف بأنهم لا يعرفون الإجابة.
باختصار، قد تكافئ عملية التدريب عن غير قصد الاستجابات الواثقة والتي تبدو واسعة المعرفة، حتى لو كانت غير صحيحة من الناحية الواقعية. يمكن أن يخلق هذا تحيزًا تجاه توليد الإجابات، بغض النظر عن دقتها، مما قد يؤدي إلى تفاقم مشكلة الهلوسات.
طبيعة أخطاء الذكاء الاصطناعي
من المغري إجراء مقارنات بين أخطاء الذكاء الاصطناعي والأخطاء البشرية. بعد كل شيء، البشر ليسوا معصومين من الخطأ، ولا ينبغي أن نتوقع أن يكون الذكاء الاصطناعي مثاليًا أيضًا. ومع ذلك، من الأهمية بمكان أن ندرك أن أخطاء الذكاء الاصطناعي تنبع من عمليات مختلفة تمامًا عن الأخطاء البشرية.
نماذج الذكاء الاصطناعي لا تكذب، أو تطور سوء فهم، أو تنسى المعلومات بنفس الطريقة التي يفعل بها البشر. إنهم يفتقرون إلى القدرات المعرفية والوعي السياقي الذي يقوم عليه التفكير البشري. بدلاً من ذلك، فإنها تعمل بناءً على الاحتمالات، وتتوقع الكلمة التالية في الجملة بناءً على الأنماط التي لوحظت في بيانات التدريب الخاصة بهم.
هذا النهج الاحتمالي يعني أن نماذج الذكاء الاصطناعي لا تمتلك فهمًا حقيقيًا للدقة أو عدم الدقة. إنهم ببساطة ينشئون التسلسل الأكثر احتمالاً للكلمات بناءً على العلاقات الإحصائية التي تعلموها من بيانات التدريب الخاصة بهم. يمكن أن يؤدي ذلك إلى إنشاء استجابات متماسكة على ما يبدو ولكنها، في الواقع، غير صحيحة من الناحية الواقعية.
في حين أن النماذج يتم تغذيتها بقيمة الإنترنت بأكمله من المعلومات، إلا أنها لا تُخبر بالمعلومات الجيدة أو السيئة، أو الدقيقة أو غير الدقيقة - فهي لا تُخبرهم بأي شيء. ليس لديهم معرفة تأسيسية موجودة أو مجموعة من المبادئ الأساسية لمساعدتهم على فرز المعلومات بأنفسهم أيضًا. إنها مجرد لعبة أرقام - أنماط الكلمات الموجودة بشكل متكرر في سياق معين تصبح ‘حقيقة’ LLM.
معالجة التحدي
يشكل المعدل المتزايد للهلوسات في نماذج الذكاء الاصطناعي المتقدمة تحديًا كبيرًا. تعمل OpenAI ومطورو الذكاء الاصطناعي الآخرون بنشاط لفهم هذه المشكلة والتخفيف من حدتها. ومع ذلك، فإن الأسباب الكامنة وراء الهلوسات ليست مفهومة تمامًا، وإيجاد حلول فعالة لا يزال جهدًا مستمرًا.
أحد الاحتمالات هو تحسين جودة وتنوع بيانات التدريب. من خلال تعريض النماذج لمعلومات أكثر دقة وشمولية، يمكن للمطورين تقليل احتمالية تعلمهم ونشرهم لمعلومات خاطئة.
هناك نهج آخر يتمثل في تطوير تقنيات أكثر تطوراً لاكتشاف ومنع الهلوسات. يمكن أن يتضمن ذلك تدريب النماذج على التعرف على متى تكون غير متأكدة بشأن جزء معين من المعلومات والامتناع عن تقديم ادعاءات دون دليل كافٍ.
في غضون ذلك، قد تحتاج OpenAI إلى اتباع حل قصير الأجل بالإضافة إلى مواصلة أبحاثها في السبب الجذري. بعد كل شيء، هذه النماذج هي منتجات مدرة للدخل ويجب أن تكون في حالة قابلة للاستخدام. تتمثل إحدى الأفكار في إنشاء نوع من المنتجات المجمعة - واجهة دردشة لديها إمكانية الوصول إلى نماذج OpenAI المختلفة.
عندما يتطلب الاستعلام استنتاجًا متقدمًا، فإنه سيستدعي GPT-4o، وعندما يريد تقليل فرص الهلوسات، فإنه سيستدعي نموذجًا أقدم مثل o1. ربما ستتمكن الشركة من أن تكون أكثر روعة واستخدام نماذج مختلفة للعناية بالعناصر المختلفة لاستعلام واحد، ثم استخدام نموذج إضافي لربط كل شيء معًا في النهاية. نظرًا لأن هذا سيكون بشكل أساسي عملًا جماعيًا بين نماذج الذكاء الاصطناعي المتعددة، فربما يمكن تنفيذ نوع من نظام التحقق من الحقائق أيضًا.
إن رفع معدلات الدقة ليس هو الهدف الرئيسي. الهدف الرئيسي هو خفض معدلات الهلوسة، مما يعني أننا بحاجة إلى تقدير الاستجابات التي تقول ‘لا أعرف’ بالإضافة إلى الاستجابات التي تحتوي على الإجابات الصحيحة.
أهمية التحقق من الحقائق
تؤكد الزيادة المتزايدة في الهلوسات في نماذج الذكاء الاصطناعي على أهمية التحقق من الحقائق. في حين أن هذه النماذج يمكن أن تكون أدوات قيمة لاسترجاع المعلومات وأتمتة المهام، إلا أنه لا ينبغي التعامل معها على أنها مصادر معصومة من الخطأ للحقيقة.
يجب على المستخدمين دائمًا توخي الحذر عند تفسير مخرجات نماذج الذكاء الاصطناعي ويجب عليهم التحقق بشكل مستقل من أي معلومات يتلقونها. هذا أمر بالغ الأهمية بشكل خاص عند التعامل مع المسائل الحساسة أو التبعية.
من خلال تبني نهج نقدي ومتشكك تجاه المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، يمكننا التخفيف من المخاطر المرتبطة بالهلوسات والتأكد من أننا نتخذ قرارات مستنيرة بناءً على معلومات دقيقة. إذا كنت مهتمًا جدًا بـ LLMs، فليست هناك حاجة للتوقف عن استخدامها - ولكن لا تدع الرغبة في توفير الوقت تتغلب على الحاجة إلى التحقق من نتائج الحقائق. تحقق دائمًا من الحقائق!
الآثار المترتبة على مستقبل الذكاء الاصطناعي
يمثل تحدي الهلوسات آثارًا كبيرة على مستقبل الذكاء الاصطناعي. نظرًا لأن نماذج الذكاء الاصطناعي أصبحت أكثر اندماجًا في حياتنا، فمن الضروري أن تكون موثوقة وجديرة بالثقة. إذا كانت نماذج الذكاء الاصطناعي عرضة لإنشاء معلومات خاطئة أو مضللة، فقد يؤدي ذلك إلى تآكل ثقة الجمهور وإعاقة اعتمادها على نطاق واسع.
إن معالجة مشكلة الهلوسات ليست ضرورية لتحسين دقة نماذج الذكاء الاصطناعي فحسب، بل أيضًا لضمان استخدامها الأخلاقي والمسؤول. من خلال تطوير أنظمة الذكاء الاصطناعي الأقل عرضة للهلوسات، يمكننا تسخير إمكاناتهم من أجل الخير مع التخفيف من مخاطر المعلومات الخاطئة والخداع.