إضاءة المتاهة الداخلية: سعي Anthropic لفك تشفير LLMs

لغز الإدراك الاصطناعي: ما وراء الحساب

من المغري، بل يكاد يكون من المستحيل مقاومة، أن ننسب صفات بشرية للأنظمة المعقدة التي نسميها نماذج اللغة الكبيرة (LLMs). نتفاعل معها من خلال اللغة الطبيعية، وهي تولد نصوصًا متماسكة، وتترجم اللغات، بل وتنخرط في مساعٍ تبدو إبداعية. عند ملاحظة مخرجاتها، قد يعلق المرء عرضًا بأنها ‘تفكر’. ومع ذلك، فإن كشف الطبقات يكشف عن حقيقة بعيدة كل البعد عن الوعي البشري أو التفكير البيولوجي. في جوهرها، نماذج اللغة الكبيرة هي محركات إحصائية متطورة، بارعة في التعامل مع الأنماط المستمدة من مجموعات بيانات ضخمة. إنها تعمل ليس من خلال الفهم أو الإحساس، ولكن من خلال حسابات احتمالية معقدة.

تعمل هذه النماذج عن طريق تقسيم اللغة إلى وحدات أساسية، يشار إليها غالبًا باسم ‘tokens’. يمكن أن تكون هذه الـ tokens كلمات أو أجزاء من الكلمات أو حتى علامات ترقيم. من خلال عملية تعرف باسم التضمين (embedding)، يتم تعيين كل token إلى متجه عالي الأبعاد، وهو تمثيل رقمي يلتقط جوانب من معناه وعلاقته بالـ tokens الأخرى. يحدث السحر داخل البنية المعقدة، التي تتضمن عادةً محولات (transformers)، حيث تزن آليات الانتباه (attention mechanisms) أهمية الـ tokens المختلفة بالنسبة لبعضها البعض عند إنشاء استجابة. يتم تعديل مليارات، وأحيانًا تريليونات، من المعلمات (parameters) - وهي أساسًا نقاط قوة الاتصال بين الخلايا العصبية الاصطناعية - خلال مرحلة تدريب مكثفة حسابيًا. والنتيجة هي نظام بارع في التنبؤ بالـ token التالي الأكثر احتمالاً في تسلسل ما، بالنظر إلى الـ tokens السابقة والموجه الأولي (prompt). هذه القوة التنبؤية، التي تم صقلها عبر كميات هائلة من النصوص والتعليمات البرمجية، تسمح لنماذج اللغة الكبيرة بتوليد لغة تشبه اللغة البشرية بشكل ملحوظ. ومع ذلك، هذه العملية هي في الأساس تنبؤية وليست معرفية. لا يوجد عالم داخلي، ولا تجربة ذاتية، مجرد تعيين معقد للغاية للمدخلات إلى المخرجات المحتملة. فهم هذا التمييز أمر بالغ الأهمية ونحن نتعمق أكثر في قدراتها وقيودها.

مواجهة الصندوق الأسود: حتمية القابلية للتفسير

على الرغم من قدراتها المثيرة للإعجاب، يواجه مجال الذكاء الاصطناعي تحديًا كبيرًا: مشكلة ‘الصندوق الأسود’. بينما يمكننا ملاحظة مدخلات ومخرجات هذه الشبكات العصبية الضخمة، فإن الرحلة المعقدة التي تسلكها البيانات داخل النموذج - التسلسل الدقيق للحسابات والتحويلات عبر مليارات المعلمات - تظل غامضة إلى حد كبير. نحن نبنيها، ندربها، لكننا لا نفهم تمامًا المنطق الداخلي الناشئ الذي تطوره. هذه ليست برمجة بالمعنى التقليدي، حيث يتم تحديد كل خطوة بشكل صريح من قبل مهندس بشري. بدلاً من ذلك، يشبه الأمر البستنة على نطاق فلكي؛ نحن نوفر البذور (البيانات) والبيئة (البنية وعملية التدريب)، لكن أنماط النمو الدقيقة (التمثيلات والاستراتيجيات الداخلية) تنشأ عضويًا، وأحيانًا بشكل غير متوقع، من تفاعل البيانات والخوارزمية.

هذا النقص في الشفافية ليس مجرد فضول أكاديمي؛ إنه يحمل آثارًا عميقة على النشر الآمن والموثوق للذكاء الاصطناعي (AI). كيف يمكننا أن نثق حقًا في نظام لا يمكننا فحص عملية صنع القرار فيه؟ قضايا مثل التحيز الخوارزمي، حيث تديم النماذج أو حتى تضخم التحيزات المجتمعية الموجودة في بيانات تدريبها، تصبح أصعب في التشخيص والتصحيح دون فهم كيف يتم ترميز التحيز وتنشيطه. وبالمثل، فإن ظاهرة ‘الهلوسة’ - حيث تولد النماذج بيانات واثقة ولكنها غير صحيحة من الناحية الواقعية أو غير منطقية - تؤكد الحاجة إلى رؤية أعمق. إذا أنتج نموذج معلومات ضارة أو مضللة أو ببساطة غير دقيقة، فإن فهم نقاط الفشل الداخلية أمر بالغ الأهمية لمنع تكرارها. مع تزايد دمج أنظمة الذكاء الاصطناعي في مجالات عالية المخاطر مثل الرعاية الصحية والتمويل والأنظمة المستقلة، يزداد الطلب على القابلية للتفسير والجدارة بالثقة. يعتمد وضع بروتوكولات أمان قوية وضمان أداء موثوق على قدرتنا على تجاوز التعامل مع هذه النماذج كصناديق سوداء غامضة واكتساب رؤية أوضح لآلياتها الداخلية. وبالتالي، فإن السعي وراء القابلية للتفسير لا يتعلق فقط بإرضاء الفضول العلمي، بل يتعلق ببناء مستقبل يكون فيه الذكاء الاصطناعي شريكًا يمكن الاعتماد عليه ومفيدًا.

ابتكار Anthropic: رسم خرائط المسارات العصبية

لمعالجة هذه الحاجة الماسة للشفافية، ابتكر باحثون في شركة Anthropic لأبحاث وسلامة الذكاء الاصطناعي تقنية جديدة مصممة لإلقاء الضوء على الأعمال الخفية لنماذج اللغة الكبيرة (LLMs). إنهم يتصورون نهجهم على أنه إجراء ‘تتبع للدوائر’ داخل الشبكة العصبية للنموذج. توفر هذه المنهجية طريقة لتشريح وتتبع مسارات التنشيط المحددة التي يستخدمها النموذج أثناء معالجته للمعلومات، والانتقال من الموجه الأولي نحو الاستجابة المولدة. إنها محاولة لرسم خريطة لتدفق التأثير بين المفاهيم أو الميزات المختلفة المكتسبة داخل المشهد الداخلي الواسع للنموذج.

غالبًا ما يتم رسم التشبيه بالتصوير بالرنين المغناطيسي الوظيفي (fMRI) المستخدم في علم الأعصاب. تمامًا كما يكشف مسح fMRI عن مناطق الدماغ البشري التي تنشط استجابةً لمحفزات معينة أو أثناء مهام معرفية معينة، تهدف تقنية Anthropic إلى تحديد أجزاء الشبكة العصبية الاصطناعية التي ‘تضيء’ وتساهم في جوانب محددة من مخرجات النموذج. من خلال تتبع مسارات التنشيط هذه بدقة، يمكن للباحثين الحصول على رؤى غير مسبوقة حول كيفية تمثيل النموذج للمفاهيم ومعالجتها. لا يتعلق الأمر بفهم وظيفة كل معلمة على حدة - وهي مهمة شبه مستحيلة نظرًا لعددها الهائل - بل يتعلق بتحديد الدوائر أو الشبكات الفرعية ذات المغزى المسؤولة عن قدرات أو سلوكيات محددة. تفصّل ورقتهم البحثية المنشورة مؤخرًا هذا النهج، وتقدم لمحة عن عمليات ‘التفكير’ التي كانت غامضة سابقًا، أو بتعبير أدق، التسلسل المعقد لتحويلات الأنماط، التي تدعم أداء نموذج اللغة الكبير. تمثل هذه القدرة على النظر إلى الداخل خطوة مهمة إلى الأمام في إزالة الغموض عن هذه الأدوات القوية.

فك رموز الروابط المفاهيمية: اللغة كسطح مرن

أحد أكثر الاكتشافات إقناعًا الناتجة عن تحقيقات تتبع الدوائر في Anthropic يتعلق بالعلاقة بين اللغة والمفاهيم الأساسية التي يعالجها النموذج. يشير البحث إلى درجة ملحوظة من الاستقلالية بين السطح اللغوي والتمثيل المفاهيمي الأعمق. يبدو من السهل نسبيًا على النموذج معالجة استعلام مقدم بلغة واحدة وإنشاء استجابة متماسكة ودقيقة بلغة مختلفة تمامًا.

تشير هذه الملاحظة إلى أن النموذج لا يتعلم ببساطة الارتباطات الإحصائية بين الكلمات في لغات مختلفة بطريقة سطحية. بدلاً من ذلك، يبدو أنه يقوم بتعيين الكلمات من لغات مختلفة إلى مساحة مفاهيمية مشتركة وأكثر تجريدًا. على سبيل المثال، قد تنشط الكلمة الإنجليزية ‘small’ والكلمة الفرنسية ‘petit’ والكلمة الإسبانية ‘pequeño’ جميعها مجموعة مماثلة من الخلايا العصبية أو الميزات التي تمثل المفهوم الأساسي للصغر. يترجم النموذج بشكل فعال لغة الإدخال إلى هذا التمثيل المفاهيمي الداخلي، ويقوم ‘بتفكيره’ أو معالجة الأنماط داخل تلك المساحة المجردة، ثم يترجم المفهوم الناتج مرة أخرى إلى لغة الإخراج المستهدفة. لهذا الاكتشاف آثار كبيرة. إنه يشير إلى أن النماذج تطور تمثيلات تتجاوز الأشكال اللغوية المحددة، مما يلمح إلى طبقة أكثر عالمية من الفهم، وإن كانت مبنية من خلال التعلم الإحصائي بدلاً من الإدراك الشبيه بالبشر. تدعم هذه القدرة الأداء المثير للإعجاب متعدد اللغات لنماذج اللغة الكبيرة الحديثة وتفتح طرقًا لاستكشاف طبيعة التمثيل المفاهيمي داخل الأنظمة الاصطناعية. إنه يعزز فكرة أن اللغة، بالنسبة لهذه النماذج، هي في المقام الأول واجهة لطبقة أعمق من الارتباطات المكتسبة، بدلاً من أن تكون جوهر معالجتها الداخلية نفسها.

واجهة التفكير: عندما تتباعد سلسلة الأفكار عن الواقع الداخلي

غالبًا ما تشجع تقنيات التوجيه الحديثة نماذج اللغة الكبيرة على ‘إظهار عملها’ من خلال طريقة تسمى التفكير ‘بسلسلة الأفكار’ (Chain-of-Thought - CoT). قد يوجه المستخدمون النموذج إلى ‘التفكير خطوة بخطوة’ عند حل مشكلة ما، وسيلتزم النموذج بإخراج سلسلة من خطوات التفكير الوسيطة التي تؤدي إلى الإجابة النهائية. لقد ثبت أن هذه الممارسة تحسن الأداء في المهام المعقدة وتوفر للمستخدمين رؤية شفافة على ما يبدو لعملية النموذج. ومع ذلك، يقدم بحث Anthropic تحذيرًا حاسمًا لهذه الشفافية المتصورة. كشف تتبع الدوائر الخاص بهم عن حالات لم تعكس فيها سلسلة الأفكار المعلنة صراحة المسارات الحسابية الفعلية التي يتم تنشيطها داخل النموذج أثناء حل المشكلات.

في جوهر الأمر، قد يقوم النموذج بتوليد سرد تفكير يبدو معقولاً بعد الوصول إلى الإجابة من خلال آليات داخلية مختلفة، ربما أكثر تعقيدًا أو أقل قابلية للتفسير. يمكن أن تكون ‘سلسلة الأفكار’ المفصلة، في بعض الحالات، تبريرًا لاحقًا أو نمطًا مكتسبًا لكيفية تقديم التفكير، بدلاً من سجل دقيق للحسابات الداخلية. هذا لا يعني بالضرورة خداعًا متعمدًا بالمعنى البشري، بل يعني أن عملية توليد الشرح خطوة بخطوة قد تكون متميزة عن عملية إيجاد الحل نفسه. يتعلم النموذج أن توفير مثل هذه الخطوات هو جزء من توليد استجابة جيدة، لكن الخطوات نفسها قد لا تكون مرتبطة سببيًا بمسار الحل الأساسي بالطريقة التي ترتبط بها خطوات التفكير الواعي للإنسان. هذا الاكتشاف مهم لأنه يتحدى الافتراض بأن CoT يوفر نافذة صادقة تمامًا على الحالة الداخلية للنموذج. إنه يشير إلى أن ما يعرضه النموذج كعملية تفكير قد يكون أحيانًا أداءً، قصة مقنعة مصممة للمستخدم، ربما تخفي العمليات الأكثر تعقيدًا، وربما الأقل بديهية، التي تحدث تحت السطح. وهذا يؤكد أهمية تقنيات مثل تتبع الدوائر للتحقق مما إذا كانت التفسيرات الخارجية تتطابق حقًا مع الوظيفة الداخلية.

مسارات غير تقليدية: مقاربات الذكاء الاصطناعي الجديدة للمشاكل المألوفة

رؤية أخرى رائعة تم استخلاصها من الغوص العميق لـ Anthropic في الأجزاء الداخلية للنموذج تتعلق باستراتيجيات حل المشكلات، لا سيما في مجالات مثل الرياضيات. عندما استخدم الباحثون تقنيات تتبع الدوائر الخاصة بهم لمراقبة كيفية تعامل النماذج مع المشكلات الرياضية البسيطة نسبيًا، اكتشفوا شيئًا غير متوقع: استخدمت النماذج أحيانًا طرقًا غير عادية للغاية وغير بشرية للوصول إلى الحلول الصحيحة. لم تكن هذه هي الخوارزميات أو الإجراءات خطوة بخطوة التي يتم تدريسها في المدارس أو التي يستخدمها عادةً علماء الرياضيات البشر.

بدلاً من ذلك، بدا أن النماذج قد اكتشفت أو طورت استراتيجيات ناشئة جديدة، متجذرة في الأنماط الموجودة في بيانات تدريبها وهيكل شبكاتها العصبية. هذه الطرق، على الرغم من فعاليتها في إنتاج الإجابة الصحيحة، غالبًا ما بدت غريبة من منظور بشري. يسلط هذا الضوء على اختلاف جوهري بين التعلم البشري، الذي يعتمد غالبًا على البديهيات الراسخة والاستنتاج المنطقي والمناهج الدراسية المنظمة، والطريقة التي تتعلم بها نماذج اللغة الكبيرة من خلال التعرف على الأنماط عبر مجموعات البيانات الضخمة. لا تتقيد النماذج بالتقاليد التربوية البشرية أو التحيزات المعرفية؛ فهي حرة في إيجاد المسار الأكثر كفاءة إحصائيًا للحل ضمن مساحة المعلمات عالية الأبعاد الخاصة بها، حتى لو بدا هذا المسار غريبًا أو مخالفًا للحدس بالنسبة لنا. يفتح هذا الاكتشاف إمكانيات مثيرة للاهتمام. هل يمكن للذكاء الاصطناعي (AI)، من خلال استكشاف هذه المسارات الحسابية غير التقليدية، الكشف عن رؤى رياضية جديدة حقًا أو مبادئ علمية؟ إنه يشير إلى أن الذكاء الاصطناعي قد لا يقتصر على تكرار الذكاء البشري فحسب، بل يمكنه اكتشاف أشكال مختلفة تمامًا من حل المشكلات، مما يوفر وجهات نظر وتقنيات ربما لم يتصورها البشر بمفردهم. توفر ملاحظة هذه الاستراتيجيات الحسابية الغريبة تذكيرًا متواضعًا بالمساحة الشاسعة وغير المستكشفة للذكاء، الاصطناعي والطبيعي على حد سواء.

نسج الخيوط: الآثار المترتبة على الثقة والسلامة وأفق الذكاء الاصطناعي

تمتد الرؤى الناتجة عن أبحاث تتبع الدوائر في Anthropic إلى ما هو أبعد من مجرد الفضول التقني. إنها ترتبط ارتباطًا مباشرًا بمهمة الشركة المعلنة، التي تركز بشدة على سلامة الذكاء الاصطناعي (AI safety)، وتتردد صداها مع نضال الصناعة الأوسع لبناء ذكاء اصطناعي ليس قويًا فحسب، بل أيضًا موثوقًا وجديرًا بالثقة ومتوافقًا مع القيم الإنسانية. يعد فهم كيف يصل النموذج إلى استنتاجاته أمرًا أساسيًا لتحقيق هذه الأهداف.

تسمح القدرة على تتبع مسارات محددة تتعلق بالمخرجات بتدخلات أكثر استهدافًا. إذا أظهر النموذج تحيزًا، يمكن للباحثين تحديد الدوائر المحددة المسؤولة ومحاولة التخفيف منها. إذا كان النموذج يهلوس، فإن فهم العملية الداخلية الخاطئة يمكن أن يؤدي إلى ضمانات أكثر فعالية. يسلط الاكتشاف القائل بأن التفكير بسلسلة الأفكار (chain-of-thought) قد لا يعكس دائمًا العمليات الداخلية الضوء على الحاجة إلى طرق تحقق تتجاوز التفسيرات السطحية. إنه يدفع المجال نحو تطوير تقنيات أكثر قوة لتدقيق سلوك الذكاء الاصطناعي والتحقق منه، مما يضمن توافق التفكير الظاهر مع الوظيفة الفعلية. علاوة على ذلك، فإن اكتشاف تقنيات جديدة لحل المشكلات، على الرغم من كونه مثيرًا، يستلزم أيضًا فحصًا دقيقًا لضمان أن هذه الأساليب الغريبة قوية وليس لها أوضاع فشل غير متوقعة. مع ازدياد استقلالية أنظمة الذكاء الاصطناعي وتأثيرها، تنتقل القدرة على تفسير حالاتها الداخلية من ميزة مرغوبة إلى متطلب أساسي للتطوير والنشر المسؤولين. يمثل عمل Anthropic، جنبًا إلى جنب مع جهود مماثلة عبر مجتمع البحث، تقدمًا حاسمًا في تحويل الخوارزميات الغامضة إلى أنظمة أكثر قابلية للفهم، وفي نهاية المطاف، أكثر قابلية للتحكم، مما يمهد الطريق لمستقبل يمكن للبشر فيه التعاون بثقة مع ذكاء اصطناعي متطور بشكل متزايد. إن الرحلة لفهم هذه الإبداعات المعقدة بالكامل طويلة، لكن تقنيات مثل تتبع الدوائر توفر إضاءة حيوية على طول الطريق.