تآكل الانفتاح: الذكاء الاصطناعي 'المفتوح المصدر' والمخاطر

يحمل مصطلح ‘المصدر المفتوح’ صدى قويًا في عالم التكنولوجيا. إنه يستحضر صورًا للابتكار التعاوني، والمعرفة المشتركة، والإيمان الأساسي بالشفافية. تجسدت هذه الروح بوضوح قبل نصف قرن مع تشكيل نادي Homebrew Computer Club في Menlo Park، كاليفورنيا. لم يقم هذا التجمع من المتحمسين والمبتكرين ببناء الآلات فحسب؛ بل بنوا ثقافة ترتكز على التبادل الحر للأفكار والبرمجيات، ووضعوا الحجارة الأساسية لحركة المصدر المفتوح التي أحدثت ثورة في الحوسبة. ومع ذلك، اليوم، يواجه هذا الإرث الذي تم تحقيقه بشق الأنفس وتعريف الانفتاح ذاته تحديًا دقيقًا ولكنه مهم، لا سيما في مجال الذكاء الاصطناعي سريع التوسع. هناك عدد متزايد من الشركات التي تطور نماذج ذكاء اصطناعي متطورة تصف إبداعاتها بحماس بأنها ‘مفتوحة المصدر’، ولكن نظرة فاحصة تكشف أن هذا التصنيف غالبًا ما يتم تطبيقه بشكل سطحي، مما يخفي حقيقة لا ترقى إلى المبادئ الأساسية للحركة. هذا التمييع للمعنى ليس مجرد خلاف دلالي؛ إنه يشكل تهديدًا حقيقيًا لمبادئ الشفافية وقابلية التكرار التي لها أهمية قصوى، خاصة داخل المجتمع العلمي.

فهم الروح الحقيقية للتعاون المفتوح

لفهم المأزق الحالي، يجب على المرء أولاً أن يقدر ما يعنيه ‘المصدر المفتوح’ حقًا. إنه أكثر من مجرد برمجيات مجانية؛ إنها فلسفة متجذرة في التقدم الجماعي والثقة التي يمكن التحقق منها. يرتكز أساس هذه الفلسفة على أربع حريات أساسية:

  1. حرية تشغيل البرنامج لأي غرض.
  2. حرية دراسة كيفية عمل البرنامج وتغييره ليقوم بالحوسبة كما تشاء. الوصول إلى الكود المصدري شرط مسبق لذلك.
  3. حرية إعادة توزيع النسخ حتى تتمكن من مساعدة الآخرين.
  4. حرية توزيع نسخ من إصداراتك المعدلة للآخرين. من خلال القيام بذلك، يمكنك منح المجتمع بأكمله فرصة للاستفادة من تغييراتك. الوصول إلى الكود المصدري شرط مسبق لذلك.

هذه الحريات، التي عادة ما تكون مكرسة في تراخيص مثل GNU General Public License (GPL) أو MIT License أو Apache License، ركزت تاريخيًا على الكود المصدري. الكود المصدري - التعليمات التي يمكن قراءتها بواسطة الإنسان والتي كتبها المبرمجون - هو المخطط الأساسي للبرامج التقليدية. إن إتاحة هذا الكود بشكل مفتوح يسمح لأي شخص بفحصه وفهم منطقه وتحديد العيوب المحتملة وتكييفه مع الاحتياجات الجديدة ومشاركة تلك التحسينات.

كان هذا النموذج حافزًا استثنائيًا للابتكار والتقدم العلمي. لننظر في تأثير الأدوات المتاحة بسهولة للباحثين في جميع أنحاء العالم:

  • التحليل الإحصائي: توفر برامج مثل R Studio بيئة قوية وشفافة وقابلة للتوسيع للحوسبة الإحصائية والرسومات، لتصبح حجر الزاوية في تحليل البيانات في عدد لا يحصى من المجالات العلمية. يسمح انفتاحها بمراجعة الأقران للطرق وتطوير حزم متخصصة.
  • ديناميكا الموائع الحسابية: يقدم OpenFOAM مكتبة متطورة لمحاكاة تدفقات الموائع، وهو أمر بالغ الأهمية في مجالات تتراوح من هندسة الطيران والفضاء إلى علوم البيئة. تمكن طبيعته المفتوحة من التخصيص والتحقق من المحاكاة المعقدة.
  • أنظمة التشغيل: تشكل Linux وأنظمة التشغيل مفتوحة المصدر الأخرى العمود الفقري للكثير من البنية التحتية للحوسبة في العالم، بما في ذلك مجموعات الحوسبة العلمية عالية الأداء، والتي تقدر لاستقرارها ومرونتها وشفافيتها.

تمتد الفوائد إلى ما هو أبعد من مجرد توفير التكاليف. يعزز المصدر المفتوح قابلية التكرار، وهي حجر الزاوية في المنهج العلمي. عندما تكون الأدوات والكود المستخدم في البحث مفتوحة، يمكن للعلماء الآخرين تكرار التجارب والتحقق من النتائج والبناء على العمل بثقة. إنه يعزز التعاون العالمي، ويكسر الحواجز ويسمح للباحثين من خلفيات ومؤسسات متنوعة بالمساهمة في التحديات المشتركة. إنه يضمن الاستمرارية وتجنب الارتباط بمورد معين، مما يحمي استثمارات البحث من أهواء شركات البرمجيات الاحتكارية. إنه يسرع الاكتشاف من خلال السماح بالنشر السريع وتكرار الأفكار والتقنيات الجديدة. تتوافق روح المصدر المفتوح بشكل أساسي مع السعي العلمي للمعرفة من خلال الشفافية والتدقيق والتقدم المشترك.

الذكاء الاصطناعي: وحش مختلف تمامًا

يواجه نموذج المصدر المفتوح الراسخ، المبني بشكل آمن حول إمكانية الوصول إلى الكود المصدري، اضطرابًا كبيرًا عند تطبيقه على مجال الذكاء الاصطناعي، لا سيما النماذج واسعة النطاق مثل النماذج اللغوية الكبيرة التأسيسية (LLMs). في حين أن أنظمة الذكاء الاصطناعي هذه تتضمن بالتأكيد كودًا، إلا أن وظائفها وسلوكها تتشكل بواسطة عناصر أكثر تعقيدًا وغالبًا ما تكون غامضة. إن مجرد إصدار الكود المعماري لشبكة عصبية لا يعادل الانفتاح الحقيقي بالطريقة التي يفعلها للبرامج التقليدية.

يتكون نموذج الذكاء الاصطناعي، وخاصة نموذج التعلم العميق، عادةً من عدة مكونات رئيسية:

  1. بنية النموذج (Model Architecture): هذا هو التصميم الهيكلي للشبكة العصبية - ترتيب الطبقات والخلايا العصبية والوصلات. غالبًا ما تقوم الشركات بإصدار هذه المعلومات، وتقدمها كدليل على الانفتاح. إنه أشبه بمشاركة مخطط المحرك.
  2. أوزان النموذج (Parameters): هذه هي القيم العددية، التي غالبًا ما تكون بالمليارات، داخل الشبكة والتي تم تعديلها أثناء عملية التدريب. إنها تمثل الأنماط والمعرفة المكتسبة المستخرجة من بيانات التدريب. يسمح إصدار الأوزان للآخرين باستخدام النموذج المدرب مسبقًا. هذا يشبه توفير المحرك المجمع بالكامل، جاهزًا للتشغيل.
  3. بيانات التدريب (Training Data): ربما يكون هذا هو المكون الأكثر أهمية والأكثر حجبًا في كثير من الأحيان. يتم تدريب النماذج التأسيسية على مجموعات بيانات ضخمة، غالبًا ما يتم جمعها من الإنترنت أو الحصول عليها من مجموعات خاصة أو مملوكة (مثل السجلات الطبية، التي تثير مخاوف كبيرة تتعلق بالخصوصية). يؤثر تكوين هذه البيانات وتنظيمها وتصفيتها والتحيزات المحتملة فيها بشكل عميق على قدرات النموذج وقيوده وسلوكه الأخلاقي. بدون معلومات مفصلة حول بيانات التدريب، يصبح فهم سبب تصرف النموذج بالطريقة التي يتصرف بها، أو تقييم مدى ملاءمته وسلامته لتطبيقات محددة، أمرًا صعبًا للغاية. هذا هو خليط الوقود السري والظروف الدقيقة التي تم فيها تشغيل المحرك.
  4. كود وعملية التدريب (Training Code and Process): يشمل ذلك الخوارزميات المحددة المستخدمة للتدريب، وتقنيات التحسين، والمعلمات الفائقة المختارة (الإعدادات التي تتحكم في عملية التعلم)، والبنية التحتية الحاسوبية المستخدمة، والطاقة الكبيرة المستهلكة. يمكن أن تؤدي الاختلافات الطفيفة في عملية التدريب إلى سلوكيات نموذج مختلفة، مما يجعل قابلية التكرار صعبة حتى لو كانت البنية والبيانات معروفة. يمثل هذا المواصفات الهندسية التفصيلية والأدوات وظروف المصنع المستخدمة لبناء وضبط المحرك.

العديد من الأنظمة التي يتم تسويقها حاليًا على أنها ذكاء اصطناعي ‘مفتوح المصدر’ تقدم بشكل أساسي الوصول إلى بنية النموذج والأوزان المدربة مسبقًا. في حين أن هذا يسمح للمستخدمين بتشغيل النموذج وربما ضبطه على مجموعات بيانات أصغر، فإنه يفشل بشكل حاسم في توفير الشفافية اللازمة فيما يتعلق ببيانات وعملية التدريب. هذا يحد بشدة من القدرة على دراسة الخصائص الأساسية للنموذج حقًا أو تعديله بطرق ذات مغزى عميق تتطلب إعادة التدريب أو فهم أصوله. إن حريات الدراسة والتعديل، وهي مركزية لتعريف المصدر المفتوح، تتعرقل بشكل كبير عندما تظل العناصر الحاسمة للبيانات ومنهجية التدريب مخفية. يصبح تكرار إنشاء النموذج من البداية - وهو اختبار رئيسي للفهم العلمي والتحقق - مستحيلًا عمليًا.

الاتجاه المقلق لـ ‘الغسيل المفتوح’ في الذكاء الاصطناعي

أدت هذه الفجوة بين التسمية والواقع إلى ظهور ممارسة تُعرف باسم ‘الغسيل المفتوح’ (Openwashing). يصف هذا المصطلح قيام الشركات بالاستفادة من السمعة الإيجابية والفوائد المتصورة لـ ‘المصدر المفتوح’ للتسويق والميزة الاستراتيجية، بينما تحجب في الوقت نفسه الوصول إلى المكونات الهامة مثل معلومات بيانات التدريب التفصيلية أو الكود المستخدم للتدريب نفسه. إنهم يغطون أنظمتهم بلغة الانفتاح دون تبني مبادئها الصارمة للشفافية والوصول المجتمعي بشكل كامل.

العديد من نماذج الذكاء الاصطناعي البارزة، على الرغم من استخدامها على نطاق واسع وحملها أحيانًا لتصنيف ‘مفتوح’، تقصر عند قياسها مقابل التعريف الشامل للمصدر المفتوح الذي تدافع عنه منظمات مثل Open Source Initiative (OSI). أبرز تحليل أجرته OSI، التي تعمل بجد منذ عام 2022 لتوضيح معنى المصدر المفتوح في سياق الذكاء الاصطناعي، مخاوف بشأن العديد من النماذج الشائعة:

  • Llama 2 & Llama 3.x (Meta): بينما تتوفر أوزان النموذج وبنيته، فإن القيود المفروضة على الاستخدام والشفافية غير الكاملة فيما يتعلق بمجموعة بيانات التدريب الكاملة وعمليته تحد من توافقها مع قيم المصدر المفتوح التقليدية.
  • Grok (X): وبالمثل، على الرغم من إتاحته، فإن الافتقار إلى معلومات شاملة حول بيانات التدريب ومنهجيته يثير تساؤلات حول انفتاحه الحقيقي.
  • Phi-2 (Microsoft): غالبًا ما يوصف بأنه ‘نموذج مفتوح’، إلا أن الشفافية الكاملة فيما يتعلق بعملية إنشائه وبياناته لا تزال محدودة.
  • Mixtral (Mistral AI): على الرغم من إصدار أجزاء منه، إلا أنه لا يفي بالمعايير الكاملة للمصدر المفتوح بسبب القيود المفروضة على الوصول إلى جميع المكونات الضرورية للدراسة والتعديل.

تقف هذه الأمثلة في تناقض مع الجهود التي تسعى جاهدة لتحقيق قدر أكبر من الالتزام بمبادئ المصدر المفتوح:

  • OLMo (Allen Institute for AI): تم تطوير OLMo بواسطة معهد أبحاث غير ربحي، وقد تم تصميمه صراحة مع مراعاة الانفتاح، حيث لم يصدر الأوزان فحسب، بل أصدر أيضًا كود التدريب وتفاصيل حول البيانات المستخدمة.
  • LLM360’s CrystalCoder: مشروع يقوده المجتمع يهدف إلى الشفافية الكاملة عبر دورة حياة النموذج، بما في ذلك البيانات وإجراءات التدريب ومقاييس التقييم.

لماذا الانخراط في الغسيل المفتوح؟ الدوافع متعددة الأوجه:

  1. التسويق والتصور: يحمل تصنيف ‘المصدر المفتوح’ قدرًا كبيرًا من السمعة الطيبة. إنه يوحي بالتعاون والممارسات الأخلاقية والالتزام بالمجتمع الأوسع، مما يمكن أن يجذب المستخدمين والمطورين والصحافة الإيجابية.
  2. بناء النظام البيئي: يشجع إصدار أوزان النموذج، حتى بدون شفافية كاملة، المطورين على بناء تطبيقات فوق نظام الذكاء الاصطناعي، مما قد يخلق نظامًا بيئيًا تابعًا يفيد الشركة المنشئة.
  3. المراجحة التنظيمية: هذا دافع مقلق بشكل خاص. من المتوقع أن تفرض اللوائح القادمة، مثل قانون الذكاء الاصطناعي للاتحاد الأوروبي (European Union’s AI Act (2024))، متطلبات أكثر صرامة على بعض أنظمة الذكاء الاصطناعي عالية المخاطر. ومع ذلك، غالبًا ما يتم اقتراح إعفاءات أو تدقيق أخف لـ ‘البرمجيات الحرة ومفتوحة المصدر’. من خلال تطبيق تسمية ‘المصدر المفتوح’ - حتى لو كانت غير دقيقة وفقًا للتعاريف المعمول بها - قد تأمل الشركات في التنقل في هذه اللوائح بسهولة أكبر، وتجنب أعباء الامتثال المكلفة المحتملة المرتبطة بالأنظمة الاحتكارية عالية المخاطر. يستغل هذا التصنيف الاستراتيجي ثغرة محتملة، مما يقوض هدف التنظيم المتمثل في ضمان السلامة والشفافية.

تقلل هذه الممارسة في النهاية من قيمة مصطلح ‘المصدر المفتوح’ وتخلق ارتباكًا، مما يجعل من الصعب على المستخدمين والمطورين والباحثين تمييز أنظمة الذكاء الاصطناعي التي تقدم حقًا الشفافية والحريات التي يوحي بها التصنيف.

لماذا يهم الانفتاح الحقيقي بشكل عاجل للعلم

بالنسبة للمجتمع العلمي، فإن المخاطر في هذا النقاش عالية بشكل استثنائي. يزدهر العلم على الشفافية وقابلية التكرار والقدرة على التحقق المستقل. إن الدمج المتزايد للذكاء الاصطناعي في البحث - من تحليل البيانات الجينومية ونمذجة تغير المناخ إلى اكتشاف مواد جديدة وفهم الأنظمة البيولوجية المعقدة - يجعل طبيعة أدوات الذكاء الاصطناعي هذه ذات أهمية حاسمة. إن الاعتماد على أنظمة الذكاء الاصطناعي ‘الصندوق الأسود’، أو تلك التي تتنكر في صورة مفتوحة دون توفير شفافية حقيقية، يقدم مخاطر عميقة:

  • إعاقة قابلية التكرار: إذا لم يتمكن الباحثون من الوصول إلى بيانات التدريب والمنهجية الكامنة وراء نموذج الذكاء الاصطناعي المستخدم في الدراسة أو فهمها، يصبح تكرار النتائج مستحيلًا. هذا يقوض بشكل أساسي ركيزة أساسية للمنهج العلمي. كيف يمكن الوثوق بالنتائج أو البناء عليها إذا لم يكن بالإمكان التحقق منها بشكل مستقل؟
  • التحيزات والقيود المخفية: ترث جميع نماذج الذكاء الاصطناعي التحيزات من بيانات التدريب وخيارات التصميم الخاصة بها. بدون شفافية، لا يمكن للباحثين تقييم هذه التحيزات بشكل كافٍ أو فهم قيود النموذج. قد يؤدي استخدام نموذج متحيز دون علم إلى نتائج منحرفة واستنتاجات خاطئة وعواقب ضارة محتملة في العالم الحقيقي، خاصة في المجالات الحساسة مثل البحث الطبي أو العلوم الاجتماعية.
  • نقص التدقيق: تتجنب النماذج الغامضة مراجعة الأقران الصارمة. لا يمكن للمجتمع العلمي استجواب الأعمال الداخلية للنموذج بشكل كامل، أو تحديد الأخطاء المحتملة في منطقه، أو فهم الشكوك المرتبطة بتنبؤاته. هذا يعيق طبيعة التصحيح الذاتي للبحث العلمي.
  • الاعتماد على أنظمة الشركات: يخلق الاعتماد على أنظمة الذكاء الاصطناعي المغلقة أو شبه المغلقة التي تسيطر عليها الشركات تبعيات. يمكن أن تتأثر أجندات البحث بمهارة بقدرات وقيود أدوات الشركات المتاحة، ويمكن تقييد الوصول أو أن يصبح مكلفًا، مما قد يخنق اتجاهات البحث المستقلة ويوسع الفجوة بين المؤسسات الممولة جيدًا وغيرها.
  • خنق الابتكار: يسمح المصدر المفتوح الحقيقي للباحثين ليس فقط باستخدام الأدوات ولكن أيضًا بتشريحها وتعديلها وتحسينها وإعادة توظيفها. إذا ظلت المكونات الرئيسية لنماذج الذكاء الاصطناعي غير قابلة للوصول، فسيتم حظر هذا الطريق الحاسم للابتكار. يُمنع العلماء من تجربة تقنيات تدريب جديدة، أو استكشاف مجموعات بيانات مختلفة، أو تكييف النماذج لأسئلة بحثية محددة ودقيقة لم يتوقعها المطورون الأصليون.

لا يستطيع المجتمع العلمي أن يقبل بشكل سلبي تمييع مصطلح ‘المصدر المفتوح’. يجب أن يدافع بنشاط عن الوضوح ويطالب بالشفافية الحقيقية من مطوري الذكاء الاصطناعي، خاصة عند استخدام هذه الأدوات في سياقات البحث. وهذا يشمل:

  • تعزيز المعايير الواضحة: دعم الجهود، مثل تلك التي تبذلها OSI، لوضع تعريفات واضحة وصارمة لما يشكل ‘الذكاء الاصطناعي مفتوح المصدر’، وهي تعريفات تشمل الشفافية فيما يتعلق بالبنية والأوزان وبيانات التدريب وعمليات التدريب.
  • إعطاء الأولوية للأدوات التي يمكن التحقق منها: تفضيل استخدام نماذج ومنصات الذكاء الاصطناعي التي تلبي هذه المعايير العالية للشفافية، حتى لو كانت في البداية أقل أداءً أو تتطلب جهدًا أكبر من البدائل الغامضة المتاحة بسهولة.
  • المطالبة بالشفافية: الإصرار على أن تتضمن المنشورات التي تتضمن الذكاء الاصطناعي إفصاحات مفصلة حول النماذج المستخدمة، بما في ذلك معلومات شاملة حول مصدر بيانات التدريب ومعالجتها والتحيزات المحتملة، بالإضافة إلى منهجيات التدريب.
  • دعم المشاريع المفتوحة حقًا: المساهمة في واستخدام المشاريع والمبادرات التي يقودها المجتمع من المؤسسات الملتزمة بالانفتاح الحقيقي في تطوير الذكاء الاصطناعي.

إن روح نادي Homebrew Computer Club - روح المعرفة المشتركة والبناء التعاوني - ضرورية للتنقل في تعقيدات عصر الذكاء الاصطناعي بمسؤولية. إن استعادة المعنى الحقيقي لـ ‘المصدر المفتوح’ للذكاء الاصطناعي والدفاع عنه لا يتعلق فقط بالنقاء المصطلحي؛ إنه يتعلق بحماية نزاهة العلم وقابليته للتكرار وتقدمه المستمر في عالم يعتمد بشكل متزايد على الذكاء الاصطناعي. يتطلب المسار إلى الأمام اليقظة والتزامًا جماعيًا لضمان تطوير أدوات الذكاء الاصطناعي القوية ونشرها بطريقة تتفق مع مبادئ البحث المفتوح التي خدمت العلم جيدًا لعدة قرون.