تقليل قيمة مفهوم تأسيسي: تآكل 'المصدر المفتوح'
كان مصطلح ‘المصدر المفتوح’ ذات يوم منارة في المشهد التكنولوجي والعلمي. لقد مثّل روحًا قوية ترتكز على الشفافية، والوصول غير المقيد، والتحسين التعاوني، والمبدأ الأساسي لإمكانية إعادة الإنتاج. بالنسبة لأجيال من الباحثين والمطورين، فقد دلّ على الالتزام بالمعرفة المشتركة والتقدم الجماعي. من الأدوات الإحصائية الأساسية الموجودة في بيئات مثل R Studio، والتي تمكّن عددًا لا يحصى من التحليلات عبر التخصصات، إلى منصات المحاكاة المتطورة مثل OpenFOAM، المستخدمة لكشف تعقيدات ديناميكيات الموائع، كانت البرمجيات مفتوحة المصدر حافزًا لا غنى عنه للابتكار. لقد سرّعت الاكتشاف من خلال السماح للعلماء على مستوى العالم بفحص أعمال بعضهم البعض والتحقق منها وتعديلها والبناء عليها، مما يضمن إمكانية تكرار النتائج والتحقق من صحتها - وهو حجر الزاوية ذاته للمنهج العلمي.
ومع ذلك، يخيم الآن ظل على هذا التعيين الموثوق به، يلقيه مجال الذكاء الاصطناعي المزدهر. كما تم تسليط الضوء عليه في المناقشات النقدية الأخيرة، بما في ذلك تلك التي أشارت إليها منشورات مثل Nature، ظهر اتجاه مثير للقلق حيث يتبنى مطورو الذكاء الاصطناعي البارزون تسمية ‘المصدر المفتوح’ لنماذجهم بينما يحجبون في نفس الوقت المكونات الحاسمة اللازمة للانفتاح الحقيقي. تخاطر هذه الممارسة بإضعاف معنى المصطلح، وتحويله من رمز للشفافية إلى شعار تسويقي مضلل محتمل. غالبًا ما تكمن المشكلة الأساسية في الطبيعة الفريدة لأنظمة الذكاء الاصطناعي الحديثة. على عكس البرامج التقليدية حيث يكون كود المصدر هو الأهم، فإن قوة وسلوك نماذج الذكاء الاصطناعي الكبيرة مرتبطة ارتباطًا وثيقًا بمجموعات البيانات الضخمة المستخدمة لتدريبها والبنى المعقدة التي تحددها. عندما يتم تقييد الوصول إلى بيانات التدريب هذه أو المعلومات التفصيلية حول بناء النموذج وأوزانه، فإن الادعاء بأنه ‘مفتوح المصدر’ يبدو أجوفًا، بغض النظر عما إذا كان جزء من كود النموذج متاحًا. يضرب هذا التناقض في صميم فلسفة المصدر المفتوح، مما يخلق وهمًا بإمكانية الوصول بينما يحجب العناصر الأكثر حيوية للتدقيق المستقل والتكرار.
ضرورة الانفتاح الحقيقي في الذكاء الاصطناعي العلمي
إن المخاطر المرتبطة بالحفاظ على الانفتاح الحقيقي في الذكاء الاصطناعي، لا سيما في المجال العلمي، لا يمكن أن تكون أعلى. يزدهر العلم على القدرة على التحقق المستقل من النتائج، وفهم المنهجيات، والبناء على الأعمال السابقة. عندما تصبح الأدوات نفسها - نماذج الذكاء الاصطناعي المتطورة بشكل متزايد - صناديق سوداء، تتعرض هذه العملية الأساسية للخطر. إن الاعتماد على أنظمة الذكاء الاصطناعي التي تكون أعمالها الداخلية أو تحيزات بيانات التدريب أو أوضاع الفشل المحتملة غامضة، يُدخل مستوى غير مقبول من عدم اليقين في البحث. كيف يمكن للعالم أن يبني استنتاجاته بثقة على مخرجات الذكاء الاصطناعي إذا كانت العوامل التي تشكل هذا الناتج غير معروفة أو غير قابلة للتحقق؟ كيف يمكن للمجتمع أن يثق في النتائج التي تم إنشاؤها بواسطة أنظمة مملوكة لا يمكن تدقيقها أو تكرارها بشكل مستقل؟
يقدم النجاح التاريخي للبرمجيات مفتوحة المصدر في العلوم تباينًا صارخًا ومعيارًا واضحًا. عززت الشفافية المتأصلة في المشاريع التقليدية مفتوحة المصدر الثقة ومكّنت مراجعة الأقران القوية. يمكن للباحثين فحص الخوارزميات وفهم قيودها وتكييفها لتلبية احتياجات محددة. أدى هذا النظام البيئي التعاوني إلى تسريع التقدم في مجالات تتراوح من المعلوماتية الحيوية إلى الفيزياء الفلكية. إن إمكانات الذكاء الاصطناعي لإحداث ثورة في الاكتشاف العلمي هائلة، وتَعِد بتحليل مجموعات البيانات المعقدة، وتوليد الفرضيات، ومحاكاة العمليات المعقدة بمقاييس غير مسبوقة. ومع ذلك، فإن تحقيق هذه الإمكانات يتوقف على الحفاظ على نفس مبادئ الشفافية وقابلية إعادة الإنتاج التي دعمت دائمًا التقدم العلمي. إن التحول نحو أنظمة الذكاء الاصطناعي المغلقة والمملوكة، حتى تلك التي تتنكر في صورة ‘مفتوحة’، يهدد بتجزئة مجتمع البحث، وإعاقة التعاون، وفي نهاية المطاف إبطاء وتيرة الاكتشاف عن طريق إقامة حواجز أمام الفهم والتحقق. يتطلب المسعى العلمي أدوات ليست قوية فحسب، بل شفافة وجديرة بالثقة أيضًا.
معضلة البيانات: تحدي الشفافية في الذكاء الاصطناعي
في قلب نقاش ‘المصدر المفتوح’ في الذكاء الاصطناعي تكمن القضية الحاسمة المتمثلة في بيانات التدريب. على عكس البرامج التقليدية التي يتم تعريفها بشكل أساسي من خلال الكود الخاص بها، فإن نماذج اللغة الكبيرة (LLMs) وأنظمة الذكاء الاصطناعي التأسيسية الأخرى تتشكل بشكل أساسي من خلال مجموعات البيانات الهائلة التي تستوعبها أثناء تطويرها. تؤثر خصائص هذه البيانات وتحيزاتها ومصدرها بشكل عميق على سلوك النموذج وقدراته وقيوده المحتملة. لذلك، يتطلب الانفتاح الحقيقي في الذكاء الاصطناعي مستوى من الشفافية فيما يتعلق بهذه البيانات يتجاوز بكثير مجرد إصدار أوزان النموذج أو كود الاستدلال.
العديد من النماذج التي يتم تسويقها حاليًا تحت مظلة ‘المصدر المفتوح’ تقصر بشكل واضح في هذا الجانب. لنأخذ أمثلة بارزة مثل سلسلة Llama من Meta، أو Phi-2 من Microsoft، أو Mixtral من Mistral AI. بينما تصدر هذه الشركات مكونات معينة، مما يسمح للمطورين بتشغيل النماذج أو ضبطها، فإنها غالبًا ما تفرض قيودًا كبيرة أو تقدم تفاصيل ضئيلة حول بيانات التدريب الأساسية. يمكن أن تكون مجموعات البيانات المعنية ضخمة، أو مملوكة، أو تم جمعها من الويب بقليل من التنظيم، أو تخضع لقيود الترخيص، مما يجعل الإصدار العام الكامل صعبًا أو مستحيلًا. ومع ذلك، بدون معلومات شاملة حول:
- مصادر البيانات: من أين أتت المعلومات؟ هل كانت في الغالب نصوصًا أم صورًا أم أكوادًا؟ من أي مواقع ويب أو كتب أو قواعد بيانات؟
- تنظيم البيانات: كيف تم تصفية البيانات وتنظيفها ومعالجتها؟ ما هي المعايير المستخدمة لتضمين المعلومات أو استبعادها؟
- خصائص البيانات: ما هي التحيزات المعروفة داخل البيانات (على سبيل المثال، الديموغرافية، الثقافية، اللغوية)؟ ما هي الفترة الزمنية التي تغطيها؟
- خطوات المعالجة المسبقة: ما هي التحويلات التي تم تطبيقها على البيانات قبل التدريب؟
… يصبح من الصعب للغاية على الباحثين المستقلين فهم سلوك النموذج بالكامل، أو تكرار تطويره، أو تقييم تحيزاته المحتملة ونقاط فشله بشكل نقدي. هذا النقص في شفافية البيانات هو السبب الرئيسي وراء فشل العديد من إصدارات الذكاء الاصطناعي ‘مفتوحة المصدر’ الحالية في تلبية روح الانفتاح الحقيقي، إن لم يكن نصه، الذي تم تأسيسه في عالم البرمجيات. في المقابل، بذلت مبادرات مثل نموذج OLMo من Allen Institute for AI أو الجهود التي يقودها المجتمع مثل CrystalCoder من LLM360 جهودًا أكثر تنسيقًا لتوفير شفافية أكبر فيما يتعلق ببياناتها ومنهجيات التدريب الخاصة بها، مما يضع معيارًا أعلى يتماشى بشكل أكبر مع قيم المصدر المفتوح التقليدية.
'الغسيل المفتوح': تسمية استراتيجية أم التفاف تنظيمي؟
أثار استحواذ الكيانات التي لا تتبنى مبادئ ‘المصدر المفتوح’ بالكامل على هذه التسمية مخاوف بشأن ‘الغسيل المفتوح’ (openwashing). يصف هذا المصطلح ممارسة الاستفادة من الدلالات الإيجابية للانفتاح لتحقيق فوائد العلاقات العامة أو الميزة الاستراتيجية، دون الالتزام بالمستوى المرتبط من الشفافية وإمكانية الوصول. لماذا قد تنخرط الشركات في هذا؟ يمكن أن تكون هناك عدة عوامل مؤثرة. تحمل علامة ‘المصدر المفتوح’ التجارية قدرًا كبيرًا من النوايا الحسنة، مما يوحي بالالتزام بالمجتمع والتقدم المشترك، وهو ما يمكن أن يكون جذابًا للمطورين والعملاء.
علاوة على ذلك، كما لاحظت Nature ومراقبون آخرون، قد تحفز البيئات التنظيمية عن غير قصد مثل هذا السلوك. يتضمن قانون الذكاء الاصطناعي التاريخي للاتحاد الأوروبي، الذي تم الانتهاء منه في عام 2024، أحكامًا تفرض متطلبات أكثر صرامة على أنظمة الذكاء الاصطناعي عالية المخاطر وذات الأغراض العامة. ومع ذلك، فإنه يحتوي أيضًا على إعفاءات محتملة أو متطلبات أخف لنماذج الذكاء الاصطناعي الصادرة بموجب تراخيص مفتوحة المصدر. وهذا يخلق ثغرة محتملة حيث قد تقوم الشركات بتصنيف نماذجها بشكل استراتيجي على أنها ‘مفتوحة المصدر’ - حتى لو ظلت المكونات الرئيسية مثل بيانات التدريب مقيدة - تحديدًا لتجاوز العقبات التنظيمية وتجنب التزامات الامتثال الأكثر صرامة.
هذه الإمكانية للمراجحة التنظيمية مقلقة للغاية. إذا سمح ‘الغسيل المفتوح’ لأنظمة الذكاء الاصطناعي القوية بتجاوز التدقيق الذي يهدف إلى ضمان السلامة والإنصاف والمساءلة، فإنه يقوض الغرض ذاته من التنظيم. كما أنه يضع المجتمع العلمي في موقف محفوف بالمخاطر. قد ينجذب الباحثون إلى هذه الأنظمة ‘المفتوحة’ اسميًا نظرًا لإمكانية الوصول إليها مقارنة بالعروض التجارية المغلقة تمامًا، ليجدوا أنفسهم يعتمدون على أدوات تظل منهجياتها غامضة وغير قابلة للتحقق. يهدد هذا الاعتماد بـ المساس بالنزاهة العلمية، مما يجعل من الصعب ضمان أن البحث قابل للتكرار وغير متحيز ومبني على أساس متين ومفهوم. يمكن أن يخفي جاذبية التسمية المألوفة قيودًا أساسية تعيق البحث العلمي الحقيقي.
إعادة تعريف الانفتاح لعصر الذكاء الاصطناعي: إطار عمل OSAID
إدراكًا لعدم كفاية التعريفات التقليدية للمصدر المفتوح لمواجهة التحديات الفريدة التي يطرحها الذكاء الاصطناعي، شرعت مبادرة المصدر المفتوح (OSI) - وهي جهة راعية طويلة الأمد لمبادئ المصدر المفتوح - في جهد عالمي حاسم. هدفهم هو وضع تعريف واضح وقوي مصمم خصيصًا للذكاء الاصطناعي: تعريف الذكاء الاصطناعي مفتوح المصدر (OSAID 1.0). تمثل هذه المبادرة خطوة حيوية نحو استعادة معنى ‘المفتوح’ في سياق الذكاء الاصطناعي ووضع معايير لا لبس فيها للشفافية والمساءلة.
أحد الابتكارات الرئيسية في إطار عمل OSAID المقترح هو مفهوم ‘معلومات البيانات’. مع الاعتراف بأن الإصدار الكامل لمجموعات بيانات التدريب الضخمة قد يكون غالبًا غير عملي أو محظورًا قانونيًا بسبب مخاوف الخصوصية أو قيود حقوق النشر أو الحجم الهائل، يركز OSAID على فرض الكشف الشامل حول البيانات. يتضمن ذلك متطلبات للمطورين لتقديم معلومات مفصلة بخصوص:
- المصادر والتكوين: تحديد أصول بيانات التدريب بوضوح.
- الخصائص: توثيق الميزات المعروفة والقيود والتحيزات المحتملة داخل البيانات.
- طرق الإعداد: شرح العمليات المستخدمة لتنظيف البيانات وتصفيتها وإعدادها للتدريب.
حتى لو لم يكن من الممكن مشاركة البيانات الأولية، فإن توفير هذه البيانات الوصفية يسمح للباحثين والمراجعين بالحصول على رؤى نقدية حول العوامل التي شكلت نموذج الذكاء الاصطناعي. إنه يسهل فهمًا أفضل للتحيزات المحتملة، ويمكّن من إجراء تقييمات أكثر استنارة للمخاطر، ويوفر أساسًا لمحاولة التكرار أو الدراسات المقارنة.
بالإضافة إلى معلومات البيانات، فإن جهود OSI، جنبًا إلى جنب مع الدعوة من منظمات مثل Open Future، تعزز تحولًا أوسع نحو نموذج ‘مشاع البيانات’ (data-commons). يتصور هذا مستقبلًا يتم فيه تنظيم مجموعات البيانات الأساسية لتدريب الذكاء الاصطناعي وإتاحتها بشكل أكثر انفتاحًا وإنصافًا، مما يعزز نظامًا بيئيًا أكثر شفافية وتعاونية لتطوير الذكاء الاصطناعي، لا سيما داخل مجتمع البحث. يهدف تعريف OSAID إلى توفير معيار واضح يمكن من خلاله تقييم أنظمة الذكاء الاصطناعي، والانتقال إلى ما هو أبعد من التسميات السطحية لتقييم الالتزام الحقيقي بالانفتاح.
مسؤولية جماعية: قيادة الشفافية الحقيقية في الذكاء الاصطناعي
لا يمكن حل تحدي ضمان الانفتاح الحقيقي في الذكاء الاصطناعي بالتعريفات وحدها؛ إنه يتطلب إجراءات متضافرة من أصحاب المصلحة المتعددين. يتحمل المجتمع العلمي، كمطورين ومستخدمين أساسيين لأدوات الذكاء الاصطناعي المتطورة، مسؤولية كبيرة. يجب على الباحثين الانخراط بنشاط في مبادرات مثل OSAID 1.0، وفهم مبادئها والدعوة إلى تبنيها. إنهم بحاجة إلى تقييم نقدي لادعاءات ‘الانفتاح’ لنماذج الذكاء الاصطناعي التي يفكرون في استخدامها، مع إعطاء الأولوية لتلك التي توفر شفافية أكبر فيما يتعلق ببيانات التدريب والمنهجيات، حتى لو تطلب الأمر مقاومة جاذبية الأنظمة التي تبدو مريحة ولكنها غامضة. إن التعبير عن الحاجة إلى أدوات ذكاء اصطناعي قابلة للتحقق والتكرار في المنشورات والمؤتمرات والمناقشات المؤسسية أمر بالغ الأهمية.
تلعب وكالات التمويل العام والهيئات الحكومية أيضًا دورًا حاسمًا. إنهم يمارسون تأثيرًا كبيرًا من خلال متطلبات المنح وسياسات المشتريات. تقدم مؤسسات مثل المعاهد الوطنية الأمريكية للصحة (NIH)، التي تفرض بالفعل ترخيصًا مفتوحًا لبيانات البحث التي يتم إنشاؤها من خلال تمويلها، سابقة قيمة. وبالمثل، تظهر أمثلة مثل شرط إيطاليا لهيئات الإدارة العامة بإعطاء الأولوية للبرمجيات مفتوحة المصدر كيف يمكن للسياسة أن تدفع التبني. يمكن ويجب توسيع هذه المبادئ لتشمل مجال الذكاء الاصطناعي. يجب على الحكومات وهيئات التمويل النظر في:
- فرض الالتزام بمعايير الذكاء الاصطناعي مفتوح المصدر القوية (مثل OSAID) لأبحاث وتطوير الذكاء الاصطناعي الممولة من القطاع العام.
- الاستثمار في إنشاء مجموعات بيانات مفتوحة حقًا وعالية الجودة - ‘مشاع بيانات’ - مناسبة لتدريب نماذج الذكاء الاصطناعي التي تركز على البحث.
- ضمان تنفيذ اللوائح، مثل قانون الذكاء الاصطناعي للاتحاد الأوروبي، بطريقة تمنع ‘الغسيل المفتوح’ وتحاسب جميع أنظمة الذكاء الاصطناعي القوية، بغض النظر عن ادعاءات الترخيص الخاصة بها.
في نهاية المطاف، يتطلب حماية مستقبل الذكاء الاصطناعي في البحث جبهة موحدة. يجب على العلماء المطالبة بالشفافية، ويجب على المؤسسات تنفيذ سياسات تعطي الأولوية للانفتاح الحقيقي، ويجب على المنظمين التأكد من أن تسمية ‘المصدر المفتوح’ تدل على التزام حقيقي بالمساءلة، وليس مخرجًا مناسبًا. بدون هذه الجهود الجماعية، فإن الإمكانات الهائلة للذكاء الاصطناعي للاكتشاف العلمي تخاطر بالتعرض للخطر بسبب مشهد تهيمن عليه الأنظمة المغلقة والمملوكة، مما يقوض بشكل أساسي الطبيعة التعاونية والقابلة للتحقق للتقدم العلمي نفسه. إن نزاهة البحث المستقبلي على المحك.