كان لمصطلح ‘المصدر المفتوح’ ذات مرة صدى بوضوح معين، ووعد بالمعرفة المشتركة والتقدم التعاوني الذي دفع عددًا لا يحصى من القفزات العلمية والتكنولوجية إلى الأمام. لقد استحضر صورًا لمجتمعات تبني معًا، وتدقق في عمل بعضها البعض، وتقف على أكتاف العمالقة لأن المخططات كانت متاحة مجانًا. الآن، عند التنقل في مشهد الذكاء الاصطناعي، يبدو هذا المصطلح مراوغًا بشكل متزايد. كما تم تسليط الضوء عليه في صفحات مجلة Nature وهمس به في المختبرات ومجالس الإدارة، فإن عددًا مقلقًا من اللاعبين في حمى الذهب للذكاء الاصطناعي يخفون إبداعاتهم تحت عباءة ‘المصدر المفتوح’ بينما يبقون المكونات الحاسمة حقًا تحت القفل والمفتاح. هذه ليست مجرد مراوغة دلالية؛ إنها ممارسة تقوض أسس النزاهة العلمية وتهدد بحجب مسار الابتكار المستقبلي. يحتاج مجتمع البحث، وهو المجموعة ذاتها التي يمكن أن تكسب أو تخسر أكثر من غيرها، إلى التعرف على هذه المهزلة كما هي والدعوة بقوة لأنظمة الذكاء الاصطناعي التي تجسد حقًا مبادئ الشفافية وقابلية التكرار التي اعتمدنا عليها طويلًا.
العصر الذهبي للانفتاح: إرث تحت التهديد
لعقود من الزمان، كانت حركة المصدر المفتوح بطلاً مجهولاً للتقدم العلمي. فكر فيما هو أبعد من الأدوات المألوفة مثل R Studio لسحر الإحصاء أو OpenFOAM لنمذجة ديناميكيات الموائع. ضع في اعتبارك الأنظمة الأساسية مثل Linux، التي تشغل مساحات شاسعة من الإنترنت ومجموعات الحوسبة العلمية، أو خادم الويب Apache، وهو شهادة على تطوير البرمجيات التعاوني. كانت الفلسفة واضحة ومباشرة: توفير الوصول إلى الكود المصدري، والسماح بالتعديل وإعادة التوزيع بموجب تراخيص متساهلة، وتعزيز نظام بيئي عالمي حيث تعود التحسينات بالفائدة على الجميع.
لم يكن هذا مجرد إيثار؛ لقد كان عبقرية عملية. الانفتاح سرّع الاكتشاف. يمكن للباحثين تكرار التجارب، والتحقق من النتائج، والبناء على العمل الحالي دون إعادة اختراع العجلة أو التنقل في أنظمة الملكية المبهمة. لقد عزز الثقة، حيث كانت الأعمال الداخلية متاحة للفحص، مما سمح بالعثور على الأخطاء وإصلاحها بشكل جماعي. لقد أضفى الطابع الديمقراطي على الوصول، مما مكن العلماء والمطورين في جميع أنحاء العالم، بغض النظر عن الانتماء المؤسسي أو الميزانية، من المشاركة في العمل المتطور. أصبحت هذه الروح التعاونية، المبنية على الوصول المشترك والتدقيق المتبادل، متأصلة بعمق في المنهج العلمي نفسه، مما يضمن المتانة ويعزز التقدم السريع عبر مجالات متنوعة. كانت القدرة ذاتها على تشريح وفهم وتعديل الأدوات المستخدمة أمرًا بالغ الأهمية. لم يكن الأمر يتعلق فقط باستخدام البرنامج؛ كان الأمر يتعلق بفهم كيف يعمل، وضمان ملاءمته لمهمة علمية محددة، والمساهمة مرة أخرى في مجموعة المعرفة الجماعية. دفعت هذه الدورة الفاضلة الابتكار بوتيرة غير مسبوقة.
اعتماد الذكاء الاصطناعي على البيانات: لماذا يقصر شعار ‘الكود هو الملك’
ادخل عصر الذكاء الاصطناعي واسع النطاق، لا سيما النماذج التأسيسية التي تستحوذ على الكثير من الاهتمام والاستثمار. هنا، يواجه نموذج المصدر المفتوح التقليدي، الذي يركز بشكل أساسي على الكود المصدري، عدم تطابق جوهري. في حين أن الخوارزميات والكود المستخدم لبناء نموذج الذكاء الاصطناعي هي بالتأكيد جزء من الصورة، إلا أنها بعيدة كل البعد عن القصة بأكملها. الذكاء الاصطناعي الحديث، وخاصة نماذج التعلم العميق، مستهلك شره للبيانات. بيانات التدريب ليست مجرد مدخلات؛ يمكن القول إنها المحدد الأساسي لقدرات النموذج وتحيزاته وقيوده.
إن إصدار كود النموذج، أو حتى معلماته المدربة النهائية (‘الأوزان’)، دون توفير وصول ذي معنى إلى مجموعات البيانات الضخمة المستخدمة للتدريب أو معلومات مفصلة عنها يشبه تسليم شخص مفاتيح سيارة ولكن رفض إخباره بنوع الوقود الذي تستخدمه، أو أين تم قيادتها، أو كيف تم تجميع المحرك بالفعل. قد تكون قادرًا على قيادتها، ولكن لديك قدرة محدودة على فهم غرابة أدائها، أو تشخيص المشكلات المحتملة، أو تعديلها بشكل موثوق لرحلات جديدة.
علاوة على ذلك، فإن الموارد الحاسوبية المطلوبة لتدريب هذه النماذج من الصفر هائلة، وغالبًا ما تصل إلى ملايين الدولارات لتشغيل تدريب واحد. هذا يخلق حاجزًا آخر. حتى لو كان الكود والبيانات متاحين بالكامل، فإن عددًا قليلاً فقط من المنظمات تمتلك البنية التحتية لتكرار عملية التدريب. يغير هذا الواقع الديناميكيات بشكل أساسي مقارنة بالبرامج التقليدية، حيث يكون تجميع الكود عادةً في متناول معظم المطورين أو الباحثين. بالنسبة للذكاء الاصطناعي، غالبًا ما تظل قابلية التكرار الحقيقية والقدرة على التجربة عن طريق إعادة التدريب بعيدة المنال، حتى عندما يتم تصنيف المكونات على أنها ‘مفتوحة’. لذلك، فإن مجرد تطبيق تعريفات المصدر المفتوح القديمة المصممة للكود لا يفي بضرورات هذا المجال الجديد الذي يركز على البيانات ويتطلب حوسبة مكثفة.
‘الغسيل المفتوح’ (Openwashing): ذئب في ثياب حمل
أدت هذه الفجوة بين مفاهيم المصدر المفتوح التقليدية وواقع تطوير الذكاء الاصطناعي إلى خلق أرض خصبة لظاهرة تُعرف باسم ‘openwashing’ (الغسيل المفتوح). تضع الشركات بفارغ الصبر علامة ‘المصدر المفتوح’ على نماذج الذكاء الاصطناعي الخاصة بها، وتحصد فوائد العلاقات العامة وحسن النية المرتبطة بالمصطلح، بينما تستخدم تراخيص أو قيود وصول تخون روح الانفتاح الحقيقي، إن لم يكن نصه الصارم (والذي يمكن القول إنه قديم).
كيف يبدو هذا في الممارسة العملية؟
- إصدار الكود بدون بيانات: قد تصدر الشركة كود بنية النموذج وربما حتى الأوزان المدربة مسبقًا، مما يسمح للآخرين باستخدام النموذج ‘كما هو’ أو ضبطه على مجموعات بيانات أصغر. ومع ذلك، تظل مجموعة بيانات التدريب التأسيسية الضخمة - الصلصة السرية التي تحدد القدرات الأساسية للنموذج - مملوكة ومخفية.
- الترخيص المقيد: قد يتم إصدار النماذج بموجب تراخيص تبدو مفتوحة للوهلة الأولى ولكنها تحتوي على بنود تحد من الاستخدام التجاري، أو تقيد النشر في سيناريوهات معينة، أو تحظر أنواعًا معينة من التعديل أو التحليل. تتعارض هذه القيود مع الحريات المرتبطة عادةً ببرامج المصدر المفتوح.
- الكشف الغامض عن البيانات: بدلاً من المعلومات التفصيلية حول مصادر البيانات، وطرق الجمع، وعمليات التنظيف، والتحيزات المحتملة، قد تقدم الشركات أوصافًا غامضة أو تحذف تفاصيل حاسمة تمامًا. هذا النقص في ‘شفافية البيانات’ يجعل من المستحيل تقييم موثوقية النموذج أو آثاره الأخلاقية بشكل كامل.
لماذا الانخراط في مثل هذه الممارسات؟ من المحتمل أن تكون الدوافع متنوعة. لا يمكن إنكار قيمة الدلالات الإيجابية لـ ‘المصدر المفتوح’ لجذب المواهب، وبناء مجتمعات المطورين (حتى لو كانت مقيدة)، وتوليد دعاية إيجابية. بشكل أكثر سخرية، كما تقترح مجلة Nature، قد تكون هناك حوافز تنظيمية. على سبيل المثال، يتضمن قانون الذكاء الاصطناعي الشامل للاتحاد الأوروبي لعام 2024 إعفاءات محتملة أو متطلبات أخف للأنظمة المصنفة كمصدر مفتوح. من خلال استخدام التسمية بشكل استراتيجي، قد تأمل بعض الشركات في التنقل في المشهد التنظيمي المعقد باحتكاك أقل، وربما تتجنب التدقيق المخصص لأنظمة الذكاء الاصطناعي القوية ذات الأغراض العامة. تستغل هذه الممارسة الاستراتيجية للعلامة التجارية حسن النية التاريخي لحركة المصدر المفتوح بينما من المحتمل أن تقوض الجهود المبذولة لضمان نشر الذكاء الاصطناعي المسؤول.
طيف من الانفتاح: فحص الأمثلة
من الأهمية بمكان إدراك أن الانفتاح في الذكاء الاصطناعي ليس بالضرورة حالة ثنائية؛ إنه موجود على طيف. ومع ذلك، فإن ممارسات التوسيم الحالية غالبًا ما تحجب المكان الذي يقع فيه نموذج معين حقًا على هذا الطيف.
ضع في اعتبارك بعض الأمثلة البارزة التي غالبًا ما تتم مناقشتها في هذا السياق:
- سلسلة Llama من Meta: بينما أصدرت Meta أوزان وكود نماذج Llama، كان الوصول يتطلب في البداية تقديم طلب، وتضمن الترخيص قيودًا، لا سيما فيما يتعلق بالاستخدام من قبل الشركات الكبيرة جدًا وتطبيقات محددة. بشكل حاسم، لم يتم إصدار بيانات التدريب الأساسية، مما يحد من قابلية التكرار الكاملة والتحليل العميق لخصائصها. بينما قامت الإصدارات اللاحقة بتعديل الشروط، غالبًا ما تظل المشكلة الأساسية المتمثلة في غموض البيانات قائمة.
- Phi-2 من Microsoft: قدمت Microsoft نموذج Phi-2 كنموذج لغوي صغير ‘مفتوح المصدر’. بينما تتوفر أوزان النموذج، فإن الترخيص له قيود استخدام محددة، والمعلومات التفصيلية حول مجموعة بيانات التدريب الخاصة به، وهي حاسمة لفهم قدراته وتحيزاته المحتملة (خاصة بالنظر إلى تدريبه على بيانات ‘اصطناعية’)، ليست شفافة تمامًا.
- Mixtral من Mistral AI: اكتسب هذا النموذج، الذي أصدرته شركة ناشئة أوروبية بارزة في مجال الذكاء الاصطناعي، الاهتمام بأدائه. بينما تم إصدار المكونات بموجب ترخيص Apache 2.0 المتساهل (وهو ترخيص مفتوح حقًا للكود/الأوزان)، تظل الشفافية الكاملة فيما يتعلق بتكوين بيانات التدريب وعملية التنظيم محدودة، مما يعيق التدقيق العلمي العميق.
قارن هذه المبادرات مع المبادرات التي تسعى جاهدة لتحقيق توافق أكبر مع مبادئ المصدر المفتوح التقليدية:
- OLMo من Allen Institute for AI: يهدف هذا المشروع صراحةً إلى بناء نموذج لغوي مفتوح حقًا، مع إعطاء الأولوية لإصدار ليس فقط أوزان النموذج والكود ولكن أيضًا بيانات التدريب (مجموعة بيانات Dolma) وسجلات التدريب التفصيلية. يتيح هذا الالتزام مستويات غير مسبوقة من قابلية التكرار والتحليل من قبل مجتمع البحث الأوسع.
- CrystalCoder من LLM360: يؤكد هذا الجهد المجتمعي بالمثل على إصدار جميع مكونات دورة حياة تطوير النموذج، بما في ذلك نقاط التحقق الوسيطة والوثائق التفصيلية حول البيانات وعملية التدريب، مما يعزز مستوى من الشفافية غالبًا ما يكون مفقودًا في الإصدارات المؤسسية.
تسلط هذه الأمثلة المتناقضة الضوء على أن الانفتاح الحقيقي في الذكاء الاصطناعي ممكن، ولكنه يتطلب التزامًا متعمدًا يتجاوز مجرد إصدار الكود أو الأوزان. إنه يتطلب الشفافية بشأن البيانات والعملية، واحتضان التدقيق الذي يأتي معها. الغموض الحالي الذي يعززه ‘الغسيل المفتوح’ يجعل من الصعب على الباحثين تمييز الأدوات التي تدعم حقًا البحث العلمي المفتوح.
تآكل الثقة: النزاهة العلمية على المحك
تمتد تداعيات هذا ‘الغسيل المفتوح’ المنتشر إلى ما هو أبعد من مجرد العلامة التجارية. عندما يعتمد الباحثون على نماذج الذكاء الاصطناعي التي تكون أعمالها الداخلية، لا سيما البيانات التي تم تدريبها عليها، غامضة، فإن ذلك يضرب في صميم المنهجية العلمية.
- تقويض قابلية التكرار: حجر الزاوية في الصلاحية العلمية هو قدرة الباحثين المستقلين على تكرار النتائج. إذا كانت بيانات التدريب ومنهجيات التدريب الدقيقة غير معروفة، يصبح التكرار الحقيقي مستحيلاً. قد يستخدم الباحثون نموذجًا مدربًا مسبقًا، لكن لا يمكنهم التحقق من بنائه أو استكشاف خصائصه الأساسية المستمدة من البيانات المخفية.
- إعاقة التحقق: كيف يمكن للعلماء الوثوق بمخرجات نموذج إذا لم يتمكنوا من فحص البيانات التي تعلم منها؟ ستظهر حتمًا التحيزات الخفية أو عدم الدقة أو المخاوف الأخلاقية المضمنة في بيانات التدريب في سلوك النموذج، ولكن بدون شفافية، يصعب اكتشاف هذه العيوب أو تشخيصها أو التخفيف من حدتها. يؤدي استخدام مثل هذه الصناديق السوداء للاكتشاف العلمي إلى مستوى غير مقبول من عدم اليقين.
- خنق الابتكار: يتقدم العلم بالبناء على العمل السابق. إذا تم إصدار النماذج التأسيسية بقيود أو بدون الشفافية اللازمة (خاصة فيما يتعلق بالبيانات)، فإن ذلك يعيق قدرة الآخرين على الابتكار، أو تجربة أنظمة تدريب بديلة، أو تكييف النماذج لتطبيقات علمية جديدة بطرق ربما لم يتصورها المبدعون الأصليون. يصبح التقدم محكومًا بمقدمي هذه الأنظمة شبه المبهمة.
يجبر الاعتماد على أنظمة الشركات المغلقة أو المغلقة جزئيًا الباحثين على لعب دور المستهلك السلبي بدلاً من المشاركين والمبتكرين النشطين. إنه يخاطر بخلق مستقبل يتم فيه التحكم في البنية التحتية العلمية الحيوية من قبل عدد قليل من الكيانات الكبيرة، مما قد يعطي الأولوية للمصالح التجارية على احتياجات البحث العلمي المفتوح. يترجم هذا التآكل في الشفافية مباشرة إلى تآكل الثقة في الأدوات التي تدعم البحث الحديث.
تركيز السوق والتأثير المخيف على الابتكار
إلى جانب التأثير المباشر على الممارسة العلمية، يحمل انتشار المصدر المفتوح الزائف في الذكاء الاصطناعي آثارًا اقتصادية وسوقية كبيرة. يتطلب تطوير نماذج تأسيسية كبيرة ليس فقط خبرة كبيرة ولكن أيضًا الوصول إلى مجموعات بيانات ضخمة وقوة حاسوبية هائلة - وهي موارد تحتفظ بها بشكل غير متناسب شركات التكنولوجيا الكبرى.
عندما تصدر هذه الشركات نماذج تحت شعار ‘المصدر المفتوح’ ولكنها تحتفظ بالسيطرة على بيانات التدريب الحاسمة أو تفرض تراخيص مقيدة، فإنها تخلق ساحة لعب غير متكافئة.
- حواجز الدخول: تفتقر الشركات الناشئة والمختبرات البحثية الأصغر إلى الموارد اللازمة لإنشاء نماذج تأسيسية مماثلة من الصفر. إذا كانت النماذج ‘المفتوحة’ المفترضة التي أصدرتها الشركات القائمة تأتي بشروط مرفقة (مثل قيود الاستخدام التجاري أو غموض البيانات الذي يمنع التعديل العميق)، فإن ذلك يحد من قدرة هؤلاء اللاعبين الأصغر على المنافسة بفعالية أو بناء تطبيقات مبتكرة حقًا فوقها.
- ترسيخ الشركات القائمة: يمكن أن يكون ‘الغسيل المفتوح’ بمثابة خندق استراتيجي. من خلال إصدار نماذج مفيدة ولكنها ليست مفتوحة حقًا، يمكن للشركات الكبيرة تعزيز النظم البيئية المعتمدة على تقنيتها مع منع المنافسين من تكرار أصولها الأساسية (البيانات وعمليات التدريب المكررة) بالكامل أو تحسينها بشكل كبير. يبدو الأمر وكأنه انفتاح ولكنه يعمل بشكل أقرب إلى استراتيجية منصة محكومة.
- تقليل تنوع المناهج: إذا أصبح الابتكار يعتمد بشكل مفرط على عدد قليل من النماذج التأسيسية المهيمنة وشبه المبهمة، فقد يؤدي ذلك إلى تجانس تطوير الذكاء الاصطناعي، مما قد يتجاهل البنى البديلة أو نماذج التدريب أو استراتيجيات البيانات التي قد تستكشفها المجموعات الأصغر والمستقلة إذا كان المجال مفتوحًا حقًا.
كان المصدر المفتوح الحقيقي تاريخيًا محركًا قويًا للمنافسة والابتكار الموزع. يخاطر الاتجاه الحالي في الذكاء الاصطناعي بتركيز القوة وخنق الديناميكية ذاتها التي يهدف التعاون المفتوح إلى تعزيزها، مما قد يؤدي إلى مشهد ذكاء اصطناعي أقل حيوية وأكثر تحكمًا مركزيًا.
النقاط العمياء التنظيمية والمأزق الأخلاقي
تستحق إمكانية استغلال ‘الغسيل المفتوح’ للثغرات التنظيمية، لا سيما فيما يتعلق بأطر العمل مثل قانون الذكاء الاصطناعي للاتحاد الأوروبي (EU AI Act)، فحصًا دقيقًا. يهدف هذا القانون إلى وضع لوائح قائمة على المخاطر لأنظمة الذكاء الاصطناعي، وفرض متطلبات أكثر صرامة على التطبيقات عالية المخاطر. تهدف الإعفاءات أو الالتزامات الأخف للذكاء الاصطناعي مفتوح المصدر إلى تعزيز الابتكار وتجنب إثقال كاهل مجتمع المصدر المفتوح.
ومع ذلك، إذا تمكنت الشركات من المطالبة بنجاح بعباءة ‘المصدر المفتوح’ للنماذج التي تفتقر إلى الشفافية الحقيقية (خاصة فيما يتعلق بالبيانات والتدريب)، فقد تتجاوز ضمانات مهمة. هذا يثير أسئلة حاسمة:
- التدقيق الهادف: هل يمكن للمنظمين تقييم مخاطر نموذج ذكاء اصطناعي قوي بشكل كافٍ إذا كانت بيانات تدريبه - وهي محدد رئيسي لسلوكه وتحيزاته المحتملة - مخفية عن الأنظار؟ قد يسمح التوسيم الخاطئ للأنظمة التي يحتمل أن تكون عالية المخاطر بالعمل برقابة أقل مما هو مقصود.
- فجوات المساءلة: عندما تسوء الأمور - إذا أظهر نموذج تحيزًا ضارًا أو أنتج مخرجات خطيرة - فمن المسؤول إذا كانت البيانات الأساسية وعملية التدريب غامضة؟ يسهل الانفتاح الحقيقي التحقيق والمساءلة؛ ‘الغسيل المفتوح’ يحجبه.
- الحوكمة الأخلاقية: يتطلب نشر الذكاء الاصطناعي بمسؤولية فهم قيوده وتأثيراته المجتمعية المحتملة. يتم تقويض هذا الفهم بشكل أساسي عندما يتم الاحتفاظ بالمكونات الأساسية مثل بيانات التدريب سرية. إنه يجعل عمليات التدقيق المستقلة وتقييمات التحيز والمراجعات الأخلاقية أكثر صعوبة بشكل كبير، إن لم تكن مستحيلة.
إن الاستخدام الاستراتيجي لعلامة ‘المصدر المفتوح’ للتنقل في التنظيم ليس مجرد مناورة قانونية؛ له آثار أخلاقية عميقة. إنه يخاطر بتقويض ثقة الجمهور وإعاقة الجهود المبذولة لضمان أن تطوير الذكاء الاصطناعي يسير بطريقة آمنة وعادلة وخاضعة للمساءلة. لذلك، فإن ضمان توافق التعريفات التنظيمية لـ ‘الذكاء الاصطناعي مفتوح المصدر’ مع مبادئ الشفافية الحقيقية أمر بالغ الأهمية.
رسم مسار نحو انفتاح حقيقي للذكاء الاصطناعي
لحسن الحظ، تدق أجراس الإنذار، والجهود جارية لاستعادة معنى ‘المصدر المفتوح’ في عصر الذكاء الاصطناعي. قادت مبادرة المصدر المفتوح (Open Source Initiative - OSI)، وهي جهة راعية طويلة الأمد لتعريفات المصدر المفتوح، عملية تشاور عالمية لوضع معايير واضحة للذكاء الاصطناعي مفتوح المصدر (مما أدى إلى تعريف OSAID 1.0).
أحد الابتكارات الرئيسية في هذا الجهد هو مفهوم ‘معلومات البيانات’ (data information). إدراكًا بأن إصدار مجموعات البيانات الخام الضخمة قد يكون غير ممكن قانونيًا أو لوجستيًا في بعض الحالات (بسبب الخصوصية أو حقوق النشر أو الحجم الهائل)، يؤكد إطار عمل OSAID على الحاجة إلى الكشف الشامل عن البيانات. يتضمن ذلك تفاصيل حول:
- المصادر: من أين أتت البيانات؟
- الخصائص: ما نوع البيانات (نص، صور، كود)؟ ما هي خصائصها الإحصائية؟
- الإعداد: كيف تم جمع البيانات وتصفيتها وتنظيفها ومعالجتها مسبقًا؟ ما هي الخطوات التي تم اتخاذها للتخفيف من التحيز؟
يوفر هذا المستوى من الشفافية، حتى بدون البيانات الخام نفسها، سياقًا حاسمًا للباحثين لفهم القدرات المحتملة للنموذج وقيوده وتحيزاته المحتملة. إنه يمثل حلاً وسطًا عمليًا، يدفع نحو أقصى قدر من الشفافية ضمن القيود الحالية. إلى جانب OSI، تدعو منظمات مثل Open Future إلى تحول أوسع نحو نموذج ‘مشاعات البيانات’ (data-commons)، واستكشاف طرق لإنشاء مجموعات بيانات مشتركة، ومصادر أخلاقية، ومتاحة بشكل مفتوح لتدريب الذكاء الاصطناعي، مما يقلل من حواجز الدخول ويعزز التطوير التعاوني. إن إنشاء مثل هذه المعايير الواضحة التي تم فحصها من قبل المجتمع والالتزام بها هو الخطوة الأولى الأساسية نحو تبديد ضباب ‘الغسيل المفتوح’.
الضرورة الملحة لمجتمع البحث
العلماء والباحثون ليسوا مجرد مستهلكين لأدوات الذكاء الاصطناعي؛ إنهم أصحاب مصلحة حاسمون في ضمان توافق هذه الأدوات مع القيم العلمية. يعد الانخراط بنشاط في التعريفات والمعايير المتطورة، مثل OSAID 1.0، أمرًا حيويًا. لكن يجب أن يتجاوز العمل مجرد الوعي:
- المطالبة بالشفافية: في المنشورات ومقترحات المنح واختيار الأدوات، يجب على الباحثين إعطاء الأولوية والمطالبة بمزيد من الشفافية فيما يتعلق بنماذج الذكاء الاصطناعي التي يستخدمونها. يشمل ذلك الدفع للحصول على بطاقات ‘معلومات البيانات’ المفصلة أو أوراق البيانات المصاحبة لإصدارات النماذج.
- دعم الانفتاح الحقيقي: المساهمة بنشاط في، واستخدام، والاستشهاد بمشاريع مثل OLMo أو المبادرات الأخرى التي تظهر التزامًا حقيقيًا بإصدار الكود والبيانات والمنهجية. التصويت بالتنزيلات والاستشهادات يرسل إشارة سوق قوية.
- تطوير معايير التقييم: يحتاج المجتمع إلى طرق وقوائم مرجعية قوية لتقييم درجة انفتاح نموذج الذكاء الاصطناعي، متجاوزًا التسميات المبسطة. يجب أن تتضمن عمليات مراجعة الأقران فحصًا لادعاءات الشفافية المرتبطة بأدوات الذكاء الاصطناعي المستخدمة في البحث.
- الدعوة داخل المؤسسات: تشجيع الجامعات ومعاهد البحث والجمعيات المهنية على تبني سياسات تفضل أو تتطلب استخدام أدوات ومنصات ذكاء اصطناعي مفتوحة وشفافة حقًا.
يمتلك المجتمع العلمي تأثيرًا كبيرًا. من خلال الإصرار الجماعي على المعايير التي تدعم قابلية التكرار والشفافية والوصول التعاوني، يمكن للباحثين مقاومة الادعاءات المضللة والمساعدة في تشكيل نظام بيئي للذكاء الاصطناعي يفضي إلى الاكتشاف العلمي الدقيق.
السياسة والتمويل والمسار إلى الأمام
تمتلك الحكومات ووكالات التمويل العام أيضًا قوة كبيرة في تشكيل مشهد الذكاء الاصطناعي. يمكن لسياساتها إما أن تؤيد ضمنيًا ‘الغسيل المفتوح’ أو تعزز بنشاط الانفتاح الحقيقي.
- تفويضات الانفتاح: لدى مؤسسات مثل المعاهد الوطنية للصحة الأمريكية (NIH) بالفعل تفويضات تتطلب ترخيصًا مفتوحًا ومشاركة البيانات للأبحاث التي تمولها. يعد توسيع مبادئ مماثلة لتشمل نماذج الذكاء الاصطناعي ومجموعات البيانات المطورة بأموال عامة خطوة منطقية وضرورية. إذا دعمت الأموال العامة تطوير الذكاء الاصطناعي، فيجب أن تكون النتائج متاحة للجمهور ويمكن التحقق منها إلى أقصى حد ممكن.
- قوة المشتريات: الوكالات الحكومية مستهلك رئيسي للتكنولوجيا. من خلال تحديد متطلبات الذكاء الاصطناعي مفتوح المصدر الحقيقي (الالتزام بمعايير مثل OSAID) في عقود المشتريات العامة، يمكن للحكومات إنشاء حافز سوق كبير للشركات لتبني ممارسات أكثر شفافية. يقدم شرط إيطاليا للبرامج مفتوحة المصدر في الإدارة العامة نموذجًا محتملاً.
- الاستثمار في البنية التحتية المفتوحة: إلى جانب التنظيم، يمكن أن يكون الاستثمار العام في مبادرات ‘مشاعات البيانات’، والموارد الحاسوبية المفتوحة للباحثين، والمنصات المخصصة لاستضافة وتقييم نماذج الذكاء الاصطناعي المفتوحة حقًا، تحويليًا. يمكن أن يساعد ذلك في تحقيق تكافؤ الفرص وتوفير بدائل قابلة للتطبيق للأنظمة المملوكة أو شبه المفتوحة.
- التعاون العالمي: نظرًا للطبيعة العالمية لتطوير الذكاء الاصطناعي، يعد التعاون الدولي بشأن تحديد وتعزيز معايير الذكاء الاصطناعي مفتوح المصدر أمرًا ضروريًا لتجنب التجزئة التنظيمية وضمان خط أساس ثابت للشفافية والمساءلة في جميع أنحاء العالم.
يمكن لأدوات السياسة، عند تطبيقها بعناية، أن تحول الحوافز بشكل كبير بعيدًا عن التوسيم الخادع نحو الممارسات التي تدعم حقًا النزاهة العلمية والابتكار الواسع. تتطلب مكافحة وهم ‘المصدر المفتوح’ في الذكاء الاصطناعي جهدًا منسقًا. يجب أن يكون الباحثون نقادًا يقظين، يطالبون بالشفافية اللازمة للدقة العلمية. يجب أن تستمر هيئات وضع المعايير مثل OSI في تحسين التعريفات التي تعكس الطبيعة الفريدة للذكاء الاصطناعي. ويجب على صانعي السياسات استخدام نفوذهم لتحفيز وفرض الممارسات التي تتماشى مع المصلحة العامة في ذكاء اصطناعي يمكن التحقق منه وجدير بالثقة ويمكن الوصول إليه. إن المسار المستقبلي للذكاء الاصطناعي في العلوم - سواء أصبح حدودًا مفتوحة حقًا للاكتشاف أو مشهدًا تهيمن عليه أنظمة الشركات المبهمة - معلق في الميزان.