ذكاء اصطناعي ببيانات أخلاقية 100%

المهمة الشاقة للحصول على البيانات الأخلاقية

إن الرحلة إلى هذه الواحة الأخلاقية للذكاء الاصطناعي لم تكن نزهة في الحديقة. كما يعترف الباحثون بسهولة، لم تكن القوة الحاسوبية هي العائق الحقيقي، بل الجهد البشري الهائل. تطلبت عملية تجميع Common Pile v0.1، وهي مجموعة بيانات واسعة تتجاوز ثمانية تيرابايت، تنظيفًا وإعادة تنسيق يدويين مضنيين لجعلها مناسبة لتدريب الذكاء الاصطناعي. تخيل أنك تقوم بتصفية أكوام لا نهاية لها تقريبًا من المعلومات الرقمية، والبحث عن أي نوع من الأخطاء التي قد تفسد مجموعة البيانات.

ولكن التحدي الحقيقي يكمن في التدقيق المنهجي المزدوج لحالة حقوق الطبع والنشر. في عالم الإنترنت الفوضوي، يعد الترخيص الخاطئ المتفشي هو القاعدة، مما يحول التحقق من حقوق الطبع والنشر إلى مهمة شاقة.

نقلت صحيفة WaPo عن ستيلا بيدرمان، المؤلفة المشاركة في الدراسة، قولها: "هذا ليس شيئًا يمكنك فيه ببساطة زيادة الموارد المتاحة لديك". "نحن نستخدم أدوات آلية، ولكن جميع موادنا تم شرحها يدويًا في نهاية اليوم وفحصها من قبل الأشخاص. وهذا أمر صعب حقًا."

عملية فرز تيرابايت من البيانات بحثًا عن مشكلات حقوق الطبع والنشر ليست سهلة. لم يتمكن الباحثون ببساطة من إضافة المزيد من شرائح الكمبيوتر إلى العملية والأمل في إيجاد حل. وبدلاً من ذلك، احتاجوا إلى التحقق يدويًا وشرح جميع البيانات.

الانتصار على الشدائد: ولادة الذكاء الاصطناعي الأخلاقي

على الرغم من العقبات الهائلة، ثابرت بيدرمان وفريقها المتفاني. بمجرد الانتهاء من المهمة الشاقة المتمثلة في إنشاء Common Pile، أطلقوا العنان لإمكاناته لتدريب نموذج لغوي كبير (LLM) بسبعة مليارات معلمة. لم يحافظ الذكاء الاصطناعي الناتج على مكانته في مواجهة المعايير الصناعية مثل Llama 1 و Llama 2 7B من Meta فحسب، بل فعل ذلك أيضًا بضمير أخلاقي نظيف.

لكن مشهد أبحاث الذكاء الاصطناعي يتطور بسرعة البرق. من المهم أن تتذكر أن Meta أصدرت Llama 1 و Llama 2 قبل عامين، وهي فترة أبدية نسبيًا في عالم الذكاء الاصطناعي.

إن حقيقة أن فريقًا صغيرًا مصممًا يمكنه تحقيق نتائج مماثلة بموارد محدودة هي شهادة على براعتهم. كان من بين الاكتشافات الملهمة بشكل خاص كنز دفين يضم أكثر من 130.000 كتاب باللغة الإنجليزية في مكتبة الكونغرس والتي تم التغاضي عنها سابقًا.

المياه الموحلة للذكاء الاصطناعي وحقوق الطبع والنشر

لا تزال حقوق الطبع والنشر قضية أخلاقية وقانونية شائكة في عصر الذكاء الاصطناعي. لقد جمعت شركات عملاقة في الصناعة مثل OpenAI و Google مجموعات بيانات واسعة من خلال التهام كل شيء في الأفق، من المقالات الإخبارية إلى منشورات وسائل التواصل الاجتماعي الشخصية. وقد أثارت هذه الممارسة انتقادات من جميع الأطراف. حتى أن المؤلفين رفعوا دعاوى قضائية، زاعمين الاستخدام غير القانوني للكتب المحمية بحقوق الطبع والنشر لتدريب نماذج الذكاء الاصطناعي.

تزعم صناعة التكنولوجيا أن هذه الممارسات تشكل استخدامًا عادلاً، بحجة أن تطوير الذكاء الاصطناعي سيكون "مستحيلاً" بدون الوصول غير المقيد إلى البيانات. يقدم هذا البحث الأخير توبيخًا لاذعًا لسرد وادي السيليكون هذا.

في حين أن هذا الإنجاز يمثل خطوة كبيرة إلى الأمام، إلا أنه لا يزيل جميع الاعتبارات الأخلاقية. لا تزال النماذج اللغوية الكبيرة، بما لديها من القدرة على إزاحة العمال البشريين، تثير أسئلة أساسية حول مستقبل العمل. علاوة على ذلك، قد لا يروق استخدام الأعمال الموجودة في المجال العام للجميع، وخاصة أولئك الذين يتم الآن إعادة إنتاج مساهماتهم الإبداعية بواسطة الذكاء الاصطناعي.

حتى في مستقبل افتراضي حيث تضطر شركات الذكاء الاصطناعي إلى طلب الإذن أو تقديم تعويض عن استخدام البيانات، قد لا يزال أصحاب حقوق الطبع والنشر يواجهون ضغوطًا غير مبررة للسماح بتدريب الذكاء الاصطناعي. إن الموارد الهائلة التي يمكن حشدها عند تدريب نماذج الذكاء الاصطناعي تعني أن معظم أصحاب حقوق الطبع والنشر لن يكونوا قادرين على مقاومة ضغوط شركات الذكاء الاصطناعي الكبيرة للسماح لهم باستخدام البيانات.

نحو الشفافية والمساءلة في الذكاء الاصطناعي

ومع ذلك، تظل بيدرمان واقعية. إنها لا تتوهم أن شركات مثل OpenAI ستبدأ فجأة في تبني مصادر البيانات الأخلاقية. بدلاً من ذلك، تأمل أن يشجع عملها على زيادة الشفافية في استخدام البيانات. ما هي مجموعات البيانات التي تم استخدامها لتدريب منتجات الذكاء الاصطناعي؟ معرفة الإجابة على هذا السؤال يمكن أن يكون له آثار كبيرة على مستقبل الذكاء الاصطناعي.

وقالت لصحيفة WaPo: "حتى الشفافية الجزئية لها قدر كبير من القيمة الاجتماعية وقدر معتدل من القيمة العلمية".

حاليًا، مجموعات البيانات الدقيقة المستخدمة لتدريب الذكاء الاصطناعي معينة هي أسرار محمية عن كثب. الطريقة الوحيدة لتكرار نموذج الذكاء الاصطناعي هي إما أن يتم إخبارك بالضبط بكيفية إنشاء نموذج الذكاء الاصطناعي الحالي، أو إجراء هندسة عكسية لنموذج الذكاء الاصطناعي الذي قد يستغرق الكثير من الوقت والجهد.

تحول نموذجي في تطوير الذكاء الاصطناعي

تمتد آثار هذا البحث إلى أبعد من مجال أخلاقيات الذكاء الاصطناعي. إنه يدل على تحول أساسي في كيفية تطوير الذكاء الاصطناعي، مما يدل على أن الاعتبارات الأخلاقية والتقدم التكنولوجي ليسا بالضرورة حتميين بشكل متبادل. من خلال إعطاء الأولوية للشفافية ومصادر البيانات المسؤولة والإشراف البشري، يمكننا تشكيل مستقبل يخدم فيه الذكاء الاصطناعي الإنسانية، بدلاً من العكس.

معالجة المخاوف الأخلاقية والتأثيرات المجتمعية

لقد تم الآن تحدي حجة صناعة التكنولوجيا بأن استخدام البيانات الأخلاقية يمثل عقبة لا يمكن التغلب عليها بشكل حاسم. يؤكد نجاح هذا المشروع على جدوى بناء نماذج الذكاء الاصطناعي على أساس أخلاقي متين. ومع ذلك، فإن الأبعاد الأخلاقية لتطوير الذكاء الاصطناعي تتجاوز قضايا حقوق الطبع والنشر. تتطلب الآثار الاجتماعية والاقتصادية للذكاء الاصطناعي، بما في ذلك إزاحة الوظائف والتحيز الخوارزمي، دراسة متأنية.

إن الاعتبارات الأخلاقية التي تؤثر على نماذج الذكاء الاصطناعي تتجاوز مجرد المصادر. يجب علينا أيضًا التحقق من أن البيانات لا تتسبب في تحيز نماذج الذكاء الاصطناعي تجاه أو ضد أي شريحة من السكان.

تعزيز الشفافية والمساءلة

لتعزيز الثقة وضمان الابتكار المسؤول، يجب على صناعة الذكاء الاصطناعي أن تتبنى الشفافية والمساءلة. يجب أن تكون الشركات منفتحة بشأن مصادر البيانات المستخدمة لتدريب نماذجها والمنهجيات المستخدمة للتخفيف من التحيز. يمكن لعمليات التدقيق المستقلة والإشراف الخارجي أن تزيد من تعزيز المساءلة ومنع الإخفاقات الأخلاقية.

يمكن تنفيذ شفافية الذكاء الاصطناعي للتحقق من أن مجموعات البيانات تحتوي على توزيع واسع بما يكفي لتجنب التحيز في نموذج الذكاء الاصطناعي. يمكن تنفيذ مساءلة الذكاء الاصطناعي عن طريق عمليات التدقيق الخارجية للتحقق من الإخفاقات الأخلاقية المحتملة.

التعاون وحلول المصادر المفتوحة

يتطلب تطوير الذكاء الاصطناعي ذي المصادر الأخلاقية التعاون وحلول المصادر المفتوحة. من خلال مشاركة مجموعات البيانات والمنهجيات وأفضل الممارسات، يمكن للباحثين والمطورين تسريع التقدم ومعالجة تحديات تطوير الذكاء الاصطناعي الأخلاقي بشكل جماعي. يمكن لمبادرات المصادر المفتوحة أيضًا تمكين المنظمات والأفراد الأصغر حجمًا من المشاركة في ثورة الذكاء الاصطناعي، وضمان تقاسم فوائد هذه التكنولوجيا بشكل أكثر إنصافًا.

وعد بمستقبل أكثر إشراقًا

يمثل إنشاء نموذج ذكاء اصطناعي تم تدريبه بالكامل على بيانات ذات مصادر أخلاقية علامة فارقة في السعي لتحقيق الذكاء الاصطناعي المسؤول والمفيد. لا يثبت هذا الإنجاز الرائد أن تطوير الذكاء الاصطناعي الأخلاقي ممكن فحسب، بل يقدم أيضًا خارطة طريق ليتبعها الآخرون. من خلال تبني الشفافية وال التعاون والالتزام بالمبادئ الأخلاقية ، يمكننا إطلاق العنان للإمكانات الكاملة للذكاء الاصطناعي مع حماية القيم الإنسانية وتعزيز مستقبل أكثر عدلاً وإنصافًا.