إن التقدم المتواصل في تطوير الذكاء الاصطناعي، بقيادة عمالقة مثل OpenAI، يصطدم بشكل متكرر بالمبادئ الراسخة للملكية الفكرية وملكية البيانات. وقد أثار هذا التصادم الجدل مرة أخرى، مع ظهور مزاعم جديدة بأن أحدث نموذج رائد لشركة OpenAI، وهو GPT-4o، ربما تم تدريبه باستخدام مواد محمية بحقوق الطبع والنشر وموجودة خلف جدران الدفع، ومن المحتمل أن يكون ذلك دون الحصول على الأذونات اللازمة. تنبع هذه الادعاءات من مجموعة رقابية حديثة التأسيس، وهي AI Disclosures Project، مما يضيف طبقة أخرى من التعقيد إلى النقاش المعقد بالفعل حول المصادر الأخلاقية للبيانات لتدريب أنظمة الذكاء الاصطناعي المتطورة.
نباح الرقيب: مزاعم من AI Disclosures Project
تأسس مشروع AI Disclosures Project في عام 2024، ويقدم نفسه كهيئة غير ربحية مكرسة للتدقيق في الممارسات التي غالبًا ما تكون غامضة داخل صناعة الذكاء الاصطناعي. يشمل مؤسسوه شخصيات بارزة مثل رائد الأعمال الإعلامي Tim O’Reilly، مؤسس O’Reilly Media، وهي دار نشر بارزة للكتب التقنية، والاقتصادي Ilan Strauss. هذه الصلة بـ O’Reilly Media ذات أهمية خاصة، حيث يركز تقرير المشروع الأولي المثير للجدل بشكل خاص على الوجود المزعوم لمحتوى كتب O’Reilly المحمي بنظام الدفع ضمن مجموعة بيانات تدريب GPT-4o.
إن التأكيد المركزي لدراستهم مثير للجدل: على الرغم من عدم وجود أي اتفاقية ترخيص معروفة بين OpenAI و O’Reilly Media، يُظهر نموذج GPT-4o مستوى عالٍ بشكل ملحوظ من الإلمام بالمحتوى المشتق مباشرة من كتب O’Reilly المحمية بحقوق الطبع والنشر. يجادل التقرير بأن هذا الإلمام يشير بقوة إلى أن هذه المواد المحمية بنظام الدفع قد تم دمجها في المجموعة الهائلة من البيانات المستخدمة لبناء قدرات النموذج. تسلط الدراسة الضوء على اختلاف كبير مقارنة بنماذج OpenAI الأقدم، لا سيما GPT-3.5 Turbo، مما يعني تحولًا محتملاً أو توسعًا في ممارسات الحصول على البيانات التي سبقت تطوير GPT-4o.
الآثار المترتبة على ذلك كبيرة. إذا تم استيعاب المحتوى الخاص المدفوع من قبل نماذج الذكاء الاصطناعي دون إذن أو تعويض، فإنه يثير تساؤلات جوهرية حول قانون حقوق النشر في عصر الذكاء الاصطناعي التوليدي. يعتمد الناشرون والمؤلفون على نماذج الاشتراك أو الشراء، القائمة على حصرية محتواهم. يمكن اعتبار الاستخدام المزعوم لهذه المواد للتدريب بمثابة تقويض لنماذج الأعمال هذه، مما قد يقلل من قيمة المحتوى ذاته الذي يتطلب استثمارًا كبيرًا لإنشائه. يتجاوز هذا الاتهام المحدد كشط مواقع الويب المتاحة للجمهور، وينتقل إلى منطقة الوصول إلى المحتوى المخصص صراحة للعملاء الذين يدفعون.
التحديق داخل الصندوق الأسود: هجوم استدلال العضوية (Membership Inference Attack)
لإثبات ادعاءاتهم، استخدم الباحثون في AI Disclosures Project تقنية متطورة تُعرف باسم ‘هجوم استدلال العضوية’ (membership inference attack)، وتحديداً باستخدام طريقة يطلقون عليها اسم DE-COP. الفكرة الأساسية وراء هذا النهج هي اختبار ما إذا كان نموذج الذكاء الاصطناعي قد ‘حفظ’ أو على الأقل طور ألفة قوية مع أجزاء معينة من النص. في جوهره، يقوم الهجوم باستجواب النموذج لمعرفة ما إذا كان بإمكانه التمييز بشكل موثوق بين مقاطع النص الأصلية (في هذه الحالة، من كتب O’Reilly) والإصدارات المعاد صياغتها بعناية لنفس المقاطع، والتي تم إنشاؤها بواسطة ذكاء اصطناعي آخر.
المنطق الأساسي هو أنه إذا أظهر النموذج باستمرار قدرة أعلى من العشوائية على تحديد النص الأصلي الذي ألفه الإنسان مقارنة بإعادة صياغة قريبة، فهذا يعني أن النموذج قد واجه هذا النص الأصلي من قبل - على الأرجح أثناء مرحلة التدريب. يشبه الأمر اختبار ما إذا كان شخص ما يتعرف على صورة فوتوغرافية معينة غير معروفة يدعي أنه لم يرها من قبل؛ فالتعرف المستمر يشير إلى التعرض المسبق.
كان نطاق اختبار AI Disclosures Project كبيرًا. لقد استخدموا 13,962 مقتطفًا مميزًا من الفقرات مأخوذة من 34 كتابًا مختلفًا من O’Reilly Media. تمثل هذه المقتطفات نوع المحتوى المتخصص عالي القيمة الموجود عادةً خلف جدار الدفع الخاص بالناشر. ثم قامت الدراسة بقياس أداء كل من GPT-4o وسابقه، GPT-3.5 Turbo، في مهمة التمييز هذه.
كانت النتائج، كما تم تقديمها في التقرير، مذهلة. أظهر GPT-4o قدرة معززة بشكل كبير على التعرف على محتوى O’Reilly المحمي بنظام الدفع. تم قياس أدائه باستخدام درجة AUROC (Area Under the Receiver Operating Characteristic curve)، وهو مقياس شائع لتقييم أداء المصنفات الثنائية. حقق GPT-4o درجة AUROC تبلغ 82%. في المقابل، سجل GPT-3.5 Turbo ما يزيد قليلاً عن 50%، وهو ما يعادل أساسًا التخمين العشوائي - مما يشير إلى عدم وجود تعرف محدد يذكر على المادة المختبرة. يجادل التقرير بأن هذا الاختلاف الصارخ يقدم دليلاً مقنعًا، وإن كان غير مباشر، على أن المحتوى المحمي بنظام الدفع كان بالفعل جزءًا من نظام تدريب GPT-4o. تشير درجة 82% إلى إشارة قوية، تتجاوز بكثير ما يمكن توقعه بالصدفة أو المعرفة المعممة.
التحذيرات الضرورية والأسئلة التي لم تتم الإجابة عليها
بينما تقدم النتائج سردًا مقنعًا، فإن المؤلفين المشاركين في الدراسة، بمن فيهم باحث الذكاء الاصطناعي Sruly Rosenblat، يعترفون بشكل جدير بالثناء بالقيود المحتملة الكامنة في منهجيتهم والطبيعة المعقدة لتدريب الذكاء الاصطناعي. أحد التحذيرات الهامة التي يثيرونها هو احتمال استيعاب البيانات بشكل غير مباشر. يلاحظون أنه من المتصور أن مستخدمي ChatGPT (واجهة OpenAI الشهيرة) ربما قاموا بنسخ ولصق مقتطفات من كتب O’Reilly المحمية بنظام الدفع مباشرة في واجهة الدردشة لأغراض مختلفة، مثل طرح أسئلة حول النص أو طلب ملخصات. إذا حدث هذا بشكل متكرر بما فيه الكفاية، فقد يكون النموذج قد تعلم المحتوى بشكل غير مباشر من خلال تفاعلات المستخدم، بدلاً من الإدراج المباشر في مجموعة بيانات التدريب الأولية. لا يزال فصل التعرض المباشر للتدريب عن التعلم غير المباشر عبر مطالبات المستخدم يمثل تحديًا كبيرًا في التحليل الجنائي للذكاء الاصطناعي.
علاوة على ذلك، لم يمتد نطاق الدراسة ليشمل أحدث إصدارات نماذج OpenAI المطلقة أو المتخصصة التي ربما تم تطويرها أو إصدارها بالتزامن مع دورة التدريب الرئيسية لـ GPT-4o أو بعدها. النماذج التي قد تشمل GPT-4.5 (إذا كانت موجودة تحت هذا الاسم المحدد أو مستوى القدرة) والنماذج التي تركز على الاستدلال مثل o3-mini و o1 لم تخضع لنفس هجمات استدلال العضوية. هذا يترك الباب مفتوحًا أمام مسألة ما إذا كانت ممارسات مصادر البيانات قد تطورت أكثر، أو ما إذا كانت هذه النماذج الأحدث تظهر أنماطًا مماثلة من الإلمام بالمحتوى المحمي بنظام الدفع. تعني دورات التكرار السريعة في تطوير الذكاء الاصطناعي أن أي تحليل لقطة زمنية يخاطر بأن يصبح قديمًا بعض الشيء على الفور تقريبًا.
لا تبطل هذه القيود بالضرورة النتائج الأساسية للدراسة، لكنها تضيف طبقات حاسمة من الدقة. إن إثبات ما يوجد بشكل قاطع داخل تيرابايت البيانات المستخدمة لتدريب نموذج تأسيسي أمر صعب للغاية. تقدم هجمات استدلال العضوية أدلة احتمالية، مما يشير إلى الاحتمالية بدلاً من تقديم اليقين المطلق. تحافظ OpenAI، مثل مختبرات الذكاء الاصطناعي الأخرى، على سرية تكوين بيانات التدريب الخاصة بها، مشيرة إلى مخاوف تتعلق بالملكية وحساسيات تنافسية.
صراع أوسع: معارك حقوق النشر في ساحة الذكاء الاصطناعي
لا توجد المزاعم التي وجهها AI Disclosures Project في فراغ. إنها تمثل أحدث مناوشة في صراع أوسع نطاقًا ومستمر بين مطوري الذكاء الاصطناعي والمبدعين حول استخدام المواد المحمية بحقوق الطبع والنشر لأغراض التدريب. تجد OpenAI، جنبًا إلى جنب مع لاعبين بارزين آخرين مثل Google و Meta و Microsoft، نفسها متورطة في العديد من الدعاوى القضائية البارزة. هذه التحديات القانونية، التي رفعها مؤلفون وفنانون ومؤسسات إخبارية وأصحاب حقوق آخرون، تزعم عمومًا انتهاكًا واسع النطاق لحقوق الطبع والنشر ناتجًا عن الكشط غير المصرح به واستيعاب كميات هائلة من النصوص والصور من الإنترنت لتدريب نماذج الذكاء الاصطناعي التوليدية.
غالبًا ما يتوقف الدفاع الأساسي الذي تقدمه شركات الذكاء الاصطناعي على مبدأ الاستخدام العادل (في الولايات المتحدة) أو استثناءات مماثلة في ولايات قضائية أخرى. يجادلون بأن استخدام الأعمال المحمية بحقوق الطبع والنشر للتدريب يشكل استخدامًا ‘تحويليًا’ - فنماذج الذكاء الاصطناعي لا تقوم فقط بإعادة إنتاج الأعمال الأصلية ولكنها تستخدم البيانات لتعلم الأنماط والأساليب والمعلومات لتوليد مخرجات جديدة تمامًا. بموجب هذا التفسير، يجب أن تكون عملية التدريب نفسها، التي تهدف إلى إنشاء أداة جديدة قوية، مسموحًا بها دون الحاجة إلى تراخيص لكل جزء من البيانات التي يتم استيعابها.
ومع ذلك، يعترض أصحاب الحقوق بشدة على هذا الرأي. يجادلون بأن الحجم الهائل للنسخ المعني، والطبيعة التجارية لمنتجات الذكاء الاصطناعي التي يتم بناؤها، وإمكانية تنافس مخرجات الذكاء الاصطناعي بشكل مباشر مع الأعمال الأصلية واستبدالها، كلها عوامل ترجح بشدة ضد إيجاد استخدام عادل. الادعاء هو أن شركات الذكاء الاصطناعي تبني مؤسسات بمليارات الدولارات على حساب العمل الإبداعي دون تعويض المبدعين.
على خلفية هذه الدعاوى القضائية، سعت OpenAI بشكل استباقي إلى التخفيف من بعض المخاطر من خلال إبرام صفقات ترخيص مع مختلف مزودي المحتوى. تم الإعلان عن اتفاقيات مع كبار ناشري الأخبار (مثل Associated Press و Axel Springer)، ومنصات التواصل الاجتماعي (مثل Reddit)، ومكتبات الوسائط المخزنة (مثل Shutterstock). توفر هذه الصفقات لـ OpenAI وصولاً مشروعًا إلى مجموعات بيانات محددة مقابل الدفع، مما قد يقلل من اعتمادها على بيانات الويب التي يحتمل أن تكون مخالفة. كما ورد أن الشركة وظفت صحفيين، وكلفتهم بالمساعدة في تحسين جودة وموثوقية مخرجات نماذجها، مما يشير إلى الوعي بالحاجة إلى مدخلات عالية الجودة، وربما منسقة.
التأثير المضاعف: مخاوف بشأن النظام البيئي للمحتوى
يمتد تقرير AI Disclosures Project بمخاوفه إلى ما هو أبعد من الآثار القانونية المباشرة على OpenAI. إنه يؤطر القضية على أنها تهديد منهجي يمكن أن يؤثر سلبًا على صحة وتنوع النظام البيئي للمحتوى الرقمي بأكمله. تفترض الدراسة حلقة ردود فعل سلبية محتملة: إذا تمكنت شركات الذكاء الاصطناعي من استخدام محتوى عالي الجودة تم إنشاؤه باحتراف (بما في ذلك المواد المحمية بنظام الدفع) بحرية دون تعويض المبدعين، فإن ذلك يؤدي إلى تآكل الجدوى المالية لإنتاج مثل هذا المحتوى في المقام الأول.
غالبًا ما يتطلب إنشاء المحتوى الاحترافي - سواء كان صحافة استقصائية أو كتيبات تقنية متعمقة أو كتابة روائية أو بحثًا أكاديميًا - وقتًا وخبرة واستثمارًا ماليًا كبيرًا. غالبًا ما تكون جدران الدفع ونماذج الاشتراك آليات أساسية لتمويل هذا العمل. إذا تضاءلت تدفقات الإيرادات التي تدعم هذه الجهود بسبب استخدام المحتوى فعليًا لتدريب أنظمة الذكاء الاصطناعي المنافسة دون مقابل، فقد ينخفض الحافز لإنشاء محتوى متنوع وعالي الجودة. قد يؤدي هذا إلى جمهور أقل اطلاعًا، وتقليل موارد المعرفة المتخصصة، وربما إنترنت يهيمن عليه محتوى أقل جودة أو محتوى تم إنشاؤه بواسطة الذكاء الاصطناعي يفتقر إلى الخبرة البشرية والتحقق.
وبالتالي، يدعو AI Disclosures Project بقوة إلى مزيد من الشفافية والمساءلة من شركات الذكاء الاصطناعي فيما يتعلق بممارسات بيانات التدريب الخاصة بها. يدعون إلى تنفيذ سياسات قوية وأطر تنظيمية محتملة تضمن تعويض منشئي المحتوى بشكل عادل عندما يساهم عملهم في تطوير نماذج الذكاء الاصطناعي التجارية. وهذا يعكس دعوات أوسع من مجموعات المبدعين في جميع أنحاء العالم الذين يسعون إلى آليات - سواء من خلال اتفاقيات الترخيص أو أنظمة الإتاوات أو المفاوضة الجماعية - لضمان حصولهم على حصة من القيمة الناتجة عن أنظمة الذكاء الاصطناعي المدربة على ملكيتهم الفكرية. يتركز النقاش حول إيجاد توازن مستدام حيث يمكن لابتكار الذكاء الاصطناعي أن يزدهر جنبًا إلى جنب مع نظام بيئي مزدهر للإبداع البشري وتوليد المعرفة. سيكون حل المعارك القانونية الجارية وإمكانية وجود تشريعات جديدة أو معايير صناعية أمرًا بالغ الأهمية في تشكيل هذا التوازن المستقبلي. تظل مسألة كيفية تتبع مصدر البيانات وإسناد القيمة في نماذج الذكاء الاصطناعي الضخمة والمعقدة عقبة فنية وأخلاقية كبيرة.