Reddit تقاضي Anthropic بشأن تدريب الذكاء الاصطناعي

مزاعم كشط البيانات

في صميم الدعوى القضائية، تدعي Reddit أن Anthropic استخدمت روبوتات آلية للوصول إلى المحتوى واستخراجه من منصتها، على الرغم من الطلبات الصريحة بالتوقف عن هذه الأنشطة. هذه الممارسة، المعروفة باسم "الكشط"، تنطوي على جمع البيانات بشكل منهجي من مواقع الويب، غالبًا دون موافقة موقع الويب. تزعم Reddit أن Anthropic استخدمت هذه البيانات المكشطة لتدريب برنامج الدردشة Claude الخاص بها، مما أدى فعليًا إلى الاستفادة من المعلومات الشخصية لمستخدمي Reddit دون علمهم أو إذنهم.

أكد Ben Lee، كبير المسؤولين القانونيين في Reddit، على موقف الشركة بشأن استخدام البيانات، قائلاً إنه "لا ينبغي السماح لشركات الذكاء الاصطناعي بكشط المعلومات والمحتوى من الأشخاص دون قيود واضحة على كيفية استخدام هذه البيانات". يؤكد هذا البيان قلق Reddit من أن شركات الذكاء الاصطناعي تستغل المحتوى الذي ينشئه المستخدمون دون توفير ضمانات كافية لخصوصية المستخدم وحماية البيانات.

ردًا على ادعاءات Reddit، أصدرت Anthropic بيانًا أعربت فيه عن خلافها مع هذه الادعاءات وأكدت نيتها "الدفاع عن أنفسنا بقوة". من المحتمل أن يعتمد دفاع الشركة على حجج تتعلق بالاستخدام العادل وطبيعة البيانات المتاحة للجمهور ومدى امتثال ممارسات التدريب على الذكاء الاصطناعي للمعايير القانونية والأخلاقية.

اتفاقيات الترخيص الخاصة بـ Reddit

تأتي الدعوى القضائية ضد Anthropic في سياق اتفاقيات الترخيص الحالية لـ Reddit مع شركات الذكاء الاصطناعي الأخرى، بما في ذلك Google و OpenAI. تسمح هذه الاتفاقيات لتلك الشركات بتدريب أنظمة الذكاء الاصطناعي الخاصة بها على مستودع Reddit الواسع للتعليقات العامة، التي أنشأها أكثر من 100 مليون مستخدم يوميًا. في مقابل الوصول إلى هذه البيانات، تتلقى Reddit تعويضًا، والأهم من ذلك، القدرة على فرض حماية المستخدم.

وفقًا لـ Ben Lee، فإن اتفاقيات الترخيص هذه "تمكننا من فرض حماية ذات مغزى لمستخدمينا، بما في ذلك الحق في حذف المحتوى الخاص بك وحماية خصوصية المستخدم ومنع المستخدمين من التعرض للرسائل غير المرغوب فيها باستخدام هذا المحتوى". هذا يسلط الضوء على نهج Reddit الاستباقي لإدارة استخدام بياناتها من قبل شركات الذكاء الاصطناعي، مما يضمن احترام حقوق المستخدمين وخصوصيتهم.

يمكن اعتبار الدعوى القضائية ضد Anthropic بمثابة جهد من Reddit لفرض سياسات استخدام البيانات الخاصة بها وحماية مصالح مستخدميها. من خلال اتخاذ إجراء قانوني، ترسل Reddit رسالة واضحة إلى شركات الذكاء الاصطناعي مفادها أنها لن تتسامح مع كشط البيانات غير المصرح به وستدافع بنشاط عن حقوقها وحقوق مستخدميها.

تطوير الذكاء الاصطناعي لـ Anthropic

ظهرت Anthropic، التي أسسها المديرون التنفيذيون السابقون في OpenAI في عام 2021، كلاعب مهم في سوق برامج الدردشة بالذكاء الاصطناعي. منتجها الرائد، Claude، هو منافس مباشر لـ ChatGPT الخاص بـ OpenAI. بينما تتمتع OpenAI بشراكة وثيقة مع Microsoft، فإن الشريك التجاري الرئيسي لـ Anthropic هو Amazon، التي تستخدم Claude لتحسين مساعدها الصوتي Alexa.

مثل العديد من شركات الذكاء الاصطناعي، تعتمد Anthropic على مجموعات بيانات كبيرة من النصوص والأكواد لتدريب نماذج الذكاء الاصطناعي الخاصة بها. غالبًا ما تتضمن مجموعات البيانات هذه محتوى من مواقع الويب مثل ويكيبيديا و Reddit، والتي توفر ثروة من المعلومات حول مجموعة واسعة من الموضوعات وتعكس الفروق الدقيقة في اللغة البشرية. تسلط الدعوى القضائية الضوء على اعتماد شركات الذكاء الاصطناعي على المحتوى المتاح بسهولة عبر الإنترنت، مما يثير تساؤلات حول الآثار الأخلاقية والقانونيةلاستخدام هذه البيانات لتدريب الذكاء الاصطناعي.

نقاش "الكشط"

أصبحت ممارسة "كشط" البيانات من مواقع الويب قضية خلافية في صناعة الذكاء الاصطناعي. تجادل شركات الذكاء الاصطناعي بأن الكشط ضروري لجمع الكميات الهائلة من البيانات المطلوبة لتدريب نماذج الذكاء الاصطناعي الخاصة بهم. غالبًا ما يستشهدون بمفهوم "الاستخدام العادل"، الذي يسمح باستخدام المواد المحمية بحقوق الطبع والنشر لأغراض معينة، مثل التعليم والبحث والتعليق.

ومع ذلك، يجادل مالكو مواقع الويب ومنشئو المحتوى بأن الكشط يمكن أن ينتهك شروط الخدمة الخاصة بهم، وينتهك حقوق الطبع والنشر الخاصة بهم، ويقوض نماذج أعمالهم. يزعمون أنه يجب على شركات الذكاء الاصطناعي الحصول على إذن قبل كشط بياناتهم ويجب أن تعوضهم عن استخدام المحتوى الخاص بهم.

الدعوى القضائية التي رفعتها Reddit ضد Anthropic هي مجرد مثال واحد على التوتر المتزايد بين شركات الذكاء الاصطناعي ومقدمي المحتوى بشأن كشط البيانات. مع استمرار تقدم تكنولوجيا الذكاء الاصطناعي، من المحتمل أن تشتد هذه النقاشات القانونية والأخلاقية، مما يؤدي إلى تطوير قوانين ولوائح جديدة تحكم استخدام البيانات لتدريب الذكاء الاصطناعي.

ورقة عام 2021

تم الاستشهاد بورقة بحثية عام 2021 شارك في تأليفها الرئيس التنفيذي لشركة Anthropic داريو أمودي في الدعوى القضائية التي رفعتها Reddit. سلطت هذه الورقة الضوء على المنتديات الفرعية المحددة، أو المنتديات الموضوعية، التي حددها باحثو Anthropic على أنها تحتوي على بيانات عالية الجودة لتدريب الذكاء الاصطناعي. غطت هذه المنتديات الفرعية مجموعة واسعة من الموضوعات، من البستنة والتاريخ إلى نصائح العلاقات وأفكار الاستحمام.

يؤكد الاستشهاد بهذه الورقة في الدعوى القضائية ادعاء Reddit بأن Anthropic استهدفت منصتها عمدًا لكشط البيانات. من خلال تحديد منتديات فرعية معينة كمصادر قيمة لبيانات تدريب الذكاء الاصطناعي، يُزعم أن Anthropic أظهرت نيتها استخراج محتوى من Reddit دون إذن.

حجة حقوق الطبع والنشر الخاصة بـ Anthropic

في رسالة عام 2023 إلى مكتب حقوق الطبع والنشر الأمريكي، جادلت Anthropic بأن ممارسات التدريب على الذكاء الاصطناعي الخاصة بها تشكل "استخدامًا قانونيًا بشكل جوهري للمواد". أكدت الشركة أن نماذج الذكاء الاصطناعي الخاصة بها تقوم بعمل نسخ من المعلومات فقط لغرض إجراء تحليل إحصائي على مجموعات بيانات كبيرة، وهو ما تعتقد أنه يندرج ضمن عقيدة الاستخدام العادل.

ومع ذلك، لم يتم قبول هذه الحجة عالميًا. تواجه Anthropic حاليًا دعوى قضائية منفصلة من كبار ناشري الموسيقى، الذين يزعمون أن Claude يقذف كلمات الأغاني المحمية بحقوق الطبع والنشر. تثير هذه الدعوى القضائية مخاوف بشأن احتمال انتهاك نماذج الذكاء الاصطناعي لحقوق الطبع والنشر عن طريق إعادة إنتاج أو توزيع المواد المحمية بحقوق الطبع والنشر.

خرق شروط الاستخدام

تختلف الدعوى القضائية التي رفعتها Reddit ضد Anthropic عن التحديات القانونية الأخرى المرفوعة ضد شركات الذكاء الاصطناعي من حيث أنها لا تزعم انتهاك حقوق الطبع والنشر. بدلاً من ذلك، تركز على الخرق المزعوم لشروط استخدام Reddit والمنافسة غير العادلة التي نتجت عن ذلك الخرق.

تجادل Reddit بأن Anthropic انتهكت شروط الاستخدام الخاصة بها عن طريق كشط المحتوى من المنصة دون إذن. وتزعم أيضًا أن أفعال Anthropic أدت إلى منافسة غير عادلة من خلال السماح لها بتطوير برنامج الدردشة بالذكاء الاصطناعي الخاص بها دون تحمل التكاليف المرتبطة بترخيص البيانات من Reddit.

من خلال التركيز على هذه القضايا، تحاول Reddit إنشاء سابقة قانونية يمكن أن يكون لها آثار كبيرة على صناعة الذكاء الاصطناعي. إذا فازت Reddit في دعواها القضائية، فقد يصبح من الصعب على شركات الذكاء الاصطناعي كشط البيانات من مواقع الويب دون إذن، مما قد يؤدي إلى تغيير في الطريقة التي يتم بها تدريب نماذج الذكاء الاصطناعي.

اتفاقية AP و OpenAI

لدى وكالة Associated Press (AP) و OpenAI اتفاقية ترخيص وتكنولوجيا تمنح OpenAI حق الوصول إلى جزء من أرشيفات النصوص الخاصة بـ AP. تعكس هذه الاتفاقية الاتجاه المتزايد لمقدمي المحتوى الذين يتشاركون مع شركات الذكاء الاصطناعي لترخيص بياناتهم لأغراض تدريب الذكاء الاصطناعي.

توفر هذه الاتفاقيات لمقدمي المحتوى طريقة لتوليد إيرادات من بياناتهم مع الحفاظ أيضًا على التحكم في كيفية استخدام تلك البيانات. كما أنها تزود شركات الذكاء الاصطناعي بإمكانية الوصول إلى بيانات عالية الجودة يمكن أن تحسن أداء نماذج الذكاء الاصطناعي الخاصة بها.

الآثار الأوسع

الدعوى القضائية التي رفعتها Reddit ضد Anthropic ليست مجرد نزاع بين شركتين؛ إنها بمثابة جرس إنذار للمناقشات القانونية والأخلاقية الأوسع المحيطة بتطوير الذكاء الاصطناعي. يمكن أن يكون لنتيجة هذه القضية آثار كبيرة على صناعة الذكاء الاصطناعي، مما قد يشكل الطريقة التي يتم بها تدريب نماذج الذكاء الاصطناعي وحقوق مقدمي المحتوى.

مع استمرار تقدم تكنولوجيا الذكاء الاصطناعي، من الضروري معالجة هذه القضايا بطريقة مدروسة وشاملة. سيتطلب ذلك التعاون بين شركات الذكاء الاصطناعي ومقدمي المحتوى وصانعي السياسات والجمهور لتطوير إطار عمل يوازن بين فوائد ابتكار الذكاء الاصطناعي والحاجة إلى حماية خصوصية المستخدم والملكية الفكرية والمنافسة العادلة.

تعريف الكشط

الكشط، في هذا السياق، يشير إلى الاستخراج الآلي للبيانات من مواقع الويب. يتم استخدام الأدوات لتحليل كود HTML واستخراج عناصر معينة مثل النصوص أو الصور أو الروابط. في حالة Reddit، يُزعم أن Anthropic استخدمت روبوتات لكشط تعليقات المستخدمين، وهي ذات قيمة لتدريب النماذج اللغوية.

تعتبر قانونية الكشط منطقة رمادية. تحتوي مواقع الويب عمومًا على شروط خدمة تحظر هذا النشاط، ولكن قد يكون التنفيذ صعبًا. يجادل البعض بأنه يجب إتاحة البيانات المتاحة للجمهور، بينما يؤكد البعض الآخر على حقوق مالكي مواقع الويب في التحكم في محتواهم.

عقيدة الاستخدام العادل

عقيدة الاستخدام العادل هي مبدأ قانوني يسمح بالاستخدام المحدود للمواد المحمية بحقوق الطبع والنشر دون إذن من صاحب حقوق الطبع والنشر. تهدف العقيدة إلى تعزيز حرية التعبير من خلال السماح بالتعليق والنقد والتقارير الإخبارية والتدريس والمنح الدراسية والبحث.

ومع ذلك، فإن تطبيق عقيدة الاستخدام العادل على تدريب الذكاء الاصطناعي أمر معقد ومثير للجدل. تجادل شركات الذكاء الاصطناعي بأن استخدامها للمواد المحمية بحقوق الطبع والنشر لأغراض التدريب هو تحويلي ولا ينتهك حقوق أصحاب حقوق الطبع والنشر. من ناحية أخرى، يجادل مقدمو المحتوى بأن تدريب الذكاء الاصطناعي هو نشاط تجاري يتطلب إذنًا وتعويضًا.

مستقبل تدريب الذكاء الاصطناعي

تسلط الدعوى القضائية التي رفعتها Reddit ضد Anthropic الضوء على التحديات والشكوك المحيطة بمستقبل تدريب الذكاء الاصطناعي. مع ازدياد تطور نماذج الذكاء الاصطناعي وتطلبها لمجموعات بيانات أكبر، سيزداد الطلب على البيانات فقط. من المحتمل أن يؤدي ذلك إلى مزيد من المعارك القانونية والجهود التنظيمية لمعالجة الآثار الأخلاقية والقانونية لكشط البيانات وتدريب الذكاء الاصطناعي.

من الضروري أن يعمل أصحاب المصلحة معًا لتطوير إطار عمل يعزز الابتكار مع حماية حقوق مقدمي المحتوى وضمان ممارسات البيانات المسؤولة. يجب أن يعالج إطار العمل هذا قضايا مثل خصوصية البيانات وحقوق الطبع والنشر والشفافية والمساءلة.

مصادر البيانات البديلة

مع ازدياد التدقيق القانوني في كشط الويب، تستكشف شركات الذكاء الاصطناعي مصادر بديلة للبيانات لتدريب نماذجها. وتشمل هذه:

  • البيانات المرخصة: الحصول على البيانات من خلال اتفاقيات الترخيص مع مقدمي المحتوى مثل Reddit و AP وغيرهم.
  • البيانات الاصطناعية: إنشاء بيانات اصطناعية تحاكي بيانات العالم الحقيقي ولكنها لا تحتوي على أي معلومات تعريف شخصية أو مواد محمية بحقوق الطبع والنشر.
  • البيانات مفتوحة المصدر: استخدام مجموعات البيانات المتاحة للجمهور والمرخصة للاستخدام التجاري.
  • البيانات الداخلية: الاستفادة من البيانات التي تم إنشاؤها بواسطة منتجات وخدمات الشركة الخاصة.

من خلال تنويع مصادر بياناتهم، يمكن لشركات الذكاء الاصطناعي تقليل اعتمادها على كشط الويب وتخفيف المخاطر المرتبطة بالتحديات القانونية والمخاوف الأخلاقية.

منظور المستخدم

في النهاية، تثير المناقشة حول ممارسات تدريب الذكاء الاصطناعي أسئلة أساسية حول حقوق مستخدمي الإنترنت. ينشئ المستخدمون كميات هائلة من المحتوى على منصات مثل Reddit، غالبًا دون فهم كامل لكيفية استخدام هذا المحتوى.

من الضروري إعلام المستخدمين بكيفية جمع بياناتهم واستخدامها ومشاركتها. يجب أن يكون لديهم أيضًا القدرة على التحكم في بياناتهم والاختيار عدم استخدام بياناتهم لأغراض تدريب الذكاء الاصطناعي.

تتحمل منصات مثل Reddit مسؤولية حماية بيانات مستخدميها وضمان استخدام بياناتهم بطريقة مسؤولة وأخلاقية. يتضمن ذلك تزويد المستخدمين بسياسات خصوصية واضحة وشفافة، بالإضافة إلى آليات للتحكم في بياناتهم.

النتائج المحتملة

النتائج المحتملة للدعوى القضائية التي رفعتها Reddit ضد Anthropic متنوعة ويمكن أن يكون لها آثار كبيرة على صناعة الذكاء الاصطناعي:

  • التسوية: يمكن للشركتين التوصل إلى اتفاقية تسوية تحل النزاع دون محاكمة.
  • فوز Reddit: يمكن للمحكمة أن تحكم لصالح Reddit، وتجد أن Anthropic قد خرقت شروط الخدمة الخاصة بها وانخرطت في منافسة غير عادلة.
  • فوز Anthropic: يمكن للمحكمة أن تحكم لصالح Anthropic، وتجد أن ممارسات التدريب على الذكاء الاصطناعي الخاصة بها قانونية بموجب عقيدة الاستخدام العادل.
  • حكم مختلط: يمكن للمحكمة أن تصدر حكمًا مختلطًا، وتجد لصالح Reddit بشأن بعض الادعاءات ولكن لصالح Anthropic بشأن ادعاءات أخرى.

من المرجح أن تعتمد نتيجة الدعوى القضائية على عدد من العوامل، بما في ذلك الحقائق المحددة للقضية والسوابق القانونية ذات الصلة والحجج التي قدمها كلا الجانبين.

محكمة الرأي العام

بالإضافة إلى الإجراءات القانونية، فإن الدعوى القضائية التي رفعتها Reddit ضد Anthropic يتم خوضها أيضًا في محكمة الرأي العام. كلا الشركتين لديهما مصلحة قوية في تشكيل الرواية المحيطة بالقضية والتأثير على التصور العام.

من المرجح أن تؤكد Reddit على أهمية حماية خصوصية المستخدم وإنفاذ شروط الخدمة الخاصة بها. من المرجح أن تسلط Anthropic الضوء على فوائد ابتكار الذكاء الاصطناعي وأهمية الوصول إلى البيانات لتدريب نماذج الذكاء الاصطناعي.

يمكن أن يؤثر تصور Público للقضية على نتيجة الإجراءات القانونية، بالإضافة إلى المناقشة الأوسع حول ممارسات تدريب الذكاء الاصطناعي.