Reddit یک اقدام قانونی علیه Anthropic، یک شرکت هوش مصنوعی، آغاز کرده و ادعا می کند که این شرکت از محتوای تولید شده توسط کاربران برای آموزش ربات چت هوش مصنوعی خود، Claude، به طور غیرمجاز استفاده کرده است. این دادخواست، که در دادگاه عالی کالیفرنیا در سان فرانسیسکو ثبت شده است، Anthropic را متهم به “خراش دادن” میلیون ها نظر از پلتفرم Reddit بدون اجازه، نقض شرایط خدمات این شرکت و مشارکت در رقابت ناعادلانه می کند.
اتهامات مربوط به جمعآوری داده
در قلب این دادخواست، ادعای Reddit مبنی بر این است که Anthropic از رباتهای خودکار برای دسترسی و استخراج محتوا از پلتفرم خود استفاده کرده، علیرغم درخواستهای صریح برای توقف چنین فعالیتهایی. این عمل، که به عنوان “خراش دادن” شناخته میشود، شامل جمعآوری سیستماتیک دادهها از وبسایتها است، اغلب بدون رضایت وبسایت. Reddit ادعا میکند که Anthropic از این دادههای خراش دادهشده برای آموزش ربات چت Claude خود استفاده کرده و عملاً از اطلاعات شخصی کاربران Reddit بدون اطلاع یا مجوز آنها، بهرهبرداری کرده است.
بن لی، مدیر ارشد حقوقی Reddit، بر موضع این شرکت در مورد استفاده از دادهها تأکید کرد و اظهار داشت که “به شرکتهای هوش مصنوعی نباید اجازه داده شود که اطلاعات و محتوای مردم را بدون محدودیتهای روشن در مورد نحوه استفاده از آن دادهها، جمعآوری کنند.” این بیانیه بر نگرانی Reddit مبنی بر اینکه شرکتهای هوش مصنوعی از محتوای تولید شده توسط کاربران بدون ارائه تضمینهای کافی برای حفظ حریم خصوصی و حفاظت از دادهها، سوء استفاده میکنند، تأکید میکند.
Anthropic، در پاسخ به اتهامات Reddit، بیانیهای صادر کرد و مخالفت خود را با این ادعاها ابراز داشت و تأکید کرد که قصد دارد “به طور جدی از خود دفاع کند.” دفاع این شرکت احتمالاً مبتنی بر استدلالهای مربوط به استفاده منصفانه، ماهیت دادههای در دسترس عموم و میزانی است که شیوههای آموزش هوش مصنوعی آن با استانداردهای قانونی و اخلاقی مطابقت دارد.
توافقنامههای مجوز Reddit
اقدام قانونی علیه Anthropic در چارچوب توافقنامههای مجوز موجود Reddit با سایر شرکتهای هوش مصنوعی، از جمله Google و OpenAI، صورت میگیرد. این توافقنامهها به آن شرکتها اجازه میدهد تا سیستمهای هوش مصنوعی خود را بر روی مخزن وسیع تفسیرهای عمومی Reddit، که توسط بیش از 100 میلیون کاربر روزانه آن تولید میشود، آموزش دهند. Reddit در ازای دسترسی به این دادهها، غرامت دریافت میکند و از همه مهمتر، توانایی اعمال حمایت از کاربران را پیدا میکند.
به گفته بن لی، این توافقنامههای مجوز “ما را قادر میسازد تا حمایتهای معناداری را برای کاربران خود اعمال کنیم، از جمله حق حذف محتوای خود، حفاظت از حریم خصوصی کاربران و جلوگیری از ارسال هرزنامه به کاربران با استفاده از این محتوا.” این امر، رویکرد فعال Reddit در مدیریت استفاده از دادههای خود توسط شرکتهای هوش مصنوعی را برجسته میکند و تضمین میکند که حقوق و حریم خصوصی کاربران محترم شمرده میشود.
دادخواست علیه Anthropic را میتوان به عنوان تلاشی از سوی Reddit برای اجرای سیاستهای استفاده از دادههای خود و محافظت از منافع کاربرانش تلقی کرد. Reddit با پیگیری اقدام قانونی، این پیام روشن را به شرکتهای هوش مصنوعی ارسال میکند که جمعآوری غیرمجاز دادهها را تحمل نخواهد کرد و فعالانه از حقوق خود و حقوق کاربرانش دفاع خواهد کرد.
توسعه هوش مصنوعی Anthropic
Anthropic، که توسط مدیران سابق OpenAI در سال 2021 تأسیس شد، به عنوان یک بازیگر مهم در بازار ربات چت هوش مصنوعی ظهور کرده است. محصول اصلی آن، Claude، یک رقیب مستقیم برای ChatGPT OpenAI است. در حالی که OpenAI یک مشارکت نزدیک با Microsoft دارد، شریک تجاری اصلی Anthropic، Amazon است که از Claude برای بهبود دستیار صوتی Alexa خود استفاده میکند.
مانند بسیاری از شرکتهای هوش مصنوعی، Anthropic به مجموعههای داده بزرگ متن و کد برای آموزش مدلهای هوش مصنوعی خود، متکی است. این مجموعههای داده اغلب شامل محتوایی از وبسایتهایی مانند Wikipedia و Reddit است که اطلاعات فراوانی را در مورد طیف گستردهای از موضوعات ارائه میدهند و ظرایف زبان انسان را منعکس میکنند. این دادخواست، اتکای شرکتهای هوش مصنوعی به محتوای آنلاین به راحتی در دسترس را برجسته میکند و سؤالاتی را در مورد پیامدهای اخلاقی و قانونی استفاده از چنین دادههایی برای آموزش هوش مصنوعی مطرح میکند.
بحث “خراش دادن”
عمل “خراش دادن” دادهها از وبسایتها به یک موضوع بحثبرانگیز در صنعت هوش مصنوعی تبدیل شده است. شرکتهای هوش مصنوعی استدلال میکنند که خراش دادن برای جمعآوری مقادیر زیادی از دادههای مورد نیاز برای آموزش مدلهای هوش مصنوعی خود ضروری است. آنها اغلب به مفهوم “استفاده منصفانه” استناد میکنند، که اجازه استفاده از مطالب دارای حق چاپ را برای اهداف خاص، مانند آموزش، تحقیق و تفسیر، میدهد.
با این حال، صاحبان وبسایتها و تولیدکنندگان محتوا استدلال میکنند که خراش دادن میتواند شرایط خدمات آنها را نقض کند، حقوق چاپ آنها را نقض کند و مدلهای تجاری آنها را تضعیف کند. آنها معتقدند که شرکتهای هوش مصنوعی باید قبل از خراش دادن دادههای آنها، اجازه بگیرند و باید برای استفاده از محتوای خود، به آنها غرامت پرداخت کنند.
دادخواست Reddit علیه Anthropic تنها یک نمونه از تنش فزاینده بین شرکتهای هوش مصنوعی و ارائهدهندگان محتوا بر سر خراش دادن دادهها است. با ادامه پیشرفت فناوری هوش مصنوعی، احتمالاً این بحثهای حقوقی و اخلاقی تشدید میشوند و منجر به توسعه قوانین و مقررات جدیدی میشوند که استفاده از دادهها را برای آموزش هوش مصنوعی کنترل میکنند.
مقاله 2021
در دادخواست Reddit به یک مقاله تحقیقاتی محصول سال 2021 که توسط مدیرعامل Anthropic، Dario Amodei، تألیف شده بود، استناد شده است. این مقاله نور را بر سابردیتهای خاص، یا انجمنهای موضوعی، که محققان Anthropic شناسایی کرده بودند که حاوی دادههای با کیفیت بالا برای آموزش هوش مصنوعی هستند، روشن کرد. این سابردیتها طیف گستردهای از موضوعات، از باغبانی و تاریخ گرفته تا توصیههای روابط و افکار حمام، را در بر میگرفتند.
استناد به این مقاله در دادخواست، ادعای Reddit را مبنی بر اینکه Anthropic عمداً پلتفرم خود را برای خراش دادن دادهها هدف قرار داده است، تأیید میکند. Anthropic با شناسایی سابردیتهای خاص به عنوان منابع ارزشمند دادههای آموزش هوش مصنوعی، ادعا میشود که قصد خود را برای استخراج محتوا از Reddit بدون اجازه نشان داده است.
استدلال حق چاپ Anthropic
Anthropic در نامه ای به سال 2023 به دفتر حق چاپ ایالات متحده استدلال کرد که شیوه های آموزش هوش مصنوعی آن یک “استفاده کاملاً قانونی از مواد” است. این شرکت اظهار داشت که مدل های هوش مصنوعی آن صرفاً با هدف انجام تجزیه و تحلیل آماری بر روی مجموعه داده های بزرگ، نسخه هایی از اطلاعات تهیه می کنند، که به اعتقاد آن، تحت دکترین استفاده منصفانه قرار می گیرد.
با این حال، این استدلال به طور جهانی پذیرفته نشده است. Anthropic در حال حاضر با شکایت جداگانه ای از ناشران اصلی موسیقی مواجه است که ادعا می کنند Claude اشعار آهنگ های دارای حق چاپ را بازتولید می کند. این شکایت نگرانی هایی را در مورد پتانسیل مدل های هوش مصنوعی برای نقض حقوق چاپ از طریق تکثیر یا توزیع مطالب دارای حق چاپ ایجاد می کند.
نقض شرایط استفاده
دادخواست Reddit علیه Anthropic با سایر چالش های قانونی که علیه شرکت های هوش مصنوعی مطرح شده اند، متفاوت است، زیرا ادعای نقض کپی رایت نمی کند. در عوض، بر نقض ادعایی شرایط استفاده Reddit و رقابت ناعادلانه ناشی از آن نقض تمرکز دارد.
Reddit استدلال می کند که Anthropic با خراش دادن محتوا از این پلتفرم بدون اجازه، شرایط استفاده آن را نقض کرده است. همچنین استدلال می کند که اقدامات Anthropic با اجازه دادن به توسعه ربات چت هوش مصنوعی خود بدون تحمل هزینه های مربوط به مجوز داده از Reddit، رقابت ناعادلانه ای ایجاد کرده است.
Reddit با تمرکز بر این مسائل، تلاش می کند یک سابقه حقوقی ایجاد کند که می تواند پیامدهای قابل توجهی برای صنعت هوش مصنوعی داشته باشد. اگر Reddit در دادخواست خود پیروز شود، خراش دادن داده ها از وب سایت ها بدون اجازه برای شرکت های هوش مصنوعی دشوارتر می شود و به طور بالقوه منجر به تغییر در نحوه آموزش مدل های هوش مصنوعی می شود.
توافق نامه AP و OpenAI
آسوشیتدپرس (AP) و OpenAI دارای یک توافق نامه صدور مجوز و فناوری هستند که به OpenAI امکان دسترسی به بخشی از بایگانی های متنی AP را می دهد. این توافق نامه منعکس کننده روند رو به رشد ارائه دهندگان محتوا در مشارکت با شرکت های هوش مصنوعی برای صدور مجوزداده های خود برای اهداف آموزش هوش مصنوعی است.
چنین توافق نامه هایی راهی را برای ارائه دهندگان محتوا برای تولید درآمد از داده های خود ضمن حفظ کنترل بر نحوه استفاده از آن داده ها ارائه می دهد. آنها همچنین دسترسی شرکت های هوش مصنوعی به داده های با کیفیت بالا را فراهم می کنند که می تواند عملکرد مدل های هوش مصنوعی آنها را بهبود بخشد.
پیامدهای گسترده تر
دادخواست Reddit علیه Anthropic فقط یک اختلاف بین دو شرکت نیست. این یک زنگ خطر برای بحث های حقوقی و اخلاقی گسترده تر پیرامون توسعه هوش مصنوعی است. نتیجه این پرونده می تواند پیامدهای قابل توجهی برای صنعت هوش مصنوعی داشته باشد و به طور بالقوه نحوه آموزش مدل های هوش مصنوعی و حقوق ارائه دهندگان محتوا را شکل دهد.
از آنجایی که فناوری هوش مصنوعی به پیشرفت خود ادامه می دهد، ضروری است که این مسائل به شیوه ای متفکرانه و جامع مورد توجه قرار گیرند. این امر مستلزم همکاری بین شرکت های هوش مصنوعی، ارائه دهندگان محتوا، سیاست گذاران و عموم مردم برای توسعه یک چارچوب است که مزایای نوآوری هوش مصنوعی را با نیاز به محافظت از حریم خصوصی کاربر، مالکیت معنوی و رقابت منصفانه متعادل می کند.
تعریف Scraping
Scraping در این متن به استخراج خودکار داده ها از وب سایت ها اشاره دارد. از ابزارها برای تجزیه کد HTML و بیرون کشیدن عناصر خاص مانند متن، تصاویر یا پیوندها استفاده می شود. در مورد Reddit، ادعا می شود که Anthropic از ربات هایی برای خراش دادن نظرات کاربر استفاده کرده است که برای آموزش مدل های زبانی ارزشمند هستند.
قانونی بودن خراش دادن یک منطقه خاکستری است. وب سایت ها به طور کلی دارای شرایط خدماتی هستند که چنین فعالیتی را ممنوع می کند، اما اجرای آن می تواند دشوار باشد. برخی استدلال می کنند که داده های در دسترس عموم باید قابل دسترسی باشند، در حالی که برخی دیگر بر حقوق صاحبان وب سایت ها برای کنترل محتوای خود تأکید می کنند.
دکترین استفاده منصفانه
دکترین استفاده منصفانه یک اصل حقوقی است که اجازه می دهد از مطالب دارای حق چاپ بدون اجازه از دارنده حق چاپ استفاده محدود شود. این دکترین به منظور ارتقای آزادی بیان با اجازه دادن به تفسیر، انتقاد، گزارش اخبار، تدریس، بورس تحصیلی و تحقیق در نظر گرفته شده است.
با این حال، استفاده از دکترین استفاده منصفانه برای آموزش هوش مصنوعی پیچیده و بحث برانگیز است. شرکت های هوش مصنوعی استدلال می کنند که استفاده آنها از مطالب دارای حق چاپ برای اهداف آموزشی دگرگون کننده است و حقوق دارندگان حق چاپ را نقض نمی کند. از سوی دیگر، ارائه دهندگان محتوا استدلال می کنند که آموزش هوش مصنوعی یک فعالیت تجاری است که نیاز به اجازه و غرامت دارد.
آینده آموزش هوش مصنوعی
دادخواست Reddit علیه Anthropic چالش ها و عدم قطعیت های پیرامون آینده آموزش هوش مصنوعی را برجسته می کند. از آنجایی که مدل های هوش مصنوعی پیچیده تر می شوند و به مجموعه داده های بزرگتری نیاز دارند، تقاضا برای داده ها فقط افزایش می یابد. این احتمالاً منجر به نبردهای حقوقی بیشتر و تلاش های نظارتی برای رسیدگی به مفاهیم اخلاقی و قانونی خراش دادن داده ها و آموزش هوش مصنوعی خواهد شد.
ضروری است که ذینفعان برای توسعه یک چارچوب که نوآوری را ترویج می کند و در عین حال از حقوق ارائه دهندگان محتوا محافظت می کند و شیوه های داده مسئولانه را تضمین می کند، با یکدیگر همکاری کنند. این چارچوب باید به مسائلی مانند حریم خصوصی داده ها، حق چاپ، شفافیت و پاسخگویی رسیدگی کند.
منابع جایگزین داده ها
از آنجایی که بررسی قانونی خراش دادن وب تشدید می شود، شرکت های هوش مصنوعی در حال بررسی منابع جایگزین داده ها برای آموزش مدل های خود هستند. این شامل:
- داده های مجاز: دریافت داده ها از طریق توافق نامه های صدور مجوز با ارائه دهندگان محتوا مانند Reddit، AP و دیگران.
- داده های مصنوعی: تولید داده های مصنوعی که از داده های دنیای واقعی تقلید می کنند اما حاوی هیچ گونه اطلاعات شخصی شناسایی یا مطالب دارای حق چاپ نیستند.
- داده های منبع باز: استفاده از مجموعه داده های در دسترس عموم که برای استفاده تجاری مجوز دارند.
- داده های داخلی: اهرم داده های تولید شده توسط محصولات و خدمات خود شرکت.
شرکت های هوش مصنوعی با تنوع بخشیدن به منابع داده خود، می توانند اتکای خود را به خراش دادن وب کاهش دهند و خطرات مرتبط با چالش های قانونی و نگرانی های اخلاقی را کاهش دهند.
دیدگاه کاربر
در نهایت، بحث بر سر شیوه های آموزش هوش مصنوعی سؤالات اساسی در مورد حقوق کاربران اینترنت مطرح می کند. کاربران مقادیر زیادی محتوا را در پلتفرم هایی مانند Reddit ایجاد می کنند، اغلب بدون اینکه به طور کامل درک کنند که چگونه از آن محتوا استفاده می شود.
ضروری است که کاربران از نحوه جمع آوری، استفاده و اشتراک گذاری داده های خود مطلع شوند. آنها همچنین باید این امکان را داشته باشند که داده های خود را کنترل کنند و از استفاده از داده های خود برای اهداف آموزش هوش مصنوعی انصراف دهند.
پلتفرم هایی مانند Reddit وظیفه دارند از داده های کاربران خود محافظت کنند و اطمینان حاصل کنند که از داده های آنها به شیوه ای مسئولانه و اخلاقی استفاده می شود. این شامل ارائه سیاست های حفظ حریم خصوصی روشن و شفاف و همچنین سازوکارهایی برای کنترل داده های آنها به کاربران است.
نتایج احتمالی
نتایج احتمالی دادخواست Reddit علیه Anthropic متنوع است و می تواند پیامدهای قابل توجهی برای صنعت هوش مصنوعی داشته باشد:
- حل و فصل: این دو شرکت می توانند به یک توافق نامه حل و فصل دست یابند که اختلاف را بدون محاکمه حل کند.
- Reddit برنده می شود: دادگاه می تواند به نفع Reddit رأی دهد و تشخیص دهد که Anthropic شرایط خدمات خود را نقض کرده و در رقابت ناعادلانه شرکت کرده است.
- Anthropic برنده می شود: دادگاه می تواند به نفع Anthropic رأی دهد و تشخیص دهد که شیوه های آموزش هوش مصنوعی آن تحت دکترین استفاده منصفانه قانونی است.
- حکم مختلط: دادگاه می تواند یک حکم مختلط صادر کند و در برخی از ادعاها به نفع Reddit اما در برخی دیگر به نفع Anthropic رأی دهد.
نتیجه دادخواست احتمالاً به تعدادی از عوامل بستگی دارد، از جمله حقایق خاص پرونده، سوابق حقوقی مربوطه و استدلال های ارائه شده توسط هر دو طرف.
دادگاه افکار عمومی
فراتر از دادرسی های قانونی، دادخواست Reddit علیه Anthropic نیز در دادگاه افکار عمومی مورد اختلاف است. هر دو شرکت علاقه زیادی به شکل دادن به روایت پیرامون این پرونده و تأثیرگذاری بر ادراک عمومی دارند.
به احتمال زیاد Reddit بر اهمیت محافظت از حریم خصوصی کاربر و اجرای شرایط خدمات خود تأکید می کند. Anthropic به احتمال زیاد مزایای نوآوری هوش مصنوعی و اهمیت دسترسی به داده ها برای آموزش مدل های هوش مصنوعی را برجسته می کند.
ادراک عمومی از این پرونده می تواند هم بر نتیجه دادرسی های قانونی و هم بر بحث گسترده تر در مورد شیوه های آموزش هوش مصنوعی تأثیر بگذارد.