شکایت Reddit از Anthropic بر سر تمرینات هوش مصنوعی

Reddit یک اقدام قانونی علیه Anthropic، یک شرکت هوش مصنوعی، آغاز کرده و ادعا می کند که این شرکت از محتوای تولید شده توسط کاربران برای آموزش ربات چت هوش مصنوعی خود، Claude، به طور غیرمجاز استفاده کرده است. این دادخواست، که در دادگاه عالی کالیفرنیا در سان فرانسیسکو ثبت شده است، Anthropic را متهم به “خراش دادن” میلیون ها نظر از پلتفرم Reddit بدون اجازه، نقض شرایط خدمات این شرکت و مشارکت در رقابت ناعادلانه می کند.

اتهامات مربوط به جمع‌آوری داده

در قلب این دادخواست، ادعای Reddit مبنی بر این است که Anthropic از ربات‌های خودکار برای دسترسی و استخراج محتوا از پلتفرم خود استفاده کرده، علیرغم درخواست‌های صریح برای توقف چنین فعالیت‌هایی. این عمل، که به عنوان “خراش دادن” شناخته می‌شود، شامل جمع‌آوری سیستماتیک داده‌ها از وب‌سایت‌ها است، اغلب بدون رضایت وب‌سایت. Reddit ادعا می‌کند که Anthropic از این داده‌های خراش‌ داده‌شده برای آموزش ربات چت Claude خود استفاده کرده و عملاً از اطلاعات شخصی کاربران Reddit بدون اطلاع یا مجوز آن‌ها، بهره‌برداری کرده است.

بن لی، مدیر ارشد حقوقی Reddit، بر موضع این شرکت در مورد استفاده از داده‌ها تأکید کرد و اظهار داشت که “به شرکت‌های هوش مصنوعی نباید اجازه داده شود که اطلاعات و محتوای مردم را بدون محدودیت‌های روشن در مورد نحوه استفاده از آن داده‌ها، جمع‌آوری کنند.” این بیانیه بر نگرانی Reddit مبنی بر اینکه شرکت‌های هوش مصنوعی از محتوای تولید شده توسط کاربران بدون ارائه تضمین‌های کافی برای حفظ حریم خصوصی و حفاظت از داده‌ها، سوء استفاده می‌کنند، تأکید می‌کند.

Anthropic، در پاسخ به اتهامات Reddit، بیانیه‌ای صادر کرد و مخالفت خود را با این ادعاها ابراز داشت و تأکید کرد که قصد دارد “به طور جدی از خود دفاع کند.” دفاع این شرکت احتمالاً مبتنی بر استدلال‌های مربوط به استفاده منصفانه، ماهیت داده‌های در دسترس عموم و میزانی است که شیوه‌های آموزش هوش مصنوعی آن با استانداردهای قانونی و اخلاقی مطابقت دارد.

توافقنامه‌های مجوز Reddit

اقدام قانونی علیه Anthropic در چارچوب توافقنامه‌های مجوز موجود Reddit با سایر شرکت‌های هوش مصنوعی، از جمله Google و OpenAI، صورت می‌گیرد. این توافقنامه‌ها به آن شرکت‌ها اجازه می‌دهد تا سیستم‌های هوش مصنوعی خود را بر روی مخزن وسیع تفسیرهای عمومی Reddit، که توسط بیش از 100 میلیون کاربر روزانه آن تولید می‌شود، آموزش دهند. Reddit در ازای دسترسی به این داده‌ها، غرامت دریافت می‌کند و از همه مهم‌تر، توانایی اعمال حمایت از کاربران را پیدا می‌کند.

به گفته بن لی، این توافقنامه‌های مجوز “ما را قادر می‌سازد تا حمایت‌های معناداری را برای کاربران خود اعمال کنیم، از جمله حق حذف محتوای خود، حفاظت از حریم خصوصی کاربران و جلوگیری از ارسال هرزنامه به کاربران با استفاده از این محتوا.” این امر، رویکرد فعال Reddit در مدیریت استفاده از داده‌های خود توسط شرکت‌های هوش مصنوعی را برجسته می‌کند و تضمین می‌کند که حقوق و حریم خصوصی کاربران محترم شمرده می‌شود.

دادخواست علیه Anthropic را می‌توان به عنوان تلاشی از سوی Reddit برای اجرای سیاست‌های استفاده از داده‌های خود و محافظت از منافع کاربرانش تلقی کرد. Reddit با پیگیری اقدام قانونی، این پیام روشن را به شرکت‌های هوش مصنوعی ارسال می‌کند که جمع‌آوری غیرمجاز داده‌ها را تحمل نخواهد کرد و فعالانه از حقوق خود و حقوق کاربرانش دفاع خواهد کرد.

توسعه هوش مصنوعی Anthropic

Anthropic، که توسط مدیران سابق OpenAI در سال 2021 تأسیس شد، به عنوان یک بازیگر مهم در بازار ربات چت هوش مصنوعی ظهور کرده است. محصول اصلی آن، Claude، یک رقیب مستقیم برای ChatGPT OpenAI است. در حالی که OpenAI یک مشارکت نزدیک با Microsoft دارد، شریک تجاری اصلی Anthropic، Amazon است که از Claude برای بهبود دستیار صوتی Alexa خود استفاده می‌کند.

مانند بسیاری از شرکت‌های هوش مصنوعی، Anthropic به مجموعه‌های داده بزرگ متن و کد برای آموزش مدل‌های هوش مصنوعی خود، متکی است. این مجموعه‌های داده اغلب شامل محتوایی از وب‌سایت‌هایی مانند Wikipedia و Reddit است که اطلاعات فراوانی را در مورد طیف گسترده‌ای از موضوعات ارائه می‌دهند و ظرایف زبان انسان را منعکس می‌کنند. این دادخواست، اتکای شرکت‌های هوش مصنوعی به محتوای آنلاین به راحتی در دسترس را برجسته می‌کند و سؤالاتی را در مورد پیامدهای اخلاقی و قانونی استفاده از چنین داده‌هایی برای آموزش هوش مصنوعی مطرح می‌کند.

بحث “خراش دادن”

عمل “خراش دادن” داده‌ها از وب‌سایت‌ها به یک موضوع بحث‌برانگیز در صنعت هوش مصنوعی تبدیل شده است. شرکت‌های هوش مصنوعی استدلال می‌کنند که خراش دادن برای جمع‌آوری مقادیر زیادی از داده‌های مورد نیاز برای آموزش مدل‌های هوش مصنوعی خود ضروری است. آن‌ها اغلب به مفهوم “استفاده منصفانه” استناد می‌کنند، که اجازه استفاده از مطالب دارای حق چاپ را برای اهداف خاص، مانند آموزش، تحقیق و تفسیر، می‌دهد.

با این حال، صاحبان وب‌سایت‌ها و تولیدکنندگان محتوا استدلال می‌کنند که خراش دادن می‌تواند شرایط خدمات آن‌ها را نقض کند، حقوق چاپ آن‌ها را نقض کند و مدل‌های تجاری آن‌ها را تضعیف کند. آن‌ها معتقدند که شرکت‌های هوش مصنوعی باید قبل از خراش دادن داده‌های آن‌ها، اجازه بگیرند و باید برای استفاده از محتوای خود، به آن‌ها غرامت پرداخت کنند.

دادخواست Reddit علیه Anthropic تنها یک نمونه از تنش فزاینده بین شرکت‌های هوش مصنوعی و ارائه‌دهندگان محتوا بر سر خراش دادن داده‌ها است. با ادامه پیشرفت فناوری هوش مصنوعی، احتمالاً این بحث‌های حقوقی و اخلاقی تشدید می‌شوند و منجر به توسعه قوانین و مقررات جدیدی می‌شوند که استفاده از داده‌ها را برای آموزش هوش مصنوعی کنترل می‌کنند.

مقاله 2021

در دادخواست Reddit به یک مقاله تحقیقاتی محصول سال 2021 که توسط مدیرعامل Anthropic، Dario Amodei، تألیف شده بود، استناد شده است. این مقاله نور را بر سابردیت‌های خاص، یا انجمن‌های موضوعی، که محققان Anthropic شناسایی کرده بودند که حاوی داده‌های با کیفیت بالا برای آموزش هوش مصنوعی هستند، روشن کرد. این سابردیت‌ها طیف گسترده‌ای از موضوعات، از باغبانی و تاریخ گرفته تا توصیه‌های روابط و افکار حمام، را در بر می‌گرفتند.

استناد به این مقاله در دادخواست، ادعای Reddit را مبنی بر اینکه Anthropic عمداً پلتفرم خود را برای خراش دادن داده‌ها هدف قرار داده است، تأیید می‌کند. Anthropic با شناسایی سابردیت‌های خاص به عنوان منابع ارزشمند داده‌های آموزش هوش مصنوعی، ادعا می‌شود که قصد خود را برای استخراج محتوا از Reddit بدون اجازه نشان داده است.

استدلال حق چاپ Anthropic

Anthropic در نامه ای به سال 2023 به دفتر حق چاپ ایالات متحده استدلال کرد که شیوه های آموزش هوش مصنوعی آن یک “استفاده کاملاً قانونی از مواد” است. این شرکت اظهار داشت که مدل های هوش مصنوعی آن صرفاً با هدف انجام تجزیه و تحلیل آماری بر روی مجموعه داده های بزرگ، نسخه هایی از اطلاعات تهیه می کنند، که به اعتقاد آن، تحت دکترین استفاده منصفانه قرار می گیرد.

با این حال، این استدلال به طور جهانی پذیرفته نشده است. Anthropic در حال حاضر با شکایت جداگانه ای از ناشران اصلی موسیقی مواجه است که ادعا می کنند Claude اشعار آهنگ های دارای حق چاپ را بازتولید می کند. این شکایت نگرانی هایی را در مورد پتانسیل مدل های هوش مصنوعی برای نقض حقوق چاپ از طریق تکثیر یا توزیع مطالب دارای حق چاپ ایجاد می کند.

نقض شرایط استفاده

دادخواست Reddit علیه Anthropic با سایر چالش های قانونی که علیه شرکت های هوش مصنوعی مطرح شده اند، متفاوت است، زیرا ادعای نقض کپی رایت نمی کند. در عوض، بر نقض ادعایی شرایط استفاده Reddit و رقابت ناعادلانه ناشی از آن نقض تمرکز دارد.

Reddit استدلال می کند که Anthropic با خراش دادن محتوا از این پلتفرم بدون اجازه، شرایط استفاده آن را نقض کرده است. همچنین استدلال می کند که اقدامات Anthropic با اجازه دادن به توسعه ربات چت هوش مصنوعی خود بدون تحمل هزینه های مربوط به مجوز داده از Reddit، رقابت ناعادلانه ای ایجاد کرده است.

Reddit با تمرکز بر این مسائل، تلاش می کند یک سابقه حقوقی ایجاد کند که می تواند پیامدهای قابل توجهی برای صنعت هوش مصنوعی داشته باشد. اگر Reddit در دادخواست خود پیروز شود، خراش دادن داده ها از وب سایت ها بدون اجازه برای شرکت های هوش مصنوعی دشوارتر می شود و به طور بالقوه منجر به تغییر در نحوه آموزش مدل های هوش مصنوعی می شود.

توافق نامه AP و OpenAI

آسوشیتدپرس (AP) و OpenAI دارای یک توافق نامه صدور مجوز و فناوری هستند که به OpenAI امکان دسترسی به بخشی از بایگانی های متنی AP را می دهد. این توافق نامه منعکس کننده روند رو به رشد ارائه دهندگان محتوا در مشارکت با شرکت های هوش مصنوعی برای صدور مجوزداده های خود برای اهداف آموزش هوش مصنوعی است.

چنین توافق نامه هایی راهی را برای ارائه دهندگان محتوا برای تولید درآمد از داده های خود ضمن حفظ کنترل بر نحوه استفاده از آن داده ها ارائه می دهد. آنها همچنین دسترسی شرکت های هوش مصنوعی به داده های با کیفیت بالا را فراهم می کنند که می تواند عملکرد مدل های هوش مصنوعی آنها را بهبود بخشد.

پیامدهای گسترده تر

دادخواست Reddit علیه Anthropic فقط یک اختلاف بین دو شرکت نیست. این یک زنگ خطر برای بحث های حقوقی و اخلاقی گسترده تر پیرامون توسعه هوش مصنوعی است. نتیجه این پرونده می تواند پیامدهای قابل توجهی برای صنعت هوش مصنوعی داشته باشد و به طور بالقوه نحوه آموزش مدل های هوش مصنوعی و حقوق ارائه دهندگان محتوا را شکل دهد.

از آنجایی که فناوری هوش مصنوعی به پیشرفت خود ادامه می دهد، ضروری است که این مسائل به شیوه ای متفکرانه و جامع مورد توجه قرار گیرند. این امر مستلزم همکاری بین شرکت های هوش مصنوعی، ارائه دهندگان محتوا، سیاست گذاران و عموم مردم برای توسعه یک چارچوب است که مزایای نوآوری هوش مصنوعی را با نیاز به محافظت از حریم خصوصی کاربر، مالکیت معنوی و رقابت منصفانه متعادل می کند.

تعریف Scraping

Scraping در این متن به استخراج خودکار داده ها از وب سایت ها اشاره دارد. از ابزارها برای تجزیه کد HTML و بیرون کشیدن عناصر خاص مانند متن، تصاویر یا پیوندها استفاده می شود. در مورد Reddit، ادعا می شود که Anthropic از ربات هایی برای خراش دادن نظرات کاربر استفاده کرده است که برای آموزش مدل های زبانی ارزشمند هستند.

قانونی بودن خراش دادن یک منطقه خاکستری است. وب سایت ها به طور کلی دارای شرایط خدماتی هستند که چنین فعالیتی را ممنوع می کند، اما اجرای آن می تواند دشوار باشد. برخی استدلال می کنند که داده های در دسترس عموم باید قابل دسترسی باشند، در حالی که برخی دیگر بر حقوق صاحبان وب سایت ها برای کنترل محتوای خود تأکید می کنند.

دکترین استفاده منصفانه

دکترین استفاده منصفانه یک اصل حقوقی است که اجازه می دهد از مطالب دارای حق چاپ بدون اجازه از دارنده حق چاپ استفاده محدود شود. این دکترین به منظور ارتقای آزادی بیان با اجازه دادن به تفسیر، انتقاد، گزارش اخبار، تدریس، بورس تحصیلی و تحقیق در نظر گرفته شده است.

با این حال، استفاده از دکترین استفاده منصفانه برای آموزش هوش مصنوعی پیچیده و بحث برانگیز است. شرکت های هوش مصنوعی استدلال می کنند که استفاده آنها از مطالب دارای حق چاپ برای اهداف آموزشی دگرگون کننده است و حقوق دارندگان حق چاپ را نقض نمی کند. از سوی دیگر، ارائه دهندگان محتوا استدلال می کنند که آموزش هوش مصنوعی یک فعالیت تجاری است که نیاز به اجازه و غرامت دارد.

آینده آموزش هوش مصنوعی

دادخواست Reddit علیه Anthropic چالش ها و عدم قطعیت های پیرامون آینده آموزش هوش مصنوعی را برجسته می کند. از آنجایی که مدل های هوش مصنوعی پیچیده تر می شوند و به مجموعه داده های بزرگتری نیاز دارند، تقاضا برای داده ها فقط افزایش می یابد. این احتمالاً منجر به نبردهای حقوقی بیشتر و تلاش های نظارتی برای رسیدگی به مفاهیم اخلاقی و قانونی خراش دادن داده ها و آموزش هوش مصنوعی خواهد شد.

ضروری است که ذینفعان برای توسعه یک چارچوب که نوآوری را ترویج می کند و در عین حال از حقوق ارائه دهندگان محتوا محافظت می کند و شیوه های داده مسئولانه را تضمین می کند، با یکدیگر همکاری کنند. این چارچوب باید به مسائلی مانند حریم خصوصی داده ها، حق چاپ، شفافیت و پاسخگویی رسیدگی کند.

منابع جایگزین داده ها

از آنجایی که بررسی قانونی خراش دادن وب تشدید می شود، شرکت های هوش مصنوعی در حال بررسی منابع جایگزین داده ها برای آموزش مدل های خود هستند. این شامل:

  • داده های مجاز: دریافت داده ها از طریق توافق نامه های صدور مجوز با ارائه دهندگان محتوا مانند Reddit، AP و دیگران.
  • داده های مصنوعی: تولید داده های مصنوعی که از داده های دنیای واقعی تقلید می کنند اما حاوی هیچ گونه اطلاعات شخصی شناسایی یا مطالب دارای حق چاپ نیستند.
  • داده های منبع باز: استفاده از مجموعه داده های در دسترس عموم که برای استفاده تجاری مجوز دارند.
  • داده های داخلی: اهرم داده های تولید شده توسط محصولات و خدمات خود شرکت.

شرکت های هوش مصنوعی با تنوع بخشیدن به منابع داده خود، می توانند اتکای خود را به خراش دادن وب کاهش دهند و خطرات مرتبط با چالش های قانونی و نگرانی های اخلاقی را کاهش دهند.

دیدگاه کاربر

در نهایت، بحث بر سر شیوه های آموزش هوش مصنوعی سؤالات اساسی در مورد حقوق کاربران اینترنت مطرح می کند. کاربران مقادیر زیادی محتوا را در پلتفرم هایی مانند Reddit ایجاد می کنند، اغلب بدون اینکه به طور کامل درک کنند که چگونه از آن محتوا استفاده می شود.

ضروری است که کاربران از نحوه جمع آوری، استفاده و اشتراک گذاری داده های خود مطلع شوند. آنها همچنین باید این امکان را داشته باشند که داده های خود را کنترل کنند و از استفاده از داده های خود برای اهداف آموزش هوش مصنوعی انصراف دهند.

پلتفرم هایی مانند Reddit وظیفه دارند از داده های کاربران خود محافظت کنند و اطمینان حاصل کنند که از داده های آنها به شیوه ای مسئولانه و اخلاقی استفاده می شود. این شامل ارائه سیاست های حفظ حریم خصوصی روشن و شفاف و همچنین سازوکارهایی برای کنترل داده های آنها به کاربران است.

نتایج احتمالی

نتایج احتمالی دادخواست Reddit علیه Anthropic متنوع است و می تواند پیامدهای قابل توجهی برای صنعت هوش مصنوعی داشته باشد:

  • حل و فصل: این دو شرکت می توانند به یک توافق نامه حل و فصل دست یابند که اختلاف را بدون محاکمه حل کند.
  • Reddit برنده می شود: دادگاه می تواند به نفع Reddit رأی دهد و تشخیص دهد که Anthropic شرایط خدمات خود را نقض کرده و در رقابت ناعادلانه شرکت کرده است.
  • Anthropic برنده می شود: دادگاه می تواند به نفع Anthropic رأی دهد و تشخیص دهد که شیوه های آموزش هوش مصنوعی آن تحت دکترین استفاده منصفانه قانونی است.
  • حکم مختلط: دادگاه می تواند یک حکم مختلط صادر کند و در برخی از ادعاها به نفع Reddit اما در برخی دیگر به نفع Anthropic رأی دهد.

نتیجه دادخواست احتمالاً به تعدادی از عوامل بستگی دارد، از جمله حقایق خاص پرونده، سوابق حقوقی مربوطه و استدلال های ارائه شده توسط هر دو طرف.

دادگاه افکار عمومی

فراتر از دادرسی های قانونی، دادخواست Reddit علیه Anthropic نیز در دادگاه افکار عمومی مورد اختلاف است. هر دو شرکت علاقه زیادی به شکل دادن به روایت پیرامون این پرونده و تأثیرگذاری بر ادراک عمومی دارند.

به احتمال زیاد Reddit بر اهمیت محافظت از حریم خصوصی کاربر و اجرای شرایط خدمات خود تأکید می کند. Anthropic به احتمال زیاد مزایای نوآوری هوش مصنوعی و اهمیت دسترسی به داده ها برای آموزش مدل های هوش مصنوعی را برجسته می کند.

ادراک عمومی از این پرونده می تواند هم بر نتیجه دادرسی های قانونی و هم بر بحث گسترده تر در مورد شیوه های آموزش هوش مصنوعی تأثیر بگذارد.