طوفانی در راه: کپیرایت در عصر هوش مصنوعی
دنیای هوش مصنوعی، بهویژه مدلهای زبان بزرگ (LLMs) پیچیدهای که توسط غولهای صنعتی مانند OpenAI توسعه یافتهاند، با یک طوفان حقوقی و اخلاقی فزاینده روبرو است. در قلب این طوفان یک سوال اساسی نهفته است: چه دادههایی این ماشینهای قدرتمند را تغذیه میکنند و آیا حقوق خالقان در این فرآیند رعایت شده است؟ اتهامات در حال افزایش هستند و نشان میدهند که مقادیر عظیمی از مطالب دارای حق کپیرایت - رمانها، مقالات، کدها و موارد دیگر - ممکن است توسط این مدلها در مرحله آموزش، بدون مجوز یا جبران خسارت لازم، بلعیده شده باشند. این صرفاً یک بحث آکادمیک نیست؛ بلکه به سرعت در حال تبدیل شدن به دعاوی حقوقی پرمخاطره است.
OpenAI به طور فزایندهای درگیر نبردهای حقوقی است که توسط نویسندگان، برنامهنویسان و دارندگان حقوق مختلف آغاز شده است. این شاکیان ادعا میکنند که مالکیت معنوی آنها به طور نامناسب برای ساختن همین مدلهای هوش مصنوعی که سرفصل خبرها را میسازند و صنایع را متحول میکنند، استفاده شده است. استدلال آنها بر این ادعا استوار است که قانون کپیرایت فعلی به صراحت اجازه استفاده عمده از آثار محافظت شده را به عنوان خوراک آموزشی برای سیستمهای هوش مصنوعی تجاری نمیدهد. OpenAI در پاسخ، به طور مداوم به دکترین ‘استفاده منصفانه’ (fair use) استناد کرده است، یک اصل حقوقی پیچیده که اجازه استفاده محدود از مطالب دارای حق کپیرایت را بدون اجازه تحت شرایط خاص میدهد. با این حال، قابلیت اعمال استفاده منصفانه در مقیاس و ماهیت بیسابقه آموزش هوش مصنوعی، یک منطقه خاکستری به شدت مورد مناقشه باقی مانده است و زمینه را برای رویههای قضایی برجسته فراهم میکند. تنش اصلی حول این محور میچرخد که آیا تبدیل آثار دارای حق کپیرایت به الگوهای آماری در یک مدل، ‘استفاده تحولآفرین’ (transformative use) - یک عنصر کلیدی استفاده منصفانه - محسوب میشود یا صرفاً بازتولید غیرمجاز در مقیاس عظیم است. نتیجه این دعاوی میتواند مسیر آینده توسعه هوش مصنوعی را عمیقاً شکل دهد و به طور بالقوه محدودیتها یا هزینههای قابل توجهی را بر سازندگان مدل تحمیل کند.
نگاهی به درون جعبه سیاه: روشی جدید برای تشخیص حفظ کردن
مطالعه اخیر که توسط تیمی مشترک از محققان مؤسسات برجسته از جمله University of Washington، University of Copenhagen و Stanford University انجام شده است، به این بحث داغ دامن میزند. کار آنها یک تکنیک نوآورانه را معرفی میکند که به طور خاص برای تشخیص مواردی طراحی شده است که در آن مدلهای هوش مصنوعی، حتی آنهایی که فقط از طریق رابطهای برنامهنویسی کاربردی (APIs) محدودکننده مانند OpenAI قابل دسترسی هستند، به نظر میرسد بخشهای خاصی از دادههای آموزشی خود را ‘حفظ’ کردهاند. این یک پیشرفت حیاتی است زیرا دسترسی به عملکرد داخلی یا مجموعه دادههای آموزشی دقیق مدلهای تجاری مانند GPT-4 معمولاً برای محققان خارجی غیرممکن است.
درک نحوه عملکرد این مدلها کلید درک اهمیت این مطالعه است. در هسته خود، LLMها موتورهای پیشبینی فوقالعاده پیچیدهای هستند. آنها بر روی مقادیر واقعاً عظیمی از متن و کد آموزش دیدهاند و روابط آماری پیچیدهای بین کلمات، عبارات و مفاهیم را یاد میگیرند. این فرآیند یادگیری به آنها امکان میدهد متن منسجم تولید کنند، زبانها را ترجمه کنند، انواع مختلف محتوای خلاقانه بنویسند و به سوالات به روشی آموزنده پاسخ دهند. در حالی که هدف این است که مدل الگوها را تعمیم دهد نه اینکه صرفاً اطلاعات را کلمه به کلمه ذخیره کند، مقیاس عظیم دادههای آموزشی باعث میشود درجاتی از حفظ کردن تقریباً اجتنابناپذیر باشد. آن را مانند دانشآموزی در نظر بگیرید که کتابهای درسی بیشماری را مطالعه میکند؛ در حالی که هدف آنها درک مفاهیم است، ممکن است ناخواسته جملات یا تعاریف خاصی را، بهویژه موارد متمایز، حفظ کنند. مشاهدات قبلی قبلاً نشان دادهاند که مدلهای تولید تصویر عناصر قابل تشخیصی از فیلمهایی را که بر روی آنها آموزش دیدهاند بازتولید میکنند و مدلهای زبان متنی را تولید میکنند که به طرز چشمگیری شبیه به منابعی مانند مقالات خبری است یا مستقیماً از آنها کپی شده است. این پدیده نگرانیهای جدی در مورد سرقت ادبی و اصالت واقعی محتوای تولید شده توسط هوش مصنوعی ایجاد میکند.
روششناسی پیشنهادی محققان هم هوشمندانه و هم افشاگرانه است. این روش بر شناسایی و استفاده از آنچه آنها ‘کلمات با شگفتی بالا’ (high-surprisal words) مینامند، متمرکز است. اینها کلماتی هستند که از نظر آماری در زمینه خاص یک جمله یا قطعه متن، غیرمعمول یا غیرمنتظره به نظر میرسند. عبارت زیر را در نظر بگیرید: ‘دریانورد باستانی با درخشش کمنور سکستانت مسیر خود را پیدا کرد.’ کلمه ‘سکستانت’ ممکن است با شگفتی بالا در نظر گرفته شود زیرا در یک مجموعه کلی متن، کلماتی مانند ‘ستارگان’، ‘ماه’ یا ‘قطبنما’ ممکن است از نظر آماری در آن زمینه محتملتر باشند. محققان این فرضیه را مطرح کردند که اگر مدلی واقعاً یک قطعه متن خاص را در طول آموزش حفظ کرده باشد، در پیشبینی این کلمات منحصربهفرد و با شگفتی بالا، در صورت حذف شدن از قطعه، فوقالعاده خوب عمل خواهد کرد.
برای آزمایش این فرضیه، تیم تحقیقاتی به طور سیستماتیک چندین مدل پرچمدار OpenAI، از جمله GPT-4 قدرتمند و مدل قبلی آن، GPT-3.5 را مورد بررسی قرار دادند. آنها تکههایی از متن را از منابع شناخته شده، مانند رمانهای داستانی محبوب و مقالات The New York Times، برداشتند. نکته مهم این است که آنها کلمات شناسایی شده با شگفتی بالا را از این تکهها پنهان یا حذف کردند. سپس از مدلها خواسته شد تا جاهای خالی را پر کنند - اساساً، کلمات گمشده و از نظر آماری نامحتمل را ‘حدس’ بزنند. منطق اصلی این مطالعه قانعکننده است: اگر مدلی به طور مداوم و دقیق این کلمات با شگفتی بالا را پیشبینی کند، قویاً نشان میدهد که مدل فقط الگوهای کلی زبان را یاد نگرفته، بلکه در واقع حافظه خاصی از آن توالی متن دقیق را از دادههای آموزشی خود حفظ کرده است. شانس تصادفی یا درک کلی زبان به تنهایی بعید است که چنین حدسهای دقیقی را برای کلمات غیرمعمول در زمینههای خاص ایجاد کند.
یافتهها: پژواک متن دارای کپیرایت در خروجی هوش مصنوعی
نتایج حاصل از این آزمایشهای دقیق، شواهد قانعکنندهای، هرچند مقدماتی، در حمایت از ادعاهای نقض حق کپیرایت ارائه میدهد. بر اساس یافتههای منتشر شده این مطالعه، GPT-4، پیشرفتهترین مدل در دسترس عموم OpenAI در زمان تحقیق، نشانههای قابل توجهی از حفظ کردن بخشهای کلمه به کلمه از کتابهای داستانی محبوب را نشان داد. این شامل متونی بود که در یک مجموعه داده خاص به نام BookMIA یافت میشد، که شامل نمونههایی است که از کتابهای الکترونیکی دارای حق کپیرایت استخراج شدهاند - مجموعه دادهای که اغلب در بحثهای مربوط به منابع آموزشی بالقوه ناقض حق کپیرایت دخیل است. مدل فقط مضامین یا سبکهای کلی را به یاد نمیآورد؛ بلکه توالیهای متنی حاوی آن کلمات منحصربهفرد و با شگفتی بالا را با دقت بازسازی میکرد، که نشاندهنده سطح عمیقتری از حفظ نسبت به تعمیم الگوی ساده است.
علاوه بر این، تحقیقات نشان داد که GPT-4 همچنین شواهدی از حفظ کردن بخشهایی از مقالات New York Times را نشان میدهد. با این حال، محققان خاطرنشان کردند که میزان حفظ ظاهری برای مقالات خبری در مقایسه با آنچه برای کتابهای داستانی مشاهده شد، کمتر بود. این تفاوت به طور بالقوه میتواند به عوامل مختلفی نسبت داده شود، مانند فراوانی یا نحوه ارائه این انواع مختلف متن در مجموعه داده آموزشی اصلی، یا شاید تفاوت در نحوه پردازش نثر روزنامهنگاری در مقابل نثر روایی توسط مدل. صرف نظر از میزان دقیق، این واقعیت که حفظ کردن در انواع مختلف محتوای دارای حق کپیرایت - هم آثار ادبی و هم قطعات روزنامهنگاری - رخ داده است، این استدلال را تقویت میکند که این پدیده به یک ژانر یا منبع واحد محدود نمیشود.
این یافتهها در بحثهای حقوقی و اخلاقی جاری وزن قابل توجهی دارند. اگر مدلهایی مانند GPT-4 واقعاً قادر به بازگرداندن بخشهای خاص و دارای حق کپیرایت باشند که بر روی آنها آموزش دیدهاند، دفاع استفاده منصفانه OpenAI را پیچیده میکند. استفاده منصفانه اغلب به نفع استفادههایی استکه اثر اصلی را متحول میکنند؛ بازتولید کلمه به کلمه، حتی اگر غیرعمدی یا احتمالی باشد، از تحول فاصله گرفته و به سمت کپیبرداری ساده متمایل میشود. این شواهد به طور بالقوه میتواند توسط شاکیان در دعاوی حق کپیرایت برای استدلال اینکه شیوههای آموزشی OpenAI منجر به ایجاد آثار مشتق ناقض حق کپیرایت شده یا نقض مستقیم توسط خروجیهای مدل را تسهیل کرده است، مورد استفاده قرار گیرد. این امر بر پیوند ملموس بین دادههای مورد استفاده برای آموزش و خروجیهای خاص تولید شده توسط هوش مصنوعی تأکید میکند و مفهوم انتزاعی ‘یادگیری الگوها’ را بسیار نزدیکتر به بازتولید عینی میکند.
ضرورت اعتماد و شفافیت در توسعه هوش مصنوعی
Abhilasha Ravichander، دانشجوی دکترا در University of Washington و یکی از نویسندگان همکار این مطالعه، بر پیامدهای گستردهتر تحقیقات خود تأکید کرد. او خاطرنشان کرد که این یافتهها نور مهمی بر ‘دادههای بالقوه بحثبرانگیز’ میتابانند که ممکن است پایه و اساس بسیاری از مدلهای هوش مصنوعی معاصر را تشکیل دهند. توانایی شناسایی محتوای حفظ شده، پنجرهای، هرچند کوچک، به مجموعه دادههای آموزشی غیرشفاف مورد استفاده شرکتهایی مانند OpenAI باز میکند.
Ravichander احساسات رو به رشدی را در جامعه تحقیقاتی هوش مصنوعی و در میان عموم بیان کرد: ‘برای داشتن مدلهای زبان بزرگی که قابل اعتماد باشند، به مدلهایی نیاز داریم که بتوانیم آنها را به صورت علمی بررسی، حسابرسی و آزمایش کنیم.’ این بیانیه بر چالش حیاتی پیش روی صنعت هوش مصنوعی تأکید میکند. همانطور که این مدلها بیشتر در جنبههای مختلف جامعه ادغام میشوند - از تولید مقالات خبری و نوشتن کد گرفته تا کمک به تشخیص پزشکی و تحلیل مالی - نیاز به اعتماد و پاسخگویی اهمیت حیاتی پیدا میکند. کاربران، تنظیمکنندگان و عموم مردم به اطمینان نیاز دارند که این سیستمها منصفانه، قابل اعتماد و اخلاقی عمل میکنند. ماهیت ‘جعبه سیاه’ بسیاری از LLMهای فعلی، که حتی سازندگان آنها ممکن است تمام جزئیات عملکرد داخلی یا منشأ دقیق خروجیهای خاص را به طور کامل درک نکنند، مانع ایجاد این اعتماد میشود.
روششناسی پیشنهادی این مطالعه چیزی بیش از یک تکنیک برای تشخیص حفظ کردن حق کپیرایت است؛ بلکه به عنوان یک ابزار بالقوه برای حسابرسی گستردهتر هوش مصنوعی (AI auditing) عمل میکند. توانایی بررسی مدلها، حتی آنهایی که فقط از طریق APIها قابل دسترسی هستند، امکان تأیید و تحلیل مستقل را فراهم میکند. Ravichander همچنین بر ‘نیاز فوری به شفافیت بیشتر دادهها در کل اکوسیستم’ تأکید کرد. بدون دانستن اینکه این مدلها بر روی چه دادههایی آموزش دیدهاند، ارزیابی سوگیریهای بالقوه، شناسایی آسیبپذیریهای امنیتی، درک منشأ خروجیهای مضر یا نادرست، یا همانطور که این مطالعه برجسته میکند، تعیین میزان نقض بالقوه حق کپیرایت، فوقالعاده دشوار میشود. درخواست شفافیت صرفاً آکادمیک نیست؛ بلکه یک نیاز اساسی برای ساختن آیندهای مسئولانه و پایدار برای هوش مصنوعی است. این شامل مصالحههای پیچیده بین حفاظت از اطلاعات اختصاصی و مالکیت معنوی (از جمله خود مدلها) و تضمین پاسخگویی و ایمنی عمومی است. توسعه ابزارها و چارچوبهای حسابرسی قوی، در کنار استانداردهای واضحتر برای افشای دادهها، با ادامه پیشرفت سریع هوش مصنوعی، به طور فزایندهای حیاتی میشود.
موضع OpenAI و مسیر نامشخص پیش رو
OpenAI که با فشار فزایندهای از سوی خالقان و قانونگذاران روبرو است، به طور مداوم از یک محیط قانونی و نظارتی حمایت کرده است که اجازه استفاده گسترده از مطالب دارای حق کپیرایت را برای آموزش مدلهای هوش مصنوعی میدهد. این شرکت استدلال میکند که چنین انعطافپذیری برای نوآوری و حفظ مزیت رقابتی US در رقابت جهانی هوش مصنوعی ضروری است. تلاشهای لابیگری آنها بر متقاعد کردن دولتها در سراسر جهان برای تفسیر یا تدوین قوانین موجود کپیرایت، بهویژه مفهوم ‘استفاده منصفانه’ در ایالات متحده، به نحوی مطلوب برای توسعهدهندگان هوش مصنوعی متمرکز شده است. آنها ادعا میکنند که آموزش مدلها بر روی مجموعه دادههای متنوع، از جمله آثار دارای حق کپیرایت، یک استفاده تحولآفرین است که برای ایجاد سیستمهای هوش مصنوعی قدرتمند و مفید ضروری است.
با این حال، OpenAI با درک نگرانیهای فزاینده، اقداماتی را نیز برای رسیدگی به این موضوع انجام داده است، اگرچه منتقدان اغلب این اقدامات را ناکافی میدانند. این شرکت قراردادهای صدور مجوز محتوا (content licensing agreements) را با برخی ناشران و سازندگان محتوا منعقد کرده و مجوز صریح برای استفاده از مطالب آنها را تضمین کرده است. این معاملات، اگرچه قابل توجه هستند، تنها بخشی از دادههایی را نشان میدهند که احتمالاً برای آموزش مدلهایی مانند GPT-4 استفاده شده است. علاوه بر این، OpenAI مکانیسمهای انصراف (opt-out mechanisms) را پیادهسازی کرده است. این مکانیسمها به دارندگان حق کپیرایت اجازه میدهد تا رسماً درخواست کنند که محتوای آنها برای اهداف آموزشی آینده هوش مصنوعی استفاده نشود. در حالی که به نظر میرسد گامی به سوی احترام به حقوق خالقان باشد، اثربخشی و عملی بودن این سیستمهای انصراف قابل بحث است. آنها بار مسئولیت را بر دوش خالقان منفرد میگذارند تا کشف کنند که ممکن است از کار آنها استفاده شود و سپس رویههای خاص OpenAI را برای انصراف طی کنند. علاوه بر این، این مکانیسمها معمولاً به استفاده از محتوا در مدلهایی که قبلاً آموزش دیدهاند، نمیپردازند.
وضعیت فعلی منعکسکننده یک تنش اساسی است: تمایل شرکتهای هوش مصنوعی برای استفاده از جهان دیجیتال وسیع اطلاعات برای نوآوری در مقابل حق خالقان برای کنترل و بهرهمندی از آثار اصلی خود. مطالعهای که حفظ کردن را نشان میدهد، لایه دیگری از پیچیدگی را اضافه میکند و نشان میدهد که مرز بین ‘یادگیری از’ و ‘کپی کردن’ دادهها مبهمتر است و شاید بیشتر از آنچه قبلاً توسط توسعهدهندگان مدل اذعان شده بود، از آن عبور میشود. مسیر پیش رو نامشخص باقی مانده است. این ممکن است شامل قانونگذاری جدیدی باشد که به طور خاص به دادههای آموزشی هوش مصنوعی میپردازد، احکام دادگاه برجستهای که قانون کپیرایت موجود را در این زمینه جدید تفسیر میکنند، توسعه بهترین شیوههای صنعتی و چارچوبهای صدور مجوز، یا راهحلهای فناورانه مانند ردیابی بهبود یافته منشأ دادهها یا تکنیکهایی برای کاهش حفظ کردن مدل باشد. آنچه واضح به نظر میرسد این است که بحث بر سر هوش مصنوعی و حق کپیرایت به پایان نرسیده است؛ در واقع، ممکن است تازه آغاز شده باشد، با پیامدهای عمیق هم برای آینده هوش مصنوعی و هم برای اقتصاد خلاق. یافتههای مربوط به حفظ کردن به عنوان یادآوری آشکاری عمل میکند که دادههای دیجیتالی که این ابزارهای قدرتمند را تغذیه میکنند، دارای منشأ، مالک و حقوقی هستند که نمیتوان نادیده گرفت.