شبح در ماشین: حفظ آثار کپی‌رایت توسط OpenAI؟

طوفانی در راه: کپی‌رایت در عصر هوش مصنوعی

دنیای هوش مصنوعی، به‌ویژه مدل‌های زبان بزرگ (LLMs) پیچیده‌ای که توسط غول‌های صنعتی مانند OpenAI توسعه یافته‌اند، با یک طوفان حقوقی و اخلاقی فزاینده روبرو است. در قلب این طوفان یک سوال اساسی نهفته است: چه داده‌هایی این ماشین‌های قدرتمند را تغذیه می‌کنند و آیا حقوق خالقان در این فرآیند رعایت شده است؟ اتهامات در حال افزایش هستند و نشان می‌دهند که مقادیر عظیمی از مطالب دارای حق کپی‌رایت - رمان‌ها، مقالات، کدها و موارد دیگر - ممکن است توسط این مدل‌ها در مرحله آموزش، بدون مجوز یا جبران خسارت لازم، بلعیده شده باشند. این صرفاً یک بحث آکادمیک نیست؛ بلکه به سرعت در حال تبدیل شدن به دعاوی حقوقی پرمخاطره است.

OpenAI به طور فزاینده‌ای درگیر نبردهای حقوقی است که توسط نویسندگان، برنامه‌نویسان و دارندگان حقوق مختلف آغاز شده است. این شاکیان ادعا می‌کنند که مالکیت معنوی آنها به طور نامناسب برای ساختن همین مدل‌های هوش مصنوعی که سرفصل خبرها را می‌سازند و صنایع را متحول می‌کنند، استفاده شده است. استدلال آنها بر این ادعا استوار است که قانون کپی‌رایت فعلی به صراحت اجازه استفاده عمده از آثار محافظت شده را به عنوان خوراک آموزشی برای سیستم‌های هوش مصنوعی تجاری نمی‌دهد. OpenAI در پاسخ، به طور مداوم به دکترین ‘استفاده منصفانه’ (fair use) استناد کرده است، یک اصل حقوقی پیچیده که اجازه استفاده محدود از مطالب دارای حق کپی‌رایت را بدون اجازه تحت شرایط خاص می‌دهد. با این حال، قابلیت اعمال استفاده منصفانه در مقیاس و ماهیت بی‌سابقه آموزش هوش مصنوعی، یک منطقه خاکستری به شدت مورد مناقشه باقی مانده است و زمینه را برای رویه‌های قضایی برجسته فراهم می‌کند. تنش اصلی حول این محور می‌چرخد که آیا تبدیل آثار دارای حق کپی‌رایت به الگوهای آماری در یک مدل، ‘استفاده تحول‌آفرین’ (transformative use) - یک عنصر کلیدی استفاده منصفانه - محسوب می‌شود یا صرفاً بازتولید غیرمجاز در مقیاس عظیم است. نتیجه این دعاوی می‌تواند مسیر آینده توسعه هوش مصنوعی را عمیقاً شکل دهد و به طور بالقوه محدودیت‌ها یا هزینه‌های قابل توجهی را بر سازندگان مدل تحمیل کند.

نگاهی به درون جعبه سیاه: روشی جدید برای تشخیص حفظ کردن

مطالعه اخیر که توسط تیمی مشترک از محققان مؤسسات برجسته از جمله University of Washington، University of Copenhagen و Stanford University انجام شده است، به این بحث داغ دامن می‌زند. کار آنها یک تکنیک نوآورانه را معرفی می‌کند که به طور خاص برای تشخیص مواردی طراحی شده است که در آن مدل‌های هوش مصنوعی، حتی آنهایی که فقط از طریق رابط‌های برنامه‌نویسی کاربردی (APIs) محدودکننده مانند OpenAI قابل دسترسی هستند، به نظر می‌رسد بخش‌های خاصی از داده‌های آموزشی خود را ‘حفظ’ کرده‌اند. این یک پیشرفت حیاتی است زیرا دسترسی به عملکرد داخلی یا مجموعه داده‌های آموزشی دقیق مدل‌های تجاری مانند GPT-4 معمولاً برای محققان خارجی غیرممکن است.

درک نحوه عملکرد این مدل‌ها کلید درک اهمیت این مطالعه است. در هسته خود، LLMها موتورهای پیش‌بینی فوق‌العاده پیچیده‌ای هستند. آنها بر روی مقادیر واقعاً عظیمی از متن و کد آموزش دیده‌اند و روابط آماری پیچیده‌ای بین کلمات، عبارات و مفاهیم را یاد می‌گیرند. این فرآیند یادگیری به آنها امکان می‌دهد متن منسجم تولید کنند، زبان‌ها را ترجمه کنند، انواع مختلف محتوای خلاقانه بنویسند و به سوالات به روشی آموزنده پاسخ دهند. در حالی که هدف این است که مدل الگوها را تعمیم دهد نه اینکه صرفاً اطلاعات را کلمه به کلمه ذخیره کند، مقیاس عظیم داده‌های آموزشی باعث می‌شود درجاتی از حفظ کردن تقریباً اجتناب‌ناپذیر باشد. آن را مانند دانش‌آموزی در نظر بگیرید که کتاب‌های درسی بی‌شماری را مطالعه می‌کند؛ در حالی که هدف آنها درک مفاهیم است، ممکن است ناخواسته جملات یا تعاریف خاصی را، به‌ویژه موارد متمایز، حفظ کنند. مشاهدات قبلی قبلاً نشان داده‌اند که مدل‌های تولید تصویر عناصر قابل تشخیصی از فیلم‌هایی را که بر روی آنها آموزش دیده‌اند بازتولید می‌کنند و مدل‌های زبان متنی را تولید می‌کنند که به طرز چشمگیری شبیه به منابعی مانند مقالات خبری است یا مستقیماً از آنها کپی شده است. این پدیده نگرانی‌های جدی در مورد سرقت ادبی و اصالت واقعی محتوای تولید شده توسط هوش مصنوعی ایجاد می‌کند.

روش‌شناسی پیشنهادی محققان هم هوشمندانه و هم افشاگرانه است. این روش بر شناسایی و استفاده از آنچه آنها ‘کلمات با شگفتی بالا’ (high-surprisal words) می‌نامند، متمرکز است. اینها کلماتی هستند که از نظر آماری در زمینه خاص یک جمله یا قطعه متن، غیرمعمول یا غیرمنتظره به نظر می‌رسند. عبارت زیر را در نظر بگیرید: ‘دریانورد باستانی با درخشش کم‌نور سکستانت مسیر خود را پیدا کرد.’ کلمه ‘سکستانت’ ممکن است با شگفتی بالا در نظر گرفته شود زیرا در یک مجموعه کلی متن، کلماتی مانند ‘ستارگان’، ‘ماه’ یا ‘قطب‌نما’ ممکن است از نظر آماری در آن زمینه محتمل‌تر باشند. محققان این فرضیه را مطرح کردند که اگر مدلی واقعاً یک قطعه متن خاص را در طول آموزش حفظ کرده باشد، در پیش‌بینی این کلمات منحصربه‌فرد و با شگفتی بالا، در صورت حذف شدن از قطعه، فوق‌العاده خوب عمل خواهد کرد.

برای آزمایش این فرضیه، تیم تحقیقاتی به طور سیستماتیک چندین مدل پرچمدار OpenAI، از جمله GPT-4 قدرتمند و مدل قبلی آن، GPT-3.5 را مورد بررسی قرار دادند. آنها تکه‌هایی از متن را از منابع شناخته شده، مانند رمان‌های داستانی محبوب و مقالات The New York Times، برداشتند. نکته مهم این است که آنها کلمات شناسایی شده با شگفتی بالا را از این تکه‌ها پنهان یا حذف کردند. سپس از مدل‌ها خواسته شد تا جاهای خالی را پر کنند - اساساً، کلمات گمشده و از نظر آماری نامحتمل را ‘حدس’ بزنند. منطق اصلی این مطالعه قانع‌کننده است: اگر مدلی به طور مداوم و دقیق این کلمات با شگفتی بالا را پیش‌بینی کند، قویاً نشان می‌دهد که مدل فقط الگوهای کلی زبان را یاد نگرفته، بلکه در واقع حافظه خاصی از آن توالی متن دقیق را از داده‌های آموزشی خود حفظ کرده است. شانس تصادفی یا درک کلی زبان به تنهایی بعید است که چنین حدس‌های دقیقی را برای کلمات غیرمعمول در زمینه‌های خاص ایجاد کند.

یافته‌ها: پژواک متن دارای کپی‌رایت در خروجی هوش مصنوعی

نتایج حاصل از این آزمایش‌های دقیق، شواهد قانع‌کننده‌ای، هرچند مقدماتی، در حمایت از ادعاهای نقض حق کپی‌رایت ارائه می‌دهد. بر اساس یافته‌های منتشر شده این مطالعه، GPT-4، پیشرفته‌ترین مدل در دسترس عموم OpenAI در زمان تحقیق، نشانه‌های قابل توجهی از حفظ کردن بخش‌های کلمه به کلمه از کتاب‌های داستانی محبوب را نشان داد. این شامل متونی بود که در یک مجموعه داده خاص به نام BookMIA یافت می‌شد، که شامل نمونه‌هایی است که از کتاب‌های الکترونیکی دارای حق کپی‌رایت استخراج شده‌اند - مجموعه داده‌ای که اغلب در بحث‌های مربوط به منابع آموزشی بالقوه ناقض حق کپی‌رایت دخیل است. مدل فقط مضامین یا سبک‌های کلی را به یاد نمی‌آورد؛ بلکه توالی‌های متنی حاوی آن کلمات منحصربه‌فرد و با شگفتی بالا را با دقت بازسازی می‌کرد، که نشان‌دهنده سطح عمیق‌تری از حفظ نسبت به تعمیم الگوی ساده است.

علاوه بر این، تحقیقات نشان داد که GPT-4 همچنین شواهدی از حفظ کردن بخش‌هایی از مقالات New York Times را نشان می‌دهد. با این حال، محققان خاطرنشان کردند که میزان حفظ ظاهری برای مقالات خبری در مقایسه با آنچه برای کتاب‌های داستانی مشاهده شد، کمتر بود. این تفاوت به طور بالقوه می‌تواند به عوامل مختلفی نسبت داده شود، مانند فراوانی یا نحوه ارائه این انواع مختلف متن در مجموعه داده آموزشی اصلی، یا شاید تفاوت در نحوه پردازش نثر روزنامه‌نگاری در مقابل نثر روایی توسط مدل. صرف نظر از میزان دقیق، این واقعیت که حفظ کردن در انواع مختلف محتوای دارای حق کپی‌رایت - هم آثار ادبی و هم قطعات روزنامه‌نگاری - رخ داده است، این استدلال را تقویت می‌کند که این پدیده به یک ژانر یا منبع واحد محدود نمی‌شود.

این یافته‌ها در بحث‌های حقوقی و اخلاقی جاری وزن قابل توجهی دارند. اگر مدل‌هایی مانند GPT-4 واقعاً قادر به بازگرداندن بخش‌های خاص و دارای حق کپی‌رایت باشند که بر روی آنها آموزش دیده‌اند، دفاع استفاده منصفانه OpenAI را پیچیده می‌کند. استفاده منصفانه اغلب به نفع استفاده‌هایی استکه اثر اصلی را متحول می‌کنند؛ بازتولید کلمه به کلمه، حتی اگر غیرعمدی یا احتمالی باشد، از تحول فاصله گرفته و به سمت کپی‌برداری ساده متمایل می‌شود. این شواهد به طور بالقوه می‌تواند توسط شاکیان در دعاوی حق کپی‌رایت برای استدلال اینکه شیوه‌های آموزشی OpenAI منجر به ایجاد آثار مشتق ناقض حق کپی‌رایت شده یا نقض مستقیم توسط خروجی‌های مدل را تسهیل کرده است، مورد استفاده قرار گیرد. این امر بر پیوند ملموس بین داده‌های مورد استفاده برای آموزش و خروجی‌های خاص تولید شده توسط هوش مصنوعی تأکید می‌کند و مفهوم انتزاعی ‘یادگیری الگوها’ را بسیار نزدیک‌تر به بازتولید عینی می‌کند.

ضرورت اعتماد و شفافیت در توسعه هوش مصنوعی

Abhilasha Ravichander، دانشجوی دکترا در University of Washington و یکی از نویسندگان همکار این مطالعه، بر پیامدهای گسترده‌تر تحقیقات خود تأکید کرد. او خاطرنشان کرد که این یافته‌ها نور مهمی بر ‘داده‌های بالقوه بحث‌برانگیز’ می‌تابانند که ممکن است پایه و اساس بسیاری از مدل‌های هوش مصنوعی معاصر را تشکیل دهند. توانایی شناسایی محتوای حفظ شده، پنجره‌ای، هرچند کوچک، به مجموعه داده‌های آموزشی غیرشفاف مورد استفاده شرکت‌هایی مانند OpenAI باز می‌کند.

Ravichander احساسات رو به رشدی را در جامعه تحقیقاتی هوش مصنوعی و در میان عموم بیان کرد: ‘برای داشتن مدل‌های زبان بزرگی که قابل اعتماد باشند، به مدل‌هایی نیاز داریم که بتوانیم آنها را به صورت علمی بررسی، حسابرسی و آزمایش کنیم.’ این بیانیه بر چالش حیاتی پیش روی صنعت هوش مصنوعی تأکید می‌کند. همانطور که این مدل‌ها بیشتر در جنبه‌های مختلف جامعه ادغام می‌شوند - از تولید مقالات خبری و نوشتن کد گرفته تا کمک به تشخیص پزشکی و تحلیل مالی - نیاز به اعتماد و پاسخگویی اهمیت حیاتی پیدا می‌کند. کاربران، تنظیم‌کنندگان و عموم مردم به اطمینان نیاز دارند که این سیستم‌ها منصفانه، قابل اعتماد و اخلاقی عمل می‌کنند. ماهیت ‘جعبه سیاه’ بسیاری از LLMهای فعلی، که حتی سازندگان آنها ممکن است تمام جزئیات عملکرد داخلی یا منشأ دقیق خروجی‌های خاص را به طور کامل درک نکنند، مانع ایجاد این اعتماد می‌شود.

روش‌شناسی پیشنهادی این مطالعه چیزی بیش از یک تکنیک برای تشخیص حفظ کردن حق کپی‌رایت است؛ بلکه به عنوان یک ابزار بالقوه برای حسابرسی گسترده‌تر هوش مصنوعی (AI auditing) عمل می‌کند. توانایی بررسی مدل‌ها، حتی آنهایی که فقط از طریق APIها قابل دسترسی هستند، امکان تأیید و تحلیل مستقل را فراهم می‌کند. Ravichander همچنین بر ‘نیاز فوری به شفافیت بیشتر داده‌ها در کل اکوسیستم’ تأکید کرد. بدون دانستن اینکه این مدل‌ها بر روی چه داده‌هایی آموزش دیده‌اند، ارزیابی سوگیری‌های بالقوه، شناسایی آسیب‌پذیری‌های امنیتی، درک منشأ خروجی‌های مضر یا نادرست، یا همانطور که این مطالعه برجسته می‌کند، تعیین میزان نقض بالقوه حق کپی‌رایت، فوق‌العاده دشوار می‌شود. درخواست شفافیت صرفاً آکادمیک نیست؛ بلکه یک نیاز اساسی برای ساختن آینده‌ای مسئولانه و پایدار برای هوش مصنوعی است. این شامل مصالحه‌های پیچیده بین حفاظت از اطلاعات اختصاصی و مالکیت معنوی (از جمله خود مدل‌ها) و تضمین پاسخگویی و ایمنی عمومی است. توسعه ابزارها و چارچوب‌های حسابرسی قوی، در کنار استانداردهای واضح‌تر برای افشای داده‌ها، با ادامه پیشرفت سریع هوش مصنوعی، به طور فزاینده‌ای حیاتی می‌شود.

موضع OpenAI و مسیر نامشخص پیش رو

OpenAI که با فشار فزاینده‌ای از سوی خالقان و قانون‌گذاران روبرو است، به طور مداوم از یک محیط قانونی و نظارتی حمایت کرده است که اجازه استفاده گسترده از مطالب دارای حق کپی‌رایت را برای آموزش مدل‌های هوش مصنوعی می‌دهد. این شرکت استدلال می‌کند که چنین انعطاف‌پذیری برای نوآوری و حفظ مزیت رقابتی US در رقابت جهانی هوش مصنوعی ضروری است. تلاش‌های لابی‌گری آنها بر متقاعد کردن دولت‌ها در سراسر جهان برای تفسیر یا تدوین قوانین موجود کپی‌رایت، به‌ویژه مفهوم ‘استفاده منصفانه’ در ایالات متحده، به نحوی مطلوب برای توسعه‌دهندگان هوش مصنوعی متمرکز شده است. آنها ادعا می‌کنند که آموزش مدل‌ها بر روی مجموعه داده‌های متنوع، از جمله آثار دارای حق کپی‌رایت، یک استفاده تحول‌آفرین است که برای ایجاد سیستم‌های هوش مصنوعی قدرتمند و مفید ضروری است.

با این حال، OpenAI با درک نگرانی‌های فزاینده، اقداماتی را نیز برای رسیدگی به این موضوع انجام داده است، اگرچه منتقدان اغلب این اقدامات را ناکافی می‌دانند. این شرکت قراردادهای صدور مجوز محتوا (content licensing agreements) را با برخی ناشران و سازندگان محتوا منعقد کرده و مجوز صریح برای استفاده از مطالب آنها را تضمین کرده است. این معاملات، اگرچه قابل توجه هستند، تنها بخشی از داده‌هایی را نشان می‌دهند که احتمالاً برای آموزش مدل‌هایی مانند GPT-4 استفاده شده است. علاوه بر این، OpenAI مکانیسم‌های انصراف (opt-out mechanisms) را پیاده‌سازی کرده است. این مکانیسم‌ها به دارندگان حق کپی‌رایت اجازه می‌دهد تا رسماً درخواست کنند که محتوای آنها برای اهداف آموزشی آینده هوش مصنوعی استفاده نشود. در حالی که به نظر می‌رسد گامی به سوی احترام به حقوق خالقان باشد، اثربخشی و عملی بودن این سیستم‌های انصراف قابل بحث است. آنها بار مسئولیت را بر دوش خالقان منفرد می‌گذارند تا کشف کنند که ممکن است از کار آنها استفاده شود و سپس رویه‌های خاص OpenAI را برای انصراف طی کنند. علاوه بر این، این مکانیسم‌ها معمولاً به استفاده از محتوا در مدل‌هایی که قبلاً آموزش دیده‌اند، نمی‌پردازند.

وضعیت فعلی منعکس‌کننده یک تنش اساسی است: تمایل شرکت‌های هوش مصنوعی برای استفاده از جهان دیجیتال وسیع اطلاعات برای نوآوری در مقابل حق خالقان برای کنترل و بهره‌مندی از آثار اصلی خود. مطالعه‌ای که حفظ کردن را نشان می‌دهد، لایه دیگری از پیچیدگی را اضافه می‌کند و نشان می‌دهد که مرز بین ‘یادگیری از’ و ‘کپی کردن’ داده‌ها مبهم‌تر است و شاید بیشتر از آنچه قبلاً توسط توسعه‌دهندگان مدل اذعان شده بود، از آن عبور می‌شود. مسیر پیش رو نامشخص باقی مانده است. این ممکن است شامل قانون‌گذاری جدیدی باشد که به طور خاص به داده‌های آموزشی هوش مصنوعی می‌پردازد، احکام دادگاه برجسته‌ای که قانون کپی‌رایت موجود را در این زمینه جدید تفسیر می‌کنند، توسعه بهترین شیوه‌های صنعتی و چارچوب‌های صدور مجوز، یا راه‌حل‌های فناورانه مانند ردیابی بهبود یافته منشأ داده‌ها یا تکنیک‌هایی برای کاهش حفظ کردن مدل باشد. آنچه واضح به نظر می‌رسد این است که بحث بر سر هوش مصنوعی و حق کپی‌رایت به پایان نرسیده است؛ در واقع، ممکن است تازه آغاز شده باشد، با پیامدهای عمیق هم برای آینده هوش مصنوعی و هم برای اقتصاد خلاق. یافته‌های مربوط به حفظ کردن به عنوان یادآوری آشکاری عمل می‌کند که داده‌های دیجیتالی که این ابزارهای قدرتمند را تغذیه می‌کنند، دارای منشأ، مالک و حقوقی هستند که نمی‌توان نادیده گرفت.