پیشرفت بیوقفه توسعه هوش مصنوعی، به رهبری غولهایی مانند OpenAI، مکرراً با اصول دیرینه مالکیت فکری و مالکیت دادهها برخورد میکند. این برخورد بار دیگر جنجالبرانگیز شده است، با طرح اتهامات جدیدی مبنی بر اینکه جدیدترین مدل پرچمدار OpenAI، GPT-4o، ممکن است با استفاده از مواد دارای حق نشر که پشت دیوارهای پرداخت (paywalls) قرار دارند، آموزش دیده باشد، احتمالاً بدون کسب مجوزهای لازم. این ادعاها از سوی یک گروه ناظر تازه تأسیس، AI Disclosures Project، مطرح شده و لایه دیگری از پیچیدگی را به بحث پیشاپیش بغرنج پیرامون منبعیابی اخلاقی دادهها برای آموزش سیستمهای پیچیده هوش مصنوعی میافزاید.
هشدار گروه ناظر: اتهامات از سوی AI Disclosures Project
AI Disclosures Project که در سال 2024 راهاندازی شد، خود را به عنوان یک نهاد غیرانتفاعی معرفی میکند که به بررسی دقیق شیوههای اغلب غیرشفاف در صنعت هوش مصنوعی اختصاص دارد. بنیانگذاران آن شامل چهرههای برجستهای مانند کارآفرین رسانهای Tim O’Reilly، بنیانگذار O’Reilly Media، ناشر برجسته کتابهای فنی، و اقتصاددان Ilan Strauss هستند. این ارتباط با O’Reilly Media به ویژه مرتبط است، زیرا گزارش اولیه و جنجالی این پروژه به طور خاص بر حضور ادعایی محتوای کتابهای پولی O’Reilly در مجموعه دادههای آموزشی GPT-4o تمرکز دارد.
ادعای اصلی مطالعه آنها تحریکآمیز است: علیرغم عدم وجود هرگونه توافقنامه صدور مجوز شناخته شده بین OpenAI و O’Reilly Media، مدل GPT-4o سطح آشنایی قابل توجهی با محتوای برگرفته مستقیم از کتابهای دارای حق نشر O’Reilly نشان میدهد. این گزارش استدلال میکند که این آشنایی قویاً نشان میدهد که این مواد پولی در مجموعه عظیم دادههای مورد استفاده برای ساخت قابلیتهای مدل گنجانده شدهاند. این مطالعه تفاوت قابل توجهی را در مقایسه با مدلهای قدیمیتر OpenAI، به ویژه GPT-3.5 Turbo، برجسته میکند و به یک تغییر یا گسترش بالقوه در شیوههای کسب دادهها که منجر به توسعه GPT-4o شده است، اشاره دارد.
پیامدهای آن قابل توجه است. اگر محتوای اختصاصی و پولی توسط مدلهای هوش مصنوعی بدون مجوز یا جبران خسارت استفاده شود، سؤالات اساسی در مورد قانون حق نشر در عصر هوش مصنوعی مولد ایجاد میکند. ناشران و نویسندگان به مدلهای اشتراک یا خرید متکی هستند که بر انحصاری بودن محتوای آنها استوار است. استفاده ادعایی از این مواد برای آموزش میتواند به عنوان تضعیف این مدلهای تجاری تلقی شود و به طور بالقوه ارزش محتوایی را که ایجاد آن نیازمند سرمایهگذاری قابل توجهی است، کاهش دهد. این اتهام خاص فراتر از جمعآوری اطلاعات از وبسایتهای در دسترس عموم رفته و وارد قلمرو دسترسی به محتوایی میشود که صراحتاً برای مشتریان پرداختکننده در نظر گرفته شده است.
نگاهی به درون جعبه سیاه: حمله استنتاج عضویت (Membership Inference Attack)
برای اثبات ادعاهای خود، محققان در AI Disclosures Project از یک تکنیک پیچیده به نام ‘حمله استنتاج عضویت’ (membership inference attack)، به طور خاص با استفاده از روشی که آن را DE-COP مینامند، استفاده کردند. ایده اصلی پشت این رویکرد، آزمایش این است که آیا یک مدل هوش مصنوعی قطعات خاصی از متن را ‘به خاطر سپرده’ یا حداقل آشنایی قوی با آنها پیدا کرده است. در اصل، این حمله مدل را بررسی میکند تا ببیند آیا میتواند به طور قابل اعتمادی بین قطعات متن اصلی (در این مورد، از کتابهای O’Reilly) و نسخههای بازنویسی شده دقیقاً از همان قطعات که توسط هوش مصنوعی دیگری تولید شدهاند، تمایز قائل شود.
منطق زیربنایی این است که اگر یک مدل به طور مداوم توانایی بالاتری از حد تصادفی در شناسایی متن اصلی نوشته شده توسط انسان در مقایسه با یک بازنویسی نزدیک نشان دهد، این بدان معناست که مدل قبلاً با آن متن اصلی مواجه شده است - احتمالاً در طول مرحله آموزش خود. این شبیه به آزمایش این است که آیا کسی یک عکس خاص و کمتر شناخته شده را که ادعا میکند هرگز ندیده است، تشخیص میدهد یا خیر؛ تشخیص مداوم نشان دهنده قرار گرفتن در معرض قبلی است.
مقیاس آزمایش AI Disclosures Project قابل توجه بود. آنها از 13,962 گزیده پاراگراف متمایز برگرفته از 34 کتاب مختلف O’Reilly Media استفاده کردند. این گزیدهها نمایانگر نوع محتوای تخصصی و با ارزش بالا بودند که معمولاً پشت دیوار پرداخت ناشر یافت میشوند. سپس این مطالعه عملکرد هر دو مدل GPT-4o و مدل قبلی آن، GPT-3.5 Turbo، را در این وظیفه تمایزسنجی اندازهگیری کرد.
نتایج، همانطور که در گزارش ارائه شده است، چشمگیر بود. GPT-4o توانایی قابل توجهی در تشخیص محتوای پولی O’Reilly نشان داد. عملکرد آن با استفاده از امتیاز AUROC (Area Under the Receiver Operating Characteristic curve)، یک معیار رایج برای ارزیابی عملکرد طبقهبندهای باینری، کمیسازی شد. GPT-4o به امتیاز AUROC 82% دست یافت. در مقابل، GPT-3.5 Turbo کمی بالاتر از 50% امتیاز گرفت، که اساساً معادل حدس زدن تصادفی است - نشان دهنده عدم تشخیص خاص یا بسیار کم از مواد آزمایش شده. این گزارش استدلال میکند که این تفاوت فاحش، شواهد قانعکننده، هرچند غیرمستقیم، ارائه میدهد که محتوای پولی واقعاً بخشی از رژیم آموزشی GPT-4o بوده است. امتیاز 82% نشان دهنده یک سیگنال قوی است، بسیار فراتر از آنچه که با شانس یا دانش عمومی انتظار میرود.
هشدارها و سوالات بیپاسخ ضروری
در حالی که یافتهها روایتی قانعکننده ارائه میدهند، نویسندگان همکار این مطالعه، از جمله محقق هوش مصنوعی Sruly Rosenblat، به طور قابل تحسینی محدودیتهای بالقوه ذاتی در روششناسی خود و ماهیت پیچیده آموزش هوش مصنوعی را تصدیق میکنند. یک هشدار مهمی که آنها مطرح میکنند، امکان ورود غیرمستقیم دادهها است. آنها خاطرنشان میکنند که قابل تصور است که کاربران ChatGPT (رابط کاربری محبوب OpenAI) ممکن است گزیدههایی از کتابهای پولی O’Reilly را مستقیماً در رابط چت کپی و جایگذاری کرده باشند برای اهداف مختلف، مانند پرسیدن سؤال در مورد متن یا درخواست خلاصه. اگر این اتفاق به اندازه کافی مکرر رخ داده باشد، مدل میتوانست محتوا را به طور غیرمستقیم از طریق تعاملات کاربر یاد بگیرد، به جای اینکه از طریق گنجاندن مستقیم در مجموعه دادههای آموزشی اولیه باشد. تفکیک قرار گرفتن در معرض آموزش مستقیم از یادگیری غیرمستقیم از طریق درخواستهای کاربر، یک چالش مهم در پزشکی قانونی هوش مصنوعی باقی میماند.
علاوه بر این، دامنه مطالعه به آخرین تکرارهای مدل مطلق یا تخصصی OpenAI که ممکن است همزمان یا متعاقب چرخه اصلی آموزش GPT-4o توسعه یافته یا منتشر شده باشند، گسترش نیافته است. مدلهایی که به طور بالقوه شامل GPT-4.5 (اگر تحت آن نامگذاری یا سطح قابلیت خاص وجود داشته باشد) و مدلهای متمرکز بر استدلال مانند o3-mini و o1 هستند، تحت همان حملات استنتاج عضویت قرار نگرفتند. این موضوع این سؤال را باز میگذارد که آیا شیوههای منبعیابی دادهها ممکن است بیشتر تکامل یافته باشند، یا اینکه آیا این مدلهای جدیدتر الگوهای مشابهی از آشنایی با محتوای پولی را نشان میدهند. چرخههای تکرار سریع در توسعه هوش مصنوعی به این معنی است که هر تحلیل مقطعی تقریباً بلافاصله در معرض خطر قدیمی شدن قرار دارد.
این محدودیتها لزوماً یافتههای اصلی مطالعه را بیاعتبار نمیکنند، اما لایههای مهمی از ظرافت را اضافه میکنند. اثبات قطعی آنچه در ترابایتها داده مورد استفاده برای آموزش یک مدل پایه وجود دارد، به طور بدنامی دشوار است. حملات استنتاج عضویت شواهد احتمالی ارائه میدهند، که بیشتر احتمال را نشان میدهند تا ارائه قطعیت مطلق. OpenAI، مانند سایر آزمایشگاههای هوش مصنوعی، ترکیب دادههای آموزشی خود را به دقت محافظت میکند و به نگرانیهای مربوط به مالکیت و حساسیتهای رقابتی اشاره میکند.
درگیری گستردهتر: نبردهای حق نشر در عرصه هوش مصنوعی
اتهامات مطرح شده توسط AI Disclosures Project در خلاء وجود ندارند. آنها نمایانگر آخرین درگیری در یک درگیری بسیار گستردهتر و مداوم بین توسعهدهندگان هوش مصنوعی و خالقان بر سر استفاده از مواد دارای حق نشر برای اهداف آموزشی هستند. OpenAI، همراه با سایر بازیگران برجسته مانند Google، Meta و Microsoft، خود را درگیر چندین پرونده قضایی پرمخاطب میبیند. این چالشهای حقوقی، که توسط نویسندگان، هنرمندان، سازمانهای خبری و سایر دارندگان حقوق مطرح شدهاند، عموماً ادعای نقض گسترده حق نشر ناشی از جمعآوری و استفاده غیرمجاز از مقادیر عظیمی از متن و تصاویر از اینترنت برای آموزش مدلهای هوش مصنوعی مولد را دارند.
دفاع اصلی که اغلب توسط شرکتهای هوش مصنوعی مطرح میشود، بر دکترین استفاده منصفانه (fair use) (در ایالات متحده) یا استثنائات مشابه در سایر حوزههای قضایی استوار است. آنها استدلال میکنند که استفاده از آثار دارای حق نشر برای آموزش، یک استفاده ‘تحولآفرین’ (transformative) است - مدلهای هوش مصنوعی صرفاً آثار اصلی را بازتولید نمیکنند، بلکه از دادهها برای یادگیری الگوها، سبکها و اطلاعات برای تولید خروجیهای کاملاً جدید استفاده میکنند. طبق این تفسیر، خود فرآیند آموزش، با هدف ایجاد یک ابزار قدرتمند جدید، باید بدون نیاز به مجوز برای هر قطعه دادهای که استفاده میشود، مجاز باشد.
با این حال، دارندگان حقوق به شدت با این دیدگاه مخالفت میکنند. آنها استدلال میکنند که مقیاس عظیم کپیبرداری درگیر، ماهیت تجاری محصولات هوش مصنوعی در حال ساخت، و پتانسیل خروجیهای هوش مصنوعی برای رقابت مستقیم با آثار اصلی و جایگزینی آنها، به شدت علیه یافتن استفاده منصفانه وزن دارد. ادعا این است که شرکتهای هوش مصنوعی در حال ساختن شرکتهای چند میلیارد دلاری بر پایه کار خلاقانه بدون جبران خسارت به خالقان هستند.
در برابر این پسزمینه دعوی قضایی، OpenAI به طور پیشگیرانه به دنبال کاهش برخی از خطرات با انعقاد قراردادهای صدور مجوز با ارائهدهندگان محتوای مختلف بوده است. توافقاتی با ناشران خبری بزرگ (مانند Associated Press و Axel Springer)، پلتفرمهای رسانههای اجتماعی (مانند Reddit) و کتابخانههای رسانههای استوک (مانند Shutterstock) اعلام شده است. این معاملات به OpenAI دسترسی قانونی به مجموعه دادههای خاص در ازای پرداخت را فراهم میکند و به طور بالقوه اتکای آن به دادههای جمعآوری شده از وب را که به طور بالقوه ناقض حق نشر هستند، کاهش میدهد. همچنین گزارش شده است که این شرکت روزنامهنگارانی را استخدام کرده و وظیفه کمک به اصلاح و بهبود کیفیت و قابلیت اطمینان خروجیهای مدلهای خود را به آنها محول کرده است، که نشاندهنده آگاهی از نیاز به ورودی با کیفیت بالا و بالقوه مدیریت شده است.
اثر موجی: نگرانیهای اکوسیستم محتوا
گزارش AI Disclosures Project نگرانیهای خود را فراتر از پیامدهای حقوقی فوری برای OpenAI گسترش میدهد. این موضوع را به عنوان یک تهدید سیستمی مطرح میکند که میتواند بر سلامت و تنوع کل اکوسیستم محتوای دیجیتال تأثیر منفی بگذارد. این مطالعه یک حلقه بازخورد بالقوه مخرب را مطرح میکند: اگر شرکتهای هوش مصنوعی بتوانند آزادانه از محتوای با کیفیت بالا و حرفهای (از جمله مواد پولی) بدون جبران خسارت به خالقان استفاده کنند، این امر قابلیت دوام مالی تولید چنین محتوایی را در وهله اول از بین میبرد.
ایجاد محتوای حرفهای - خواه روزنامهنگاری تحقیقی، کتابچههای راهنمای فنی عمیق، داستاننویسی یا تحقیقات دانشگاهی - اغلب به زمان، تخصص و سرمایهگذاری مالی قابل توجهی نیاز دارد. دیوارهای پرداخت و مدلهای اشتراک اغلب مکانیسمهای ضروری برای تأمین مالی این کار هستند. اگر جریانهای درآمدی که از این تلاشها پشتیبانی میکنند به دلیل اینکه محتوا به طور مؤثر برای آموزش سیستمهای هوش مصنوعی رقیب بدون پرداخت غرامت استفاده میشود، کاهش یابد، انگیزه برای ایجاد محتوای با کیفیت بالا و متنوع میتواند کاهش یابد. این میتواند منجر به عمومی کمتر آگاه، کاهش منابع دانش تخصصی، و به طور بالقوه اینترنتی شود که تحت سلطه محتوای با کیفیت پایینتر یا تولید شده توسط هوش مصنوعی فاقد تخصص و تأیید انسانی است.
در نتیجه، AI Disclosures Project قویاً از شفافیت و پاسخگویی بیشتر از سوی شرکتهای هوش مصنوعی در مورد شیوههای دادههای آموزشی آنها حمایت میکند. آنها خواستار اجرای سیاستهای قوی و چارچوبهای نظارتی بالقوه هستند که تضمین کند خالقان محتوا زمانی که کار آنها به توسعه مدلهای هوش مصنوعی تجاری کمک میکند، به طور منصفانه جبران خسارت شوند. این امر بازتاب درخواستهای گستردهتر از سوی گروههای خالقان در سراسر جهان است که به دنبال مکانیسمهایی - خواه از طریق توافقنامههای صدور مجوز، سیستمهای حق امتیاز، یا چانهزنی جمعی - برای اطمینان از دریافت سهمی از ارزش تولید شده توسط سیستمهای هوش مصنوعی آموزش دیده بر روی مالکیت فکری آنها هستند. بحث بر سر یافتن یک تعادل پایدار است که در آن نوآوری هوش مصنوعی بتواند در کنار یک اکوسیستم پر رونق برای خلاقیت و تولید دانش انسانی شکوفا شود. حل و فصل نبردهای حقوقی جاری و پتانسیل قوانین جدید یا استانداردهای صنعتی در شکلدهی به این توازن آینده حیاتی خواهد بود. سؤال در مورد چگونگی ردیابی منشأ دادهها و تخصیص ارزش در مدلهای هوش مصنوعی عظیم و پیچیده، یک مانع فنی و اخلاقی قابل توجه باقی میماند.