بررسی دقیق GPT-4o OpenAI به دلیل داده‌های آموزشی پولی

پیشرفت بی‌وقفه توسعه هوش مصنوعی، به رهبری غول‌هایی مانند OpenAI، مکرراً با اصول دیرینه مالکیت فکری و مالکیت داده‌ها برخورد می‌کند. این برخورد بار دیگر جنجال‌برانگیز شده است، با طرح اتهامات جدیدی مبنی بر اینکه جدیدترین مدل پرچمدار OpenAI، GPT-4o، ممکن است با استفاده از مواد دارای حق نشر که پشت دیوارهای پرداخت (paywalls) قرار دارند، آموزش دیده باشد، احتمالاً بدون کسب مجوزهای لازم. این ادعاها از سوی یک گروه ناظر تازه تأسیس، AI Disclosures Project، مطرح شده و لایه دیگری از پیچیدگی را به بحث پیشاپیش بغرنج پیرامون منبع‌یابی اخلاقی داده‌ها برای آموزش سیستم‌های پیچیده هوش مصنوعی می‌افزاید.

هشدار گروه ناظر: اتهامات از سوی AI Disclosures Project

AI Disclosures Project که در سال 2024 راه‌اندازی شد، خود را به عنوان یک نهاد غیرانتفاعی معرفی می‌کند که به بررسی دقیق شیوه‌های اغلب غیرشفاف در صنعت هوش مصنوعی اختصاص دارد. بنیان‌گذاران آن شامل چهره‌های برجسته‌ای مانند کارآفرین رسانه‌ای Tim O’Reilly، بنیان‌گذار O’Reilly Media، ناشر برجسته کتاب‌های فنی، و اقتصاددان Ilan Strauss هستند. این ارتباط با O’Reilly Media به ویژه مرتبط است، زیرا گزارش اولیه و جنجالی این پروژه به طور خاص بر حضور ادعایی محتوای کتاب‌های پولی O’Reilly در مجموعه داده‌های آموزشی GPT-4o تمرکز دارد.

ادعای اصلی مطالعه آنها تحریک‌آمیز است: علی‌رغم عدم وجود هرگونه توافقنامه صدور مجوز شناخته شده بین OpenAI و O’Reilly Media، مدل GPT-4o سطح آشنایی قابل توجهی با محتوای برگرفته مستقیم از کتاب‌های دارای حق نشر O’Reilly نشان می‌دهد. این گزارش استدلال می‌کند که این آشنایی قویاً نشان می‌دهد که این مواد پولی در مجموعه عظیم داده‌های مورد استفاده برای ساخت قابلیت‌های مدل گنجانده شده‌اند. این مطالعه تفاوت قابل توجهی را در مقایسه با مدل‌های قدیمی‌تر OpenAI، به ویژه GPT-3.5 Turbo، برجسته می‌کند و به یک تغییر یا گسترش بالقوه در شیوه‌های کسب داده‌ها که منجر به توسعه GPT-4o شده است، اشاره دارد.

پیامدهای آن قابل توجه است. اگر محتوای اختصاصی و پولی توسط مدل‌های هوش مصنوعی بدون مجوز یا جبران خسارت استفاده شود، سؤالات اساسی در مورد قانون حق نشر در عصر هوش مصنوعی مولد ایجاد می‌کند. ناشران و نویسندگان به مدل‌های اشتراک یا خرید متکی هستند که بر انحصاری بودن محتوای آنها استوار است. استفاده ادعایی از این مواد برای آموزش می‌تواند به عنوان تضعیف این مدل‌های تجاری تلقی شود و به طور بالقوه ارزش محتوایی را که ایجاد آن نیازمند سرمایه‌گذاری قابل توجهی است، کاهش دهد. این اتهام خاص فراتر از جمع‌آوری اطلاعات از وب‌سایت‌های در دسترس عموم رفته و وارد قلمرو دسترسی به محتوایی می‌شود که صراحتاً برای مشتریان پرداخت‌کننده در نظر گرفته شده است.

نگاهی به درون جعبه سیاه: حمله استنتاج عضویت (Membership Inference Attack)

برای اثبات ادعاهای خود، محققان در AI Disclosures Project از یک تکنیک پیچیده به نام ‘حمله استنتاج عضویت’ (membership inference attack)، به طور خاص با استفاده از روشی که آن را DE-COP می‌نامند، استفاده کردند. ایده اصلی پشت این رویکرد، آزمایش این است که آیا یک مدل هوش مصنوعی قطعات خاصی از متن را ‘به خاطر سپرده’ یا حداقل آشنایی قوی با آنها پیدا کرده است. در اصل، این حمله مدل را بررسی می‌کند تا ببیند آیا می‌تواند به طور قابل اعتمادی بین قطعات متن اصلی (در این مورد، از کتاب‌های O’Reilly) و نسخه‌های بازنویسی شده دقیقاً از همان قطعات که توسط هوش مصنوعی دیگری تولید شده‌اند، تمایز قائل شود.

منطق زیربنایی این است که اگر یک مدل به طور مداوم توانایی بالاتری از حد تصادفی در شناسایی متن اصلی نوشته شده توسط انسان در مقایسه با یک بازنویسی نزدیک نشان دهد، این بدان معناست که مدل قبلاً با آن متن اصلی مواجه شده است - احتمالاً در طول مرحله آموزش خود. این شبیه به آزمایش این است که آیا کسی یک عکس خاص و کمتر شناخته شده را که ادعا می‌کند هرگز ندیده است، تشخیص می‌دهد یا خیر؛ تشخیص مداوم نشان دهنده قرار گرفتن در معرض قبلی است.

مقیاس آزمایش AI Disclosures Project قابل توجه بود. آنها از 13,962 گزیده پاراگراف متمایز برگرفته از 34 کتاب مختلف O’Reilly Media استفاده کردند. این گزیده‌ها نمایانگر نوع محتوای تخصصی و با ارزش بالا بودند که معمولاً پشت دیوار پرداخت ناشر یافت می‌شوند. سپس این مطالعه عملکرد هر دو مدل GPT-4o و مدل قبلی آن، GPT-3.5 Turbo، را در این وظیفه تمایزسنجی اندازه‌گیری کرد.

نتایج، همانطور که در گزارش ارائه شده است، چشمگیر بود. GPT-4o توانایی قابل توجهی در تشخیص محتوای پولی O’Reilly نشان داد. عملکرد آن با استفاده از امتیاز AUROC (Area Under the Receiver Operating Characteristic curve)، یک معیار رایج برای ارزیابی عملکرد طبقه‌بندهای باینری، کمی‌سازی شد. GPT-4o به امتیاز AUROC 82% دست یافت. در مقابل، GPT-3.5 Turbo کمی بالاتر از 50% امتیاز گرفت، که اساساً معادل حدس زدن تصادفی است - نشان دهنده عدم تشخیص خاص یا بسیار کم از مواد آزمایش شده. این گزارش استدلال می‌کند که این تفاوت فاحش، شواهد قانع‌کننده، هرچند غیرمستقیم، ارائه می‌دهد که محتوای پولی واقعاً بخشی از رژیم آموزشی GPT-4o بوده است. امتیاز 82% نشان دهنده یک سیگنال قوی است، بسیار فراتر از آنچه که با شانس یا دانش عمومی انتظار می‌رود.

هشدارها و سوالات بی‌پاسخ ضروری

در حالی که یافته‌ها روایتی قانع‌کننده ارائه می‌دهند، نویسندگان همکار این مطالعه، از جمله محقق هوش مصنوعی Sruly Rosenblat، به طور قابل تحسینی محدودیت‌های بالقوه ذاتی در روش‌شناسی خود و ماهیت پیچیده آموزش هوش مصنوعی را تصدیق می‌کنند. یک هشدار مهمی که آنها مطرح می‌کنند، امکان ورود غیرمستقیم داده‌ها است. آنها خاطرنشان می‌کنند که قابل تصور است که کاربران ChatGPT (رابط کاربری محبوب OpenAI) ممکن است گزیده‌هایی از کتاب‌های پولی O’Reilly را مستقیماً در رابط چت کپی و جای‌گذاری کرده باشند برای اهداف مختلف، مانند پرسیدن سؤال در مورد متن یا درخواست خلاصه. اگر این اتفاق به اندازه کافی مکرر رخ داده باشد، مدل می‌توانست محتوا را به طور غیرمستقیم از طریق تعاملات کاربر یاد بگیرد، به جای اینکه از طریق گنجاندن مستقیم در مجموعه داده‌های آموزشی اولیه باشد. تفکیک قرار گرفتن در معرض آموزش مستقیم از یادگیری غیرمستقیم از طریق درخواست‌های کاربر، یک چالش مهم در پزشکی قانونی هوش مصنوعی باقی می‌ماند.

علاوه بر این، دامنه مطالعه به آخرین تکرارهای مدل مطلق یا تخصصی OpenAI که ممکن است همزمان یا متعاقب چرخه اصلی آموزش GPT-4o توسعه یافته یا منتشر شده باشند، گسترش نیافته است. مدل‌هایی که به طور بالقوه شامل GPT-4.5 (اگر تحت آن نامگذاری یا سطح قابلیت خاص وجود داشته باشد) و مدل‌های متمرکز بر استدلال مانند o3-mini و o1 هستند، تحت همان حملات استنتاج عضویت قرار نگرفتند. این موضوع این سؤال را باز می‌گذارد که آیا شیوه‌های منبع‌یابی داده‌ها ممکن است بیشتر تکامل یافته باشند، یا اینکه آیا این مدل‌های جدیدتر الگوهای مشابهی از آشنایی با محتوای پولی را نشان می‌دهند. چرخه‌های تکرار سریع در توسعه هوش مصنوعی به این معنی است که هر تحلیل مقطعی تقریباً بلافاصله در معرض خطر قدیمی شدن قرار دارد.

این محدودیت‌ها لزوماً یافته‌های اصلی مطالعه را بی‌اعتبار نمی‌کنند، اما لایه‌های مهمی از ظرافت را اضافه می‌کنند. اثبات قطعی آنچه در ترابایت‌ها داده مورد استفاده برای آموزش یک مدل پایه وجود دارد، به طور بدنامی دشوار است. حملات استنتاج عضویت شواهد احتمالی ارائه می‌دهند، که بیشتر احتمال را نشان می‌دهند تا ارائه قطعیت مطلق. OpenAI، مانند سایر آزمایشگاه‌های هوش مصنوعی، ترکیب داده‌های آموزشی خود را به دقت محافظت می‌کند و به نگرانی‌های مربوط به مالکیت و حساسیت‌های رقابتی اشاره می‌کند.

درگیری گسترده‌تر: نبردهای حق نشر در عرصه هوش مصنوعی

اتهامات مطرح شده توسط AI Disclosures Project در خلاء وجود ندارند. آنها نمایانگر آخرین درگیری در یک درگیری بسیار گسترده‌تر و مداوم بین توسعه‌دهندگان هوش مصنوعی و خالقان بر سر استفاده از مواد دارای حق نشر برای اهداف آموزشی هستند. OpenAI، همراه با سایر بازیگران برجسته مانند Google، Meta و Microsoft، خود را درگیر چندین پرونده قضایی پرمخاطب می‌بیند. این چالش‌های حقوقی، که توسط نویسندگان، هنرمندان، سازمان‌های خبری و سایر دارندگان حقوق مطرح شده‌اند، عموماً ادعای نقض گسترده حق نشر ناشی از جمع‌آوری و استفاده غیرمجاز از مقادیر عظیمی از متن و تصاویر از اینترنت برای آموزش مدل‌های هوش مصنوعی مولد را دارند.

دفاع اصلی که اغلب توسط شرکت‌های هوش مصنوعی مطرح می‌شود، بر دکترین استفاده منصفانه (fair use) (در ایالات متحده) یا استثنائات مشابه در سایر حوزه‌های قضایی استوار است. آنها استدلال می‌کنند که استفاده از آثار دارای حق نشر برای آموزش، یک استفاده ‘تحول‌آفرین’ (transformative) است - مدل‌های هوش مصنوعی صرفاً آثار اصلی را بازتولید نمی‌کنند، بلکه از داده‌ها برای یادگیری الگوها، سبک‌ها و اطلاعات برای تولید خروجی‌های کاملاً جدید استفاده می‌کنند. طبق این تفسیر، خود فرآیند آموزش، با هدف ایجاد یک ابزار قدرتمند جدید، باید بدون نیاز به مجوز برای هر قطعه داده‌ای که استفاده می‌شود، مجاز باشد.

با این حال، دارندگان حقوق به شدت با این دیدگاه مخالفت می‌کنند. آنها استدلال می‌کنند که مقیاس عظیم کپی‌برداری درگیر، ماهیت تجاری محصولات هوش مصنوعی در حال ساخت، و پتانسیل خروجی‌های هوش مصنوعی برای رقابت مستقیم با آثار اصلی و جایگزینی آنها، به شدت علیه یافتن استفاده منصفانه وزن دارد. ادعا این است که شرکت‌های هوش مصنوعی در حال ساختن شرکت‌های چند میلیارد دلاری بر پایه کار خلاقانه بدون جبران خسارت به خالقان هستند.

در برابر این پس‌زمینه دعوی قضایی، OpenAI به طور پیشگیرانه به دنبال کاهش برخی از خطرات با انعقاد قراردادهای صدور مجوز با ارائه‌دهندگان محتوای مختلف بوده است. توافقاتی با ناشران خبری بزرگ (مانند Associated Press و Axel Springer)، پلتفرم‌های رسانه‌های اجتماعی (مانند Reddit) و کتابخانه‌های رسانه‌های استوک (مانند Shutterstock) اعلام شده است. این معاملات به OpenAI دسترسی قانونی به مجموعه داده‌های خاص در ازای پرداخت را فراهم می‌کند و به طور بالقوه اتکای آن به داده‌های جمع‌آوری شده از وب را که به طور بالقوه ناقض حق نشر هستند، کاهش می‌دهد. همچنین گزارش شده است که این شرکت روزنامه‌نگارانی را استخدام کرده و وظیفه کمک به اصلاح و بهبود کیفیت و قابلیت اطمینان خروجی‌های مدل‌های خود را به آنها محول کرده است، که نشان‌دهنده آگاهی از نیاز به ورودی با کیفیت بالا و بالقوه مدیریت شده است.

اثر موجی: نگرانی‌های اکوسیستم محتوا

گزارش AI Disclosures Project نگرانی‌های خود را فراتر از پیامدهای حقوقی فوری برای OpenAI گسترش می‌دهد. این موضوع را به عنوان یک تهدید سیستمی مطرح می‌کند که می‌تواند بر سلامت و تنوع کل اکوسیستم محتوای دیجیتال تأثیر منفی بگذارد. این مطالعه یک حلقه بازخورد بالقوه مخرب را مطرح می‌کند: اگر شرکت‌های هوش مصنوعی بتوانند آزادانه از محتوای با کیفیت بالا و حرفه‌ای (از جمله مواد پولی) بدون جبران خسارت به خالقان استفاده کنند، این امر قابلیت دوام مالی تولید چنین محتوایی را در وهله اول از بین می‌برد.

ایجاد محتوای حرفه‌ای - خواه روزنامه‌نگاری تحقیقی، کتابچه‌های راهنمای فنی عمیق، داستان‌نویسی یا تحقیقات دانشگاهی - اغلب به زمان، تخصص و سرمایه‌گذاری مالی قابل توجهی نیاز دارد. دیوارهای پرداخت و مدل‌های اشتراک اغلب مکانیسم‌های ضروری برای تأمین مالی این کار هستند. اگر جریان‌های درآمدی که از این تلاش‌ها پشتیبانی می‌کنند به دلیل اینکه محتوا به طور مؤثر برای آموزش سیستم‌های هوش مصنوعی رقیب بدون پرداخت غرامت استفاده می‌شود، کاهش یابد، انگیزه برای ایجاد محتوای با کیفیت بالا و متنوع می‌تواند کاهش یابد. این می‌تواند منجر به عمومی کمتر آگاه، کاهش منابع دانش تخصصی، و به طور بالقوه اینترنتی شود که تحت سلطه محتوای با کیفیت پایین‌تر یا تولید شده توسط هوش مصنوعی فاقد تخصص و تأیید انسانی است.

در نتیجه، AI Disclosures Project قویاً از شفافیت و پاسخگویی بیشتر از سوی شرکت‌های هوش مصنوعی در مورد شیوه‌های داده‌های آموزشی آنها حمایت می‌کند. آنها خواستار اجرای سیاست‌های قوی و چارچوب‌های نظارتی بالقوه هستند که تضمین کند خالقان محتوا زمانی که کار آنها به توسعه مدل‌های هوش مصنوعی تجاری کمک می‌کند، به طور منصفانه جبران خسارت شوند. این امر بازتاب درخواست‌های گسترده‌تر از سوی گروه‌های خالقان در سراسر جهان است که به دنبال مکانیسم‌هایی - خواه از طریق توافق‌نامه‌های صدور مجوز، سیستم‌های حق امتیاز، یا چانه‌زنی جمعی - برای اطمینان از دریافت سهمی از ارزش تولید شده توسط سیستم‌های هوش مصنوعی آموزش دیده بر روی مالکیت فکری آنها هستند. بحث بر سر یافتن یک تعادل پایدار است که در آن نوآوری هوش مصنوعی بتواند در کنار یک اکوسیستم پر رونق برای خلاقیت و تولید دانش انسانی شکوفا شود. حل و فصل نبردهای حقوقی جاری و پتانسیل قوانین جدید یا استانداردهای صنعتی در شکل‌دهی به این توازن آینده حیاتی خواهد بود. سؤال در مورد چگونگی ردیابی منشأ داده‌ها و تخصیص ارزش در مدل‌های هوش مصنوعی عظیم و پیچیده، یک مانع فنی و اخلاقی قابل توجه باقی می‌ماند.