Неудържимият напредък в развитието на изкуствения интелект, воден от гиганти като OpenAI, често се сблъсква с отдавна установени принципи на интелектуална собственост и собственост върху данни. Този сблъсък отново разпали противоречия, след като се появиха нови твърдения, че най-новият флагмански модел на OpenAI, GPT-4o, може да е бил обучен с помощта на защитени с авторско право материали, скрити зад платени стени, потенциално без осигуряване на необходимите разрешения. Тези твърдения произхождат от новосъздадена надзорна група, AI Disclosures Project, добавяйки още един слой сложност към вече заплетения дебат около етичното снабдяване с данни за обучение на сложни AI системи.
Лаят на пазача: Обвинения от AI Disclosures Project
Стартирал през 2024 г., AI Disclosures Project се позиционира като организация с нестопанска цел, посветена на щателното проучване на често непрозрачните практики в AI индустрията. Сред основателите му са забележителни фигури като медийния предприемач Tim O’Reilly, основател на O’Reilly Media, виден издател на технически книги, и икономистът Ilan Strauss. Тази връзка с O’Reilly Media е особено релевантна, тъй като първоначалният бомбастичен доклад на проекта се фокусира конкретно върху предполагаемото присъствие на съдържание от платените книги на O’Reilly в набора от данни за обучение на GPT-4o.
Централното твърдение на тяхното проучване е провокативно: въпреки липсата на известно лицензионно споразумение между OpenAI и O’Reilly Media, моделът GPT-4o показва значително високо ниво на познаване на съдържание, извлечено директно от защитените с авторско право книги на O’Reilly. Това познаване, твърди докладът, силно предполага, че тези материали зад платена стена са били включени в огромния корпус от данни, използвани за изграждане на възможностите на модела. Проучването подчертава значителна разлика в сравнение с по-старите модели на OpenAI, по-специално GPT-3.5 Turbo, което предполага потенциална промяна или разширяване на практиките за придобиване на данни, довели до разработването на GPT-4o.
Последиците са съществени. Ако патентовано, платено съдържание се поглъща от AI модели без разрешение или компенсация, това повдига фундаментални въпроси относно закона за авторското право в ерата на генеративния AI. Издателите и авторите разчитат на модели за абонамент или покупка, основани на изключителността на тяхното съдържание. Предполагаемото използване на този материал за обучение може да се разглежда като подкопаване на тези бизнес модели, потенциално обезценявайки самото съдържание, чието създаване изисква значителни инвестиции. Това конкретно обвинение надхвърля извличането на данни от публично достъпни уебсайтове, навлизайки в територията на достъп до съдържание, изрично предназначено за плащащи клиенти.
Надникване в черната кутия: Атаката ‘Membership Inference Attack’
За да обосноват твърденията си, изследователите от AI Disclosures Project са използвали сложна техника, известна като “membership inference attack”, по-специално използвайки метод, който наричат DE-COP. Основната идея зад този подход е да се тества дали AI моделът е “запаметил” или поне е развил силно познаване на конкретни текстови фрагменти. По същество атаката сондира модела, за да види дали може надеждно да разграничи оригинални текстови пасажи (в този случай от книги на O’Reilly) и внимателно конструирани парафразирани версии на същите пасажи, генерирани от друг AI.
Основната логика е, че ако моделът последователно показва по-висока от случайната способност да идентифицира оригиналния текст, написан от човек, в сравнение с близка парафраза, това предполага, че моделът е срещал този оригинален текст преди – вероятно по време на фазата си на обучение. Това е подобно на тестване дали някой разпознава конкретна, по-малко известна снимка, която твърди, че никога не е виждал; последователното разпознаване предполага предишна експозиция.
Мащабът на теста на AI Disclosures Project е значителен. Те са използвали 13 962 отделни откъса от параграфи, извлечени от 34 различни книги на O’Reilly Media. Тези откъси представляват вида специализирано, високостойностно съдържание, което обикновено се намира зад платената стена на издателя. След това проучването измерва производителността както на GPT-4o, така и на неговия предшественик, GPT-3.5 Turbo, по тази задача за диференциация.
Резултатите, представени в доклада, са поразителни. GPT-4o демонстрира значително повишена способност да разпознава платеното съдържание на O’Reilly. Неговата производителност е количествено определена с помощта на оценка AUROC (Area Under the Receiver Operating Characteristic curve), често срещан показател за оценка на производителността на бинарни класификатори. GPT-4o постига AUROC оценка от 82%. За разлика от това, GPT-3.5 Turbo отбелязва малко над 50%, което по същество е еквивалентно на случайно отгатване – което показва малко или никакво специфично разпознаване на тествания материал. Тази рязка разлика, твърди докладът, предоставя убедителни, макар и косвени, доказателства, че платеното съдържание наистина е било част от обучителната диета на GPT-4o. Оценка от 82% предполага силен сигнал, далеч надхвърлящ това, което би се очаквало случайно или от генерализирани знания.
Необходими уговорки и неотговорени въпроси
Въпреки че констатациите представят убедителен разказ, съавторите на проучването, включително AI изследователят Sruly Rosenblat, похвално признават потенциалните ограничения, присъщи на тяхната методология и сложния характер на обучението на AI. Една съществена уговорка, която те повдигат, е възможността за непряко поглъщане на данни. Възможно е, отбелязват те, потребители на ChatGPT (популярният интерфейс на OpenAI) да са копирали и поставяли откъси от платени книги на O’Reilly директно в интерфейса за чат за различни цели, като например задаване на въпроси относно текста или искане на резюмета. Ако това се е случвало достатъчно често, моделът би могъл да научи съдържанието индиректно чрез взаимодействия с потребителите, а не чрез директно включване в първоначалния набор от данни за обучение. Разграничаването на пряката експозиция при обучение от непрякото учене чрез потребителски подкани остава значително предизвикателство в AI криминалистиката.
Освен това обхватът на проучването не се е разпрострял върху най-новите или специализирани итерации на модели на OpenAI, които може да са били разработени или пуснати едновременно или след основния цикъл на обучение на GPT-4o. Модели, потенциално включващи GPT-4.5 (ако съществува под тази специфична номенклатура или ниво на възможности) и модели, фокусирани върху разсъжденията, като o3-mini и o1, не са били подложени на същите атаки ‘membership inference attacks’. Това оставя отворен въпроса дали практиките за снабдяване с данни може да са се развили допълнително или дали тези по-нови модели показват подобни модели на познаване на платено съдържание. Бързите цикли на итерация в развитието на AI означават, че всеки моментен анализ рискува да бъде леко остарял почти веднага.
Тези ограничения не обезсилват непременно основните констатации на проучването, но добавят решаващи слоеве на нюанс. Доказването окончателно какво се съдържа в терабайтите данни, използвани за обучение на основен модел, е notoriously трудно. Атаките ‘membership inference attacks’ предлагат вероятностни доказателства, предполагащи вероятност, а не предлагащи абсолютна сигурност. OpenAI, подобно на други AI лаборатории, пази строго състава на своите данни за обучение, позовавайки се на съображения за собственост и конкурентна чувствителност.
По-широк конфликт: Битка за авторски права на AI арената
Обвиненията, отправени от AI Disclosures Project, не съществуват във вакуум. Те представляват последната схватка в много по-широк, продължаващ конфликт между разработчиците на AI и създателите относно използването на защитени с авторско право материали за целите на обучението. OpenAI, заедно с други видни играчи като Google, Meta и Microsoft, се оказва въвлечена в множество шумни съдебни дела. Тези правни предизвикателства, заведени от автори, художници, новинарски организации и други носители на права, обикновено твърдят широко разпространено нарушаване на авторски права, произтичащо от неоторизирано извличане и поглъщане на огромни количества текст и изображения от интернет за обучение на генеративни AI модели.
Основната защита, често изтъквана от AI компаниите, се основава на доктрината за честна употреба (‘fair use’) (в Съединените щати) или подобни изключения в други юрисдикции. Те твърдят, че използването на защитени с авторско право произведения за обучение представлява “трансформативна” употреба – AI моделите не просто възпроизвеждат оригиналните произведения, а използват данните, за да научат модели, стилове и информация, за да генерират изцяло нови резултати. Според тази интерпретация самият процес на обучение, целящ създаването на мощен нов инструмент, трябва да бъде допустим, без да се изискват лицензи за всяка част от погълнатите данни.
Носителите на права обаче яростно оспорват тази гледна точка. Те твърдят, че самият мащаб на включеното копиране, търговският характер на изгражданите AI продукти и потенциалът на AI резултатите да се конкурират пряко и да изместят оригиналните произведения тежат силно срещу констатацията за честна употреба (‘fair use’). Твърдението е, че AI компаниите изграждат многомилиардни предприятия на гърба на творчески труд, без да компенсират създателите.
На фона на тази съдебна обстановка OpenAI проактивно се стреми да смекчи някои рискове чрез сключване на лицензионни сделки (‘licensing deals’) с различни доставчици на съдържание. Обявени са споразумения с големи новинарски издатели (като AssociatedPressи Axel Springer), социални медийни платформи (като Reddit) и библиотеки със стокови медии (като Shutterstock). Тези сделки осигуряват на OpenAI легитимен достъп до специфични набори от данни в замяна на плащане, потенциално намалявайки зависимостта му от потенциално нарушаващи правата данни, извлечени от мрежата. Съобщава се също, че компанията е наела журналисти, натоварвайки ги със задачата да помогнат за усъвършенстване и подобряване на качеството и надеждността на резултатите на своите модели, което предполага осъзнаване на необходимостта от висококачествени, потенциално подбрани, входни данни.
Ефектът на вълните: Притеснения за екосистемата на съдържанието
Докладът на AI Disclosures Project разширява своите притеснения отвъд непосредствените правни последици за OpenAI. Той рамкира проблема като системна заплаха, която може да повлияе отрицателно на здравето и разнообразието на цялата екосистема на цифровото съдържание. Проучването постулира потенциално вредна обратна връзка: ако AI компаниите могат свободно да използват висококачествено, професионално създадено съдържание (включително материали зад платена стена), без да компенсират създателите, това подкопава финансовата жизнеспособност на производството на такова съдържание на първо място.
Професионалното създаване на съдържание – било то разследваща журналистика, задълбочени технически ръководства, художествена литература или академични изследвания – често изисква значително време, експертиза и финансови инвестиции. Платените стени и абонаментните модели често са основни механизми за финансиране на тази работа. Ако потоците от приходи, подкрепящи тези усилия, намалеят, защото съдържанието ефективно се използва за обучение на конкурентни AI системи без възнаграждение, стимулът за създаване на висококачествено, разнообразно съдържание може да намалее. Това може да доведе до по-малко информирана общественост, намаляване на специализираните ресурси от знания и потенциално до интернет, доминиран от по-нискокачествено или генерирано от AI съдържание, лишено от човешка експертиза и проверка.
Следователно AI Disclosures Project силно се застъпва за по-голяма прозрачност и отчетност от страна на AI компаниите по отношение на техните практики с данни за обучение. Те призовават за прилагане на стабилни политики и потенциално регулаторни рамки, които да гарантират, че създателите на съдържание са справедливо компенсирани, когато тяхната работа допринася за развитието на търговски AI модели. Това отразява по-широките призиви от групи създатели по целия свят, които търсят механизми – било то чрез лицензионни споразумения, системи за роялти или колективно договаряне – за да гарантират, че получават дял от стойността, генерирана от AI системи, обучени върху тяхната интелектуална собственост. Дебатът се съсредоточава върху намирането на устойчиво равновесие, при което AI иновациите могат да процъфтяват заедно с процъфтяваща екосистема за човешко творчество и генериране на знания. Решаването на текущите правни битки и потенциалът за ново законодателство или индустриални стандарти ще бъдат от решаващо значение за оформянето на този бъдещ баланс. Въпросът как да се проследи произходът на данните и да се припише стойност в масивни, сложни AI модели остава значително техническо и етично препятствие.