Nieustanny postęp w rozwoju sztucznej inteligencji, prowadzony przez gigantów takich jak OpenAI, często koliduje z ugruntowanymi zasadami własności intelektualnej i własności danych. Ta kolizja ponownie wywołała kontrowersje, gdy pojawiły się nowe zarzuty, że najnowszy flagowy model OpenAI, GPT-4o, mógł być trenowany przy użyciu materiałów chronionych prawem autorskim, ukrytych za paywallami, potencjalnie bez uzyskania niezbędnych zezwoleń. Te twierdzenia pochodzą od nowo utworzonej grupy nadzorczej, AI Disclosures Project, dodając kolejną warstwę złożoności do już skomplikowanej debaty dotyczącej etycznego pozyskiwania danych do trenowania zaawansowanych systemów AI.
Szczekanie stróża: Zarzuty ze strony AI Disclosures Project
Uruchomiony w 2024 roku AI Disclosures Project pozycjonuje się jako organizacja non-profit poświęcona badaniu często nieprzejrzystych praktyk w branży AI. Wśród jej założycieli znajdują się znane postacie, takie jak przedsiębiorca medialny Tim O’Reilly, założyciel O’Reilly Media, wybitnego wydawcy książek technicznych, oraz ekonomista Ilan Strauss. To powiązanie z O’Reilly Media jest szczególnie istotne, ponieważ pierwszy przełomowy raport projektu koncentruje się konkretnie na domniemanej obecności płatnych treści książkowych O’Reilly w zbiorze danych treningowych GPT-4o.
Główne twierdzenie ich badania jest prowokacyjne: pomimo braku jakiejkolwiek znanej umowy licencyjnej między OpenAI a O’Reilly Media, model GPT-4o wykazuje wyraźnie wysoki poziom znajomości treści pochodzących bezpośrednio z chronionych prawem autorskim książek O’Reilly. Ta znajomość, jak twierdzi raport, silnie sugeruje, że te materiały dostępne za opłatą zostały włączone do ogromnego korpusu danych wykorzystanych do budowy możliwości modelu. Badanie podkreśla znaczącą różnicę w porównaniu ze starszymi modelami OpenAI, w szczególności GPT-3.5 Turbo, sugerując potencjalną zmianę lub rozszerzenie praktyk pozyskiwania danych prowadzących do rozwoju GPT-4o.
Implikacje są znaczące. Jeśli zastrzeżone, płatne treści są przetwarzane przez modele AI bez autoryzacji lub rekompensaty, rodzi to fundamentalne pytania dotyczące prawa autorskiego w erze generatywnej AI. Wydawcy i autorzy polegają na modelach subskrypcji lub zakupu, opartych na wyłączności ich treści. Domniemane wykorzystanie tych materiałów do treningu można postrzegać jako podważanie tych modeli biznesowych, potencjalnie dewaluując samą treść, której stworzenie wymaga znacznych inwestycji. To konkretne oskarżenie wykracza poza scraping publicznie dostępnych stron internetowych, wkraczając na terytorium dostępu do treści wyraźnie przeznaczonych dla płacących klientów.
Zagłębianie się w czarną skrzynkę: Atak wnioskowania o przynależności (Membership Inference Attack)
Aby uzasadnić swoje twierdzenia, badacze z AI Disclosures Project zastosowali zaawansowaną technikę znaną jako ‘membership inference attack’, używając metody, którą nazywają DE-COP. Główną ideą tego podejścia jest sprawdzenie, czy model AI ‘zapamiętał’ lub przynajmniej rozwinął silną znajomość określonych fragmentów tekstu. W istocie atak sonduje model, aby sprawdzić, czy potrafi on wiarygodnie odróżnić oryginalne fragmenty tekstu (w tym przypadku z książek O’Reilly) od starannie skonstruowanych, sparafrazowanych wersji tych samych fragmentów, wygenerowanych przez inną AI.
Podstawowa logika jest taka, że jeśli model konsekwentnie wykazuje zdolność do identyfikacji oryginalnego tekstu napisanego przez człowieka, wyższą niż losowa, w porównaniu do bliskiej parafrazy, sugeruje to, że model napotkał ten oryginalny tekst wcześniej – prawdopodobnie podczas fazy treningu. Jest to podobne do testowania, czy ktoś rozpoznaje konkretne, mniej znane zdjęcie, którego rzekomo nigdy nie widział; konsekwentne rozpoznawanie sugeruje wcześniejszą ekspozycję.
Skala testu przeprowadzonego przez AI Disclosures Project była znaczna. Wykorzystali 13 962 odrębnych fragmentów akapitów pochodzących z 34 różnych książek O’Reilly Media. Te fragmenty reprezentowały rodzaj specjalistycznej, wartościowej treści, zwykle znajdującej się za paywallem wydawcy. Następnie badanie zmierzyło wydajność zarówno GPT-4o, jak i jego poprzednika, GPT-3.5 Turbo, w tym zadaniu różnicowania.
Wyniki, przedstawione w raporcie, były uderzające. GPT-4o wykazał znacznie podwyższoną zdolność do rozpoznawania płatnych treści O’Reilly. Jego wydajność została skwantyfikowana za pomocą wyniku AUROC (Area Under the Receiver Operating Characteristic curve), powszechnej metryki do oceny wydajności klasyfikatorów binarnych. GPT-4o osiągnął wynik AUROC na poziomie 82%. W przeciwieństwie do tego, GPT-3.5 Turbo uzyskał wynik nieco powyżej 50%, co jest zasadniczo równoważne losowemu zgadywaniu – wskazując na niewielkie lub żadne specyficzne rozpoznanie testowanego materiału. Ta wyraźna różnica, jak argumentuje raport, dostarcza przekonujących, choć pośrednich, dowodów na to, że płatne treści rzeczywiście były częścią diety treningowej GPT-4o. Wynik 82% sugeruje silny sygnał, znacznie wykraczający poza to, czego można by oczekiwać przez przypadek lub uogólnioną wiedzę.
Niezbędne zastrzeżenia i pytania bez odpowiedzi
Chociaż ustalenia przedstawiają przekonującą narrację, współautorzy badania, w tym badacz AI Sruly Rosenblat, godnie przyznają potencjalne ograniczenia tkwiące w ich metodologii i złożonej naturze treningu AI. Jednym ze znaczących zastrzeżeń, które podnoszą, jest możliwość pośredniego przyswajania danych. Zauważają, że jest możliwe, iż użytkownicy ChatGPT (popularnego interfejsu OpenAI) mogli kopiować i wklejać fragmenty z płatnych książek O’Reilly bezpośrednio do interfejsu czatu w różnych celach, takich jak zadawanie pytań dotyczących tekstu lub prośba o streszczenia. Gdyby zdarzało się to wystarczająco często, model mógłby nauczyć się treści pośrednio poprzez interakcje z użytkownikami, a nie poprzez bezpośrednie włączenie do początkowego zbioru danych treningowych. Rozdzielenie bezpośredniej ekspozycji treningowej od pośredniego uczenia się za pomocą podpowiedzi użytkowników pozostaje znaczącym wyzwaniem w kryminalistyce AI.
Co więcej, zakres badania nie obejmował absolutnie najnowszych lub specjalistycznych iteracji modeli OpenAI, które mogły zostać opracowane lub wydane równolegle lub po głównym cyklu treningowym GPT-4o. Modele potencjalnie obejmujące GPT-4.5 (jeśli istnieje pod tą specyficzną nomenklaturą lub poziomem możliwości) oraz modele skoncentrowane na rozumowaniu, takie jak o3-mini i o1, nie zostały poddane tym samym atakom wnioskowania o przynależności. Pozostawia to otwarte pytanie, czy praktyki pozyskiwania danych mogły ewoluować dalej, lub czy te nowsze modele wykazują podobne wzorce znajomości płatnych treści. Szybkie cykle iteracyjne w rozwoju AI oznaczają, że każda analiza migawkowa ryzykuje bycie niemal natychmiast nieaktualną.
Te ograniczenia niekoniecznie unieważniają głównych ustaleń badania, ale dodają kluczowe warstwy niuansów. Udowodnienie definitywnie, co znajduje się w terabajtach danych użytych do wytrenowania modelu podstawowego, jest notorycznie trudne. Ataki wnioskowania o przynależności oferują dowody probabilistyczne, sugerując prawdopodobieństwo, a nie oferując absolutną pewność. OpenAI, podobnie jak inne laboratoria AI, ściśle strzeże składu swoich danych treningowych, powołując się na obawy dotyczące własności i wrażliwości konkurencyjnej.
Szerszy konflikt: Bitwy o prawa autorskie na arenie AI
Zarzuty wysunięte przez AI Disclosures Project nie istnieją w próżni. Stanowią one najnowszą potyczkę w znacznie szerszym, trwającym konflikcie między twórcami AI a twórcami treści dotyczącym wykorzystania materiałów chronionych prawem autorskim do celów treningowych. OpenAI, wraz z innymi prominentnymi graczami, takimi jak Google, Meta i Microsoft, znajduje się w centrum wielu głośnych procesów sądowych. Te wyzwania prawne, wniesione przez autorów, artystów, organizacje informacyjne i innych posiadaczy praw, generalnie zarzucają powszechne naruszenie praw autorskich wynikające z nieautoryzowanego scrapingu i przyswajania ogromnych ilości tekstu i obrazów z internetu w celu trenowania generatywnych modeli AI.
Główna linia obrony często stosowana przez firmy AI opiera się na doktrynie dozwolonego użytku (‘fair use’ w Stanach Zjednoczonych) lub podobnych wyjątkach w innych jurysdykcjach. Argumentują oni, że wykorzystywanie dzieł chronionych prawem autorskim do treningu stanowi użycie ‘transformacyjne’ – modele AI nie tylko reprodukują oryginalne dzieła, ale wykorzystują dane do nauki wzorców, stylów i informacji w celu generowania całkowicie nowych wyników. Zgodnie z tą interpretacją, sam proces treningu, mający na celu stworzenie potężnego nowego narzędzia, powinien być dozwolony bez konieczności uzyskiwania licencji na każdy przyswojony fragment danych.
Jednak posiadacze praw gwałtownie kwestionują ten pogląd. Argumentują, że sama skala kopiowania, komercyjny charakter tworzonych produktów AI oraz potencjał wyników AI do bezpośredniego konkurowania z oryginalnymi dziełami i ich wypierania, mocno przemawiają przeciwko stwierdzeniu dozwolonego użytku. Twierdzą, że firmy AI budują wielomiliardowe przedsiębiorstwa na bazie pracy twórczej bez wynagradzania twórców.
Na tym tle sporów sądowych OpenAI proaktywnie starało się złagodzić niektóre ryzyka, zawierając umowy licencyjne z różnymi dostawcami treści. Ogłoszono umowy z głównymi wydawcami wiadomości (takimi jak Associated Press i Axel Springer), platformami mediów społecznościowych (takimi jak Reddit) oraz bibliotekami mediów stockowych (takimi jak Shutterstock). Te umowy zapewniają OpenAI legalny dostęp do określonych zbiorów danych w zamian za opłatę, potencjalnie zmniejszając jego zależność od potencjalnie naruszających prawo danych zebranych z sieci. Firma podobno zatrudniła również dziennikarzy, powierzając im zadanie pomocy w udoskonalaniu i poprawie jakości oraz wiarygodności wyników swoich modeli, co sugeruje świadomość potrzeby wysokiej jakości, potencjalnie kuratorowanych danych wejściowych.
Efekt domina: Obawy dotyczące ekosystemu treści
Raport AI Disclosures Project rozszerza swoje obawy poza bezpośrednie implikacje prawne dla OpenAI. Przedstawia problem jako systemowe zagrożenie, które może negatywnie wpłynąć na kondycję i różnorodność całego cyfrowego ekosystemu treści. Badanie postuluje potencjalnie szkodliwą pętlę sprzężenia zwrotnego: jeśli firmy AI mogą swobodnie wykorzystywać wysokiej jakości, profesjonalnie stworzone treści (w tym materiały płatne) bez wynagradzania twórców, podważa to finansową opłacalność tworzenia takich treści w pierwszej kolejności.
Profesjonalne tworzenie treści – czy to dziennikarstwo śledcze, dogłębne podręczniki techniczne, pisanie beletrystyki czy badania akademickie – często wymaga znacznego czasu, wiedzy specjalistycznej i inwestycji finansowych. Paywalle i modele subskrypcyjne są często niezbędnymi mechanizmami finansowania tej pracy. Jeśli strumienie przychodów wspierające te wysiłki zostaną zmniejszone, ponieważ treść jest skutecznie wykorzystywana do trenowania konkurencyjnych systemów AI bez wynagrodzenia, motywacja do tworzenia wysokiej jakości, różnorodnych treści może spaść. Może to prowadzić do mniej poinformowanej opinii publicznej, ograniczenia zasobów wiedzy specjalistycznej i potencjalnie internetu zdominowanego przez treści niższej jakości lub generowane przez AI, pozbawione ludzkiej wiedzy i weryfikacji.
W konsekwencji AI Disclosures Project zdecydowanie opowiada się za większą przejrzystością i odpowiedzialnością firm AI w zakresie ich praktyk dotyczących danych treningowych. Wzywają do wdrożenia solidnych polityk i potencjalnie ram regulacyjnych, które zapewnią twórcom treści sprawiedliwą rekompensatę, gdy ich praca przyczynia się do rozwoju komercyjnych modeli AI. Odzwierciedla to szersze apele grup twórców na całym świecie, którzy poszukują mechanizmów – czy to poprzez umowy licencyjne, systemy tantiem, czy negocjacje zbiorowe – aby zapewnić sobie udział w wartości generowanej przez systemy AI trenowane na ich własności intelektualnej. Debata koncentruje się na znalezieniu zrównoważonej równowagi, w której innowacje AI mogą kwitnąć obok dobrze prosperującego ekosystemu ludzkiej kreatywności i generowania wiedzy. Rozstrzygnięcie toczących się batalii prawnych oraz potencjał nowych przepisów lub standardów branżowych będą miały kluczowe znaczenie dla kształtowania tej przyszłej równowagi. Kwestia śledzenia pochodzenia danych i przypisywania wartości w ogromnych, złożonych modelach AI pozostaje znaczącą przeszkodą techniczną i etyczną.