Maskarada 'Open Source' w AI: Apel o rzetelność naukową

Dewaluacja fundamentalnej koncepcji: Erozja ‘Open Source’

Termin ‘open source’ był kiedyś latarnią morską w krajobrazie technologicznym i naukowym. Reprezentował potężny etos oparty na przejrzystości, nieograniczonym dostępie, wspólnej poprawie i fundamentalnej zasadzie odtwarzalności. Dla pokoleń badaczy i programistów oznaczał zaangażowanie we wspólną wiedzę i zbiorowy postęp. Od podstawowych narzędzi statystycznych dostępnych w środowiskach takich jak R Studio, które umożliwiają niezliczone analizy w różnych dyscyplinach, po zaawansowane platformy symulacyjne, takie jak OpenFOAM, używane do rozwikłania złożoności dynamiki płynów, oprogramowanie open-source było niezbędnym katalizatorem innowacji. Przyspieszało odkrycia, pozwalając naukowcom na całym świecie badać, weryfikować, modyfikować i rozwijać pracę innych, zapewniając, że wyniki mogą być replikowane i walidowane – co stanowi sam fundament metody naukowej.

Jednak nad tym zaufanym określeniem zawisł cień, rzucony przez dynamicznie rozwijającą się dziedzinę sztucznej inteligencji. Jak podkreślono w ostatnich krytycznych dyskusjach, w tym tych odnotowanych przez publikacje takie jak Nature, pojawił się niepokojący trend, w którym czołowi twórcy AI przyjmują etykietę ‘open source’ dla swoich modeli, jednocześnie ukrywając kluczowe komponenty niezbędne do prawdziwej otwartości. Praktyka ta grozi rozmyciem znaczenia terminu, przekształcając go z symbolu przejrzystości w potencjalnie mylący slogan marketingowy. Główny problem często leży w unikalnej naturze nowoczesnych systemów AI. W przeciwieństwie do tradycyjnego oprogramowania, gdzie kod źródłowy jest najważniejszy, moc i zachowanie dużych modeli AI są nierozerwalnie związane z ogromnymi zbiorami danych używanymi do ich treningu oraz skomplikowanymi architekturami, które je definiują. Gdy dostęp do tych danych treningowych lub szczegółowych informacji o budowie i wagach modelu jest ograniczony, twierdzenie o byciu ‘open source’ brzmi pusto, niezależnie od tego, czy udostępniona zostanie jakaś część kodu modelu. Ta rozbieżność uderza w samo serce filozofii open-source, tworząc iluzję dostępności, jednocześnie ukrywając elementy najbardziej istotne dla niezależnej kontroli i replikacji.

Imperatyw prawdziwej otwartości w naukowej AI

Stawka związana z utrzymaniem prawdziwej otwartości w AI, szczególnie w dziedzinie naukowej, nie mogłaby być wyższa. Nauka rozwija się dzięki możliwości niezależnej weryfikacji wyników, zrozumienia metodologii i budowania na wcześniejszych pracach. Kiedy same narzędzia – coraz bardziej zaawansowane modele AI – stają się czarnymi skrzynkami, ten fundamentalny proces jest zagrożony. Poleganie na systemach AI, których wewnętrzne działanie, uprzedzenia w danych treningowych lub potencjalne tryby awarii są nieprzejrzyste, wprowadza niedopuszczalny poziom niepewności do badań. Jak naukowiec może z ufnością opierać wnioski na wynikach AI, jeśli czynniki kształtujące te wyniki są nieznane lub niemożliwe do zweryfikowania? Jak społeczność może ufać odkryciom generowanym przez systemy własnościowe, których nie można niezależnie audytować ani replikować?

Historyczny sukces oprogramowania open-source w nauce stanowi wyraźny kontrast i jasny punkt odniesienia. Przejrzystość nieodłącznie związana z tradycyjnymi projektami open-source budowała zaufanie i umożliwiała solidną recenzję naukową. Badacze mogli badać algorytmy, rozumieć ich ograniczenia i dostosowywać je do konkretnych potrzeb. Ten współpracujący ekosystem przyspieszył postęp w dziedzinach od bioinformatyki po astrofizykę. Potencjał AI do zrewolucjonizowania odkryć naukowych jest ogromny, obiecując analizę złożonych zbiorów danych, generowanie hipotez i symulowanie skomplikowanych procesów na niespotykaną dotąd skalę. Jednak realizacja tego potencjału zależy od utrzymania tych samych zasad przejrzystości i odtwarzalności, które zawsze leżały u podstaw postępu naukowego. Przejście w kierunku zamkniętych, własnościowych systemów AI, nawet tych udających ‘otwarte’, grozi fragmentacją społeczności badawczej, utrudnieniem współpracy i ostatecznie spowolnieniem tempa odkryć poprzez wznoszenie barier dla zrozumienia i walidacji. Działalność naukowa wymaga narzędzi, które są nie tylko potężne, ale także przejrzyste i godne zaufania.

Dylemat danych: Wyzwanie przejrzystości AI

W sercu debaty na temat ‘open source’ w AI leży kluczowa kwestia danych treningowych. W przeciwieństwie do konwencjonalnego oprogramowania, definiowanego głównie przez jego kod, duże modele językowe (LLM) i inne fundamentalne systemy AI są zasadniczo kształtowane przez kolosalne zbiory danych, które przyswajają podczas swojego rozwoju. Charakterystyka, uprzedzenia i pochodzenie tych danych głęboko wpływają na zachowanie modelu, jego możliwości i potencjalne ograniczenia. Prawdziwa otwartość w AI wymaga zatem poziomu przejrzystości w odniesieniu do tych danych, który wykracza daleko poza zwykłe udostępnienie wag modelu czy kodu wnioskowania.

Wiele modeli obecnie sprzedawanych pod szyldem ‘open source’ wyraźnie zawodzi na tym froncie. Rozważmy prominentne przykłady, takie jak seria Llama firmy Meta, Phi-2 firmy Microsoft czy Mixtral firmy Mistral AI. Chociaż firmy te udostępniają pewne komponenty, pozwalając programistom uruchamiać lub dostrajać modele, często nakładają znaczące ograniczenia lub dostarczają skąpych szczegółów na temat podstawowych danych treningowych. Zbiory danych mogą być ogromne, własnościowe, pobrane z sieci bez większej kuracji lub podlegać ograniczeniom licencyjnym, co czyni pełne publiczne udostępnienie trudnym lub niemożliwym. Jednak bez kompleksowych informacji na temat:

  • Źródeł danych: Skąd pochodziły informacje? Czy był to głównie tekst, obrazy, kod? Z jakich stron internetowych, książek lub baz danych?
  • Kuracji danych: Jak dane były filtrowane, czyszczone i przetwarzane? Jakie kryteria stosowano do włączania lub wykluczania informacji?
  • Charakterystyki danych: Jakie są znane uprzedzenia w danych (np. demograficzne, kulturowe, językowe)? Jaki okres czasu obejmują?
  • Kroków przetwarzania wstępnego: Jakie transformacje zastosowano do danych przed treningiem?

…niezwykle trudno jest niezależnym badaczom w pełni zrozumieć zachowanie modelu, odtworzyć jego rozwój lub krytycznie ocenić jego potencjalne uprzedzenia i punkty awarii. Ten brak przejrzystości danych jest głównym powodem, dla którego wiele obecnych wydań AI ‘open source’ nie spełnia ducha, jeśli nie litery, prawdziwej otwartości ustanowionej w świecie oprogramowania. W przeciwieństwie do tego, inicjatywy takie jak model OLMo Allen Institute for AI czy wysiłki społecznościowe, takie jak CrystalCoder LLM360, podjęły bardziej zdecydowane kroki w celu zapewnienia większej przejrzystości w zakresie swoich danych i metodologii treningowych, ustanawiając wyższy standard bardziej zgodny z tradycyjnymi wartościami open-source.

‘Openwashing’: Strategiczne etykietowanie czy unikanie regulacji?

Przywłaszczanie etykiety ‘open source’ przez podmioty, które nie w pełni przyjmują jej zasady, wzbudziło obawy dotyczące ‘openwashingu’. Termin ten opisuje praktykę wykorzystywania pozytywnych konotacji otwartości dla korzyści wizerunkowych lub strategicznej przewagi, bez zobowiązania się do związanego z tym poziomu przejrzystości i dostępności. Dlaczego firmy mogą się w to angażować? W grę może wchodzić kilka czynników. Marka ‘open source’ niesie ze sobą znaczący kapitał zaufania, sugerując zaangażowanie we wspólnotę i wspólny postęp, co może być atrakcyjne dla programistów i klientów.

Ponadto, jak zauważył Nature i inni obserwatorzy, krajobrazy regulacyjne mogą nieumyślnie zachęcać do takiego zachowania. Przełomowy Akt o Sztucznej Inteligencji Unii Europejskiej (EU AI Act), sfinalizowany w 2024 roku, zawiera przepisy nakładające surowsze wymagania na systemy AI wysokiego ryzyka i ogólnego przeznaczenia. Jednak zawiera również potencjalne zwolnienia lub łagodniejsze wymagania dla modeli AI wydanych na licencjach open-source. Stwarza to potencjalną lukę, w której firmy mogą strategicznie oznaczać swoje modele jako ‘open source’ – nawet jeśli kluczowe komponenty, takie jak dane treningowe, pozostają ograniczone – specjalnie w celu ominięcia przeszkód regulacyjnych i uniknięcia bardziej rygorystycznych obowiązków zgodności.

Ten potencjał arbitrażu regulacyjnego jest głęboko niepokojący. Jeśli ‘openwashing’ pozwala potężnym systemom AI ominąć kontrolę mającą na celu zapewnienie bezpieczeństwa, sprawiedliwości i odpowiedzialności, podważa to sam cel regulacji. Stawia to również społeczność naukową w niepewnej sytuacji. Badacze mogą być przyciągani do tych nominalnie ‘otwartych’ systemów ze względu na ich dostępność w porównaniu do całkowicie zamkniętych ofert komercyjnych, tylko po to, by znaleźć się w zależności od narzędzi, których metodologie pozostają nieprzejrzyste i niemożliwe do zweryfikowania. Ta zależność grozi kompromitacją rzetelności naukowej, utrudniając zapewnienie, że badania są odtwarzalne, bezstronne i zbudowane na solidnych, zrozumiałych podstawach. Urok znajomej etykiety może maskować ukryte ograniczenia, które utrudniają prawdziwe badania naukowe.

Redefiniowanie otwartości dla ery AI: Ramy OSAID

Uznając nieadekwatność tradycyjnych definicji open-source dla unikalnych wyzwań stawianych przez AI, Open Source Initiative (OSI) – wieloletni strażnik zasad open-source – rozpoczęła kluczowy globalny wysiłek. Ich celem jest ustanowienie jasnej, solidnej definicji specjalnie dostosowanej do sztucznej inteligencji: Open Source AI Definition (OSAID 1.0). Inicjatywa ta stanowi istotny krok w kierunku odzyskania znaczenia ‘otwartości’ w kontekście AI oraz ustanowienia jednoznacznych standardów przejrzystości i odpowiedzialności.

Kluczową innowacją w proponowanych ramach OSAID jest koncepcja ‘informacji o danych’ (data information). Uznając, że pełne udostępnienie ogromnych zbiorów danych treningowych może być często niepraktyczne lub prawnie zabronione ze względu na obawy dotyczące prywatności, ograniczenia praw autorskich lub samą skalę, OSAID koncentruje się na nakazaniu kompleksowego ujawnienia informacji o danych. Obejmuje to wymagania dla twórców dotyczące dostarczenia szczegółowych informacji na temat:

  1. Źródeł i składu: Jasne określenie pochodzenia danych treningowych.
  2. Charakterystyki: Dokumentowanie znanych cech, ograniczeń i potencjalnych uprzedzeń w danych.
  3. Metod przygotowania: Wyjaśnienie procesów używanych do czyszczenia, filtrowania i przygotowywania danych do treningu.

Nawet jeśli surowe dane nie mogą być udostępnione, dostarczenie tych metadanych pozwala badaczom i audytorom uzyskać krytyczny wgląd w czynniki, które ukształtowały model AI. Ułatwia to lepsze zrozumienie potencjalnych uprzedzeń, umożliwia bardziej świadomą ocenę ryzyka i stanowi podstawę do prób replikacji lub badań porównawczych.

Poza informacjami o danych, wysiłki OSI, wraz z działaniami rzeczniczymi organizacji takich jak Open Future, promują szersze przejście w kierunku modelu ‘data-commons’ (wspólnych zasobów danych). Wizja ta zakłada przyszłość, w której niezbędne zbiory danych do treningu AI są kuratorowane i udostępniane w sposób bardziej otwarty i sprawiedliwy, wspierając bardziej przejrzysty i współpracujący ekosystem rozwoju AI, szczególnie w społeczności badawczej. Definicja OSAID ma na celu zapewnienie jasnego punktu odniesienia, względem którego można oceniać systemy AI, wykraczając poza powierzchowne etykiety, aby ocenić rzeczywiste zaangażowanie w otwartość.

Zbiorowa odpowiedzialność: Dążenie do prawdziwej przejrzystości AI

Wyzwanie zapewnienia prawdziwej otwartości w AI nie może zostać rozwiązane samymi definicjami; wymaga skoordynowanych działań wielu interesariuszy. Społeczność naukowa, jako zarówno twórcy, jak i główni użytkownicy zaawansowanych narzędzi AI, ponosi znaczną odpowiedzialność. Badacze muszą aktywnie angażować się w inicjatywy takie jak OSAID 1.0, rozumiejąc ich zasady i opowiadając się za ich przyjęciem. Muszą krytycznie oceniać twierdzenia o ‘otwartości’ modeli AI, które rozważają do użycia, priorytetyzując te, które oferują większą przejrzystość w zakresie danych treningowych i metodologii, nawet jeśli wymaga to oparcia się pokusie pozornie wygodnych, ale nieprzejrzystych systemów. Wyrażanie potrzeby weryfikowalnych, odtwarzalnych narzędzi AI w publikacjach, na konferencjach i w dyskusjach instytucjonalnych jest sprawą najwyższej wagi.

Publiczne agencje finansujące i organy rządowe również mają do odegrania kluczową rolę. Dysponują one znacznym wpływem poprzez wymagania dotyczące grantów i politykę zamówień publicznych. Instytucje takie jak amerykańskie National Institutes of Health (NIH), które już nakazują otwarte licencjonowanie danych badawczych generowanych dzięki ich finansowaniu, stanowią cenny precedens. Podobnie, przykłady takie jak wymóg we Włoszech, aby organy administracji publicznej priorytetyzowały oprogramowanie open-source, pokazują, jak polityka może napędzać adopcję. Zasady te mogą i powinny zostać rozszerzone na dziedzinę AI. Rządy i organy finansujące powinny rozważyć:

  • Nakazanie przestrzegania solidnych standardów Open Source AI (takich jak OSAID) dla publicznie finansowanych badań i rozwoju AI.
  • Inwestowanie w tworzenie prawdziwie otwartych, wysokiej jakości zbiorów danych – ‘data commons’ – odpowiednich do treningu modeli AI zorientowanych na badania.
  • Zapewnienie, że regulacje, takie jak EU AI Act, są wdrażane w sposób zapobiegający ‘openwashingowi’ i pociągający do odpowiedzialności wszystkie potężne systemy AI, niezależnie od ich roszczeń licencyjnych.

Ostatecznie, ochrona przyszłości AI w badaniach wymaga zjednoczonego frontu. Naukowcy muszą domagać się przejrzystości, instytucje muszą wdrażać polityki priorytetyzujące prawdziwą otwartość, a regulatorzy muszą zapewnić, że etykieta ‘open source’ oznacza znaczące zobowiązanie do odpowiedzialności, a nie wygodną furtkę. Bez tych zbiorowych wysiłków ogromny potencjał AI dla odkryć naukowych ryzykuje bycie skompromitowanym przez krajobraz zdominowany przez zamknięte, własnościowe systemy, fundamentalnie podważając współpracujący i weryfikowalny charakter samego postępu naukowego. Integralność przyszłych badań wisi na włosku.