Pod lupą trening AI DeepSeek: Czy Gemini od Google miał w tym udział?
Ostatnio pojawiły się spekulacje sugerujące, że DeepSeek, chińskie laboratorium AI, mogło wykorzystać dane z modelu Gemini AI Google do szkolenia swojej najnowszej iteracji, modelu rozumowania R1 AI. Model ten wykazał się wysoką wydajnością w testach porównawczych z matematyki i kodowania. Chociaż DeepSeek milczy na temat źródeł danych użytych do szkolenia R1, kilku badaczy AI zasugerowało, że Gemini, a przynajmniej jego części, odegrały w tym rolę.
Dowody i oskarżenia
Sam Paech, programista z Melbourne, który specjalizuje się w tworzeniu ocen "inteligencji emocjonalnej" dla AI, przestawił to, co uważa za dowód na to, że model DeepSeek został przeszkolony przy użyciu danych wygenerowanych przez Gemini. Paech zauważył w poście na X (dawniej Twitter), że model DeepSeek, w szczególności wersja R1-0528, wykazuje preferencje dla języka i wyrażeń podobnych do tych preferowanych przez Gemini Google 2.5 Pro.
Ponadto inny deweloper, działający pod pseudonimem twórcy SpeechMap, "oceny wolności słowa" dla AI, zauważył, że "myśli" generowane przez model DeepSeek w procesie dochodzenia do wniosków są bardzo podobne do śladów Gemini. Ta obserwacja dodaje kolejną warstwę intrygi do twierdzeń.
To nie pierwszy raz, kiedy DeepSeek spotyka się z zarzutami wykorzystywania danych z konkurencyjnych modeli AI. Jeszcze w grudniu programiści zauważyli, że model V3 DeepSeek często identyfikował się jako ChatGPT, popularna platforma chatbotów OpenAI. To sugerowało, że model został przeszkolony na podstawie dzienników czatów ChatGPT, co budzi obawy o praktyki wykorzystywania danych.
Poważniejsze oskarżenia: Destylacja i eksfiltracja danych
Na początku tego roku OpenAI podzieliło się z Financial Times informacją, że odkryli dowody łączące DeepSeek z wykorzystaniem techniki zwanej destylacją. Destylacja polega na szkoleniu modeli AI poprzez ekstrakcję danych z większych, bardziej złożonych modeli. Bloomberg poinformował, że Microsoft, kluczowy współpracownik i inwestor OpenAI, wykrył znaczną eksfiltrację danych za pośrednictwem kont programistów OpenAI pod koniec 2024 roku. OpenAI uważa, że konta te są powiązane z DeepSeek.
Destylacja, choć nie jest z natury nieetyczna, staje się problematyczna, gdy narusza warunki korzystania z usług. Warunki OpenAI wyraźnie zabraniają klientom wykorzystywania danych wyjściowych modelu firmy do opracowywania konkurencyjnych systemów AI. To rodzi poważne pytania o przestrzeganie tych warunków przez DeepSeek.
Mętne wody danych treningowych AI
Należy wziąć pod uwagę, że modele AI często błędnie się identyfikują i zbiegają się w podobnych słowach i wyrażeniach. Wynika to z charakteru otwartej sieci, która służy jako główne źródło danych treningowych dla wielu firm AI. Internet jest coraz bardziej nasycony treściami generowanymi przez AI. Farmy treści wykorzystują AI do tworzenia przynęt, a boty zalewają platformy takie jak Reddit i X postami generowanymi przez AI.
Takie "skażenie" sprawia, że niezwykle trudno jest skutecznie filtrować wyniki AI z zestawów danych treningowych, co dodatkowo komplikuje kwestię, czy DeepSeek celowo wykorzystał dane Gemini.
Opinie ekspertów i perspektywy
Pomimo trudności w ostatecznym udowodnieniu twierdzeń, niektórzy eksperci AI uważają, że jest prawdopodobne, że DeepSeek szkolił się na danych z Gemini Google. Nathan Lambert, badacz z non-profitowego instytutu badawczego AI AI2, stwierdził na X: "Gdybym był DeepSeek, na pewno stworzyłbym mnóstwo syntetycznych danych z najlepszego modelu API. [DeepSeek] ma mało GPU i dużo gotówki. To dosłownie efektywnie więcej zasobów obliczeniowych dla nich".
Perspektywa Lamberta podkreśla potencjalne zachęty ekonomiczne dla DeepSeek do wykorzystania istniejących modeli AI w celu zwiększenia własnych możliwości, szczególnie biorąc pod uwagę ograniczenia zasobów.
Środki bezpieczeństwa i przeciwdziałania
Firmy AI intensyfikują środki bezpieczeństwa, częściowo w celu zapobiegania praktykom takim jak destylacja. W kwietniu OpenAI zaczęło wymagać od organizacji ukończenia procesu weryfikacji tożsamości, aby uzyskać dostęp do niektórych zaawansowanych modeli. Proces ten obejmuje przesłanie dokumentu tożsamości wydanego przez rząd kraju obsługiwanego przez API OpenAI. Chiny są wyraźnie nieobecne na tej liście.
W innym kroku Google niedawno zaczął "podsumowywać" ślady generowane przez modele dostępne za pośrednictwem platformy programistycznej AI Studio. To działanie utrudnia szkolenie konkurencyjnych modeli na podstawie śladów Gemini. Podobnie Anthropic ogłosił w maju, że zacznie podsumowywać ślady swojego modelu, powołując się na potrzebę ochrony swoich "przewag konkurencyjnych". Te środki wskazują na rosnącą świadomość potencjalnego niewłaściwego wykorzystania wyników modeli AI i proaktywne wysiłki na rzecz ograniczenia takiego ryzyka.
Implikacje i konsekwencje
Zarzuty wobec DeepSeek rodzą istotne pytania o etykę i legalność praktyk szkoleniowych AI. Jeśli DeepSeek rzeczywiście wykorzystał dane Gemini do szkolenia swojego modelu R1, może spotkać się z prawnymi konsekwencjami i utratą reputacji. Ta sytuacja podkreśla również potrzebę większej przejrzystości i regulacji w branży AI, szczególnie w odniesieniu do pozyskiwania danych i ich wykorzystywania.
Oskarżenia wobec DeepSeek podkreślają krytyczny dylemat: jak pogodzić pragnienie innowacji i postępu w AI z potrzebą ochrony własności intelektualnej i zapewnienia uczciwej konkurencji. Branża AI rozwija się w szybkim tempie, a jasne wytyczne i ramy etyczne są niezbędne do poruszania się po złożonym krajobrazie prawnym i etycznym. Firmy muszą być przejrzyste w kwestii swoich źródeł danych i przestrzegać umów o warunkach korzystania z usług, aby zachować zaufanie i uniknąć potencjalnych zobowiązań prawnych.
Ponadto problem treści generowanych przez AI zanieczyszczających zestawy danych treningowych stanowi poważne wyzwanie dla całej społeczności AI. Wraz z tym, jak modele AI stają się coraz bardziej biegłe w generowaniu przekonujących tekstów, obrazów i innych form treści, coraz trudniej jest odróżnić dane generowane przez człowieka od danych generowanych przez AI. To "skażenie" może prowadzić do homogenizacji modeli AI, gdzie wszystkie zaczną wykazywać podobne uprzedzenia i ograniczenia.
Aby sprostać temu wyzwaniu, firmy AI muszą inwestować w bardziej zaawansowane techniki filtrowania danych i badać alternatywne źródła danych treningowych. Muszą również być bardziej przejrzyste w kwestii składu swoich zestawów danych treningowych i metod stosowanych do filtrowania treści generowanych przez AI.
Poruszanie się po przyszłości treningu AI
Kontrowersje wokół DeepSeek podkreślają pilną potrzebę bardziej szczegółowej dyskusji na temat przyszłości treningu AI. Wraz z tym, jak modele AI stają się coraz potężniejsze, a danych staje się coraz mniej, firmy mogą być kuszone, aby iść na skróty i angażować się w nieetyczne lub niezgodne z prawem praktyki. Takie praktyki ostatecznie podważają długoterminową trwałość i wiarygodność branży AI.
Potrzebny jest wspólny wysiłek z udziałem badaczy, decydentów i liderów branży, aby opracować etyczne wytyczne i ramy prawne, które promują odpowiedzialny rozwój AI. Wytyczne te powinny dotyczyć kwestii takich jak pozyskiwanie danych, przejrzystość i odpowiedzialność. Powinny również zachęcać firmy do inwestowania w etyczne i zrównoważone praktyki treningowe AI.
Kluczowe kwestie dla przyszłości treningu AI:
- Przejrzystość: Firmy powinny być przejrzyste w kwestii źródeł danych używanych do szkolenia swoich modeli AI i metod stosowanych do filtrowania treści generowanych przez AI.
- Etyka: Rozwój AI powinien być zgodny z zasadami etycznymi, które promują uczciwość, odpowiedzialność i szacunek dla własności intelektualnej.
- Regulacje: Decydenci powinni tworzyć jasne ramy prawne, które dotyczą unikalnych wyzwań związanych z treningiem AI.
- Współpraca: Badacze, decydenci i liderzy branży powinni współpracować w celu opracowania etycznych wytycznych i najlepszych praktyk dla rozwoju AI.
- Różnorodność danych: Trening AI powinien traktować priorytetowo różnorodność danych, aby zmniejszyć uprzedzenia i poprawić ogólną wydajność modeli AI.
- Zrównoważony rozwój: Trening AI powinien być przeprowadzany w sposób zrównoważony, minimalizując jego wpływ na środowisko.
- Bezpieczeństwo: Środki bezpieczeństwa powinny chronić modele AI i dane treningowe przed nieautoryzowanym dostępem i użyciem.
Dzięki uwzględnieniu tych kluczowych kwestii branża AI może zapewnić, że rozwój AI będzie prowadzony w sposób odpowiedzialny i etyczny, promując innowacje i ograniczając potencjalne ryzyko.
Droga naprzód
Oskarżenia wysunięte przeciwko DeepSeek stanowią sygnał alarmowy dla społeczności AI. Podkreślają one zasadniczą potrzebę większej przejrzystości, etycznego postępowania i solidnych zabezpieczeń w rozwoju AI. W miarę jak AI przenika różne aspekty naszego życia, konieczne jest ustanowienie jasnych granic i etycznych wytycznych, aby zapewnić jego odpowiedzialne i korzystne stosowanie.
Sprawa DeepSeek, niezależnie od jej ostatecznego wyniku, bez wątpienia ukształtuje trwający dyskurs na temat etyki AI i wpłynie na przyszły tor rozwoju AI. Służy jako przypomnienie, że dążenie do innowacji musi być łagodzone zaangażowaniem w zasady etyczne i uznaniem potencjalnych konsekwencji naszych działań. Przyszłość AI zależy od naszej zdolności do poruszania się po tych złożonych wyzwaniach z mądrością i przezornością.