DeepSeek i Gemini: AI Kontrowersje

Świat sztucznej inteligencji nie jest obcy kontrowersjom, a najnowsze wydarzenia dotyczą chińskiego laboratorium AI DeepSeek. Niedawno DeepSeek zaprezentował zaktualizowaną wersję swojego modelu rozumowania R1, wykazującego imponujące możliwości w rozwiązywaniu zadań matematycznych i benchmarków kodowania. Jednak źródło danych wykorzystanych do trenowania tego modelu wywołało znaczną debatę wśród badaczy AI, a niektórzy spekulują, że mogło ono pochodzić, przynajmniej częściowo, z rodziny modeli AI Gemini firmy Google. Podejrzenie to rodzi poważne pytania o praktyki etyczne, pozyskiwanie danych i krajobraz konkurencyjny w branży AI.

Przedstawione dowody

Kontrowersje rozpoczęły się, gdy Sam Paech, programista z Melbourne, specjalizujący się w tworzeniu ocen “inteligencji emocjonalnej” dla systemów AI, przedstawił to, co uważa za dowód, że najnowszy model DeepSeek został wytrenowany na danych wygenerowanych przez Gemini. Według Paecha model DeepSeek, zidentyfikowany jako R1-0528, wykazuje preferencje dla konkretnych słów i wyrażeń, które są niezwykle podobne do tych preferowanych przez Gemini 2.5 Pro firmy Google. Chociaż sama ta obserwacja może nie być rozstrzygająca, podnosi czerwoną flagę i wymaga dalszego dochodzenia.

Dodatkowo, inny programista, działający pod pseudonimem SpeechMap i znany z tworzenia “ewaluacji wolności słowa” dla AI, zwrócił uwagę, że ślady modelu DeepSeek – “myśli”, które generuje, dążąc do wniosku – “czytają się jak ślady Gemini”. To zbieżność wzorców językowych i procesów myślowych dodatkowo podsyca podejrzenia, że DeepSeek mógł wykorzystać dane wyjściowe Gemini podczas procesu uczenia.

Poprzednie oskarżenia wobec DeepSeek

To nie pierwszy raz, kiedy DeepSeek staje w obliczu oskarżeń o trenowanie swoich modeli AI na danych z konkurencyjnych systemów AI. W grudniu programiści zauważyli, że model V3 DeepSeek często identyfikował się jako ChatGPT, platforma chatbotów oparta na sztucznej inteligencji firmy OpenAI. To osobliwe zachowanie sugerowało, że model mógł zostać wytrenowany na logach czatu ChatGPT, co budzi obawy o etyczne implikacje takiej praktyki.

Wcześniej w tym roku OpenAI poinformowało Financial Times, że odkryło dowody łączące DeepSeek z wykorzystaniem destylacji, techniki polegającej na trenowaniu modeli AI poprzez wydobywanie danych z większych, bardziej wydajnych modeli. Ponadto Microsoft, kluczowy współpracownik i inwestor w OpenAI, wykrył znaczne ilości danych eksfiltrowanych przez konta programistyczne OpenAI pod koniec 2024 roku. OpenAI uważa, że konta te są powiązane z DeepSeek, co dodatkowo wzmacnia podejrzenia o nieautoryzowane wydobywanie danych.

Chociaż destylacja nie jest z natury nieetyczna, warunki świadczenia usług OpenAI wyraźnie zabraniają klientom wykorzystywania danych wyjściowych modelu firmy do budowy konkurencyjnych systemów AI. Ograniczenie to ma na celu ochronę własności intelektualnej OpenAI i utrzymanie uczciwego środowiska konkurencyjnego w branży AI. Jeśli DeepSeek rzeczywiście wykorzystał destylację do trenowania swojego modelu R1 na danych wyjściowych Gemini, stanowiłoby to naruszenie warunków świadczenia usług OpenAI i budziło poważne obawy etyczne.

Wyzwania związane z zanieczyszczeniem danych

Należy przyznać, że wiele modeli AI wykazuje tendencję do błędnego identyfikowania się i zbiegania się na podobnych słowach i wyrażeniach. Zjawisko to można przypisać rosnącej obecności treści generowanych przez AI w otwartym Internecie, który służy jako główne źródło danych treningowych dla firm AI. Farmy treści wykorzystują AI do tworzenia artykułów typu clickbait, a boty zalewają platformy takie jak Reddit i X postami generowanymi przez AI.

To “zanieczyszczenie” sieci treściami generowanymi przez AI stanowi poważne wyzwanie dla firm AI, co sprawia, że niezwykle trudno jest dokładnie filtrować dane wyjściowe AI z zestawów danych szkoleniowych. W rezultacie modele AI mogą nieumyślnie uczyć się od siebie nawzajem, co prowadzi do obserwowanych podobieństw w języku i procesach myślowych.

Opinie i perspektywy ekspertów

Pomimo wyzwań związanych z zanieczyszczeniem danych, eksperci AI, tacy jak Nathan Lambert, badacz z organizacji non-profit AI research institute AI2, uważają, że nie jest nieprawdopodobne, aby DeepSeek trenował na danych z Gemini firmy Google. Lambert sugeruje, że DeepSeek, stojąc w obliczu niedoboru GPU, ale posiadając wystarczające zasoby finansowe, mógł zdecydować się na generowanie syntetycznych danych z najlepszego dostępnego modelu API. Jego zdaniem takie podejście mogłoby być bardziej efektywne obliczeniowo dla DeepSeek.

Perspektywa Lamberta podkreśla praktyczne względy, które mogą skłaniać firmy AI do poszukiwania alternatywnych strategii pozyskiwania danych. Chociaż wykorzystanie danych syntetycznych może być uzasadnioną i skuteczną techniką, kluczowe jest zapewnienie, że dane są generowane etycznie i nie naruszają żadnych warunków świadczenia usług ani wytycznych etycznych.

Środki bezpieczeństwa i działania zapobiegawcze

W odpowiedzi na obawy dotyczące destylacji i zanieczyszczenia danych firmy AI zwiększają swoje środki bezpieczeństwa. Na przykład OpenAI wprowadziło wymóg, aby organizacje ukończyły proces weryfikacji tożsamości, aby uzyskać dostęp do niektórych zaawansowanych modeli. Proces ten wymaga dokumentu tożsamości wydanego przez rząd jednego z krajów obsługiwanych przez API OpenAI, z wykluczeniem Chin z listy.

Google również podjęło kroki w celu ograniczenia ryzyka destylacji, “podsumowując” ślady generowane przez modele dostępne za pośrednictwem platformy programistycznej AI Studio. Proces podsumowywania utrudnia trenowanie wydajnych modeli konkurencyjnych na śladach Gemini. Podobnie Anthropic ogłosił w maju, że zacznie podsumowywać ślady własnego modelu, powołując się na potrzebę ochrony swoich “przewag konkurencyjnych”.

Środki bezpieczeństwa stanowią wspólny wysiłek firm AI w celu ochrony swojej własności intelektualnej i zapobiegania nieautoryzowanemu wydobywaniu danych. Wdrażając bardziej rygorystyczne kontrole dostępu i zaciemniając ślady modeli, firmy chcą powstrzymać nieetyczne praktyki i utrzymać równe szanse w branży AI.

Odpowiedź Google

Firma Google, zapytana o komentarz, jak dotąd nie odpowiedziała na zarzuty. Milczenie to pozostawia miejsce na spekulacje i dodatkowo zaognia kontrowersje. W oczekiwaniu na oficjalne oświadczenie Google społeczność AI nadal zadaje pytania dotyczące praktyk pozyskiwania danych DeepSeek.

Implikacje dla branży AI

Kontrowersje wokół DeepSeek rodzą fundamentalne pytania dotyczące etycznych granic rozwoju AI i znaczenia odpowiedzialnego pozyskiwania danych. Wraz z rosnącą złożonością i możliwościami modeli AI pokusa do pójścia na skróty i wykorzystywania nieautoryzowanych danych może się nasilać. Jednak takie praktyki mogą mieć szkodliwe konsekwencje, podważając integralność branży AI i niszcząc zaufanie publiczne.

Aby zapewnić długoterminową zrównoważoność i etyczny rozwój AI, konieczne jest, aby firmy AI przestrzegały surowych wytycznych etycznych i priorytetowo traktowały odpowiedzialne praktyki pozyskiwania danych. Obejmuje to uzyskanie wyraźnej zgody od dostawców danych, poszanowanie praw własności intelektualnej i unikanie wykorzystywania nieautoryzowanych lub stronniczych danych.

Ponadto w branży AI potrzebna jest większa przejrzystość i odpowiedzialność. Firmy AI powinny być bardziej otwarte na temat swoich praktyk pozyskiwania danych i metod wykorzystywanych do trenowania swoich modeli. Ta zwiększona przejrzystość pomoże budować zaufanie i wiarę w systemy AI oraz promować bardziej etyczny i odpowiedzialny ekosystem AI.

Kontrowersje wokół DeepSeek służą jako aktualne przypomnienie o wyzwaniach i kwestiach etycznych, którymi należy się zająć w miarę postępu technologii AI. Poprzez przestrzeganie zasad etycznych, promowanie przejrzystości i wspieranie współpracy, społeczność AI może zapewnić, że AI jest wykorzystywana dla dobra społeczeństwa, a nie kosztem wartości etycznych.

Dogłębne spojrzenie na aspekty techniczne

Aby jeszcze lepiej zrozumieć niuanse tej kwestii, kluczowe jest zagłębienie się w techniczne aspekty trenowania modeli AI oraz konkretne techniki, o których mowa, a mianowicie destylację i generowanie danych syntetycznych.

Destylacja: Klonowanie inteligencji?

Destylacja, w kontekście AI, odnosi się do techniki kompresji modelu, w której mniejszy, bardziej wydajny model “uczeń” jest trenowany w celu naśladowania zachowania większego, bardziej złożonego modelu “nauczyciela”. Model ucznia uczy się, obserwując dane wyjściowe modelu nauczyciela, skutecznie wydobywając wiedzę i przenosząc ją do mniejszej architektury. Chociaż destylacja może być korzystna dla wdrażania modeli AI na urządzeniach o ograniczonych zasobach, budzi obawy etyczne, gdy dane lub architektura modelu nauczyciela są zastrzeżone.

Jeśli DeepSeek wykorzystał dane wyjściowe Gemini do wytrenowania swojego modelu R1 poprzez destylację bez zezwolenia, byłoby to jak sklonowanie inteligencji Gemini i potencjalne naruszenie praw własności intelektualnej Google. Kluczem jest tutaj nieautoryzowane wykorzystanie danych wyjściowych Gemini, które są chronione prawem autorskim i innymi mechanizmami prawnymi.

Generowanie danych syntetycznych: Miecz obosieczny

Generowanie danych syntetycznych polega na tworzeniu sztucznych punktów danych, które przypominają dane rzeczywiste. Technika ta jest często wykorzystywana do powiększania zestawów danych szkoleniowych, zwłaszcza gdy rzeczywiste dane są skąpe lub drogie do uzyskania. Jednak jakość i implikacje etyczne danych syntetycznych zależą w dużej mierze od sposobu ich generowania.

Jeśli DeepSeek wykorzystał API Gemini do generowania danych syntetycznych, pojawia się pytanie: jak bardzo dane te przypominają rzeczywiste dane wyjściowe Gemini i czy naruszają one własność intelektualną Google? Jeśli dane syntetyczne są jedynie inspirowane Gemini, ale nie replikują bezpośrednio jego danych wyjściowych, można to uznać za dozwolony użytek. Jeśli jednak dane syntetyczne są praktycznie nieodróżnialne od danych wyjściowych Gemini, może to budzić podobne obawy jak destylacja.

Implikacje przetrenowania modelu

Kolejną związaną z tym obawą jest przetrenowanie modelu. Przetrenowanie występuje, gdy model uczy się danych treningowych zbyt dobrze, do tego stopnia, że słabo radzi sobie z nowymi, niewidzianymi danymi. Jeśli DeepSeek wytrenował swój model R1 nadmiernie na danych wyjściowych Gemini, mogło to spowodować przetrenowanie, w którym model zasadniczo zapamiętuje odpowiedzi Gemini zamiast uogólniać je na nowe sytuacje.

Tego rodzaju przetrenowanie nie tylko ograniczyłoby zastosowanie modelu R1, ale także ułatwiłoby wykrycie jego zależności od danych Gemini. “Ślady”, które zauważył SpeechMap, mogą być dowodem na to przetrenowanie, gdzie model R1 zasadniczo zwraca wzorce wyuczone z danych wyjściowych Gemini.

Kwestie etyczne i najlepsze praktyki branżowe

Oprócz aspektów technicznych, kontrowersje te uwypuklają potrzebę jasnych wytycznych etycznych i najlepszych praktyk branżowych dla rozwoju AI. Niektóre kluczowe zasady obejmują:

  • Przejrzystość: Firmy AI powinny być przejrzyste w kwestii swoich źródeł danych i metodologii szkoleniowych. Umożliwia to niezależny audyt i weryfikację.
  • Zgoda: Firmy AI powinny uzyskać wyraźną zgodę od podmiotów dostarczających dane przed wykorzystaniem ich danych do szkolenia. Obejmuje to poszanowanie praw własności intelektualnej i unikanie nieautoryzowanego scrapingu danych.
  • Uczciwość: Modele AI powinny być uczciwe i bezstronne. Wymaga to zwrócenia szczególnej uwagi na różnorodność danych i łagodzenie uprzedzeń algorytmicznych.
  • Odpowiedzialność:

Firmy AI powinny być odpowiedzialne za działania swoich modeli AI. Obejmuje to ustanowienie jasnych ram odpowiedzialności i rozwiązywanie szkód spowodowanych przez systemy AI.

  • Bezpieczeństwo: Firmy AI powinny priorytetowo traktować bezpieczeństwo swoich modeli AI i danych. Obejmuje to ochronę przed nieautoryzowanym dostępem i zapobieganie naruszeniom danych.

Rola regulacji

Oprócz wytycznych etycznych i najlepszych praktyk branżowych, regulacje mogą być konieczne, aby sprostać wyzwaniom, jakie stwarza rozwój AI. Niektóre potencjalne środki regulacyjne obejmują:

  • Przepisy dotyczące ochrony danych: Przepisy, które chronią dane osobowe i ograniczają wykorzystywanie informacji osobistych do szkolenia AI.
  • Przepisy dotyczące własności intelektualnej: Przepisy, które chronią modele i dane AI przed nieautoryzowanym kopiowaniem i rozpowszechnianiem.
  • Przepisy dotyczące konkurencji: Przepisy, które zapobiegają zachowaniom antykonkurencyjnym w branży AI, takim jak gromadzenie danych i niesprawiedliwy dostęp do zasobów.
  • Przepisy dotyczące bezpieczeństwa: Przepisy, które zapewniają bezpieczeństwo i niezawodność systemów AI wykorzystywanych w krytycznych zastosowaniach.

Łącząc wytyczne etyczne, najlepsze praktyki branżowe i odpowiednie regulacje, możemy stworzyć bardziej odpowiedzialny i

zrównoważony ekosystem AI, który przynosi korzyści całemu społeczeństwu. Kontrowersje wokół DeepSeek służą jako sygnał alarmowy, wzywający nas do proaktywnego zajęcia się tymi wyzwaniami i zapewnienia, że AI jest rozwijana w sposób zgodny z naszymi wartościami i zasadami.