Świat sztucznej inteligencji (AI) huczy od spekulacji po niedawnym wydaniu ulepszonej wersji modelu rozumowania R1 firmy DeepSeek. To chińskie laboratorium AI zaprezentowało model, który wykazuje imponujące możliwości w testach porównawczych matematyki i kodowania. Jednak pochodzenie danych użytych do szkolenia tego modelu stało się głównym punktem dyskusji, a niektórzy badacze AI sugerują możliwe powiązanie z rodziną AI Gemini firmy Google.
Model R1 DeepSeek: Bliższe spojrzenie
Model rozumowania R1 firmy DeepSeek zyskał uwagę ze względu na swoje wyniki w obszarach takich jak rozwiązywanie problemów matematycznych i zadania związane z kodowaniem. Niechęć firmy do ujawnienia konkretnych źródeł danych wykorzystanych w szkoleniu modelu wywołała spekulacje w społeczności badaczy AI.
Zarzuty dotyczące wpływu Gemini
Sednem debaty jest możliwość, że DeepSeek wykorzystał dane wyjściowe z Gemini firmy Google, aby ulepszyć swój własny model. Sam Paech, programista AI specjalizujący się w ocenach „inteligencji emocjonalnej”, przedstawił dowody sugerujące, że model R1-0528 firmy DeepSeek wykazuje preferencje dotyczące języka i wyrażeń podobne do tych preferowanych przez Gemini 2.5 Pro firmy Google. Chociaż sama ta obserwacja nie stanowi ostatecznego dowodu, przyczyniła się do trwającej dyskusji.
Dodając kolejną warstwę do dyskusji, anonimowy twórca „SpeechMap”, narzędzia do oceny AI skupionego na wolności słowa, zauważył, że „myśli” generowane przez model DeepSeek – wewnętrzne procesy rozumowania, których używa do dojścia do wniosków – przypominają wzorce śledzenia Gemini. To jeszcze bardziej intensyfikuje pytanie, czy DeepSeek używał danych z rodziny Gemini firmy Google.
Poprzednie oskarżenia i obawy OpenAI
To nie pierwszy raz, kiedy DeepSeek spotyka się z oskarżeniami o wykorzystywanie danych z konkurencyjnych modeli AI. W grudniu zaobserwowano, że model V3 firmy DeepSeek często identyfikował się jako ChatGPT, szeroko stosowany chatbot AI firmy OpenAI. To doprowadziło do podejrzeń, że model mógł zostać przeszkolony na logach czatu ChatGPT.
Dodając do intrygi, OpenAI podobno odkrył wcześniej w tym roku dowody łączące DeepSeek z wykorzystaniem destylacji, techniki polegającej na wyodrębnianiu danych z większych, potężniejszych modeli AI w celu szkolenia mniejszych. Według doniesień Microsoft, kluczowy współpracownik i inwestor w OpenAI, wykrył znaczącą eksfiltrację danych za pośrednictwem kont programistów OpenAI pod koniec 2024 roku. OpenAI uważa, że konta te są powiązane z DeepSeek.
Chociaż destylacja jest powszechną praktyką w świecie AI, warunki świadczenia usług OpenAI wyraźnie zabraniają użytkownikom wykorzystywania danych wyjściowych modelu firmy do tworzenia konkurencyjnych systemów AI. To budzi obawy o potencjalne naruszenia zasad OpenAI.
Wyzwanie „skażenia” AI
Należy wziąć pod uwagę, że modele AI, podczas szkolenia, mogą zbiegać się w podobne słownictwo i sformułowania. Wynika to przede wszystkim z faktu, że otwarta sieć, główne źródło danych szkoleniowych dla firm AI, jest coraz bardziej nasycona treściami generowanymi przez AI. Farmy treści wykorzystują AI do tworzenia artykułów typu clickbait, a boty zalewają platformy takie jak Reddit i X postami generowanymi przez AI.
To „skażenie” krajobrazu danych utrudnia skuteczne filtrowanie treści generowanych przez AI z zbiorów danych szkoleniowych. W rezultacie, rozróżnienie, czy dane wyjściowe modelu pochodzą rzeczywiście z danych innego modelu, czy po prostu odzwierciedlają wszechobecną obecność treści generowanych przez AI w sieci, może być trudne.
Perspektywy ekspertów w tej sprawie
Pomimo trudności w definitywnym udowodnieniu związku, eksperci AI, tacy jak Nathan Lambert, badacz w instytucie badawczym AI AI2, uważają, że możliwość szkolenia DeepSeek na danych z Gemini firmy Google jest prawdopodobna. Lambert sugeruje, że DeepSeek, borykający się z ograniczeniami w dostępności GPU, ale posiadający wystarczające zasoby finansowe, może uznać za bardziej efektywne wykorzystanie danych syntetycznych generowanych przez najlepszy dostępny model API.
Firmy AI wzmacniają środki bezpieczeństwa
Obawy o destylację i nieautoryzowane wykorzystanie danych skłaniają firmy AI do wzmacniania swoich środków bezpieczeństwa. OpenAI, na przykład, wymaga teraz od organizacji ukończenia procesu weryfikacji tożsamości, aby uzyskać dostęp do niektórych zaawansowanych modeli. Proces ten wymaga dokumentu tożsamości wydanego przez rząd kraju obsługiwanego przez API OpenAI, z wyłączeniem Chin.
Google również podjął kroki w celu złagodzenia potencjału destylacji. Niedawno zaczęli „podsumowywać” osady generowane przez modele dostępne za pośrednictwem platformy programistycznej AI Studio. To utrudnia szkolenie konkurencyjnych modeli poprzez wyodrębnianie szczegółowych informacji z osadów Gemini. Podobnie, Anthropic ogłosił plany podsumowania osadów własnego modelu, powołując się na potrzebę ochrony swoich „przewag konkurencyjnych”.
Implikacje dla krajobrazu AI
Kontrowersje wokół DeepSeek i potencjalnego wykorzystania danych Gemini firmy Google podkreślają kilka kluczowych kwestii w krajobrazie AI:
- Etyka danych i odpowiedzialny rozwój AI: Wraz z rosnącą złożonością modeli AI, względy etyczne dotyczące pozyskiwania i wykorzystywania danych stają się najważniejsze. Firmy AI muszą upewnić się, że przestrzegają wytycznych etycznych i szanują prawa własności intelektualnej innych osób.
- Wpływ treści generowanych przez AI: Rozprzestrzenianie się treści generowanych przez AI w sieci stanowi wyzwanie dla szkolenia AI. W miarę jak dane stają się coraz bardziej „skażone”, coraz trudniej jest zapewnić jakość i integralność modeli AI.
- Potrzeba przejrzystości i odpowiedzialności: Firmy AI powinny być przejrzyste w kwestii swoich źródeł danych i metod szkoleniowych. To pomoże zbudować zaufanie i zapewnić, że AI jest rozwijana i wykorzystywana w sposób odpowiedzialny.
- Znaczenie solidnych środków bezpieczeństwa: W miarę jak branża AI staje się bardziej konkurencyjna, firmy AI muszą wdrażać solidne środki bezpieczeństwa, aby zapobiec nieautoryzowanemu dostępowi do swoich danych i modeli.
Przyszłość rozwoju AI
Kontrowersje wokół DeepSeek służą jako przypomnienie o złożonych wyzwaniach etycznych i technicznych, przed którymi stoi branża AI. W miarę jak AI kontynuuje ewolucję, kluczowe jest, aby firmy AI, badacze i decydenci współpracowali, aby zapewnić, że AI jest rozwijana i wykorzystywana w sposób korzystny dla społeczeństwa. Obejmuje to promowanie przejrzystości, odpowiedzialności i etycznych praktyk w zakresie danych.
Trwająca debata: Zarzuty wobec DeepSeek podkreślają rosnące obawy dotyczące prywatności danych, bezpieczeństwa i etycznego rozwoju AI. Brak przejrzystości w pozyskiwaniu danych oraz coraz bardziej zacierające się granice między legalnym gromadzeniem danych a nieautoryzowanym scrapingiem danych wymagają jasnych regulacji i odpowiedzialnych praktyk w społeczności AI. Wraz z postępem technologii branża musi zmierzyć się z takimi kwestiami, jak prawa własności intelektualnej, ryzyko „skażenia AI” i potencjalne niezamierzone konsekwencje.
Etyka danych szkoleniowych AI: Kontrowersje wokół DeepSeek podkreślają również względy etyczne, które wchodzą w grę podczas gromadzenia danych szkoleniowych dla modeli AI. Wraz z rosnącym poleganiem na rozległych zbiorach danych scraped z Internetu, coraz pilniejsze stają się pytania takie jak to, kto jest właścicielem danych, w jaki sposób uzyskuje się (lub ignoruje) zgodę oraz czy dane są wykorzystywane uczciwie i odpowiedzialnie. Społeczność AI musi ustanowić jasne wytyczne dotyczące pozyskiwania danych, które szanują prawa autorskie, chronią dane osobowe i łagodzą uprzedzenia.
Wyścig o dominację AI: Oskarżenia wobec DeepSeek można również interpretować jako odzwierciedlenie intensywnego wyścigu o dominację AI między Stanami Zjednoczonymi a Chinami. Oba kraje pompują miliardy dolarów w badania i rozwój AI, a presja na osiągnięcie przełomów napędza konkurencję i potencjalnie idzie na skróty. Jeśli DeepSeek rzeczywiście wykorzystuje dane OpenAI lub Google bez pozwolenia, można to zinterpretować jako przykład agresywnej taktyki i kradzieży własności intelektualnej, które od dawna nękają stosunki technologiczne między USA a Chinami.
Szersze implikacje dla ekosystemu AI: Chociaż obecnie uwaga skupia się na DeepSeek, przypadek ten może mieć szersze implikacje dla całego ekosystemu AI. Jeśli zostanie udowodnione, że DeepSeek nielegalnie wykorzystywał dane z ChatGPT lub Gemini, może to skłonić inne firmy do rygorystycznego audytu własnych praktyk pozyskiwania danych, potencjalnie spowalniając tempo rozwoju i podnosząc koszty. Może to również prowadzić do bardziej rygorystycznych regulacji dotyczących gromadzenia i wykorzystywania danych, nie tylko w USA i Chinach, ale na całym świecie.
Wpływ syntetycznie generowanych danych: Pojawienie się syntetycznych danych, zaproponowanych przez Lamberta, jako realnej alternatywy dla trenowania modeli budzi fundamentalne pytania dotyczące przyszłości rozwoju AI. Chociaż syntetyczne zbiory danych omijają niektóre z etycznych i związanych z prawami autorskimi obaw dotyczących danych ze świata rzeczywistego, wydajność i niezawodność modeli trenowanych na danych syntetycznych często nie dorównują tym trenowanym na oryginalnych danych. Społeczność AI musi znaleźć innowacyjne podejścia do generowania zaawansowanych syntetycznych zbiorów danych, które spełniają potrzeby branży bez uszczerbku dla dokładności i niezawodności.
Podsumowanie modelu jako forma zarządzania danymi: Ostatnia decyzja Google i Anthropic o rozpoczęciu „podsumowywania” osadów generowanych przez ich modele wskazuje na rosnące znaczenie zarządzania danymi w branży AI. Zacierając szczegółowe informacje w procesach decyzyjnych modeli, firmy utrudniają innym inżynierię wsteczną swoich technologii. Takie podejście może pomóc w ochronie tajemnic handlowych i utrzymaniu etycznych praktyk pozyskiwania danych, ale rodzi również pytania dotyczące przejrzystości i wytłumaczalności systemów AI.
Równoważenie innowacji z względami etycznymi i prawnymi: Kontrowersje dotyczące DeepSeek podkreślają potrzebę znalezienia równowagi między zachęcaniem do innowacji w AI a ochroną praw własności intelektualnej i zapewnieniem przestrzegania zasad etycznych. W miarę jak modele AI stają się coraz bardziej wyrafinowane i złożone, wyzwania etyczne i prawne, przed którymi stoi branża, staną się jeszcze bardziej wyraźne. Znalezienie właściwej równowagi między tymi obawami będzie miało kluczowe znaczenie dla wspierania odpowiedzialnego i zrównoważonego rozwoju AI.