Ujawnienie pochodzenia szkolenia DeepSeek-R1
Niedawne badania przeprowadzone przez Copyleaks, firmę specjalizującą się w wykrywaniu i zarządzaniu AI, wskazują na jednoznaczną odpowiedź na pytanie, czy DeepSeek-R1 był szkolony na modelu OpenAI: tak. DeepSeek, chatbot oparty na sztucznej inteligencji, dostępny bezpłatnie, uderzająco przypomina ChatGPT pod względem wyglądu, działania i funkcjonalności.
Technika ‘odcisku palca’: Identyfikacja autora AI
Aby rzucić światło na pochodzenie tekstu wygenerowanego przez AI, naukowcy opracowali innowacyjne narzędzie do tworzenia ‘odcisków palców’ tekstu. Narzędzie to ma na celu określenie konkretnego modelu AI odpowiedzialnego za wygenerowanie danego fragmentu tekstu. Naukowcy skrupulatnie przeszkolili narzędzie, korzystając z obszernego zbioru danych zawierającego tysiące próbek wygenerowanych przez AI. Następnie przetestowali je na znanych modelach AI, a wyniki były jednoznaczne.
Zaskakujące podobieństwo: DeepSeek-R1 i OpenAI
Testy ujawniły przekonującą statystykę: aż 74,2 procent tekstów wyprodukowanych przez DeepSeek-R1 wykazywało stylistyczne dopasowanie do wyników OpenAI. Ta silna korelacja mocno sugeruje, że DeepSeek wykorzystał model OpenAI podczas swojej fazy szkoleniowej.
Kontrast w podejściu: Phi-4 firmy Microsoft
Aby przedstawić kontrastujące podejście, rozważmy model Phi-4 firmy Microsoft. W tych samych testach Phi-4 wykazał niezwykłe 99,3 procent ‘niezgodności’ z jakimkolwiek znanym modelem. Ten wynik stanowi przekonujący dowód niezależnego szkolenia, co oznacza, że Phi-4 został opracowany bez polegania na istniejących modelach. Wyraźny kontrast między niezależną naturą Phi-4 a przytłaczającym podobieństwem DeepSeek do OpenAI podkreśla pozorne replikowanie lub kopiowanie przez ten ostatni.
Obawy dotyczące etyki i własności intelektualnej
To odkrycie budzi poważne obawy dotyczące bliskiego podobieństwa DeepSeek-R1 do modelu OpenAI. Te obawy obejmują kilka kluczowych obszarów, w tym:
- Pozyskiwanie danych: Pochodzenie danych użytych do szkolenia DeepSeek-R1 staje się kluczowym pytaniem.
- Prawa własności intelektualnej: Potencjalne naruszenie praw własności intelektualnej OpenAI jest poważnym problemem.
- Przejrzystość: Brak przejrzystości w zakresie metodologii szkolenia DeepSeek budzi pytania etyczne.
Zespół badawczy i metodologia
Zespół Data Science Copyleaks, kierowany przez Yehonatana Bittona, Shai Nisana i Elada Bittona, przeprowadził te przełomowe badania. Ich metodologia koncentrowała się na podejściu ‘jednomyślnego jury’. Podejście to obejmowało trzy odrębne systemy wykrywania, z których każdy miał za zadanie klasyfikować teksty wygenerowane przez AI. Ostateczny werdykt był wydawany tylko wtedy, gdy wszystkie trzy systemy były zgodne.
Implikacje operacyjne i rynkowe
Poza obawami dotyczącymi etyki i własności intelektualnej, należy wziąć pod uwagę praktyczne implikacje operacyjne. Nierozpoznane poleganie na istniejących modelach może prowadzić do kilku problemów:
- Wzmocnienie uprzedzeń: Istniejące uprzedzenia w oryginalnym modelu mogą zostać utrwalone.
- Ograniczona różnorodność: Różnorodność wyników może być ograniczona, co utrudnia innowacje.
- Ryzyko prawne i etyczne: Mogą pojawić się nieprzewidziane konsekwencje prawne lub etyczne.
Ponadto, twierdzenia DeepSeek o rewolucyjnej, opłacalnej metodzie szkolenia, jeśli okaże się, że opierają się na nieautoryzowanej destylacji technologii OpenAI, mogą mieć znaczące konsekwencje rynkowe. Mogło to przyczynić się do znacznej jednodniowej straty NVIDIA w wysokości 593 miliardów dolarów i potencjalnie zapewnić DeepSeek nieuczciwą przewagę konkurencyjną.
Rygorystyczne podejście: Połączenie wielu klasyfikatorów
Metodologia badawcza zastosowała wysoce rygorystyczne podejście, integrując trzy zaawansowane klasyfikatory AI. Każdy z tych klasyfikatorów został skrupulatnie przeszkolony na próbkach tekstów z czterech czołowych modeli AI:
- Claude
- Gemini
- Llama
- OpenAI
Te klasyfikatory zostały zaprojektowane do identyfikowania subtelnych niuansów stylistycznych, w tym:
- Struktura zdania: Ułożenie słów i fraz w zdaniach.
- Słownictwo: Wybór słów i ich częstotliwość.
- Frazeologia: Ogólny styl i ton wypowiedzi.
System ‘jednomyślnego jury’: Zapewnienie dokładności
System ‘jednomyślnego jury’ był kluczowym elementem metodologii, zapewniając solidną ochronę przed fałszywymi alarmami. System ten wymagał, aby wszystkie trzy klasyfikatory niezależnie zgodziły się na klasyfikację, zanim została ona uznana za ostateczną. To rygorystyczne kryterium zaowocowało wyjątkową precyzją na poziomie 99,88 procent i niezwykle niskim wskaźnikiem fałszywych alarmów wynoszącym zaledwie 0,04 procent. System wykazał swoją zdolność do dokładnego identyfikowania tekstów zarówno ze znanych, jak i nieznanych modeli AI.
Poza wykrywaniem AI: Atrybucja specyficzna dla modelu
‘Dzięki tym badaniom wyszliśmy poza ogólne wykrywanie AI, jakie znaliśmy, i przeszliśmy do atrybucji specyficznej dla modelu, co jest przełomem, który fundamentalnie zmienia sposób, w jaki podchodzimy do treści AI’, stwierdził Shai Nisan, Chief Data Scientist w Copyleaks.
Znaczenie atrybucji modelu
Nisan podkreślił ponadto znaczenie tej możliwości: ‘Ta zdolność jest kluczowa z wielu powodów, w tym poprawy ogólnej przejrzystości, zapewnienia etycznych praktyk szkolenia AI, a co najważniejsze, ochrony praw własności intelektualnej technologii AI i, miejmy nadzieję, zapobiegania ich potencjalnemu niewłaściwemu wykorzystaniu’.
Zagłębiając się: Implikacje podejścia DeepSeek
Wyniki tych badań mają daleko idące implikacje, które wykraczają poza bezpośrednie pytanie, czy DeepSeek skopiował model OpenAI. Przyjrzyjmy się niektórym z tych implikacji bardziej szczegółowo:
Iluzja innowacji
Jeśli szkolenie DeepSeek w dużym stopniu opierało się na modelu OpenAI, rodzi to pytania o prawdziwy zakres jego innowacji. Chociaż DeepSeek mógł przedstawiać swojego chatbota jako nowatorskie dzieło, podstawowa technologia może być mniej przełomowa, niż początkowo twierdzono. Może to wprowadzać w błąd użytkowników i inwestorów, którzy wierzą, że wchodzą w interakcję z prawdziwie unikalnym systemem AI.
Wpływ na krajobraz AI
Powszechne przyjęcie modeli AI szkolonych na innych modelach może mieć homogenizujący wpływ na krajobraz AI. Jeśli wiele systemów AI ostatecznie wywodzi się z kilku podstawowych modeli, może to ograniczyć różnorodność podejść i perspektyw w tej dziedzinie. Może to stłumić innowacje i doprowadzić do mniej dynamicznego i konkurencyjnego ekosystemu AI.
Potrzeba większej przejrzystości
Ten przypadek podkreśla pilną potrzebę większej przejrzystości w rozwoju i wdrażaniu modeli AI. Użytkownicy i interesariusze zasługują na to, aby wiedzieć, jak systemy AI są szkolone i jakie źródła danych są wykorzystywane. Informacje te są kluczowe dla oceny potencjalnych uprzedzeń, ograniczeń i etycznych implikacji tych systemów.
Rola regulacji
Przypadek DeepSeek może również podsycić debatę na temat potrzeby większej regulacji branży AI. Rządy i organy regulacyjne mogą być zmuszone do rozważenia środków mających na celu zapewnienie, że twórcy AI przestrzegają wytycznych etycznych, chronią prawa własności intelektualnej i promują przejrzystość.
Przyszłość rozwoju AI
Kontrowersje wokół metod szkolenia DeepSeek mogą posłużyć jako katalizator szerszej dyskusji na temat przyszłości rozwoju AI. Może to skłonić do ponownej oceny najlepszych praktyk, kwestii etycznych i znaczenia oryginalności w tworzeniu systemów AI.
Wezwanie do odpowiedzialnego rozwoju AI
Przypadek DeepSeek przypomina o znaczeniu odpowiedzialnego rozwoju AI. Podkreśla potrzebę:
- Oryginalności: Twórcy AI powinni dążyć do tworzenia prawdziwie nowatorskich modeli, zamiast polegać w dużym stopniu na istniejących.
- Przejrzystości: Dane szkoleniowe i metodologie wykorzystywane do opracowywania systemów AI powinny być ujawniane użytkownikom i interesariuszom.
- Względów etycznych: Rozwój AI powinien być kierowany zasadami etycznymi, w tym sprawiedliwością, odpowiedzialnością i poszanowaniem praw własności intelektualnej.
- Współpracy: Otwarta współpraca i dzielenie się wiedzą w społeczności AI mogą pomóc w rozwoju innowacji i zapobiec replikacji istniejących uprzedzeń.
Droga naprzód: Zapewnienie zróżnicowanej i etycznej przyszłości AI
Ostatecznym celem powinno być stworzenie zróżnicowanego i etycznego ekosystemu AI, w którym kwitnie innowacja, a użytkownicy mogą ufać systemom, z którymi wchodzą w interakcję. Wymaga to zaangażowania w odpowiedzialne praktyki rozwoju AI, przejrzystość i ciągły dialog na temat etycznych implikacji tej szybko rozwijającej się technologii. Przypadek DeepSeek stanowi cenną lekcję, podkreślając potencjalne pułapki zbytniego polegania na istniejących modelach i podkreślając znaczenie oryginalności i względów etycznych w dążeniu do postępu AI. Przyszłość AI zależy od wyborów, których dokonujemy dzisiaj, i kluczowe jest, abyśmy priorytetowo traktowali odpowiedzialny rozwój, aby zapewnić korzystną i sprawiedliwą przyszłość dla wszystkich.
Ustalenia z dochodzenia Copyleaks rzuciły światło na kluczowy aspekt rozwoju AI i konieczne jest, aby branża jako całość wyciągnęła wnioski z tego doświadczenia, aby wspierać bardziej przejrzystą, etyczną i innowacyjną przyszłość.