Narodziny DeepSeek: Od Funduszu Hedge do Laboratorium AI
Początki DeepSeek są ściśle związane ze światem finansów kwantytatywnych. Firma jest wspierana przez High-Flyer Capital Management, chiński fundusz hedgingowy znany z wykorzystywania sztucznej inteligencji w podejmowaniu decyzji handlowych opartych na danych.
Liang Wenfeng, entuzjasta AI z doświadczeniem w handlu podczas studiów na Uniwersytecie Zhejiang, był współzałożycielem High-Flyer w 2015 roku. W 2019 roku uruchomił High-Flyer Capital Management jako fundusz hedgingowy, koncentrując się na opracowywaniu i wdrażaniu algorytmów AI do zastosowań finansowych.
W 2023 roku High-Flyer zainkubował DeepSeek jako dedykowane laboratorium badań nad AI, działające niezależnie od swojej podstawowej działalności finansowej. Następnie, z High-Flyer jako kluczowym inwestorem, laboratorium zostało wydzielone do oddzielnego podmiotu, zachowując nazwę DeepSeek.
Od samego początku DeepSeek priorytetowo traktował tworzenie własnych klastrów centrów danych w celu ułatwienia trenowania modeli. Jednak, podobnie jak inne firmy zajmujące się sztuczną inteligencją działające w Chinach, DeepSeek napotkał trudności z powodu amerykańskich ograniczeń eksportowych na zaawansowany sprzęt. W konsekwencji, aby trenować swoje nowsze modele, firma musiała uciekać się do używania chipów Nvidia H800, mniej wydajnego wariantu chipów H100, które są łatwo dostępne dla amerykańskich firm.
Zespół techniczny DeepSeek słynie z młodości i dynamiki. Firma aktywnie rekrutuje doktorantów AI z wiodących chińskich uniwersytetów. Ponadto DeepSeek zatrudnia osoby z różnych środowisk, nawet te bez wiedzy z zakresu informatyki, aby zapewnić, że ich technologia może skutecznie rozumieć i zaspokajać potrzeby szerokiego zakresu tematów, jak donosi The New York Times.
Modele AI DeepSeek: Rzucanie Wyzwania Status Quo
DeepSeek zaprezentował swój początkowy zestaw modeli – DeepSeek Coder, DeepSeek LLM i DeepSeek Chat – w listopadzie 2023 roku. Jednak to premiera rodziny modeli następnej generacji DeepSeek-V2 wiosną naprawdę przyciągnęła uwagę branży AI.
DeepSeek-V2, wszechstronny system zdolny do analizowania zarówno tekstu, jak i obrazów, wykazał imponującą wydajność w różnych testach porównawczych AI. Co istotne, osiągnął tę wydajność przy znacznie niższych kosztach w porównaniu z konkurencyjnymi modelami dostępnymi w tamtym czasie. To skłoniło krajowych rywali DeepSeek, w tym ByteDance i Alibaba, do obniżenia cen niektórych swoich modeli i oferowania innych całkowicie za darmo.
DeepSeek V3 wykazał wyższą wydajność w porównaniu zarówno z modelami do pobrania o otwartym kodzie źródłowym, takimi jak Llama Meta, jak i z modelami "zamkniętymi", dostępnymi tylko za pośrednictwem interfejsów API, takimi jak GPT-4o OpenAI.
Równie godny uwagi jest model "rozumowania" R1 DeepSeek. Uruchomiony w styczniu DeepSeek twierdzi, że R1 osiąga porównywalną wydajność do modelu o1 OpenAI w kluczowych testach porównawczych.
Jako model rozumowania, R1 zawiera mechanizmy samokontroli, łagodzące niektóre z typowych pułapek związanych ze standardowymi modelami. Chociaż modele rozumowania mogą wymagać nieco dłuższego czasu przetwarzania, aby dojść do rozwiązań (od sekund do minut), wykazują one większą niezawodność w dziedzinach takich jak fizyka, nauka i matematyka.
Jednak modele DeepSeek, w tym R1 i DeepSeek V3, podlegają nadzorowi chińskiego regulatora internetu, który zapewnia, że ich odpowiedzi są zgodne z "podstawowymi wartościami socjalistycznymi". Na przykład w aplikacji chatbot DeepSeek, R1 nie będzie odpowiadać na pytania dotyczące Placu Tiananmen lub autonomii Tajwanu.
W marcu ruch na stronie internetowej DeepSeek przekroczył 16,5 miliona wizyt. Pomimo 25% spadku ruchu w porównaniu z lutym, DeepSeek zajął drugie miejsce pod względem dziennych wizyt, według Davida Carra, redaktora w Similarweb. Jednak liczba ta wciąż blednie w porównaniu z ChatGPT, który przekroczył 500 milionów aktywnych użytkowników tygodniowo w marcu.
Burzliwe Podejście do Krajobrazu AI
Model biznesowy DeepSeek pozostaje nieco zagadkowy. Firma wycenia swoje produkty i usługi znacznie poniżej wartości rynkowej, a niektóre nawet oferuje za darmo. Ponadto opierała się zewnętrznemu finansowaniu pomimo znacznego zainteresowania ze strony firm venture capital.
DeepSeek przypisuje swoją ekstremalną konkurencyjność kosztową przełomom w wydajności. Jednak niektórzy eksperci zakwestionowali dokładność danych dostarczonych przez firmę.
Niezależnie od tego, programiści przyjęli modele DeepSeek, które, choć nie są open source w tradycyjnym sensie, są dostępne na podstawie licencji zezwalających na komercyjne wykorzystanie. Według Clema Delangue, CEO Hugging Face, programiści na platformie stworzyli ponad 500 pochodnych modeli R1, gromadząc łącznie 2,5 miliona pobrań.
Sukces DeepSeek w walce z większymi, bardziej ugruntowanymi konkurentami został opisany jako zarówno "wywracający AI do góry nogami", jak i "przesadnie rozreklamowany". Osiągnięcia firmy były częściowo odpowiedzialne za 18% spadek ceny akcji Nvidii w styczniu i wywołały publiczną reakcję ze strony CEO OpenAI, Sama Altmana. W marcu biura Departamentu Handlu USA podobno zakazały DeepSeek na urządzeniach rządowych, według Reutersa.
Microsoft zintegrował DeepSeek ze swoją usługą Azure AI Foundry, platformą, która konsoliduje usługi AI dla przedsiębiorstw. Podczas telekonferencji Meta dotyczącej wyników za pierwszy kwartał, CEO Mark Zuckerberg stwierdził, że inwestycje w infrastrukturę AI będą nadal "strategiczną przewagą" dla firmy, zapytany o potencjalny wpływ DeepSeek na wydatki Meta na AI. W marcu OpenAI określił DeepSeek jako "subsydiowany przez państwo" i "kontrolowany przez państwo", zalecając, aby rząd USA rozważył zakazanie jego modeli.
Podczas telekonferencji Nvidii dotyczącej wyników za czwarty kwartał, CEO Jensen Huang podkreślił "doskonałą innowacyjność" DeepSeek, zauważając, że jej modele rozumowania wymagają znacznie większej mocy obliczeniowej, co przynosi korzyści Nvidii.
Odwrotnie, niektóre firmy, kraje i rządy, w tym Korea Południowa i stan Nowy Jork, zakazały używania DeepSeek na urządzeniach rządowych.
W maju wiceprzewodniczący i prezes Microsoftu, Brad Smith, zeznał przed Senatem, że pracownicy Microsoftu mają zakaz używania DeepSeek ze względu na obawy dotyczące bezpieczeństwa danych i potencjalnej propagandy.
Niepewna Przyszłość DeepSeek
Przyszła trajektoria DeepSeek pozostaje niepewna. Chociaż oczekuje się dalszych ulepszeń modelu, rząd USA wydaje się coraz bardziej zaniepokojony postrzeganym szkodliwym wpływem zagranicznym. W marcu The Wall Street Journal poinformował, że USA prawdopodobnie zakazają DeepSeek na urządzeniach rządowych.
Gwałtowny wzrost DeepSeek niezaprzeczalnie wstrząsnął fundamentami branży AI, powodując ponowną ocenę dynamiki konkurencyjnej i potencjału innowacji zakłócających. To, czy uda jej się utrzymać obecne tempo w obliczu rosnącej kontroli i wyzwań regulacyjnych, pozostaje do zobaczenia. Nadchodzące lata będą miały kluczowe znaczenie dla określenia długoterminowego wpływu DeepSeek na globalny krajobraz AI. Jego zdolność do poruszania się w złożonej interakcji postępu technologicznego, względów geopolitycznych i obaw etycznych ostatecznie zdefiniuje jego dziedzictwo. Świat AI będzie uważnie obserwował.
Historia DeepSeek przypomina, że w szybko rozwijającym się świecie sztucznej inteligencji nowi gracze mogą pojawić się szybko i rzucić wyzwanie ustalonemu porządkowi. Sukces firmy, napędzany innowacyjną technologią i chęcią zakłócania tradycyjnych modeli biznesowych, zmusił branżę do zwrócenia uwagi. W miarę jak DeepSeek nadal rozwija się i rozszerza swój zasięg, niewątpliwie odegra znaczącą rolę w kształtowaniu przyszłości AI.