DeepSeek Dzień Drugi: AI dla firm

Przejście w kierunku adopcji AI przez przedsiębiorstwa

DeepSeek, wschodzący chiński startup zajmujący się sztuczną inteligencją, robi furorę dzięki znacznie przecenionym modelom fundamentowym. Ten ruch ma potencjał zrewolucjonizowania adopcji AI dla firm, rozwiązując jedną z najistotniejszych barier: koszt.

Wysoki koszt adopcji AI

Według analityków Brada Sillsa i Carly Liu z BofA Global Research, koszty związane z aplikacjami AI są główną przeszkodą utrudniającą ich powszechne wdrażanie. Ich raport, opublikowany we wtorek, 28 stycznia, sugeruje, że przełom w redukcji kosztów może dodatkowo obniżyć ceny, prowadząc do zwiększenia wskaźników adopcji.

Ogłoszenie DeepSeek w poniedziałek, 27 stycznia, wywołało falę wstrząsów w branży AI, powodując spadek akcji kilku firm zajmujących się sztuczną inteligencją. Firma ujawniła swoją zdolność do trenowania modelu fundamentowego za jedyne 5,58 miliona dolarów przy użyciu 2048 chipów Nvidia H800. Ta liczba stoi w jaskrawym kontraście do szacowanych kosztów OpenAI i Anthropic, które wahają się od 100 milionów do miliarda dolarów i obejmują wykorzystanie tysięcy chipów AI firmy Nvidia.

Roy Benesh, CTO w eSIMple, podkreślił transformacyjny potencjał osiągnięcia DeepSeek, stwierdzając, że umożliwia on mniejszym firmom, indywidualnym programistom, a nawet badaczom wykorzystanie mocy AI bez ponoszenia wygórowanych kosztów. Ta zwiększona dostępność może sprzyjać rozwojowi innowacyjnych pomysłów i technologii, prowadząc do większej konkurencyjności w tej dziedzinie. W rezultacie klienci mogą korzystać z nowych opcji, podczas gdy ugruntowane firmy AI prawdopodobnie obniżą swoje ceny i przyspieszą postęp technologiczny.

Analitycy BofA podali przykłady kosztów związanych z istniejącymi aplikacjami AI. Microsoft’s 365 Copilot Chat pobiera od 1 centa do 30 centów za zapytanie, w zależności od złożoności żądania. Salesforce’s Agentforce for Service Cloud pobiera stałą stawkę 2 dolarów za konwersję.

Chociaż BofA przyznała, że ​​kwota 5,58 miliona dolarów przedstawiona przez DeepSeek jest nieco myląca ze względu na wyłączenie kosztów związanych z badaniami, eksperymentami, architekturami, algorytmami i danymi, analitycy podkreślili znaczenie innowacji startupu w zademonstrowaniu wykonalności mniej kosztownych metod szkoleniowych.

Pre-training vs. Inferencing: Zrozumienie kosztów

Fundamentowe modele AI, takie jak GPT-4o OpenAI i Gemini Google, przechodzą proces zwany pre-training, w którym są narażone na ogromne ilości danych, takich jak cały Internet, w celu rozwinięcia ogólnej wiedzy. Jednak aby te modele były bardziej odpowiednie i użyteczne dla konkretnych firm i branż, przedsiębiorstwa muszą je dalej trenować lub dostrajać, wykorzystując własne dane.

Gdy model AI zostanie dostrojony, może przetwarzać zapytania użytkowników i generować odpowiednie odpowiedzi. Jednak proces monitowania modelu i uzyskiwania odpowiedzi wiąże się z kosztami wnioskowania, które są opłatami związanymi z angażowaniem modelu w nowe dane w celu zrozumienia i analizy.

Należy pamiętać, że większość firm nie ponosi kosztów szkolenia modeli fundamentowych. Odpowiedzialność ta spoczywa na twórcach tych modeli, w tym OpenAI, Google, Meta, Amazon, Microsoft, Anthropic, Cohere, Hugging Face, Mistral AI, Stability AI, xAI, IBM, Nvidia, niektórych laboratoriach badawczych i chińskich gigantach technologicznych, takich jak Baidu i Alibaba.

Firmy ponoszą przede wszystkim koszty wnioskowania związane z przetwarzaniem obciążeń AI, które stanowią większość wydatków związanych z AI.

Chińskie połączenie: Koszty wnioskowania DeepSeek i obawy dotyczące prywatności

DeepSeek oferuje własne usługi wnioskowania po znacznie niższych kosztach w porównaniu z firmami z Doliny Krzemowej. Korzystając z tych usług, należy jednak pamiętać o pewnych kwestiach.

Zgodnie z polityką prywatności DeepSeek, informacje o użytkownikach są przechowywane na serwerach zlokalizowanych w Chinach. Firma oświadcza również, że będzie przestrzegać zobowiązań prawnych i wykonywać zadania w interesie publicznym lub w celu ochrony żywotnych interesów swoich użytkowników i innych osób.

Chińskie prawo o wywiadzie państwowym, a konkretnie artykuł 7, nakazuje wszystkim organizacjom i obywatelom wspieranie, pomaganie i współpracę z krajowymi działaniami wywiadowczymi zgodnie z prawem oraz ochronę tajnych informacji wywiadowczych, o których wiedzą.

Kevin Surace, CEO Appvance, wyraził obawy dotyczące prywatności, stwierdzając, że gromadzenie danych od użytkowników jest powszechną praktyką w Chinach. Doradził użytkownikom zachowanie ostrożności.

W eksperymencie przeprowadzonym przez PYMNTS chatbot DeepSeek został poproszony o wyjaśnienie, jak protesty na placu Tiananmen w 1989 r. wpłynęły na chińską politykę. Chatbot odpowiedział: “Przepraszam, nie jestem pewien, jak podejść do tego typu pytania”.

Tim Enneking, CEO w Presearch, zwrócił uwagę, że DeepSeek to firma w 100% należąca do Chin i zlokalizowana w Chinach. Zauważył, że niezdolność chatbota do udzielenia informacji na temat placu Tiananmen lub wysokich rangą urzędników chińskiego rządu sugeruje ograniczenia w obiektywności technologii. Chociaż Enneking docenił ekscytujący potencjał technologii, wyraził obawy dotyczące jej kontroli.

Jednak Enneking podkreślił również otwarty charakter modeli DeepSeek, który pozwala na wprowadzanie poprawek w celu usunięcia kontroli rządowych i korporacyjnych. Uważa, że ​​kreatywność inżynieryjna firmy stwarza możliwości dla mniejszych firm i krajów, aby uczestniczyć i odnosić sukcesy w krajobrazie generatywnej AI.

Potencjał DeepSeek do obniżenia kosztów wnioskowania dla wszystkich

Innowacyjne podejście DeepSeek do trenowania modeli fundamentowych przy niższych kosztach ma pozytywne implikacje dla firm takich jak Microsoft, które mogą nadal obniżać koszty przetwarzania AI i zwiększać skalę. Według Sillsa i Liu, niższe koszty przetwarzania mogą prowadzić do poprawy marż na ofertach opartych na AI.

W oddzielnej nocie badawczej analitycy BofA, Alkesh Shah, Andrew Moss i Brad Sills, zasugerowali, że niższe koszty obliczeń AI mogą umożliwić szersze usługi AI w różnych sektorach, od samochodów po smartfony.

Chociaż jest mało prawdopodobne, aby twórcy modeli fundamentowych, tacy jak OpenAI, od razu osiągnęli koszty szkolenia tak niskie jak DeepSeek, analitycy uważają, że innowacyjne techniki szkoleniowe i post-treningowe DeepSeek zostaną przyjęte przez konkurencyjnych twórców modeli granicznych w celu zwiększenia wydajności. Podkreślają jednak, że obecne modele nadal będą wymagały znacznych inwestycji, ponieważ stanowią podstawę dla agentów AI.

W dłuższej perspektywie analitycy przewidują przyspieszone wdrażanie AI przez przedsiębiorstwa, ponieważ chatboty, copiloty i agenci stają się zarówno mądrzejsi, jak i tańsi, co jest zjawiskiem znanym jako paradoks Jevonsa.

Dyrektor generalny Microsoftu, Satya Nadella, powtórzył to zdanie na X, stwierdzając, że paradoks Jevonsa wchodzi w grę, ponieważ AI staje się bardziej wydajna i dostępna. Uważa, że ​​doprowadzi to do gwałtownego wzrostu wykorzystania AI, przekształcając ją w towar, którego nie możemy mieć dość.

Głębsze zanurzenie w modelach fundamentowych i ich wpływie

Modele fundamentowe, stanowiące trzon współczesnej AI, rewolucjonizują sposób, w jaki firmy działają i wchodzą w interakcje z technologią. Modele te, trenowane na ogromnych zbiorach danych, posiadają zdolność wykonywania szerokiego zakresu zadań, od przetwarzania języka naturalnego po rozpoznawanie obrazów. Jednak rozwój i wdrażanie tych modeli wiąże się ze złożonym współdziałaniem czynników, w tym kosztów szkolenia, kosztów wnioskowania, prywatności danych i kwestii etycznych.

Zrozumienie modeli fundamentowych

U podstaw modele fundamentowe to duże sieci neuronowe trenowane na ogromnych zbiorach danych. Ten proces treningowy pozwala im uczyć się wzorców i relacji w danych, umożliwiając im wykonywanie różnorodnych zadań z niezwykłą dokładnością. Niektóre przykłady modeli fundamentowych obejmują:

  • GPT-4o: Potężny model językowy opracowany przez OpenAI, zdolny do generowania tekstu o jakości ludzkiej, tłumaczenia języków i odpowiadania na pytania w kompleksowy sposób.
  • Google’s Gemini: Multimodalny model AI, który może przetwarzać i rozumieć różne rodzaje danych, w tym tekst, obrazy i dźwięk.

Modele te nie ograniczają się do konkretnych zadań, ale można je dostosować do szerokiego zakresu zastosowań, co czyni je wszechstronnymi narzędziami dla firm.

Rola pre-trainingu i fine-tuningu

Rozwój modelu fundamentowego zazwyczaj obejmuje dwa kluczowe etapy: pre-training i fine-tuning.

  • Pre-training: Na tym etapie model jest trenowany na ogromnym zbiorze danych, takim jak cały Internet, aby nauczyć się ogólnej wiedzy i umiejętności językowych. Proces ten wyposaża model w zdolność rozumienia i generowania tekstu, tłumaczenia języków i wykonywania innych podstawowych zadań.
  • Fine-tuning: Na tym etapie wstępnie wytrenowany model jest dalej trenowany na mniejszym, bardziej szczegółowym zbiorze danych związanym z konkretnym zadaniem lub branżą. Proces ten pozwala modelowi dostosować swoją wiedzę i umiejętności do specyficznych potrzeb aplikacji.

Na przykład wstępnie wytrenowany model językowy można dostroić na zbiorze danych interakcji z obsługą klienta, aby stworzyć chatbota, który może skutecznie odpowiadać na zapytania klientów.

Koszt szkolenia i wnioskowania

Koszty związane z modelami fundamentowymi można podzielić na dwie główne kategorie: koszty szkolenia i koszty wnioskowania.

  • Koszty szkolenia: Koszty te obejmują zasoby obliczeniowe, dane i wiedzę specjalistyczną wymaganą do trenowania modelu fundamentowego. Trenowanie dużego modelu fundamentowego może być niezwykle kosztowne, często wymagając inwestycji rzędu milionów dolarów.
  • Koszty wnioskowania: Koszty te obejmują zasoby obliczeniowe wymagane do użycia wytrenowanego modelu do tworzenia prognoz lub generowania wyników. Koszty wnioskowania mogą się różnić w zależności od wielkości i złożoności modelu, ilości przetwarzanych danych i używanej infrastruktury.

Innowacja DeepSeek polega na jego zdolności do znacznego obniżenia kosztów szkolenia związanych z modelami fundamentowymi, czyniąc je bardziej dostępnymi dla szerszego zakresu firm i organizacji.

Rozwiązywanie problemów związanych z prywatnością i etyką

Wykorzystanie modeli fundamentowych rodzi ważne pytania dotyczące prywatności danych i kwestii etycznych. Modele fundamentowe są trenowane na ogromnych zbiorach danych, które mogą zawierać poufne lub osobiste informacje. Kluczowe jest zapewnienie, że modele te są wykorzystywane w sposób odpowiedzialny i etyczny, z poszanowaniem prywatności użytkowników i unikaniem stronniczości.

Niektóre strategie rozwiązywania tych problemów obejmują:

  • Anonimizacja danych: Usuwanie lub maskowanie danych osobowych z danych treningowych w celu ochrony prywatności użytkowników.
  • Wykrywanie i łagodzenie stronniczości: Identyfikacja i rozwiązywanie problemów związanych z stronniczością w danych treningowych w celu zapewnienia, że ​​model nie utrwala szkodliwych stereotypów lub dyskryminacyjnych praktyk.
  • Przejrzystość i odpowiedzialność: Dostarczanie jasnych informacji o tym, jak model działa i jak jest używany, oraz ustanowienie mechanizmów odpowiedzialności w przypadku błędów lub niezamierzonych konsekwencji.

W miarę jak modele fundamentowe stają się coraz bardziej powszechne, istotne jest proaktywne rozwiązywanie problemów związanych z prywatnością i etyką, aby zapewnić, że są one wykorzystywane z korzyścią dla społeczeństwa.

Przyszłość modeli fundamentowych

Modele fundamentowe szybko ewoluują, a ich potencjalny wpływ na społeczeństwo jest ogromny. W przyszłości możemy się spodziewać:

  • Bardziej wydajne i wszechstronne modele: W miarę jak badacze będą nadal opracowywać nowe architektury i techniki treningowe, modele fundamentowe staną się jeszcze bardziej wydajne i wszechstronne, zdolne do wykonywania szerszego zakresu zadań z większą dokładnością.
  • Zwiększona dostępność: W miarę jak koszty szkolenia spadają, a platformy AI oparte na chmurze stają się bardziej powszechne, modele fundamentowe staną się bardziej dostępne dla firm każdej wielkości.
  • Nowe aplikacje i przypadki użycia: Modele fundamentowe będą nadal stosowane w nowych i innowacyjnych przypadkach użycia w różnych branżach, od opieki zdrowotnej po finanse i edukację.

Powstanie modeli fundamentowych stanowi zmianę paradygmatu w dziedzinie sztucznej inteligencji. Rozumiejąc ich możliwości, koszty i kwestie etyczne, możemy wykorzystać ich moc do stworzenia lepszej przyszłości.

Wkład DeepSeek w demokratyzację AI

Osiągnięcie DeepSeek w znacznym obniżeniu kosztów szkolenia modeli fundamentowych oznacza przełomowy moment w demokratyzacji AI. Obniżając barierę wejścia, DeepSeek umożliwia szerszemu zakresowi organizacji i osób uczestniczenie w rewolucji AI.

Wpływ na mniejsze firmy

Mniejszym firmom często brakuje zasobów i wiedzy specjalistycznej, aby opracowywać i wdrażać własne modele AI. Opłacalne modele fundamentowe DeepSeek zapewniają tym firmom dostęp do najnowocześniejszej technologii AI, która wcześniej była poza ich zasięgiem. Może to wyrównać szanse, umożliwiając mniejszym firmom skuteczniejszą konkurencję z większymi, bardziej ugruntowanymi firmami.

Na przykład mała firma e-commerce mogłaby wykorzystać modele DeepSeek do personalizacji rekomendacji produktów dla swoich klientów, poprawy obsługi klienta lub automatyzacji kampanii marketingowych.

Upodmiotowienie indywidualnych programistów

Modele DeepSeek upodmiotowują również indywidualnych programistów i badaczy, aby odkrywali nowe aplikacje AI i innowacje. Dzięki dostępowi do przystępnych cenowo modeli fundamentowych programiści mogą eksperymentować z różnymi pomysłami, opracowywać nowe narzędzia oparte na AI i przyczyniać się do rozwoju technologii AI.

Może to prowadzić do gwałtownego wzrostu innowacji, ponieważ więcej osób ma możliwość uczestniczenia w rozwoju AI.

Potencjał współpracy open-source

Podejście open-source DeepSeek dodatkowo promuje współpracę i innowacje w społeczności AI. Udostępniając swoje modele publicznie, DeepSeek zachęca programistów do wnoszenia wkładu w ich ulepszanie, identyfikowanie i naprawianie błędów oraz opracowywanie nowych funkcji.

To oparte na współpracy podejście może przyspieszyć rozwój technologii AI i zapewnić, że będzie ona wykorzystywana z korzyścią dla wszystkich.

Przyspieszenie adopcji AI

Obniżając koszty AI, DeepSeek przyspiesza adopcję AI w różnych branżach. W miarę jak AI staje się bardziej przystępna cenowo i dostępna, więcej firm będzie mogło zintegrować ją ze swoimi operacjami, prowadząc do zwiększenia produktywności, wydajności i innowacji.

Może to mieć głęboki wpływ na globalną gospodarkę, napędzając wzrost i tworząc nowe możliwości.

Bardziej inkluzywny ekosystem AI

Wysiłki DeepSeek na rzecz demokratyzacji AI przyczyniają się do stworzenia bardziej inkluzywnego ekosystemu AI, w którym więcej osób ma możliwość uczestniczenia w rozwoju i wykorzystywaniu AI. Może to pomóc w zapewnieniu, że AI będzie wykorzystywana w sposób, który przynosi korzyści wszystkim członkom społeczeństwa, a nie tylko nielicznym wybranym.

Umożliwiając mniejszym firmom, indywidualnym programistom i badaczom, DeepSeek wspiera bardziej zróżnicowany i innowacyjny krajobraz AI.