DeepSeek: Възходът на китайски AI гигант | bg

DeepSeek, име, което бързо се издигна от относителна неизвестност до централна точка в глобалния AI разговор, предизвика интензивен дебат и спекулации в технологичния и финансовия сектор. Китайската AI лаборатория, стояща зад тази разрастваща се сила, наруши установения ред, подтиквайки анализаторите да поставят под въпрос устойчивостта на доминацията на САЩ в AI надпреварата и дългосрочната жизнеспособност на текущото търсене на AI чипове. Но кои са ключовите фактори, които изтласкаха DeepSeek до настоящата ѝ известност?

Произходът на DeepSeek: От Хедж Фонд до AI Лаборатория

Произходът на DeepSeek е тясно преплетен със света на количествените финанси. Тя е подкрепена от High-Flyer Capital Management, китайски хедж фонд, известен с използването си на AI при вземането на решения за търговия, базирани на данни.

Liang Wenfeng, AI ентусиаст с опит в търговията по време на престоя си в Zhejiang University, съосновава High-Flyer през 2015 г. През 2019 г. той стартира High-Flyer Capital Management като хедж фонд с особен акцент върху разработването и внедряването на AI алгоритми за финансови приложения.

През 2023 г. High-Flyer инкубира DeepSeek като специализирана AI изследователска лаборатория, функционираща независимо от основния си финансов бизнес. Впоследствие, с High-Flyer като ключов инвеститор, лабораторията беше отделена в отделен субект, запазвайки името DeepSeek.

От самото си начало DeepSeek приоритизира създаването на собствени клъстери от центрове за данни, за да улесни обучението на модели. Въпреки това, подобно на други AI компании, опериращи в Китай, DeepSeek се сблъска с предизвикателства поради експортните ограничения на САЩ върху усъвършенствания хардуер. Следователно, за да обучи по-новите си модели, компанията трябваше да прибегне до използването на Nvidia H800 чипове, по-слаб вариант на H100 чиповете, които са лесно достъпни за компаниите в САЩ.

Техническият екип на DeepSeek е известен със своята младост и динамизъм. Компанията активно набира докторанти по AI от водещи китайски университети. Освен това, DeepSeek наема лица от различен произход, дори и такива без експертиза в компютърните науки, за да гарантира, че нейната технология може ефективно да разбере и да се погрижи за широк кръг от теми, както съобщава The New York Times. Това е стратегически ход, който им позволява да подходят към AI от многостранна гледна точка, като включват знания от различни дисциплини.

AI Моделите на DeepSeek: Предизвикателство към Статуквото

DeepSeek представи първоначалния си пакет от модели – DeepSeek Coder, DeepSeek LLM и DeepSeek Chat – през ноември 2023 г. Въпреки това, именно пускането на следващото поколение DeepSeek-V2 фамилия от модели през пролетта наистина привлече вниманието на AI индустрията.

DeepSeek-V2, универсална система, способна да анализира както текст, така и изображения, демонстрира впечатляваща производителност в различни AI бенчмаркове. Забележително е, че тя постигна тази производителност на значително по-ниска цена в сравнение с конкуриращите се модели, налични по това време. Това подтикна вътрешните съперници на DeepSeek, включително ByteDance и Alibaba, да намалят цените на някои от своите модели и да предложат други напълно безплатно. Тази агресивна ценова стратегия на DeepSeek оказа значителен натиск върху конкурентите и стимулира иновациите в индустрията.

DeepSeek V3 демонстрира превъзходна производителност в сравнение както със сваляеми, отворени модели като Llama на Meta, така и със "затворени" модели, достъпни само чрез API, като например GPT-4o на OpenAI. Това показва способността на DeepSeek да се конкурира с най-добрите в бранша, предлагайки конкурентно решение, което съчетава достъпност и висока производителност.

Също толкова забележителен е моделът на DeepSeek R1 "reasoning". Пуснат през януари, DeepSeek твърди, че R1 постига сравнима производителност с модела o1 на OpenAI на ключови бенчмаркове. Твърденията за производителност са посрещнати със скептицизъм от някои, но демонстрират амбицията на DeepSeek да се конкурира с установените играчи в AI сектора.

Като модел за разсъждения, R1 включва механизми за самоконтрол, смекчавайки някои от често срещаните клопки, свързани със стандартните модели. Докато моделите за разсъждения може да изискват малко по-дълго време за обработка, за да стигнат до решения (вариращи от секунди до минути), те обикновено показват по-голяма надеждност в области като физика, наука и математика. Това ги прави особено полезни за решаване на сложни проблеми, изискващи задълбочен анализ.

Въпреки това, моделите на DeepSeek, включително R1 и DeepSeek V3, са обект на надзор от страна на китайския интернет регулатор, който гарантира, че отговорите им са в съответствие с "основните социалистически ценности". Например, в приложението за чатбот на DeepSeek, R1 няма да отговаря на въпроси, свързани с площад Тянанмън или автономията на Тайван. Този политически контрол над AI моделите предизвиква безпокойство относно цензурата и потенциалните пристрастия.

През март, уебсайт трафикът на DeepSeek надхвърли 16.5 милиона посещения. Въпреки 25% спад в трафика в сравнение с февруари, DeepSeek се класира на второ място по отношение на дневните посещения, според David Carr, редактор в Similarweb. Въпреки това, тази цифра все още бледнее в сравнение с ChatGPT, който надхвърли 500 милиона седмични активни потребители през март.

Разрушителен Подход към AI Пейзажа

Бизнес моделът на DeepSeek остава донякъде енигматичен. Компанията оценява своите продукти и услуги значително под пазарната стойност и дори предлага някои безплатно. Освен това, тя се съпротивлява на външно финансиране въпреки значителния интерес от фирми за рисков капитал.

DeepSeek приписва своята изключителна конкурентоспособност на разходите на пробиви в ефективността. Въпреки това, някои експерти поставиха под въпрос точността на цифрите, предоставени от компанията. Въпреки това, ценовата политика на DeepSeek и отказа от външно финансиране са отличителни характеристики, които я отличават от много други AI компании.

Независимо от това, разработчиците са прегърнали моделите на DeepSeek, които, макар и да не са с отворен код в традиционния смисъл, са достъпни под разрешителни лицензи, които позволяват търговска употреба. Според Clem Delangue, главен изпълнителен директор на Hugging Face, разработчиците на платформата са създали над 500 производни модела на R1, натрупвайки общо 2.5 милиона изтегляния. Това демонстрира популярността и въздействието на моделите на DeepSeek върху AI общността.

Успехът на DeepSeek срещу по-големи, по-утвърдени конкуренти е описан както като "разрушаване на AI", така и като "прекалено раздут". Постиженията на компанията бяха отчасти отговорни за 18% спад в цената на акциите на Nvidia през януари и предизвикаха публичен отговор от главния изпълнителен директор на OpenAI Sam Altman. През март, бюра на Министерството на търговията на САЩ съобщиха, че са забранили DeepSeek на правителствени устройства, според Reuters. Това отразява нарастващото безпокойство в САЩ относно потенциалното влияние на DeepSeek.

Microsoft интегрира DeepSeek в своята услуга Azure AI Foundry, платформа, която консолидира AI услуги за предприятия. По време на разговора за приходите на Meta за първото тримесечие, главният изпълнителен директор Mark Zuckerberg заяви, че инвестициите в AI инфраструктура ще продължат да бъдат "стратегическо предимство" за компанията, когато беше попитан за потенциалното въздействие на DeepSeek върху AI разходите на Meta. През март, OpenAI обозначи DeepSeek като "държавно субсидиран" и "държавно контролиран", препоръчвайки на правителството на САЩ да обмисли забрана на нейните модели. Тези обвинения допълнително изостриха напрежението между САЩ и Китай в AI надпреварата.

По време на разговора за приходите на Nvidia за четвъртото тримесечие, главният изпълнителен директор Jensen Huang подчерта "отличните иновации" на DeepSeek, отбелязвайки, че нейните модели за разсъждения изискват значително повече изчислителна мощност, което е от полза за Nvidia. Това е показателно за взаимозависимостта между AI компаниите и производителите на хардуер.

Обратно, някои компании, държави и правителства, включително Южна Корея и щата Ню Йорк, са забранили използването на DeepSeek на правителствени устройства. Тези забрани са предизвикани от опасения за сигурността на данните и потенциалните връзки с китайското правителство.

През май, вицепрезидентът и президент на Microsoft Brad Smith свидетелства пред Сената, че на служителите на Microsoft е забранено да използват DeepSeek поради опасения относно сигурността на данните и потенциална пропаганда. Това е показателно за сериозността, с която Microsoft приема опасенията за сигурността, свързани с DeepSeek.

Несигурното Бъдеще на DeepSeek

Бъдещата траектория на DeepSeek остава несигурна. Докато се очакват по-нататъшни подобрения на модела, правителството на САЩ изглежда все по-предпазливо към възприеманото вредно чуждо влияние. През март, The Wall Street Journal съобщи, че САЩ вероятно ще забранят DeepSeek на правителствени устройства.

Бързото издигане на DeepSeek безспорно разтърси основите на AI индустрията, подтиквайки към преоценка на конкурентната динамика и потенциала за разрушителни иновации. Дали тя може да поддържа текущия си импулс пред нарастващия контрол и регулаторни предизвикателства, предстои да видим. Идващите години ще бъдат от решаващо значение за определяне на дългосрочното въздействие на DeepSeek върху глобалния AI пейзаж. Нейната способност да се ориентира в сложната взаимовръзка между технологичния напредък, геополитическите съображения и етичните опасения в крайна сметка ще определи нейното наследство. AI светът ще наблюдава отблизо.

Историята на DeepSeek е напомняне, че в бързо развиващия се свят на изкуствения интелект, нови играчи могат да се появят бързо и да предизвикат установения ред. Успехът на компанията, движен от иновативни технологии и готовност да разруши традиционните бизнес модели, принуди индустрията да обърне внимание. Тъй като DeepSeek продължава да се развива и да разширява обхвата си, тя несъмнено ще играе важна роля в оформянето на бъдещето на AI.

актуализирано на 2025-05-10

# LLM # AIGC # DeepSeek