Високите залози в глобалната надпревара за AI хардуер
Пейзажът на развитието на изкуствения интелект все повече се определя не само от алгоритмични пробиви, но и от достъпа до сложния хардуер, необходим за обучение и работа на масивни модели. В основата на това хардуерно уравнение стои графичният процесор (GPU), компонент, първоначално проектиран за рендиране на изображения, но сега незаменим за изискванията за паралелна обработка на AI. Години наред Nvidia Corporation беше безспорният титан в тази област, като нейните усъвършенствани GPU се превърнаха в златен стандарт, захранващ иновациите в Silicon Valley и извън нея. Тази доминация обаче постави компанията и нейните клиенти директно под прицела на геополитическото напрежение.
Налагането на строг експортен контрол от страна на Washington, целящ да ограничи достъпа на Китай до най-съвременните полупроводникови технологии, фундаментално прекрои пазара. Тези ограничения са насочени конкретно към високопроизводителни GPU, като тези, произведени от Nvidia, считани за критични за напреднали AI приложения, включително такива с потенциална военна употреба. Непосредственият ефект беше надпревара в процъфтяващия технологичен сектор на Китай. Компаниите, силно инвестирани в AI, от утвърдени гиганти до амбициозни стартъпи, се изправиха пред внезапната перспектива да бъдат отрязани от основните инструменти, движещи следващата вълна на технологичен прогрес. Това създаде спешна необходимост: да се намерят жизнеспособни алтернативи или да се рискува изоставане в глобално конкурентна област. Предизвикателството не беше просто да се замени един чип с друг; то включваше навигация в сложна мрежа от разлики в производителността, проблеми със софтуерната съвместимост и мащаба, необходим за обучение на модели със стотици милиарди или дори трилиони параметри.
Ant Group начертава курс към изчислителна независимост
На фона на тази несигурност във веригата на доставки и ескалиращото технологично съперничество, Ant Group, финтех гигантът, свързан с Alibaba Group Holding, сигнализира за значителна крачка към по-голяма изчислителна самодостатъчност. Скорошни разкрития, подробно описани в изследователска статия от екипа Ling на компанията – подразделението, което ръководи нейните инициативи за големи езикови модели (LLM) – показват успешно отклонение от пътя, ориентиран към Nvidia. Ядрото на това постижение се крие в способността им ефективно да обучават сложен AI модел, използвайки местно произведени GPU.
Въпросният модел, наречен Ling-Plus-Base, не е лека категория. Той е проектиран с помощта на архитектура Mixture-of-Experts (MoE), техника, набираща популярност заради ефективността си при мащабиране на LLM. С внушителните 300 милиарда параметри, Ling-Plus-Base оперира в лига, сравнима с други видни глобални модели. Решаващият диференциатор обаче е хардуерът, който стои в основата на неговото обучение. Според резултатите от изследването, този мощен модел може да бъде развит до зрялост върху това, което екипът описва като “устройства с по-ниска производителност”. Тази внимателно подбрана фраза сочи директно към използването на процесорни единици, които попадат извън обхвата на американските експортни ограничения, силно намеквайки за използването на чипове, проектирани и произведени в Китай.
Това развитие е повече от просто техническо заобикаляне; то представлява потенциален стратегически обрат. Демонстрирайки способността да обучава най-съвременни модели, без да разчита изключително на най-високия клас ограничен чуждестранен хардуер, Ant Group не само смекчава рисковете във веригата на доставки, но и потенциално отключва значителни икономии на разходи.
Икономическото уравнение: Намаляване на разходите за обучение
Една от най-убедителните цифри, произтичащи от изследването на екипа Ling, е докладваното 20-процентно намаление на изчислителните разходи по време на критичната фаза на предварително обучение (pre-training) на модела Ling-Plus-Base. Предварителното обучение е известно с интензивното си използване на ресурси, включващо захранване на модела с огромни набори от данни, за да научи езикови модели, контекст и знания. То представлява основна част от общите разходи, свързани с разработването на основополагащи LLM. Постигането на намаление на разходите с една пета в тази фаза следователно се превръща в значителни спестявания, потенциално освобождавайки капитал за по-нататъшни изследвания, разработки или внедряване в голям мащаб.
Как се постига това спестяване на разходи? Въпреки че статията не детайлизира точната разбивка на разходите, няколко фактора вероятно допринасят:
- Доставка на хардуер: Местно произведените GPU, дори и да са по-малко мощни индивидуално от топ предложенията на Nvidia, може да се предлагат на по-ниска покупна цена или да предлагат по-изгодни отстъпки за обем на китайския пазар, особено като се има предвид ограниченото предлагане на висок клас чипове Nvidia.
- Енергийна ефективност: Макар и да не е изрично посочено, оптимизирането на обучението за потенциално по-малко енергоемки (макар и може би с по-ниска производителност на единица) местни чипове би могло да допринесе за по-ниски оперативни разходи за енергия, значителен фактор при работата на големи центрове за данни.
- Алгоритмична и архитектурна оптимизация: Използването на самата MoE архитектура е ключово. MoE моделите активират само специфични “експертни” подмрежи за даден вход, вместо да ангажират целия модел като плътните архитектури. Тази присъща рядкост (sparsity) може значително да намали изчислителното натоварване както по време на обучение, така и по време на извод (inference), което прави възможно постигането на добри резултати дори с по-малко сурова изчислителна мощност на чип. Успехът на Ant предполага сложна софтуерна и алгоритмична настройка за максимизиране на ефективността на наличния местен хардуер.
Това намаляване на разходите не е просто счетоводна полза; то понижава бариерата за навлизане в разработването на мащабни модели и би могло да ускори темпото на AI иновациите в рамките на компанията и потенциално в по-широката китайска технологична екосистема, ако методите се окажат възпроизводими.
Паритет в производителността: Преодоляване на хардуерната пропаст?
Спестяването на разходи е привлекателно, но означава малко, ако полученият AI модел се представя значително по-зле. Екипът Ling на Ant адресира това директно, твърдейки, че Ling-Plus-Base постига производителност, сравнима с други добре оценени модели в областта. По-конкретно, те сравняват своето творение с модели като Qwen2.5-72B-Instruct (разработен от компанията майка Alibaba) и DeepSeek-V2.5-1210-Chat, друг виден китайски LLM.
Твърдението за “сравнима производителност” въпреки използването на “устройства с по-ниска производителност” е забележително. То предполага, че Ant потенциално е намерила ефективни начини да компенсира всеки суров изчислителен дефицит чрез:
- Усъвършенствана архитектура на модела: Дизайнът MoE е инструментален тук, ефективно разпределяйки работното натоварване.
- Софтуерна оптимизация: Приспособяването на софтуерния стек за обучение (като рамки за паралелизация и числови библиотеки) специално за архитектурата на използваните местни GPU е от решаващо значение. Това често включва значителни инженерни усилия.
- Куриране на данни и техники за обучение: Сложните методи за избор на данни за обучение и усъвършенстване на самия процес на обучение могат значително да повлияят на крайното качество на модела, понякога компенсирайки хардуерните ограничения.
Важно е да се подхожда към твърденията за производителност с нюанс. “Сравним” може да обхваща редица резултати в различни бенчмаркове (напр. разбиране на език, разсъждение, генериране, кодиране). Без достъп до подробни резултати от бенчмаркове в множество стандартизирани тестове, точното сравнение остава предизвикателство. Самото твърдение обаче сигнализира за увереността на Ant, че нейният подход не налага осакатяващ компромис между цена/достъпност и възможности. То демонстрира път към поддържане на конкурентоспособност дори в рамките на ограниченията, наложени от хардуерните рестрикции.
Самите изследователи подчертаха по-широките последици: “Тези резултати демонстрират осъществимостта на обучението на най-съвременни мащабни MoE модели на по-малко мощен хардуер, позволявайки по-гъвкав и рентабилен подход към разработването на основополагащи модели по отношение на избора на изчислителни ресурси.” Това сочи към своеобразна демократизация, позволяваща на най-модерното AI развитие да продължи дори когато достъпът до абсолютния връх на изчислителната мощ е ограничен.
Разбиране на предимството на Mixture-of-Experts (MoE)
Архитектурата Mixture-of-Experts е централна за докладвания успех на Ant Group. Тя представлява отклонение от традиционните “плътни” модели на невронни мрежи, където всеки вход активира всеки параметър. В MoE модел:
- Моделът се състои от множество по-малки, специализирани “експертни” мрежи.
- Механизъм на “гейтинг мрежа” или “рутер” се научава да насочва входящите данни (токени, в случая на LLM) към най-подходящия(те) експерт(и) за обработка.
- Само избраният(те) експерт(и) – често само един или двама от потенциално стотици – извършват изчисления за този конкретен фрагмент данни.
Този подход предлага няколко ключови предимства, особено релевантни в контекста на хардуерните ограничения:
- Мащабируемост: MoE позволява на моделите да растат до огромен брой параметри (трилиони стават осъществими) без пропорционално увеличение на изчислителните разходи за обработка на всеки входен токен по време на извод или дори по време на стъпките на обучение. Това е така, защото само част от общите параметри са активни във всеки даден момент.
- Ефективност на обучението: Докато обучението на MoE модели има своите сложности (като балансиране на натоварването между експертите), намаленото изчисление на токен може да се превърне в по-бързо време за обучение или, както демонстрира Ant, способността да се обучава ефективно на по-малко мощен хардуер в разумни срокове.
- Специализация: Всеки експерт може потенциално да се специализира в различни типове данни, задачи или области на знание, което потенциално води до по-високо качество на резултатите в специфични области.
Водещи AI лаборатории по света са възприели MoE, включително Google (GShard, Switch Transformer), Mistral AI (модели Mixtral) и в Китай, компании като DeepSeek и Alibaba (чиито модели Qwen включват MoE елементи). Ling-Plus-Base на Ant твърдо я поставя в този авангард, използвайки архитектурни иновации за навигация в хардуерните реалности.
Местната хардуерна екосистема: Запълване на празнината от Nvidia
Докато изследователската статия на Ant се въздържа от изрично назоваване на използвания хардуер, последващи репортажи, по-специално от Bloomberg, посочиха, че постижението включва чипове, проектирани на местно ниво. Това включва процесори, потенциално произхождащи от филиала на Ant, Alibaba, който има собствено звено за проектиране на чипове T-Head (произвеждащо CPU като Yitian 710 и преди това изследващо AI ускорители), и решаващо, Huawei Technologies.
Huawei, въпреки че самата тя е изправена пред интензивни американски санкции, агресивно разработва своята серия AI ускорители Ascend (като Ascend 910B) като пряка алтернатива на предложенията на Nvidia на китайския пазар. Съобщава се, че тези чипове се възприемат от големи китайски технологични фирми. Способността на Ant Group ефективно да използва такъв хардуер за модел, голям колкото Ling-Plus-Base, би представлявала значително валидиране на тези местни алтернативи.
Ключово е да се отбележи, че Ant Group не е изоставила напълно Nvidia. Докладите предполагат, че чиповете на Nvidia остават част от инструментариума за AI развитие на Ant, вероятно използвани за задачи, където техните специфични характеристики на производителност или зряла софтуерна екосистема (като CUDA) предлагат предимства, или за наследени системи. Ходът не е непременно за пълна подмяна за една нощ, а за изграждане на жизнеспособни, паралелни пътища, които намаляват стратегическата уязвимост и контролират разходите. Този хибриден подход позволява на компанията да използва най-добрите налични инструменти, докато култивира независимост. Самата Ant Group запази известна степен на корпоративна дискретност, отказвайки да коментира официално конкретните използвани чипове.
По-широка тенденция: Колективният тласък на Китай към AI самодостатъчност
Инициативата на Ant Group не се случва изолирано. Тя отразява по-широк стратегически тласък в технологичния сектор на Китай за иновации около ограниченията, наложени от американския експортен контрол. “Технологичната война” катализира усилията за постигане на по-голяма самодостатъчност в критични технологии, особено полупроводници и AI.
Други големи играчи преследват подобни цели:
- ByteDance: Компанията майка на TikTok също съобщава, че работи за осигуряване и използване на алтернативни чипове, включително местни опции, за своите AI амбиции, които обхващат алгоритми за препоръки, генеративен AI и др.
- DeepSeek: Този AI стартъп, известен със своите мощни модели с отворен код, изрично споменава ефективността на обучението и е разработил модели, използващи архитектурата MoE, съответстващи на стратегии, които са по-малко зависими от наличието на огромни флотилии само от най-мощните GPU.
- Baidu, Tencent и други: Всички големи китайски облачни и технологични компании инвестират сериозно в AI и неизбежно изследват стратегии за диверсификация на хардуера, включително оптимизиране за местни чипове и потенциално разработване на собствени персонализирани силициеви чипове.
Колективното послание е ясно: докато достъпът до продуктите от най-висок клас на Nvidia остава желан, китайската технологична индустрия активно разработва и валидира алтернативни решения. Това включва многостранен подход: възприемане на ефективни архитектури на модели като MoE, интензивна софтуерна оптимизация за различни хардуерни бекенди и подкрепа за разработването и приемането на местно произведени чипове.
Отвъд езиковите модели: AI експанзията на Ant в здравеопазването
AI начинанията на Ant Group се простират отвъд основополагащите LLM. Едновременно с новините за ефективността на обучението, компанията представи значителни подобрения на своя пакет от AI решения, пригодени за сектора на здравеопазването. Тази инициатива използва отделен, самостоятелно разработен AI модел, ориентиран към здравеопазването.
Обновените решения разполагат с мултимодални възможности (обработка на различни типове данни като текст, изображения и потенциално други медицински данни) и усъвършенствано медицинско разсъждение. Те са интегрирани в това, което Ant описва като “машини всичко-в-едно”, вероятно устройства или платформи, предназначени за клинични условия или управление на здравето.
Макар и привидно отделно от новините за Ling-Plus-Base LLM, има потенциална скрита връзка. Способността да се обучават мощни AI модели по-рентабилно, потенциално използвайки комбинация от хардуер, включително местни опции, би могла да подкрепи икономическата жизнеспособност на разработването и внедряването на специализирани модели за сектори като здравеопазването. Намаляването на основополагащите разходи за AI развитие позволява ресурсите да бъдат насочени към специфични за домейна приложения, потенциално ускорявайки внедряването на практически AI инструменти в критични индустрии. Този тласък в здравеопазването подчертава амбицията на Ant да прилага своя AI опит широко, излизайки извън своите финтех корени.
Последици за бъдещето: Разклонение в пътя на AI?
Успешното обучение от страна на Ant Group на мащабен MoE модел с помощта на не-Nvidia, вероятно местни, GPU носи значителни последици:
- Валидиране за местни чипове: Служи като решаващо доказателство за жизнеспособността на проектирани в Китай AI ускорители като Ascend на Huawei, потенциално засилвайки тяхното приемане в Китай.
- Конкурентен пейзаж: Демонстрира, че китайските компании могат да останат конкурентоспособни в най-модерното AI развитие въпреки ограниченията, използвайки архитектурни и софтуерни иновации.
- Динамика на разходите: 20% намаление на разходите подчертава потенциално конкурентно предимство за компаниите, способни ефективно да използват алтернативен хардуер, потенциално влияейки върху глобалните цени и достъпност на AI.
- Позицията на Nvidia: Докато Nvidia остава доминираща в световен мащаб, тази тенденция подчертава предизвикателствата, пред които е изправена на значителния китайски пазар поради регулациите и възхода на местните конкуренти. Това може да ускори разработването от Nvidia на съвместими с износа чипове, пригодени за Китай, но също така валидира алтернативния път.
- Технологична бифуркация?: В дългосрочен план продължаващото разминаване в достъпа до хардуер и софтуерната оптимизация може да доведе до частично различни AI екосистеми, с модели и инструменти, оптимизирани за различен базов силиций.
Пътуването, предприето от екипа Ling на Ant Group, е емблематично за находчивостта, стимулирана от геополитическите ограничения. Чрез умело комбиниране на усъвършенствани архитектури на модели като MoE с готовност за оптимизиране и използване на наличен местен хардуер, те начертаха курс, който гарантира непрекъснат напредък в критичната област на изкуствения интелект, потенциално прекроявайки структурите на разходите и стратегическите зависимости, които определят индустрията. Това е свидетелство за идеята, че иновациите често процъфтяват най-жизнено под натиск.