Бързите темпове на иновации в AI технологията, илюстрирани от напредъка на DeepSeek, налагат фундаментална преоценка на това как конструираме центрове за данни, чипове и системи, за да осигурим необходимата изчислителна мощ. Инженерните иновации на DeepSeek значително намалиха разходите за AI изчисления, предизвиквайки по-широка дискусия за бъдещето на AI инфраструктурата.
Въпреки че DeepSeek може да не е разширил драстично границите на AI технологията, влиянието му върху AI пазара е дълбоко. Технологии като Mixture of Experts (MoE), Multi-Layer Attention (MLA) и Multi-Token Prediction (MTP) придобиха известност наред с DeepSeek. Въпреки че не всички от тези технологии са пионерски на DeepSeek, тяхното успешно изпълнение стимулира широкото им приемане. MLA, по-специално, се превърна в централна точка на дискусия в различни платформи, от крайни устройства до облачни изчисления.
MLA и предизвикателството на алгоритмичната иновация
Елад Раз, главен изпълнителен директор на NextSilicon, наскоро посочи, че докато MLA подобрява ефективността на паметта, тя може също да увеличи натоварването за разработчиците и да усложни прилагането на AI в производствени среди. Потребителите на GPU може да се наложи да се занимават с ‘ръчно кодиране’ за оптимизация на MLA. Този пример подчертава необходимостта от преосмисляне на внедряването на AI чипове и архитектури на инфраструктурата в ерата след DeepSeek.
За да разберем значението на MLA, е важно да разберем основните концепции на големите езикови модели (LLM). Когато генерират отговори на потребителски въводи, LLM разчитат в голяма степен на KV вектори – ключове и стойности – които позволяват на модела да се фокусира върху съответните данни. В механизмите за внимание моделът сравнява нови заявки с ключове, за да определи най-подходящото съдържание.
Елад Раз използва аналогия с книга, като ключът е като ‘заглавията на главите на книгата, посочващи за какво е всяка част, като стойността е по-подробни резюмета под тези заглавия. Така че, когато потребител въведе заявка, той изисква термин за търсене, за да помогне за генерирането на отговор. Той пита: ‘Под тази сюжетна линия коя глава е най-подходяща?’’
MLA компресира тези заглавия на глави (ключове) и резюмета (стойности), ускорявайки процеса на намиране на отговори и повишавайки ефективността. В крайна сметка MLA помага на DeepSeek да намали използването на памет с 5-13%. По-подробна информация можете да намерите в официалния документ на DeepSeek. Конференцията за разработчици на MediaTek дори обсъди поддръжката на MLA в техните Dimensity мобилни чипове, подчертавайки обширното влияние на DeepSeek.
Технологии като MLA представляват типични алгоритмични иновации в AI ерата. Въпреки това, бързите темпове на развитие на AI технологията водят до постоянен поток от иновации, което от своя страна създава нови предизвикателства, особено когато тези иновации са пригодени за конкретни платформи. В случая на MLA, потребителите на GPU, различни от NVIDIA, изискват допълнително ръчно кодиране, за да използват технологията.
Докато технологиите на DeepSeek демонстрират иновациите и стойността на AI ерата, хардуерът и софтуерът трябва да се адаптират към тези иновации. Според Елад Раз, тази адаптация трябва да сведе до минимум сложността за разработчиците и производствените среди. В противен случай цената на всяка иновация става непосилно висока.
Въпросът тогава става: ‘Какво се случва, ако следващата алгоритмична иновация не се преведе добре и просто на съществуващите архитектури?’
Конфликтът между дизайна на чипове и алгоритмичната иновация
През последните няколко години производителите на AI чипове последователно съобщават, че проектирането на големи AI чипове отнема поне 1-2 години. Това означава, че дизайнът на чипа трябва да започне доста преди пускането на чипа на пазара. Предвид бързия напредък в AI технологията, дизайнът на AI чипове трябва да бъде ориентиран към бъдещето. Фокусирането само върху текущите нужди ще доведе до остарели AI чипове, които не могат да се адаптират към най-новите иновации в приложенията.
Иновацията в алгоритмите за AI приложения сега се случва на седмична база. Както беше споменато в предишни статии, изчислителната мощ, необходима на AI моделите, за да постигнат същите възможности, намалява с 4-10 пъти годишно. Разходите за извод на AI модели, постигащи подобно качество на GPT-3, са намалели с 1200 пъти през последните три години. В момента модели с 2B параметри могат да постигнат същото ниво като 170B параметъра GPT-3 от вчера. Тази бърза иновация в горните слоеве на AI технологичния стек представлява значителни предизвикателства за традиционното планиране и проектиране на чип архитектурата.
Елад Раз смята, че индустрията трябва да признае иновации като DeepSeek MLA като норма за AI технологията. ‘Изчисленията от следващо поколение трябва не само да оптимизират днешните работни натоварвания, но и да се приспособят към бъдещи пробиви.’ Тази перспектива се прилага не само за чип индустрията, но и за цялата средна към ниска инфраструктура на AI технологичния стек.
‘DeepSeek и други иновации демонстрираха бързия напредък на алгоритмичната иновация’, каза Елад Раз. ‘Изследователите и учените по данни се нуждаят от по-гъвкави, устойчиви инструменти, за да стимулират нови прозрения и открития. Пазарът се нуждае от интелигентни, дефинирани от софтуер хардуерни изчислителни платформи, които позволяват на клиентите да ‘заместват’ съществуващите решения за ускоряване, като същевременно позволяват на разработчиците да прехвърлят работата си безболезнено.’
За да се справи с тази ситуация, индустрията трябва да проектира по-интелигентна, адаптивна и гъвкава изчислителна инфраструктура.
Гъвкавостта и ефективността често са противоречиви цели. Процесорите са много гъвкави, но имат значително по-ниска ефективност на паралелни изчисления от графичните процесори. Графичните процесори, със своята програмируемост, могат да бъдат по-малко ефективни от специализираните AI ASIC чипове.
Елад Раз отбеляза, че NVIDIA очаква AI центровете за данни да достигнат 600kW консумация на енергия скоро. За справка, 75% от стандартните корпоративни центрове за данни имат пикова консумация на енергия от само 15-20kW на rack. Независимо от потенциалните подобрения на ефективността в AI, това представлява значително предизвикателство за центровете за данни, изграждащи системи за изчислителна инфраструктура.
Според гледната точка на Елад Раз, настоящите графични процесори и AI ускорители може да не са достатъчни, за да отговорят на потенциалните изисквания на AI и High-Performance Computing (HPC). ‘Ако фундаментално не преосмислим как да подобрим ефективността на изчисленията, индустрията рискува да достигне физически и икономически граници. Тази стена ще има и странични ефекти, ограничавайки достъпа до AI и HPC за повече организации, възпрепятствайки иновациите дори с напредък в алгоритмите или традиционните GPU архитектури.’
Препоръки и изисквания за изчислителна инфраструктура от следващо поколение
Въз основа на тези наблюдения, Елад Раз предложи ‘четири стълба’ за определяне на изчислителна инфраструктура от следващо поколение:
(1) Plug-and-Play Replaceability: ‘Историята показва, че сложните архитектурни преходи, като миграцията от CPU към GPU, могат да отнемат десетилетия, за да бъдат напълно внедрени. Следователно, изчислителните архитектури от следващо поколение трябва да поддържат плавна миграция.’ За ‘plug-and-play’ заменяемост, Елад Раз предлага новите изчислителни архитектури да се поучат от екосистемите x86 и Arm, постигайки по-широко приемане чрез обратна съвместимост.
Съвременните дизайни също трябва да избягват да изискват от разработчиците да пренаписват големи количества код или да създават зависимости от конкретни доставчици. ‘Например, поддръжката за нововъзникващи технологии като MLA трябва да бъде стандартизирана, вместо да изисква допълнителни ръчни настройки, както е в случая с GPU, различни от NVIDIA. Системите от следващо поколение трябва да разбират и оптимизират нови работни натоварвания ‘извън кутията’, без да изискват ръчни модификации на кода или значителни корекции на API.’
(2) Адаптивна, оптимизация на производителността в реално време: Елад Раз смята, че индустрията трябва да се отдалечи от ускорители с фиксирана функция. ‘Индустрията трябва да надгражда върху интелигентни, дефинирани от софтуер хардуерни основи, които могат динамично да се самооптимизират по време на изпълнение.’
‘Чрез непрекъснато обучение от работни натоварвания, бъдещите системи могат да се настройват в реално време, максимизирайки използването и устойчивата производителност, независимо от конкретното работно натоварване на приложението. Тази динамична адаптивност означава, че инфраструктурата може да осигури последователна ефективност в реални сценарии, независимо дали става въпрос за HPC симулации, сложни AI модели или операции с векторни бази данни.’
(3) Мащабируема ефективност: ‘Чрез разделяне на хардуера и софтуера и фокусиране върху интелигентна оптимизация в реално време, бъдещите системи трябва да постигнат по-високо използване и по-ниска обща консумация на енергия. Това би направило инфраструктурата по-рентабилна и мащабируема, за да отговори на развиващите се изисквания на нови работни натоварвания.’
(4) Бъдещ дизайн: Тази точка съответства на ориентираното към бъдещето изискване за AI инфраструктура, особено дизайн на чипове. ‘Днешните авангардни алгоритми може да са остарели утре.’ ‘Независимо дали става въпрос за AI невронни мрежи или LLM модели, базирани на Transformer, изчислителната инфраструктура от следващо поколение трябва да бъде адаптивна, гарантирайки, че технологичните инвестиции на предприятията остават устойчиви за години напред.’
Тези предложения предлагат сравнително идеализирана, но провокираща мисълта перспектива. Тази насочваща методология трябва да се обмисли за бъдещото развитие на AI и HPC технологиите, дори ако някои присъщи противоречия остават дългогодишни проблеми в индустрията. ‘За да отключим потенциала на AI, HPC и други бъдещи изчислителни и интензивни към данни работни натоварвания, трябва да преосмислим инфраструктурата и да прегърнем динамични и интелигентни решения за подкрепа на иновациите и пионерите.’