Преосмисляне на AI ефективността

Развитието на AI непрекъснато показва, че по-големите модели са склонни да бъдат по-интелигентни, но техните оперативни изисквания също ескалират. Това създава значително предизвикателство, особено в региони с ограничен достъп до усъвършенствани AI чипове. Независимо от географските ограничения, има нарастваща тенденция сред разработчиците на модели да възприемат Mixture of Experts (MoE) архитектури, съчетани с иновативни техники за компресия. Целта? Драстично да се намалят изчислителните ресурси, необходими за разгръщане и стартиране на тези разширяващи се големи езикови модели (LLM). Тъй като наближаваме третата годишнина от бума на генеративния AI, предизвикан от ChatGPT, индустрията най-накрая започва сериозно да обмисля икономическите последици от поддържането на тези модели, консумиращи много енергия.

Докато MoE моделите, като тези от Mistral AI, съществуват от известно време, истинският им пробив настъпи през последната година. Станахме свидетели на скок на нови LLM с отворен код от технологични гиганти като Microsoft, Google, IBM, Meta, DeepSeek и Alibaba, всички използващи някаква форма на MoE архитектура. Привлекателността е проста: MoE архитектурите предлагат далеч по-ефективна алтернатива на традиционните архитектури на “плътни” модели.

Преодоляване на ограниченията на паметта

Основата на MoE архитектурата датира от началото на 90-те години, с публикуването на “Adaptive Mixtures of Local Experts”. Основната идея се върти около разпределянето на задачи към един или повече специализирани подмодела или “експерти”, вместо да се разчита на един масивен модел, обучен върху широк спектър от данни.

На теория всеки експерт може да бъде щателно оптимизиран за конкретна област, от кодиране и математика до творческо писане. Струва си да се отбележи, че повечето разработчици на модели предоставят ограничени подробности за конкретните експерти в рамките на техните MoE модели, а броят на експертите варира от модел до модел. От решаващо значение е, че само малка част от общия модел е активно ангажирана във всеки един момент.

Разгледайте модела V3 на DeepSeek, който се състои от 256 маршрутизирани експерти заедно със споделен експерт. По време на обработката на токени се активират само осем маршрутизирани експерти, плюс споделеният. Тази селективна активация означава, че MoE моделите може да не винаги постигат същото ниво на качество като плътните модели с подобен размер. MoE моделът Qwen3-30B-A3B на Alibaba, например, постоянно се представяше по-слабо от плътния модел Qwen3-32B в тестовете на Alibaba.

Въпреки това, важно е да се контекстуализира този лек спад в качеството спрямо значителните ползи от ефективността, предлагани от MoE архитектурите. Намаляването на активните параметри води до изисквания за честотна лента на паметта, които вече не са пряко пропорционални на пропускателната способност, необходима за съхраняване на теглата на модела. По същество, докато MoE моделите все още могат да изискват значителна памет, те не е задължително да имат нужда от най-бързата и най-скъпа High Bandwidth Memory (HBM).

Нека илюстрираме това със сравнение. Разгледайте най-големия "плътен" модел на Meta, Llama 3.1 405B, и Llama 4 Maverick, сравним модел, който използва MoE архитектура със 17 милиарда активни параметри. Докато многобройни фактори, като размер на партидата, производителност на плаваща запетая и кеширане на ключови стойности, допринасят за производителността в реалния свят, можем да апроксимираме минималните изисквания за честотна лента, като умножим размера на модела в гигабайти при дадена прецизност (1 байт на параметър за 8-битови модели) по целевите токени в секунда при размер на партидата едно.

Изпълнението на 8-битова квантова версия на Llama 3.1 405B би изисквало над 405 GB vRAM и най-малко 20 TB/s честотна лента на паметта, за да се генерира текст при 50 токена в секунда. Системите, базирани на Nvidia HGX H100, които доскоро струваха 300 000 долара или повече, предоставяха само 640 GB HBM3 и приблизително 26,8 TB/s обща честотна лента. Изпълнението на целия 16-bit модел би изисквало поне две от тези системи.

За разлика от това, Llama 4 Maverick, въпреки че консумира същото количество памет, изисква по-малко от 1 TB/s честотна лента, за да постигне сравнима производителност. Това е така, защото само 17 милиарда параметъра от експертите модели са активно ангажирани в генерирането на изхода. Това се превръща в увеличение с порядък на скоростта на генериране на текст на същия хардуер.

И обратно, ако чистата производителност не е основен проблем, много от тези модели вече могат да се изпълняват на по-евтина, макар и по-бавна, GDDR6, GDDR7 или дори DDR памет, както се вижда в най-новите Xeons на Intel.

Новите RTX Pro Servers на Nvidia, обявени на Computex, са пригодени за този много сценарий. Вместо да разчитат на скъпа и енергоемка HBM, която изисква усъвършенствано опаковане, всеки от осемте RTX Pro 6000 GPU в тези системи е оборудван с 96 GB GDDR7 памет, същият тип, който се намира в съвременните карти за игри.

Тези системи предоставят до 768 GB vRAM и 12,8 TB/s обща честотна лента, повече от достатъчно за изпълнение на Llama 4 Maverick при стотици токени в секунда. Въпреки че Nvidia не е разкрила цените, изданието за работна станция на тези карти се продава на дребно за около 8500 долара, което предполага, че тези сървъри биха могли да бъдат оценени на по-малко от половината от цената на употребяван HGX H100.

MoE обаче не означава края на HBM-стекираните GPU. Очаквайте Llama 4 Behemoth, ако някога бъде доставен, да изисква rack пълен с GPU поради огромния си размер.

Въпреки че има приблизително половината от активните параметри като Llama 3.1 405B, той може да се похвали с общо 2 трилиона параметри. В момента на пазара няма нито един конвенционален GPU сървър, който да може да побере пълния 16-bit модел и контекстен прозорец от милион токени или повече.

CPU Ренесанс в AI?

В зависимост от конкретното приложение, GPU може да не винаги е необходимо, особено в региони, където достъпът до high-end ускорители е ограничен.

Intel представи двупроцесорна Xeon 6 платформа, оборудвана с 8800 MT/s MCRDIMMs през април. Тази настройка постигна пропускателна способност от 240 токена в секунда в Llama 4 Maverick, със средна латентност на изхода под 100 ms на токен.

В по-прости термини, платформата Xeon може да поддържа 10 токена в секунда или повече на потребител за приблизително 24 едновременни потребители.

Intel не разкри данни за производителността на един потребител, тъй като те са по-малко релевантни в реални сценарии. Въпреки това, оценките сочат пикова производителност от около 100 токена в секунда.

Въпреки това, освен ако няма по-добри алтернативи или специфични изисквания, икономиката на CPU-базираните заключения си остава силно зависима от случая на употреба.

Намаляване на теглото: Подрязване и квантуване

MoE архитектурите могат да намалят необходимата честотна лента на паметта за обслужване на големи модели, но не намаляват количеството памет, необходимо за съхраняване на техните тегла. Дори при 8-битова прецизност, Llama 4 Maverick изисква над 400 GB памет за работа, независимо от броя на активните параметри.

Появяващите се се техники за подрязване и методи за квантуване могат потенциално да намалят наполовина това изискване без да жертват качеството.

Nvidia беше привърженик на подрязването, пускайки подрязани версии на моделите Llama 3 на Meta, от които са премахнати излишните тегла.

Nvidia също беше сред първите компании, които подкрепиха 8-битови типове данни с плаваща запетая през 2022 г., и отново с 4-битова плаваща запетая с пускането на своята архитектура Blackwell през 2024 г. Очаква се първите чипове на AMD, които предлагат поддръжка на native FP4, да бъдат пуснати скоро.

Въпреки че не е строго необходимо, native хардуерната поддръжка за тези типове данни обикновено намалява вероятността от срещане на изчислителни затруднения, особено когато се обслужва в мащаб.

Станахме свидетели на нарастващ брой разработчици на модели, които възприемат типове данни с по-ниска прецизност, като Meta, Microsoft и Alibaba предлагат осем-битови и дори четири-битови квантовани версии на техните модели.

Квантуването включва компресиране на теглата на модела от тяхната native прецизност, обикновено BF16, до FP8 или INT4. Това ефективно намалява изискванията за честотна лента на паметта и капацитет на моделите наполовина или дори три четвърти, за сметка на известно качество.

Загубите, свързани с прехода от 16 бита към осем бита, често са пренебрежими и няколко конструктори на модели, включително DeepSeek, са започнали да тренират с FP8 прецизност от самото начало. Намаляването на прецизността с още четири бита обаче може да доведе до значително влошаване на качеството. Следователно много подходи за квантуване след обучение, като GGUF, не компресират всички тегла еднакво, оставяйки някои на по-високи нива на прецизност, за да се минимизира загубата на качество.

Google наскоро демонстрира използването на обучение, което се базира от квантуване (QAT), за да намали своите модели Gemma 3 с коефициент 4x, като същевременно поддържа нива на качество, близки до native BF16.

QAT симулира операции с ниска прецизност по време на обучението. Чрез прилагането на тази техника за приблизително 5 000 стъпки на неквалифициран модел, Google успя да намали спада в перплексността, метрика за измерване на загубите, свързани с квантуването, с 54 процента, когато се преобразува в INT4.

Друг базиран на QAT подход към квантуването, известен като Bitnet, се стреми към още по-ниски нива на прецизност, компресирайки моделите само до 1,58 бита, или приблизително една десета от първоначалния им размер.

Синергията на технологиите

Комбинацията от MoE и 4-битово квантуване предлага значителни предимства, особено когато честотната лента е ограничена.

За други, които не са ограничени от честотната лента, обаче, всяка от двете технологии, независимо дали MoE или квантуване, може значително да намали разходите за оборудване и работа за стартиране на по-големи и по-мощни модели; това е, ако може да се намери ценна услуга, която да изпълняват.

И ако не, поне можете да се утешите, че не сте сами - скорошно проучване на IBM разкри, че само едно от четири AI внедрявания е доставило възвръщаемостта на инвестициите, която е била обещана.