Rozwój AI nieustannie pokazuje, że większe modele są zazwyczaj inteligentniejsze, ale ich wymagania operacyjne również rosną. To stwarza poważne wyzwanie, zwłaszcza w regionach o ograniczonym dostępie do zaawansowanych chipów AI. Jednak niezależnie od ograniczeń geograficznych, wśród twórców modeli rośnie trend polegający na wykorzystywaniu architektur Mixture of Experts (MoE) w połączeniu z innowacyjnymi technikami kompresji. Jaki jest cel? Drastyczne zmniejszenie zasobów obliczeniowych potrzebnych do wdrażania i uruchamiania tych rozbudowanych Large Language Models (LLM). W miarę zbliżania się trzeciej rocznicy boomu generatywnej sztucznej inteligencji, zapoczątkowanego przez ChatGPT, branża zaczyna na poważnie rozważać ekonomiczne implikacje utrzymywania tych energochłonnych modeli w działaniu.
Modele MoE, takie jak te od Mistral AI, istnieją już od jakiegoś czasu, ale prawdziwy przełom nastąpił w ciągu ostatniego roku. Jesteśmy świadkami gwałtownego wzrostu liczby nowych, otwartych LLM od gigantów technologicznych, takich jak Microsoft, Google, IBM, Meta, DeepSeek i Alibaba, z których wszystkie wykorzystują jakąś formę architektury MoE. Urok jest prosty: Architektury MoE oferują znacznie wydajniejszą alternatywę dla tradycyjnych “gęstych” architektur modeli.
Przezwyciężanie Ograniczeń Pamięci
Podstawy architektury MoE sięgają wczesnych lat 90., wraz z publikacją “Adaptive Mixtures of Local Experts”. Podstawowa idea polega na rozdzielaniu zadań do jednego lub więcej wyspecjalizowanych podmodeli lub “ekspertów”, zamiast polegać na pojedynczym, ogromnym modelu wytrenowanym na szerokim spektrum danych.
Teoretycznie, każdy ekspert może być starannie zoptymalizowany pod kątem określonej domeny, od kodowania i matematyki po kreatywne pisanie. Warto jednak zauważyć, że większość twórców modeli udostępnia ograniczone szczegóły dotyczące konkretnych ekspertów w swoich modelach MoE, a liczba ekspertów różni się w zależności od modelu. Co najważniejsze, tylko ułamek całego modelu jest aktywnie zaangażowany w danym momencie.
Weźmy pod uwagę model V3 firmy DeepSeek, który składa się z 256 routowanych ekspertów wraz z ekspertem współdzielonym. Podczas przetwarzania tokenów aktywowanych jest tylko ośmiu routowanych ekspertów, plus ten współdzielony. Ta selektywna aktywacja oznacza, że modele MoE nie zawsze osiągają ten sam poziom jakości, co podobnie duże modele gęste. Na przykład model Qwen3-30B-A3B MoE firmy Alibaba konsekwentnie uzyskiwał gorsze wyniki niż gęsty model Qwen3-32B w testach porównawczych Alibaba.
Jednak konieczne jest umieszczenie tego niewielkiego spadku jakości w kontekście znacznych korzyści w zakresie wydajności oferowanych przez architektury MoE. Zmniejszenie liczby aktywnych parametrów skutkuje wymaganiami dotyczącymi przepustowości pamięci, które nie są już bezpośrednio proporcjonalne do pojemności potrzebnej do przechowywania wag modelu. Zasadniczo, chociaż modele MoE mogą nadal wymagać znacznej pamięci, niekoniecznie muszą być najszybszą i najdroższą pamięcią High Bandwidth Memory (HBM).
Zilustrujmy to porównaniem. Weźmy pod uwagę największy “gęsty” model Meta, Llama 3.1 405B, oraz Llama 4 Maverick, porównywalny model, który wykorzystuje architekturę MoE z 17 miliardami aktywnych parametrów. Chociaż liczne czynniki, takie jak rozmiar wsadu, wydajność zmiennoprzecinkowa i buforowanie klucz-wartość, przyczyniają się do rzeczywistej wydajności, możemy przybliżyć minimalne wymagania dotyczące przepustowości, mnożąc rozmiar modelu w gigabajtach z daną precyzją (1 bajt na parametr dla modeli 8-bitowych) przez docelową liczbę tokenów na sekundę przy wielkości wsadu równej jeden.
Uruchomienie 8-bitowej skwantyzowanej wersji Llama 3.1 405B wymagałoby ponad 405 GB vRAM i co najmniej 20 TB/s przepustowości pamięci, aby generować tekst z prędkością 50 tokenów na sekundę. Systemy oparte na Nvidia HGX H100, które do niedawna kosztowały 300 000 USD lub więcej, zapewniały tylko 640 GB HBM3 i około 26,8 TB/s zagregowanej przepustowości. Uruchomienie pełnego 16-bitowego modelu wymagałoby co najmniej dwóch z tych systemów.
Z kolei Llama 4 Maverick, zużywając tę samą ilość pamięci, wymaga mniej niż 1 TB/s przepustowości, aby osiągnąć porównywalną wydajność. Dzieje się tak dlatego, że tylko 17 miliardów parametrów ekspertów modelu jest aktywnie zaangażowanych w generowanie danych wyjściowych. Przekłada się to na zwiększenie prędkości generowania tekstu o rząd wielkości na tym samym sprzęcie.
I odwrotnie, jeśli sama wydajność nie jest głównym problemem, wiele z tych modeli można teraz uruchamiać na tańszej, choć wolniejszej, pamięci GDDR6, GDDR7, a nawet DDR, jak to widać w najnowszych procesorach Xeon firmy Intel.
Nowe serwery RTX Pro firmy Nvidia, zapowiedziane na Computex, są dostosowane do tego konkretnego scenariusza. Zamiast polegać na drogich i energochłonnych układach HBM wymagających zaawansowanego pakowania, każda z ośmiu kart graficznych RTX Pro 6000 w tych systemach jest wyposażona w 96 GB pamięci GDDR7, tego samego typu, który można znaleźć w nowoczesnych kartach do gier.
Systemy te zapewniają do 768 GB vRAM i 12,8 TB/s zagregowanej przepustowości, co jest więcej niż wystarczające do uruchomienia Llama 4 Maverick przy setkach tokenów na sekundę. Chociaż Nvidia nie ujawniła cen, wersja robocza tych kart kosztuje około 8500 USD, co sugeruje, że te serwery mogą być wycenione na mniej niż połowę kosztów używanego HGX H100.
Jednak MoE nie oznacza końca procesorów graficznych typu HBM. Spodziewaj się, że Llama 4 Behemoth, zakładając, że kiedykolwiek zostanie wysłany, będzie wymagał szafy pełnej procesorów graficznych ze względu na swoje ogromne rozmiary.
Chociaż ma około połowy aktywnych parametrów co Llama 3.1 405B, szczyci się łącznie 2 bilionami parametrów. Obecnie na rynku nie ma ani jednego konwencjonalnego serwera GPU, który mógłby pomieścić pełny 16-bitowy model i okno kontekstowe o wielkości miliona tokenów lub więcej.
CPU Renaissance w AI?
W zależności od konkretnego zastosowania, GPU może nie zawsze być konieczne, szczególnie w regionach, w których dostęp do wysokiej klasy akceleratorów jest ograniczony.
Intel zaprezentował w kwietniu dwuprocesorową platformę Xeon 6 wyposażoną w MCRDIMM o prędkości 8800 MT/s. Ten zestaw osiągnął przepustowość 240 tokenów na sekundę w Llama 4 Maverick, ze średnim opóźnieniem wyjściowym poniżej 100 ms na token.
Mówiąc prościej, platforma Xeon mogła utrzymać 10 tokenów na sekundę lub więcej na użytkownika dla około 24 użytkowników jednocześnie.
Intel nie ujawnił danych dotyczących wydajności dla jednego użytkownika, ponieważ są one mniej istotne w rzeczywistych scenariuszach. Jednak szacunki sugerują szczytową wydajność na poziomie około 100 tokenów na sekundę.
Niemniej jednak, o ile nie ma lepszych alternatyw lub określonych wymagań, ekonomika wnioskowania opartego na procesorze pozostaje w dużym stopniu zależna od przypadku użycia.
Redukcja Wagi: Przycinanie i Kwantyzacja
Architektury MoE mogą zmniejszyć przepustowość pamięci niezbędną do obsługi dużych modeli, ale nie zmniejszają ilości pamięci wymaganej do przechowywania ich wag. Nawet przy precyzji 8-bitowej Llama 4 Maverick wymaga ponad 400 GB pamięci do uruchomienia, niezależnie od liczby aktywnych parametrów.
Nowe techniki przycinania i metody kwantyzacji mogą potencjalnie zmniejszyć to wymaganie o połowę bez poświęcania jakości.
Nvidia jest zwolennikiem przycinania, wydając przycięte wersje modeli Meta Llama 3, z których usunięto zbędne wagi.
Nvidia była również jedną z pierwszych firm, które w 2022 r. wsparły 8-bitowe typy danych zmiennoprzecinkowych, a ponownie w 2024 r. 4-bitowe zmiennoprzecinkowe wraz z premierą architektury Blackwell. Oczekuje się, że pierwsze chipy AMD oferujące natywne wsparcie FP4 zostaną wydane wkrótce.
Chociaż nie jest to ściśle niezbędne, natywne wsparcie sprzętowe dla tych typów danych generalnie zmniejsza prawdopodobieństwo wystąpienia wąskich gardeł obliczeniowych, szczególnie podczas obsługi na dużą skalę.
Jesteśmy świadkami rosnącej liczby twórców modeli przyjmujących dane o niższej precyzji, a Meta, Microsoft i Alibaba oferują 8-bitowe, a nawet 4-bitowe skwantyzowane wersje swoich modeli.
Kwantyzacja polega na kompresowaniu wag modelu z ich natywnej precyzji, zwykle BF16, do FP8 lub INT4. Skutecznie zmniejsza to przepustowość pamięci i wymagania dotyczące pojemności modeli o połowę, a nawet trzy czwarte, kosztem pewnej utraty jakości.
Straty związane z przejściem z 16 bitów do ośmiu bitów są często pomijalne, a kilku twórców modeli, w tym DeepSeek, zaczęło trenować z precyzją FP8 od samego początku. Jednak zmniejszenie precyzji o kolejne cztery bity może skutkować znacznym pogorszeniem jakości. W konsekwencji wiele podejść do kwantyzacji po treningu, takich jak GGUF, nie kompresuje wszystkich wag w równym stopniu, pozostawiając niektóre na wyższych poziomach precyzji, aby zminimalizować utratę jakości.
Google zademonstrował niedawno wykorzystanie treningu z uwzględnieniem kwantyzacji (QAT) w celu zmniejszenia swoich modeli Gemma 3 o współczynnik 4x przy jednoczesnym zachowaniu poziomów jakości zbliżonych do natywnego BF16.
QAT symuluje operacje z niską precyzją podczas treningu. Stosując tę technikę przez około 5000 kroków na modelu niekwalifikowanym, Google był w stanie zmniejszyć spadek oszołomienia, metryki do pomiaru strat związanych z kwantyzacją, o 54 procent po konwersji do INT4.
Inne podejście do kwantyzacji oparte na QAT, znane jako Bitnet, ma na celu jeszcze niższe poziomy precyzji, kompresując modele do zaledwie 1,58 bita, czyli mniej więcej jednej dziesiątej ich pierwotnego rozmiaru.
Synergia Technologii
Połączenie MoE i 4-bitowej kwantyzacji oferuje znaczne korzyści, szczególnie gdy przepustowość jest ograniczona.
Dla innych, którzy nie są ograniczeni przepustowością, każda z tych dwóch technologii, czy to MoE, czy kwantyzacja, może znacznie obniżyć koszty sprzętu i działania dla uruchamiania większych i potężniejszych modeli; zakładając, że można znaleźć cenną usługę, którą mogą wykonywać.
A jeśli nie, możesz przynajmniej pocieszyć się, że nie jesteś sam - niedawne badanie IBM ujawniło, że tylko jedna na cztery wdrożenia AI przyniosła obiecany zwrot z inwestycji.