Gwałtowny postęp w technologii AI, którego przykładem są osiągnięcia DeepSeek, wymaga fundamentalnej ponownej oceny sposobu, w jaki konstruujemy centra danych, chipy i systemy, aby zapewnić niezbędną moc obliczeniową. Innowacje inżynieryjne DeepSeek znacząco obniżyły koszty obliczeniowe AI, co skłoniło do szerszej dyskusji na temat przyszłości infrastruktury AI.
Chociaż DeepSeek mógł nie poszerzyć drastycznie granic technologii AI, jego wpływ na rynek AI jest ogromny. Technologie takie jak Mixture of Experts (MoE), Multi-Layer Attention (MLA) i Multi-Token Prediction (MTP) zyskały na znaczeniu obok DeepSeek. Chociaż nie wszystkie te technologie zostały zapoczątkowane przez DeepSeek, ich udane wdrożenie pobudziło powszechne przyjęcie. W szczególności MLA stało się centralnym punktem dyskusji na różnych platformach, od urządzeń brzegowych po przetwarzanie w chmurze.
MLA i Wyzwanie Innowacji Algorytmów
Elad Raz, dyrektor generalny NextSilicon, niedawno zauważył, że chociaż MLA poprawia efektywność pamięci, może również zwiększyć obciążenie dla programistów i skomplikować zastosowanie AI w środowiskach produkcyjnych. Użytkownicy GPU mogą potrzebować optymalizacji ‘hand-code’ dla MLA. Ten przykład podkreśla potrzebę ponownego przemyślenia implementacji chipów AI i architektur infrastruktury w erze po DeepSeek.
Aby zrozumieć znaczenie MLA, należy pojąć podstawowe koncepcje Large Language Models (LLM). Generując odpowiedzi na dane wejściowe użytkownika, LLM w dużym stopniu polegają na wektorach KV – kluczach i wartościach – które umożliwiają modelowi skupienie się na odpowiednich danych. W mechanizmach uwagi model porównuje nowe żądania z kluczami, aby określić najbardziej odpowiednią treść.
Elad Raz używa analogii do książki, gdzie klucz jest jak ‘tytuły rozdziałów książki, wskazujące, o czym jest każda część, a wartość to bardziej szczegółowe podsumowania pod tymi tytułami. Tak więc, gdy użytkownik wprowadza żądanie, prosi o wyszukiwane hasło, aby pomóc w wygenerowaniu odpowiedzi. Pyta: ‘W tej fabule, który rozdział jest najbardziej odpowiedni?’”
MLA kompresuje te tytuły rozdziałów (klucze) i podsumowania (wartości), przyspieszając proces znajdowania odpowiedzi i zwiększając wydajność. Ostatecznie MLA pomaga DeepSeek zmniejszyć zużycie pamięci o 5-13%. Bardziej szczegółowe informacje można znaleźć w oficjalnym dokumencie DeepSeek. Konferencja programistów MediaTek nawet omawiała wsparcie dla MLA w swoich mobilnych chipach Dimensity, podkreślając rozległy wpływ DeepSeek.
Technologie takie jak MLA reprezentują typowe innowacje algorytmiczne w erze AI. Jednak szybkie tempo rozwoju technologii AI prowadzi do ciągłego strumienia innowacji, co z kolei stwarza nowe wyzwania, zwłaszcza gdy innowacje te są dostosowane do konkretnych platform. W przypadku MLA, użytkownicy GPU innych niż NVIDIA wymagają dodatkowego ręcznego kodowania, aby wykorzystać tę technologię.
Podczas gdy technologie DeepSeek demonstrują innowacyjność i wartość ery AI, sprzęt i oprogramowanie muszą dostosować się do tych innowacji. Według Elada Raza, takie dostosowanie powinno minimalizować złożoność dla programistów i środowisk produkcyjnych. W przeciwnym razie koszt każdej innowacji staje się zaporowo wysoki.
Powstaje zatem pytanie: ‘Co się stanie, jeśli kolejna innowacja algorytmiczna nie przełoży się dobrze i po prostu na istniejące architektury?’
Konflikt Między Projektowaniem Chipów a Innowacjami Algorytmów
W ciągu ostatnich kilku lat producenci chipów AI konsekwentnie informowali, że zaprojektowanie dużych chipów AI zajmuje co najmniej 1-2 lata. Oznacza to, że projektowanie chipów musi rozpocząć się na długo przed wprowadzeniem chipa na rynek. Biorąc pod uwagę szybki postęp w technologii AI, projektowanie chipów AI musi być przyszłościowe. Skupianie się wyłącznie na obecnych potrzebach spowoduje, że chipy AI będą przestarzałe i nie będą w stanie dostosować się do najnowszych innowacji w aplikacjach.
Innowacje algorytmów aplikacji AI zachodzą obecnie co tydzień. Jak wspomniano w poprzednich artykułach, moc obliczeniowa wymagana do osiągnięcia tych samych możliwości przez modele AI zmniejsza się rocznie 4-10 razy. Koszt wnioskowania modeli AI osiągających podobną jakość do GPT-3 spadł 1200 razy w ciągu ostatnich trzech lat. Obecnie modele z 2B parametrami mogą osiągnąć ten sam poziom co model GPT-3 ze 170B parametrami z przeszłości. Ta szybka innowacja w wyższych warstwach stosu technologicznego AI stwarza znaczące wyzwania dla tradycyjnego planowania i projektowania architektury chipów.
Elad Raz uważa, że branża musi uznać innowacje takie jak DeepSeek MLA za normę dla technologii AI. ‘Obliczenia nowej generacji muszą nie tylko optymalizować obciążenia dzisiejsze, ale także uwzględniać przyszłe przełomy’. Ta perspektywa dotyczy nie tylko branży chipów, ale całej infrastruktury od średniego do niższego poziomu stosu technologicznego AI.
‘DeepSeek i inne innowacje zademonstrowały szybki postęp w innowacjach algorytmicznych’, powiedział Elad Raz. ‘Badacze i naukowcy zajmujący się danymi potrzebują bardziej wszechstronnych i odpornych narzędzi do generowania nowych spostrzeżeń i odkryć. Rynek potrzebuje inteligentnych, definiowanych programowo platform obliczeniowych, które pozwalają klientom na ‘bezproblemową wymianę’ istniejących rozwiązań akceleratorów, jednocześnie umożliwiając programistom bezbolesne przenoszenie ich pracy.’
Aby rozwiązać tę sytuację, branża musi projektować bardziej inteligentną, elastyczną i adaptowalną infrastrukturę obliczeniową.
Elastyczność i wydajność są często celami sprzecznymi. Procesory są bardzo elastyczne, ale mają znacznie niższą wydajność obliczeń równoległych niż procesory graficzne. Procesory graficzne, dzięki swojej programowalności, mogą być mniej wydajne niż dedykowane chipy AI ASIC.
Elad Raz zauważył, że NVIDIA spodziewa się, że szafy serwerowe w centrach danych AI wkrótce osiągną 600 kW poboru mocy. Dla kontekstu, 75% standardowych korporacyjnych centrów danych ma szczytowy pobór mocy wynoszący tylko 15-20 kW na szafę serwerową. Niezależnie od potencjalnych wzrostów wydajności w AI, stanowi to poważne wyzwanie dla centrów danych budujących systemy infrastruktury obliczeniowej.
Zdaniem Elada Raza, obecne procesory graficzne i akceleratory AI mogą nie wystarczyć, aby sprostać potencjalnym wymaganiom AI i High-Performance Computing (HPC). ‘Jeśli zasadniczo nie przemyślimy sposobu poprawy wydajności obliczeniowej, branża ryzykuje osiągnięcie limitów fizycznych i ekonomicznych. Ściana ta będzie miała również skutki uboczne, ograniczając dostęp do AI i HPC dla większej liczby organizacji, utrudniając innowacje nawet przy postępach w algorytmach lub tradycyjnych architekturach GPU.’
Rekomendacje i Wymagania Dotyczące Infrastruktury Obliczeniowej Nowej Generacji
Na podstawie tych obserwacji Elad Raz zaproponował ‘cztery filary’ definiujące infrastrukturę obliczeniową nowej generacji:
(1) Wymienność Plug-and-Play: ‘Historia pokazała, że złożone przejścia architektury, takie jak migracja z CPU na GPU, mogą zająć dziesięciolecia, aby w pełni je wdrożyć. Dlatego architektury obliczeniowe nowej generacji powinny wspierać płynną migrację.’ W przypadku wymienności ‘plug-and-play’ Elad Raz sugeruje, że nowe architektury obliczeniowe powinny uczyć się z ekosystemów x86 i Arm, osiągając szersze przyjęcie dzięki kompatybilności wstecznej.
Nowoczesne projekty powinny również unikać wymagania od programistów przepisywania dużych ilości kodu lub tworzenia zależności od konkretnych dostawców. ‘Na przykład, wsparcie dla wschodzących technologii, takich jak MLA, powinno być znormalizowane, zamiast wymagać dodatkowych ręcznych regulacji, jak ma to miejsce w przypadku procesorów graficznych innych niż NVIDIA. Systemy nowej generacji powinny rozumieć i optymalizować nowe obciążenia od razu po wyjęciu z pudełka, bez konieczności ręcznych modyfikacji kodu lub znaczących zmian w API.’
(2) Adaptacyjna Optymalizacja Wydajności w Czasie Rzeczywistym: Elad Raz uważa, że branża powinna odejść od akceleratorów o stałej funkcji. ‘Branża musi budować na inteligentnych, definiowanych programowo fundamentach sprzętowych, które mogą dynamicznie samoczynnie optymalizować się w czasie wykonywania.’
‘Poprzez ciągłe uczenie się na podstawie obciążeń, przyszłe systemy mogą dostosowywać się w czasie rzeczywistym, maksymalizując wykorzystanie i trwałą wydajność, niezależnie od konkretnego obciążenia aplikacji. Ta dynamiczna adaptacyjność oznacza, że infrastruktura może zapewnić spójną wydajność w rzeczywistych scenariuszach, niezależnie od tego, czy uruchamia symulacje HPC, złożone modele AI, czy operacje na wektorowych bazach danych.’
(3) Skalowalna Wydajność: ‘Poprzez oddzielenie sprzętu od oprogramowania i skupienie się na inteligentnej optymalizacji w czasie rzeczywistym, przyszłe systemy powinny osiągać wyższe wykorzystanie i niższe ogólne zużycie energii. Dzięki temu infrastruktura byłaby bardziej opłacalna i skalowalna, aby sprostać zmieniającym się wymaganiom nowych obciążeń.’
(4) Projekt Przyszłości: Ten punkt odpowiada przyszłościowemu wymaganiu dla infrastruktury AI, zwłaszcza projektowania chipów. ‘Dzisiejsze najnowocześniejsze algorytmy mogą być przestarzałe jutro.’ ‘Niezależnie od tego, czy są to sieci neuronowe AI, czy modele LLM oparte na Transformerach, infrastruktura obliczeniowa nowej generacji musi być adaptowalna, zapewniając, że inwestycje technologiczne przedsiębiorstw pozostaną odporne na lata.’
Te sugestie oferują stosunkowo wyidealizowaną, ale skłaniającą do myślenia perspektywę. Tę metodologię przewodnią należy wziąć pod uwagę w przyszłym rozwoju technologii AI i HPC, nawet jeśli niektóre nieodłączne sprzeczności pozostaną długotrwałymi problemami w branży. ‘Aby uwolnić potencjał AI, HPC i innych przyszłych obciążeń obliczeniowych i intensywnych obliczeń danych, musimy przemyśleć infrastrukturę i przyjąć dynamiczne i inteligentne rozwiązania wspierające innowacje i pionierów.’