Firma Huawei Technologies, mierząca się z poważnymi przeszkodami technologicznymi z powodu sankcji nałożonych przez Stany Zjednoczone, podobno dokonała przełomu w dziedzinie uczenia modeli sztucznej inteligencji (AI). Naukowcy pracujący nad dużym modelem językowym (LLM) Huawei, Pangu, twierdzą, że opracowali ulepszone podejście, które przewyższa oryginalną metodologię DeepSeek. Ta innowacyjna metoda wykorzystuje autorskie rozwiązania sprzętowe Huawei, zmniejszając zależność firmy od technologii amerykańskich, co jest kluczowym celem w obecnej sytuacji geopolitycznej.
Powstanie Mixture of Grouped Experts (MoGE)
Podstawą postępu Huawei jest koncepcja Mixture of Grouped Experts (MoGE). Ta nowatorska technika, szczegółowo opisana w artykule opublikowanym przez zespół Pangu firmy Huawei, jest przedstawiana jako ulepszona wersja techniki Mixture of Experts (MoE). MoE okazało się pomocne w tworzeniu opłacalnych modeli AI, o czym świadczy sukces DeepSeek.
MoE oferuje zalety dla dużych parametrów modelu, co prowadzi do zwiększonej zdolności uczenia się. Jednak naukowcy z Huawei zidentyfikowali nieefektywności wynikające z nierównomiernej aktywacji "ekspertów", kluczowych komponentów w treningu AI, które mogą utrudniać wydajność podczas jednoczesnego wykonywania zadań na wielu urządzeniach. MoGE firmy Huawei strategicznie rozwiązuje te problemy.
Rozwiązywanie problemów z nieefektywnością w tradycyjnych modelach MoE
System MoGE jest starannie zaprojektowany w celu optymalizacji dystrybucji obciążenia. Centralną ideą jest "grupowanie" ekspertów podczas procesu selekcji, co prowadzi do bardziej zrównoważonego rozkładu obciążenia. Dzięki bardziej sprawiedliwemu rozłożeniu obciążenia obliczeniowego naukowcy odnotowali znaczną poprawę wydajności środowisk obliczeń równoległych, co jest kluczowym aspektem nowoczesnego treningu AI.
Koncepcja "ekspertów" w treningu AI odnosi się do wyspecjalizowanych submodeli lub komponentów w ramach większego, bardziej kompleksowego modelu. Każdy ekspert jest starannie zaprojektowany do obsługi bardzo specyficznych zadań lub typów danych. Takie podejście wykorzystuje zróżnicowaną, wyspecjalizowaną wiedzę, co pozwala całemu systemowi AI na znaczne poprawienie ogólnej wydajności.
Implikacje dla rozwoju AI w Chinach
Ten postęp jest szczególnie aktualny. Chińskie firmy zajmujące się sztuczną inteligencją, pomimo ograniczeń nałożonych przez Stany Zjednoczone na import zaawansowanych chipów AI, takich jak te od Nvidii, agresywnie dążą do metod zwiększenia wydajności treningu i wnioskowania modeli. Metody te obejmują nie tylko ulepszenia algorytmiczne, ale także synergiczną integrację sprzętu i oprogramowania.
Naukowcy z Huawei rygorystycznie przetestowali architekturę MoGE na swoim procesorze neuronowym Ascend (NPU), specjalnie zaprojektowanym do przyspieszania zadań AI. Wyniki wskazują, że MoGE osiągnął lepsze równoważenie obciążenia ekspertów i bardziej wydajne wykonanie, zarówno w fazie treningu modelów, jak i wnioskowania. Jest to znaczące potwierdzenie korzyści płynących z jednoczesnej optymalizacji warstwy sprzętowej i oprogramowania.
Testy porównawcze Pangu z wiodącymi modelami AI
Model Pangu firmy Huawei, wzmocniony architekturą MoGE i procesorami NPU Ascend, został przetestowany w porównaniu z wiodącymi modelami AI. Należą do nich DeepSeek-V3, Qwen2.5-72B firmy Alibaba Group Holding oraz Llama-405B firmy Meta Platforms. Wyniki testu porównawczego wykazały, że Pangu osiągnął najnowocześniejszą wydajność w szerokim zakresie ogólnych testów porównawczych w języku angielskim, a także wyróżniał się we wszystkich testach porównawczych w języku chińskim. Pangu wykazał również wyższą wydajność w przetwarzaniu treningu w długim kontekście, co jest obszarem o krytycznym znaczeniu dla zaawansowanych zadań przetwarzania języka naturalnego.
Ponadto model Pangu wykazał wyjątkowe możliwości w zakresie ogólnego zrozumienia języka, ze szczególnym naciskiem na zadania związane z rozumowaniem. Ta umiejętność zrozumienia niuansów i wydobywania znaczenia ze złożonego języka demonstruje postęp, jaki Huawei osiągnął w dziedzinie AI.
Strategiczne znaczenie Huawei
Postęp firmy Huawei w architekturze modeli AI ma strategiczne znaczenie. Biorąc pod uwagę trwające sankcje, firma z Shenzhen strategicznie dąży do zmniejszenia swojej zależności od technologii amerykańskich. Chip Ascend opracowany przez Huawei jest uważany za realną, krajową alternatywę dla procesorów firmy Nvidia i jest kluczowym elementem tej niezależności.
Pangu Ultra, duży model językowy z 135 miliardami parametrów zoptymalizowany pod kątem procesorów NPU, podkreśla skuteczność architektonicznego i systemowego usprawnienia Huawei, prezentując jednocześnie możliwości swoich procesorów NPU. Wykazanie skuteczności integracji sprzętu i oprogramowania jest ważną częścią prezentacji możliwości AI Huawei.
Szczegółowy proces szkoleniowy
Według Huawei proces treningowy jest podzielony na trzy główne etapy: wstępny trening, rozszerzenie kontekstu długiego i trening końcowy. Trening wstępny obejmuje początkowe trenowanie modelu na ogromnym zbiorze danych zawierającym 13,2 biliona tokenów. Rozszerzenie kontekstu długiego następnie rozszerza zdolność modelu do obsługi dłuższych i bardziej złożonych tekstów i opiera się na początkowym rozpoznawaniu danych. Faza ta wykorzystuje przetwarzanie rozproszone na dużą skalę na 8192 chipach Ascend.
Huawei ujawnił, że model i system wkrótce zostaną udostępnione jego klientom komercyjnym, otwierając nowe możliwości integracji i rozwoju z jego partnerami.
Dogłębne spojrzenie na Mixture of Experts (MoE) i jego ograniczenia
Aby w pełni docenić znaczenie MoGE Huawei, kluczowe jest zrozumienie podstaw, na których się opiera: architektury Mixture of Experts (MoE). MoE reprezentuje zmianę paradygmatu w sposobie projektowania i trenowania dużych modeli AI, oferując ścieżkę do skalowania rozmiaru i złożoności modelu bez proporcjonalnego wzrostu kosztów obliczeniowych.
W tradycyjnej sieci neuronowej każde wejście jest przetwarzane przez każdy neuron w każdej warstwie. Chociaż takie podejście może zapewnić wysoką dokładność, staje się ono obliczeniowo zabronione dla bardzo dużych modeli. MoE, w przeciwieństwie do tego, wprowadza koncepcję "ekspertów" – mniejszych, wyspecjalizowanych sieci neuronowych, które koncentrują się na określonych podzbiorach danych wejściowych.
Sieć "bramkowa" dynamicznie kieruje każde wejście do najbardziej odpowiedniego eksperta (ekspertów). Ta selektywna aktywacja pozwala na rozrzedzone obliczenia, co oznacza, że tylko ułamek parametrów modelu jest angażowany dla danego wejścia. Ta rzadkość drastycznie zmniejsza koszt obliczeniowy wnioskowania (używania modelu do przewidywania) i treningu. Ponadto, ponieważ różni eksperci mogą działać na różnych częściach danych wejściowych, pozwala to na większą specjalizację w modelu.
Pomimo zalet MoE, należy rozwiązać kilka ograniczeń, aby odblokować jego pełny potencjał. Nierównomierna aktywacja ekspertów jest głównym problemem. W wielu implementacjach MoE niektórzy eksperci są intensywnie wykorzystywani, podczas gdy inni pozostają stosunkowo bezczynni. Ta nierównowaga wynika z inherentnych cech danych i projektu sieci bramkowej.
Ta nierównowaga może prowadzić do nieefektywności w środowiskach obliczeń równoległych. Ponieważ obciążenie pracą nie jest równomiernie rozłożone między ekspertów, niektóre jednostki przetwarzające są niedostatecznie wykorzystywane, podczas gdy inne są przeciążone. Ta rozbieżność utrudnia skalowalność MoE i zmniejsza jego ogólną wydajność. Ponadto ta nierównowaga często wynika z obciążeń w danych treningowych, co prowadzi do niedostatecznej reprezentacji i niedostatecznego trenowania mniej aktywnych ekspertów. W dłuższej perspektywie skutkuje to suboptymalnym modelem.
Inne częste problemy podczas obsługi MoE obejmują dodatkową złożoność podczas projektowania sieci bramkowej. Sieć bramkowa wymaga zaawansowanych technik, aby zapewnić prawidłowy wybór ekspertów, w przeciwnym razie MoE może nie spełnić oczekiwań i spowodować niepotrzebne obciążenie.
Grouped Experts (MoGE): Rozwiązywanie problemów MoE
Architektura Mixture of Grouped Experts (MoGE) firmy Huawei oferuje ulepszoną alternatywę dla tradycyjnego MoE, koncentrując się na równoważeniu obciążenia i wydajnym wykonywaniu równoległym. Metoda ta polega na strategicznym grupowaniu ekspertów, co zmienia proces routingu danych wejściowych, prowadząc do bardziej równomiernego rozkładu obciążenia.
Grupując ekspertów podczas selekcji, MoGE zapewnia, że każda grupa ekspertów otrzymuje bardziej zrównoważone obciążenie. Zamiast kierować każde wejście niezależnie, sieć bramkowa kieruje teraz grupy wejść do grup ekspertów. Takie podejście promuje bardziej sprawiedliwy rozkład obciążenia obliczeniowego.
Mechanizm grupowania pomaga również złagodzić skutki obciążeń danych. Zapewniając, że wszyscy eksperci w grupie są szkoleni na zróżnicowanym zestawie wejść, MoGE zmniejsza ryzyko niedostatecznej reprezentacji i niedostatecznego trenowania. Ponadto grupowanie ekspertów umożliwia lepsze wykorzystanie zasobów. Ponieważ każda grupa obsługuje bardziej spójne obciążenie pracą, łatwiej jest efektywnie alokować zasoby obliczeniowe, co prowadzi do lepszej ogólnej wydajności.
Końcowym rezultatem jest lepsze równoważenie obciążenia ekspertów i bardziej wydajne wykonanie zarówno dla treningu, jak i wnioskowania modelu. Przekłada się to na szybsze czasy treningu, niższe koszty obliczeniowe i lepszą ogólną wydajność.
Ascend NPU: Akceleracja sprzętowa dla AI
Procesor neuronowy Ascend (NPU) odgrywa kluczową rolę w strategii AI firmy Huawei. Procesory te są specjalnie zaprojektowane do przyspieszania zadań AI, w tym treningu i wnioskowania modeli. Oferują one różnorodne funkcje zoptymalizowane pod kątem obciążeń związanych z głębokim uczeniem, takie jak wysoka przepustowość pamięci, wyspecjalizowane jednostki przetwarzające do mnożenia macierzy oraz interfejsy komunikacyjne o niskim opóźnieniu. Ponadto procesory NPU Ascend firmy Huawei obsługują szeroki zakres typów danych i poziomów precyzji, co pozwala na precyzyjną kontrolę nad wydajnością i dokładnością.
Synergiczne połączenie MoGE i Ascend NPU tworzy potężną platformę dla innowacji AI. MoGE optymalizuje stronę oprogramowania, poprawiając równoważenie obciążenia i wykonywanie równoległe, podczas gdy Ascend NPU zapewnia akcelerację sprzętową potrzebną do realizacji tych korzyści. To zintegrowane podejście pozwala Huawei przesuwać granice wydajności i efektywności AI.
Ascend NPU charakteryzuje się dużą gęstością obliczeniową i efektywnością energetyczną. Funkcje te mają kluczowe znaczenie dla wdrażania modeli AI w różnych ustawieniach, od potężnych serwerów w chmurze po urządzenia brzegowe z ograniczonym budżetem energetycznym.
Testy porównawcze i metryki wydajności
Wyniki testów porównawczych Huawei demonstrują skuteczność architektury MoGE i Ascend NPU. Porównując Pangu z wiodącymi modelami AI, takimi jak DeepSeek-V3, Qwen2.5-72B i Llama-405B, Huawei wykazał, że jego technologia osiąga najnowocześniejszą wydajność w różnych zadaniach.
Sukces Pangu w ogólnych testach porównawczych w języku angielskim i chińskim podkreśla jego wszechstronność i adaptacyjność. Biegłość modelu w treningu długoterminowym jest szczególnie godna uwagi, ponieważ odzwierciedla możliwości w zakresie obsługi rzeczywistych danych. Ponadto silna wydajność Pangu w zadaniach związanych z rozumowaniem podkreśla jego zdolność do rozumienia i przetwarzania złożonych relacji.
Testy porównawcze to nie tylko ćwiczenia akademickie, stanowią one namacalny dowód postępów technologicznych dokonanych przez Huawei. Wzmacniają one twierdzenie firmy, że znajduje się w czołówce innowacji AI, i wzmacniają jej pozycję na rynku globalnym.
Implikacje dla przyszłości Huawei
Postęp firmy Huawei w treningu modeli AI ma kluczowe znaczenie dla strategicznej wizji firmy, polegającej na ustanowieniu suwerenności technologicznej w sztucznej inteligencji. Ponieważ firma minimalizuje swoje uzależnienie od technologii amerykańskich w obliczu trwającego konfliktu handlowego, rozwój chipów Ascend służy jako alternatywa dla procesorów firmy Nvidia i AMD. Pangu Ultra, LLM z 135 miliardami parametrów dla procesorów NPU, podkreśla skuteczność architektonicznego i systemowego usprawnienia Huawei, prezentując możliwości swoich najnowocześniejszych chipów.
Oczekuje się, że wysiłki te przyczynią się do ogólnej konkurencyjności Huawei w dłuższej perspektywie, ponieważ firma dąży do obsługi większego rynku AI, szczególnie w Chinach. Kontynuując koncentrację inwestycji na badaniach i rozwoju, Huawei ma nadzieję, że stanie się liderem w przestrzeni AI, pokonując obecne ograniczenia rynkowe.
Przyszłe badania
Ciągłe ulepszenia w architekturze modeli AI firmy Huawei poprzez optymalizacje na poziomie systemu i algorytmicznym, wraz z rozwojem sprzętu, takim jak chip Ascend, podkreślają jego znaczenie w prowadzeniu krzywej technologicznej w sztucznej inteligencji. Chociaż testy porównawcze, takie jak Pangu, dowodzą, że jest to najnowocześniejszy model, wciąż jest wiele do ulepszenia. Dalsze udoskonalenie architektury MoGE może umożliwić jej przechodzenie do większych i bardziej złożonych obliczeń. Więcej pracy nad specjalizacją architektury Ascend NPU może jeszcze bardziej przyspieszyć procesy głębokiego uczenia się i obniżyć koszty. Przyszłe badania będą świadkami ciągłych wysiłków zmierzających do budowania lepszych modeli AI i ulepszania istniejących.