Ant z AI: chińskie chipy i niższe koszty

Innowacyjne podejście Ant do szkolenia modeli AI

Ant Group, gigant fintech wspierany przez Jacka Ma, dokonał znaczącego przełomu w dziedzinie sztucznej inteligencji, wykorzystując chińskie półprzewodniki. To innowacyjne podejście pozwoliło firmie opracować techniki szkolenia modeli AI, co zaowocowało znaczącą, bo aż 20-procentową redukcją kosztów. Źródła zaznajomione ze sprawą ujawniły, że Ant wykorzystał krajowe chipy, w tym te od swojego partnera Alibaba Group Holding Ltd. i Huawei Technologies Co., do szkolenia modeli przy użyciu podejścia uczenia maszynowego Mixture of Experts (MoE).

Wyniki osiągnięte przez Ant były porównywalne z tymi uzyskanymi przy użyciu chipów Nvidia Corp., takich jak H800, potężny procesor, którego eksport do Chin jest ograniczony przez USA. Chociaż Ant nadal używa Nvidia do rozwoju AI, w coraz większym stopniu polega na alternatywach, w tym Advanced Micro Devices Inc. (AMD) i chińskich chipach, w swoich najnowszych modelach.

Wejście do wyścigu AI: Chiny kontra USA

Wkroczenie Ant w rozwój modeli AI stawia go w samym środku gorącej rywalizacji między chińskimi i amerykańskimi firmami. Ten wyścig nasilił się, odkąd DeepSeek zademonstrował potencjał szkolenia wysoce wydajnych modeli za ułamek kosztów ponoszonych przez gigantów branży, takich jak OpenAI i Alphabet Inc. (Google), którzy zainwestowali miliardy. Osiągnięcie Ant podkreśla determinację chińskich firm do wykorzystywania lokalnych alternatyw dla najbardziej zaawansowanych półprzewodników Nvidia.

Obietnica opłacalnego wnioskowania AI

Artykuł badawczy opublikowany przez Ant w tym miesiącu podkreśla potencjał jego modeli, twierdząc, że osiągają one lepsze wyniki w niektórych testach porównawczych w porównaniu z Meta Platforms Inc., chociaż te twierdzenia nie zostały niezależnie zweryfikowane przez Bloomberg News. Niemniej jednak, jeśli platformy Ant działają zgodnie z zapowiedziami, mogą stanowić znaczący postęp w chińskim rozwoju sztucznej inteligencji. Wynika to przede wszystkim z ich zdolności do drastycznego obniżenia kosztów wnioskowania, czyli procesu wspierania usług AI.

Mixture of Experts: Zmiana zasad gry w AI

W miarę jak firmy przeznaczają znaczne zasoby na AI, modele MoE zyskały na popularności jako popularne i wydajne podejście. Ta technika, stosowana przez firmy takie jak Google i startup DeepSeek z siedzibą w Hangzhou, polega na dzieleniu zadań na mniejsze zestawy danych. Jest to analogiczne do posiadania zespołu specjalistów, z których każdy koncentruje się na określonym segmencie pracy, optymalizując w ten sposób cały proces.

Pokonywanie wąskiego gardła GPU

Tradycyjnie szkolenie modeli MoE w dużej mierze opierało się na wysokowydajnych chipach, takich jak jednostki przetwarzania grafiki (GPU) produkowane przez Nvidia. Zaporowy koszt tych chipów był główną przeszkodą dla wielu mniejszych firm, ograniczając szerokie zastosowanie modeli MoE. Ant jednak pilnie pracował nad metodami bardziej efektywnego szkolenia dużych modeli językowych (LLM), skutecznie eliminując to ograniczenie. Tytuł ich artykułu badawczego, który stawia sobie za cel skalowanie modelu „bez premium GPU”, wyraźnie odzwierciedla ten cel.

Kwestionowanie dominacji Nvidia

Podejście Ant bezpośrednio kwestionuje dominującą strategię promowaną przez CEO Nvidia, Jensena Huanga. Huang konsekwentnie argumentował, że zapotrzebowanie na moc obliczeniową będzie nadal rosło, nawet wraz z pojawieniem się bardziej wydajnych modeli, takich jak R1 DeepSeek. Uważa, że firmy będą potrzebować lepszych chipów, aby generować wyższe przychody, a nie tańszych, aby obniżyć koszty. W rezultacie Nvidia nadal koncentruje się na budowaniu dużych GPU z ulepszonymi rdzeniami przetwarzania, tranzystorami i zwiększoną pojemnością pamięci.

Kwantyfikacja oszczędności kosztów

Ant przedstawił konkretne dane liczbowe, aby zademonstrować opłacalność swojego zoptymalizowanego podejścia. Firma stwierdziła, że szkolenie 1 biliona tokenów przy użyciu sprzętu o wysokiej wydajności kosztowałoby około 6,35 miliona juanów (880 000 USD). Jednak wykorzystując sprzęt o niższej specyfikacji i swoje zoptymalizowane techniki, Ant może obniżyć ten koszt do 5,1 miliona juanów. Tokeny reprezentują jednostki informacji, które model przetwarza, aby uczyć się o świecie i udzielać odpowiednich odpowiedzi na zapytania użytkowników.

Wykorzystanie przełomów AI do rozwiązań przemysłowych

Ant planuje wykorzystać swoje ostatnie postępy w dużych modelach językowych, w szczególności Ling-Plus i Ling-Lite, do opracowania przemysłowych rozwiązań AI dla sektorów takich jak opieka zdrowotna i finanse. Modele te są zaprojektowane tak, aby odpowiadać na specyficzne potrzeby branży i zapewniać dostosowane rozwiązania.

Rozszerzanie zastosowań AI w opiece zdrowotnej

Zaangażowanie Ant w opiekę zdrowotną jest widoczne w integracji chińskiej platformy internetowej Haodf.com z jej usługami sztucznej inteligencji. Poprzez stworzenie AI Doctor Assistant, Ant ma na celu wsparcie rozległej sieci 290 000 lekarzy Haodf, pomagając w zadaniach takich jak zarządzanie dokumentacją medyczną. To zastosowanie AI ma potencjał, aby znacznie poprawić wydajność i dokładność w świadczeniu opieki zdrowotnej.

Wsparcie oparte na AI w codziennym życiu

Poza opieką zdrowotną Ant opracował również aplikację „asystenta życia” AI o nazwie Zhixiaobao i usługę doradztwa finansowego AI o nazwie Maxiaocai. Te aplikacje demonstrują ambicję Ant, aby zintegrować AI z różnymi aspektami codziennego życia, zapewniając użytkownikom spersonalizowaną i inteligentną pomoc.

Porównywanie wydajności: modele Ling kontra konkurenci

W swoim artykule badawczym Ant twierdzi, że model Ling-Lite przewyższył jeden z modeli Llama firmy Meta w kluczowym teście porównawczym dla rozumienia języka angielskiego. Ponadto, zarówno modele Ling-Lite, jak i Ling-Plus wykazały lepszą wydajność w porównaniu z odpowiednikami DeepSeek w testach porównawczych w języku chińskim. To podkreśla konkurencyjną pozycję Ant w krajobrazie AI.

Jak trafnie stwierdził Robin Yu, dyrektor ds. technologii w pekińskim dostawcy rozwiązań AI Shengshang Tech Co.: „Jeśli znajdziesz jeden punkt ataku, aby pokonać najlepszego mistrza kung fu na świecie, nadal możesz powiedzieć, że go pokonałeś, dlatego ważne jest zastosowanie w świecie rzeczywistym”.

Open-Sourcing dla współpracy i innowacji

Ant udostępnił modele Ling jako open source, wspierając współpracę i innowacje w społeczności AI. Ling-Lite zawiera 16,8 miliarda parametrów, które są regulowanymi ustawieniami kontrolującymi wydajność modelu. Ling-Plus z kolei ma znacznie większą liczbę 290 miliardów parametrów, co plasuje go wśród większych modeli językowych. Dla kontekstu, eksperci szacują, że GPT-4.5 ChatGPT ma około 1,8 biliona parametrów, podczas gdy DeepSeek-R1 ma 671 miliardów.

Rozwiązywanie problemów w szkoleniu modeli

Droga Ant w opracowywaniu tych modeli nie była pozbawiona wyzwań. Firma napotkała trudności w niektórych obszarach szkolenia, szczególnie w zakresie stabilności. Nawet niewielkie zmiany w sprzęcie lub strukturze modelu mogą prowadzić do problemów, w tym wahań wskaźnika błędów modeli. Podkreśla to złożoność i wrażliwość związaną ze szkoleniem zaawansowanych modeli AI.

Wdrożenie w świecie rzeczywistym w opiece zdrowotnej

Zaangażowanie Ant w praktyczne zastosowania jest dodatkowo demonstrowane przez wdrożenie maszyn z dużymi modelami skoncentrowanymi na opiece zdrowotnej. Maszyny te są obecnie wykorzystywane przez siedem szpitali i dostawców usług opieki zdrowotnej w głównych miastach, takich jak Pekin i Szanghaj. Duży model wykorzystuje DeepSeek R1, Qwen Alibaba i własny LLM Ant, aby świadczyć usługi doradztwa medycznego.

Agenci AI dla ulepszonych usług opieki zdrowotnej

Oprócz maszyn z dużymi modelami, Ant wprowadził dwóch medycznych agentów AI: Angel i Yibaoer. Angel obsłużył już ponad 1000 placówek medycznych, podczas gdy Yibaoer zapewnia wsparcie dla usług ubezpieczeń medycznych. Ponadto, we wrześniu ubiegłego roku, Ant uruchomił usługę AI Healthcare Manager w swojej aplikacji płatniczej Alipay, jeszcze bardziej rozszerzając swój zasięg w sektorze opieki zdrowotnej. Inicjatywy te demonstrują zaangażowanie Ant w wykorzystanie AI do transformacji i poprawy świadczenia opieki zdrowotnej.