Ant’s innovatieve aanpak voor AI-modeltraining
Ant Group, de fintech-gigant gesteund door Jack Ma, heeft een significante doorbraak bereikt in artificiële intelligentie door gebruik te maken van Chinese halfgeleiders. Deze innovatieve aanpak heeft het bedrijf in staat gesteld technieken te ontwikkelen voor het trainen van AI-modellen, wat resulteert in een opmerkelijke kostenreductie van 20%. Bronnen die bekend zijn met de zaak hebben onthuld dat Ant gebruikmaakte van binnenlandse chips, waaronder die van zijn dochteronderneming Alibaba Group Holding Ltd. en Huawei Technologies Co., om modellen te trainen met behulp van de Mixture of Experts (MoE) machine learning-aanpak.
De resultaten die Ant behaalde, waren vergelijkbaar met die verkregen met behulp van Nvidia Corp.’s chips, zoals de H800, een krachtige processor waarvan de export naar China door de VS is beperkt. Hoewel Ant Nvidia blijft gebruiken voor AI-ontwikkeling, vertrouwt het in toenemende mate op alternatieven, waaronder Advanced Micro Devices Inc. (AMD) en Chinese chips, voor zijn nieuwste modellen.
Deelnemen aan de AI-race: China versus de VS
Ant’s intrede in de ontwikkeling van AI-modellen plaatst het midden in een verhitte concurrentiestrijd tussen Chinese en Amerikaanse bedrijven. Deze race is geïntensiveerd sinds DeepSeek het potentieel demonstreerde van het trainen van zeer capabele modellen tegen een fractie van de kosten die worden gemaakt door industriegiganten als OpenAI en Alphabet Inc.’s Google, die miljarden hebben geïnvesteerd. Ant’s prestatie onderstreept de vastberadenheid van Chinese bedrijven om lokaal geproduceerde alternatieven te gebruiken voor de meest geavanceerde Nvidia-halfgeleiders.
De belofte van kosteneffectieve AI-inferencing
Het onderzoeksrapport dat Ant deze maand publiceerde, benadrukt het potentieel van zijn modellen, en claimt superieure prestaties in bepaalde benchmarks in vergelijking met Meta Platforms Inc., hoewel deze claims niet onafhankelijk zijn geverifieerd door Bloomberg News. Niettemin, als Ant’s platforms presteren zoals geadverteerd, zouden ze een significante vooruitgang kunnen betekenen in de Chinese ontwikkeling van artificiële intelligentie. Dit komt voornamelijk door hun vermogen om de kosten van inferencing, het proces van het ondersteunen van AI-diensten, drastisch te verlagen.
Mixture of Experts: Een game-changer in AI
Terwijl bedrijven aanzienlijke middelen in AI investeren, hebben MoE-modellen aan bekendheid gewonnen als een populaire en efficiënte aanpak. Deze techniek, gebruikt door bedrijven als Google en de in Hangzhou gevestigde startup DeepSeek, omvat het verdelen van taken in kleinere sets van data. Dit is analoog aan het hebben van een team van specialisten, die zich elk richten op een specifiek segment van een taak, waardoor het algehele proces wordt geoptimaliseerd.
Het overwinnen van de GPU-bottleneck
Traditioneel is de training van MoE-modellen sterk afhankelijk geweest van hoogwaardige chips, zoals de grafische verwerkingseenheden (GPU’s) vervaardigd door Nvidia. De onbetaalbare kosten van deze chips zijn een groot obstakel geweest voor veel kleinere bedrijven, waardoor de wijdverspreide adoptie van MoE-modellen werd beperkt. Ant heeft echter ijverig gewerkt aan methoden om grote taalmodellen (LLM’s) efficiënter te trainen, waardoor deze beperking effectief wordt weggenomen. De titel van hun onderzoeksrapport, die als doel stelt een model te schalen ‘without premium GPUs’, weerspiegelt duidelijk deze doelstelling.
De dominantie van Nvidia uitdagen
Ant’s aanpak daagt direct de heersende strategie uit die wordt bepleit door Nvidia’s CEO, Jensen Huang. Huang heeft consequent betoogd dat de computationele vraag zal blijven groeien, zelfs met de opkomst van efficiëntere modellen zoals DeepSeek’s R1. Hij gelooft dat bedrijven betere chips nodig zullen hebben om hogere inkomsten te genereren, in plaats van goedkopere om de kosten te verlagen. Bijgevolg heeft Nvidia zijn focus behouden op het bouwen van grote GPU’s met verbeterde verwerkingskernen, transistors en verhoogde geheugencapaciteit.
Kwantificering van de kostenbesparingen
Ant heeft concrete cijfers verstrekt om de kosteneffectiviteit van zijn geoptimaliseerde aanpak aan te tonen. Het bedrijf verklaarde dat het trainen van 1 biljoen tokens met behulp van hoogwaardige hardware ongeveer 6,35 miljoen yuan ($880.000) zou kosten. Door echter gebruik te maken van hardware met lagere specificaties en zijn geoptimaliseerde technieken, kan Ant deze kosten verlagen tot 5,1 miljoen yuan. Tokens vertegenwoordigen de informatie-eenheden die een model verwerkt om over de wereld te leren en relevante antwoorden te geven op vragen van gebruikers.
AI-doorbraken benutten voor industriële oplossingen
Ant is van plan om zijn recente vorderingen in grote taalmodellen, met name Ling-Plus en Ling-Lite, te benutten om industriële AI-oplossingen te ontwikkelen voor sectoren als de gezondheidszorg en de financiële sector. Deze modellen zijn ontworpen om te voldoen aan specifieke behoeften van de industrie en bieden op maat gemaakte oplossingen.
Uitbreiding van AI-toepassingen in de gezondheidszorg
Ant’s toewijding aan de gezondheidszorg blijkt uit de integratie van het Chinese online platform Haodf.com in zijn artificiële intelligentiediensten. Door de creatie van AI Doctor Assistant wil Ant het uitgebreide netwerk van 290.000 artsen van Haodf ondersteunen door te helpen bij taken zoals het beheer van medische dossiers. Deze toepassing van AI heeft het potentieel om de efficiëntie en nauwkeurigheid in de gezondheidszorg aanzienlijk te verbeteren.
AI-aangedreven assistentie voor het dagelijks leven
Naast de gezondheidszorg heeft Ant ook een AI ‘life assistant’-app genaamd Zhixiaobao en een financiële adviesdienst met AI genaamd Maxiaocai ontwikkeld. Deze toepassingen demonstreren Ant’s ambitie om AI te integreren in verschillende aspecten van het dagelijks leven, en gebruikers te voorzien van gepersonaliseerde en intelligente assistentie.
Benchmarking van prestaties: Ling-modellen versus concurrenten
In zijn onderzoeksrapport claimt Ant dat het Ling-Lite-model beter presteerde dan een van Meta’s Llama-modellen in een belangrijke benchmark voor Engels-talig begrip. Bovendien demonstreerden zowel Ling-Lite- als Ling-Plus-modellen superieure prestaties in vergelijking met DeepSeek’s equivalenten op Chinese-talige benchmarks. Dit benadrukt Ant’s concurrentiepositie in het AI-landschap.
Zoals Robin Yu, chief technology officer van de in Beijing gevestigde AI-oplossingenaanbieder Shengshang Tech Co., treffend stelde: ‘If you find one point of attack to beat the world’s best kung fu master, you can still say you beat them, which is why real-world application is important.’ (‘Als je één aanvalspunt vindt om de beste kung fu-meester ter wereld te verslaan, kun je nog steeds zeggen dat je ze hebt verslagen, en daarom is toepassing in de echte wereld belangrijk.’)
Open-sourcing voor samenwerking en innovatie
Ant heeft de Ling-modellen open source gemaakt, waardoor samenwerking en innovatie binnen de AI-gemeenschap worden bevorderd. Ling-Lite omvat 16,8 miljard parameters, dit zijn instelbare instellingen die de prestaties van het model regelen. Ling-Plus daarentegen beschikt over een aanzienlijk grotere 290 miljard parameters, waardoor het tot de grotere taalmodellen behoort. Om context te bieden, schatten experts dat ChatGPT’s GPT-4.5 ongeveer 1,8 biljoen parameters heeft, terwijl DeepSeek-R1 671 miljard heeft.
Uitdagingen in modeltraining aanpakken
Ant’s reis in het ontwikkelen van deze modellen is niet zonder uitdagingen geweest. Het bedrijf ondervond moeilijkheden op bepaalde gebieden van training, met name met betrekking tot stabiliteit. Zelfs kleine wijzigingen in de hardware of de structuur van het model konden leiden tot problemen, waaronder fluctuaties in de foutenmarge van de modellen. Dit onderstreept de complexiteit en gevoeligheid die betrokken zijn bij het trainen van geavanceerde AI-modellen.
Real-world implementatie in de gezondheidszorg
Ant’s toewijding aan praktische toepassingen wordt verder gedemonstreerd door de implementatie van op de gezondheidszorg gerichte grote modelmachines. Deze machines worden momenteel gebruikt door zeven ziekenhuizen en zorgaanbieders in grote steden als Beijing en Shanghai. Het grote model maakt gebruik van DeepSeek R1, Alibaba’s Qwen en Ant’s eigen LLM om medische adviesdiensten te leveren.
AI-agenten voor verbeterde gezondheidszorgdiensten
Naast de grote modelmachines heeft Ant twee medische AI-agenten geïntroduceerd: Angel en Yibaoer. Angel heeft al meer dan 1.000 medische faciliteiten bediend, terwijl Yibaoer ondersteuning biedt voor medische verzekeringsdiensten. Bovendien lanceerde Ant in september van het voorgaande jaar de AI Healthcare Manager-service binnen zijn Alipay-betalingsapp, waarmee het zijn bereik in de gezondheidszorg verder uitbreidde. Deze initiatieven tonen Ant’s toewijding aan het benutten van AI om de gezondheidszorg te transformeren en te verbeteren.