Ant Group: Mkakati wa Chip za Ndani Katika AI Compute

Ushindani Mkubwa Katika Mbio za Kimataifa za Vifaa vya AI

Mazingira ya maendeleo ya akili bandia (AI) yanazidi kufafanuliwa sio tu na mafanikio ya kialgoriti bali pia na upatikanaji wa vifaa vya kisasa vinavyohitajika kufunza na kuendesha modeli kubwa. Katika moyo wa mlinganyo huu wa vifaa kuna kitengo cha usindikaji wa michoro (GPU), sehemu ambayo awali ilibuniwa kwa ajili ya kuonyesha picha lakini sasa ni muhimu sana kwa mahitaji ya usindikaji sambamba wa AI. Kwa miaka mingi, Nvidia Corporation imesimama kama jitu lisilopingika katika uwanja huu, GPU zake za hali ya juu zikiwa kiwango cha dhahabu, zikiendesha uvumbuzi kote Silicon Valley na kwingineko. Hata hivyo, utawala huu umeweka kampuni hiyo, na wateja wake, moja kwa moja katika mivutano ya kijiografia na kisiasa.

Vikwazo vikali vya usafirishaji vilivyowekwa na Washington kwa lengo la kuzuia China kupata teknolojia ya hali ya juu ya semiconductor vimebadilisha kimsingi soko. Vikwazo hivi vinalenga hasa GPU zenye utendaji wa juu, kama zile zinazozalishwa na Nvidia, zinazoonekana kuwa muhimu kwa matumizi ya hali ya juu ya AI, ikiwa ni pamoja na yale yenye uwezekano wa matumizi ya kijeshi. Athari ya haraka ilikuwa ni harakati kubwa ndani ya sekta ya teknolojia inayokua kwa kasi nchini China. Makampuni yaliyowekeza sana katika AI, kutoka kwa makubwa yaliyoimarika hadi kwa yale mapya yenye matarajio makubwa, yalikabiliwa na uwezekano wa ghafla wa kukatwa kutoka kwa zana muhimu zinazoendesha wimbi linalofuata la maendeleo ya kiteknolojia. Hii ilileta ulazima wa haraka: kutafuta njia mbadala zinazowezekana au kuhatarisha kuachwa nyuma katika uwanja wenye ushindani wa kimataifa. Changamoto haikuwa tu kuhusu kubadilisha chip moja na nyingine; ilihusisha kupitia mtandao tata wa tofauti za utendaji, masuala ya utangamano wa programu, na ukubwa mkubwa unaohitajika kwa kufunza modeli zenye mamia ya mabilioni, au hata matrilioni, ya vigezo.

Ant Group Yaweka Mwelekeo Kuelekea Uhuru wa Compute

Katika muktadha huu wa kutokuwa na uhakika wa mnyororo wa ugavi na ushindani unaoongezeka wa kiteknolojia, Ant Group, kampuni kubwa ya fintech inayohusishwa na Alibaba Group Holding, imeashiria hatua kubwa kuelekea kujitosheleza zaidi katika uwezo wa kikokotozi. Ufichuzi wa hivi karibuni, ulioelezwa kwa kina katika karatasi ya utafiti na timu ya Ling ya kampuni hiyo – kitengo kinachoongoza mipango yake ya modeli kubwa za lugha (LLM) – unaonyesha mafanikio katika kuachana na njia inayotegemea Nvidia. Kiini cha mafanikio haya kiko katika uwezo wao wa kufunza kwa ufanisi modeli ya kisasa ya AI kwa kutumia GPU zilizozalishwa nchini.

Modeli inayohusika, iitwayo Ling-Plus-Base, si nyepesi. Imeundwa kwa kutumia usanifu wa Mixture-of-Experts (MoE), mbinu inayopata umaarufu kwa ufanisi wake katika kuongeza ukubwa wa LLM. Ikiwa na vigezo vikubwa bilioni 300, Ling-Plus-Base inafanya kazi katika ligi inayolingana na modeli nyingine maarufu za kimataifa. Tofauti muhimu, hata hivyo, ni vifaa vinavyotumika katika mafunzo yake. Kulingana na matokeo ya utafiti, modeli hii yenye nguvu inaweza kukuzwa hadi ukomavu kwenye kile ambacho timu inakielezea kama ‘vifaa vya utendaji wa chini’. Maneno haya yaliyochaguliwa kwa uangalifu yanaelekeza moja kwa moja kwenye utumiaji wa vitengo vya usindikaji ambavyo viko nje ya wigo wa vikwazo vya usafirishaji vya Marekani, ikidokeza kwa nguvu matumizi ya chip zilizobuniwa na kutengenezwa ndani ya China.

Maendeleo haya ni zaidi ya suluhisho la kiufundi tu; yanawakilisha mabadiliko ya kimkakati yanayowezekana. Kwa kuonyesha uwezo wa kufunza modeli za hali ya juu bila kutegemea pekee vifaa vya kigeni vya daraja la juu vilivyozuiliwa, Ant Group haipunguzi tu hatari za mnyororo wa ugavi bali pia inaweza kufungua ufanisi mkubwa wa gharama.

Mlinganyo wa Kiuchumi: Kupunguza Gharama za Mafunzo

Moja ya takwimu zinazovutia zaidi zinazotokana na utafiti wa timu ya Ling ni ripoti ya kupungua kwa gharama za kompyuta kwa asilimia 20 wakati wa awamu muhimu ya mafunzo ya awali ya modeli ya Ling-Plus-Base. Mafunzo ya awali yanajulikana kwa kutumia rasilimali nyingi, ikihusisha kulisha modeli hifadhidata kubwa ili kujifunza mifumo ya lugha, muktadha, na maarifa. Inachukua sehemu kubwa ya gharama ya jumla inayohusiana na kuendeleza LLM za msingi. Kufikia upunguzaji wa gharama wa moja ya tano katika awamu hii, kwa hivyo, kunatafsiriwa kuwa akiba kubwa, inayoweza kuachilia mtaji kwa utafiti zaidi, maendeleo, au usambazaji kwa kiwango kikubwa.

Je, akiba hii ya gharama inafikiwaje? Ingawa karatasi haitoi maelezo ya kina ya mgawanyo wa gharama, mambo kadhaa yanaweza kuchangia:

  1. Ununuzi wa Vifaa: GPU zilizozalishwa nchini, hata kama zina nguvu kidogo kibinafsi kuliko matoleo ya juu ya Nvidia, zinaweza kuja kwa bei ya chini ya ununuzi au kutoa punguzo la bei nzuri zaidi kwa ununuzi wa wingi ndani ya soko la China, hasa kwa kuzingatia ugavi mdogo wa chip za hali ya juu za Nvidia.
  2. Ufanisi wa Nishati: Ingawa haijaelezwa wazi, kuboresha mafunzo kwa chip za ndani ambazo zinaweza kutumia nguvu kidogo (ingawa labda zina utendaji mdogo kwa kila kitengo) kunaweza kuchangia gharama za chini za uendeshaji wa nishati, jambo muhimu katika kuendesha vituo vikubwa vya data.
  3. Uboreshaji wa Kialgoriti na Usanifu: Matumizi ya usanifu wa MoE yenyewe ni muhimu. Modeli za MoE huwasha tu mitandao midogo maalum ya ‘wataalamu’ kwa ingizo fulani, badala ya kuhusisha modeli nzima kama usanifu mnene. Upungufu huu wa asili unaweza kupunguza kwa kiasi kikubwa mzigo wa kikokotozi wakati wa mafunzo na utoaji wa majibu, na kuifanya iwezekane kufikia matokeo mazuri hata kwa nguvu ndogo ya usindikaji kwa kila chip. Mafanikio ya Ant yanapendekeza programu za kisasa na urekebishaji wa kialgoriti ili kuongeza ufanisi wa vifaa vya ndani vinavyopatikana.

Upunguzaji huu wa gharama sio tu faida ya kihasibu; unapunguza kizuizi cha kuingia kwa ajili ya kuendeleza modeli za kiwango kikubwa na unaweza kuharakisha kasi ya uvumbuzi wa AI ndani ya kampuni na uwezekano katika mfumo mpana wa teknolojia wa China ikiwa mbinu hizo zitathibitika kuwa zinaweza kuigwa.

Usawa wa Utendaji: Kuziba Pengo la Vifaa?

Akiba ya gharama inavutia, lakini haina maana kubwa ikiwa modeli ya AI inayotokana inafanya kazi chini ya kiwango kwa kiasi kikubwa. Timu ya Ling ya Ant inashughulikia hili moja kwa moja, ikidai kuwa Ling-Plus-Base inafikia utendaji unaolingana na modeli nyingine zinazoheshimika katika uwanja huo. Hasa, walilinganisha ubunifu wao dhidi ya modeli kama Qwen2.5-72B-Instruct (iliyoundwa na kampuni mama Alibaba) na DeepSeek-V2.5-1210-Chat, LLM nyingine maarufu ya China.

Dai la ‘utendaji unaolingana’ licha ya kutumia ‘vifaa vya utendaji wa chini’ ni la kuzingatiwa. Linapendekeza kuwa Ant inaweza kuwa imepata njia bora za kufidia upungufu wowote wa kikokotozi kupitia:

  • Usanifu wa Hali ya Juu wa Modeli: Muundo wa MoE ni muhimu hapa, ukisambaza mzigo wa kazi kwa ufanisi.
  • Uboreshaji wa Programu: Kurekebisha mkusanyiko wa programu za mafunzo (kama mifumo ya usambamba na maktaba za nambari) mahsusi kwa usanifu wa GPU za ndani zinazotumiwa ni muhimu. Hii mara nyingi inahusisha juhudi kubwa za kihandisi.
  • Usimamizi wa Data na Mbinu za Mafunzo: Mbinu za kisasa za kuchagua data ya mafunzo na kuboresha mchakato wa mafunzo yenyewe zinaweza kuathiri kwa kiasi kikubwa ubora wa mwisho wa modeli, wakati mwingine kufidia mapungufu ya vifaa.

Ni muhimu kukaribia madai ya utendaji kwa uangalifu. ‘Inayolingana’ inaweza kujumuisha matokeo mbalimbali katika vigezo tofauti (k.m., uelewa wa lugha, hoja, uzalishaji, uandishi wa msimbo). Bila upatikanaji wa matokeo ya kina ya vigezo katika majaribio mengi sanifu, ulinganisho sahihi unabaki kuwa changamoto. Hata hivyo, dai lenyewe linaashiria imani ya Ant kwamba mbinu yake haihitaji maelewano yanayolemaza kati ya gharama/upatikanaji na uwezo. Inaonyesha njia ya kudumisha ushindani hata ndani ya vikwazo vilivyowekwa na vizuizi vya vifaa.

Watafiti wenyewe walisisitiza athari pana zaidi: ‘Matokeo haya yanaonyesha uwezekano wa kufunza modeli za kisasa za MoE za kiwango kikubwa kwenye vifaa vyenye nguvu kidogo, kuwezesha mbinu rahisi zaidi na yenye gharama nafuu kwa maendeleo ya modeli za msingi kuhusiana na uteuzi wa rasilimali za kompyuta.’ Hii inaelekeza kwenye aina ya ugatuzi, kuruhusu maendeleo ya AI ya hali ya juu kuendelea hata wakati upatikanaji wa kilele kabisa cha nguvu ya usindikaji ni mdogo.

Kuelewa Faida ya Mixture-of-Experts (MoE)

Usanifu wa Mixture-of-Experts ni kiini cha mafanikio yaliyoripotiwa na Ant Group. Unawakilisha kuondoka kutoka kwa modeli za jadi za mtandao wa neva ‘mnene’ ambapo kila ingizo huwasha kila kigezo. Katika modeli ya MoE:

  • Modeli inaundwa na mitandao mingi midogo, maalum ya ‘wataalamu’.
  • Mfumo wa ‘mtandao wa lango’ au ‘router’ hujifunza kuelekeza data inayoingia (tokens, katika kesi ya LLM) kwa mtaalamu/wataalamu husika zaidi kwa usindikaji.
  • Ni mtaalamu/wataalamu waliochaguliwa tu – mara nyingi mmoja au wawili tu kati ya mamia yanayoweza kuwepo – ndio hufanya hesabu kwa kipande hicho maalum cha data.

Mbinu hii inatoa faida kadhaa muhimu, hasa zinazohusiana na muktadha wa vikwazo vya vifaa:

  1. Uwezo wa Kuongezeka: MoE inaruhusu modeli kukua hadi idadi kubwa sana ya vigezo (matrilioni yanakuwa yanawezekana) bila ongezeko sawia la gharama ya kikokotozi kwa kuchakata kila tokeni ya ingizo wakati wa utoaji wa majibu au hata wakati wa hatua za mafunzo. Hii ni kwa sababu ni sehemu ndogo tu ya jumla ya vigezo ndiyo inayofanya kazi wakati wowote.
  2. Ufanisi wa Mafunzo: Ingawa kufunza modeli za MoE kuna ugumu wake (kama kusawazisha mzigo kati ya wataalamu), hesabu iliyopunguzwa kwa kila tokeni inaweza kutafsiriwa kuwa nyakati za mafunzo za haraka zaidi au, kama Ant inavyoonyesha, uwezo wa kufunza kwa ufanisi kwenye vifaa vyenye nguvu kidogo ndani ya muda unaokubalika.
  3. Umaalumu: Kila mtaalamu anaweza kuwa na utaalamu katika aina tofauti za data, kazi, au nyanja za maarifa, na uwezekano wa kusababisha matokeo ya hali ya juu katika maeneo maalum.

Maabara zinazoongoza za AI ulimwenguni kote zimekubali MoE, ikiwa ni pamoja na Google (GShard, Switch Transformer), Mistral AI (modeli za Mixtral), na ndani ya China, makampuni kama DeepSeek na Alibaba (ambao modeli zao za Qwen zinajumuisha vipengele vya MoE). Ling-Plus-Base ya Ant inaiweka imara ndani ya kundi hili la mbele, ikitumia uvumbuzi wa usanifu ili kukabiliana na hali halisi ya vifaa.

Mfumo wa Ikolojia wa Vifaa vya Ndani: Kujaza Pengo la Nvidia

Ingawa karatasi ya utafiti ya Ant ilijizuia kutaja wazi vifaa vilivyotumika, ripoti za baadaye, hasa kutoka Bloomberg, zilionyesha kuwa mafanikio hayo yalihusisha chip zilizobuniwa nchini. Hii inajumuisha vichakataji vinavyoweza kutoka kwa mshirika wa Ant, Alibaba, ambayo ina kitengo chake cha kubuni chip T-Head (kinachozalisha CPU kama Yitian 710 na hapo awali kilichunguza vichapuzi vya AI), na muhimu zaidi, Huawei Technologies.

Huawei, licha ya kukabiliwa na vikwazo vikali vya Marekani yenyewe, imekuwa ikiendeleza kwa nguvu mfululizo wake wa vichapuzi vya AI vya Ascend (kama Ascend 910B) kama mbadala wa moja kwa moja kwa matoleo ya Nvidia ndani ya soko la China. Chip hizi zinaripotiwa kupitishwa na makampuni makubwa ya teknolojia ya China. Uwezo wa Ant Group kutumia kwa ufanisi vifaa kama hivyo kwa modeli kubwa kama Ling-Plus-Base ungewakilisha uthibitisho muhimu wa njia hizi mbadala za ndani.

Ni muhimu kutambua kwamba Ant Group haijaachana kabisa na Nvidia. Ripoti zinaonyesha kuwa chip za Nvidia bado ni sehemu ya zana za maendeleo ya AI za Ant, ambazo zinaweza kutumika kwa kazi ambapo sifa zao maalum za utendaji au mfumo wa programu uliokomaa (kama CUDA) hutoa faida, au kwa mifumo ya zamani. Hatua hiyo si lazima iwe kuhusu ubadilishaji kamili mara moja bali kuhusu kujenga njia mbadala zinazowezekana, sambamba ambazo zinapunguza udhaifu wa kimkakati na kudhibiti gharama. Mbinu hii mseto inaruhusu kampuni kutumia zana bora zinazopatikana huku ikikuza uhuru. Ant Group yenyewe ilidumisha kiwango cha busara ya kibiashara, ikikataa kutoa maoni rasmi juu ya chip maalum zilizotumika.

Mwenendo Mpana Zaidi: Msukumo wa Pamoja wa China Kujitegemea Katika AI

Mpango wa Ant Group haufanyiki peke yake. Unaakisi msukumo mpana wa kimkakati katika sekta ya teknolojia ya China ili kuvumbua kuzunguka mapungufu yaliyowekwa na udhibiti wa usafirishaji wa Marekani. ‘Vita vya teknolojia’ vimechochea juhudi za kufikia kujitosheleza zaidi katika teknolojia muhimu, hasa semiconductors na AI.

Wachezaji wengine wakubwa wanafuata malengo sawa:

  • ByteDance: Kampuni mama ya TikTok pia inaripotiwa kufanya kazi ili kupata na kutumia chip mbadala, ikiwa ni pamoja na chaguzi za ndani, kwa matarajio yake ya AI, ambayo yanajumuisha algoriti za mapendekezo, AI ya uzalishaji, na zaidi.
  • DeepSeek: Kampuni hii changa ya AI, inayojulikana kwa modeli zake zenye nguvu za chanzo huria, inataja wazi ufanisi wa mafunzo na imeunda modeli kwa kutumia usanifu wa MoE, ikiendana na mikakati ambayo haitegemei sana kuwa na makundi makubwa ya GPU zenye nguvu zaidi pekee.
  • Baidu, Tencent, na wengine: Makampuni yote makubwa ya wingu na teknolojia ya China yanawekeza sana katika AI na bila shaka yanachunguza mikakati ya mseto wa vifaa, ikiwa ni pamoja na kuboresha kwa chip za ndani na uwezekano wa kuendeleza silicon yao wenyewe maalum.

Ujumbe wa pamoja uko wazi: ingawa upatikanaji wa bidhaa za daraja la juu za Nvidia bado unatamaniwa, sekta ya teknolojia ya China inaendeleza kikamilifu na kuthibitisha suluhisho mbadala. Hii inahusisha mbinu yenye pande nyingi: kukumbatia usanifu bora wa modeli kama MoE, uboreshaji mkubwa wa programu kwa ajili ya mifumo tofauti ya vifaa, na kusaidia maendeleo na upitishwaji wa chip zilizozalishwa nchini.

Zaidi ya Modeli za Lugha: Upanuzi wa AI wa Ant Katika Huduma za Afya

Juhudi za AI za Ant Group zinaenea zaidi ya LLM za msingi. Sambamba na habari kuhusu ufanisi wake wa mafunzo, kampuni ilifunua maboresho makubwa kwa seti yake ya suluhisho za AI zilizolengwa kwa sekta ya huduma za afya. Mpango huu unatumia modeli tofauti ya AI iliyojitengenezea yenyewe, inayolenga afya.

Suluhisho zilizoboreshwa zina uwezo wa multimodal (kuchakata aina mbalimbali za data kama maandishi, picha, na uwezekano wa data nyingine za kimatibabu) na hoja za kimatibabu za kisasa. Hizi zimeunganishwa katika kile ambacho Ant inakielezea kama ‘mashine za kila kitu’, labda vifaa au majukwaa yaliyoundwa kwa ajili ya mazingira ya kliniki au usimamizi wa afya.

Ingawa inaonekana kuwa tofauti na habari za Ling-Plus-Base LLM, kuna uhusiano wa msingi unaowezekana. Uwezo wa kufunza modeli zenye nguvu za AI kwa gharama nafuu zaidi, uwezekano wa kutumia mchanganyiko wa vifaa ikiwa ni pamoja na chaguzi za ndani, unaweza kuimarisha uwezekano wa kiuchumi wa kuendeleza na kupeleka modeli maalum kwa sekta kama huduma za afya. Kupunguza gharama za msingi za maendeleo ya AI kunaruhusu rasilimali kuelekezwa kwenye matumizi maalum ya kikoa, na uwezekano wa kuharakisha utoaji wa zana za vitendo za AI katika tasnia muhimu. Msukumo huu wa huduma za afya unasisitiza azma ya Ant kutumia utaalamu wake wa AI kwa upana, ikisonga mbele zaidi ya mizizi yake ya fintech.

Athari kwa Baadaye: Njia Panda Katika Barabara ya AI?

Mafanikio ya Ant Group katika kufunza modeli kubwa ya MoE kwa kutumia GPU zisizo za Nvidia, ambazo zinawezekana kuwa za ndani, yana athari kubwa:

  • Uthibitisho kwa Chip za Ndani: Inatumika kama uthibitisho muhimu wa uwezekano wa vichapuzi vya AI vilivyobuniwa China kama Ascend ya Huawei, na uwezekano wa kuongeza upitishwaji wao ndani ya China.
  • Mazingira ya Ushindani: Inaonyesha kuwa makampuni ya China yanaweza kubaki na ushindani katika maendeleo ya AI ya hali ya juu licha ya vikwazo, yakitumia uvumbuzi wa usanifu na programu.
  • Mienendo ya Gharama: Upunguzaji wa gharama wa 20% unaangazia faida inayowezekana ya ushindani kwa makampuni yanayoweza kutumia kwa ufanisi vifaa mbadala, na uwezekano wa kuathiri bei na upatikanaji wa AI duniani.
  • Nafasi ya Nvidia: Ingawa Nvidia inabaki kutawala duniani kote, mwenendo huu unasisitiza changamoto inazokabiliana nazo katika soko kubwa la China kutokana na kanuni na kuongezeka kwa washindani wa ndani. Inaweza kuharakisha maendeleo ya Nvidia ya chip zinazokidhi mahitaji ya usafirishaji zilizolengwa kwa China, lakini pia inathibitisha njia mbadala.
  • Mgawanyiko wa Kiteknolojia?: Kwa muda mrefu, kuendelea kwa tofauti katika upatikanaji wa vifaa na uboreshaji wa programu kunaweza kusababisha mifumo ya ikolojia ya AI iliyotengana kwa kiasi, na modeli na zana zilizoboreshwa kwa silicon tofauti za msingi.

Safari iliyofanywa na timu ya Ling ya Ant Group ni mfano wa ujanja unaochochewa na vikwazo vya kijiografia na kisiasa. Kwa kuchanganya kwa ujanja usanifu wa hali ya juu wa modeli kama MoE na utayari wa kuboresha na kutumia vifaa vya ndani vinavyopatikana, wameweka njia inayohakikisha maendeleo endelevu katika uwanja muhimu wa akili bandia, na uwezekano wa kuunda upya miundo ya gharama na utegemezi wa kimkakati unaofafanua tasnia hiyo. Ni ushahidi wa wazo kwamba uvumbuzi mara nyingi hustawi zaidi chini ya shinikizo.