Huawei Technologies, kampuni inayokabiliwa na vikwazo vikubwa vya kiteknolojia kutokana na vikwazo vya Marekani, imeripotiwa kufikia mafanikio makubwa katika mafunzo ya akili bandia (AI). Watafiti wanaofanya kazi kwenye lugha kubwa ya lugha ya Huawei (LLM), Pangu, wanadai kuwa wameunda mbinu iliyoimarishwa ambayo inazidi mbinu ya asili ya DeepSeek. Njia hii ya ubunifu inatumia vifaa vya wamiliki wa Huawei, kupunguza utegemezi wa kampuni kwenye teknolojia za Marekani, lengo muhimu katika mazingira ya sasa ya kisiasa.
Uibukaji wa Mchanganyiko wa Wataalamu Waliogawanywa (MoGE)
Msingi wa maendeleo ya Huawei uko katika dhana ya Mchanganyiko wa Wataalamu Waliogawanywa (MoGE). Mbinu hii mpya, iliyoelezwa kwa kina katika karatasi iliyochapishwa na timu ya Pangu ya Huawei, inawasilishwa kama toleo lililoboreshwa la mbinu ya Mchanganyiko wa Wataalamu (MoE). MoE imethibitisha kuwa muhimu katika kuunda modeli za AI za gharama nafuu, kama ilivyoonyeshwa na mafanikio ya DeepSeek.
MoE inatoa faida kwa vigezo vikubwa vya modeli, na kusababisha uwezo ulioimarishwa wa kujifunza. Hata hivyo, watafiti wa Huawei waligundua ufanisi unaotokana na uanzishaji usio sawa wa “wataalamu,” vipengele muhimu katika mafunzo ya AI, ambayo inaweza kuzuia utendaji wakati wa kuendesha kazi kwenye vifaa vingi kwa wakati mmoja. MoGE ya Huawei inashughulikia kimkakati changamoto hizi.
Kushughulikia Ufanisi katika Modeli za MoE za Jadi
Mfumo wa MoGE umeundwa kwa ustadi ili kuboresha usambazaji wa mzigo wa kazi. Wazo kuu ni “kugawa” wataalamu pamoja wakati wa mchakato wa uteuzi, na kusababisha usambazaji bora wa mzigo wa kazi. Kwa kusambaza sawasawa mzigo wa hesabu, watafiti waliripoti uboreshaji mashuhuri katika utendaji wa mazingira ya kompyuta sambamba, kipengele muhimu cha mafunzo ya kisasa ya AI.
Dhana ya “wataalamu” katika mafunzo ya AI inahusu modeli ndogo maalum au vipengele ndani ya modeli kubwa, pana zaidi. Kila mtaalamu ameundwa kwa ustadi kushughulikia kazi maalum sana au aina za data. Mbinu hii inatumia utaalamu maalum uliotofautiana, kuruhusu mfumo mkuu wa AI kuboresha kwa kiasi kikubwa utendaji wake kwa ujumla.
Maana kwa Maendeleo ya AI ya China
Maendeleo haya yanafaa hasa kwa wakati. Kampuni za AI za China, licha ya kukabiliwa na vikwazo vya Marekani juu ya uagizaji wa chips za AI za hali ya juu kama zile kutoka Nvidia, zinafuatilia kwa nguvu mbinu za kuongeza mafunzo ya modeli na ufanisi wa hitimisho. Mbinu hizi zinajumuisha sio tu maboresho ya algorithmic lakini pia ushirikiano wa synergistic wa vifaa na programu.
Watafiti wa Huawei walijaribu kwa ukali usanifu wa MoGE kwenye kitengo chao cha usindikaji wa neva cha Ascend (NPU), kilichoundwa mahsusi ili kuharakisha kazi za AI. Matokeo yalionyesha kuwa MoGE ilipata usawa bora wa mzigo wa mtaalamu na utekelezaji bora zaidi, kwa awamu zote za mafunzo ya modeli na hitimisho. Hii ni uthibitisho muhimu wa faida za kuboresha vifaa na programu kwa wakati mmoja.
Kulinganisha Pangu Dhidi ya Modeli Zinazoongoza za AI
Modeli ya Pangu ya Huawei, iliyoimarishwa na usanifu wa MoGE na Ascend NPU, ililinganishwa na modeli zinazoongoza za AI. Hizi zilijumuisha DeepSeek-V3, Qwen2.5-72B wa Alibaba Group Holding, na Llama-405B wa Meta Platforms. Matokeo ya alama yalionyesha kuwa Pangu ilipata utendaji wa hali ya juu katika anuwai ya alama za jumla za Kiingereza, na ilifaulu katika alama zote za Kichina. Pangu pia ilionyesha ufanisi mkubwa katika usindikaji wa mafunzo ya muktadha mrefu, eneo la umuhimu muhimu kwa kazi za usindikaji wa lugha asilia za kisasa.
Zaidi ya hayo, modeli ya Pangu ilionyesha uwezo wa kipekee katika kazi za uelewa wa lugha kwa ujumla, na nguvu mahususi katika kazi za hoja. Uwezo huu wa kufahamu нюансы na kutoa maana kutoka kwa lugha ngumu unaonyesha maendeleo ambayo Huawei imepata katika AI.
Umuhimu wa Kimkakati wa Huawei
Maendeleo ya Huawei katika usanifu wa modeli ya AI yana umuhimu wa kimkakati. Kutokana na vikwazo vinavyoendelea, kampuni iliyo na makao yake makuu Shenzhen inatafuta kimkakati kupunguza utegemezi wake kwa teknolojia za Marekani. Chips za Ascend zilizotengenezwa na Huawei zinachukuliwa kuwa njia mbadala za nyumbani zinazofaa kwa процессоры kutoka Nvidia na ni sehemu muhimu ya uhuru huu.
Pangu Ultra, modeli kubwa ya lugha yenye vigezo bilioni 135 iliyoboreshwa kwa NPU, inasisitiza ufanisi wa usawazishaji wa usanifu na utaratibu wa Huawei huku ikionyesha uwezo wa NPU zake. Kuonyesha ufanisi wa ushirikiano wake wa vifaa na programu ni sehemu muhimu ya kuonyesha uwezo wa Huawei AI.
Mchakato wa Mafunzo wa Kina
Kulingana na Huawei, mchakato wa mafunzo umegawanywa katika hatua kuu tatu: mafunzo ya awali, upanuzi wa muktadha mrefu, na mafunzo ya baada ya mafunzo. Mafunzo ya awali yanahusisha kwanza kufunza modeli kwenye seti kubwa ya data ya tokeni trilioni 13.2. Upanuzi wa muktadha mrefu kisha huongeza uwezo wa modeli wa kushughulikia maandishi marefu na magumu zaidi na hujenga juu ya utambuzi wa data ya awali. Awamu hii inatumia usindikaji uliogatuliwa kwa kiwango kikubwa kwenye chips 8,192 za Ascend.
Huawei ilifichua kuwa modeli na mfumo hivi karibuni zitafikiwa na wateja wake wa kibiashara, kufungua fursa mpya za ujumuishaji na maendeleo na washirika wake.
Kuingia kwa Undani katika Mchanganyiko wa Wataalamu (MoE) na Mapungufu Yake
Ili kufahamu kikamilifu umuhimu wa MoGE ya Huawei, ni muhimu kuelewa misingi ambayo inajenga: usanifu wa Mchanganyiko wa Wataalamu (MoE). MoE inawakilisha mabadiliko ya kielelezo katika jinsi modeli kubwa za AI zinaundwa na kufunzwa, ikitoa njia ya kuongeza ukubwa wa modeli na utata bila ongezeko linalolingana katika gharama ya hesabu.
Katika mtandao wa neural wa jadi, kila pembejeo inasindika na kila neuron katika kila safu. Ingawa mbinu hii inaweza kutoa usahihi wa hali ya juu, inakuwa ghali sana kwa modeli kubwa sana. MoE, kinyume chake, inaleta dhana ya “wataalamu” - mitandao midogo ya neural maalum ambayo inazingatia subsets maalum za data ya pembejeo.
Mtandao wa “lango” husafirisha kwa nguvu kila pembejeo kwa mtaalamu (wataalamu) muhimu zaidi. Uanzishaji huu wa kuchagua unaruhusu hesabu kidogo, kumaanisha kuwa sehemu tu ya vigezo vya modeli inahusika kwa pembejeo yoyote. Utengamano huu hupunguza kwa kiasi kikubwa gharama ya hesabu ya hitimisho (kutumia modeli kwa utabiri) na mafunzo. Zaidi ya hayo, kwa sababu wataalamu tofauti wanaweza kutenda kwenye sehemu tofauti za data ya pembejeo, inaruhusu utaalamu mkubwa zaidi katika modeli.
Licha ya faida za MoE, mapungufu kadhaa lazima yashughulikiwe ili kufungua uwezo wake kamili. Uanzishaji usio sawa wa wataalamu ni wasiwasi mkuu. Katika utekelezaji mwingi wa MoE, wataalamu wengine hutumiwa sana, wakati wengine wanasalia bila kufanya kazi. Ukosefu huu wa usawa unatoka kwa sifa za asili za data na muundo wa mtandao wa lango.
Ukosefu huu wa usawa unaweza kusababisha ufanisi katika mazingira ya kompyuta sambamba. Kwa kuwa mzigo wa kazi haujaenea sawasawa kwa wataalamu, vitengo vingine vya usindikaji vinaachwa bila kutumiwa huku vingine vikizidiwa. Tofauti hii inazuia ubadilikaji wa MoE na inapunguza utendaji wake kwa ujumla. Pia, ukosefu huu wa usawa mara nyingi hutoka kwa upendeleo katika data ya mafunzo, na kusababisha uwakilishi mdogo na mafunzo duni ya wataalamu wasiofanya kazi sana. Hii inasababisha modeli isiyo bora kwa muda mrefu.
Suala jingine la kawaida wakati wa kushughulikia MoE ni pamoja na utata ulioongezwa wakati wa kuunda mtandao wa lango. Mtandao wa lango unahitaji mbinu za kisasa ili kuhakikisha kuwa wataalamu wamechaguliwa vizuri, vinginevyo, MoE inaweza isifanye kulingana na matarajio na kusababisha gharama ya juu isiyo ya lazima.
Wataalamu Waliogawanywa (MoGE): Kushughulikia Changamoto za MoE
Usanifu wa Mchanganyiko wa Wataalamu Waliogawanywa (MoGE) wa Huawei unatoa njia mbadala iliyosafishwa kwa MoE ya jadi kwa kuzingatia usawa wa mzigo na utekelezaji sambamba wenye ufanisi. Njia hiyo inahusisha kuwagawanya wataalamu kimkakati, ambayo hubadilisha mchakato wa uelekezaji wa data ya ingizo, na kusababisha usambazaji sawa zaidi wa mzigo wa kazi.
Kwa kuwagawanya wataalamu wakati wa uteuzi, MoGE inahakikisha kuwa kila kundi la wataalamu linapokea mzigo wa kazi uliolingana zaidi. Badala ya kuelekeza kila ingizo kwa kujitegemea, mtandao wa lango sasa unaelekeza makundi ya ingizo kwa makundi ya wataalamu. Njia hii inakuza usambazaji sawa zaidi wa mzigo wa hesabu.
Utaratibu wa uwekaji pia husaidia kupunguza athari za upendeleo wa data. Kwa kuhakikisha kuwa wataalamu wote ndani ya kundi wamefunzwa kwenye seti tofauti ya pembejeo, MoGE inapunguza hatari ya uwakilishi mdogo na mafunzo duni. Zaidi ya hayo, kuwagawanya wataalamu huwezesha matumizi bora ya rasilimali. Kwa kuwa kila kundi hushughulikia mzigo wa kazi thabiti zaidi, inakuwa rahisi kutenga rasilimali za hesabu kwa ufanisi, na kusababisha utendaji bora kwa ujumla.
Matokeo ya mwisho ni usawa bora wa mzigo wa wataalamu na utekelezaji bora zaidi kwa mafunzo ya modeli na hitimisho. Hii inatafsiriwa kuwa nyakati za mafunzo za haraka, gharama za hesabu za chini, na utendaji bora kwa ujumla.
Ascend NPU: Kuharakisha Vifaa kwa AI
Ascend NPU (Kitengo cha Usindikaji wa Neural) ina jukumu muhimu katika mkakati wa AI wa Huawei. Vichakataji hivi vimeundwa mahsusi ili kuharakisha kazi za AI, pamoja na mafunzo ya modeli na hitimisho. Vinatoa anuwai ya vipengele vilivyoboreshwa kwa mzigo wa kazi wa kujifunza kwa kina, kama vile upana wa kumbukumbu ya juu, vitengo maalum vya usindikaji kwa kuzidisha matrix, na interfaces za mawasiliano za latency ya chini. Zaidi ya hayo, Ascend NPU za Huawei zinaunga mkono anuwai ya aina za data na viwango vya usahihi, kuruhusu udhibiti mzuri juu ya utendaji na usahihi.
Mchanganyiko wa synergistic wa MoGE na Ascend NPU huunda jukwaa lenye nguvu la ubunifu wa AI. MoGE inaboresha upande wa programu kwa kuboresha usawa wa mzigo na utekelezaji sambamba, wakati Ascend NPU hutoa vifaa vya kuharakisha vinavyohitajika ili kutambua faida hizi. Mbinu hii iliyounganishwa inaruhusu Huawei kusukuma mipaka ya utendaji na ufanisi wa AI.
Ascend NPU ina sifa ya msongamano wa juu wa kompyuta na ufanisi wa nishati. Vipengele hivi ni muhimu kwa kupeleka modeli za AI katika mipangilio anuwai, kutoka kwa seva zenye nguvu za wingu hadi vifaa vya makali na bajeti ndogo za nguvu.
Alama na Vipimo vya Utendaji
Matokeo ya alama ya Huawei yanaonyesha ufanisi wa usanifu wa MoGE na Ascend NPU. Kwa kulinganisha Pangu dhidi ya modeli zinazoongoza za AI kama DeepSeek-V3, Qwen2.5-72B, na Llama-405B, Huawei ilionyesha kuwa teknolojia yake inafikia utendaji wa hali ya juu kwenye anuwai ya kazi.
Mafanikio ya Pangu kwenye alama za jumla za Kiingereza na Kichina yanaonyesha uwezo wake na urekebishaji wake. Ustadi wa modeli katika mafunzo ya muktadha mrefu ni muhimu sana kwani unaonyesha uwezo katika kushughulikia data ya ulimwengu halisi. Zaidi ya hayo, utendaji thabiti wa Pangu kwenye kazi za hoja unasisitiza uwezo wake wa kuelewa na kuchakata mahusiano changamano.
Alama hizo sio mazoezi ya kitaaluma tu, zinatoa ushahidi dhahiri wa hatua za kiteknolojia zilizofanywa na Huawei. Wanasaidia madai ya kampuni ya kuwa mstari wa mbele katika uvumbuzi wa AI na kuimarisha msimamo wake katika soko la kimataifa.
Maana kwa Wakati Ujao wa Huawei
Maendeleo ya Huawei katika mafunzo ya modeli ya AI yana maana muhimu katika maono ya kimkakati ya kampuni ya kuanzisha uhuru wa kiteknolojia katika akili bandia. Kampuni inapopunguza utegemezi wake kwa teknolojia za Marekani katikati ya mzozo wa kibiashara unaoendelea, maendeleo ya chips za Ascend hutumika kama njia mbadala za процесси kutoka Nvidia na AMD. Pangu Ultra, LLM inayoangazia vigezo bilioni 135 kwa NPU, inaangazia ufanisi wa usawazishaji wa usanifu na utaratibu wa Huawei kwa kuonyesha uwezo wa chips zake za hali ya juu.
Jitihada hizi zinatarajiwa kuchangia ushindani wa jumla wa Huawei kwa muda mrefu, kwani inajitahidi kuhudumia soko kubwa zaidi la AI, haswa nchini China. Kwa kuendelea kuzingatia uwekezaji katika utafiti na maendeleo, Huawei inatarajia kujiendeleza kama kiongozi katika nafasi ya AI, kushinda vikwazo vya soko la sasa.
Utafiti Ujao
Maboresho ya kuendelea ya Huawei katika usanifu wa modeli ya AI kupitia uboreshaji wa mfumo na kiwango cha алгоритм, pamoja na maendeleo ya vifaa kama vile chip Ascend, yanaashiria umuhimu wake katika kuongoza mkondo wa kiteknolojia katika akili bandia. Ingawa alama kama Pangu zinathibitisha kuwa ni modeli ya hali ya juu, bado kuna uboreshaji mwingi wa kufanywa. Usahihishaji zaidi wa usanifu wa MoGE unaweza kuiwezesha kusukuma kwa hesabu kubwa na ngumu zaidi. Kazi zaidi katika kubobeza usanifu wa Ascend NPU inaweza kuongeza kasi zaidi michakato ya kujifunza kwa kina na kupunguza gharama. Uchunguzi wa siku zijazo utaona juhudi za kuendelea kujenga modeli bora za AI na kuboresha zilizopo.