Katika mazingira yanayobadilika ya akili bandia, maendeleo makubwa yametokea kutoka kwa Microsoft Research ambayo yanaahidi kufafanua upya ufikivu na ufanisi wa akili bandia ya uzalishaji (generative AI). Makala yao ya hivi majuzi yanatanguliza BitNet b1.58 2B4T, lugha kubwa ya mfumo (large language model - LLM) ya upainia inayotambulika kwa mafunzo yake ya asili na uzani wa ‘biti 1’, au kwa usahihi zaidi, uzani wa trit 1. Njia hii bunifu inaashiria kuondoka kutoka kwa njia za kimapokeo ambazo zinategemea mifumo ya idadi iliyo fundishwa hapo awali kwa usahihi kamili.
Kushinda Mapungufu ya LLM za Kimapokeo
LLM za kimapokeo, licha ya utendaji wao wa ajabu, zinakabiliana na vizuizi vikubwa ambavyo vinazuia kupitishwa kwao kote. Mapungufu haya hasa yanatokana na alama zao kubwa za kumbukumbu, matumizi makubwa ya nishati, na muda muhimu wa ucheleweshaji. Kwa hivyo, kupeleka mifumo hii kwenye vifaa vya makali, katika mazingira yenye rasilimali chache, na kwa matumizi ya muda halisi inakuwa haiwezekani.
Ili kupunguza changamoto hizi, jumuiya ya AI imeongeza mwelekeo wake katika kuchunguza mifumo ya idadi. Mifumo hii inatokana na wenzao wa usahihi kamili kwa kubadilisha uzani wao kuwa muundo wa biti ya chini. Ingawa idadi inatoa njia ya kupunguza ukubwa wa mfumo na mahitaji ya kompyuta, mara nyingi huja kwa gharama ya upotezaji wa usahihi, uwezekano wa kuhatarisha usahihi wa mfumo na utendaji wa jumla.
Usanifu wa BitNet b1.58 2B4T
BitNet b1.58 2B4T inawakilisha mabadiliko ya dhana katika muundo wa LLM, ikiepuka upotezaji wa usahihi unaohusishwa na idadi kwa kufundisha mfumo kutoka mwanzo kwa kutumia uzani wa biti 1. Njia hii inaruhusu mfumo kuhifadhi faida za uzani mdogo, pamoja na kupunguza alama ya kumbukumbu na gharama za chini za kompyuta.
Watafiti wa Microsoft walianza juhudi hii kabambe kwa kufundisha BitNet b1.58 2B4T kwenye mkusanyiko mkubwa wa tokeni trilioni 4. Hii dataset ya mafunzo ya kina ilihakikisha kuwa mfumo unaweza kujifunza kwa ufanisi mifumo ngumu ya lugha na kukuza uelewa kamili wa nuances ya mawasiliano ya kibinadamu.
Tathmini ya Utendaji na Kulinganisha
Ili kutathmini ufanisi wa BitNet b1.58 2B4T, Microsoft ilifanya vipimo vikali, ikilinganisha utendaji wake dhidi ya mifumo inayoongoza ya uzani wazi, usahihi kamili wa ukubwa sawa. Matokeo yalionyesha kuwa mfumo mpya ulifanya sawia katika anuwai ya kazi, ikijumuisha uelewa wa lugha na hoja, ujuzi wa ulimwengu, uelewa wa kusoma, hesabu na msimbo, na ufuataji wa maagizo na mazungumzo.
Matokeo haya yanaashiria uwezekano wa LLM za biti 1 kufikia usawa wa utendaji na wenzao wa usahihi kamili, wakati huo huo wakitoa faida kubwa kwa suala la ufanisi na utumiaji wa rasilimali.
Ubunifu Muhimu wa Usanifu
Msingi wa BitNet b1.58 2B4T upo katika usanifu wake bunifu, ambao hubadilisha tabaka za kawaida za mstari wa usahihi kamili na tabaka maalum za BitLinear. Tabaka hizi hutumia uwakilishi wa biti 1.58 kusimba uzani kama maadili matatu (trits) wakati wa kupita mbele.
Matumizi ya maadili matatu, yanayowakilishwa kama {-1, 0, +1}, huwezesha kupunguzwa kwa kiasi kikubwa kwa ukubwa wa mfumo na kuwezesha shughuli bora za hesabu. Hii inafanikiwa kupitia mpango kamili wa idadi ya maana (absmean), ambao unaweka uzani kwa maadili haya matatu.
Mbali na tabaka za BitLinear, BitNet b1.58 2B4T inajumuisha mbinu kadhaa za LLM zilizoanzishwa, kama vile kazi za uanzishaji za mraba za ReLU, upachikaji wa msimamo wa rotary, na uondoaji wa neno la upendeleo. Mbinu hizi zinaendelea kuchangia kupunguza ukubwa wa mfumo na kuboresha utulivu wa mafunzo.
Kuboresha Utulivu wa Mafunzo na Ufanisi
Mbinu mbili za ziada zinazotumiwa katika tabaka za BitLinear—idadi ya uanzishaji na uimarishaji—zina jukumu muhimu katika kupunguza ukubwa wa mfumo na kuboresha utulivu wa mafunzo. Idadi ya uanzishaji hupunguza usahihi wa uanzishaji, wakati mbinu za uimarishaji husaidia kuzuia uanzishaji kuwa mkubwa sana au mdogo sana.
Mbinu hizi, pamoja na matumizi ya uzani wa biti 1, huwezesha BitNet b1.58 2B4T kufundishwa kwa ufanisi zaidi, hata kwenye datasets kubwa.
Mbinu za Mafunzo
Kwa mafunzo, BitNet b1.58 2B4T inatumia mbinu tatu muhimu: mafunzo ya awali ya kiwango kikubwa, urekebishaji mzuri unaosimamiwa, na uboreshaji wa upendeleo wa moja kwa moja.
Mafunzo ya Awali ya Kiwango Kikubwa
Awamu hii ya awali inahusisha kufundisha mfumo kwenye dataset kubwa ya maandishi na msimbo, ikiruhusu kujifunza mifumo ya jumla ya lugha na kukuza uelewa mpana wa ulimwengu.
Urekebishaji Mzuri Unaosimamiwa
Katika awamu hii, mfumo umerekebishwa vizuri kwenye dataset ndogo, maalum zaidi, iliyoundwa kwa kazi au kikoa fulani. Hii inaruhusu mfumo kurekebisha ujuzi na ustadi wake kwa mahitaji maalum ya kazi.
Uboreshaji wa Upendeleo wa Moja kwa Moja
Mbinu hii inahusisha kufundisha mfumo kuboresha moja kwa moja kwa upendeleo wa binadamu, kama inavyoelezewa kupitia maoni au makadirio. Hii husaidia kuhakikisha kuwa matokeo ya mfumo yanaambatana na maadili na matarajio ya binadamu.
Watafiti wanaona kuwa mbinu za hali ya juu zaidi, kama vile Uboreshaji wa Sera ya Karibu au Uboreshaji wa Sera ya Kikundi, zitaelekezwa katika siku zijazo ili kuongeza uwezo wa hisabati na hoja za mfuatano wa mawazo.
Maktaba ya Inference ya Bitnet.cpp
Ikizingatiwa mpango wa kipekee wa idadi ya BitNet b1.58 2B4T, mfumo hauwezi kutumiwa na maktaba za kawaida za kujifunza kwa kina kama llama.cpp na inahitaji kernel maalum. Ili kukabiliana na changamoto hii, Microsoft imeunda maktaba ya wazi ya inference ya kujitolea, bitnet.cpp.
bitnet.cpp hutumika kama mfumo rasmi wa inference kwa LLM za biti 1, kama vile BitNet b1.58. Inatoa suite ya kernels zilizoboreshwa ambazo zinaunga mkono inference ya haraka na isiyo na hasara ya mifumo ya biti 1.58 kwenye CPU, na mipango ya kupanua usaidizi kwa NPU na GPU katika siku zijazo.
Maktaba hii ya inference ni muhimu kwa kuwezesha upelekaji wa BitNet b1.58 2B4T kwenye vifaa na majukwaa anuwai, na kuifanya ipatikane zaidi kwa watengenezaji na watafiti.
Mielekeo ya Utafiti wa Baadaye
Watafiti wanakiri kuwa vifaa vya sasa vya GPU havijaboreshwa kwa mifumo ya biti 1 na kwamba faida zaidi za utendaji zinaweza kupatikana kwa kujumuisha mantiki ya kujitolea kwa shughuli za biti ya chini. Hii inaashiria kuwa usanifu wa vifaa vya siku zijazo unaweza kubuniwa mahsusi kusaidia LLM za biti 1, na kusababisha ufanisi na utendaji mkubwa zaidi.
Mbali na uboreshaji wa vifaa, mwelekeo wa utafiti wa siku zijazo ni pamoja na kufundisha mifumo mikubwa zaidi, kuongeza uwezo wa lugha nyingi na ujumuishaji wa njia nyingi, na kupanua urefu wa dirisha la muktadha. Maendeleo haya yataendelea kuongeza uwezo na matumizi mengi ya BitNet b1.58 2B4T na LLM zingine za biti 1.
Athari na Athari Inayoweza Kutokea
Ukuzaji wa BitNet b1.58 2B4T una athari kubwa kwa mustakabali wa AI, haswa katika uwanja wa AI ya uzalishaji. Kwa kuonyesha kuwa inawezekana kufundisha LLM za utendaji wa hali ya juu kwa kutumia uzani wa biti 1 tu, Microsoft imefungua uwezekano mpya wa kuunda mifumo ya AI yenye ufanisi zaidi na inayopatikana.
Mafanikio haya yanaweza kusababisha upelekaji wa mifumo ya AI kwenye vifaa anuwai, pamoja na simu mahiri, vifaa vya IoT, na majukwaa mengine yenye rasilimali chache. Inaweza pia kuwezesha ukuzaji wa mifumo ya AI yenye ufanisi wa nishati zaidi, ikipunguza athari zao za kimazingira.
Zaidi ya hayo, uwezo wa kufundisha LLM na uzani wa biti 1 unaweza kurahisisha kubadilisha na kubinafsisha mifumo ya AI kwa matumizi maalum. Hii inaweza kusababisha ukuzaji wa mifumo ya AI yenye ufanisi zaidi na rahisi kutumia ambayo imeundwa kwa mahitaji ya kipekee ya watumiaji na mashirika binafsi.
Hitimisho
BitNet b1.58 2B4T ya Microsoft inawakilisha hatua muhimu mbele katika jitihada za AI yenye ufanisi zaidi na inayopatikana. Kwa kuonyesha kuwa inawezekana kufundisha LLM za utendaji wa hali ya juu kwa kutumia uzani wa biti 1 tu, Microsoft imetoa changamoto kwa hekima ya kawaida na kufungua uwezekano mpya kwa mustakabali wa AI.
Kadiri utafiti katika eneo hili unavyoendelea, tunaweza kutarajia kuona matumizi bunifu zaidi ya LLM za biti 1, na kusababisha mustakabali ambapo AI imeenea zaidi, ina ufanisi, na inafaidisha jamii kwa ujumla.