Mbio za Muktadha Mkuu wa AI: Je, Ukubwa Ni Bora Kweli kwa Miundo Mikuu ya Lugha?
Ufuatiliaji wa miundo mikubwa zaidi ya lugha (LLMs), ukisukuma zaidi ya alama ya tokeni milioni moja, umezua mjadala mkali ndani ya jumuiya ya akili bandia. Miundo yenye uwezo mkubwa wa tokeni, kama vile tokeni milioni 4 za MiniMax-Text-01 na uwezo wa Gemini 1.5 Pro kushughulikia tokeni milioni 2 kwa wakati mmoja, zinafanya mawimbi. Miundo hii inaahidi matumizi ya kimapinduzi, yenye uwezo wa kuchambua misimbo mikubwa, nyaraka ngumu za kisheria, na makala za utafiti wa kina katika kupita mara moja.
Jambo muhimu katika majadiliano haya ni urefu wa muktadha - kiasi cha maandishi ambayo modeli ya AI inaweza kuchakata na kuhifadhi wakati wowote. Dirisha refu zaidi la muktadha huruhusu modeli ya ML kudhibiti habari nyingi zaidi katika ombi moja, kupunguza hitaji la kuvunja nyaraka au kugawanya mazungumzo. Ili kuiweka katika mtazamo, modeli yenye uwezo wa tokeni milioni 4 inaweza kinadharia kumeng’enya takriban kurasa 10,000 za vitabu kwa mara moja.
Kinadharia, muktadha huu ulioenea unapaswa kusababisha uelewa ulioboreshwa na hoja za kisasa zaidi. Walakini, swali muhimu linabaki: je, madirisha haya makubwa ya muktadha yanatafsiriwa kuwa thamani ya biashara inayoonekana?
Biashara zinapotathmini gharama za kuongeza miundombinu yao dhidi ya faida zinazowezekana katika tija na usahihi, swali la msingi ni ikiwa kweli tunafungua viwango vipya vya hoja za AI au tunasukuma tu mipaka ya kumbukumbu ya tokeni bila kufikia maendeleo yenye maana. Makala haya yanaangazia ubadilishanaji wa kiufundi na kiuchumi, ugumu wa uwekaji alama, na utiririshaji wa kazi wa biashara unaobadilika ambao unaweka mustakabali wa LLM za muktadha mkuu.
Mbio za Urefu wa Muktadha: Kwa Nini Kampuni za AI Zinashindana
Mashirika ya AI yanayoongoza, pamoja na OpenAI, Google DeepMind, na MiniMax, yanahusika katika shindano kali la kuongeza urefu wa muktadha, ambao unahusiana moja kwa moja na kiasi cha maandishi ambayo modeli ya AI inaweza kuchakata katika mfano mmoja. Ahadi ni kwamba urefu mkuu wa muktadha utawezesha uelewa wa kina zaidi, kupunguza maoni potofu (uzushi), na kuunda mwingiliano usio na mshono zaidi.
Kwa biashara, hii inatafsiriwa kuwa AI ambayo inaweza kuchambua mikataba yote, kusahihisha misimbo mikubwa, au kufupisha ripoti ndefu bila kupoteza muktadha. Matarajio ni kwamba kwa kuondoa suluhu kama vile kugawanya au kizazi kilichoongezwa na urejeshaji (RAG), utiririshaji wa kazi wa AI unaweza kuwa laini na ufanisi zaidi.
Tatizo la “Sindano kwenye Nyasi”: Kupata Habari Muhimu
Tatizo la ‘sindano kwenye nyasi’ linaangazia ugumu ambao AI inakabiliana nao katika kutambua habari muhimu (‘sindano’) iliyofichwa ndani ya hifadhidata kubwa (‘nyasi’). LLM mara nyingi hushindwa kutambua maelezo muhimu, na kusababisha ufanisi katika maeneo anuwai:
Utafutaji na Urejeshaji wa Maarifa: Wasaidizi wa AI mara nyingi huwa na shida kutoa ukweli muhimu zaidi kutoka kwa hazina kubwa za hati.
Sheria na Uzingatiaji: Mawakili wanahitaji kufuatilia utegemezi wa kifungu ndani ya mikataba mirefu.
Uchanganuzi wa Biashara: Wachambuzi wa kifedha wana hatari ya kupuuza ufahamu muhimu uliozikwa katika ripoti ngumu.
Madirisha makubwa ya muktadha husaidia miundo kuhifadhi habari zaidi, ambayo hupunguza maoni potofu, inaboresha usahihi, na kuwezesha:
Ukaguzi wa Uzingatiaji wa Hati-Msalaba: Kidokezo kimoja cha tokeni 256K kinaweza kulinganisha mwongozo mzima wa sera dhidi ya sheria mpya.
Muhtasari wa Fasihi ya Matibabu: Watafiti wanaweza kutumia madirisha ya tokeni 128K+ kulinganisha matokeo ya jaribio la dawa katika miongo mingi ya masomo.
Uundaji wa Programu: Usahihishaji unaboresha wakati AI inaweza kuchanganua mamilioni ya mistari ya msimbo bila kupoteza utegemezi.
Utafiti wa Kifedha: Wachambuzi wanaweza kuchambua ripoti kamili za mapato na data ya soko katika swali moja.
Usaidizi kwa Wateja: Chatbots zilizo na kumbukumbu ndefu zinaweza kutoa mwingiliano unaozingatia muktadha zaidi.
Kuongeza dirisha la muktadha pia husaidia modeli kurejelea vyema maelezo muhimu, kupunguza uwezekano wa kutoa habari isiyo sahihi au iliyobuniwa. Utafiti wa Stanford wa 2024 uligundua kuwa miundo ya tokeni 128K ilipunguza viwango vya maoni potofu kwa 18% ikilinganishwa na mifumo ya RAG wakati wa kuchambua makubaliano ya kuunganishwa.
Licha ya faida hizi zinazowezekana, waanzilishi wa mapema wameripoti changamoto. Utafiti kutoka JPMorgan Chase umeonyesha kuwa miundo hufanya vibaya kwa takriban 75% ya muktadha wao, na utendaji kwenye kazi ngumu za kifedha ukianguka karibu na sifuri zaidi ya tokeni 32K. Miundo bado inapambana na ukumbusho wa masafa marefu, mara nyingi ikitanguliza data ya hivi majuzi kuliko ufahamu wa kina.
Hii inazua maswali muhimu: Je, dirisha la tokeni milioni 4 huongeza kweli hoja, au ni upanuzi wa gharama kubwa tu wa kumbukumbu? Ni kiasi gani cha ingizo hili kubwa ambacho modeli hutumia? Na je, faida zinazidi gharama za kompyuta zinazoongezeka?
RAG dhidi ya Vidokezo Vikubwa: Ubadilishanaji wa Kiuchumi
Kizazi kilichoongezwa na urejeshaji (RAG) kinachanganya uwezo wa LLM na mfumo wa urejeshaji ambao huchukua habari muhimu kutoka vyanzo vya nje kama vile hifadhidata au maduka ya hati. Hii inawezesha modeli kutoa majibu kulingana na maarifa yake ya awali na data iliyorejeshwa kwa nguvu.
Kampuni zinapounganisha AI kwa kazi ngumu, zinakabiliwa na uamuzi wa msingi: je, zinapaswa kutumia vidokezo vikubwa vyenye madirisha makubwa ya muktadha, au zinapaswa kutegemea RAG kuchukua habari muhimu katika muda halisi?
Vidokezo Vikubwa: Miundo yenye madirisha makubwa ya tokeni huchakata kila kitu katika kupita mara moja, kupunguza hitaji la kudumisha mifumo ya urejeshaji wa nje na kukamata ufahamu wa hati-mtambuka. Walakini, njia hii ni ghali sana kwa hesabu, na kusababisha gharama kubwa za uingizaji na mahitaji ya kumbukumbu yaliyoongezeka.
RAG: Badala ya kuchakata hati nzima mara moja, RAG hurejesha sehemu muhimu zaidi kabla ya kutoa jibu. Hii hupunguza sana matumizi ya tokeni na gharama, na kuifanya iweze kupimika zaidi kwa matumizi ya ulimwengu halisi.
Gharama za Uingizaji: Urejeshaji wa Hatua Nyingi dhidi ya Vidokezo Vikubwa Moja
Wakati vidokezo vikubwa vinarahisisha utiririshaji wa kazi, vinahitaji nguvu na kumbukumbu zaidi za GPU, na kuzifanya kuwa ghali kutekeleza kwa kiwango. Njia zinazotegemea RAG, licha ya kuhitaji hatua nyingi za urejeshaji, mara nyingi hupunguza matumizi ya jumla ya tokeni, na kusababisha gharama ndogo za uingizaji bila kutoa usahihi.
Kwa biashara nyingi, njia bora inategemea kesi maalum ya utumiaji:
- Unahitaji uchambuzi wa kina wa hati? Miundo mikubwa ya muktadha inaweza kuwa chaguo bora.
- Unahitaji AI inayoweza kupimika, yenye ufanisi wa gharama kwa maswali yanayobadilika? RAG ina uwezekano wa kuwa chaguo nadhifu.
Dirisha kubwa la muktadha lina thamani haswa wakati:
- Maandishi kamili lazima yachambuliwe mara moja, kama vile katika ukaguzi wa mkataba au ukaguzi wa msimbo.
- Kupunguza makosa ya urejeshaji ni muhimu, kwa mfano, katika kufuata kanuni.
- Ucheleweshaji hauna wasiwasi kuliko usahihi, kama vile katika utafiti wa kimkakati.
Kulingana na utafiti kutoka Google, miundo ya utabiri wa hisa kwa kutumia madirisha ya tokeni 128K kuchambua nakala za mapato za miaka 10 ilifanya vizuri zaidi kuliko RAG kwa 29%. Kinyume chake, upimaji wa ndani katika GitHub Copilot ulionyesha kuwa ukamilishaji wa kazi ulikuwa mara 2.3 haraka kwa kutumia vidokezo vikubwa dhidi ya RAG kwa uhamaji wa monorepo.
Mapungufu ya Miundo Mikubwa ya Muktadha: Ucheleweshaji, Gharama, na Utumiaji
Wakati miundo mikubwa ya muktadha inatoa uwezo wa kuvutia, kuna mipaka kwa kiasi gani muktadha wa ziada ni wa manufaa kweli. Madirisha ya muktadha yanapopanuka, mambo matatu muhimu yanaanza kutumika:
Ucheleweshaji: Kadiri modeli inavyochakata tokeni nyingi, ndivyo uingizaji unavyopungua. Madirisha makubwa ya muktadha yanaweza kusababisha ucheleweshaji mkubwa, haswa wakati majibu ya wakati halisi yanahitajika.
Gharama: Gharama za kompyuta huongezeka na kila tokeni ya ziada iliyochakatwa. Kuongeza miundombinu ili kushughulikia miundo hii mikubwa kunaweza kuwa ghali sana, haswa kwa biashara zilizo na mizigo ya kazi ya kiwango cha juu.
Utumiaji: Muktadha unavyokua, uwezo wa modeli wa ‘kuzingatia’ vyema habari muhimu zaidi hupungua. Hii inaweza kusababisha uchakataji usiofaa, ambapo data isiyo muhimu huathiri utendaji wa modeli, na kusababisha kurudi kupungua kwa usahihi na ufanisi.
Mbinu ya Infini-attention ya Google inajaribu kupunguza ubadilishanaji huu kwa kuhifadhi uwakilishi ulioshinikizwa wa muktadha wa urefu wowote na kumbukumbu iliyoambatishwa. Walakini, shinikizo huepukika kusababisha upotezaji wa habari, na miundo hupambana kusawazisha habari ya haraka na ya kihistoria, na kusababisha uharibifu wa utendaji na gharama zilizoongezeka ikilinganishwa na RAG ya jadi.
Wakati miundo ya tokeni milioni 4 inavutia, biashara zinapaswa kuziona kama zana maalum badala ya suluhisho za ulimwengu wote. Mustakabali uko katika mifumo mseto ambayo huchagua kwa ufanisi kati ya RAG na vidokezo vikubwa kulingana na mahitaji maalum ya kazi.
Biashara zinapaswa kuchagua kati ya miundo mikubwa ya muktadha na RAG kulingana na ugumu wa hoja, mazingatio ya gharama, na mahitaji ya ucheleweshaji. Madirisha makubwa ya muktadha yanafaa kwa kazi zinazohitaji uelewa wa kina, wakati RAG ni ya gharama nafuu zaidi na yenye ufanisi kwa kazi rahisi, za ukweli. Ili kudhibiti gharama kwa ufanisi, biashara zinapaswa kuweka mipaka ya gharama wazi, kama vile $0.50 kwa kila kazi, kwani miundo mikubwa inaweza kuwa ghali haraka. Zaidi ya hayo, vidokezo vikubwa vinafaa zaidi kwa kazi za nje ya mtandao, wakati mifumo ya RAG inafanya vizuri katika matumizi ya wakati halisi ambayo yanahitaji majibu ya haraka.
Ubunifu unaoibuka kama vile GraphRAG unaweza kuongeza zaidi mifumo hii inayobadilika kwa kuunganisha grafu za maarifa na mbinu za urejeshaji wa vekta za jadi. Muunganisho huu unaboresha ukamataji wa mahusiano magumu, na kusababisha hoja za hila zilizoimarishwa na usahihi wa jibu kwa hadi 35% ikilinganishwa na mbinu za vekta tu. Utekelezaji wa hivi karibuni na kampuni kama vile Lettria umeonyesha maboresho makubwa katika usahihi, ukiongezeka kutoka 50% na RAG ya jadi hadi zaidi ya 80% kwa kutumia GraphRAG ndani ya mifumo mseto ya urejeshaji.
Kama Yuri Kuratov anavyoonya kwa ustadi, ‘Kupanua muktadha bila kuboresha hoja ni kama kujenga barabara kuu pana kwa magari ambayo hayawezi kuendesha.’ Mustakabali wa kweli wa AI uko katika miundo ambayo inaelewa kweli mahusiano katika ukubwa wowote wa muktadha, sio miundo tu ambayo inaweza kuchakata kiasi kikubwa cha data. Ni kuhusu akili, sio kumbukumbu tu.