Tathmini ya Ufanisi wa Miundo Lugha: Usahihi na Ulinganifu
Lengo letu kuu lilikuwa kutathmini usahihi wa majibu yaliyotolewa na miundo lugha (LLMs) inayoongoza ilipowasilishwa na maswali yanayohusiana na kuzuia ugonjwa wa moyo (CVD). Tulizingatia BARD (mfumo lugha wa Google), ChatGPT-3.5 na ChatGPT-4.0 (miundo ya OpenAI), na ERNIE (mfumo wa Baidu). Seti ya maswali 75 yaliyoundwa kwa ustadi kuhusu kuzuia CVD iliulizwa kwa kila LLM, na majibu yalipimwa kulingana na ufaafu wao (yaliyoainishwa kama yanafaa, ya mpaka, au hayafai).
Ufanisi wa Lugha ya Kiingereza
Katika lugha ya Kiingereza, LLMs zilionyesha usahihi unaojulikana. BARD ilifikia kiwango cha "inayofaa" cha 88.0%, ChatGPT-3.5 ilifunga 92.0%, na ChatGPT-4.0 ilizidi kwa kiwango cha 97.3%. Matokeo haya yanaonyesha kuwa LLMs zinaweza kutoa taarifa muhimu kwa watumiaji wanaozungumza Kiingereza wanaotafuta mwongozo juu ya kuzuia CVD.
Ufanisi wa Lugha ya Kichina
Uchambuzi ulienea kwa maswali ya lugha ya Kichina, ambapo utendaji wa LLMs ulitofautiana. ERNIE ilifikia kiwango cha "inayofaa" cha 84.0%, ChatGPT-3.5 ilifunga 88.0%, na ChatGPT-4.0 ilifikia 85.3%. Wakati matokeo yalikuwa mazuri kwa ujumla, pia yalionyesha kushuka kidogo kwa utendaji ikilinganishwa na Kiingereza, ikionyesha uwezekano wa upendeleo wa lugha katika modeli hizi.
Uboreshaji wa Muda na Ufahamu Binafsi
Zaidi ya usahihi wa awali, tulichunguza uwezo wa LLMs kuboresha majibu yao kwa muda na ufahamu wao binafsi wa usahihi. Hii ilihusisha kutathmini jinsi miundo ilijibu majibu yasiyo bora mwanzoni na ikiwa wangeweza kutambua na kurekebisha makosa walipoulizwa.
Majibu Yaliyoboreshwa Kadri Muda Unavyozidi
Uchambuzi ulifunua kuwa LLMs huonyesha uboreshaji wa muda. Ilipowasilishwa kwa majibu yasiyo bora mwanzoni, BARD na ChatGPT-3.5 ziliboresha kwa 67% (6/9 na 4/6, mtawalia), wakati ChatGPT-4.0 ilifikia kiwango kamili cha 100% cha uboreshaji (2/2). Hii inaonyesha kuwa LLMs hujifunza kutoka kwa mwingiliano na maoni ya watumiaji, na kusababisha taarifa sahihi zaidi na za kuaminika kwa muda.
Ufahamu Binafsi wa Usahihi
Pia tulichunguza uwezo wa LLMs kutambua usahihi wa majibu yao. BARD na ChatGPT-4.0 zilifanya vizuri kuliko ChatGPT-3.5 katika eneo hili, zikionyesha ufahamu bora binafsi wa usahihi wa taarifa waliyotoa. Kipengele hiki ni muhimu sana katika muktadha wa matibabu, ambapo taarifa zisizo sahihi zinaweza kuwa na matokeo makubwa.
Ufanisi wa ERNIE kwa Kichina
Uchambuzi wa vidokezo vya Kichina ulifunua kwamba ERNIE ilizidi katika uboreshaji wa muda na ufahamu binafsi wa usahihi. Hii inaonyesha kwamba ERNIE inafaa kwa kutoa taarifa sahihi na za kuaminika kwa watumiaji wanaozungumza Kichina wanaotafuta mwongozo wa kuzuia CVD.
Tathimini Kamili ya Chatbot za LLM
Ili kuhakikisha tathmini kamili ambayo inajumuisha chatbot za LLM za kawaida na maarufu, utafiti huu ulijumuisha miundo minne mashuhuri: ChatGPT-3.5 na ChatGPT-4.0 kutoka OpenAI, BARD kutoka Google, na ERNIE kutoka Baidu. Tathmini ya vidokezo vya Kiingereza ilihusisha ChatGPT 3.5, ChatGPT 4, na BARD; kwa vidokezo vya Kichina, tathmini ilihusisha ChatGPT 3.5, ChatGPT 4, na ERNIE. Miundo ilitumiwa na usanidi wake chaguo-msingi na mipangilio ya halijoto, bila marekebisho ya vigezo hivi wakati wa uchanganuzi.
Utengenezaji wa Maswali na Tathmini ya Majibu ya Chatbot
Chuo cha Marekani cha Cardiology na Chama cha Moyo cha Marekani hutoa miongozo na mapendekezo ya kuzuia CVD, ikijumuisha maelezo kuhusu sababu za hatari, vipimo vya uchunguzi, na chaguo za matibabu, pamoja na elimu ya mgonjwa na mikakati ya kujisimamia. Wataalamu wawili wa moyo wenye uzoefu walizalisha maswali yanayohusiana na kuzuia CVD, wakiyaweka sawa na jinsi wagonjwa wangeuliza na madaktari ili kuhakikisha umuhimu na uelewa kutoka kwa mtazamo wa mgonjwa. Mbinu hii inayozingatia mgonjwa na inayotegemea miongozo ilitoa seti ya mwisho ya maswali 300 inayoshughulikia vikoa mbalimbali. Maswali haya yalifasiriwa katika Kichina, kuhakikisha matumizi sahihi ya vitengo vya kawaida na vya kimataifa.
Upofu na Tathmini Iliyoagizwa Kiholela
Ili kuhakikisha kuwa wasahihishaji hawawezi kutofautisha asili ya jibu kati ya Chatbot tofauti za LLM, vipengele vyovyote mahususi vya chatbot vilifichwa kwa mikono. Tathmini ilifanywa kwa njia ya upofu na iliyoagizwa kiholela, na majibu kutoka kwa chatbots tatu yalichanganywa kiholela ndani ya seti ya maswali. Majibu kutoka kwa chatbots tatu yalitengwa kiholela kwa raundi 3, kwa uwiano wa 1:1:1, kwa tathmini ya upofu na wataalamu watatu wa moyo, na muda wa kuosha wa saa 48 kati ya raundi ili kupunguza upendeleo wa hivi karibuni.
Mbinu ya Tathmini ya Usahihi
Matokeo ya msingi yalikuwa utendaji katika kujibu maswali ya msingi ya kuzuia CVD. Hasa, mbinu ya hatua mbili ilitumiwa kutathmini majibu. Katika hatua ya kwanza, jopo la wataalamu wa moyo lilikagua majibu yote yaliyozalishwa na LLM Chatbot na kuyakadiria kama "yanafaa," "ya mpaka," au "hayafai," kuhusiana na makubaliano ya wataalamu na miongozo. Katika hatua ya pili, mbinu ya makubaliano ya wengi ilitumiwa, ambapo ukadiriaji wa mwisho kwa kila jibu la chatbot ulitegemea ukadiriaji wa kawaida uliokadiriwa kati ya wasahihishaji watatu. Katika matukio ambapo makubaliano ya wengi hayakuweza kufikiwa kati ya wasahihishaji watatu, mtaalamu mkuu wa moyo alishauriwa kukamilisha ukadiriaji.
Uchambuzi wa Matokeo Muhimu
Data ilifunua kuwa LLM-chatbot ilifanya kazi kwa ujumla vizuri zaidi na matokeo ya Kiingereza kuliko na matokeo ya Kichina. Hasa, kwa matokeo ya Kiingereza, BARD, ChatGPT-3.5, na ChatGPT-4.0 zilionyesha alama za jumla zinazofanana. Wakati wa kulinganisha uwiano wa ukadiriaji ‘unaofaa’, ChatGPT-4.0 ilikuwa na asilimia ya juu zaidi ikilinganishwa na ChatGPT-3.5 na Google Bard. Kwa matokeo ya Kichina, ChatGPT3.5 ilikuwa na alama ya juu zaidi, ikifuatiwa na ChatGPT-4.0 na Ernie. Hata hivyo, tofauti hazikuwa muhimu kitakwimu. Vile vile, ChatGPT-3.5 ilikuwa na uwiano wa juu zaidi wa ‘ukadiriaji unaofaa’ kwa matokeo ya Kichina, ikilinganishwa na ChatGPT-4.0 na ERNIE, lakini tofauti hazikuwa muhimu kitakwimu.
Utendaji Katika Vikoa vya Kuzuia CVD
Uchambuzi ulizingatia ukadiriaji "unaofaa" katika vikoa tofauti vya kuzuia CVD. Kwa kushangaza, ChatGPT-4.0 ilifanya kazi vizuri kila mara katika vikoa vingi, na ukadiriaji wa juu hasa katika vikoa vya "dyslipidemia," "mtindo wa maisha," "alama za kibiolojia na uvimbe," na "DM na CKD". Hata hivyo, BARD ilionyesha utendaji usio bora ikilinganishwa na ChatGPT4.0 na ChatGPT-3.5, hasa katika kikoa cha "mtindo wa maisha". Matokeo yalionyesha kuwa Chatbot zote tatu za LLM zilifanya kazi vizuri katika kikoa cha "mtindo wa maisha", na ukadiriaji wa 100% "unaofaa" (Jedwali la Ziada S6). Hata hivyo, tofauti katika utendaji zilionekana katika vikoa vingine, na miundo mingine ikionyesha ufanisi mkubwa katika vikoa maalum vya kuzuia.
Athari kwa Ujuzi wa Afya
Matokeo ya utafiti yana athari muhimu kwa juhudi za kuboresha ujuzi wa afya ya moyo. Kadiri watu wanavyozidi kugeukia rasilimali za mtandaoni kwa taarifa za kimatibabu, LLMs zina uwezo wa kutumika kama zana muhimu za kuimarisha uelewa wa kuzuia CVD. Kwa kutoa taarifa sahihi na zinazopatikana, LLMs zinaweza kuziba mapengo katika ujuzi na kuwawezesha watu kufanya maamuzi sahihi kuhusu afya zao.
Tofauti katika Utendaji
Utafiti pia ulifunua tofauti kubwa katika utendaji wa LLM katika lugha tofauti. Matokeo kwamba LLMs kwa ujumla zilifanya kazi vizuri zaidi na matokeo ya Kiingereza kuliko na matokeo ya Kichina yanaonyesha uwezekano wa upendeleo wa lugha katika modeli hizi. Kushughulikia suala hili ni muhimu ili kuhakikisha kuwa LLMs zinatoa upatikanaji sawa wa taarifa sahihi za kimatibabu kwa watu wote, bila kujali lugha yao ya asili.
Jukumu la Miundo ya Lugha Maalum
Uchambuzi wa utendaji wa ERNIE kwa Kichina hutoa maarifa muhimu katika jukumu la LLMs maalum za lugha. Nguvu za ERNIE katika uboreshaji wa muda na ufahamu binafsi wa usahihi zinaonyesha kuwa modeli zilizoundwa kwa lugha maalum zinaweza kushughulikia vyema nuances za lugha na muktadha wa kitamaduni. Maendeleo zaidi na uboreshaji wa LLMs maalum za lugha zinaweza kuwa muhimu ili kuboresha utoaji wa taarifa za kimatibabu kwa makundi mbalimbali ya watu.
Mapungufu na Mielekeo ya Baadaye
Wakati utafiti huu unatoa maarifa muhimu katika uwezo wa LLMs katika kushughulikia maswali ya kuzuia CVD, ni muhimu kukiri mapungufu fulani. Maswali yaliyotumiwa yaliwakilisha sehemu ndogo ya maswali katika suala la kuzuia CVD. Ujumlishi wa matokeo unategemea athari za majibu ya stochastic. Zaidi ya hayo, mageuzi ya haraka ya LLMs yanahitaji utafiti unaoendelea ili kukidhi marudio yaliyosasishwa na modeli zinazoibuka. Tafiti za baadaye zinapaswa kupanua wigo wa maswali, kuchunguza athari za mifumo tofauti ya mwingiliano na LLMs, na kuchunguza masuala ya kimaadili yanayozunguka matumizi yao katika muktadha wa kimatibabu.
Hitimisho
Kwa kumalizia, matokeo haya yanaonyesha ahadi ya LLMs kama zana za kuimarisha uelewa wa umma wa afya ya moyo, huku pia yakisisitiza haja ya tathmini makini na uboreshaji unaoendelea ili kuhakikisha usahihi, haki, na usambazaji wa kuwajibika wa taarifa za kimatibabu. Njia ya mbele inahusisha tathmini linganishi zinazoendelea, kushughulikia upendeleo wa lugha, na kutumia nguvu za miundo maalum ya lugha ili kukuza upatikanaji sawa wa mwongozo sahihi na wa kuaminika wa kuzuia CVD.