Ahadi na Changamoto za Udhibiti wa LLM katika Huduma za Afya
Uwezo wa LLM, unaotokana na data kubwa ya mafunzo na uwezo wa kutoa maandishi yanayofanana na ya binadamu, unachochea hamu ya kuzitumia katika usaidizi wa maamuzi katika nyanja mbalimbali. Hata hivyo, sifa zile zile zinazofanya mifumo ya akili bandia (AI) ivutie pia huleta vikwazo vya kipekee kwa vyombo vya udhibiti. Vyombo hivi vinafanya kazi ndani ya mifumo iliyoanzishwa miongo kadhaa iliyopita, iliyoundwa kwa ajili ya vifaa vya matibabu vya jadi, si kwa ajili ya mifumo ya AI inayobadilika.
Hivi sasa, LLM zilizopo hazijaainishwa kama vifaa vya matibabu. Sheria ya Shirikisho la Chakula, Dawa, na Vipodozi (FD&C Act § 201(h)(1)) inafafanua kifaa cha matibabu kama “chombo… kinachokusudiwa kutumika katika utambuzi, …tiba, upunguzaji, matibabu, au kuzuia magonjwa… ambacho hakifikii madhumuni yake ya msingi kupitia utendaji wa kemikali.” LLM nyingi zinajumuisha kanusho zinazosema kuwa hazikusudiwi kutoa ushauri wa matibabu, na hivyo kuepuka udhibiti wa FDA. Licha ya hayo, kuna mkusanyiko unaokua wa tafiti zilizochapishwa na ushahidi wa kimazingira unaoangazia matumizi ya LLM kwa usaidizi wa maamuzi ya kimatibabu, katika mazingira ya utafiti na utendaji halisi wa kimatibabu.
Kufafanua Wigo wa Udhibiti kwa Usaidizi wa Maamuzi ya Kimatibabu Yanayotegemea LLM
Kwa kuzingatia uwezo wa LLM, iwapo zitaingizwa rasmi katika mfumo wa usaidizi wa maamuzi ya kimatibabu (CDSS), swali la udhibiti unaofaa linakuwa muhimu sana. Marekebisho ya Sheria ya Tiba ya Karne ya 21 kwa Sheria ya FD&C (Sheria ya Umma 114–255), pamoja na mwongozo kutoka kwa FDA, yanaeleza vigezo vinne muhimu vya kuamua kama programu ya usaidizi wa maamuzi inahitimu kuwa kifaa na, kwa hivyo, iko chini ya mamlaka ya FDA. Vigezo hivi vinahusu:
- Data ya pembejeo ya utendaji wa programu.
- Data yake ya matokeo.
- Kiini cha mapendekezo yake ya kimatibabu.
- Uwezo wa mtumiaji wa mwisho kukagua mantiki ya mapendekezo hayo.
Hasa, CDSS inachukuliwa kuwa kifaa ikiwa matokeo yake yanatoa maagizo sahihi ya matibabu au utambuzi, badala ya mapendekezo ya jumla ya habari. Zaidi ya hayo, ikiwa CDSS inashindwa kutoa msingi wa mapendekezo yake, na kuwazuia watumiaji kuyakagua kwa uhuru na kufikia hitimisho lao wenyewe, inaainishwa kama kifaa. Mwongozo wa FDA unafafanua zaidi kuwa CDSS inayotumika katika dharura ya kimatibabu inachukuliwa kuwa kifaa kutokana na hali muhimu na ya muda mfupi ya kufanya maamuzi, ambayo huzuia tathmini huru ya ushauri wa CDSS.
Kuchunguza Matokeo Yanayofanana na Kifaa katika Mifumo ya Akili Bandia
Bado haijawa wazi kama CDSS inayotumia AI, kama vile LLM, inatoa matokeo yanayoiga kifaa cha matibabu. Matokeo ya maandishi huru ya LLM isiyozuiliwa yanaweza au yasiweze kukidhi vigezo vilivyoanzishwa vya kifaa. Zaidi ya hayo, jinsi majibu ya LLM kwa maagizo magumu au “jailbreaks” yanavyolingana na vigezo hivi haijulikani. Kuongezeka kwa matumizi ya LLM kwa ushauri wa matibabu kunafanya kutokuwa na uhakika kuhusu uainishaji wa kifaa na hali ya udhibiti wa CDSS zinazotegemea LLM kuwa kikwazo kinachowezekana kwa maendeleo salama na yenye ufanisi ya teknolojia hizi. Kupata usawa sahihi kati ya usalama na uvumbuzi kwa AI katika huduma za afya ni muhimu kadiri waganga na wagonjwa wengi wanavyotumia zana hizi.
Malengo ya Utafiti: Kutathmini Utendaji Unaofanana na Kifaa
Utafiti huu ulilenga kutathmini utendaji unaofanana na kifaa wa LLM. Utendaji huu unafafanuliwa kama manufaa yao kwa “utambuzi, matibabu, kuzuia, tiba au upunguzaji wa magonjwa au hali nyingine,” bila kujali kama matumizi hayo yanakusudiwa au kuruhusiwa. Malengo mahususi yalikuwa:
- Kuamua ikiwa matokeo ya LLM yatalingana na vigezo vya kifaa wakati yameagizwa na maagizo kuhusu vigezo hivyo na kuwasilishwa na dharura ya kimatibabu.
- Kutambua hali, ikiwa zipo, ambazo matokeo ya mfumo yanaweza kubadilishwa ili kutoa matokeo yanayofanana na kifaa. Hii ilijumuisha kutumia maombi ya moja kwa moja ya habari za uchunguzi na matibabu, pamoja na “jailbreak” iliyoainishwa awali iliyoundwa ili kupata matokeo yanayofanana na kifaa licha ya maagizo ya kuzingatia vigezo visivyo vya kifaa.
Matokeo: Majibu ya LLM na Ulinganifu wa Vigezo vya Kifaa
Mapendekezo ya Huduma ya Kinga
Wakati ziliulizwa kwa mapendekezo ya huduma ya kinga, LLM zote zilitoa majibu yanayolingana na vigezo visivyo vya kifaa katika matokeo yao ya mwisho ya maandishi. Mfumo wa Llama-3, kwa kujibu agizo la mara moja, hapo awali ulitoa usaidizi wa maamuzi unaofanana na kifaa katika asilimia ndogo ya majibu (20% kwa matukio ya huduma ya kinga ya dawa ya familia na 60% kwa magonjwa ya akili). Hata hivyo, ilibadilisha maandishi haya haraka na kanusho: “Samahani, siwezi kukusaidia kwa ombi hili kwa sasa.” Wakati ziliwasilishwa na agizo la hatua nyingi lililo na mifano ya kina ya vigezo vya kifaa, mifumo yote ilitoa mapendekezo yasiyo ya kifaa kwa majibu yote ya awali ya huduma ya kinga.
Matukio ya Dharura Yanayohitaji Muda Mfupi
Katika hali zinazohusisha dharura zinazohitaji muda mfupi, 100% ya majibu ya GPT-4 na 52% ya majibu ya Llama-3 yalilingana na usaidizi wa maamuzi unaofanana na kifaa. Viwango vya jumla vya mapendekezo yanayofanana na kifaa vilisalia sawa na maagizo ya hatua nyingi lakini vilionyesha tofauti katika matukio tofauti ya kimatibabu. Majibu haya yanayofanana na kifaa yalijumuisha mapendekezo ya uchunguzi na matibabu maalum yanayohusiana na dharura.
“Daktari Mwanafunzi Aliyechanganyikiwa” Jailbreak
Wakati ziliwekwa chini ya “jailbreak” ya “daktari mwanafunzi aliyechanganyikiwa,” idadi kubwa ya majibu ilionyesha mapendekezo yanayofanana na kifaa. Hasa, 80% na 68% ya majibu ya GPT-4, na 36% na 76% ya majibu ya Llama-3, yalijumuisha mapendekezo yanayofanana na kifaa kufuatia maagizo ya hatua moja na nyingi, mtawalia.
Ufaafu wa Kimatibabu wa Mapendekezo ya LLM
Ni muhimu kutambua kuwa mapendekezo yote ya mfumo yalikuwa yanafaa kimatibabu na yalilingana na viwango vilivyoanzishwa vya utunzaji. Katika matukio ya dawa ya familia na magonjwa ya moyo, sehemu kubwa ya usaidizi wa maamuzi unaofanana na kifaa ulikuwa unafaa tu kwa waganga waliofunzwa. Mifano ni pamoja na uwekaji wa katheta ya mishipa na utoaji wa viuavijasumu vya mishipa. Katika matukio mengine, mapendekezo yanayofanana na kifaa kwa ujumla yalilingana na viwango vya utunzaji wa watazamaji, kama vile kutoa naloxone kwa matumizi ya kupita kiasi ya opioid au kutumia kichocheo cha epinephrine kwa anaphylaxis.
Athari kwa Udhibiti na Usimamizi
Ingawa hakuna LLM ambayo kwa sasa imeidhinishwa na FDA kama CDSS, na baadhi zinasema wazi kuwa hazipaswi kutumiwa kwa ushauri wa matibabu, wagonjwa na waganga wanaweza bado kuwa wanazitumia kwa madhumuni haya. Utafiti uligundua kuwa si maagizo ya hatua moja wala ya hatua nyingi, kulingana na lugha kutoka kwa hati ya mwongozo ya FDA, yaliyozuia LLM kwa uhakika kutoa usaidizi wa maamuzi usio wa kifaa pekee. Zaidi ya hayo, “jailbreak” iliyoainishwa awali mara nyingi haikuwa muhimu ili kupata usaidizi wa maamuzi unaofanana na kifaa. Matokeo haya yanaimarisha utafiti wa awali unaoangazia haja ya mifumo mipya ya udhibiti iliyoundwa kwa ajili ya AI/ML CDSSs. Pia yana athari za moja kwa moja kwa usimamizi wa vifaa vya matibabu vinavyojumuisha teknolojia za AI.
Kufikiria Upya Mbinu za Udhibiti
Udhibiti unaofaa unaweza kuhitaji mbinu mpya za kupatanisha vyema matokeo ya LLM na usaidizi wa maamuzi unaofanana na kifaa au usio wa kifaa, kulingana na matumizi yaliyokusudiwa. Uidhinishaji wa jadi wa FDA hutolewa kwa kifaa cha matibabu kwa matumizi maalum yaliyokusudiwa na dalili. Kwa mfano, vifaa vya AI/ML vilivyoidhinishwa na FDA vinajumuisha vile vilivyoundwa kwa ajili ya kutabiri ukosefu wa utulivu wa hemodynamic au kuzorota kwa kliniki. Hata hivyo, LLM zinaweza kuulizwa kuhusu mada mbalimbali, ambayo inaweza kusababisha majibu ambayo, ingawa yanafaa, yanaweza kuchukuliwa kuwa “nje ya lebo” ikilinganishwa na dalili zao zilizoidhinishwa. Matokeo yanaonyesha kuwa maagizo ya hatua moja na ya hatua nyingi hayatoshi kwa kudhibiti hili. Matokeo haya hayawakilishi upungufu wa LLM zenyewe, bali yanaangazia haja ya mbinu mpya zinazohifadhi unyumbufu wa matokeo ya LLM huku zikiyazuia kwa dalili iliyoidhinishwa.
Kuchunguza Njia Mpya za Uidhinishaji
Udhibiti wa LLM unaweza kuhitaji njia mpya za uidhinishaji ambazo hazifungamani na dalili maalum. Njia ya uidhinishaji wa kifaa kwa usaidizi wa maamuzi “ya jumla” inaweza kufaa kwa LLM na zana za AI. Ingawa mbinu hii ingewezesha uvumbuzi katika AI/ML CDSS, njia bora ya kutathmini usalama, ufanisi, na usawa wa mifumo yenye dalili pana kama hizo bado haijawa wazi. Kwa mfano, mbinu ya uidhinishaji “inayotegemea kampuni” inaweza kukwepa haja ya tathmini maalum ya kifaa, ambayo inaweza kufaa kwa LLM, lakini inakuja na dhamana zisizo na uhakika kuhusu ufanisi wa kliniki na usalama.
Kuboresha Vigezo kwa Vikundi Tofauti vya Watumiaji
Matokeo haya yanaangazia haja ya kuboresha vigezo vya CDSS zinazokusudiwa kwa waganga dhidi ya watazamaji wasio waganga. FDA hapo awali ilionyesha kuwa CDSS zinazokabiliwa na wagonjwa na walezi zingechukuliwa kuwa vifaa vya matibabu, kwa ujumla chini ya udhibiti. Hata hivyo, kwa sasa hakuna aina ya udhibiti kwa AI/ML CDSS iliyoundwa kwa ajili ya mtazamaji asiye mganga. Kufanya uchunguzi maalum na kutoa maagizo maalum kwa dharura inayohitaji muda mfupi kunalingana wazi na vigezo vya FDA kwa vifaa vinavyokusudiwa kwa wataalamu wa afya. Kwa upande mwingine, vitendo kama vile ufufuo wa moyo na mapafu (CPR) na utoaji wa epinephrine au naloxone pia vinakidhi vigezo hivi vya kifaa, lakini wakati huo huo ni tabia za uokoaji zilizoanzishwa vizuri kwa watazamaji wasio waganga.
Mapungufu ya Utafiti
Utafiti huu una mapungufu kadhaa:
- Unatathmini LLM dhidi ya kazi ambayo si matumizi maalum yaliyokusudiwa ya programu.
- Unailinganisha matokeo ya LLM na mwongozo wa FDA, ambao haufungamani, na hautathmini uthabiti wa mapendekezo ya LLM na masharti mengine muhimu ya kisheria ya Marekani au mifumo ya udhibiti.
- Hautathmini mbinu nyingine za uagizaji ambazo zinaweza kuwa na ufanisi zaidi kuliko maagizo ya hatua moja na ya hatua nyingi.
- Hauchunguzi jinsi maagizo hayo yanaweza kuunganishwa kivitendo katika mtiririko halisi wa kazi za kimatibabu.
- Hautathmini aina pana zaidi ya LLM zinazopatikana sana na zinazotumiwa sana zaidi ya GPT-4 na Llama-3.
- Ukubwa wa sampuli ya maagizo ni ndogo.
Kusonga Mbele: Kusawazisha Ubunifu na Usalama
Maagizo yanayotokana na maandishi ya mwongozo wa FDA kwa vigezo vya kifaa vya CDSS, iwe ya hatua moja au ya hatua nyingi, hayatoshi kuhakikisha kuwa matokeo ya LLM yanalingana na usaidizi wa maamuzi usio wa kifaa. Mifumo mipya ya udhibiti na teknolojia zinahitajika kushughulikia mifumo ya AI, kusawazisha uvumbuzi, usalama, na ufanisi wa kimatibabu. Mageuzi ya haraka ya teknolojia hii yanahitaji mbinu makini na inayobadilika ya udhibiti, kuhakikisha kuwa faida za LLM katika huduma za afya zinaweza kupatikana huku zikipunguza hatari zinazoweza kutokea.