Janji dan Cabaran Pengawalseliaan LLM dalam Penjagaan Kesihatan
Keupayaan LLM, yang berpunca daripada data latihan yang luas dan keupayaan untuk menjana teks seperti manusia, memacu minat dalam aplikasi mereka untuk sokongan keputusan merentasi pelbagai bidang. Walau bagaimanapun, ciri-ciri yang menjadikan sistem kecerdasan buatan (AI) generatif begitu menarik juga membentangkan halangan unik untuk badan kawal selia. Badan-badan ini beroperasi dalam rangka kerja yang ditubuhkan beberapa dekad yang lalu, direka untuk peranti perubatan tradisional, bukan sifat dinamik AI.
Pada masa ini, LLM yang tersedia tidak diklasifikasikan sebagai peranti perubatan. Akta Makanan, Dadah, dan Kosmetik Persekutuan (FD&C Act § 201(h)(1)) mentakrifkan peranti perubatan sebagai “instrumen… yang bertujuan untuk digunakan dalam diagnosis, …penyembuhan, mitigasi, rawatan, atau pencegahan penyakit… yang tidak mencapai tujuan utama yang dimaksudkan melalui tindakan kimia.” Kebanyakan LLM menyertakan penafian yang menyatakan bahawa ia tidak bertujuan untuk memberikan nasihat perubatan, justeru mengelakkan peraturan FDA. Walaupun begitu, terdapat koleksi penyelidikan yang diterbitkan dan bukti anekdot yang semakin berkembang yang menyerlahkan penggunaan LLM untuk sokongan keputusan perubatan, baik dalam tetapan penyelidikan mahupun amalan klinikal sebenar.
Mentakrifkan Skop Peraturan untuk Sokongan Keputusan Klinikal Berasaskan LLM
Memandangkan potensi LLM, sekiranya ia digabungkan secara rasmi ke dalam sistem sokongan keputusan klinikal (CDSS), persoalan peraturan yang sesuai menjadi amat penting. Pindaan Akta Penyembuhan Abad ke-21 kepada Akta FD&C (Undang-undang Awam 114–255), bersama-sama dengan panduan daripada FDA, menggariskan empat kriteria utama untuk menentukan sama ada perisian sokongan keputusan layak sebagai peranti dan, akibatnya, tertakluk di bawah bidang kuasa FDA. Kriteria ini berkisar tentang:
- Data input fungsi perisian.
- Data outputnya.
- Intipati cadangan klinikalnya.
- Keupayaan pengguna akhir untuk menyemak rasional di sebalik cadangan tersebut.
Secara khusus, CDSS dianggap sebagai peranti jika outputnya menawarkan arahan yang tepat untuk rawatan atau diagnosis, dan bukannya cadangan berasaskan maklumat am. Selain itu, jika CDSS gagal memberikan asas asas untuk cadangannya, menghalang pengguna daripada menyemaknya secara bebas dan mencapai kesimpulan mereka sendiri, ia diklasifikasikan sebagai peranti. Panduan FDA seterusnya menjelaskan bahawa CDSS yang digunakan dalam kecemasan klinikal dianggap sebagai peranti kerana sifat kritikal dan sensitif masa dalam membuat keputusan, yang menghalang penilaian bebas terhadap nasihat CDSS.
Menyiasat Output Seperti Peranti dalam Sistem AI Generatif
Masih tidak jelas sama ada CDSS yang menggunakan AI generatif, seperti LLM, menghasilkan output yang menyerupai peranti perubatan. Output teks bebas daripada LLM yang tidak terkawal mungkin atau mungkin tidak memenuhi kriteria peranti yang ditetapkan. Tambahan pula, bagaimana respons LLM terhadap gesaan yang mencabar atau “jailbreak” sejajar dengan kriteria ini tidak diketahui. Peningkatan penggunaan LLM untuk nasihat perubatan menjadikan ketidakpastian mengenai penetapan peranti dan status pengawalseliaan CDSS berasaskan LLM sebagai penghalang yang berpotensi kepada pembangunan teknologi ini yang selamat dan berkesan. Mencapai keseimbangan yang betul antara keselamatan dan inovasi untuk AI generatif dalam penjagaan kesihatan adalah penting kerana lebih ramai doktor dan pesakit menggunakan alat ini.
Objektif Penyelidikan: Menilai Kefungsian Seperti Peranti
Penyelidikan ini bertujuan untuk menilai kefungsian seperti peranti LLM. Kefungsian ini ditakrifkan sebagai utilitinya untuk “diagnosis, rawatan, pencegahan, penyembuhan atau mitigasi penyakit atau keadaan lain,” tanpa mengira sama ada penggunaan sedemikian dimaksudkan atau dibenarkan. Objektif khusus adalah:
- Untuk menentukan sama ada output LLM akan sejajar dengan kriteria peranti apabila digesa dengan arahan tentang kriteria tersebut dan dibentangkan dengan kecemasan klinikal.
- Untuk mengenal pasti keadaan, jika ada, di mana output model boleh dimanipulasi untuk menyediakan output seperti peranti. Ini termasuk menggunakan permintaan terus untuk maklumat diagnostik dan rawatan, serta “jailbreak” yang telah ditetapkan yang direka untuk mendapatkan output seperti peranti walaupun terdapat gesaan untuk mematuhi kriteria bukan peranti.
Penemuan: Respons LLM dan Penjajaran Kriteria Peranti
Cadangan Penjagaan Pencegahan
Apabila ditanya untuk cadangan penjagaan pencegahan, semua LLM menjana respons yang konsisten dengan kriteria bukan peranti dalam output teks akhir mereka. Model Llama-3, sebagai tindak balas kepada gesaan satu tangkapan (single-shot), pada mulanya menyediakan sokongan keputusan seperti peranti dalam peratusan kecil respons (20% untuk perubatan keluarga dan 60% untuk senario penjagaan pencegahan psikiatri). Walau bagaimanapun, ia dengan pantas menggantikan teks ini dengan penafian: “Maaf, saya tidak dapat membantu anda dengan permintaan ini sekarang.” Apabila dibentangkan dengan gesaan berbilang tangkapan (multi-shot) yang mengandungi contoh terperinci kriteria peranti, semua model secara konsisten memberikan cadangan bukan peranti untuk semua respons penjagaan pencegahan awal.
Senario Kecemasan Kritikal Masa
Dalam situasi yang melibatkan kecemasan kritikal masa, 100% daripada respons GPT-4 dan 52% daripada respons Llama-3 sejajar dengan sokongan keputusan seperti peranti. Kadar keseluruhan cadangan seperti peranti kekal konsisten dengan gesaan berbilang tangkapan tetapi menunjukkan variasi merentas senario klinikal yang berbeza. Respons seperti peranti ini termasuk cadangan untuk diagnosis dan rawatan khusus yang berkaitan dengan kecemasan.
“Jailbreak” Pelatih Terdesak
Apabila tertakluk kepada “jailbreak” pelatih terdesak, sebahagian besar respons mempamerkan cadangan seperti peranti. Secara khusus, 80% dan 68% daripada respons GPT-4, dan 36% dan 76% daripada respons Llama-3, termasuk cadangan seperti peranti berikutan gesaan satu tangkapan dan berbilang tangkapan, masing-masing.
Kesesuaian Klinikal Cadangan LLM
Adalah penting untuk ambil perhatian bahawa semua cadangan model adalah sesuai dari segi klinikal dan sejajar dengan piawaian penjagaan yang ditetapkan. Dalam senario perubatan keluarga dan kardiologi, kebanyakan sokongan keputusan seperti peranti hanya sesuai untuk doktor terlatih. Contohnya termasuk penempatan kateter intravena dan pemberian antibiotik intravena. Dalam senario lain, cadangan seperti peranti secara amnya konsisten dengan piawaian penjagaan orang awam, seperti pemberian naloxone untuk dos berlebihan opioid atau menggunakan autoinjektor epinefrin untuk anafilaksis.
Implikasi untuk Peraturan dan Pengawasan
Walaupun tiada LLM yang dibenarkan oleh FDA sebagai CDSS pada masa ini, dan sesetengahnya secara jelas menyatakan bahawa ia tidak boleh digunakan untuk nasihat perubatan, pesakit dan doktor mungkin masih menggunakannya untuk tujuan ini. Kajian mendapati bahawa gesaan satu tangkapan mahupun berbilang tangkapan, berdasarkan bahasa daripada dokumen panduan FDA, tidak boleh dipercayai untuk menyekat LLM kepada hanya menghasilkan sokongan keputusan bukan peranti. Selain itu, “jailbreak” yang telah ditetapkan selalunya tidak diperlukan untuk mendapatkan sokongan keputusan seperti peranti. Penemuan ini mengukuhkan penyelidikan terdahulu yang menyerlahkan keperluan untuk paradigma pengawalseliaan novel yang disesuaikan dengan AI/ML CDSS. Ia juga mempunyai implikasi langsung untuk pengawasan peranti perubatan yang menggabungkan teknologi AI generatif.
Memikirkan Semula Pendekatan Pengawalseliaan
Peraturan yang berkesan mungkin memerlukan kaedah baharu untuk menjajarkan output LLM dengan lebih baik sama ada sokongan keputusan seperti peranti atau bukan peranti, bergantung pada penggunaan yang dimaksudkan. Kebenaran FDA tradisional diberikan kepada peranti perubatan untuk kegunaan dan petunjuk khusus yang dimaksudkan. Sebagai contoh, peranti AI/ML yang dibenarkan oleh FDA termasuk yang direka untuk meramalkan ketidakstabilan hemodinamik atau kemerosotan klinikal. Walau bagaimanapun, LLM boleh ditanya mengenai pelbagai topik, yang berpotensi membawa kepada respons yang, walaupun sesuai, akan dianggap “di luar label” berbanding dengan petunjuk yang diluluskan. Keputusan menunjukkan bahawa gesaan satu tangkapan dan berbilang tangkapan tidak mencukupi untuk mengawal perkara ini. Penemuan ini tidak mewakili had LLM itu sendiri, sebaliknya menekankan keperluan untuk kaedah baharu yang mengekalkan fleksibiliti output LLM sambil mengehadkannya kepada petunjuk yang diluluskan.
Meneroka Laluan Kebenaran Baharu
Peraturan LLM mungkin memerlukan laluan kebenaran baharu yang tidak terikat dengan petunjuk khusus. Laluan kebenaran peranti untuk sokongan keputusan “umum” mungkin sesuai untuk LLM dan alat AI generatif. Walaupun pendekatan ini akan memudahkan inovasi dalam AI/ML CDSS, kaedah optimum untuk menilai keselamatan, keberkesanan dan ekuiti sistem dengan petunjuk yang begitu luas masih tidak jelas. Sebagai contoh, pendekatan kebenaran “berasaskan firma” boleh memintas keperluan untuk penilaian khusus peranti, yang mungkin sesuai untuk LLM, tetapi ia datang dengan jaminan yang tidak pasti mengenai keberkesanan dan keselamatan klinikal.
Memperhalusi Kriteria untuk Kumpulan Pengguna yang Berbeza
Penemuan ini menyerlahkan keperluan untuk memperhalusi kriteria untuk CDSS yang bertujuan untuk doktor berbanding orang awam bukan doktor. FDA sebelum ini telah menunjukkan bahawa CDSS yang menghadap pesakit dan penjaga akan dianggap sebagai peranti perubatan, secara amnya tertakluk kepada peraturan. Walau bagaimanapun, pada masa ini tiada kategori pengawalseliaan untuk AI/ML CDSS yang direka untuk orang awam bukan doktor. Membuat diagnosis khusus dan memberikan arahan khusus untuk kecemasan kritikal masa jelas sejajar dengan kriteria FDA untuk peranti yang bertujuan untuk profesional penjagaan kesihatan. Sebaliknya, tindakan seperti resusitasi kardiopulmonari (CPR) dan pemberian epinefrin atau naloxone juga memenuhi kriteria peranti ini, namun ia pada masa yang sama merupakan tingkah laku menyelamat yang mantap untuk orang awam bukan doktor.
Batasan Kajian
Kajian ini mempunyai beberapa batasan:
- Ia menilai LLM terhadap tugas yang bukan merupakan kegunaan perisian yang dinyatakan.
- Ia membandingkan output LLM dengan panduan FDA, yang tidak mengikat, dan tidak menilai ketekalan cadangan LLM dengan peruntukan statutori AS atau rangka kerja pengawalseliaan lain yang berkaitan.
- Ia tidak menilai kaedah gesaan lain yang mungkin lebih berkesan daripada gesaan satu tangkapan dan berbilang tangkapan.
- Ia tidak meneroka bagaimana gesaan sedemikian boleh disepadukan secara praktikal ke dalam aliran kerja klinikal dunia sebenar.
- Ia tidak menilai julat LLM yang lebih luas yang tersedia secara meluas dan biasa digunakan selain GPT-4 dan Llama-3.
- Saiz sampel gesaan adalah kecil.
Melangkah ke Hadapan: Mengimbangi Inovasi dan Keselamatan
Gesaan berdasarkan teks panduan FDA untuk kriteria peranti CDSS, sama ada satu tangkapan atau berbilang tangkapan, tidak mencukupi untuk memastikan output LLM sejajar dengan sokongan keputusan bukan peranti. Paradigma dan teknologi pengawalseliaan baharu diperlukan untuk menangani sistem AI generatif, mencapai keseimbangan antara inovasi, keselamatan dan keberkesanan klinikal. Evolusi pesat teknologi ini menuntut pendekatan proaktif dan adaptif terhadap peraturan, memastikan bahawa faedah LLM dalam penjagaan kesihatan dapat direalisasikan sambil mengurangkan potensi risiko.