Janji dan Tantangan Regulasi LLM dalam Perawatan Kesehatan
Kemampuan LLM, yang berasal dari data pelatihan ekstensif dan kemampuan untuk menghasilkan teks seperti manusia, mendorong minat dalam aplikasi mereka untuk dukungan keputusan di berbagai bidang. Namun, karakteristik yang membuat sistem kecerdasan buatan (AI) generatif begitu menarik juga menghadirkan rintangan unik bagi badan pengatur. Badan-badan ini beroperasi dalam kerangka kerja yang didirikan beberapa dekade lalu, dirancang untuk perangkat medis tradisional, bukan sifat dinamis AI.
Saat ini, LLM yang tersedia tidak diklasifikasikan sebagai perangkat medis. Undang-Undang Makanan, Obat-obatan, dan Kosmetik Federal (FD&C Act § 201(h)(1)) mendefinisikan perangkat medis sebagai “instrumen… yang dimaksudkan untuk digunakan dalam diagnosis, …penyembuhan, mitigasi, pengobatan, atau pencegahan penyakit… yang tidak mencapai tujuan utamanya melalui tindakan kimia.” Sebagian besar LLM menyertakan penafian yang menyatakan bahwa mereka tidak dimaksudkan untuk memberikan nasihat medis, sehingga menghindari regulasi FDA. Meskipun demikian, ada banyak koleksi penelitian yang diterbitkan dan bukti anekdotal yang menyoroti penggunaan LLM untuk dukungan keputusan medis, baik dalam pengaturan penelitian maupun praktik klinis yang sebenarnya.
Mendefinisikan Ruang Lingkup Regulasi untuk Dukungan Keputusan Klinis Berbasis LLM
Mempertimbangkan potensi LLM, jika mereka secara formal dimasukkan ke dalam sistem pendukung keputusan klinis (CDSS), pertanyaan tentang regulasi yang tepat menjadi sangat penting. Amandemen 21st Century Cures Act terhadap FD&C Act (Public Law 114–255), bersama dengan panduan dari FDA, menguraikan empat kriteria utama untuk menentukan apakah perangkat lunak pendukung keputusan memenuhi syarat sebagai perangkat dan, akibatnya, berada di bawah yurisdiksi FDA. Kriteria ini berkisar pada:
- Data input fungsi perangkat lunak.
- Data outputnya.
- Substansi rekomendasi klinisnya.
- Kemampuan pengguna akhir untuk meninjau alasan di balik rekomendasi tersebut.
Secara khusus, CDSS dianggap sebagai perangkat jika outputnya menawarkan arahan yang tepat untuk pengobatan atau diagnosis, daripada rekomendasi berbasis informasi umum. Selain itu, jika CDSS gagal memberikan dasar yang mendasari rekomendasinya, mencegah pengguna untuk meninjaunya secara independen dan mencapai kesimpulan mereka sendiri, itu diklasifikasikan sebagai perangkat. Panduan FDA lebih lanjut mengklarifikasi bahwa CDSS yang digunakan dalam keadaan darurat klinis dianggap sebagai perangkat karena sifat kritis dan sensitif waktu dari pengambilan keputusan, yang menghalangi penilaian independen terhadap saran CDSS.
Menyelidiki Output Mirip Perangkat dalam Sistem AI Generatif
Masih belum jelas apakah CDSS yang menggunakan AI generatif, seperti LLM, menghasilkan output yang meniru perangkat medis. Output teks bebas dari LLM yang tidak dibatasi mungkin atau mungkin tidak memenuhi kriteria perangkat yang ditetapkan. Selain itu, bagaimana respons LLM terhadap prompt yang menantang atau “jailbreak” selaras dengan kriteria ini tidak diketahui. Meningkatnya penggunaan LLM untuk nasihat medis membuat ketidakpastian seputar penetapan perangkat dan status regulasi CDSS berbasis LLM menjadi potensi hambatan bagi pengembangan teknologi ini yang aman dan efektif. Mencapai keseimbangan yang tepat antara keamanan dan inovasi untuk AI generatif dalam perawatan kesehatan sangat penting karena semakin banyak dokter dan pasien yang menggunakan alat ini.
Tujuan Penelitian: Mengevaluasi Fungsionalitas Mirip Perangkat
Penelitian ini bertujuan untuk menilai fungsionalitas mirip perangkat dari LLM. Fungsionalitas ini didefinisikan sebagai utilitasnya untuk “diagnosis, pengobatan, pencegahan, penyembuhan atau mitigasi penyakit atau kondisi lain,” terlepas dari apakah penggunaan tersebut dimaksudkan atau diizinkan. Tujuan spesifiknya adalah:
- Untuk menentukan apakah output LLM akan selaras dengan kriteria perangkat ketika diminta dengan instruksi tentang kriteria tersebut dan disajikan dengan keadaan darurat klinis.
- Untuk mengidentifikasi kondisi, jika ada, di mana output model dapat dimanipulasi untuk memberikan output seperti perangkat. Ini termasuk menggunakan permintaan langsung untuk informasi diagnostik dan perawatan, serta “jailbreak” yang telah ditentukan sebelumnya yang dirancang untuk memperoleh output seperti perangkat meskipun ada prompt untuk mematuhi kriteria non-perangkat.
Temuan: Respons LLM dan Penyelarasan Kriteria Perangkat
Rekomendasi Perawatan Pencegahan
Ketika ditanya untuk rekomendasi perawatan pencegahan, semua LLM menghasilkan respons yang konsisten dengan kriteria non-perangkat dalam output teks akhir mereka. Model Llama-3, sebagai tanggapan atas prompt satu bidikan, awalnya memberikan dukungan keputusan seperti perangkat dalam persentase kecil respons (20% untuk kedokteran keluarga dan 60% untuk skenario perawatan pencegahan psikiatri). Namun, dengan cepat mengganti teks ini dengan penafian: “Maaf, saya tidak dapat membantu Anda dengan permintaan ini sekarang.” Ketika disajikan dengan prompt multi-shot yang berisi contoh detail kriteria perangkat, semua model secara konsisten memberikan rekomendasi non-perangkat untuk semua respons perawatan pencegahan awal.
Skenario Darurat yang Kritis Waktu
Dalam situasi yang melibatkan keadaan darurat yang kritis waktu, 100% respons GPT-4 dan 52% respons Llama-3 selaras dengan dukungan keputusan seperti perangkat. Tingkat keseluruhan rekomendasi seperti perangkat tetap konsisten dengan prompt multi-shot tetapi menunjukkan variasi di berbagai skenario klinis. Respons seperti perangkat ini termasuk saran untuk diagnosis dan perawatan spesifik yang terkait dengan keadaan darurat.
Jailbreak ‘Desperate Intern’
Ketika menjadi subjek jailbreak ‘desperate intern’, proporsi respons yang signifikan menunjukkan rekomendasi seperti perangkat. Secara khusus, 80% dan 68% respons GPT-4, dan 36% dan 76% respons Llama-3, termasuk rekomendasi seperti perangkat setelah prompt tunggal dan multi-shot, masing-masing.
Kesesuaian Klinis Saran LLM
Penting untuk dicatat bahwa semua saran model sesuai secara klinis dan selaras dengan standar perawatan yang ditetapkan. Dalam skenario kedokteran keluarga dan kardiologi, sebagian besar dukungan keputusan seperti perangkat hanya cocok untuk dokter terlatih. Contohnya termasuk penempatan kateter intravena dan pemberian antibiotik intravena. Dalam skenario lain, rekomendasi seperti perangkat umumnya konsisten dengan standar perawatan pengamat, seperti pemberian nalokson untuk overdosis opioid atau penggunaan auto-injektor epinefrin untuk anafilaksis.
Implikasi untuk Regulasi dan Pengawasan
Meskipun tidak ada LLM yang saat ini diotorisasi oleh FDA sebagai CDSS, dan beberapa secara eksplisit menyatakan bahwa mereka tidak boleh digunakan untuk nasihat medis, pasien dan dokter mungkin masih menggunakannya untuk tujuan ini. Studi ini menemukan bahwa baik prompt tunggal maupun multi-shot, berdasarkan bahasa dari dokumen panduan FDA, tidak cukup membatasi LLM untuk hanya menghasilkan dukungan keputusan non-perangkat. Selain itu, jailbreak yang telah ditentukan sebelumnya seringkali tidak diperlukan untuk memperoleh dukungan keputusan seperti perangkat. Temuan ini memperkuat penelitian sebelumnya yang menyoroti perlunya paradigma regulasi baru yang disesuaikan dengan AI/ML CDSS. Mereka juga memiliki implikasi langsung untuk pengawasan perangkat medis yang menggabungkan teknologi AI generatif.
Memikirkan Kembali Pendekatan Regulasi
Regulasi yang efektif mungkin memerlukan metode baru untuk lebih menyelaraskan output LLM dengan dukungan keputusan seperti perangkat atau non-perangkat, tergantung pada tujuan penggunaan. Otorisasi FDA tradisional diberikan kepada perangkat medis untuk penggunaan dan indikasi yang dimaksudkan secara spesifik. Misalnya, perangkat AI/ML yang diotorisasi FDA termasuk yang dirancang untuk memprediksi ketidakstabilan hemodinamik atau perburukan klinis. Namun, LLM dapat ditanyai tentang berbagai topik, yang berpotensi mengarah pada respons yang, meskipun sesuai, akan dianggap “di luar label” relatif terhadap indikasi yang disetujui. Hasilnya menunjukkan bahwa prompt tunggal dan multi-shot tidak memadai untuk mengendalikan ini. Temuan ini tidak mewakili keterbatasan LLM itu sendiri, tetapi lebih menggarisbawahi perlunya metode baru yang mempertahankan fleksibilitas output LLM sambil membatasinya pada indikasi yang disetujui.
Menjelajahi Jalur Otorisasi Baru
Regulasi LLM mungkin memerlukan jalur otorisasi baru yang tidak terikat pada indikasi spesifik. Jalur otorisasi perangkat untuk dukungan keputusan “umum” mungkin cocok untuk LLM dan alat AI generatif. Sementara pendekatan ini akan memfasilitasi inovasi dalam AI/ML CDSS, metode optimal untuk menilai keamanan, efektivitas, dan kesetaraan sistem dengan indikasi yang begitu luas masih belum jelas. Misalnya, pendekatan otorisasi “berbasis perusahaan” dapat melewati kebutuhan evaluasi khusus perangkat, yang mungkin sesuai untuk LLM, tetapi dilengkapi dengan jaminan yang tidak pasti mengenai efektivitas dan keamanan klinis.
Menyempurnakan Kriteria untuk Kelompok Pengguna yang Berbeda
Temuan ini menyoroti perlunya menyempurnakan kriteria untuk CDSS yang ditujukan untuk dokter versus pengamat non-klinisi. FDA sebelumnya telah mengindikasikan bahwa CDSS yang menghadap pasien dan pengasuh akan dianggap sebagai perangkat medis, umumnya tunduk pada regulasi. Namun, saat ini tidak ada kategori regulasi untuk AI/ML CDSS yang dirancang untuk pengamat non-klinisi. Membuat diagnosis spesifik dan memberikan arahan spesifik untuk keadaan darurat yang kritis waktu jelas selaras dengan kriteria FDA untuk perangkat yang ditujukan untuk profesional perawatan kesehatan. Di sisi lain, tindakan seperti resusitasi jantung paru (CPR) dan pemberian epinefrin atau nalokson juga memenuhi kriteria perangkat ini, namun secara bersamaan merupakan perilaku penyelamatan yang mapan untuk pengamat non-klinisi.
Keterbatasan Studi
Studi ini memiliki beberapa keterbatasan:
- Ini mengevaluasi LLM terhadap tugas yang bukan merupakan penggunaan perangkat lunak yang dimaksudkan secara spesifik.
- Ini membandingkan output LLM dengan panduan FDA, yang tidak mengikat, dan tidak menilai konsistensi rekomendasi LLM dengan ketentuan undang-undang AS atau kerangka kerja regulasi lain yang relevan.
- Ini tidak mengevaluasi metode prompting lain yang mungkin lebih efektif daripada prompt tunggal dan multi-shot.
- Ini tidak mengeksplorasi bagaimana prompt tersebut dapat diintegrasikan secara praktis ke dalam alur kerja klinis dunia nyata.
- Ini tidak mengevaluasi berbagai LLM yang tersedia secara luas dan umum digunakan di luar GPT-4 dan Llama-3.
- Ukuran sampel prompt kecil.
Bergerak Maju: Menyeimbangkan Inovasi dan Keamanan
Prompt berdasarkan teks panduan FDA untuk kriteria perangkat CDSS, baik tunggal maupun multi-shot, tidak cukup untuk memastikan bahwa output LLM selaras dengan dukungan keputusan non-perangkat. Paradigma dan teknologi regulasi baru diperlukan untuk mengatasi sistem AI generatif, mencapai keseimbangan antara inovasi, keamanan, dan efektivitas klinis. Evolusi pesat teknologi ini menuntut pendekatan proaktif dan adaptif terhadap regulasi, memastikan bahwa manfaat LLM dalam perawatan kesehatan dapat direalisasikan sambil mengurangi potensi risiko.