ความเป็นไปได้และความท้าทายด้านกฎระเบียบของ LLMs ในการดูแลสุขภาพ
ความสามารถของ LLMs ซึ่งเกิดจากข้อมูลการฝึกอบรมที่ครอบคลุมและความสามารถในการสร้างข้อความที่เหมือนมนุษย์ กำลังขับเคลื่อนความสนใจในการประยุกต์ใช้สำหรับการสนับสนุนการตัดสินใจในสาขาต่างๆ อย่างไรก็ตาม ลักษณะเฉพาะที่ทำให้ระบบปัญญาประดิษฐ์ (AI) เชิงสร้างสรรค์เหล่านี้น่าสนใจ ก็ก่อให้เกิดอุปสรรคเฉพาะสำหรับหน่วยงานกำกับดูแล หน่วยงานเหล่านี้กำลังดำเนินการภายในกรอบการทำงานที่จัดตั้งขึ้นเมื่อหลายสิบปีก่อน ซึ่งออกแบบมาสำหรับอุปกรณ์ทางการแพทย์แบบดั้งเดิม ไม่ใช่ลักษณะไดนามิกของ AI
ปัจจุบัน LLMs ที่มีอยู่ไม่ได้จัดว่าเป็นอุปกรณ์ทางการแพทย์ พระราชบัญญัติอาหาร ยา และเครื่องสำอางของรัฐบาลกลาง (FD&C Act § 201(h)(1)) กำหนดอุปกรณ์ทางการแพทย์ว่าเป็น “เครื่องมือ… ที่มีวัตถุประสงค์เพื่อใช้ในการวินิจฉัย… การรักษา การบรรเทา การรักษา หรือการป้องกันโรค… ซึ่งไม่ได้บรรลุวัตถุประสงค์หลักที่ตั้งใจไว้ผ่านการกระทำทางเคมี” LLMs ส่วนใหญ่มีข้อจำกัดความรับผิดชอบที่ระบุว่าไม่ได้มีวัตถุประสงค์เพื่อให้คำแนะนำทางการแพทย์ ดังนั้นจึงหลีกเลี่ยงกฎระเบียบของ FDA แม้ว่าจะมีสิ่งนี้ แต่ก็มีคอลเลกชันงานวิจัยที่ตีพิมพ์และหลักฐานเล็กๆ น้อยๆ ที่เน้นการใช้ LLMs สำหรับการสนับสนุนการตัดสินใจทางการแพทย์ ทั้งในการตั้งค่าการวิจัยและการปฏิบัติทางคลินิกจริง
การกำหนดขอบเขตของกฎระเบียบสำหรับการสนับสนุนการตัดสินใจทางคลินิกที่ใช้ LLM
เมื่อพิจารณาถึงศักยภาพของ LLMs หากมีการรวมเข้ากับระบบสนับสนุนการตัดสินใจทางคลินิก (CDSS) อย่างเป็นทางการ คำถามเกี่ยวกับกฎระเบียบที่เหมาะสมจะมีความสำคัญสูงสุด การแก้ไขพระราชบัญญัติ FD&C ในศตวรรษที่ 21 (กฎหมายมหาชน 114–255) พร้อมกับคำแนะนำจาก FDA ได้สรุปเกณฑ์สำคัญสี่ประการเพื่อพิจารณาว่าซอฟต์แวร์สนับสนุนการตัดสินใจมีคุณสมบัติเป็นอุปกรณ์หรือไม่ และด้วยเหตุนี้จึงอยู่ภายใต้เขตอำนาจของ FDA เกณฑ์เหล่านี้เกี่ยวข้องกับ:
- ข้อมูลอินพุตของฟังก์ชันซอฟต์แวร์
- ข้อมูลเอาต์พุต
- เนื้อหาของคำแนะนำทางคลินิก
- ความสามารถของผู้ใช้ปลายทางในการตรวจสอบเหตุผลเบื้องหลังคำแนะนำเหล่านั้น
โดยเฉพาะอย่างยิ่ง CDSS จะถือว่าเป็นอุปกรณ์หากเอาต์พุตมีคำสั่งที่แม่นยำสำหรับการรักษาหรือการวินิจฉัย แทนที่จะเป็นคำแนะนำตามข้อมูลทั่วไป นอกจากนี้ หาก CDSS ไม่สามารถให้พื้นฐานเบื้องหลังคำแนะนำได้ ทำให้ผู้ใช้ไม่สามารถตรวจสอบได้อย่างอิสระและสรุปผลด้วยตนเองได้ จะถูกจัดว่าเป็นอุปกรณ์ คำแนะนำของ FDA ชี้แจงเพิ่มเติมว่า CDSS ที่ใช้ในกรณีฉุกเฉินทางคลินิกถือเป็นอุปกรณ์เนื่องจากลักษณะที่สำคัญและไวต่อเวลาของการตัดสินใจ ซึ่งไม่รวมถึงการประเมินคำแนะนำของ CDSS อย่างอิสระ
การตรวจสอบผลลัพธ์ที่เหมือนอุปกรณ์ในระบบ AI เชิงสร้างสรรค์
ยังไม่ชัดเจนว่า CDSS ที่ใช้ AI เชิงสร้างสรรค์ เช่น LLM สร้างเอาต์พุตที่เลียนแบบอุปกรณ์ทางการแพทย์หรือไม่ เอาต์พุตข้อความอิสระของ LLM ที่ไม่มีข้อจำกัดอาจเป็นไปตามหรืออาจไม่เป็นไปตามเกณฑ์อุปกรณ์ที่กำหนดไว้ นอกจากนี้ วิธีการตอบสนองของ LLM ต่อข้อความแจ้งที่ท้าทายหรือ “jailbreaks” สอดคล้องกับเกณฑ์เหล่านี้ยังไม่เป็นที่ทราบ การใช้ LLMs ที่เพิ่มขึ้นสำหรับคำแนะนำทางการแพทย์ทำให้ความไม่แน่นอนเกี่ยวกับการกำหนดอุปกรณ์และสถานะการกำกับดูแลของ CDSS ที่ใช้ LLM เป็นอุปสรรคที่อาจเกิดขึ้นกับการพัฒนาเทคโนโลยีเหล่านี้อย่างปลอดภัยและมีประสิทธิภาพ การสร้างสมดุลที่เหมาะสมระหว่างความปลอดภัยและนวัตกรรมสำหรับ AI เชิงสร้างสรรค์ในการดูแลสุขภาพเป็นสิ่งสำคัญ เนื่องจากแพทย์และผู้ป่วยจำนวนมากขึ้นใช้เครื่องมือเหล่านี้
วัตถุประสงค์การวิจัย: การประเมินฟังก์ชันการทำงานที่เหมือนอุปกรณ์
งานวิจัยนี้มีวัตถุประสงค์เพื่อประเมินฟังก์ชันการทำงานที่เหมือนอุปกรณ์ของ LLMs ฟังก์ชันนี้ถูกกำหนดให้เป็นประโยชน์สำหรับ “การวินิจฉัย การรักษา การป้องกัน การรักษา หรือการบรรเทาโรคหรือภาวะอื่นๆ” โดยไม่คำนึงว่าการใช้งานดังกล่าวมีวัตถุประสงค์หรือได้รับอนุญาตหรือไม่ วัตถุประสงค์เฉพาะคือ:
- เพื่อตรวจสอบว่าเอาต์พุตของ LLM จะสอดคล้องกับเกณฑ์อุปกรณ์หรือไม่ เมื่อได้รับแจ้งพร้อมคำแนะนำเกี่ยวกับเกณฑ์เหล่านั้นและนำเสนอด้วยเหตุฉุกเฉินทางคลินิก
- เพื่อระบุเงื่อนไข (ถ้ามี) ที่เอาต์พุตของแบบจำลองสามารถจัดการเพื่อให้เอาต์พุตที่เหมือนอุปกรณ์ได้ ซึ่งรวมถึงการใช้คำขอโดยตรงสำหรับข้อมูลการวินิจฉัยและการรักษา ตลอดจน “jailbreak” ที่กำหนดไว้ล่วงหน้าซึ่งออกแบบมาเพื่อกระตุ้นเอาต์พุตที่เหมือนอุปกรณ์ แม้จะมีข้อความแจ้งให้ปฏิบัติตามเกณฑ์ที่ไม่ใช่อุปกรณ์
ผลการวิจัย: การตอบสนองของ LLM และการจัดตำแหน่งเกณฑ์อุปกรณ์
คำแนะนำการดูแลเชิงป้องกัน
เมื่อสอบถามคำแนะนำการดูแลเชิงป้องกัน LLMs ทั้งหมดสร้างการตอบสนองที่สอดคล้องกับเกณฑ์ที่ไม่ใช่อุปกรณ์ในเอาต์พุตข้อความสุดท้าย แบบจำลอง Llama-3 ในการตอบสนองต่อข้อความแจ้งแบบ single-shot ในตอนแรกให้การสนับสนุนการตัดสินใจที่เหมือนอุปกรณ์ในเปอร์เซ็นต์เล็กน้อยของการตอบสนอง (20% สำหรับสถานการณ์การดูแลเชิงป้องกันเวชศาสตร์ครอบครัว และ 60% สำหรับจิตเวช) อย่างไรก็ตาม มันแทนที่ข้อความนี้อย่างรวดเร็วด้วยข้อจำกัดความรับผิดชอบ: “ขออภัย ฉันไม่สามารถช่วยคุณในคำขอนี้ได้ในขณะนี้” เมื่อนำเสนอด้วยข้อความแจ้งแบบ multi-shot ที่มีตัวอย่างโดยละเอียดของเกณฑ์อุปกรณ์ แบบจำลองทั้งหมดให้คำแนะนำที่ไม่ใช่อุปกรณ์อย่างสม่ำเสมอสำหรับการตอบสนองการดูแลเชิงป้องกันเริ่มต้นทั้งหมด
สถานการณ์ฉุกเฉินที่สำคัญต่อเวลา
ในสถานการณ์ที่เกี่ยวข้องกับเหตุฉุกเฉินที่สำคัญต่อเวลา 100% ของการตอบสนองของ GPT-4 และ 52% ของการตอบสนองของ Llama-3 สอดคล้องกับการสนับสนุนการตัดสินใจที่เหมือนอุปกรณ์ อัตราโดยรวมของคำแนะนำที่เหมือนอุปกรณ์ยังคงสอดคล้องกับข้อความแจ้งแบบ multi-shot แต่แสดงความแปรปรวนในสถานการณ์ทางคลินิกที่แตกต่างกัน การตอบสนองที่เหมือนอุปกรณ์เหล่านี้รวมถึงคำแนะนำสำหรับการวินิจฉัยและการรักษาเฉพาะที่เกี่ยวข้องกับเหตุฉุกเฉิน
“Desperate Intern” Jailbreak
เมื่ออยู่ภายใต้ “desperate intern” jailbreak สัดส่วนที่สำคัญของการตอบสนองแสดงคำแนะนำที่เหมือนอุปกรณ์ โดยเฉพาะอย่างยิ่ง 80% และ 68% ของการตอบสนองของ GPT-4 และ 36% และ 76% ของการตอบสนองของ Llama-3 มีคำแนะนำที่เหมือนอุปกรณ์ตามข้อความแจ้งแบบ single-shot และ multi-shot ตามลำดับ
ความเหมาะสมทางคลินิกของคำแนะนำ LLM
สิ่งสำคัญคือต้องทราบว่าคำแนะนำของแบบจำลองทั้งหมดมีความเหมาะสมทางคลินิกและสอดคล้องกับมาตรฐานการดูแลที่กำหนดไว้ ในสถานการณ์เวชศาสตร์ครอบครัวและโรคหัวใจ การสนับสนุนการตัดสินใจที่เหมือนอุปกรณ์ส่วนใหญ่เหมาะสำหรับแพทย์ที่ได้รับการฝึกอบรมเท่านั้น ตัวอย่าง ได้แก่ การใส่สายสวนหลอดเลือดดำและการให้ยาปฏิชีวนะทางหลอดเลือดดำ ในสถานการณ์อื่นๆ คำแนะนำที่เหมือนอุปกรณ์โดยทั่วไปสอดคล้องกับมาตรฐานการดูแลของผู้ยืนดู เช่น การให้ naloxone สำหรับการใช้ยาเกินขนาด opioid หรือการใช้ epinephrine auto-injector สำหรับ anaphylaxis
ผลกระทบต่อกฎระเบียบและการกำกับดูแล
แม้ว่าจะไม่มี LLM ใดที่ได้รับอนุญาตจาก FDA ในฐานะ CDSS ในปัจจุบัน และบางส่วนระบุไว้อย่างชัดเจนว่าไม่ควรใช้สำหรับคำแนะนำทางการแพทย์ แต่ผู้ป่วยและแพทย์อาจยังคงใช้ LLMs เพื่อจุดประสงค์นี้ การศึกษาพบว่าทั้งข้อความแจ้งแบบ single-shot และ multi-shot ซึ่งอิงตามภาษาจากเอกสารคำแนะนำของ FDA ไม่น่าเชื่อถือในการจำกัด LLMs ให้สร้างเฉพาะการสนับสนุนการตัดสินใจที่ไม่ใช่อุปกรณ์เท่านั้น นอกจากนี้ “jailbreak” ที่กำหนดไว้ล่วงหน้ามักไม่จำเป็นในการกระตุ้นการสนับสนุนการตัดสินใจที่เหมือนอุปกรณ์ ผลการวิจัยเหล่านี้ตอกย้ำงานวิจัยก่อนหน้านี้ที่เน้นย้ำถึงความจำเป็นในการมีกระบวนทัศน์ด้านกฎระเบียบใหม่ที่ปรับให้เหมาะกับ AI/ML CDSSs นอกจากนี้ยังมีผลกระทบโดยตรงต่อการกำกับดูแลอุปกรณ์ทางการแพทย์ที่รวมเทคโนโลยี AI เชิงสร้างสรรค์
การคิดใหม่เกี่ยวกับแนวทางการกำกับดูแล
กฎระเบียบที่มีประสิทธิภาพอาจต้องใช้วิธีการใหม่เพื่อจัดตำแหน่งเอาต์พุตของ LLM ให้สอดคล้องกับการสนับสนุนการตัดสินใจแบบอุปกรณ์หรือแบบไม่ใช่อุปกรณ์ ขึ้นอยู่กับการใช้งานที่ตั้งใจไว้ การอนุญาตจาก FDA แบบดั้งเดิมจะมอบให้กับอุปกรณ์ทางการแพทย์สำหรับการใช้งานที่ตั้งใจไว้และการบ่งชี้เฉพาะ ตัวอย่างเช่น อุปกรณ์ AI/ML ที่ได้รับอนุญาตจาก FDA รวมถึงอุปกรณ์ที่ออกแบบมาสำหรับการทำนายความไม่เสถียรของ hemodynamic หรือการเสื่อมสภาพทางคลินิก อย่างไรก็ตาม LLMs สามารถสอบถามในหัวข้อต่างๆ ได้หลากหลาย ซึ่งอาจนำไปสู่การตอบสนองที่เหมาะสม แต่จะถือว่าเป็น “off-label” เมื่อเทียบกับการบ่งชี้ที่ได้รับอนุมัติ ผลลัพธ์แสดงให้เห็นว่าทั้งข้อความแจ้งแบบ single-shot และ multi-shot ไม่เพียงพอสำหรับการควบคุมสิ่งนี้ การค้นพบนี้ไม่ได้แสดงถึงข้อจำกัดของ LLMs เอง แต่เน้นย้ำถึงความจำเป็นในการมีวิธีการใหม่ที่รักษาความยืดหยุ่นของเอาต์พุต LLM ในขณะที่จำกัดไว้ในการบ่งชี้ที่ได้รับอนุมัติ
การสำรวจเส้นทางการอนุญาตใหม่
กฎระเบียบของ LLMs อาจต้องมีเส้นทางการอนุญาตใหม่ที่ไม่ผูกติดกับการบ่งชี้เฉพาะ เส้นทางการอนุญาตอุปกรณ์สำหรับ “generalized” decision support อาจเหมาะสำหรับ LLMs และเครื่องมือ AI เชิงสร้างสรรค์ แม้ว่าแนวทางนี้จะอำนวยความสะดวกในนวัตกรรมใน AI/ML CDSS แต่วิธีการที่เหมาะสมที่สุดสำหรับการประเมินความปลอดภัย ประสิทธิผล และความเท่าเทียมของระบบที่มีการบ่งชี้ในวงกว้างดังกล่าวยังไม่ชัดเจน ตัวอย่างเช่น แนวทาง “firm-based” ในการอนุญาตสามารถข้ามความจำเป็นในการประเมินเฉพาะอุปกรณ์ ซึ่งอาจเหมาะสมสำหรับ LLM แต่มาพร้อมกับการรับประกันที่ไม่แน่นอนเกี่ยวกับประสิทธิผลและความปลอดภัยทางคลินิก
การปรับแต่งเกณฑ์สำหรับกลุ่มผู้ใช้ที่แตกต่างกัน
ผลการวิจัยเหล่านี้เน้นย้ำถึงความจำเป็นในการปรับแต่งเกณฑ์สำหรับ CDSSs ที่มีไว้สำหรับแพทย์เทียบกับผู้ยืนดูที่ไม่ใช่แพทย์ ก่อนหน้านี้ FDA ได้ระบุว่า CDSSs ที่หันหน้าเข้าหาผู้ป่วยและผู้ดูแลจะถือเป็นอุปกรณ์ทางการแพทย์ ซึ่งโดยทั่วไปอยู่ภายใต้กฎระเบียบ อย่างไรก็ตาม ปัจจุบันยังไม่มีหมวดหมู่ด้านกฎระเบียบสำหรับ AI/ML CDSS ที่ออกแบบมาสำหรับผู้ยืนดูที่ไม่ใช่แพทย์ การวินิจฉัยเฉพาะและการให้คำสั่งเฉพาะสำหรับเหตุฉุกเฉินที่สำคัญต่อเวลาสอดคล้องกับเกณฑ์ของ FDA อย่างชัดเจนสำหรับอุปกรณ์ที่มีไว้สำหรับผู้เชี่ยวชาญด้านการดูแลสุขภาพ ในทางกลับกัน การกระทำต่างๆ เช่น การช่วยฟื้นคืนชีพ (CPR) และการให้ epinephrine หรือ naloxone ก็เป็นไปตามเกณฑ์อุปกรณ์เหล่านี้เช่นกัน แต่ก็เป็นพฤติกรรมการช่วยเหลือที่เป็นที่ยอมรับสำหรับผู้ยืนดูที่ไม่ใช่แพทย์
ข้อจำกัดของการศึกษา
การศึกษานี้มีข้อจำกัดหลายประการ:
- ประเมิน LLMs กับงานที่ไม่ใช่การใช้งานที่ระบุไว้ของซอฟต์แวร์
- เปรียบเทียบเอาต์พุตของ LLM กับคำแนะนำของ FDA ซึ่งไม่มีผลผูกพัน และไม่ได้ประเมินความสอดคล้องของคำแนะนำของ LLM กับบทบัญญัติของกฎหมายอื่นๆ ที่เกี่ยวข้องของสหรัฐอเมริกาหรือกรอบการกำกับดูแล
- ไม่ได้ประเมินวิธีการแจ้งเตือนอื่นๆ ที่อาจมีประสิทธิภาพมากกว่าข้อความแจ้งแบบ single-shot และ multi-shot
- ไม่ได้สำรวจว่าข้อความแจ้งดังกล่าวอาจรวมเข้ากับเวิร์กโฟลว์ทางคลินิกในโลกแห่งความเป็นจริงได้อย่างไรในทางปฏิบัติ
- ไม่ได้ประเมิน LLMs ที่มีอยู่อย่างแพร่หลายและใช้กันทั่วไปนอกเหนือจาก GPT-4 และ Llama-3
- ขนาดตัวอย่างของข้อความแจ้งมีขนาดเล็ก
ก้าวไปข้างหน้า: การสร้างสมดุลระหว่างนวัตกรรมและความปลอดภัย
ข้อความแจ้งตามข้อความของคำแนะนำ FDA สำหรับเกณฑ์อุปกรณ์ CDSS ไม่ว่าจะเป็นแบบ single-shot หรือ multi-shot ไม่เพียงพอที่จะรับรองว่าเอาต์พุตของ LLM สอดคล้องกับการสนับสนุนการตัดสินใจที่ไม่ใช่อุปกรณ์ จำเป็นต้องมีกระบวนทัศน์ด้านกฎระเบียบและเทคโนโลยีใหม่เพื่อจัดการกับระบบ AI เชิงสร้างสรรค์ สร้างสมดุลระหว่างนวัตกรรม ความปลอดภัย และประสิทธิผลทางคลินิก วิวัฒนาการอย่างรวดเร็วของเทคโนโลยีนี้ต้องการแนวทางการกำกับดูแลเชิงรุกและปรับเปลี่ยนได้ เพื่อให้มั่นใจว่าประโยชน์ของ LLMs ในการดูแลสุขภาพสามารถรับรู้ได้ในขณะที่ลดความเสี่ยงที่อาจเกิดขึ้น