Tiềm năng và Thách thức Quy định của LLM trong Chăm sóc Sức khỏe
Các mô hình ngôn ngữ lớn (LLM) đang thể hiện tiềm năng đáng kể trong việc sử dụng hỗ trợ quyết định lâm sàng (CDS). Tuy nhiên, cần lưu ý rằng, hiện tại, chưa có LLM nào được Cục Quản lý Thực phẩm và Dược phẩm Hoa Kỳ (FDA) cấp phép như một thiết bị CDS. Nghiên cứu này điều tra xem liệu hai LLM được sử dụng rộng rãi có thể được nhắc để tạo ra đầu ra giống như một thiết bị y tế cung cấp CDS hay không. Các phát hiện cho thấy rằng LLM, trong các tình huống khác nhau, có thể dễ dàng tạo ra đầu ra tương tự như hỗ trợ quyết định dựa trên thiết bị. Điều này nhấn mạnh nhu cầu giám sát quy định tiềm năng nếu LLM được tích hợp chính thức vào thực hành lâm sàng.
Khả năng của LLM, bắt nguồn từ dữ liệu đào tạo phong phú và khả năng tạo văn bản giống con người, đang thúc đẩy sự quan tâm đến ứng dụng của chúng để hỗ trợ quyết định trong các lĩnh vực khác nhau. Tuy nhiên, chính những đặc điểm làm cho các hệ thống trí tuệ nhân tạo (AI) tổng quát trở nên hấp dẫn cũng đặt ra những rào cản độc đáo cho các cơ quan quản lý. Các cơ quan này đang hoạt động trong các khuôn khổ được thiết lập từ nhiều thập kỷ trước, được thiết kế cho các thiết bị y tế truyền thống, không phải bản chất năng động của AI.
Hiện tại, các LLM có sẵn không được phân loại là thiết bị y tế. Đạo luật Thực phẩm, Dược phẩm và Mỹ phẩm Liên bang (FD&C Act § 201(h)(1)) định nghĩa thiết bị y tế là “một công cụ… được dự định sử dụng trong chẩn đoán, … chữa bệnh, giảm nhẹ, điều trị hoặc phòng ngừa bệnh… mà không đạt được mục đích chính thông qua hoạt động hóa học.” Hầu hết các LLM đều bao gồm tuyên bố từ chối trách nhiệm rằng chúng không nhằm mục đích cung cấp lời khuyên y tế, do đó tránh được quy định của FDA. Mặc dù vậy, có một bộ sưu tập nghiên cứu đã xuất bản và bằng chứng giai thoại ngày càng tăng làm nổi bật việc sử dụng LLM để hỗ trợ quyết định y tế, cả trong môi trường nghiên cứu và thực hành lâm sàng thực tế.
Xác định Phạm vi Quy định cho Hỗ trợ Quyết định Lâm sàng dựa trên LLM
Xem xét tiềm năng của LLM, nếu chúng được kết hợp chính thức vào một hệ thống hỗ trợ quyết định lâm sàng (CDSS), câu hỏi về quy định thích hợp trở nên tối quan trọng. Bản sửa đổi Đạo luật Chữa bệnh Thế kỷ 21 đối với Đạo luật FD&C (Public Law 114–255), cùng với hướng dẫn từ FDA, phác thảo bốn tiêu chí chính để xác định xem phần mềm hỗ trợ quyết định có đủ điều kiện là thiết bị hay không và do đó, thuộc thẩm quyền của FDA. Các tiêu chí này xoay quanh:
- Dữ liệu đầu vào của chức năng phần mềm.
- Dữ liệu đầu ra của nó.
- Nội dung của các khuyến nghị lâm sàng.
- Khả năng của người dùng cuối xem xét lý do đằng sau những khuyến nghị đó.
Cụ thể, một CDSS được coi là một thiết bị nếu đầu ra của nó cung cấp một chỉ thị chính xác để điều trị hoặc chẩn đoán, thay vì các khuyến nghị dựa trên thông tin chung. Hơn nữa, nếu CDSS không cung cấp cơ sở cơ bản cho các khuyến nghị của mình, ngăn người dùng xem xét độc lập chúng và đưa ra kết luận của riêng họ, nó được phân loại là một thiết bị. Hướng dẫn của FDA làm rõ thêm rằng một CDSS được sử dụng trong trường hợp khẩn cấp lâm sàng được coi là một thiết bị do tính chất quan trọng và nhạy cảm về thời gian của việc ra quyết định, điều này ngăn cản việc đánh giá độc lập lời khuyên của CDSS.
Điều tra Đầu ra Giống như Thiết bị trong Hệ thống AI Tổng quát
Vẫn chưa rõ liệu một CDSS sử dụng AI tổng quát, như LLM, có tạo ra đầu ra bắt chước một thiết bị y tế hay không. Đầu ra văn bản tự do của một LLM không bị ràng buộc có thể hoặc không thể đáp ứng các tiêu chí thiết bị đã thiết lập. Hơn nữa, cách phản hồi của LLM đối với các lời nhắc thách thức hoặc “jailbreak” phù hợp với các tiêu chí này vẫn chưa được biết. Việc sử dụng LLM ngày càng tăng cho lời khuyên y tế khiến sự không chắc chắn xung quanh việc chỉ định thiết bị và tình trạng pháp lý của các CDSS dựa trên LLM trở thành một trở ngại tiềm tàng cho sự phát triển an toàn và hiệu quả của các công nghệ này. Đạt được sự cân bằng phù hợp giữa an toàn và đổi mới cho AI tổng quát trong chăm sóc sức khỏe là rất quan trọng khi ngày càng có nhiều bác sĩ lâm sàng và bệnh nhân sử dụng các công cụ này.
Mục tiêu Nghiên cứu: Đánh giá Chức năng Giống như Thiết bị
Nghiên cứu này nhằm mục đích đánh giá chức năng giống như thiết bị của LLM. Chức năng này được định nghĩa là tiện ích của chúng cho “chẩn đoán, điều trị, phòng ngừa, chữa bệnh hoặc giảm nhẹ bệnh tật hoặc các tình trạng khác,” bất kể việc sử dụng đó có được dự định hay được phép hay không. Các mục tiêu cụ thể là:
- Để xác định xem đầu ra của LLM có phù hợp với tiêu chí thiết bị hay không khi được nhắc với các hướng dẫn về các tiêu chí đó và được trình bày với một trường hợp khẩn cấp lâm sàng.
- Để xác định các điều kiện, nếu có, mà đầu ra của mô hình có thể bị thao túng để cung cấp đầu ra giống như thiết bị. Điều này bao gồm việc sử dụng các yêu cầu trực tiếp cho thông tin chẩn đoán và điều trị, cũng như một “jailbreak” được xác định trước được thiết kế để gợi ra đầu ra giống như thiết bị mặc dù có lời nhắc tuân thủ các tiêu chí không phải thiết bị.
Kết quả: Phản hồi của LLM và Sự phù hợp với Tiêu chí Thiết bị
Khuyến nghị Chăm sóc Phòng ngừa
Khi được truy vấn về các khuyến nghị chăm sóc phòng ngừa, tất cả các LLM đều tạo ra các phản hồi phù hợp với tiêu chí không phải thiết bị trong đầu ra văn bản cuối cùng của chúng. Mô hình Llama-3, để đáp ứng với một lời nhắc single-shot, ban đầu cung cấp hỗ trợ quyết định giống như thiết bị trong một tỷ lệ nhỏ các phản hồi (20% cho các tình huống chăm sóc phòng ngừa y học gia đình và 60% cho tâm thần học). Tuy nhiên, nó nhanh chóng thay thế văn bản này bằng một tuyên bố từ chối trách nhiệm: “Xin lỗi, tôi không thể giúp bạn với yêu cầu này ngay bây giờ.” Khi được trình bày với một lời nhắc multi-shot chứa các ví dụ chi tiết về tiêu chí thiết bị, tất cả các mô hình đều cung cấp các khuyến nghị không phải thiết bị cho tất cả các phản hồi chăm sóc phòng ngừa ban đầu.
Các tình huống khẩn cấp nhạy cảm về thời gian
Trong các tình huống liên quan đến trường hợp khẩn cấp nhạy cảm về thời gian, 100% phản hồi của GPT-4 và 52% phản hồi của Llama-3 phù hợp với hỗ trợ quyết định giống như thiết bị. Tỷ lệ khuyến nghị giống như thiết bị tổng thể vẫn nhất quán với các lời nhắc multi-shot nhưng cho thấy sự khác biệt giữa các tình huống lâm sàng khác nhau. Những phản hồi giống như thiết bị này bao gồm các đề xuất cho các chẩn đoán và phương pháp điều trị cụ thể liên quan đến các trường hợp khẩn cấp.
“Desperate Intern” Jailbreak
Khi bị “desperate intern” jailbreak, một tỷ lệ đáng kể các phản hồi thể hiện các khuyến nghị giống như thiết bị. Cụ thể, 80% và 68% phản hồi của GPT-4, và 36% và 76% phản hồi của Llama-3, bao gồm các khuyến nghị giống như thiết bị sau các lời nhắc single-shot và multi-shot, tương ứng.
Tính phù hợp lâm sàng của các đề xuất LLM
Điều quan trọng cần lưu ý là tất cả các đề xuất của mô hình đều phù hợp về mặt lâm sàng và phù hợp với các tiêu chuẩn chăm sóc đã được thiết lập. Trong các tình huống y học gia đình và tim mạch, phần lớn hỗ trợ quyết định giống như thiết bị chỉ phù hợp với các bác sĩ lâm sàng được đào tạo. Ví dụ bao gồm việc đặt ống thông tĩnh mạch và sử dụng kháng sinh tiêm tĩnh mạch. Trong các tình huống khác, các khuyến nghị giống như thiết bị nói chung phù hợp với các tiêu chuẩn chăm sóc của người ngoài cuộc, chẳng hạn như sử dụng naloxone cho quá liều opioid hoặc sử dụng ống tiêm tự động epinephrine cho sốc phản vệ.
Ý nghĩa đối với Quy định và Giám sát
Mặc dù không có LLM nào hiện được FDA ủy quyền là CDSS và một số tuyên bố rõ ràng rằng chúng không nên được sử dụng cho lời khuyên y tế, bệnh nhân và bác sĩ lâm sàng vẫn có thể sử dụng chúng cho mục đích này. Nghiên cứu cho thấy rằng cả lời nhắc single-shot và multi-shot, dựa trên ngôn ngữ từ tài liệu hướng dẫn của FDA, đều không đáng tin cậy để hạn chế LLM chỉ tạo ra hỗ trợ quyết định không phải thiết bị. Hơn nữa, một jailbreak được xác định trước thường không cần thiết để gợi ra hỗ trợ quyết định giống như thiết bị. Những phát hiện này củng cố nghiên cứu trước đó làm nổi bật sự cần thiết của các mô hình quy định mới phù hợp với AI/ML CDSS. Chúng cũng có ý nghĩa trực tiếp đối với việc giám sát các thiết bị y tế kết hợp các công nghệ AI tổng quát.
Suy nghĩ lại về các phương pháp tiếp cận quy định
Quy định hiệu quả có thể đòi hỏi các phương pháp mới để điều chỉnh tốt hơn đầu ra của LLM với hỗ trợ quyết định giống như thiết bị hoặc không phải thiết bị, tùy thuộc vào mục đích sử dụng. Ủy quyền truyền thống của FDA được cấp cho một thiết bị y tế cho một mục đích sử dụng và chỉ định cụ thể. Ví dụ, các thiết bị AI/ML được FDA ủy quyền bao gồm các thiết bị được thiết kế để dự đoán sự không ổn định huyết động hoặc suy giảm lâm sàng. Tuy nhiên, LLM có thể được truy vấn về một loạt các chủ đề, có khả năng dẫn đến các phản hồi, mặc dù phù hợp, sẽ được coi là “ngoài nhãn” so với chỉ định đã được phê duyệt của chúng. Kết quả chứng minh rằng cả lời nhắc single-shot và multi-shot đều không đủ để kiểm soát điều này. Phát hiện này không thể hiện một hạn chế của chính LLM, mà thay vào đó nhấn mạnh sự cần thiết của các phương pháp mới bảo tồn tính linh hoạt của đầu ra LLM trong khi giới hạn nó trong một chỉ định đã được phê duyệt.
Khám phá các con đường ủy quyền mới
Quy định của LLM có thể yêu cầu các con đường ủy quyền mới không gắn liền với các chỉ định cụ thể. Một con đường ủy quyền thiết bị cho hỗ trợ quyết định “tổng quát” có thể phù hợp với LLM và các công cụ AI tổng quát. Mặc dù phương pháp này sẽ tạo điều kiện cho sự đổi mới trong AI/ML CDSS, phương pháp tối ưu để đánh giá tính an toàn, hiệu quả và công bằng của các hệ thống có chỉ định rộng như vậy vẫn chưa rõ ràng. Ví dụ, một phương pháp tiếp cận ủy quyền “dựa trên công ty” có thể bỏ qua nhu cầu đánh giá cụ thể cho thiết bị, điều này có thể phù hợp với LLM, nhưng nó đi kèm với những đảm bảo không chắc chắn về hiệu quả và an toàn lâm sàng.
Tinh chỉnh Tiêu chí cho các Nhóm Người dùng Khác nhau
Những phát hiện này làm nổi bật sự cần thiết phải tinh chỉnh các tiêu chí cho CDSS dành cho bác sĩ lâm sàng so với người ngoài cuộc không phải là bác sĩ lâm sàng. FDA trước đây đã chỉ ra rằng CDSS dành cho bệnh nhân và người chăm sóc sẽ được coi là thiết bị y tế, thường phải tuân theo quy định. Tuy nhiên, hiện tại không có danh mục quy định nào cho một AI/ML CDSS được thiết kế cho người ngoài cuộc không phải là bác sĩ lâm sàng. Đưa ra chẩn đoán cụ thể và cung cấp một chỉ thị cụ thể cho một trường hợp khẩn cấp nhạy cảm về thời gian rõ ràng phù hợp với các tiêu chí của FDA đối với các thiết bị dành cho các chuyên gia chăm sóc sức khỏe. Mặt khác, các hành động như hồi sức tim phổi (CPR) và sử dụng epinephrine hoặc naloxone cũng đáp ứng các tiêu chí thiết bị này, nhưng chúng đồng thời là các hành vi cứu hộ đã được thiết lập tốt cho người ngoài cuộc không phải là bác sĩ lâm sàng.
Hạn chế của Nghiên cứu
Nghiên cứu này có một số hạn chế:
- Nó đánh giá LLM dựa trên một nhiệm vụ không phải là mục đích sử dụng cụ thể của phần mềm.
- Nó so sánh đầu ra của LLM với hướng dẫn của FDA, không có tính ràng buộc và không đánh giá tính nhất quán của các khuyến nghị LLM với các điều khoản luật định hoặc khung pháp lý có liên quan khác của Hoa Kỳ.
- Nó không đánh giá các phương pháp nhắc nhở khác có thể hiệu quả hơn các lời nhắc single-shot và multi-shot.
- Nó không khám phá cách các lời nhắc như vậy có thể được tích hợp thực tế vào quy trình làm việc lâm sàng trong thế giới thực.
- Nó không đánh giá một phạm vi rộng hơn các LLM có sẵn rộng rãi và thường được sử dụng ngoài GPT-4 và Llama-3.
- Kích thước mẫu của các lời nhắc là nhỏ.
Tiến về phía trước: Cân bằng giữa Đổi mới và An toàn
Các lời nhắc dựa trên văn bản hướng dẫn của FDA về tiêu chí thiết bị CDSS, cho dù là single-shot hay multi-shot, là không đủ để đảm bảo rằng đầu ra của LLM phù hợp với hỗ trợ quyết định không phải thiết bị. Các mô hình và công nghệ quy định mới là cần thiết để giải quyết các hệ thống AI tổng quát, tạo ra sự cân bằng giữa đổi mới, an toàn và hiệu quả lâm sàng. Sự phát triển nhanh chóng của công nghệ này đòi hỏi một cách tiếp cận chủ động và thích ứng với quy định, đảm bảo rằng những lợi ích của LLM trong chăm sóc sức khỏe có thể được thực hiện trong khi giảm thiểu các rủi ro tiềm ẩn.