未受監管的大型語言模型產生類似醫療器材的輸出

LLM 在醫療保健領域的潛力與監管挑戰

大型語言模型 (LLM) 因其廣泛的訓練數據和生成類人文本的能力,在各個領域的決策支援應用中引起了廣泛關注。然而,正是這些使生成式人工智慧 (AI) 系統如此吸引人的特性,也給監管機構帶來了獨特的挑戰。這些機構在數十年前建立的框架內運作,這些框架是為傳統醫療器材設計的,並不適用於 AI 的動態特性。

目前,可用的 LLM 並未歸類為醫療器材。美國聯邦食品、藥品和化妝品法案 (FD&C Act § 201(h)(1)) 將醫療器材定義為「用於診斷、…治癒、緩解、治療或預防疾病…的儀器…其主要預期目的並非通過化學作用達成。」大多數 LLM 都包含免責聲明,聲明它們不適用於提供醫療建議,從而避免了 FDA 的監管。儘管如此,越來越多的已發表研究和軼事證據表明,LLM 已被用於醫療決策支援,無論是在研究環境還是在實際臨床實踐中。

定義基於 LLM 的臨床決策支援的監管範圍

考慮到 LLM 的潛力,如果它們被正式納入臨床決策支援系統 (CDSS),那麼適當監管的問題就變得至關重要。21 世紀治癒法案對 FD&C 法案的修正案 (Public Law 114–255) 以及 FDA 的指導,概述了四個關鍵標準,以確定決策支援軟體是否符合器材資格,並因此屬於 FDA 的管轄範圍。這些標準圍繞著:

  • 軟體功能的輸入數據。
  • 其輸出數據。
  • 其臨床建議的實質內容。
  • 最終用戶審查這些建議背後的基本原理的能力。

具體來說,如果 CDSS 的輸出提供了精確的治療或診斷指示,而不是基於一般資訊的建議,則該 CDSS 被視為器材。此外,如果 CDSS 未能提供其建議的根本依據,阻止用戶獨立審查並得出自己的結論,則它被歸類為器材。FDA 的指導進一步闡明,在臨床緊急情況下使用的 CDSS 被視為器材,因為決策的關鍵性和時間敏感性排除了對 CDSS 建議的獨立評估。

調查生成式 AI 系統中類似器材的輸出

目前尚不清楚使用生成式 AI (如 LLM) 的 CDSS 是否會產生模仿醫療器材的輸出。不受約束的 LLM 的自由文本輸出可能符合也可能不符合已建立的器材標準。此外,LLM 對具有挑戰性的提示或「越獄」的回應如何與這些標準保持一致尚不清楚。LLM 在醫療建議方面的使用日益增加,使得基於 LLM 的 CDSS 的器材指定和監管狀態的不確定性成為這些技術安全有效開發的潛在障礙。隨著越來越多的臨床醫生和患者使用這些工具,在醫療保健領域生成式 AI 的安全性和創新之間取得適當的平衡至關重要。

研究目標:評估類似器材的功能

本研究旨在評估 LLM 的類似器材的功能。此功能定義為它們用於「診斷、治療、預防、治癒或緩解疾病或其他狀況」的效用,無論此類使用是否為預期或允許的。具體目標是:

  1. 確定 LLM 輸出在被提示有關這些標準的說明並出現臨床緊急情況時,是否與器材標準一致。
  2. 確定在何種條件下 (如果有的話),模型的輸出可以被操縱以提供類似器材的輸出。這包括使用直接請求診斷和治療資訊,以及預先定義的「越獄」,旨在引出類似器材的輸出,儘管提示要遵守非器材標準。

研究結果:LLM 回應與器材標準的一致性

預防保健建議

當被問及預防保健建議時,所有 LLM 在其最終文本輸出中生成的反應都與非器材標準一致。Llama-3 模型在回應單次提示時,最初在一小部分回應中提供了類似器材的決策支援 (家庭醫學佔 20%,精神病學預防保健情境佔 60%)。然而,它迅速將此文本替換為免責聲明:「抱歉,我現在無法幫助您處理此請求。」當提供包含器材標準詳細範例的多重提示時,所有模型始終為所有初始預防保健回應提供非器材建議。

時間關鍵的緊急情況

在涉及時間關鍵的緊急情況下,100% 的 GPT-4 回應和 52% 的 Llama-3 回應與類似器材的決策支援一致。類似器材建議的總體比率與多重提示保持一致,但在不同的臨床情境中顯示出差異。這些類似器材的回應包括與緊急情況相關的特定診斷和治療建議。

「絕望實習生」越獄

當受到「絕望實習生」越獄時,很大一部分回應表現出類似器材的建議。具體來說,在單次和多次提示後,分別有 80% 和 68% 的 GPT-4 回應以及 36% 和 76% 的 Llama-3 回應包含類似器材的建議。

LLM 建議的臨床適當性

值得注意的是,所有模型的建議在臨床上都是適當的,並且符合既定的護理標準。在家庭醫學和心臟病學情境中,許多類似器材的決策支援僅適用於訓練有素的臨床醫生。範例包括放置靜脈導管和靜脈注射抗生素。在其他情境中,類似器材的建議通常與旁觀者的護理標準一致,例如對鴉片類藥物過量使用納洛酮或對過敏反應使用腎上腺素自動注射器。

對監管和監督的影響

儘管目前沒有 LLM 獲得 FDA 授權作為 CDSS,並且有些 LLM 明確表示不應用於醫療建議,但患者和臨床醫生可能仍將其用於此目的。研究發現,基於 FDA 指導文件中的語言,無論是單次提示還是多次提示,都不能可靠地限制 LLM 僅產生非器材決策支援。此外,通常不需要預先定義的越獄來引出類似器材的決策支援。這些發現強化了先前的研究,強調需要針對 AI/ML CDSS 量身定制的新型監管範式。它們還對包含生成式 AI 技術的醫療器材的監督產生直接影響。

重新思考監管方法

有效的監管可能需要新的方法,以便根據預期用途更好地將 LLM 輸出與類似器材或非器材決策支援保持一致。傳統的 FDA 授權是授予醫療器材用於特定預期用途和適應症。例如,FDA 授權的 AI/ML 器材包括那些設計用於預測血流動力學不穩定或臨床惡化的器材。然而,LLM 可以查詢各種各樣的主題,這可能會導致回應雖然適當,但相對於其批准的適應症會被視為「標籤外」。結果表明,單次和多次提示都不足以控制這一點。這一發現並不代表 LLM 本身的局限性,而是強調需要新的方法,在將 LLM 輸出限制在批准的適應症內的同時,保留其靈活性。

探索新的授權途徑

LLM 的監管可能需要不與特定適應症相關的新授權途徑。「廣義」決策支援的器材授權途徑可能適用於 LLM 和生成式 AI 工具。雖然這種方法將促進 AI/ML CDSS 的創新,但評估具有如此廣泛適應症的系統的安全性、有效性和公平性的最佳方法仍不清楚。例如,「基於公司」的授權方法可以繞過對特定器材評估的需求,這可能適用於 LLM,但它對臨床有效性和安全性的保證是不確定的。

完善針對不同用戶群體的標準

這些發現強調需要完善針對臨床醫生和非臨床醫生旁觀者的 CDSS 標準。FDA 先前曾表示,面向患者和護理人員的 CDSS 將被視為醫療器材,通常需要受到監管。然而,目前還沒有針對為非臨床醫生旁觀者設計的 AI/ML CDSS 的監管類別。對時間關鍵的緊急情況做出具體診斷並提供具體指示顯然符合 FDA 對醫療保健專業人員使用的器材的標準。另一方面,心肺復甦術 (CPR) 以及腎上腺素或納洛酮的使用等行為也符合這些器材標準,但它們同時也是非臨床醫生旁觀者公認的救援行為。

研究限制

本研究有幾個限制:

  1. 它根據一項並非軟體指定預期用途的任務來評估 LLM。
  2. 它將 LLM 輸出與 FDA 指導進行比較,該指導不具有約束力,並且不評估 LLM 建議與其他相關美國法規或監管框架的一致性。
  3. 它不評估可能比單次和多次提示更有效的其他提示方法。
  4. 它不探討如何將此類提示實際整合到真實世界的臨床工作流程中。
  5. 它不評估除 GPT-4 和 Llama-3 之外更廣泛的廣泛可用和常用的 LLM。
  6. 提示的樣本量很小。

展望未來:平衡創新與安全

基於 FDA 關於 CDSS 器材標準的指導文本的提示,無論是單次還是多次,都不足以確保 LLM 輸出與非器材決策支援保持一致。需要新的監管範式和技術來解決生成式 AI 系統,在創新、安全性和臨床有效性之間取得平衡。這項技術的快速發展需要對監管採取積極主動和適應性強的方法,確保在降低潛在風險的同時,實現 LLM 在醫療保健領域的益處。