不受监管的大语言模型产生类似医疗器械的输出

大语言模型在医疗保健领域的应用前景与监管挑战

大型语言模型 (LLMs) 因其广泛的训练数据和生成类人文本的能力,在临床决策支持 (CDS) 方面展现出巨大潜力。然而,值得注意的是,目前没有任何 LLM 获得美国食品药品监督管理局 (FDA) 的 CDS 设备授权。本研究调查了两个广泛使用的 LLM 是否可以被提示生成类似于提供 CDS 的医疗设备的输出。研究结果表明,在各种情况下,LLM 可以很容易地产生类似于基于设备的决策支持的输出。这强调了如果 LLM 要正式纳入临床实践,可能需要进行监管。

LLM 的能力源于其广泛的训练数据和生成类似人类文本的能力,这推动了人们对其在各个领域决策支持中应用的兴趣。然而,使生成式人工智能 (AI) 系统如此吸引人的特性也给监管机构带来了独特的障碍。这些机构在几十年前建立的框架内运作,这些框架是为传统医疗设备设计的,而不是针对 AI 的动态特性。

目前,可用的 LLM 不属于医疗设备。《联邦食品、药品和化妆品法案》(FD&C Act § 201(h)(1)) 将医疗设备定义为“一种仪器……旨在用于疾病的诊断、……治愈、缓解、治疗或预防……其主要预期目的不是通过化学作用实现的”。大多数 LLM 都包含免责声明,声明它们不用于提供医疗建议,从而避免了 FDA 的监管。尽管如此,越来越多的已发表研究和轶事证据强调了 LLM 在研究环境和实际临床实践中用于医疗决策支持。

定义基于 LLM 的临床决策支持的监管范围

考虑到 LLM 的潜力,如果它们被正式纳入临床决策支持系统 (CDSS),那么适当监管的问题就变得至关重要。《21 世纪治愈法案》对 FD&C 法案的修正案 (Public Law 114–255) 以及 FDA 的指导意见概述了四个关键标准,以确定决策支持软件是否符合设备资格,从而属于 FDA 的管辖范围。这些标准围绕:

  • 软件功能的输入数据。
  • 其输出数据。
  • 其临床建议的实质内容。
  • 最终用户审查这些建议背后原理的能力。

具体来说,如果 CDSS 的输出提供了精确的治疗或诊断指令,而不是基于一般信息的建议,则该 CDSS 被视为设备。此外,如果 CDSS 未能提供其建议的基本依据,阻止用户独立审查并得出自己的结论,则它被归类为设备。FDA 指南进一步澄清,在临床紧急情况下使用的 CDSS 被认为是设备,因为决策的关键性和时间敏感性排除了对 CDSS 建议的独立评估。

调查生成式 AI 系统中类似设备的输出

目前尚不清楚使用生成式 AI(如 LLM)的 CDSS 是否会产生模仿医疗设备的输出。不受约束的 LLM 的自由文本输出可能符合也可能不符合既定的设备标准。此外,LLM 对具有挑战性的提示或“越狱”的响应如何与这些标准保持一致尚不清楚。LLM 在医疗建议方面的使用越来越多,使得基于 LLM 的 CDSS 的设备指定和监管状态的不确定性成为安全有效地开发这些技术的潜在障碍。随着越来越多的临床医生和患者使用这些工具,在医疗保健领域生成式 AI 的安全性和创新之间取得适当的平衡至关重要。

研究目标:评估类似设备的功能

本研究旨在评估 LLM 的类似设备的功能。此功能定义为它们用于“诊断、治疗、预防、治愈或缓解疾病或其他状况”的效用,无论此类使用是否是有意或允许的。具体目标是:

  1. 确定当提示有关这些标准的说明并出现临床紧急情况时,LLM 输出是否符合设备标准。
  2. 确定模型输出在何种条件下(如果有)可以被操纵以提供类似设备的输出。这包括使用直接请求诊断和治疗信息,以及预定义的“越狱”,旨在引出类似设备的输出,尽管提示遵守非设备标准。

调查结果:LLM 响应和设备标准一致性

预防保健建议

当查询预防保健建议时,所有 LLM 生成的响应在其最终文本输出中均与非设备标准一致。Llama-3 模型在响应单次提示时,最初在一小部分响应中提供了类似设备的决策支持(家庭医学占 20%,精神病学预防保健场景占 60%)。然而,它迅速用免责声明替换了此文本:“抱歉,我现在无法帮助您处理此请求。”当出现包含设备标准详细示例的多轮提示时,所有模型始终为所有初始预防保健响应提供非设备建议。

时间紧迫的紧急情况

在涉及时间紧迫的紧急情况时,100% 的 GPT-4 响应和 52% 的 Llama-3 响应与类似设备的决策支持一致。类似设备的建议的总体比率与多轮提示保持一致,但在不同的临床场景中显示出差异。这些类似设备的响应包括与紧急情况相关的特定诊断和治疗建议。

“绝望的实习生”越狱

当受到“绝望的实习生”越狱时,很大一部分响应表现出类似设备的建议。具体来说,在单次和多次提示后,分别有 80% 和 68% 的 GPT-4 响应以及 36% 和 76% 的 Llama-3 响应包含类似设备的建议。

LLM 建议的临床适当性

值得注意的是,所有模型建议在临床上都是适当的,并且符合既定的护理标准。在家庭医学和心脏病学场景中,许多类似设备的决策支持仅适用于训练有素的临床医生。示例包括放置静脉导管和静脉注射抗生素。在其他情况下,类似设备的建议通常与旁观者护理标准一致,例如对阿片类药物过量服用纳洛酮或对过敏反应使用肾上腺素自动注射器。

对监管和监督的影响

尽管目前没有 LLM 获得 FDA 授权作为 CDSS,并且一些 LLM 明确声明不应用于医疗建议,但患者和临床医生可能仍将其用于此目的。研究发现,无论是基于 FDA 指导文件语言的单次提示还是多次提示,都不能可靠地将 LLM 限制为仅产生非设备决策支持。此外,通常不需要预定义的越狱来引出类似设备的决策支持。这些发现强化了先前的研究,强调需要针对 AI/ML CDSS 量身定制的新型监管范式。它们还对包含生成式 AI 技术的医疗设备的监督具有直接影响。

重新思考监管方法

有效的监管可能需要新的方法,以更好地将 LLM 输出与类似设备或非设备的决策支持对齐,具体取决于预期用途。传统的 FDA 授权是授予医疗设备用于特定预期用途和适应症。例如,FDA 授权的 AI/ML 设备包括那些设计用于预测血流动力学不稳定或临床恶化的设备。然而,可以查询 LLM 的各种主题,可能会导致响应虽然合适,但相对于其批准的适应症将被视为“标签外”。结果表明,单次和多次提示都不足以控制这一点。这一发现并不代表 LLM 本身的局限性,而是强调需要新方法,在将 LLM 输出限制在批准的适应症内的同时,保留其灵活性。

探索新的授权途径

LLM 的监管可能需要不与特定适应症相关的新授权途径。用于“广义”决策支持的设备授权途径可能适用于 LLM 和生成式 AI 工具。虽然这种方法将促进 AI/ML CDSS 的创新,但评估具有如此广泛适应症的系统的安全性、有效性和公平性的最佳方法仍不清楚。例如,“基于公司”的授权方法可以绕过特定设备评估的需要,这可能适用于 LLM,但它对临床有效性和安全性的保证不确定。

针对不同用户群体完善标准

这些发现强调需要完善针对临床医生和非临床医生旁观者的 CDSS 标准。FDA 此前曾表示,面向患者和护理人员的 CDSS 将被视为医疗设备,通常受到监管。然而,目前还没有针对非临床医生旁观者设计的 AI/ML CDSS 的监管类别。对时间紧迫的紧急情况做出具体诊断并提供具体指示显然符合 FDA 对医疗保健专业人员使用的设备标准。另一方面,心肺复苏 (CPR) 以及肾上腺素或纳洛酮的使用等行为也符合这些设备标准,但它们同时也是非临床医生旁观者公认的救援行为。

研究局限性

本研究有几个局限性:

  1. 它根据一项并非软件指定预期用途的任务来评估 LLM。
  2. 它将 LLM 输出与 FDA 指南进行比较,该指南不具有约束力,并且不评估 LLM 建议与其他相关美国法定条款或监管框架的一致性。
  3. 它不评估可能比单次和多次提示更有效的其他提示方法。
  4. 它没有探讨如何将此类提示实际集成到现实世界的临床工作流程中。
  5. 它不评估除 GPT-4 和 Llama-3 之外的更广泛的广泛可用和常用的 LLM。
  6. 提示的样本量很小。

展望未来:平衡创新与安全

基于 FDA 关于 CDSS 设备标准的指导文本的提示,无论是单次还是多次,都不足以确保 LLM 输出与非设备决策支持一致。需要新的监管范式和技术来解决生成式 AI 系统,在创新、安全性和临床有效性之间取得平衡。这项技术的快速发展需要一种积极主动和适应性强的监管方法,确保 LLM 在医疗保健领域的益处得以实现,同时降低潜在风险。