NHS医疗记录训练的AI模型引发隐私担忧

Foresight,一个人工智能 (AI) 模型的开发,由于其依赖于来自英格兰 National Health Service (NHS) 的 5700 万份医疗记录的庞大数据集而引发了相当大的争议。尽管支持者吹捧其通过疾病预测和住院预测来彻底改变医疗保健的潜力,但批评者对患者隐私和数据保护表示严重担忧。本文深入探讨了 Foresight 的复杂性,考察了它的能力、它提出的伦理困境以及为减轻潜在风险而采取的保障措施。

Foresight:一个国家级生成式 AI 模型

Foresight 构思于 2023 年,最初利用 OpenAI 的 GPT-3,这是支持 ChatGPT 第一个版本的技术,并在来自伦敦两家医院的 150 万份患者记录上进行了训练。 University College London 的 Chris Tomlinson 和他的团队此后扩展了 Foresight,将其命名为世界上第一个"国家级健康数据生成式 AI 模型"。这个增强版利用 Meta 的开源 LLM Llama 2,并整合了 NHS 在英格兰从 2018 年 11 月到 2023 年 12 月期间定期收集的八个不同的数据集。这些数据集包括门诊预约、住院、疫苗接种记录和其他健康相关事件,总计 5700 万人的 100 亿个数据点——基本上是整个英格兰人口。

尽管由于正在进行的测试而缺乏公开的性能指标,Tomlinson 断言 Foresight 最终可能促进个体诊断并预测更广泛的健康趋势,例如住院或心脏病发作。他在 5 月 6 日的新闻发布会上强调了该模型能够先发制人地预测疾病并发症的潜力,从而实现早期干预,并在大规模范围内转向预防性医疗保健。

隐私和数据保护问题

将如此广泛的医疗数据输入到 AI 模型的前景引发了对隐私的担忧。尽管研究人员声称所有记录在训练 AI 之前都经过了"去识别化"处理,但通过数据模式分析重新识别的风险仍然是一个重大问题,尤其是在大数据集的情况下。

University of Oxford 的 Luc Rocher 强调了在构建强大的生成式 AI 模型时保护患者隐私的内在挑战。使数据对 AI 目的有价值的数据丰富性也使得难以匿名化。 Rocher 提倡 NHS 对这些模型进行严格控制,以确保安全使用。

NHS Digital 的 Michael Chapman 承认即使是去识别化数据也存在重新识别的内在风险。虽然直接标识符被删除,但健康数据的丰富性使得难以保证完全匿名。

为了应对这种风险,Chapman 表示,AI 在"安全"的 NHS 数据环境中运行,限制信息泄漏,并确保只有经过批准的研究人员才能访问。 Amazon Web Services 和 Databricks 提供计算基础设施,但无法访问数据。

Imperial College London 的 Yves-Alexandre de Montjoye 建议验证模型记忆训练数据的能力,以检测潜在的信息泄漏。在接受 New Scientist 采访时,Tomlinson 承认 Foresight 团队尚未进行这些测试,但计划将来这样做。

公众信任和数据使用

University of Oxford 的 Caroline Green 强调了向公众传达数据使用情况以维持信任的重要性。尽管进行了匿名化努力,人们通常希望控制自己的数据并了解其目的地,这使得他们对它的伦理非常重视。

目前的控制措施为个人选择退出 Foresight 的数据使用提供了有限的选择。来自国家收集的 NHS 数据集的数据用于训练模型,根据 NHS England 发言人的说法,现有的选择退出机制不适用,因为数据已被"去识别化"。但是,选择不共享来自家庭医生数据的人的数据将不会包含在模型中。

GDPR 和数据匿名化

通用数据保护条例 (GDPR) 规定个人有权撤回对其个人数据使用的同意。但是,像 Foresight 这样的 LLM 的训练过程使得无法从 AI 工具中删除单个记录。 NHS England 发言人声称 GDPR 不适用,因为用于训练模型的数据是匿名的,不构成个人数据。

英国信息专员办公室的网站澄清说,"去识别化"数据不应与匿名数据互换使用,因为英国数据保护法没有定义该术语,并且其使用可能导致混淆。

法律地位因 Foresight 目前用于与 COVID-19 相关的研究而进一步复杂化,根据 medConfidential 的 Sam Smith 的说法,这允许在疫情期间颁布的数据保护法的例外情况。 Smith 断言,仅限 COVID 的 AI 可能包含不应离开实验室的嵌入式患者数据,并且患者应该控制其数据使用情况。

伦理考量

围绕使用医疗数据进行 AI 开发的伦理考量使 Foresight 处于不稳定的位置。 Green 认为,伦理和人类考量应该是 AI 开发的起点,而不是事后的想法。

更深入地审视这些担忧

围绕 Foresight 使用 NHS 医疗记录的担忧不仅仅局限于数据隐私。它们触及了关于个人健康信息所有权、算法偏差的可能性以及 AI 对医患关系长期影响的根本问题。

健康数据的所有权和控制

核心伦理困境之一是个人应该在多大程度上控制自己的健康数据。虽然 NHS 无疑需要访问患者信息才能提供有效的护理,但使用这些数据进行 AI 训练引发了关于个人是否被充分告知并有权同意此类二次使用的问题。

目前的退出机制是不够的,因为它们没有完全解决 AI 训练的复杂性。关于根据 GDPR 去识别化数据不再是个人数据的论点是一种法律解释,它忽略了即使是匿名数据也可能被重新识别或用于推断个人的现实。

一种更强有力的方法是实施知情同意系统,该系统明确概述了患者数据可能如何用于 AI 研究和开发。这将需要对这些使用的潜在益处和风险进行清晰和易于理解的解释,并为个人提供有意义的选择加入或选择退出的机会。

算法偏差

另一个重要的担忧是在大数据集上训练的 AI 模型中存在算法偏差的可能性。如果用于训练 Foresight 的数据反映了现有的健康差异,则该模型可能会延续甚至放大这些不平等。

例如,如果某些人口群体在数据集中代表性不足,或者如果他们的医疗状况被误诊或未得到充分治疗,那么 AI 在预测这些群体的疾病或住院方面可能不太准确。这可能导致获得医疗保健资源的机会不均等,并可能加剧现有的健康不公平现象。

为了减轻算法偏差的风险,必须仔细分析用于训练 Foresight 的数据,并识别和解决任何潜在的偏差。这可能涉及对代表性不足的群体进行过度抽样、纠正数据中的不准确之处以及开发专门设计为公平和公正的算法。

对医患关系的影响

在医疗保健中越来越多地使用 AI 有可能以深刻的方式改变传统的医患关系。虽然 AI 无疑可以帮助医生做出更明智的决策,但至关重要的是要确保它不会取代护理的人性化要素。

患者需要确信他们的医生正在使用 AI 作为增强其临床判断力的工具,而不是替代它。医患关系应始终是信任、同情和共同决策的关系。

为了保护医患关系,重要的是强调在医疗保健中人际互动和沟通的重要性。应培训医生有效地沟通 AI 在其决策过程中的作用,并解决患者可能存在的任何疑虑。

寻找前进的道路

驾驭围绕医疗保健中 AI 的复杂伦理和法律环境需要一种多方面的方法。

  • **透明度和公众参与:**公开沟通如何使用患者数据,并让公众参与讨论医疗保健中 AI 的伦理影响。
  • **加强数据保护:**实施更严格的数据保护措施,以最大限度地降低重新识别的风险,并确保个人对其健康数据拥有更大的控制权。
  • **解决算法偏差:**积极识别和减轻 AI 模型中的算法偏差,以确保所有人都能公平地获得医疗保健。
  • **优先考虑以人为本的护理:**强调医患关系的重要性,并确保 AI 用作增强而非取代人际互动的工具。

通过解决这些担忧,我们可以在保护患者隐私、促进公平和维护护理的人性化要素的同时,利用 AI 在医疗保健中的变革潜力。医疗保健的未来取决于我们以负责任和合乎道德的方式应对这些挑战的能力。只有这样,我们才能确保 AI 真正服务于患者和整个社会的最佳利益。