NHS醫療紀錄訓練AI模型引發隱私疑慮

Foresight, 一個基於英國國民保健署 (NHS) 5700萬醫療記錄訓練的人工智慧 (AI) 模型,引發了廣泛的爭論。儘管支持者吹捧其通過疾病預測和住院預測來徹底改變醫療保健的潛力,但批評者對患者隱私和數據保護表示嚴重擔憂。本文深入探討了 Foresight 的複雜性,檢視其能力、它提出的倫理困境以及為減輕潛在風險而採取的保障措施。

Foresight:國家級生成式 AI 模型

Foresight 於 2023 年構思,最初採用 OpenAI 的 GPT-3,這是 ChatGPT 第一個版本的基礎技術,並在倫敦兩家醫院的 150 萬患者記錄上進行了訓練。倫敦大學學院的 Chris Tomlinson 和他的團隊此後擴展了 Foresight,將其標榜為世界上第一個「國家級健康數據生成式 AI 模型」。這個增強版本利用 Meta 的開源 LLM Llama 2,並納入了 NHS 在 2018 年 11 月至 2023 年 12 月期間在英格蘭例行累積的八個不同的數據集。這些數據集包括門診預約、住院、疫苗接種記錄和其他與健康相關的事件,總共包含 5700 萬人的 100 億個數據點——基本上是英格蘭的全部人口。

儘管由於正在進行的測試而缺乏公開可用的性能指標,Tomlinson 斷言 Foresight 最終可以促進個人診斷並預測更廣泛的健康趨勢,例如住院或心臟病發作。他在 5 月 6 日的新聞發布會上強調了該模型能夠先發製人地預測疾病併發症的潛力,從而在大規模上實現早期干預和轉向預防性醫療保健。

隱私和數據保護疑慮

將如此廣泛的醫療數據輸入 AI 模型的可能性引發了對隱私的擔憂。儘管研究人員聲稱所有記錄在訓練 AI 之前都經過了「去識別化」,但通過數據模式分析重新識別的風險仍然是一個重大問題,尤其是在大型數據集的情況下。

牛津大學的 Luc Rocher 強調了在構建強大的生成式 AI 模型時保護患者隱私的固有挑戰。使數據對 AI 具有價值的數據豐富性也使其難以匿名化。 Rocher 提倡 NHS 對這些模型進行嚴格控制,以確保安全使用。

NHS Digital 的 Michael Chapman 承認即使使用去識別化數據,也存在重新識別的固有風險。雖然直接識別符被刪除,但健康數據的豐富性使得難以保證完全匿名。

為了應對這種風險,Chapman 表示 AI 在「安全」的 NHS 數據環境中運行,限制了信息洩漏,並確保只有經過批准的研究人員才能訪問。 Amazon Web Services 和 Databricks 提供計算基礎設施,但無法訪問數據。

倫敦帝國學院的 Yves-Alexandre de Montjoye 建議驗證模型記憶訓練數據的能力,以檢測潛在的信息洩漏。在接受《新科學家》雜誌的詢問時,Tomlinson 承認 Foresight 團隊尚未進行這些測試,但計劃在未來進行。

公眾信任和數據使用

牛津大學的 Caroline Green 強調了向公眾傳達數據使用情況以維持信任的重要性。儘管進行了匿名化處理,人們普遍希望控制自己的數據並了解其目的地,這使他們對其道德規範感觸良多。

目前的控制措施為個人選擇不使用 Foresight 提供的選項有限。來自國家收集的 NHS 數據集的數據用於訓練模型,並且現有的選擇退出機制不適用,因為根據 NHS England 發言人的說法,數據已「去識別化」。但是,已選擇不共享其家庭醫生數據的個人將不會將其數據納入模型中。

GDPR 和數據匿名化

《通用數據保護條例》(GDPR) 規定個人有權撤回對使用其個人數據的同意。但是,像 Foresight 這樣的 LLM 的訓練過程使得無法從 AI 工具中刪除單個記錄。 NHS England 發言人聲稱 GDPR 不適用,因為用於訓練模型的數據是匿名的,不構成個人數據。

英國信息專員辦公室的網站澄清說,「去識別化」數據不應與匿名數據互換使用,因為英國數據保護法沒有定義該術語,並且其使用可能會導致混淆。

Foresight 目前用於與 COVID-19 相關的研究進一步複雜化了法律立場,根據 medConfidential 的 Sam Smith 的說法,這允許在疫情期間頒布的數據保護法例外情況。 Smith 斷言,僅限 COVID 的 AI 可能包含嵌入的患者數據,這些數據不應離開實驗室,並且患者應控制其數據使用情況。

倫理考量

圍繞使用醫療數據進行 AI 開發的倫理考量使 Foresight 處於不穩定的位置。 Green 認為,倫理和人類考量應該是 AI 開發的起點,而不是事後才考慮。

更深入地檢視疑慮

圍繞 Foresight 使用 NHS 醫療記錄的疑慮不僅僅是數據隱私。它們觸及關於個人健康信息所有權、算法偏見潛力以及 AI 對醫患關係的長期影響的基本問題。

健康數據的所有權和控制權

核心倫理困境之一是個人應在多大程度上控制自己的健康數據。 儘管 NHS 無疑需要訪問患者信息才能提供有效的護理,但使用此數據進行 AI 訓練引發了關於個人是否充分了解並有權同意此類二次使用的問題。

目前的選擇退出機制不足,因為它們並未完全解決 AI 訓練的複雜性。 認為根據 GDPR 規定,去識別化數據不再是個人數據是一種法律解釋,它忽略了即使是匿名數據也可能被重新識別或用於推斷個人的事實。

一種更可靠的方法是實施一種知情同意系統,該系統明確概述了患者數據可能如何用於 AI 研究和開發。 這將需要清晰且易於理解的解釋,說明此類使用的潛在益處和風險,並為個人提供有意義的選擇加入或選擇退出的機會。

演算法偏見

另一個重大疑慮是,在大型數據集上訓練的 AI 模型中存在算法偏見的可能性。如果用於訓練 Foresight 的數據反映了現有的健康差距,則該模型可能會延續甚至放大這些不平等現象。

例如,如果某些人口群體在數據集中代表性不足,或者如果他們的醫療狀況被誤診或未得到充分治療,則 AI 在預測這些群體的疾病或住院方面可能不太準確。這可能導致獲得醫療保健資源的機會不平等,並可能加劇現有的健康不公平現象。

為了減輕算法偏見的風險,必須仔細分析用於訓練 Foresight 的數據,並識別和解決任何潛在的偏見。 這可能涉及對代表性不足的群體進行過度採樣、糾正數據中的不准確之處,以及開發專門設計為公平公正的算法。

對醫患關係的影響

在醫療保健中越來越多地使用 AI 有可能以深刻的方式改變傳統的醫患關係。 儘管 AI 無疑可以協助醫生做出更明智的決定,但至關重要的是要確保它不會取代護理的人性化元素。

患者需要確信他們的醫生正在使用 AI 作為一種工具來增強他們的臨床判斷,而不是作為其替代品。 醫患關係應始終是信任、同理心和共同決策的關係。

為了保護醫患關係,重要的是要強調人際互動和溝通在醫療保健中的重要性。 應對醫生進行培訓,以有效地溝通 AI 在其決策過程中的作用,並解決患者可能存在的任何疑慮。

尋找前進的道路

駕馭醫療保健中圍繞 AI 的複雜倫理和法律環境需要一種多面向的方法。

  • 透明度和公眾參與: 公開溝通如何使用患者數據,並讓公眾參與關於 AI 在醫療保健中的倫理影響的討論。
  • 加強數據保護: 實施更嚴格的數據保護措施,以最大限度地降低重新識別的風險,並確保個人對其健康數據擁有更大的控制權。
  • 解決演算法偏見: 積極識別並減輕 AI 模型中的算法偏見,以確保所有人都能公平地獲得醫療保健。
  • 優先考慮以人為本的護理: 強調醫患關係的重要性,並確保 AI 被用作增強而非取代人際互動的工具。

通過解決這些疑慮,我們可以在保護患者隱私、促進公平和維護護理的人性化元素的同時,利用 AI 在醫療保健中的變革潛力。 醫療保健的未來取決於我們以負責任和合乎道德的方式應對這些挑戰的能力。 只有這樣,我們才能確保 AI 真正為患者和整個社會的最佳利益服務。