Foresight: NHS 의료 기록 기반 AI 모델, 개인 정보 보호 논란
Foresight라는 인공지능 (AI) 모델의 개발은 영국 국민보건서비스 (NHS)의 5,700만 건의 의료 기록이라는 방대한 데이터 세트에 대한 의존성으로 인해 상당한 논쟁을 불러일으켰습니다. 지지자들은 질병 예측 및 입원 예측을 통해 의료 혁신을 가져올 잠재력을 강조하지만, 비평가들은 환자 개인 정보 보호 및 데이터 보호에 대한 심각한 우려를 표명합니다. 이 기사에서는 Foresight의 복잡성, 제시되는 윤리적 딜레마, 잠재적 위험을 완화하기 위해 마련된 안전 장치를 자세히 살펴봅니다.
Foresight: 전국 규모의 생성 AI 모델
2023년에 구상된 Foresight는 처음에는 OpenAI의 GPT-3, 즉 ChatGPT의 첫 번째 버전을 뒷받침하는 기술을 활용했으며 런던의 두 병원에서 가져온 150만 건의 환자 기록을 기반으로 학습되었습니다. University College London의 Chris Tomlinson과 그의 팀은 이후 Foresight를 확장하여 세계 최초의 “전국 규모의 건강 데이터 생성 AI 모델”로 브랜딩했습니다. 이 향상된 버전은 Meta의 오픈 소스 LLM인 Llama 2를 활용하고 2018년 11월부터 2023년 12월까지 NHS가 영국에서 일상적으로 수집한 8개의 개별 데이터 세트를 통합합니다. 이러한 데이터 세트는 외래 진료 약속, 입원, 예방 접종 기록 및 기타 건강 관련 이벤트를 포함하며, 총 5,700만 명에 걸쳐 100억 개의 데이터 포인트, 즉 사실상 잉글랜드 전체 인구를 포함합니다.
현재 진행 중인 테스트로 인해 공개적으로 사용 가능한 성능 지표가 부족함에도 불구하고 Tomlinson은 Foresight가 결국 개인 진단을 용이하게 하고 입원 또는 심장 마비와 같은 더 광범위한 건강 추세를 예측할 수 있다고 주장합니다. 그는 5월 6일 기자 회견에서 모델의 잠재력이 질병 합병증을 사전에 예측하여 조기 개입을 가능하게 하고 대규모 예방 의료로의 전환을 가능하게 한다고 강조했습니다.
개인 정보 보호 및 데이터 보호 우려
이러한 광범위한 의료 데이터를 AI 모델에 공급한다는 전망은 개인 정보 보호에 대한 우려를 불러일으켰습니다. 연구자들은 AI를 훈련하기 전에 모든 기록이 “비식별화”되었다고 주장하지만, 특히 대규모 데이터 세트의 경우 데이터 패턴 분석을 통한 재식별 위험이 여전히 중요한 문제입니다.
Oxford University의 Luc Rocher는 강력한 생성 AI 모델을 구축하는 동안 환자 개인 정보를 보호하는 데 내재된 어려움을 강조합니다. AI 목적에 맞게 데이터를 가치 있게 만드는 바로 그 데이터 풍부성이 데이터를 익명화하는 것을 믿을 수 없을 정도로 어렵게 만듭니다. Rocher는 안전한 사용을 보장하기 위해 이러한 모델에 대한 엄격한 NHS 통제를 옹호합니다.
NHS Digital의 Michael Chapman은 비식별화된 데이터에서도 재식별의 내재적 위험을 인정합니다. 직접 식별자는 제거되지만 의료 데이터의 풍부성으로 인해 완전한 익명성을 보장하기 어렵습니다.
이러한 위험에 대응하기 위해 Chapman은 AI가 정보 유출을 제한하고 승인된 연구자에게만 액세스를 보장하는 “안전한” NHS 데이터 환경 내에서 작동한다고 말했습니다. Amazon Web Services와 Databricks는 컴퓨팅 인프라를 제공하지만 데이터에 액세스할 수 없습니다.
Imperial College London의 Yves-Alexandre de Montjoye는 잠재적 정보 유출을 감지하기 위해 모델의 훈련 데이터를 암기하는 능력을 확인하는 것을 제안합니다. _New Scientist_의 질문에 Tomlinson은 Foresight 팀이 아직 이러한 테스트를 수행하지 않았지만 앞으로 수행할 계획이라고 인정했습니다.
대중의 신뢰와 데이터 사용
Oxford University의 Caroline Green은 신뢰를 유지하기 위해 대중에게 데이터 사용을 알리는 것이 중요하다고 강조합니다. 익명화 노력에도 불구하고 사람들은 일반적으로 자신의 데이터를 제어하고 목적지를 이해하기를 원하며, 이는 윤리에 대해 매우 강하게 느끼게 만듭니다.
현재 통제는 Foresight에 의한 데이터 사용에서 개인이 옵트아웃할 수 있는 제한된 옵션을 제공합니다. 전국적으로 수집된 NHS 데이터 세트의 데이터는 모델을 훈련하는 데 사용되며, NHS England 대변인에 따르면 데이터가 “비식별화”되었기 때문에 기존의 옵트아웃 메커니즘은 적용되지 않습니다. 그러나 가정 의사의 데이터 공유를 옵트아웃한 개인의 데이터는 모델에 포함되지 않습니다.
GDPR 및 데이터 익명화
일반 데이터 보호 규정 (GDPR)은 개인에게 개인 데이터 사용에 대한 동의를 철회할 수 있는 옵션을 제공하도록 요구합니다. 그러나 Foresight와 같은 LLM의 훈련 프로세스는 AI 도구에서 단일 기록을 제거하는 것을 불가능하게 만듭니다. NHS England 대변인은 모델을 훈련하는 데 사용된 데이터가 익명화되었고 개인 데이터를 구성하지 않으므로 GDPR이 적용되지 않는다고 주장합니다.
영국 정보 위원회의 웹사이트는 영국 데이터 보호법이 해당 용어를 정의하지 않고 사용이 혼란을 야기할 수 있으므로 “비식별화”된 데이터를 익명 데이터와 바꿔서 사용해서는 안 된다고 명시합니다.
법적 입장은 Foresight가 현재 COVID-19와 관련된 연구에 사용되고 있다는 사실에 의해 더욱 복잡해집니다. 이는 팬데믹 기간 동안 제정된 데이터 보호법에 대한 예외를 허용한다고 medConfidential의 Sam Smith는 말합니다. Smith는 COVID 전용 AI에는 연구실을 떠나서는 안 되는 임베디드 환자 데이터가 포함되어 있을 가능성이 높으며 환자는 자신의 데이터 사용을 제어해야 한다고 주장합니다.
윤리적 고려 사항
AI 개발에 의료 데이터를 사용하는 것을 둘러싼 윤리적 고려 사항은 Foresight를 불안정한 위치에 놓습니다. Green은 윤리 및 인간 고려 사항이 사후 고려 사항이 아닌 AI 개발의 출발점이 되어야 한다고 주장합니다.
우려 사항을 더 깊이 조사
Foresight의 NHS 의료 기록 사용과 관련된 우려는 단순한 데이터 개인 정보 보호를 넘어섭니다. 이는 개인 건강 정보의 소유권, 알고리즘 편향의 잠재력, AI가 의사-환자 관계에 미치는 장기적인 영향에 대한 근본적인 질문을 다룹니다.
건강 데이터의 소유권 및 통제
핵심적인 윤리적 딜레마 중 하나는 개인이 자신의 건강 데이터를 얼마나 통제해야 하는지입니다. NHS는 효과적인 진료를 제공하기 위해 환자 정보에 대한 액세스가 필요하지만, AI 훈련을 위해 이 데이터를 사용하는 것은 개인이 이러한 2차 사용에 대해 적절하게 통보받고 동의할 권한이 있는지에 대한 질문을 제기합니다.
현재의 옵트아웃 메커니즘은 AI 훈련의 복잡성을 완전히 해결하지 못하므로 불충분합니다. 비식별화된 데이터가 GDPR에 따라 더 이상 개인 데이터가 아니라는 주장은 익명화된 데이터조차도 잠재적으로 재식별되거나 개인에 대한 추론을 도출하는 데 사용될 수 있다는 현실을 간과하는 법적 해석입니다.
보다 강력한 접근 방식은 환자 데이터가 AI 연구 및 개발에 사용될 수 있는 방법을 명시적으로 설명하는 정보에 입각한 동의 시스템을 구현하는 것입니다. 이를 위해서는 이러한 사용의 잠재적 이점과 위험에 대한 명확하고 접근 가능한 설명이 필요하며, 개인이 옵트인 또는 옵트아웃할 수 있는 의미 있는 기회를 제공해야 합니다.
알고리즘 편향
또 다른 중요한 우려는 대규모 데이터 세트를 기반으로 훈련된 AI 모델의 알고리즘 편향의 잠재력입니다. Foresight를 훈련하는 데 사용된 데이터가 기존의 건강 불균형을 반영하는 경우 모델은 이러한 불평등을 영속시키고 심지어 증폭시킬 수도 있습니다.
예를 들어, 특정 인구 통계 그룹이 데이터 세트에 과소 대표되거나 의료 상태가 잘못 진단되거나 과소 치료되는 경우 AI는 이러한 그룹에 대한 질병 또는 입원을 예측하는 데 정확도가 떨어질 수 있습니다. 이는 의료 자원에 대한 불평등한 접근으로 이어질 수 있고 잠재적으로 기존의 건강 불평등을 악화시킬 수 있습니다.
알고리즘 편향의 위험을 완화하려면 Foresight를 훈련하는 데 사용된 데이터를 신중하게 분석하고 잠재적인 편향을 식별하고 해결하는 것이 필수적입니다. 여기에는 과소 대표된 그룹을 과도하게 샘플링하고, 데이터의 부정확성을 수정하고, 공정하고 공평하도록 특별히 설계된 알고리즘을 개발하는 것이 포함될 수 있습니다.
의사-환자 관계에 미치는 영향
의료에서 AI 사용이 증가함에 따라 전통적인 의사-환자 관계가 심오한 방식으로 바뀔 가능성이 있습니다. AI가 의사가 더 많은 정보를 바탕으로 결정을 내리는 데 도움을 줄 수 있다는 것은 의심의 여지가 없지만, 치료의 인간적인 요소를 대체하지 않도록 하는 것이 중요합니다.
환자는 의사가 임상 판단을 향상시키는 도구로 AI를 사용하고 있으며, 그 대안으로 사용하지 않고 있다는 확신을 가질 필요가 있습니다. 의사-환자 관계는 신뢰, 공감 및 공동 의사 결정의 관계로 유지되어야 합니다.
의사-환자 관계를 보호하기 위해서는 의료에서 인간 상호 작용과 의사 소통의 중요성을 강조하는 것이 중요합니다. 의사는 의사 결정 과정에서 AI의 역할을 효과적으로 전달하고 환자가 가질 수 있는 우려 사항을 해결하도록 훈련받아야 합니다.
앞으로 나아갈 길 찾기
의료에서 AI를 둘러싼 복잡한 윤리적 및 법적 환경을 탐색하려면 다각적인 접근 방식이 필요합니다.
- 투명성 및 대중 참여: 환자 데이터가 사용되는 방식을 공개적으로 전달하고 의료에서 AI의 윤리적 의미에 대한 논의에 대중을 참여시킵니다.
- 데이터 보호 강화: 재식별 위험을 최소화하고 개인이 자신의 건강 데이터를 더 잘 통제할 수 있도록 보다 엄격한 데이터 보호 조치를 구현합니다.
- 알고리즘 편향 해결: 모든 사람이 의료에 공평하게 접근할 수 있도록 AI 모델에서 알고리즘 편향을 적극적으로 식별하고 완화합니다.
- 인간 중심 진료 우선 순위 지정: 의사-환자 관계의 중요성을 강조하고 AI가 인간 상호 작용을 대체하는 것이 아니라 향상시키는 도구로 사용되도록 합니다.
이러한 우려 사항을 해결함으로써 환자 개인 정보 보호를 보호하고 형평성을 증진하며 치료의 인간적인 요소를 보존하면서 의료에서 AI의 혁신적인 잠재력을 활용할 수 있습니다. 의료의 미래는 이러한 과제를 책임감 있고 윤리적으로 해결하는 능력에 달려 있습니다. 그래야만 AI가 환자와 사회 전체의 최선의 이익을 진정으로 충족시킬 수 있습니다.