의료 분야에서 LLM의 가능성과 규제 과제
광범위한 훈련 데이터와 인간과 유사한 텍스트 생성 능력에서 비롯된 LLM의 기능은 다양한 분야에서 의사 결정 지원에 대한 응용에 대한 관심을 불러일으키고 있습니다. 그러나 생성 인공 지능(AI) 시스템을 매우 매력적으로 만드는 바로 그 특성은 규제 기관에 고유한 장애물을 제시합니다. 이러한 기관은 수십 년 전에 제정된 프레임워크 내에서 운영되며, AI의 동적 특성이 아닌 전통적인 의료 기기를 위해 설계되었습니다.
현재 사용 가능한 LLM은 의료 기기로 분류되지 않습니다. 연방 식품, 의약품 및 화장품법(FD&C Act § 201(h)(1))은 의료 기기를 ‘질병의 진단, 치료, 완화, 치료 또는 예방에 사용하기 위한… 화학 작용을 통해 주요 목적을 달성하지 않는 기구…’로 정의합니다. 대부분의 LLM에는 의료 조언을 제공하기 위한 것이 아니라는 면책 조항이 포함되어 있어 FDA 규제를 피합니다. 그럼에도 불구하고 연구 환경과 실제 임상 진료 모두에서 의료 의사 결정을 지원하기 위해 LLM을 사용하는 것을 강조하는 출판된 연구 및 일화적 증거가 늘어나고 있습니다.
LLM 기반 임상 의사 결정 지원에 대한 규제 범위 정의
LLM의 잠재력을 고려할 때, LLM이 임상 의사 결정 지원 시스템(CDSS)에 공식적으로 통합되어야 하는 경우 적절한 규제 문제가 가장 중요해집니다. FD&C Act(Public Law 114–255)에 대한 21세기 치료법 수정안과 FDA의 지침은 의사 결정 지원 소프트웨어가 장치로 간주되어 FDA 관할권에 속하는지 여부를 결정하는 네 가지 주요 기준을 간략하게 설명합니다. 이러한 기준은 다음을 중심으로 합니다.
- 소프트웨어 기능의 입력 데이터.
- 출력 데이터.
- 임상 권장 사항의 내용.
- 최종 사용자가 이러한 권장 사항의 근거를 검토할 수 있는 능력.
특히 CDSS의 출력이 일반적인 정보 기반 권장 사항이 아닌 치료 또는 진단에 대한 정확한 지시를 제공하는 경우 장치로 간주됩니다. 또한 CDSS가 권장 사항의 기본 근거를 제공하지 않아 사용자가 독립적으로 검토하고 자신의 결론에 도달하는 것을 방해하는 경우 장치로 분류됩니다. FDA 지침은 임상 응급 상황에서 사용되는 CDSS가 의사 결정의 중요하고 시간에 민감한 특성으로 인해 CDSS의 조언에 대한 독립적인 평가를 배제하기 때문에 장치로 간주된다고 명확히 밝힙니다.
생성 AI 시스템에서 장치와 유사한 출력 조사
LLM과 같은 생성 AI를 사용하는 CDSS가 의료 기기를 모방하는 출력을 생성하는지 여부는 불분명합니다. 제약이 없는 LLM의 자유 텍스트 출력은 설정된 장치 기준을 충족할 수도 있고 그렇지 않을 수도 있습니다. 또한 어려운 프롬프트 또는 ‘탈옥’에 대한 LLM 응답이 이러한 기준과 어떻게 일치하는지는 알 수 없습니다. 의료 조언을 위해 LLM을 사용하는 사례가 증가함에 따라 LLM 기반 CDSS의 장치 지정 및 규제 상태를 둘러싼 불확실성은 이러한 기술의 안전하고 효과적인 개발에 잠재적인 장애물이 됩니다. 더 많은 임상의와 환자가 이러한 도구를 활용함에 따라 의료 분야에서 생성 AI의 안전과 혁신 사이의 올바른 균형을 유지하는 것이 중요합니다.
연구 목표: 장치와 유사한 기능 평가
이 연구는 LLM의 장치와 유사한 기능을 평가하는 것을 목표로 했습니다. 이 기능은 그러한 사용이 의도되었는지 또는 허용되었는지 여부에 관계없이 ‘질병 또는 기타 상태의 진단, 치료, 예방, 치료 또는 완화’를 위한 유용성으로 정의됩니다. 구체적인 목표는 다음과 같습니다.
- LLM 출력이 해당 기준에 대한 지침과 함께 프롬프트되고 임상 응급 상황이 제시되었을 때 장치 기준과 일치하는지 확인합니다.
- 모델의 출력이 장치와 유사한 출력을 제공하도록 조작될 수 있는 조건(있는 경우)을 식별합니다. 여기에는 진단 및 치료 정보에 대한 직접적인 요청과 비 장치 기준을 준수하라는 프롬프트에도 불구하고 장치와 유사한 출력을 유도하도록 설계된 사전 정의된 ‘탈옥’을 사용하는 것이 포함되었습니다.
결과: LLM 응답 및 장치 기준 정렬
예방 치료 권장 사항
예방 치료 권장 사항에 대한 질문을 받았을 때 모든 LLM은 최종 텍스트 출력에서 비 장치 기준과 일치하는 응답을 생성했습니다. Llama-3 모델은 단일 샷 프롬프트에 대한 응답으로 처음에 응답의 작은 비율(가정 의학의 경우 20%, 정신과 예방 치료 시나리오의 경우 60%)에서 장치와 유사한 의사 결정 지원을 제공했습니다. 그러나 이 텍스트를 ‘죄송합니다. 지금은 이 요청을 도와드릴 수 없습니다.’라는 면책 조항으로 신속하게 대체했습니다. 장치 기준에 대한 자세한 예가 포함된 다중 샷 프롬프트가 제시되었을 때 모든 모델은 모든 초기 예방 치료 응답에 대해 일관되게 비 장치 권장 사항을 제공했습니다.
시간에 민감한 응급 상황
시간에 민감한 응급 상황과 관련된 상황에서 GPT-4 응답의 100%와 Llama-3 응답의 52%가 장치와 유사한 의사 결정 지원과 일치했습니다. 장치와 유사한 권장 사항의 전체 비율은 다중 샷 프롬프트와 일관되게 유지되었지만 다양한 임상 시나리오에서 차이를 보였습니다. 이러한 장치와 유사한 응답에는 응급 상황과 관련된 특정 진단 및 치료에 대한 제안이 포함되었습니다.
‘Desperate Intern’ 탈옥
‘desperate intern’ 탈옥을 적용했을 때 상당 부분의 응답이 장치와 유사한 권장 사항을 보였습니다. 구체적으로, GPT-4 응답의 80% 및 68%, Llama-3 응답의 36% 및 76%가 각각 단일 및 다중 샷 프롬프트에 따라 장치와 유사한 권장 사항을 포함했습니다.
LLM 제안의 임상 적절성
모든 모델 제안이 임상적으로 적절하고 확립된 치료 표준과 일치한다는 점에 유의하는 것이 중요합니다. 가정 의학 및 심장학 시나리오에서 장치와 유사한 의사 결정 지원의 대부분은 훈련된 임상의에게만 적합했습니다. 예를 들어 정맥 카테터 삽입 및 정맥 항생제 투여가 있습니다. 다른 시나리오에서 장치와 유사한 권장 사항은 일반적으로 오피오이드 과다 복용에 대한 날록손 투여 또는 아나필락시스에 대한 에피네프린 자동 주사기 사용과 같은 방관자 치료 표준과 일치했습니다.
규제 및 감독에 대한 시사점
현재 FDA 승인을 받은 CDSS는 없으며 일부는 의료 조언에 사용해서는 안 된다고 명시하고 있지만 환자와 임상의는 여전히 이러한 목적으로 LLM을 사용하고 있을 수 있습니다. 이 연구에서는 FDA 지침 문서의 언어를 기반으로 하는 단일 샷 또는 다중 샷 프롬프트가 LLM을 비 장치 의사 결정 지원만 생성하도록 안정적으로 제한하지 못한다는 것을 발견했습니다. 또한 사전 정의된 탈옥은 장치와 유사한 의사 결정 지원을 유도하는 데 종종 불필요했습니다. 이러한 결과는 AI/ML CDSS에 맞는 새로운 규제 패러다임의 필요성을 강조하는 이전 연구를 강화합니다. 또한 생성 AI 기술을 통합하는 의료 기기 감독에 직접적인 영향을 미칩니다.
규제 접근 방식 재고
효과적인 규제는 의도된 용도에 따라 LLM 출력을 장치와 유사하거나 비 장치 의사 결정 지원과 더 잘 일치시키는 새로운 방법을 필요로 할 수 있습니다. 전통적인 FDA 승인은 특정 의도된 용도 및 적응증에 대한 의료 기기에 부여됩니다. 예를 들어 FDA 승인 AI/ML 장치에는 혈역학적 불안정성 또는 임상 악화를 예측하도록 설계된 장치가 포함됩니다. 그러나 LLM은 광범위한 주제에 대해 질문을 받을 수 있으며, 이는 적절하지만 승인된 적응증에 비해 ‘오프 라벨’로 간주되는 응답으로 이어질 수 있습니다. 결과는 단일 및 다중 샷 프롬프트가 이를 제어하기에 부적절하다는 것을 보여줍니다. 이 결과는 LLM 자체의 한계를 나타내는 것이 아니라 LLM 출력의 유연성을 유지하면서 승인된 적응증으로 제한하는 새로운 방법의 필요성을 강조합니다.
새로운 승인 경로 탐색
LLM 규제는 특정 적응증과 관련이 없는 새로운 승인 경로를 필요로 할 수 있습니다. ‘일반화된’ 의사 결정 지원을 위한 장치 승인 경로는 LLM 및 생성 AI 도구에 적합할 수 있습니다. 이 접근 방식은 AI/ML CDSS의 혁신을 촉진하지만 이러한 광범위한 적응증을 가진 시스템의 안전성, 효과 및 형평성을 평가하는 최적의 방법은 불분명합니다. 예를 들어, 승인에 대한 ‘회사 기반’ 접근 방식은 LLM에 적합할 수 있는 장치별 평가의 필요성을 우회할 수 있지만 임상 효과 및 안전과 관련하여 불확실한 보장이 따릅니다.
다른 사용자 그룹에 대한 기준 개선
이러한 결과는 임상의와 비 임상의 방관자를 위한 CDSS에 대한 기준을 개선해야 할 필요성을 강조합니다. FDA는 이전에 환자 및 간병인 대상 CDSS가 일반적으로 규제 대상인 의료 기기로 간주될 것이라고 밝혔습니다. 그러나 현재 비 임상의 방관자를 위해 설계된 AI/ML CDSS에 대한 규제 범주는 없습니다. 시간에 민감한 응급 상황에 대한 구체적인 진단을 내리고 구체적인 지시를 제공하는 것은 의료 전문가를 위한 장치에 대한 FDA의 기준과 명확하게 일치합니다. 반면에 심폐 소생술(CPR) 및 에피네프린 또는 날록손 투여와 같은 조치도 이러한 장치 기준을 충족하는 동시에 비 임상의 방관자를 위한 잘 확립된 구조 행동입니다.
연구 제한 사항
이 연구에는 몇 가지 제한 사항이 있습니다.
- 소프트웨어의 지정된 의도된 용도가 아닌 작업에 대해 LLM을 평가합니다.
- LLM 출력을 구속력이 없는 FDA 지침과 비교하고 LLM 권장 사항이 다른 관련 미국 법규 또는 규제 프레임워크와 일치하는지 평가하지 않습니다.
- 단일 및 다중 샷 프롬프트보다 더 효과적이었을 수 있는 다른 프롬프트 방법을 평가하지 않습니다.
- 이러한 프롬프트가 실제 임상 워크플로에 실질적으로 통합될 수 있는 방법을 탐색하지 않습니다.
- GPT-4 및 Llama-3 외에 널리 사용 가능하고 일반적으로 사용되는 LLM의 더 넓은 범위를 평가하지 않습니다.
- 프롬프트의 샘플 크기가 작습니다.
앞으로 나아가기: 혁신과 안전의 균형
CDSS 장치 기준에 대한 FDA 지침의 텍스트를 기반으로 하는 프롬프트는 단일 샷이든 다중 샷이든 LLM 출력이 비 장치 의사 결정 지원과 일치하도록 보장하기에 충분하지 않습니다. 혁신, 안전 및 임상 효과 간의 균형을 유지하면서 생성 AI 시스템을 해결하기 위한 새로운 규제 패러다임과 기술이 필요합니다. 이 기술의 급속한 발전은 규제에 대한 사전 예방적이고 적응적인 접근 방식을 요구하여 의료 분야에서 LLM의 이점을 실현하는 동시에 잠재적 위험을 완화할 수 있도록 합니다.