AI, 갑상선암 진단 정확도 90% 돌파

AI 모델의 탄생

이 선구적인 AI 모델 개발은 홍콩대학교 의과대학(HKUMed), InnoHK 데이터 기반 건강 연구소(InnoHK D24H), 런던 위생 및 열대 의학 대학원(LSHTM) 전문가로 구성된 학제간 연구팀의 협력의 결과입니다. 그들의 연구 결과는 권위 있는 저널 npj Digital Medicine에 발표되었으며, AI가 임상 진료를 혁신하고 환자 결과를 개선할 수 있는 잠재력을 강조합니다.

홍콩과 전 세계에서 흔한 악성 종양인 갑상선암은 정확한 관리 전략이 필요합니다. 이러한 전략의 성공은 두 가지 중요한 시스템에 달려 있습니다.

  • 미국 암 합동 위원회(AJCC) 또는 종양-결절-전이(TNM) 암 병기 시스템: 이 시스템은 현재 8판으로 암의 범위와 확산을 결정하는 데 사용됩니다.
  • 미국 갑상선 협회(ATA) 위험 분류 시스템: 이 시스템은 암 재발 또는 진행 위험을 분류합니다.

이러한 시스템은 환자 생존율을 예측하고 치료 결정을 알리는 데 필수적입니다. 그러나 복잡한 임상 정보를 이러한 시스템에 수동으로 통합하는 기존 방법은 종종 시간이 많이 걸리고 비효율적입니다.

AI 도우미 작동 방식

이러한 문제를 해결하기 위해 연구팀은 ChatGPT 및 DeepSeek에 사용된 것과 유사한 대규모 언어 모델(LLM)을 활용하는 AI 도우미를 설계했습니다. 이러한 LLM은 인간의 언어를 이해하고 처리하도록 설계되어 임상 문서를 분석하고 갑상선암 병기 결정 및 위험 분류의 정확성과 효율성을 향상시킵니다.

AI 모델은 Mistral(Mistral AI), Llama(Meta), Gemma(Google) 및 Qwen(Alibaba)이라는 4개의 오프라인 오픈 소스 LLM을 사용하여 자유 텍스트 임상 문서를 분석합니다. 이 접근 방식은 모델이 병리학 보고서, 수술 기록 및 기타 관련 의료 기록을 포함한 광범위한 임상 정보를 처리할 수 있도록 보장합니다.

AI 모델의 훈련 및 검증

AI 모델은 암 게놈 아틀라스 프로그램(TCGA)에서 가져온 50명의 갑상선암 환자의 병리학 보고서를 포함하는 미국 기반 오픈 액세스 데이터 세트를 사용하여 세심하게 훈련되었습니다. 훈련 단계 후 모델의 성능은 289명의 TCGA 환자와 숙련된 내분비 외과 의사가 만든 35개의 가상 사례의 병리학 보고서에 대해 엄격하게 검증되었습니다. 이 포괄적인 검증 프로세스는 모델이 다양한 임상 시나리오에서 강력하고 신뢰할 수 있는지 확인했습니다.

성능 및 정확도

연구팀은 4개의 LLM의 출력을 결합하여 AI 모델의 전반적인 성능을 크게 향상시켰습니다. 이 모델은 ATA 위험 분류에서 88.5%에서 100%의 인상적인 전반적인 정확도와 AJCC 암 병기에서 92.9%에서 98.1%의 정확도를 달성했습니다. 이러한 수준의 정확도는 종종 인적 오류와 불일치가 발생하는 기존의 수동 문서 검토를 능가합니다.

이 AI 모델의 가장 중요한 이점 중 하나는 임상의가 진료 전 준비에 소비하는 시간을 약 50% 단축할 수 있다는 것입니다. 이러한 시간 절약은 임상의가 직접 환자 관리에 더 많은 시간을 할애할 수 있도록 하여 전반적인 환자 경험을 개선하고 치료의 질을 향상시킵니다.

연구팀의 주요 통찰력

홍콩대학교 의과대학 공중 보건학과 Sir Kotewall 교수이자 InnoHK D24H의 관리 이사인 Joseph T Wu 교수는 모델의 뛰어난 성능을 강조하면서 ‘우리 모델은 AJCC 암 병기 및 ATA 위험 범주 분류에서 90% 이상의 정확도를 달성합니다. 이 모델의 중요한 장점은 민감한 환자 정보를 공유하거나 업로드할 필요 없이 로컬 배포가 가능하여 최대의 환자 개인 정보를 제공하는 오프라인 기능입니다.’라고 말했습니다.

Wu 교수는 또한 이 모델이 DeepSeek 및 GPT-4o와 같은 강력한 온라인 LLM과 동등한 성능을 발휘할 수 있다고 강조하면서 ‘최근 DeepSeek 출시를 감안하여 DeepSeek—R1 및 V3—의 최신 버전과 GPT-4o에 대해 ‘제로 샷 접근 방식’으로 추가 비교 테스트를 수행했습니다. 우리 모델이 이러한 강력한 온라인 LLM과 동등한 성능을 발휘한다는 사실을 알게 되어 기뻤습니다.’라고 덧붙였습니다.

홍콩대학교 의과대학 임상 의학과 외과 임상 조교수이자 내분비 외과 과장인 Matrix Fung Man-him 박사는 모델의 실질적인 이점을 강조하면서 ‘복잡한 병리학 보고서, 수술 기록 및 임상 노트에서 정보를 추출하고 분석하는 데 높은 정확도를 제공할 뿐만 아니라, 우리 AI 모델은 또한 의사의 준비 시간을 인간 해석에 비해 거의 절반으로 줄입니다. 이는 국제적으로 인정받는 두 가지 임상 시스템을 기반으로 암 병기 결정과 임상 위험 계층화를 동시에 제공할 수 있습니다.’라고 말했습니다.

Fung 박사는 또한 모델의 다재다능성과 광범위한 채택 가능성을 강조하면서 ‘AI 모델은 다재다능하며 공공 및 민간 부문의 다양한 환경, 국내외 의료 및 연구 기관에 쉽게 통합될 수 있습니다. 이 AI 모델의 실제 구현이 최전선 임상의의 효율성을 높이고 치료의 질을 향상시킬 수 있을 것으로 낙관합니다. 또한 의사는 환자와 상담할 시간이 더 많아질 것입니다.’라고 덧붙였습니다.

홍콩대학교 의과대학 임상 의학과 가정 의학과 및 일차 진료학과 명예 부교수인 Carlos Wong 박사는 실제 환자 데이터로 모델을 검증하는 것의 중요성을 강조하면서 ‘최근 병원 당국의 LLM 기반 의료 보고서 작성 시스템 출시에서 알 수 있듯이, 정부가 의료 분야에서 AI 채택을 강력하게 옹호하는 것에 발맞추어 다음 단계는 실제 환자 데이터의 많은 양으로 이 AI 도우미의 성능을 평가하는 것입니다.’라고 말했습니다.

Wong 박사는 또한 모델이 임상 환경과 병원에 배포될 수 있는 잠재력을 강조하면서 ‘검증이 완료되면 AI 모델은 임상 환경과 병원에 즉시 배포되어 임상의가 운영 및 치료 효율성을 개선하는 데 도움이 될 수 있습니다.’라고 덧붙였습니다.

임상 진료에 미치는 영향

이 AI 모델 개발은 갑상선암 진단 및 관리 분야의 임상 진료에 심오한 영향을 미칩니다. 암 병기 결정 및 위험 분류 프로세스를 자동화함으로써 모델은 임상의가 치료 계획 및 환자 상담과 같은 환자 관리의 다른 중요한 측면에 집중할 수 있도록 합니다.

또한 모델의 높은 정확성과 신뢰성은 진단 프로세스의 오류 및 불일치 위험을 줄이는 데 도움이 될 수 있습니다. 이는 더 많은 정보를 바탕으로 치료 결정을 내리고 환자 결과를 개선하는 데 도움이 될 수 있습니다.

AI 모델은 또한 의료 서비스가 부족한 지역의 환자에게 양질의 치료를 받을 수 있는 접근성을 향상시킬 수 있는 잠재력이 있습니다. 임상의가 갑상선암을 보다 효율적으로 진단하고 관리할 수 있도록 함으로써 모델은 의료 서비스 접근성 및 결과의 불평등을 줄이는 데 도움이 될 수 있습니다.

향후 방향

연구팀은 AI 모델의 기능을 확장하고 정확도를 높이는 데 중점을 두고 AI 모델을 계속 개선하고 개선할 계획입니다. 향후 연구에서는 또한 모델을 암 진단 및 관리의 다른 영역에서 사용할 수 있는 잠재력을 모색할 것입니다.

또한 팀은 AI 모델이 임상 진료 및 환자 결과에 미치는 영향을 평가하기 위해 추가 연구를 수행할 계획입니다. 이러한 연구는 모델을 임상 워크플로에 통합하고 환자 관리를 개선하는 데 효과적으로 사용되도록 하는 가장 좋은 방법을 결정하는 데 도움이 될 것입니다.

이 AI 모델 개발은 갑상선암과의 싸움에서 중요한 진전을 나타냅니다. 인공 지능의 힘을 활용하여 연구원과 임상의는 암 진단 및 관리의 정확성, 효율성 및 접근성을 개선하기 위해 노력하고 있으며 궁극적으로 환자에게 더 나은 결과를 제공하고 있습니다.

AI 모델의 구성 요소 및 기능에 대한 자세한 검토

AI 모델의 아키텍처는 의료 진단에 관련된 인지 프로세스를 에뮬레이션하고 향상시키도록 설계된 여러 최첨단 기술의 정교한 조합입니다. 핵심적으로 이 모델은 인간의 언어를 이해, 해석 및 생성하는 데 놀라운 능력을 입증한 일종의 인공 지능인 대규모 언어 모델(LLM)에 의존합니다. Mistral, Llama, Gemma 및 Qwen과 같은 이러한 LLM은 AI의 분석 기능을 위한 기초 구성 요소 역할을 합니다.

대규모 언어 모델(LLM)의 역할

LLM은 텍스트와 코드의 방대한 데이터 세트에 대해 훈련을 받아 데이터 내의 패턴, 관계 및 뉘앙스를 식별할 수 있습니다. 이 AI 모델의 맥락에서 LLM은 병리학 보고서, 수술 기록 및 기타 의료 기록을 포함한 임상 문서를 분석하는 임무를 맡습니다. 이러한 문서에는 관련 정보를 추출하려면 높은 수준의 이해가 필요한 복잡하고 기술적인 언어가 포함되어 있는 경우가 많습니다.

LLM은 텍스트를 단어와 구문과 같은 더 작은 단위로 나누어 처리한 다음 이러한 단위 간의 관계를 분석합니다. 이 프로세스에는 종양 크기, 림프절 침범 및 원격 전이와 같이 암의 병기 및 위험 범주를 결정하는 데 중요한 주요 엔터티를 식별하는 작업이 포함됩니다.

오프라인 오픈 소스 LLM: Mistral, Llama, Gemma 및 Qwen

AI 모델은 Mistral(Mistral AI), Llama(Meta), Gemma(Google) 및 Qwen(Alibaba)이라는 4개의 오프라인 오픈 소스 LLM을 사용합니다. 여러 LLM을 활용하는 것은 모델의 견고성과 정확성을 향상시키기 위한 전략적 결정입니다. 각 LLM에는 고유한 강점과 약점이 있으며 출력을 결합하여 이러한 시스템의 집단적 지능을 활용할 수 있습니다.

  • Mistral: 효율성과 다양한 작업에서 뛰어난 성능을 발휘하는 것으로 알려져 있습니다.
  • Llama: 연구 목적으로 설계되어 언어 이해를 위한 강력한 기반을 제공합니다.
  • Gemma: Google의 제품으로 다른 Google 서비스와의 통합과 질문 응답에서 뛰어난 성능을 발휘하는 것으로 알려져 있습니다.
  • Qwen: Alibaba에서 개발되었으며 복잡한 중국어 언어 작업을 처리하는 데 탁월합니다.

이러한 다양한 LLM을 통합함으로써 AI 모델은 다양한 관점과 접근 방식의 이점을 누릴 수 있으며 궁극적으로 더 정확하고 신뢰할 수 있는 결과를 얻을 수 있습니다.

훈련 데이터 세트: 암 게놈 아틀라스 프로그램(TCGA)

AI 모델의 훈련 데이터 세트는 수천 명의 암 환자에 대한 게놈, 임상 및 병리학 데이터를 포함하는 포괄적인 공개 리소스인 암 게놈 아틀라스 프로그램(TCGA)에서 파생됩니다. TCGA 데이터 세트는 AI 모델이 데이터 내의 패턴과 관계를 인식하도록 훈련하는 데 필수적인 풍부한 정보를 제공합니다.

훈련 데이터 세트에는 50명의 갑상선암 환자의 병리학 보고서가 포함되어 있습니다. 이러한 보고서에는 종양의 크기, 모양 및 위치를 포함한 특성에 대한 자세한 정보와 전이성 질환의 존재에 대한 정보가 포함되어 있습니다. AI 모델은 이러한 특성을 식별하고 이를 사용하여 암 병기 및 위험 범주를 분류하는 방법을 학습합니다.

검증 프로세스: 정확성 및 신뢰성 보장

AI 모델의 성능은 289명의 TCGA 환자와 숙련된 내분비 외과 의사가 만든 35개의 가상 사례의 병리학 보고서를 사용하여 엄격하게 검증됩니다. 검증 프로세스는 모델이 다양한 임상 시나리오에서 정확하고 신뢰할 수 있는지 확인하도록 설계되었습니다.

검증 프로세스에는 AI 모델의 분류와 인간 전문가가 만든 분류를 비교하는 작업이 포함됩니다. AI 모델의 정확도는 AI 모델의 분류가 인간 전문가가 만든 분류와 일치하는 사례의 백분율을 계산하여 측정합니다.

ATA 위험 분류 및 AJCC 암 병기에서 높은 정확도 달성

AI 모델은 ATA 위험 분류에서 88.5%에서 100%의 인상적인 전반적인 정확도와 AJCC 암 병기에서 92.9%에서 98.1%의 정확도를 달성합니다. 이러한 높은 정확도 비율은 AI가 임상 진료를 혁신하고 환자 결과를 개선할 수 있는 잠재력을 입증합니다. 모델의 암 병기 및 위험 범주를 정확하게 분류하는 능력은 임상의가 더 많은 정보를 바탕으로 치료 결정을 내리는 데 도움이 되어 환자에게 더 나은 결과를 제공할 수 있습니다.

오프라인 기능: 환자 개인 정보 보호 보장

이 AI 모델의 가장 중요한 장점 중 하나는 오프라인 기능입니다. 즉, 민감한 환자 정보를 공유하거나 업로드할 필요 없이 모델을 로컬로 배포할 수 있습니다. 이는 환자 개인 정보를 보호하고 데이터 보안 규정을 준수하는 데 매우 중요합니다.

오프라인 기능은 또한 리소스가 제한된 환경의 병원과 진료소에서 AI 모델에 더 쉽게 접근할 수 있도록 합니다. 이러한 시설은 온라인 AI 모델을 지원할 대역폭이나 인프라가 없을 수 있지만 AI 모델을 로컬로 배포하여 AI 모델의 기능을 활용할 수 있습니다.

온라인 LLM과의 비교: DeepSeek 및 GPT-4o

연구팀은 DeepSeek 및 GPT-4o의 최신 버전과 비교 테스트를 수행했는데, 이 두 모델은 강력한 온라인 LLM입니다. 이러한 테스트 결과 AI 모델이 이러한 온라인 LLM과 동등한 성능을 발휘하여 세계 최고의 AI 시스템과 경쟁할 수 있는 능력을 입증했습니다.

AI 모델이 인터넷 연결 없이 온라인 LLM과 동등한 성능을 발휘할 수 있다는 사실은 중요한 장점입니다. 이는 외부 서버 또는 네트워크에 의존하지 않으므로 AI 모델을 더 안정적이고 안전하게 만듭니다.

의료 효율성 및 환자 관리에 미치는 혁신적인 영향

이 AI 모델을 임상 워크플로에 통합하면 의료 효율성과 환자 관리가 크게 향상될 것으로 기대됩니다. 모델이 암 병기 결정 및 위험 분류 프로세스를 자동화할 수 있는 능력은 임상의가 치료 계획 및 환자 상담과 같은 환자 관리의 다른 중요한 측면에 집중할 수 있도록 합니다.

AI 모델은 또한 진단 프로세스의 오류 및 불일치 위험을 줄이는 데 도움이 되어 더 많은 정보를 바탕으로 치료 결정을 내리고 환자 결과를 개선할 수 있습니다. 또한 모델은 임상의가 갑상선암을 보다 효율적으로 진단하고 관리할 수 있도록 함으로써 의료 서비스가 부족한 지역의 환자에게 양질의 치료를 받을 수 있는 접근성을 향상시킬 수 있습니다.

윤리적 고려 사항 해결 및 책임감 있는 AI 구현 보장

다른 AI 기술과 마찬가지로 윤리적 고려 사항을 해결하고 책임감 있는 AI 구현을 보장하는 것이 필수적입니다. 연구팀은 윤리적이고 투명하며 책임감 있는 방식으로 AI 모델을 개발하고 배포하기 위해 최선을 다하고 있습니다.

주요 윤리적 고려 사항 중 하나는 AI 모델이 특정 환자 그룹에 대해 편향되지 않도록 하는 것입니다. 연구팀은 다양한 훈련 데이터를 사용하고 다양한 환자 집단에서 모델의 성능을 주의 깊게 모니터링하여 이 문제를 해결하기 위해 노력하고 있습니다.

또 다른 윤리적 고려 사항은 환자가 자신의 치료에 AI 사용에 대해 알도록 하는 것입니다. 연구팀은 AI 모델이 어떻게 사용되고 있으며 자신의 치료에 어떤 영향을 미칠 수 있는지에 대한 명확하고 간결한 정보를 환자에게 제공하기 위해 최선을 다하고 있습니다.

연구팀은 또한 AI 모델이 자선, 비악성, 자율성 및 정의와 같은 의료 윤리의 원칙과 일치하는 방식으로 사용되도록 노력하고 있습니다. 이러한 원칙을 준수함으로써 연구팀은 AI 모델을 사용하여 환자 관리를 개선하고 건강 형평성을 증진하는 데 도움이 될 수 있습니다.