AI助力甲状腺癌诊断,准确率超90%

AI模型诞生的背后

香港大学李嘉诚医学院 (HKUMed)、InnoHK健康数据探索实验室 (InnoHK D24H) 以及伦敦卫生与热带医学院 (LSHTM) 的跨学科研究团队合作开发了这款开创性的AI模型。他们的研究成果发表在著名期刊 npj Digital Medicine 上,突显了AI在改变临床实践和改善患者预后方面的潜力。

甲状腺癌是香港乃至全球普遍存在的恶性肿瘤,需要精准的管理策略。这些策略的成功取决于两个关键系统:

  • 美国癌症联合委员会 (AJCC) 或肿瘤-淋巴结-转移 (TNM) 癌症分期系统: 该系统目前为第8版,用于确定癌症的范围和扩散程度。
  • 美国甲状腺协会 (ATA) 风险分类系统: 该系统对癌症复发或进展的风险进行分类。

这些系统对于预测患者生存率和指导治疗决策至关重要。然而,将复杂的临床信息手动整合到这些系统中,通常耗时且容易出现效率低下的问题。

AI助手的工作原理

为了应对这些挑战,研究团队设计了一个AI助手,它利用了大型语言模型 (LLM),类似于ChatGPT和DeepSeek中使用的模型。这些LLM旨在理解和处理人类语言,使它们能够分析临床文档,并提高甲状腺癌分期和风险分类的准确性和效率。

该AI模型采用了四个离线开源LLM——Mistral (Mistral AI)、Llama (Meta)、Gemma (Google) 和 Qwen (Alibaba)——来分析自由文本临床文档。这种方法确保了模型可以处理广泛的临床信息,包括病理报告、手术记录和其他相关的医疗记录。

AI模型的训练和验证

AI模型经过精心训练,使用了一个美国开放访问数据集,其中包含来自癌症基因组图谱计划 (TCGA) 的50名甲状腺癌患者的病理报告。在训练阶段之后,该模型的性能根据来自289名TCGA患者和35个由经验丰富的内分泌外科医生创建的伪病例的病理报告进行了严格验证。这种全面的验证过程确保了模型在各种临床情况下都具有稳健性和可靠性。

性能和准确性

通过结合所有四个LLM的输出,研究团队显著提高了AI模型的整体性能。该模型在ATA风险分类中实现了88.5%至100%的令人印象深刻的总体准确率,在AJCC癌症分期中实现了92.9%至98.1%的准确率。这种准确率超过了传统的手动文档审查,后者经常受到人为错误和不一致性的影响。

该AI模型最显著的优势之一是它能够将临床医生在咨询前准备上花费的时间减少约50%。这种节省的时间使临床医生能够将更多的时间用于直接患者护理,从而改善整体患者体验并提高护理质量。

研究团队的关键见解

香港大学李嘉诚医学院公共卫生学讲座教授及InnoHK D24H管理总监Joseph T Wu教授强调了该模型的出色性能,他表示:“我们的模型在AJCC癌症分期和ATA风险类别分类中实现了超过90%的准确率。该模型的一个显著优势是它的离线能力,这使其可以在本地部署,而无需共享或上传敏感的患者信息,从而最大程度地保护患者隐私。”

Wu教授还强调了该模型能够与强大的在线LLM(如DeepSeek和GPT-4o)相媲美,他指出:“鉴于DeepSeek最近的亮相,我们使用’零样本方法’,针对DeepSeek的最新版本(R1和V3)以及GPT-4o进行了进一步的比较测试。我们很高兴地发现,我们的模型与这些强大的在线LLM的表现相当。”

香港大学李嘉诚医学院临床医学学院外科学系临床助理教授兼内分泌外科主任Matrix Fung Man-him医生强调了该模型的实际好处,他表示:“除了在从复杂的病理报告、手术记录和临床笔记中提取和分析信息方面提供高精度之外,与人工解读相比,我们的AI模型还显著减少了医生近一半的准备时间。它可以同时基于两个国际公认的临床系统提供癌症分期和临床风险分层。”

Fung医生还强调了该模型的多功能性和广泛应用潜力,他表示:“该AI模型用途广泛,可以轻松集成到公共和私营部门的各种环境中,以及本地和国际医疗保健和研究机构。我们乐观地认为,在现实世界中实施该AI模型可以提高一线临床医生的效率并改善护理质量。此外,医生将有更多的时间与患者进行咨询。”

香港大学李嘉诚医学院临床医学学院家庭医学和基层医疗学系荣誉副教授Carlos Wong医生强调了使用真实世界患者数据验证模型的重要性,他表示:“与政府大力倡导在医疗保健领域采用AI的方针一致,最近医院管理局推出了基于LLM的医疗报告撰写系统,我们的下一步是使用大量的真实世界患者数据评估该AI助手的性能。”

Wong医生还强调了该模型在临床环境和医院中部署的潜力,他表示:“一旦经过验证,该AI模型就可以轻松部署在真实的临床环境和医院中,以帮助临床医生提高运营和治疗效率。”

对临床实践的影响

AI模型的开发对甲状腺癌诊断和管理领域的临床实践具有深远的影响。通过自动化癌症分期和风险分类的过程,该模型可以将临床医生解放出来,专注于患者护理的其他关键方面,例如治疗计划和患者咨询。

此外,该模型的高准确性和可靠性有助于降低诊断过程中出现错误和不一致的风险。这可以带来更明智的治疗决策和改善的患者预后。

该AI模型还有可能改善服务欠缺地区患者获得优质护理的机会。通过使临床医生能够更有效地诊断和管理甲状腺癌,该模型可以帮助减少医疗保健获取和结果方面的差异。

未来方向

研究团队计划继续改进和完善AI模型,重点是扩展其功能并提高其准确性。未来的研究还将探索该模型在癌症诊断和管理的其他领域中的应用潜力。

此外,该团队计划进行进一步的研究,以评估AI模型对临床实践和患者预后的影响。这些研究将有助于确定将该模型集成到临床工作流程中的最佳方式,并确保它得到有效利用,以改善患者护理。

AI模型的开发代表了抗击甲状腺癌的重要一步。通过利用人工智能的力量,研究人员和临床医生正在努力提高癌症诊断和管理的准确性、效率和可及性,最终为患者带来更好的结果。

AI模型组件和功能的详细检查

该AI模型的架构是几种尖端技术的复杂混合体,旨在模拟和增强医疗诊断中涉及的认知过程。该模型的核心是大型语言模型 (LLM),这是一种人工智能,在理解、解释和生成人类语言方面表现出了卓越的熟练程度。这些LLM,如Mistral、Llama、Gemma和Qwen,是AI分析能力的基础构建模块。

大型语言模型 (LLM) 的作用

LLM是在大量的文本和代码数据集上进行训练的,使其能够识别数据中的模式、关系和细微差别。在这种AI模型的背景下,LLM的任务是分析临床文档,包括病理报告、手术记录和其他医疗记录。这些文档通常包含复杂和技术性的语言,需要高水平的理解才能提取相关信息。

LLM通过将文本分解为更小的单元(如单词和短语)来处理文本,然后分析这些单元之间的关系。此过程涉及识别关键实体,如肿瘤大小、淋巴结受累和远处转移,这些实体对于确定癌症的分期和风险类别至关重要。

离线开源LLM:Mistral、Llama、Gemma和Qwen

AI模型采用了四个离线开源LLM:Mistral (Mistral AI)、Llama (Meta)、Gemma (Google) 和 Qwen (Alibaba)。使用多个LLM是一项战略决策,旨在增强模型的稳健性和准确性。每个LLM都有其独特的优势和劣势,通过结合它们的输出,模型可以利用这些系统的集体智能。

  • Mistral: 以其效率和在各种任务上表现良好的能力而闻名。
  • Llama: 专为研究目的而设计,为语言理解提供了坚实的基础。
  • Gemma: Google的产品,以其与其他Google服务的集成及其在问题回答方面的强大性能而闻名。
  • Qwen: 由阿里巴巴开发,擅长处理复杂的中文语言任务。

这些多样化的LLM的集成使AI模型可以从广泛的视角和方法中受益,最终带来更准确和可靠的结果。

训练数据集:癌症基因组图谱计划 (TCGA)

AI模型的训练数据集来自癌症基因组图谱计划 (TCGA),这是一个全面的公共资源,包含数千名癌症患者的基因组、临床和病理数据。TCGA数据集提供了大量信息,对于训练AI模型识别数据中的模式和关系至关重要。

训练数据集包括来自50名甲状腺癌患者的病理报告。这些报告包含有关肿瘤特征的详细信息,包括其大小、形状和位置,以及有关是否存在任何转移性疾病的信息。AI模型学习识别这些特征并使用它们来对癌症分期和风险类别进行分类。

验证过程:确保准确性和可靠性

AI模型的性能经过严格验证,使用了来自289名TCGA患者和35个由经验丰富的内分泌外科医生创建的伪病例的病理报告。验证过程旨在确保模型在各种临床情况下都准确可靠。

验证过程涉及将AI模型的分类与人类专家进行的分类进行比较。AI模型的准确性是通过计算AI模型的分类与人类专家进行的分类相匹配的案例百分比来衡量的。

在ATA风险分类和AJCC癌症分期中实现高精度

AI模型在ATA风险分类中实现了88.5%至100%的令人印象深刻的总体准确率,在AJCC癌症分期中实现了92.9%至98.1%的准确率。这些高准确率证明了AI在改变临床实践和改善患者预后方面的潜力。该模型准确分类癌症分期和风险类别的能力可以帮助临床医生做出更明智的治疗决策,从而为患者带来更好的结果。

离线能力:确保患者隐私

该AI模型最显著的优势之一是其离线能力。这意味着该模型可以在本地部署,而无需共享或上传敏感的患者信息。这对于保护患者隐私和确保遵守数据安全法规至关重要。

离线能力还使资源受限环境中的医院和诊所更容易访问AI模型。这些设施可能没有支持在线AI模型的带宽或基础设施,但它们仍然可以通过在本地部署AI模型来受益于AI模型的功能。

与在线LLM的比较:DeepSeek和GPT-4o

研究团队使用最新版本的DeepSeek和GPT-4o(两种强大的在线LLM)进行了比较测试。这些测试的结果表明,AI模型的性能与这些在线LLM的性能相当,证明了其与世界上最好的AI系统竞争的能力。

AI模型可以在不需要互联网连接的情况下与在线LLM的表现相提并论,这是一个显著的优势。这使得AI模型更加可靠和安全,因为它不依赖于外部服务器或网络。

对医疗保健效率和患者护理的变革性影响

将此AI模型集成到临床工作流程中,有望对医疗保健效率和患者护理产生重大变革。该模型自动执行癌症分期和风险分类过程的能力可以使临床医生能够专注于患者护理的其他关键方面,例如治疗计划和患者咨询。

AI模型还可以帮助减少诊断过程中出现错误和不一致的风险,从而做出更明智的治疗决策并改善患者预后。此外,通过使临床医生能够更有效地诊断和管理甲状腺癌,该模型可以改善服务欠缺地区患者获得优质护理的机会。

解决伦理问题并确保负责任的AI实施

与任何AI技术一样,必须解决伦理问题并确保负责任的AI实施。研究团队致力于以合乎道德、透明和负责任的方式开发和部署AI模型。

一个关键的伦理考虑是确保AI模型不会对任何特定患者群体产生偏见。研究团队正在努力通过使用多样化的训练数据和仔细监控模型在不同患者人群中的表现来解决这个问题。

另一个伦理考虑是确保患者了解AI在其护理中的使用情况。研究团队致力于向患者提供清晰简洁的信息,说明如何使用AI模型以及如何影响他们的护理。

研究团队还在努力确保AI模型的使用符合医学伦理原则,例如行善、不伤害、自主和公正。通过遵守这些原则,研究团队可以帮助确保AI模型用于改善患者护理并促进健康公平。