人工智能的持续发展不断重塑着各个行业,而在医学领域,其风险之高、潜力之深,或许无出其右。多年来,最强大的人工智能模型,特别是能够处理和生成类人文本的大型语言模型 (LLMs),基本上都深藏在科技巨头的保护壁垒之后。这些专有系统,如广受讨论的 OpenAI 的 GPT-4,展现出了非凡的能力,甚至扩展到了复杂的医疗诊断领域。然而,它们的’黑箱’性质以及需要将敏感信息发送到外部服务器处理,给其在医疗环境中的广泛、安全应用带来了重大障碍——在医疗环境中,患者隐私不仅是优先考虑,更是强制要求。一个关键问题挥之不去:蓬勃发展的开源 AI 世界能否迎接挑战,提供相当的能力,同时又不牺牲控制权和保密性?
来自声誉卓著的哈佛医学院 (Harvard Medical School, HMS) 的最新发现表明,答案是响亮的“是”,这标志着 AI 在临床环境中应用的一个潜在转折点。研究人员细致地比较了一个领先的开源模型与其备受瞩目的专有对手,得出的结果可能会使尖端诊断辅助工具的获取更加民主化。
新竞争者进入诊断竞技场
在一项引起医学界和科技界共同关注的研究中,HMS 的研究人员将开源的 Llama 3.1 405B 模型与强大的 GPT-4 进行了对决。测试场地是一组精心挑选的 70 个具有挑战性的医学病例研究。这些并非常规情景;它们代表了临床实践中经常遇到的复杂诊断难题。目标很明确:正面评估每个 AI 模型的诊断敏锐度。
最近公布的结果令人瞩目。Llama 3.1 405B 模型——用户可以免费下载、检查和修改——展示出的诊断准确性与 GPT-4 相当,在某些指标上甚至超过了后者。具体来说,在评估每个模型提供的初步诊断建议的正确性时,Llama 3.1 405B 略占优势。此外,在考虑处理完病例细节后提出的最终诊断时,这位开源竞争者再次证明了其与既定基准抗衡的实力。
这一成就之所以意义重大,不仅在于性能本身,更在于它所代表的意义。这是首次,一个易于获取、透明的开源工具被证明能够在基于病例研究进行医疗诊断这项要求严苛的任务中,达到与领先的闭源系统相同的高水平。负责这项研究的 HMS 教授 Arjun K. Manrai ’08 形容这种性能上的对等“相当了不起”,尤其是考虑到历史背景。
开源优势:解锁数据隐私与定制化
哈佛研究强调的真正改变游戏规则的因素在于开源模型和专有模型之间的根本区别:可访问性和控制权。像 GPT-4 这样的专有模型通常要求用户将数据发送到提供商的服务器进行处理。在医疗保健领域,这立即引发了警报。患者信息——症状、病史、测试结果——属于可以想象到的最敏感的数据之列,受到美国 HIPAA 等严格法规的保护。将这些数据传输到医院安全网络之外的前景,即使是为了获得先进 AI 分析的潜在好处,也一直是一个主要障碍。
像 Llama 3.1 405B 这样的开源模型从根本上改变了这种动态。由于模型的代码和参数是公开可用的,机构可以下载并在其自己的安全基础设施内部署它。
- 数据主权 (Data Sovereignty): 医院可以在其本地服务器或私有云上完全运行 AI。患者数据永远不需要离开机构受保护的环境,有效消除了与外部数据传输相关的隐私担忧。这个概念通常被称为将“模型带到数据处”,而不是将“数据发送到模型处”。
- 增强安全性 (Enhanced Security): 将流程保持在内部显著减少了与第三方 AI 提供商相关的潜在数据泄露的攻击面。操作环境的控制权完全掌握在医疗机构手中。
- 透明度与可审计性 (Transparency and Auditability): 开源模型允许研究人员和临床医生潜在地检查模型的架构,并在一定程度上比不透明的专有系统更好地理解其决策过程。这种透明度可以培养更大的信任,并有助于调试或改进。
哈佛大学 AI in Medicine 项目的博士生、该研究的第一作者 Thomas A. Buckley 强调了这一关键优势。“开源模型解锁了新的科学研究,因为它们可以部署在医院自己的网络中,”他表示。这种能力超越了理论上的可能性,为实际、安全的应用打开了大门。
此外,开源的性质允许前所未有的定制化水平。医院和研究小组现在可以使用他们自己的特定患者数据来微调这些强大的基础模型。
- 特定人群调优 (Population-Specific Tuning): 可以调整模型以更好地反映医院系统服务的特定地方或区域人口的人口统计特征、流行疾病和独特的健康挑战。
- 协议对齐 (Protocol Alignment): 可以调整 AI 行为以符合医院特定的诊断路径、治疗方案或报告标准。
- 专业化应用 (Specialized Applications): 研究人员可以开发高度专业化的模型版本,专为特定的医学领域量身定制,例如放射影像分析解释支持、病理报告筛选或识别罕见疾病模式。
Buckley 详细阐述了这一含义:“研究人员现在可以直接将最先进的临床 AI 用于患者数据……医院可以使用患者数据来开发定制模型(例如,以适应他们自己的患者群体)。”这种在内部安全开发定制化 AI 工具的潜力,代表了一个重大的飞跃。
背景:AI 在复杂病例中引发的冲击波
哈佛团队对 Llama 3.1 405B 的调查并非在真空中进行。它部分受到了早期研究,特别是一篇引人注目的 2023 年论文所产生的影响的启发。那项研究展示了 GPT 模型在处理一些发表在著名《新英格兰医学杂志》(NEJM) 上的最令人困惑的临床病例方面的惊人熟练程度。这些 NEJM 的“马萨诸塞总医院病例记录”(Case Records of the Massachusetts General Hospital) 在医学界堪称传奇——错综复杂、常常令人费解的病例,即使是经验丰富的临床医生也面临挑战。
“这篇论文引起了巨大关注,基本上表明这个大型语言模型 ChatGPT 能够以某种方式解决这些极其具有挑战性的临床病例,这让人们感到震惊,”Buckley 回忆道。一个 AI,本质上是一个在海量文本上训练出来的复杂模式匹配机器,竟然能够解开通常需要深厚临床直觉和经验的诊断谜团,这个想法既令人着迷,对某些人来说也令人不安。
“这些病例是出了名的困难,”Buckley 补充道。“它们是麻省总医院 (Mass General Hospital) 见到的一些最具挑战性的病例,所以它们对医生来说很可怕,而当一个 AI 模型也能做到同样的事情时,同样令人恐惧。”早期的这一展示强调了 LLMs 在医学领域的原始潜力,但也加剧了解决专有系统固有的隐私和控制问题的紧迫性。如果 AI 变得如此强大,确保它能够安全、合乎道德地用于真实患者数据就变得至关重要。
Meta 发布的 Llama 3.1 405B 模型代表了一个潜在的转折点。模型的巨大规模——由其“405B”表示,指 4050 亿个参数(模型在训练期间调整以进行预测的变量)——标志着开源社区内部达到了一个新的复杂程度。如此巨大的规模表明它可能拥有与 GPT-4 等顶级专有模型性能相媲美的复杂性。“这有点像是我们第一次考虑到,哦,也许开源模型正在发生一些真正不同的事情,”Buckley 指出,解释了在医学领域测试 Llama 3.1 405B 的动机。
规划未来:研究与现实世界整合
确认高性能开源模型对于敏感的医疗任务是可行的,这具有深远的影响。正如 Manrai 教授所强调的,这项研究“解锁并开启了许多新的研究和试验”。能够在安全的医院网络内直接处理患者数据,而没有外部数据共享的伦理和后勤障碍,消除了临床 AI 研究的一个主要瓶颈。
想象一下各种可能性:
- 实时决策支持 (Real-time Decision Support): AI 工具直接集成到电子健康记录 (EHR) 系统中,实时分析传入的患者数据,以建议潜在诊断、标记关键实验室值或识别潜在的药物相互作用,所有这些都在数据安全地保留在医院系统内的情况下进行。
- 加速研究周期 (Accelerated Research Cycles): 研究人员可以使用大型本地数据集快速测试和完善 AI 假设,可能加速发现新的诊断标志物或治疗效果。
- 开发超专业化工具 (Development of Hyper-Specialized Tools): 团队可以专注于为利基医学专业或特定的复杂程序构建 AI 助手,使用高度相关的内部数据进行训练。
正如 Manrai 简洁地指出的那样,范式发生了转变:“有了这些开源模型,你可以将模型带到数据处,而不是将你的数据发送到模型处。”这种本地化赋予了医疗机构和研究人员权力,在维护严格隐私标准的同时促进创新。
不可或缺的人类元素:AI 作为副驾驶,而非机长
尽管像 Llama 3.1 405B 这样的 AI 工具表现出色且潜力巨大,但参与研究的研究人员很快用一剂关键的现实主义来缓和兴奋之情。人工智能,无论多么复杂,现在还不是——也许永远不会是——人类临床医生的替代品。Manrai 和 Buckley 都强调,人类的监督仍然绝对必要。
包括 LLMs 在内的 AI 模型具有固有的局限性:
- 缺乏真正的理解 (Lack of True Understanding): 它们擅长基于训练数据进行模式识别和信息综合,但缺乏真正的临床直觉、常识,以及理解患者生活背景、情绪状态或非语言线索细微差别的能力。
- 潜在的偏见 (Potential for Bias): AI 模型可能会继承其训练数据中存在的偏见,可能导致有偏差的建议或诊断,特别是对于代表性不足的患者群体。开源模型在这里提供了一个潜在优势,因为训练数据和过程有时可以被更仔细地审查,但风险依然存在。
- “幻觉”与错误 (“Hallucinations” and Errors): 众所周知,LLMs 偶尔会生成听起来合理但错误的信息(所谓的“幻觉”)。在医疗背景下,此类错误可能导致严重后果。
- 无法处理新颖性 (Inability to Handle Novelty): 虽然它们可以处理已知的模式,但 AI 可能难以应对真正新颖的疾病表现或其训练数据中未充分体现的独特症状组合。
因此,医生和其他医疗保健专业人员的角色并未被削弱,而是发生了转变。他们成为关键的验证者、解释者和最终决策者。“我们的临床合作者一直非常重要,因为他们可以阅读模型生成的内容并对其进行定性评估,”Buckley 解释说。AI 的输出仅仅是一个建议,是在更广泛的临床图景中需要进行批判性评估的一条数据。“只有当这些结果能够由医生评估时,它们才是可信的。”
Manrai 对此表示赞同,他设想 AI 不是自主的诊断者,而是一个有价值的助手。在之前的新闻稿中,他将这些工具描述为“忙碌临床医生的宝贵副驾驶 (invaluable copilots)”,前提是它们“被明智地使用并负责任地融入当前的医疗基础设施中”。关键在于深思熟虑的整合,即 AI 增强人类能力——也许是通过快速总结庞大的患者病史、为复杂病例建议鉴别诊断或标记潜在风险——而不是试图取代临床医生的判断。
“但至关重要的是,医生必须帮助推动这些努力,以确保 AI 为他们服务,”Manrai 告诫道。临床 AI 的开发和部署必须是一个协作过程,由患者护理前线的需求和专业知识指导,确保技术服务于而非支配医学实践。哈佛的研究表明,强大、安全的工具正变得可用;下一个关键步骤是负责任地利用它们。