AI助力沟通:跨专业医学术语解读新途径

在现代医疗保健错综复杂的网络中,专科医生与全科医生之间的沟通至关重要。然而,医学笔记中经常使用的高度专业化语言可能会造成重大障碍,尤其是在处理像眼科这样复杂的领域时。最近的一项调查深入探讨了一种潜在的技术解决方案:利用人工智能(特别是大型语言模型,LLMs)的力量,将充斥着行话、晦涩难懂的眼科报告翻译成清晰、简洁、专科以外人士也能理解的摘要。研究结果表明,这为加强临床医生间的沟通和潜在改善患者护理协调提供了一条有希望的途径,尽管在准确性和监督方面存在重要的警示。

专业沟通的挑战

医学界依赖精确性,这常常导致每个学科内部发展出高度特定的术语。虽然这对于同行之间进行细致入微的讨论至关重要,但当信息需要在不同部门之间或向初级保健提供者流动时,这种专业词汇就可能成为一个巨大的障碍。眼科以其独特的解剖学术语、复杂的诊断程序和专门的缩写,充分体现了这一挑战。眼科检查可以为全身健康状况提供关键见解——揭示糖尿病、多发性硬化症甚至中风先兆的迹象。然而,如果眼科医生的详细发现是用接收方临床医生不熟悉的术语来表述的,这些重要的诊断线索就有被忽视或误解的风险。潜在的后果从延误治疗到漏诊,最终影响患者的治疗效果。

考虑一下管理着患有多种健康问题的患者的初级保健医生或住院医生。他们依赖来自不同专科医生的报告来形成对患者状况的整体看法。一份充满诸如 ‘Tmax’(最高眼内压)、’CCT’(中央角膜厚度)等缩写词,或特定药物简写如 ‘cosopt’(一种复方青光眼药物)的眼科笔记,可能会令人困惑且耗时去解读。这种缺乏即时清晰度的情况会妨碍高效决策,并使与患者及其家属就眼科发现在其整体健康背景下的重要性进行的讨论变得复杂。此外,许多医疗专业人员在培训期间接触眼科的机会有限——有时仅相当于几场讲座——这加剧了这种理解上的差距。

AI进入诊室:一项清晰度研究

认识到这一沟通瓶颈,研究人员进行了一项质量改进研究,以探索 AI 是否能充当有效的翻译器。核心问题是,当前的 LLM 技术是否具备将复杂的眼科笔记转化为普遍易懂的摘要所需的复杂性、准确性和最新的知识库?AI 能否有效弥合眼科专家与其在其他医学领域的同事之间的术语鸿沟?

该研究于 2024 年 2 月至 5 月在 Mayo Clinic 进行,涉及 20 名眼科医生。这些专家在记录患者就诊情况后被随机分配到两条路径之一。一组将其标准临床笔记直接发送给相关的护理团队成员(医生、住院医师、专科培训医生、执业护士、医师助理和联合健康人员)。另一组首先通过一个旨在生成通俗语言摘要的 AI 程序处理他们的笔记。这些 AI 生成的摘要由眼科医生审阅,他们可以纠正事实错误,但被指示不要进行风格上的修改。接收来自第二组笔记的护理团队成员会收到原始专家笔记 AI 生成的通俗语言摘要。

为了评估这种干预措施的有效性,研究人员向收到这些笔记的非眼科临床医生和专业人员分发了调查问卷。共收集到 362 份回复,回复率约为 33%。大约一半的受访者只审阅了标准笔记,而另一半则审阅了笔记和 AI 摘要。该调查旨在评估清晰度、理解度、对细节水平的满意度以及总体偏好。

显著结果:偏好与理解度提升

非眼科专业人员对 AI 辅助摘要的反馈绝大多数是积极的。高达 85% 的受访者表示,与仅接收标准笔记相比,他们更偏好同时接收通俗语言摘要和原始笔记。这种偏好得到了在感知清晰度和理解力方面显著改善的支持。

  • 清晰度: 当被问及笔记是否“非常清晰”时,收到 AI 摘要的人中有 62.5% 表示同意,而收到标准笔记的人中只有 39.5% 同意——这是一个具有统计学意义的差异 (P<0.001)。这表明 AI 成功地去除了令人困惑的行话,并以更易于理解的方式呈现了核心信息。
  • 理解度: 摘要也显著提高了理解力。33% 的接收者认为 AI 摘要“极大地”提高了他们的理解力,显著高于认为标准笔记有同样效果的 24% (P=0.001)。这表明摘要不仅简化了语言,而且积极地帮助了把握报告的临床实质。
  • 对细节的满意度: 有趣的是,尽管是摘要,AI 版本却带来了对所提供信息水平更高的满意度。63.6% 的人对 AI 摘要格式的细节表示满意,而标准笔记的这一比例为 42.2% (P<0.001)。这可能表明清晰度胜过纯粹的技术数据量;充分理解关键点比接触大量难以轻易解读的行话更令人满意。

其中一个最引人注目的发现与弥合知识差距有关。研究人员观察到,那些最初报告对眼科术语感到不适的临床医生,从 AI 摘要中获益更为显著。增加通俗语言摘要极大地缩小了那些对眼科相关行话感到自在和不自在的人之间的理解差距,将差距从 26.1% 缩小到 14.4%。这种“均衡效应”在包括医生、护士和其他联合健康人员在内的各种专业角色中都观察到了,突显了此类工具在促进不同医疗团队成员之间理解民主化方面的潜力。临床医生特别评论说,AI 摘要擅长定义缩写词和解释专业术语,这反过来又简化了他们随后与患者和家属就眼科发现进行的沟通。

通俗语言的力量:一个实例

为了说明实际差异,让我们根据研究的描述考虑一个假设的例子。一位患有原发性开角型青光眼的患者,其眼科医生的笔记可能如下所示:

“Pt c/o blurred vision. Exam: VA OD 20/40, OS 20/30. IOPs 24 OD, 22 OS (Tmax 28). CCT 540 OU. Gonio: Open angles Gr III OU. ONH: C/D 0.7 OD, 0.6 OS, NRR thinning inf OD > OS. HVF: Sup arcuate defect OD. Plan: Cont Cosopt BID OU. F/U 3 mos. RTC sooner if sx worsen. Discussed SLT option.”

对于非专业人士来说,这充满了缩写(Pt, c/o, VA, OD, OS, IOPs, Tmax, CCT, OU, Gonio, Gr, ONH, C/D, NRR, HVF, Cont, BID, F/U, RTC, sx)和需要解释的特定指标。

相比之下,根据研究对其功能的描述,AI 生成的通俗语言摘要可能类似于:

“该患者患有青光眼,这是一种眼内压力升高可能损害视神经并导致视力丧失的疾病。今天的眼压略有升高(右眼 24,左眼 22)。视神经显示出一些损伤迹象,右眼更明显。视野检查证实右眼上部周边视力有部分丧失。患者将继续双眼每日两次使用 Cosopt 眼药水。Cosopt 是一种包含两种药物(多佐胺和噻吗洛尔)的复方药物,有助于降低眼压。我们讨论了选择性激光小梁成形术 (Selective Laser Trabeculoplasty, SLT),一种降低眼压的激光手术,作为未来的一个选项。患者应在 3 个月后复诊,如果视力变化或其他症状出现则应提前复诊。”

这个版本立即阐明了诊断,解释了药物的目的(定义了 ‘Cosopt’),将关键发现转化为易于理解的概念,并避免了晦涩的缩写。这种增强的清晰度使初级保健提供者或会诊医生能够快速掌握患者的状况和眼科医生的计划。

准确性担忧与监督的必要性

尽管在理解力方面获得了压倒性的积极反响和显著益处,该研究也对 AI 生成摘要的准确性发出了关键的警示。当眼科医生在摘要发送出去之前审阅 LLM 最初生成的摘要时,他们在 26% 的案例中发现了错误。虽然这些错误中的绝大多数(83.9%)被归类为对患者造成伤害的风险较低,并且至关重要的是,没有错误被认为会构成严重伤害或死亡的风险,但这个初始错误率仍然是显著的。

更令人担忧的是,随后由一位外部眼科医生进行的独立分析,审阅了那 235 份已经经过研究中眼科医生审阅和编辑的通俗语言摘要。这次审阅发现,15% 的摘要仍然包含错误。这种即使在专家监督之后仍然存在的错误率,突显了一个关键点:临床环境中的 AI 工具不能在没有严格人工监督的情况下自主运行。

该研究没有深入探讨这些错误的具体性质,这是一个局限性。潜在的错误可能包括翻译数值数据时的微小不准确、误解发现的严重性、遗漏原始笔记中的关键细微差别,甚至引入源文本中不存在的信息(幻觉)。虽然本研究中的风险状况似乎较低,但错误的潜在可能性要求建立健全的工作流程,将强制性的临床医生审阅和纠正纳入其中,然后才能依赖 AI 生成的摘要进行临床决策或沟通。正如研究作者通过引用其他研究指出的那样,值得注意的是,错误并非 AI 独有;错误也可能存在于临床医生撰写的原始笔记中。然而,引入 AI 层增加了一个必须管理的新潜在错误来源。

专家的视角

参与研究的眼科医生也提供了反馈。基于 489 份调查回复(来自专家的回复率为 84%),他们对 AI 摘要的看法总体上是积极的,尽管可能因意识到需要进行修正而有所保留。

  • 诊断的代表性: 高达 90% 的人认为通俗语言摘要“极大地”代表了患者的诊断。这表明从专家的角度来看,AI 通常准确地捕捉了核心临床情况。
  • 总体满意度: 75% 的眼科医生回复表示,他们对为其笔记生成的摘要(大概是在他们审阅和修正之后)“非常满意”。

虽然满意,但审阅和修正摘要所涉及的工作量并未量化,但这仍然是工作流程整合的一个重要考虑因素。即使在他们审阅之后发现的 15% 的错误率也凸显了挑战——专家们很忙,监督虽然必要,但需要高效且可靠。

更广泛的意义与未来方向

这项研究为了解如何利用技术,特别是 AI,不是为了取代人际互动,而是通过克服专业化医学中固有的沟通障碍来增强互动,打开了一扇窗。AI 在将复杂的眼科笔记翻译成通俗语言方面的成功,为更广泛的应用带来了希望。

  • 临床医生间沟通: 该模型可能适用于其他高度专业化的领域(例如,心脏病学、神经病学、病理学),在这些领域,复杂的术语可能会妨碍非专业人士的理解,从而改善跨学科的护理协调。
  • 患者教育: 也许最令人兴奋的潜在扩展之一是使用类似的 AI 工具为患者生成他们自己就诊笔记的易懂摘要。用清晰、易懂的信息赋予患者关于其病情和治疗计划的能力,可以显著提高健康素养,促进共同决策,并可能提高治疗依从性。想象一下,一个患者门户网站自动在官方临床笔记旁边提供一个通俗语言摘要。

然而,研究人员也正确地承认了错误率之外的局限性。该研究是在单一学术中心进行的,这可能限制了研究结果对其他实践环境(例如,社区医院、私人诊所)的普遍适用性。未收集调查参与者的人口统计信息,无法分析经验年限或特定角色等因素可能如何影响看法。至关重要的是,该研究没有追踪患者结局,因此直接的临床意义——这些改进的摘要是否真正导致了更好的治疗决策或健康结果——仍然未知,并且是未来研究的一个重要领域。

将 AI 整合到临床工作流程的旅程显然正在进行中。这项研究提供了令人信服的证据,表明 LLMs 可以作为强大的工具来提高医疗专业人员之间沟通的清晰度。然而,它也强有力地提醒我们,技术是一种工具,而不是万能药。前进的道路需要谨慎实施、持续验证,以及对人工监督坚定不移的承诺,以确保准确性和患者安全。打破长期存在的沟通障碍的潜力是巨大的,但必须以勤勉的态度,并清晰理解人工智能在复杂医疗领域的能力和局限性来追求。