随着大型语言模型 (LLMs) 的快速发展,医学教育领域迎来了激动人心的新机遇。通过利用这些 AI 工具的强大功能,我们可以创建创新性的教育资源,并为接受培训的医生提供前所未有的知识和学习材料。这种方法被称为“合成教育”,它利用 LLM 生成针对医疗专业人员特定需求量身定制的新内容。
在一项最新研究中,我们探索了 LLM 在皮肤科教育中的潜力,使用 OpenAI 的 GPT-4 为美国医疗执照考试 (USMLE) 中常考的 20 种不同的皮肤和软组织疾病创建临床病例。这些病例呈现了真实的患者情景,随后由医生专家评估其准确性、全面性、质量、潜在危害和人口统计学偏差。
我们的研究结果非常鼓舞人心。医生专家对这些病例的科学准确性(4.45/5)、全面性(4.3/5)和整体质量(4.28/5)给出了高平均分,同时也注意到潜在临床危害(1.6/5)和人口统计学偏差(1.52/5)的得分较低。我们还观察到全面性和整体质量之间存在很强的相关性(r = 0.83),这表明详细且全面的病例对于有效的医学教育至关重要。然而,我们也注意到这些病例缺乏显著的人口统计学多样性,这突出了未来迭代中需要改进的领域。
总的来说,我们的研究证明了 LLM 在增强皮肤科教育材料的可扩展性、可访问性和可定制性方面的巨大潜力。通过解决我们发现的局限性,例如需要更大的人口统计学多样性,我们可以进一步改进这些 AI 驱动的工具,并释放它们彻底改变医学教育的全部潜力。
LLM 在医学教育中的崛起
医学教育领域在不断发展,以适应新一代医学生和住院医生的不断变化的需求。随着技术的不断进步,这些有抱负的医生越来越多地接触到各种可以补充他们学习的数字工具。在这些技术中,大型语言模型 (LLM) 已成为一个特别有希望的领域,因其卓越的计算能力而备受关注。
LLM 是一种机器学习模型,经过来自各种来源的大量文本数据的训练。这种广泛的训练使它们能够通过综合和应用从它们处理的庞大数据集中收集的集体见解来执行高度专业的任务。即使没有接受过医学领域的明确培训,像 OpenAI 的 GPT 这样的通用模型也已在临床环境中表现出令人印象深刻的性能,暗示了 LLM 在医学中的巨大潜力。
释放合成教育的潜力
LLM 在医学教育中提供了前所未有的实用性,因为它们能够快速高效地生成新内容。虽然人们对将 LLM 应用于各种医学教育任务非常感兴趣,但关于 LLM 指导的教育计划在现实世界中的表现的研究有限。LLM 在该领域中一个特别有希望但尚未充分探索的应用是生成临床病例。
临床病例是现代医学教育的重要组成部分,构成了 USMLE 问题和临床前基于案例的教学的重要组成部分。这些病例通过呈现评估学习者诊断推理、管理策略的优先顺序和对社会心理因素的理解的实践场景来将医学知识置于上下文中。通过模拟复杂而细致的医学实践,病例为未来的医生提供了宝贵的培训。
传统上,临床病例来源于专业协会、教师创建的内部材料或商业上可用的题库。然而,这些病例的创建是一个劳动密集型过程,需要经验丰富的医生的Significant投入。虽然这些来源提供了一定程度的质量控制,但这些材料的可访问性和数量因不同的机构和学生的社会经济背景而异。此外,病例的有限可用性引发了对 USMLE 管理中重复测试问题的担忧。
利用 LLM 彻底改变皮肤科教育
虽然皮肤科的医学指导在很大程度上依赖于视觉评估,但对疾病过程进行情景化的整体临床表现同样至关重要。像 USMLE 这样的标准化考试通常使用基于文本的病例来评估对皮肤和软组织病理学的知识。此外,用于描述皮肤病变的特定术语对于准确诊断和治疗皮肤疾病至关重要。
LLM 提供了一个独特的机会来扩展医学教育中常见皮肤病基于文本的病例的可用性。当前的现成 LLM(例如 GPT)提供了灵活性,可以扩展初始临床病例,以适应学生提出进一步问题的个人需求。在我们的研究中,我们评估了使用 GPT 4.0(OpenAI 最新的公开可用基础模型)生成用于医学教育的高质量临床病例的可行性。
评估 GPT-4 的性能
为了评估 GPT-4 在生成临床病例方面的性能,我们专注于 USMLE Step 2 CK 考试中常考的 20 种皮肤和软组织疾病。我们提示该模型为每种疾病创建详细的临床病例,包括对最可能的诊断以及为什么替代诊断不太可能的解释。然后,由医生专家小组使用 Likert 量表评估这些病例的科学准确性、全面性、整体质量、潜在临床危害和人口统计学偏差。
病例特征
我们对 20 个临床病例的分析揭示了几个关键特征:
患者人口统计学: 这些病例以 15 名男性患者和 5 名女性患者为特征,患者年龄中位数为 25 岁。仅指定了 4 名患者的种族(3 名白种人,1 名非洲裔美国人)。3 名患者使用了通用名称,而其余病例未包含名称。
字数: 该模型输出的平均字数为 332.68,标准偏差为 42.75 个字。临床病例部分的平均字数为 145.79 个字(SD = 26.97),而解释的平均字数为 184.89 个字(SD = 49.70)。平均而言,解释比相应的病例长,病例与解释的长度比为 0.85(SD = 0.30)。
医生评分
医生专家的评分表明与科学共识高度一致(平均值 = 4.45,95% CI:4.28-4.62)、全面性(平均值 = 4.3,95% CI:4.11-4.89)和整体质量(平均值 = 4.28,95% CI:4.10-4.47)。评分还表明临床危害的风险较低(平均值 = 1.6,95% CI:1.38-1.81)和人口统计学偏差(平均值 = 1.52,95% CI:1.31-1.72)。人口统计学偏差的一致低评分表明医生评估者未检测到任何患者人群的刻板印象或不成比例的倾斜表示的重大模式。
相关性分析
为了评估不同评估标准之间的关系,我们计算了 Pearson 相关系数。我们发现,与科学共识的一致性与全面性(r = 0.67)和整体质量(r = 0.68)呈中度相关。全面性和整体质量显示出很强的相关性(r = 0.83),而临床危害的可能性和人口统计学偏差之间的相关性较弱(r = 0.22)。
对医学教育的意义
我们的研究结果对医学教育具有重大意义,尤其是在对标准化医学考试的审查日益严格的背景下。对于可以用于像 USMLE 这样的评估的高质量教育材料的需求比以往任何时候都更加重要。然而,创建新问题的传统方法是资源密集型的,需要经验丰富的医生编写临床病例,并需要多次测试管理来评估其普遍性。因此,非常需要开发大量独特的临床病例的新方法。
我们的研究提供了有希望的证据,表明像 GPT-4 这样的大型语言模型可以作为“合成医学教育”的来源,提供可访问、可定制和可扩展的教育资源。我们已经证明 GPT-4 拥有固有的临床知识,可以扩展到创建具有代表性和准确性的患者描述。我们的分析表明,GPT-4 为 USMLE Step 2 CK 考试的皮肤与软组织部分测试的疾病生成的病例非常准确,这表明 LLM 可能用于设计标准化医学考试的病例。
科学共识、全面性和整体质量的高评分,以及潜在临床危害和人口统计学偏差的低评分,进一步支持了将 LLM 用于此目的的可行性。病例全面性和整体质量之间的强统计相关性突出了医学教育中彻底和详细的案例陈述的重要性,并证明了 LLM 提供与临床推理相关的上下文和完整情景的能力。
病例的平均长度(145.79 ± 26.97 个字)完全在 USMLE 病例长度的范围内,允许考生大约 90 秒来回答每个问题。在病例旁边包含更长的解释展示了 LLM 不仅可以生成患者描述,还可以生成有用的教学材料。
解决局限性和未来方向
虽然我们的研究证明了 LLM 在生成高质量临床病例方面的潜力,但我们也发现了一些需要在未来研究中解决的局限性。一个关键问题是患者人口统计学方面的有限多样性,男性患者占主导地位,并且缺乏种族多样性。为了确保医学生充分准备好为不同的患者人群提供服务,至关重要的是要更加有意识地努力在提示工程和模型训练数据集中纳入多样化的患者代表。未来的研究还应该调查模型输出中系统性偏差的来源和表现形式。
我们研究的另一个局限性是我们专家评分员小组的组成,其中仅包括一名皮肤科医生以及两名来自内科和急诊医学的主治医师。虽然非皮肤科医生评分员经常在各自的专业中诊断和管理常见的皮肤病,但他们的专业知识可能不包括皮肤病学的全部范围。未来的研究将受益于更大比例的皮肤科医生,以确保对 AI 生成的案例进行更专业的评估。
尽管存在这些局限性,但我们的工作提供了令人信服的证据,表明像 GPT-4 这样的现成 LLM 在标准化考试和教学目的的临床病例生成方面具有巨大的潜力。在更具体的数据集上训练的适合用途的 LLM 可能会进一步增强这些功能。“合成教育”的高准确性和效率为当前生成医学教育材料的传统方法的局限性提供了一个有希望的解决方案。