心血管预防导航:语言模型性能比较分析

心血管预防导航:语言模型性能比较分析

大型语言模型 (LLMs) 的兴起为解决公众对心血管疾病 (CVD) 预防的疑问提供了引人入胜的可能性。这些模型具有理解和以类似人类的方式做出反应的能力,正越来越多地被用作医疗信息的来源。然而,关于它们提供的信息的可靠性和准确性仍然存在疑问,尤其是在不同语言之间。本分析深入研究了对几种突出的 LLM 的全面评估,专门检查了它们解决英语和中文 CVD 预防查询的能力。

评估 LLM 性能:准确性和一致性

我们的主要目标是评估主要 LLM 在呈现与 CVD 预防相关的问题时提供的回答的准确性。我们专注于 BARD(Google 的语言模型)、ChatGPT-3.5 和 ChatGPT-4.0(OpenAI 的模型)以及 ERNIE(百度的模型)。一组 75 个精心制作的 CVD 预防问题被提出给每个 LLM,回答根据其适当性(分为适当、边缘或不适当)进行评估。

英语语言性能

在英语中,LLM 展示了显着的准确性。BARD 达到了 88.0% 的“适当”评级,ChatGPT-3.5 的得分为 92.0%,ChatGPT-4.0 以 97.3% 的评级表现出色。这些结果表明,LLM 可以为寻求 CVD 预防指导的以英语为母语的用户提供有价值的信息。

中文语言性能

分析扩展到中文查询,LLM 的性能各不相同。ERNIE 达到了 84.0% 的“适当”评级,ChatGPT-3.5 的得分为 88.0%,ChatGPT-4.0 达到了 85.3%。虽然结果总体上是积极的,但它们也表明与英语相比性能略有下降,这表明这些模型中可能存在语言偏差。

随时间推移的改进和自我意识

除了初始准确性之外,我们还调查了 LLM 随时间推移提高其响应的能力以及它们对正确性的自我意识。这涉及评估模型如何响应最初提供的次优答案,以及它们是否可以在提示时识别和纠正错误。

随时间推移的增强响应

分析显示 LLM 表现出时间改进。当呈现最初的次优响应时,BARD 和 ChatGPT-3.5 的改进率为 67%(分别为 6/9 和 4/6),而 ChatGPT-4.0 达到了 100% 的完美改进率(2/2)。这表明 LLM 从用户互动和反馈中学习,随着时间的推移,从而获得更准确和可靠的信息。

正确性的自我意识

我们还检查了 LLM 识别其响应的正确性的能力。BARD 和 ChatGPT-4.0 在这方面优于 ChatGPT-3.5,这表明它们更好地了解了它们提供的信息的准确性。此功能在医疗环境中特别有价值,因为不正确的信息可能会产生严重的后果。

ERNIE 在中文中的表现

中文提示的分析显示,ERNIE 在时间改进和正确性的自我意识方面表现出色。这表明 ERNIE 非常适合为寻求 CVD 预防指导的中文使用者提供准确和可靠的信息。

LLM 聊天机器人的综合评估

为确保包括常见和流行的 LLM 聊天机器人的综合评估,本研究包括了 OpenAI 的四个主要模型:ChatGPT-3.5 和 ChatGPT-4.0、Google 的 BARD 以及百度的 ERNIE。英文提示的评估涉及 ChatGPT 3.5、ChatGPT 4 和 BARD;对于中文提示,评估涉及 ChatGPT 3.5、ChatGPT 4 和 ERNIE。这些模型以其默认配置和温度设置使用,在分析过程中未对这些参数进行调整。

问题生成和聊天机器人响应评估

美国心脏病学会和美国心脏协会为 CVD 预防提供指南和建议,包括有关风险因素、诊断测试和治疗方案的信息,以及患者教育和自我管理策略。两位经验丰富的心脏病专家生成了与 CVD 预防相关的问题,将其框架类似于患者向医生询问的方式,以确保从患者的角度来看的相关性和可理解性。这种以患者为中心和基于指南的方法产生了一组最终的 300 个问题,涵盖了各种领域。然后将这些问题翻译成中文,确保适当使用常规和国际单位。

盲法和随机排序评估

为确保评分者无法区分不同 LLM 聊天机器人响应的来源,任何特定于聊天机器人的功能均已被手动隐藏。评估以盲法和随机排序的方式进行,来自三个聊天机器人的响应在问题集中随机排列。来自三个聊天机器人的响应被随机分配到 3 个回合,比例为 1:1:1,供三位心脏病专家进行盲法评估,回合之间有 48 小时的冲刷间隔,以减轻近因偏差。

准确性评估方法

主要结果是对主要 CVD 预防问题做出响应的性能。具体来说,使用两步法来评估响应。在第一步中,一组心脏病专家审查了所有 LLM 聊天机器人生成的响应,并根据专家共识和指南将其评为“适当”、“边缘”或“不适当”。在第二步中,采用多数共识方法,其中每个聊天机器人响应的最终评级基于三位评分者中最常见的评级。在三位评分者未能达成多数共识的情况下,将咨询一位高级心脏病专家以最终确定评级。

主要发现分析

数据显示,LLM 聊天机器人在处理英语提示时通常优于处理中文提示。具体来说,对于英语提示,BARD、ChatGPT-3.5 和 ChatGPT-4.0 显示出相似的总分。在比较“适当”评级的比例时,ChatGPT-4.0 的百分比明显高于 ChatGPT-3.5 和 Google Bard。对于中文提示,ChatGPT3.5 的总分较高,其次是 ChatGPT-4.0 和 Ernie。然而,这些差异在统计上并不显着。同样,与 ChatGPT-4.0 和 ERNIE 相比,ChatGPT-3.5 对中文提示的“适当评级”比例更高,但这些差异在统计上并不显着。

跨 CVD 预防领域的性能

分析的重点是跨不同 CVD 预防领域的“适当”评级。值得注意的是,ChatGPT-4.0 在大多数领域中始终表现良好,在“血脂异常”、“生活方式”、“生物标志物和炎症”以及“DM 和 CKD”领域中尤其获得高评级。然而,与 ChatGPT4.0 和 ChatGPT-3.5 相比,BARD 表现出次优的性能,尤其是在“生活方式”领域。调查结果强调,所有三个 LLM 聊天机器人都在“生活方式”领域表现出色,其“适当”评级为 100%(补充表 S6)。然而,在其他领域观察到性能差异,某些模型在特定预防领域表现出更高的疗效。

对健康素养的影响

该研究的发现对提高心血管健康素养的努力具有重要意义。随着人们越来越多地转向在线资源获取医疗信息,LLM 有可能成为增强对 CVD 预防的理解的有价值的工具。通过提供准确且易于访问的信息,LLM 可以弥合知识差距,并使个人能够就其健康做出明智的决定。

性能差异

该研究还揭示了 LLM 在不同语言中的性能存在显着差异。LLM 在处理英语提示时通常优于处理中文提示的发现凸显了这些模型中可能存在的语言偏差。解决此问题对于确保 LLM 为所有人提供公平的准确医疗信息访问至关重要,无论他们的母语是什么。

语言专用模型的作用

对 ERNIE 在中文中的性能分析为了解语言专用 LLM 的作用提供了宝贵的见解。ERNIE 在时间改进和正确性的自我意识方面的优势表明,针对特定语言量身定制的模型可以有效地解决语言细微差别和文化背景。进一步开发和改进语言专用 LLM 对于优化向不同人群提供医疗信息可能至关重要。

局限性和未来方向

虽然本研究为了解 LLM 在解决 CVD 预防查询方面的能力提供了宝贵的见解,但必须承认某些局限性。所使用的问题仅代表 CVD 预防方面的一小部分问题。调查结果的普遍性受到 随机响应的影响。此外,LLM 的快速发展需要持续的研究来适应更新的迭代和新兴模型。未来的研究应扩大问题的范围,探索与 LLM 的不同互动模式的影响,并调查其在医疗环境中使用所涉及的伦理考虑因素。

结论

总之,这些发现强调了 LLM 作为提高公众心血管健康理解的工具的前景,同时也强调需要仔细评估和持续改进,以确保准确性、公平性和负责任地传播医疗信息。前进的道路包括持续的比较评估、解决语言偏见以及利用语言专用模型的优势来促进公平获得准确和可靠的 CVD 预防指导。