全球与中国大语言模型在近视问题上的比较研究

引言:语言模型在医疗保健领域的演进

近年来,大型语言模型 (LLM) 的快速发展彻底改变了许多领域,包括医疗保健。这些复杂的人工智能系统经过大量数据集的训练,在自然语言处理方面表现出卓越的能力,能够以越来越高的准确性和流畅性理解、生成和处理人类语言。随着 LLM 越来越融入医疗保健环境,评估它们在不同语言和文化背景下的表现至关重要。

近视,或称近视眼,是一种普遍存在的屈光不正,影响着全球数百万人,尤其是在东亚。解决与近视相关的问题需要对该疾病、其风险因素和各种管理策略有细致的了解。鉴于人们越来越依赖 LLM 进行信息检索和决策支持,因此有必要评估它们在提供准确、全面和富有同情心的近视相关问题答复方面的能力,尤其是在具有独特文化和语言特征的地区。

本文深入探讨了全球和中国领域 LLM 在解决中国特定近视相关问题方面的比较性能分析。通过评估不同 LLM 生成的响应的准确性、全面性和同情心,本研究旨在揭示这些人工智能系统在特定文化背景下解决医疗保健查询方面的优势和局限性。

方法论:严谨的评估框架

为了进行全面客观的评估,我们采用了一种综合方法,包括选择合适的 LLM、制定相关查询以及建立严格的评估标准。

大型语言模型的选择

该研究纳入了各种 LLM,代表了全球和中国领域的模型。全球 LLM,如 ChatGPT-3.5、ChatGPT-4.0、Google Bard 和 Llama-2 7B Chat,主要接受以西方数据为主的大量数据集的训练。中国领域的 LLM,包括华佗 GPT、MedGPT、阿里通义千问、百度文心一言和百度文心4.0,专门接受中文数据的训练,这可能使它们更深入地了解中国特有的细微差别和文化背景。

中国特定近视问题的制定

我们精心制定了一组 39 个中国特定近视问题,涵盖与该疾病相关的 10 个不同领域。这些问题旨在解决近视的各个方面,包括其原因、风险因素、预防策略、治疗方案和潜在并发症。这些问题经过量身定制,以反映中国人口的独特特征和担忧,确保其在中国医疗保健环境中的相关性和适用性。

评估标准:准确性、全面性和同情心

根据三个关键标准评估 LLM 生成的响应:准确性、全面性和同情心。

  • 准确性: 使用 3 分制评估响应的准确性,根据其事实正确性以及与已建立的医学知识的一致性,将响应评为“好”、“一般”或“差”。
  • 全面性: 使用 5 分制进一步评估“好”评级响应的全面性,考虑其解决查询所有相关方面的程度,并提供对该主题的透彻解释。
  • 同情心: 还使用 5 分制评估“好”评级响应的同情心,评估其在多大程度上表现出对用户情感和心理需求的敏感性,并传达出理解和支持感。

专家评估和自我纠正分析

三位近视专家根据其临床经验和专业知识,仔细评估了响应的准确性,提供了他们独立的评估。对“差”评级响应进行了进一步的自我纠正提示,鼓励 LLM 重新分析查询并提供改进的响应。然后分析这些自我纠正尝试的有效性,以确定 LLM 从错误中学习并提高其性能的能力。

结果:揭示性能格局

比较性能分析的结果揭示了关于全球和中国领域 LLM 在解决中国特定近视相关问题方面的能力的一些关键发现。

准确性:顶端的激烈竞争

在准确性方面排名前三的 LLM 是 ChatGPT-3.5、百度文心4.0 和 ChatGPT-4.0,它们表现出相当的性能,具有很高比例的“好”响应。这些 LLM 表现出提供准确可靠的近视信息的强大能力,表明它们作为医疗保健信息检索的宝贵资源的潜力。

全面性:全球 LLM 处于领先地位

在全面性方面,ChatGPT-3.5 和 ChatGPT-4.0 成为表现最好的模型,其次是百度文心4.0、MedGPT 和百度文心一言。这些 LLM 表现出提供对近视相关主题的透彻和详细解释的卓越能力,解决了查询的所有相关方面,并提供了对主题的全面理解。

同情心:以人为本的方法

在同情心方面,ChatGPT-3.5 和 ChatGPT-4.0 再次领先,其次是 MedGPT、百度文心一言和百度文心4.0。这些 LLM 表现出更大的能力来表现出对用户情感和心理需求的敏感性,并在其响应中传达出理解和支持感。这突出了在为医疗保健应用开发 LLM 时纳入以人为本的设计原则的重要性。

自我纠正能力:有待改进

虽然百度文心4.0 没有收到任何“差”评级,但其他 LLM 表现出不同程度的自我纠正能力,增强范围从 50% 到 100%。这表明 LLM 可以从错误中学习并通过自我纠正机制提高其性能,但需要进一步研究来优化这些能力并确保一致可靠的改进。

讨论:解读发现

这项比较性能分析的发现为全球和中国领域 LLM 在解决中国特定近视相关问题方面的优势和局限性提供了宝贵的见解。

全球 LLM 在中文环境中表现出色

尽管主要接受非中文数据和英语训练,但 ChatGPT-3.5 和 ChatGPT-4.0 等全球 LLM 在中文环境中表现出最佳性能。这表明这些 LLM 具有显著的概括其知识并适应不同语言和文化环境的能力。它们的成功可以归因于它们庞大的训练数据集,其中包含广泛的主题和语言,使它们能够有效地处理和生成中文响应。

中国领域 LLM 提供语境理解

虽然全球 LLM 表现出强大的性能,但百度文心4.0 和 MedGPT 等中国领域 LLM 在解决近视相关问题方面也表现出显著的能力。这些 LLM 专门接受中文数据的训练,可能更深入地了解中国特有的细微差别和文化背景,从而使它们能够提供更相关和对文化敏感的响应。

准确性、全面性和同情心的重要性

准确性、全面性和同情心的评估标准在评估 LLM 的整体性能方面发挥了关键作用。准确性在医疗保健应用中至关重要,因为不准确的信息可能会产生严重的后果。全面性确保用户对该主题有透彻的了解,使他们能够做出明智的决定。同情心对于建立与用户的信任和融洽关系至关重要,尤其是在敏感的医疗保健环境中。

未来方向:增强医疗保健的 LLM

这项研究的发现突出了 LLM 作为医疗保健信息检索和决策支持宝贵资源的潜力。但是,需要进一步的研究和开发来增强它们的能力并解决它们的局限性。

  • 扩展训练数据集: 扩展 LLM 的训练数据集以包含更多样化和与文化相关的数据可以提高它们在特定语言和文化环境中的性能。
  • 纳入医学知识: 将医学知识和指南纳入 LLM 的训练过程可以提高它们的准确性和可靠性。
  • 改进自我纠正机制: 优化自我纠正机制可以使 LLM 能够从错误中学习并随着时间的推移提高其性能。
  • 增强同情心和以人为本的设计: 纳入以人为本的设计原则可以增强 LLM 的同情心和用户友好性,使它们更易于访问并有效地用于医疗保健应用。

结论

这项比较性能分析为全球和中国领域 LLM 在解决中国特定近视相关问题方面的能力提供了宝贵的见解。结果表明,全球和中国领域 LLM 都可以为近视相关问题提供准确、全面和富有同情心的响应,尽管全球 LLM 主要使用非中文数据进行训练,但在中文环境中表现出色。这些发现突出了 LLM 作为医疗保健信息检索和决策支持宝贵资源的潜力,但需要进一步的研究和开发来增强它们的能力并解决它们的局限性。随着 LLM 的不断发展,评估它们在不同语言和文化环境中的性能至关重要,以确保它们在各种医疗保健环境中的有效性和适用性。