心血管預防導航:語言模型效能比較分析

語言模型效能評估:準確性與一致性

我們的主要目標是評估主要 LLM 在處理與 CVD 預防相關問題時的回應準確性。我們專注於 BARD(Google 的語言模型)、ChatGPT-3.5 和 ChatGPT-4.0(OpenAI 的模型)以及 ERNIE(Baidu 的模型)。向每個 LLM 提出了一組 75 個精心設計的 CVD 預防問題,並根據其適當性(分為適當、邊緣或不適當)評估反應。

英文語言效能

在英文語言中,LLM 表現出顯著的準確性。BARD 取得了 88.0% 的「適當」評級,ChatGPT-3.5 的評分為 92.0%,而 ChatGPT-4.0 的評分則高達 97.3%。這些結果表明,LLM 可以為尋求 CVD 預防指導的英語使用者提供有價值的信息。

中文語言效能

該分析擴展到中文語言查詢,其中 LLM 的效能各不相同。ERNIE 取得了 84.0% 的「適當」評級,ChatGPT-3.5 的評分為 88.0%,而 ChatGPT-4.0 的評分則達到 85.3%。雖然結果總體上是積極的,但它們也表明與英語相比,效能略有下降,表明這些模型中可能存在潛在的語言偏見。

時效性改善與自我感知

除了初始準確性之外,我們還研究了 LLM 隨著時間的推移改善其回應的能力以及其對正確性的自我感知。這涉及評估模型如何回應最初提供的次優答案,以及它們是否可以在提示時識別和糾正錯誤。

隨著時間的推移增強回應

分析顯示 LLM 表現出時效性改善。當提供最初次優的回應時,BARD 和 ChatGPT-3.5 分別提高了 67%(分別為 6/9 和 4/6),而 ChatGPT-4.0 的實現了完美的 100% 改善率 (2/2)。這表明 LLM 會從使用者互動和反饋中學習,從而隨著時間的推移提供更準確和可靠的信息。

正確性自我感知

我們還檢查了 LLM 識別其回應正確性的能力。BARD 和 ChatGPT-4.0 在此領域的表現優於 ChatGPT-3.5,展現出對其提供信息的準確性更好的自我感知。此功能在醫療環境中尤其有價值,因為不正確的信息可能會造成嚴重後果。

ERNIE 在中文的表現

對中文提示的分析顯示,ERNIE 在時效性改善和正確性的自我感知方面表現出色。這表明 ERNIE 非常適合向尋求 CVD 預防指導的中文使用者提供準確可靠的信息。

LLM 聊天機器人的全面評估

為了確保包含常見和流行的 LLM 聊天機器人的全面評估,本研究包括四種主要模型:OpenAI 的 ChatGPT-3.5 和 ChatGPT-4.0、Google 的 BARD 以及 Baidu 的 ERNIE。英語提示的評估涉及 ChatGPT 3.5、ChatGPT 4 和 BARD;對於中文提示,評估涉及 ChatGPT 3.5、ChatGPT 4 和 ERNIE。這些模型以其默認配置和溫度設置使用,在分析期間沒有對這些參數進行調整。

問題生成與聊天機器人回應評估

美國心臟病學會和美國心臟協會提供 CVD 預防的指南和建議,包括關於風險因素、診斷測試和治療方案的信息,以及患者教育和自我管理策略。兩位經驗豐富的心臟病專家生成了與 CVD 預防相關的問題,並以類似於患者向醫生提問的方式構建它們,以確保從患者的角度來看相關性和可理解性。這種以患者為中心和基於指南的方法產生了最終涵蓋各種領域的 300 個問題。然後將這些問題翻譯成中文,確保正確使用常規和國際單位。

盲法和隨機排序的評估

為了確保評分者無法區分不同 LLM 聊天機器人間回應的來源,我們手動隱藏了任何聊天機器人特定的特徵。評估以盲法和隨機排序的方式進行,來自三個聊天機器人的回應在問題組中隨機洗牌。來自三個聊天機器人的回應隨機分配到 3 輪,比例為 1:1:1,由三位心臟病專家進行盲法評估,每輪之間有 48 小時的清洗期,以減輕近因偏差。

準確性評估方法

主要結果是對主要 CVD 預防問題的回應效能。具體而言,採用兩步方法來評估回應。在第一步中,一個心臟病專家小組審查了所有 LLM 聊天機器人生成的回應,並根據專家共識和指南將其評為「適當」、「邊緣」或「不適當」。在第二步中,採用多數共識方法,其中每個聊天機器人回應的最終評等基於三位評分者中最常見的評等。在三位評分者之間無法達成多數共識的情況下,我們會諮詢一位資深心臟病專家來最終確定評等。

關鍵發現分析

數據顯示,LLM 聊天機器人在處理英語提示時通常比處理中文提示時表現更好。具體而言,對於英語提示,BARD、ChatGPT-3.5 和 ChatGPT-4.0 表現出相似的總分。在比較「適當」評等的比例時,ChatGPT-4.0 的百分比較 ChatGPT-3.5 和 Google Bard 顯著更高。對於中文提示,ChatGPT3.5 的總分更高,其次是 ChatGPT-4.0 和 Ernie。然而,這些差異在統計上並不顯著。同樣,與 ChatGPT-4.0 和 ERNIE 相比,ChatGPT-3.5 對於中文提示具有更高的「適當評等」比例,但這些差異在統計上並不顯著。

CVD 預防領域的效能

該分析側重於不同 CVD 預防領域的「適當」評等。值得注意的是,ChatGPT-4.0 在大多數領域中一直表現良好,在「血脂異常」、「生活方式」、「生物標記和炎症」以及「DM 和 CKD」領域中評等特別高。然而,與 ChatGPT4.0 和 ChatGPT-3.5 相比,BARD 的表現不佳,尤其是在「生活方式」領域。研究結果表明,所有三個 LLM 聊天機器人在「生活方式」領域中表現良好,具有 100% 的「適當」評等(補充表 S6)。然而,在其他領域中觀察到效能的變化,一些模型在特定的預防領域中表現出更大的功效。

對健康素養的影響

該研究的發現對提高心血管健康素養的工作具有重要意義。隨著個人越來越多地轉向在線資源獲取醫療信息,LLM 有可能成為增強對 CVD 預防理解的有價值工具。通過提供準確和易於訪問的信息,LLM 可以彌合知識差距,並使個人能夠就其健康做出明智的決定。

效能差異

該研究還揭示了 LLM 在不同語言中的效能存在顯著差異。LLM 在處理英語提示時通常比處理中文提示時表現更好,這一發現突顯了這些模型中存在語言偏見的可能性。解決此問題對於確保 LLM 為所有人提供公平的準確醫療信息訪問至關重要,無論其母語是什麼。

語言特定模型的作用

對 ERNIE 在中文方面的表現的分析提供了對語言特定 LLM 作用的寶貴見解。ERNIE 在時效性改善和正確性的自我感知方面的優勢表明,為特定語言量身定制的模型可以有效地解決語言細微差別和文化背景。進一步開發和完善語言特定的 LLM 對於優化向不同人群提供醫療信息可能至關重要。

局限性與未來方向

雖然本研究提供了對 LLM 在解決 CVD 預防查詢方面的能力的寶貴見解,但重要的是要承認某些局限性。使用的問題僅代表了 CVD 預防問題的一小部分。發現的普遍性受到隨機回應影響。此外,LLM 的快速發展需要持續的研究才能適應更新的迭代和新興模型。未來的研究應擴大問題的範圍,探索與 LLM 的不同互動模式的影響,並調查在其醫療環境中使用中涉及的倫理考量。

結論

總之,這些發現強調了 LLM 作為增強公眾對心血管健康理解的工具的希望,同時也強調需要仔細評估和持續完善,以確保醫療信息的準確性、公平性和負責任的傳播。前進的道路包括持續的比較評估、解決語言偏見以及利用語言特定模型的優勢來促進公平訪問準確可靠的 CVD 預防指導。