心血管疾患予防における言語モデル性能の比較分析
大規模言語モデル(LLM)の台頭は、心血管疾患(CVD)予防に関する一般からの問い合わせに対応するための興味深い可能性を示唆しています。人間のような方法で理解し、応答する能力を持つこれらのモデルは、医療情報の情報源としてますます利用されるようになっています。しかし、特に異なる言語間での、提供する情報の信頼性と精度については疑問が残ります。本分析では、いくつかの主要なLLMの包括的な評価を行い、特に英語と中国語の両方でのCVD予防に関するクエリに対応する能力を検証します。
LLM性能の評価:精度と一貫性
私たちの主な目的は、CVD予防に関する質問が提示された場合に、主要なLLMによって提供される応答の精度を評価することでした。BARD(Googleの言語モデル)、ChatGPT-3.5およびChatGPT-4.0(OpenAIのモデル)、そしてERNIE(Baiduのモデル)に焦点を当てました。綿密に作成された75のCVD予防に関する質問セットを各LLMに提示し、応答は適切性(適切、境界線、または不適切として分類)に基づいて評価しました。
英語での性能
英語では、LLMは注目に値する精度を示しました。BARDは88.0%の「適切」評価を達成し、ChatGPT-3.5は92.0%、そしてChatGPT-4.0は97.3%という優れた評価を得ました。これらの結果は、LLMがCVD予防に関するガイダンスを求める英語話者のユーザーに貴重な情報を提供できることを示唆しています。
中国語での性能
分析は中国語のクエリにも拡張され、LLMの性能は異なりました。ERNIEは84.0%の「適切」評価を達成し、ChatGPT-3.5は88.0%、そしてChatGPT-4.0は85.3%に達しました。結果は一般的に良好でしたが、英語と比較して若干性能が低下していることも示しており、これらのモデルにおける潜在的な言語バイアスを示唆しています。
時間的改善と自己認識
初期精度を超えて、LLMが時間の経過とともに応答を改善する能力と、正確性に対する自己認識について調査しました。これには、最初に提供された最適とは言えない回答に対するモデルの反応を評価すること、そしてプロンプトが表示されたときにエラーを特定して修正できるかどうかをassessすることが含まれていました。
時間経過に伴う応答の強化
この分析により、LLMは時間的な改善を示すことが明らかになりました。最初に最適とは言えない応答が提示された場合、BARDとChatGPT-3.5はそれぞれ67%(6/9および4/6)改善しましたが、ChatGPT-4.0は完全な100%の改善率(2/2)を達成しました。これは、LLMがユーザーのインタラクションとフィードバックから学習し、時間の経過とともに、より正確で信頼性の高い情報につながることを示唆しています。
正確性の自己認識
応答の正確性を認識するLLMの能力も調べました。BARDとChatGPT-4.0はこの領域でChatGPT-3.5よりも優れており、提供された情報の正確性に対する自己認識が向上していることを示しています。この機能は、誤った情報が重大な結果を招く可能性がある医療分野では特に重要です。
ERNIEの中国語での性能
中国語プロンプトの分析により、ERNIEは時間的な改善と正確性の自己認識に優れていることが明らかになりました。これは、ERNIEがCVD予防ガイダンスを求める中国語話者のユーザーに正確で信頼性の高い情報を提供するのに適していることを示唆しています。
LLMチャットボットの包括的な評価
一般的で人気のあるLLMチャットボットを含む包括的な評価を確実にするために、この研究にはOpenAIのChatGPT-3.5およびChatGPT-4.0、GoogleのBARD、およびBaiduのERNIEという4つの主要なモデルが含まれていました。英語プロンプトの評価には、ChatGPT 3.5、ChatGPT 4、およびBARDが含まれていました。中国語プロンプトの場合、評価にはChatGPT 3.5、ChatGPT 4、およびERNIEが含まれていました。モデルは、分析中にこれらのパラメーターを調整せずに、デフォルト構成と温度設定で使用しました。
質問の生成とチャットボットの応答評価
American College of CardiologyとAmerican Heart Associationは、CVD予防のためのガイドラインと推奨事項を提供しており、リスクファクター、診断テスト、および治療の選択肢に関する情報、ならびに患者教育とセルフマネジメント戦略を網羅しています。 2人の経験豊富な心臓専門医がCVD予防に関する質問を生成し、患者の視点からの関連性と理解しやすさを確保するために、患者が医師に問い合わせる方法と同様に質問を組み立てました。この患者中心でガイドラインに基づいたアプローチにより、さまざまな領域をカバーする300の質問の最終セットが得られました。これらの質問はその後中国語に翻訳され、従来単位と国際単位の適切な使用が確保されました。
盲検化とランダムな順序付けられた評価
採点者が異なるLLMチャットボット間での応答の起源を区別できないようにするために、チャットボット固有の機能はすべて手動で隠蔽しました。評価は盲検化され、ランダムな順序で実施され、3つのチャットボットからの回答は質問セット内でランダムにシャッフルされました。 3つのチャットボットからの回答は、最近のバイアスを軽減するために、3人の心臓専門医による盲検化された評価のために、1:1:1の比率で3ラウンドにランダムに割り当てられ、ラウンドの間には48時間のウォッシュアウト間隔が設けられました。
精度評価方法
主要なアウトカムは、一次CVD予防の質問に回答する際のパフォーマンスでした。具体的には、2段階のアプローチを使用して応答を評価しました。最初のステップでは、心臓専門医のパネルがすべてのLLMチャットボットが生成した応答を確認し、専門家のコンセンサスとガイドラインに関連して、「適切」、「境界線」、または「不適切」のいずれかとして採点しました。 2番目のステップでは、多数決コンセンサスアプローチが利用され、各チャットボット応答の最終的な評価は、3人の採点者間で最も一般的なレーティングに基づいていました。 3人の採点者間で多数決コンセンサスに達することができなかったシナリオでは、上級心臓専門医に相談してレーティングを確定しました。
主要な調査結果の分析
データから、LLMチャットボットは中国語プロンプトよりも英語プロンプトで一般的に優れていることが明らかになりました。具体的には、英語プロンプトの場合、BARD、ChatGPT-3.5、およびChatGPT-4.0は同様の合計スコアを示しました。「適切」レーティングの割合を比較すると、ChatGPT-4.0はChatGPT-3.5およびGoogle Bardと比較して著しく高い割合を示しました。中国語プロンプトの場合、ChatGPT3.5の合計スコアが最も高く、次にChatGPT-4.0、そしてErnieが続きました。ただし、差は統計的に有意ではありませんでした。同様に、ChatGPT-3.5は中国語プロンプトに対して「適切」レーティングの割合が高く、ChatGPT-4.0およびERNIEと比較して高かったですが、差は統計的に有意ではありませんでした。
CVD予防ドメイン全体のパフォーマンス
分析では、さまざまなCVD予防ドメイン全体の「適切」レーティングに焦点が当てられました。驚くべきことに、ChatGPT-4.0はほとんどのドメインで一貫して優れたパフォーマンスを発揮し、特に「脂質異常症」、「ライフスタイル」、「バイオマーカーと炎症」、および「DMとCKD」ドメインで高いレーティングを獲得しました。ただし、BARDはChatGPT4.0およびChatGPT-3.5と比較して、特に「ライフスタイル」ドメインで最適とは言えないパフォーマンスを示しました。調査結果は、3つすべてのLLMチャットボットが「ライフスタイル」ドメインで優れたパフォーマンスを発揮し、100%の「適切」レーティングを示していることを強調しています(補足表S6)。ただし、パフォーマンスのばらつきは他のドメインで観察され、特定のモデルが特定の予防ドメインでより高い有効性を示しました。
ヘルスリテラシーへの影響
この研究の調査結果は、心血管ヘルスリテラシーを向上させるための取り組みに重要な影響を与えます。個人が医療情報を求めてオンラインリソースにますます目を向けるにつれて、LLMはCVD予防の理解を深めるための貴重なツールとして役立つ可能性があります。正確でアクセスしやすい情報を提供することで、LLMは知識のギャップを埋め、個人が自分の健康について情報に基づいた決定を下せるようにします。
パフォーマンスの格差
この研究では、異なる言語間でのLLMのパフォーマンスに大きな格差があることも明らかになりました。 LLMが中国語プロンプトよりも英語プロンプトで一般的に優れたパフォーマンスを発揮するという調査結果は、これらのモデルにおける言語バイアスの可能性を強調しています。この問題に対処することは、LLMが母語に関係なく、すべての人に正確な医療情報への公平なアクセスを提供するようにするために重要です。
言語固有のモデルの役割
中国語でのERNIEのパフォーマンスの分析は、言語固有のLLMの役割に関する貴重な洞察を提供します。時間的な改善と正確性の自己認識におけるERNIEの強みは、特定の言語に合わせて調整されたモデルが言語的なニュアンスと文化的背景に効果的に対処できることを示唆しています。多様な人口に医療情報を最適化するために、言語固有のLLMのさらなる開発と改良が不可欠となる可能性があります。
制限と今後の方向性
この研究では、CVD予防に関するクエリに対処する際のLLMの能力について貴重な洞察が得られますが、特定の制限を認めることが不可欠です。使用された質問はCVD予防に関する質問のごく一部を表していました。調査結果の一般化可能性は、確率的応答の影響を受けます。さらに、LLMの急速な進化には、更新されたイテレーションと新しいモデルに対応するための継続的な研究が必要です。今後の研究では、質問の範囲を拡大し、LLMとのさまざまなインタラクションパターンの影響を調査し、医療分野でのLLMの使用を取り巻く倫理的な考慮事項を調査する必要があります。
結論
結論として、これらの調査結果は、LLMが心血管の健康に関する一般の理解を深めるためのツールとしての有望性を示す一方で、正確性、公平性、および医療情報の責任ある普及を確保するための慎重な評価と継続的な改善の必要性を強調しています。今後の道筋には、継続的な比較評価、言語バイアスへの対処、および言語固有のモデルの強みを活用して、正確で信頼性の高いCVD予防ガイダンスへの公平なアクセスを促進することが含まれます。