AIの医学教育での役割:トルコ医学試験評価

序論

近年、人工知能(AI)や大規模言語モデル(LLM)などの技術進歩は、医学教育や知識評価の方法に潜在的な変革をもたらしています。特に、これらの進展は医学情報へのアクセスを容易にし、評価をよりインタラクティブなものにする可能性があります。

これまでの研究では、米国医師免許試験(USMLE)や日本医師免許試験(JMLE)など、様々な医学免許試験におけるLLMの性能が調査されてきましたが、これらの試験は、構造や内容においてTUSとは著しく異なります。TUSは、基礎科学と臨床科学に焦点を当て、特にトルコの医学的背景に注目しているため、LLMが独自の評価環境でどの程度機能するかを評価する上で、またとない機会となります。本研究は、主要なLLM4種についてTUSにおける性能を評価することで、このギャップを埋めることを目的としています。さらに、本研究では、これらの発見がカリキュラム設計、AI支援医学トレーニング、およびトルコにおける医学評価の将来に及ぼす潜在的な影響について検討します。具体的には、LLMの性能が、トルコの医学カリキュラムに合わせてカスタマイズされた、より効果的な教育リソースや評価戦略の開発にどのように役立つかを調査します。この調査は、特定の言語の性能を理解するのに役立つだけでなく、グローバルな医学教育や評価にAIを効果的に統合する方法についてのより広範な議論にも貢献します。

これらの研究の結果は、ChatGPTや同様のLLMが医学教育や知識評価のプロセスにおいて重要な役割を果たすことができることを示唆しています。医学情報の検索や評価方法におけるAIやLLMは、特に医学教育において、革新的なアプローチや学習方法の開発を可能にします。本研究は、ChatGPT 4、Gemini 1.5 Pro、Cohere-Command R+がトルコ医学専門研修入学試験でどの程度機能するかを評価することにより、医学教育や知識評価に対するLLMの影響をさらに調査することを目的としています。

本研究では、高度な人工知能(AI)モデル(特にChatGPT 4、Gemini 1.5 Pro、Command R+、Llama 3 70B)の医学教育や評価における応用について、医学専門試験の問題を解決する上でのそれらの性能に重点を置いて検討します。本研究では、これらのモデルがトルコ医学専門研修入学試験の問題について、包括的かつ体系的な分析を行う能力を評価し、解釈能力や正確性などの要素を考慮する際に、医学におけるAIの可能性を強調しています。研究結果は、AIモデルが医学教育や評価プロセスを著しく促進し、新しい応用や研究分野への道を切り開く可能性があることを示唆しています。この記事の主な目的は、AI技術の急速な進歩を評価し、異なるAIモデルの応答能力を比較することです。本研究では、2021年のトルコ医学専門研修入学試験の第1学期における240問の問題について、ChatGPT 4、Gemini 1.5 Pro、Command R+、Llama 3 70Bの比較分析を実施しました。

この比較は、AI技術の進歩の軌跡と、医学教育や試験対策などの専門分野におけるその有用性に焦点を当てて、違いを明らかにすることを目的としています。最終的な目標は、ユーザーが特定のニーズに最適な学習ツールを選択するのに役立つ洞察を提供することです。

方法

問題は、LLMに対してトルコ語で提示されました。問題は、学生選抜配置センターの公式ウェブサイトから入手し、多肢選択形式(AからEの5つの選択肢)を採用し、正解は1つのみです。解答は、LLMによってトルコ語で提供されました。

評価プロセスは、学生選抜配置センターが公開した正解に基づいて行われました。記事には、「人工知能モデルの問題に対する「正解」は、学生選抜配置センターが公開した解答に従って定義されます。問題文中の指示に従って正しいと判断された解答のみが「正解」として認められます。」と記載されています。問題と解答はどちらもトルコ語であるため、評価プロセスでは、LLMのトルコ語の解答と、学生選抜配置センターが提供する公式のトルコ語の解答キーを比較することが含まれます。

医学教育データセット

本研究では、ChatGPT 4、Gemini 1.5 Pro、Command R+、Llama 3 70Bを使用して、医学知識および事例の評価における人工知能モデルの能力をテストしました。本研究は、2021年3月21日に実施されたトルコ医学専門研修入学試験の問題について行われました。トルコ医学専門研修入学試験は、学生選抜配置センターによって実施される試験であり、240問が含まれています。第1カテゴリーの基礎知識問題は、医学教育を修了するために必要な知識と倫理をテストします。第2カテゴリーは事例問題であり、分析的思考と推論能力を測定する多くの疾患を網羅しています。

問題難易度分類

問題の難易度は、学生選抜配置センターが公開している公式の受験者の成績データに基づいて分類されました。具体的には、センターが報告した各問題の正答率を使用して、問題を5つの難易度に分類しました。

  • レベル1(最も簡単):正答率が80%以上の問題。
  • レベル2:正答率が60%から79.9%の問題。
  • レベル3(中程度):正答率が40%から59.9%の問題。
  • レベル4:正答率が20%から39.9%の問題。
  • レベル5(最も難しい):正答率が19.9%以下の問題。

人工知能モデルの問題に対する「正解」は、学生選抜配置センターが公開した解答に従って定義されます。問題文中の指示に従って正しいと判断された解答のみが「正解」として認められます。さらに、各問題の難易度は、学生選抜配置センターが公開している正答率に基づいて、レベル1から5に分類されました。正答率が80%以上の問題は最も簡単(レベル1)と見なされ、正答率が19.9%以下の問題は最も難しい(レベル5)と見なされました。

知識領域と事例領域

トルコ医学専門研修入学試験は、トルコの医学部卒業生が専門化するための重要なステップであり、受験者の知識と事例領域の2つの重要な領域における能力を評価します。これらの領域の違いを理解することは、十分な準備をするために不可欠です。知識領域は、受験者が選択した医学分野における理論的理解と事実的知識を評価することに焦点を当てています。基本的な概念と原則の習得度をテストし、専門分野に関連する医学情報を確立します。基礎医学(解剖学、生化学、生理学など)および臨床科学(内科、外科、小児科など)などの特定の医学知識分野を表します。一方、事例領域は、問題解決、分析的思考、批判的思考、意思決定、および概念を実際の状況に適用するなど、知識を応用する現実のシナリオまたは状況を表します。

プロンプトエンジニアリング

プロンプトエンジニアリングは、言語モデルまたはAIシステムから特定の応答を得るために、自然言語プロンプトを設計および微調整することです。2024年4月には、それぞれのWebインターフェースから言語モデルに直接クエリを実行して、応答を収集しました。

各モデルの元の能力を公平に評価するために、LLMに問題を提示する方法において厳格な方法論的制御が実施されました。各問題は個別に入力され、モデルが以前のやり取りに基づいて学習または適応するのを防ぐために、新しい問題を提示する前にセッションをリセットしました。

データ分析

すべての分析は、Microsoft Office ExcelおよびPythonソフトウェアを使用して実行されました。異なる問題の難易度におけるLLMの性能を比較するために、非ペアのカイ二乗検定が実行されました。統計的有意性を判断するために、p < 0.05の_p_値の閾値を使用しました。この分析では、モデルの精度が問題の難易度によって異なるかどうかを評価しました。

倫理的考慮事項

本研究では、インターネット上で公開されている情報のみを使用し、人間の被験者は含まれていません。したがって、Baskent University倫理委員会の承認は必要ありませんでした。

結果

2021年のトルコ医学専門研修入学試験の第1期基礎医学試験を受験した受験者の平均正答数は51.63でした。臨床医学試験の平均正答数は63.95でした。臨床医学試験の平均正答数は、基礎医学試験よりも高くなっています。この状況と並行して、人工知能技術は臨床医学試験の解答にもより成功しています。

AIの性能

AIプラットフォームの性能は、人間の受験者と同じ指標を使用して評価されました。

  • ChatGPT 4

    ChatGPT 4は、基礎医学セクションで103点の平均スコア、臨床医学セクションで110点の平均スコアを獲得しました。これは、全体的な精度が88.75%であることを示しており、両方のセクションにおける平均的な人間の受験者よりも大幅に優れています(p < 0.001)。

  • Llama 3 70B

    Llama 3 70Bは、基礎医学セクションで95点の平均スコア、臨床医学セクションで95点の平均スコアを獲得しました。これは、全体的な精度が79.17%であることを示しており、平均的な人間の性能よりも大幅に優れています(p < 0.01)。

  • Gemini 1.5 Pro

    Gemini 1.5 Proは、基礎医学セクションで94点の平均スコア、臨床医学セクションで93点の平均スコアを獲得しました。これは、全体的な精度が78.13%であることを示しており、平均的な人間の性能よりも大幅に優れています(p < 0.01)。

  • Command R+

    Command R+は、基礎医学セクションで60点の平均スコア、臨床医学セクションで60点の平均スコアを獲得しました。これは、全体的な精度が50%であることを示しており、基礎医学セクションにおける平均的な人間の性能とは有意差はありません(p = 0.12)が、臨床医学セクションでは有意に低くなっています(p < 0.05)。

AIプラットフォームの性能は、人間の受験者と同じ指標を使用して評価されました。

図3は、問題の難易度による異なるLLMの精度を比較しています。ChatGPT 4:最高の性能を示すモデル。問題の難易度が増すにつれて精度が増加し、最も難しい問題でも70%近くになります。Llama 3 70B:中程度の性能を示すモデル。問題の難易度が増すにつれて精度が増加してから減少します。最も難しい問題では、その精度は約25%です。Gemini 1.5 70B:その性能はLlama 3 70Bに似ています。問題の難易度が増すにつれて精度が増加してから減少します。最も難しい問題では、その精度は約20%です。Command R+:最も低い性能を示すモデル。その精度は問題の難易度が増すにつれて減少し、最も難しい問題では約15%にとどまります。

要するに、ChatGPT 4は問題の難易度の影響を最も受けないモデルであり、全体的な精度が最も高くなっています。Llama 3 70BとGemini 1.5 Proは中程度の性能を示し、Command R+の成功率は他のモデルよりも低くなっています。問題の難易度が増すにつれて、モデルの精度は低下します。これは、LLMが複雑な問題を理解して正しく解答するには、まだ改善の余地があることを示唆しています。

表1では、ChatGPT 4モデルが88.75%の成功率で傑出しており、最高の性能を示すモデルとなっています。これは、問題を理解して正確に解答する確かな能力を持っていることを示しています。Llama 3 70Bモデルは、79.17%の成功率で2位にランクインしています。ChatGPT 4モデルには及ばないものの、問題に解答する高いレベルの熟練度を示しています。Gemini 1.5 Proモデルは、78.13%の成功率でそれに続いています。その性能はLlama 3 70Bモデルに匹敵し、強力な問題解答能力を示唆しています。一方、Command R+モデルは他のモデルに遅れをとっており、50%の成功率となっています。これは、特定の問題で苦労している可能性があり、性能を向上させるためにさらなる微調整が必要であることを示唆しています。難易度の異なるレベルにおける正解の分布。たとえば、すべてのモデルは簡単な問題(難易度レベル1)で良好な性能を示しており、ChatGPT 4モデルは完璧なスコアを獲得しています。中程度の難易度の問題(レベル2および3)では、ChatGPT 4とLlama 3 70Bモデルは引き続き良好な性能を示しています。

対照的に、Gemini 1.5 Proモデルはいくつかの弱点を示し始めています。難しい問題(レベル4および5)では、すべてのモデルの性能が低下しており、Command R+モデルが最も苦労しています。全体として、これらの結果は、各AIモデルの強みと弱みを理解するための貴重な洞察を提供し、将来の開発および改善作業に役立ちます。

表3では、基礎医学における生化学がChatGPT 4の完璧なスコアを獲得しており、この分野で問題に解答する優れた能力を証明しています。Llama 3 70BとGemini 1.5 Proも良好な性能を示していますが、Command R+は50%の精度で性能が劣っています。薬理学、病理学、微生物学において最高の性能を示すモデル(ChatGPT 4とLlama 3 70B)は、強力な情報の整合性を示しており、精度は81%から90%の間です。Gemini 1.5 ProとCommand R+は遅れをとっていますが、それでも良好な性能を示しています。解剖学と生理学は、モデルにいくつかの課題をもたらしました。ChatGPT 4とMeta AI-Llama 3 70Bは良好な性能を示していますが、Gemini 1.5 ProとCommand R+は70%未満の精度で性能が劣っています。

臨床医学における小児科は、すべてのモデルにとって重要であり、ChatGPT 4はほぼ完璧なスコア(90%)を獲得しています。Llama 3 70Bがそれに続いており、Command R+でさえ43%の精度を実現しています。内科と一般外科の性能は、最高のモデルよりも優れており、精度は79%から90%の間です。Gemini 1.5 ProとCommand R+は遅れをとっていますが、それでも良好な性能を示しています。麻酔と蘇生、救急医療、神経学、皮膚科学などの専門分野から提出された問題は少なくなっていますが、モデルは全体的に良好な性能を示しています。ChatGPT 4とLlama 3 70Bは、これらの分野で優れた精度を示しています。

モデルの比較に関して、ChatGPT 4はほとんどの分野で最高の性能を示すモデルであり、全体的な精度は88.75%です。その強みは、基礎医学と臨床医学の両方の問題を正確に解答できることです。Llama 3 70Bは、全体的な精度が79.17%でそれに続いています。ChatGPT 4の性能には完全には匹敵しないものの、すべての分野で強力な知識の整合性を示しています。Gemini 1.5 ProとCommand R+は遅れをとっており、全体的な精度はそれぞれ78.13%と50%です。特定の分野では有望な結果を示しているものの、すべての分野で一貫性を維持するのに苦労しています。

要するに、ChatGPT 4は現在、さまざまな分野の医学科学の問題に解答するのに最も適したモデルです。Gemini 1.5 ProとCommand R+は潜在能力を示していますが、最高の性能を示すモデルと競争するには大幅な改善が必要です。

表4では、知識領域に関して、ChatGPT 4は基礎医学において86.7%(85/98)の精度を示しており、他のモデルよりも優れています。ChatGPT 4は、臨床医学においても89.7%(61/68)の精度で再び最高の性能を示しています。事例領域に関して、ChatGPT 4は基礎医学において81.8%(18/22)の精度を示しています。臨床医学では、ChatGPT 4は同様の性能を示しており、精度は94.2%(49/52)です。

モデルのペアごとの比較では、ChatGPT 4が両方の領域と問題の種類において、他のモデルよりも大幅に優れていることが示されています。Llama 3 70BとGemini 1.5 Proは同様の性能を示しており、Command R+は遅れをとっています。この分析に基づいて、ChatGPT 4は知識領域と事例領域の両方、および基礎医学と臨床医学の両方において優れた性能を示していると結論付けることができます。

統計分析

LLMの性能は、Microsoft Office ExcelおよびPython(バージョン3.10.2)を使用して分析されました。異なる問題の難易度におけるモデルの性能を比較するために、非ペアのカイ二乗検定が実行されました。各AIモデルの正解と不正解について、難易度で分類された分割表を作成し、カイ二乗検定を適用して、難易度全体で性能に統計的に有意な差があるかどうかを判断しました。統計的有意性を判断するために、<0.05の_p_値の閾値を使用しました。ChatGPT 4の_p_値は0.00028であり、p < 0.05で有意であり、難易度全体で性能に有意な差があることを示しています。Gemini 1.5 Proの_p_値は0.047であり、p < 0.05で有意であり、難易度全体で性能に有意な差があることを示しています。Command R+の_p_値は0.197であり、p < 0.05で有意ではなく、難易度全体で性能に有意な差がないことを示しています。Llama 3 70Bの_p_値:0.118、_p_値:0.118であり、p < 0.05で有意ではなく、難易度全体で性能に有意な差がないことを示しています。

ChatGPT 4とGemini 1.5 Proの異なる問題の難易度における正答率は、統計的に有意な差を示しており、それらの性能が問題の難易度によって大きく変化することを示しています。Command R+とLlama 3 70Bは、難易度において有意な性能差を示していませんが、これは問題の難易度に関係なく、性能が一貫していることを示唆しています。これらの結果は、異なるモデルが異なる難易度に関連する複雑さや主題を処理する上で、異なる強みと弱みを持っている可能性があることを示唆しています。

考察

TUSは、トルコの医学部卒業生が専門的なトレーニングを追求するための重要な国家試験です。この試験は、基礎科学と臨床科学を網羅する多肢選択問題で構成されており、専門的なコースのランキングを決定する集中的なランキングシステムを備えています。

大規模言語モデルのTUSにおける性能を評価する際には、GPT-4が最高の性能を示すモデルでした。同様に、ChatGPTは強力なAIモデルであり、外科の分野で人間レベルに近い、または人間レベルを超える性能を発揮しており、それぞれ71%と68%の多肢選択問題SCOREおよびData-Bに正しく解答しています。さらに、ChatGPTは公衆衛生試験で優れた成績を収めており、現在の合格率を上回り、独自の洞察を提供しています。これらの発見は、GPT-4とChatGPTが医学評価において優れた性能を発揮し、医学教育を強化し、潜在的な診断補助を支援する可能性を示しています。

医学教育者や試験官にとって、LLMの精度が向上していることは、試験の設計と評価に関する重要な問題を提起しています。AIモデルが標準化された医学試験を高精度で解決できる場合、将来の評価では、単純な暗記を超えた高次の推論と臨床判断の問題を組み込む必要があるかもしれません。さらに、トルコの医学機関は、学生の個々のニーズに合わせて学習教材をカスタマイズする適応学習システムなど、AI支援教育戦略を検討することができます。

国家的な視点から見ると、本研究はトルコの医学教育におけるAIの重要性が高まっていることを浮き彫りにしています。これらのLLMはトルコ語の医学問題で優れた成績を収めているため、サービスが行き届いていない地域の学生が質の高い教育リソースにアクセスする際のギャップを埋めることができます。さらに、政策立案者は、AIモデルをトルコの医療専門家向けの継続的な医学教育および生涯学習プログラムに統合する方法を検討する必要があります。

結論として、ChatGPT-4などのAIモデルは並外れた精度を示していますが、医学教育におけるその役割は慎重に評価する必要があります。AI支援学習の潜在的な利点は非常に大きいものの、適切な実施には、これらのツールが責任ある倫理的な方法で使用され、人間の専門知識と組み合わせて使用されるようにする必要があります。

限界

本研究では、大規模言語モデル(LLM)がトルコ医学専門研修入学試験(TUS)でどの程度機能するかについて貴重な洞察を提供していますが、研究結果を背景に置き、今後の研究を指導するために、いくつかの重要な限界を認識する必要があります。まず、本研究で評価したAIモデルのトレーニングデータにTUSの問題が含まれているかどうかは不明です。過去のTUSの問題は公開されているため、本研究で使用された問題はモデルのトレーニングデータの一部である可能性があります。これにより、モデルの性能が真の理解を反映しているのか、それとも特定の問題を単に記憶しているのかという懸念が生じます。今後の研究では、AIモデルが真の推論能力を示しているのか、それとも記憶された情報に依存しているのかを評価する方法を開発する必要があります。

次に、AIモデルは、トレーニングデータに起因するバイアスを示す可能性があります。これらのバイアスは、トレーニングデータにおける特定の医学的状態、人口、または視点の表現の不均衡に起因する可能性があります。たとえば、各言語で利用できるトレーニングデータの量と質に違いがあるため、モデルのトルコ語での性能は英語とは異なる可能性があります。さらに、これらのモデルは、トルコの地域医療慣行または文化的背景を理解する必要がある問題に解答する際には、あまり正確ではない可能性があります。これらのバイアスは、研究結果の普遍性を制限し、医学教育や実践におけるAIの使用に関する倫理的な懸念を引き起こす可能性があります。

3つ目の限界は、本研究が多肢選択問題にのみ焦点を当てていることです。現実の臨床診療では、医療専門家は、複雑な症例を推論したり、曖昧な所見を解釈したり、不確実性の中で意思決定を行うなどのスキルを持っている必要があります。さらに、診断、治療オプション、およびリスクを明確かつ思いやりのある方法で患者および同僚に伝える能力は非常に重要です。AIモデルがこれらのタスクを実行する能力はテストされておらず、その能力は現在の設計とトレーニングによって制限される可能性があります。今後の研究では、臨床症例シミュレーションや自由形式の評価など、より現実的な状況でAIモデルを評価する必要があります。

4番目の限界は、本研究に自由形式の問題が含まれていないことです。自由形式の問題は、批判的思考、情報統合、臨床推論などの高次の認知スキルを評価するために不可欠です。これらのタイプの問題には、リストから正しいオプションを選択するだけでなく、一貫性があり、文脈に関連した応答を生成する能力が必要です。AIモデルがこのようなタスクで発揮する性能は、多肢選択問題で発揮する性能とは大きく異なる可能性があり、これは今後の研究の重要な分野となります。

5番目の限界は、AIモデルが時間制限の下でテストされていないことです。人間の受験者は、試験中に厳しい時間制限を受け、パフォーマンスに影響を与える可能性があります。対照的に、本研究のAIモデルは時間制限を受けなかったため、時間制限のある環境のプレッシャーを受けずに