AI革新醫學教育:皮膚科培訓轉型

大型語言模型(LLMs)在醫學教育中的崛起

醫學教育領域不斷演進,以適應新一代醫學生和住院醫師不斷變化的需求。隨著科技的持續進步,這些有抱負的醫師越來越多地接觸到各種可以補充他們學習的數位工具。在這些技術中,大型語言模型(LLMs)已成為一個特別有希望的領域,因其卓越的計算能力而備受關注。

LLMs 是一種機器學習模型,經過對來自不同來源的大量文本資料的訓練。這種廣泛的訓練使它們能夠透過合成和應用從其處理的龐大資料集中收集的集體見解來執行高度專業化的任務。即使沒有在醫學領域進行明確的訓練,像 OpenAI 的 GPT 這樣的通用模型也已經在臨床環境中展現出令人印象深刻的性能,暗示了 LLMs 在醫學領域的巨大潛力。

釋放合成教育的潛力

LLMs 由於其快速有效地生成新內容的能力,在醫學教育中提供了前所未有的效用。雖然人們對將 LLMs 應用於各種醫學教育任務非常感興趣,但關於 LLM 指導的教育倡議在現實世界情境中的表現的研究有限。在該領域中,LLMs 一個特別有前途但尚未充分探索的應用是臨床案例的生成。

臨床案例是現代醫學教育的重要組成部分,構成了 USMLE 考題和臨床前期基於案例教學的重要組成部分。這些案例透過呈現實際情境來對醫學知識進行情境化,從而評估學習者的診斷推理、管理策略的優先排序以及對社會心理因素的理解。透過模擬複雜而細緻的醫療實踐,案例為未來的醫師提供了寶貴的培訓。

傳統上,臨床案例的來源是專業協會、教職員工創建的內部資料或商業上可用的題庫。然而,這些案例的創建是一個勞力密集型過程,需要經驗豐富的醫師的大量投入。雖然這些來源提供了一定程度的品質控制,但這些材料的可訪問性和數量可能因不同的機構和學生的社會經濟背景而有很大差異。此外,案例的有限可用性引起了人們對 USMLE 管理中考題重複的擔憂。

使用 LLMs 革新皮膚科教育

雖然皮膚科的醫學教學在很大程度上依賴於視覺評估,但對疾病過程進行情境化的整體臨床表現同樣至關重要。像 USMLE 這樣的標準化考試通常使用基於文本的案例來評估對皮膚和軟組織病理學的知識。此外,用於描述皮膚病灶的特定術語對於準確診斷和治療皮膚疾病至關重要。

LLMs 提供了一個獨特的機會來擴大醫學教育中常見皮膚科疾病的基於文本的案例的可用性。目前的現成 LLMs,例如 GPT,提供了擴展初始臨床案例的靈活性,可以根據學生提出進一步問題時的個人需求進行調整。在我們的研究中,我們評估了使用 GPT 4.0(OpenAI 最新的公開可用基礎模型)生成用於醫學教育的高品質臨床案例的可行性。

評估 GPT-4 的性能

為了評估 GPT-4 在生成臨床案例方面的性能,我們專注於 USMLE Step 2 CK 考試中常見的 20 種皮膚和軟組織疾病。我們提示模型為每種疾病創建詳細的臨床案例,包括對最可能診斷的解釋以及為什麼替代診斷不太可能。然後,由一個醫師專家小組使用李克特量表評估這些案例的科學準確性、全面性、整體品質、潛在的臨床危害和人口統計偏差。

案例特性

我們對 20 個臨床案例的分析揭示了幾個關鍵特徵:

  • 患者人口統計: 這些案例包括 15 名男性患者和 5 名女性患者,患者年齡中位數為 25 歲。僅指定了 4 名患者的種族(3 名高加索人,1 名非洲裔美國人)。通用名稱用於 3 名患者,而其餘案例未包括名稱。

  • 字數統計: 該模型輸出的平均字數為 332.68,標準差為 42.75 個字。臨床案例部分的平均字數為 145.79 個字(SD = 26.97),而解釋部分的平均字數為 184.89 個字(SD = 49.70)。平均而言,解釋比其相應的案例更長,案例與解釋的長度比率為 0.85(SD = 0.30)。

醫師評分

醫師專家的評分表明與科學共識高度一致(平均值 = 4.45,95% CI:4.28-4.62)、全面性(平均值 = 4.3,95% CI:4.11-4.89)和整體品質(平均值 = 4.28,95% CI:4.10-4.47)。評分還表明臨床危害的風險較低(平均值 = 1.6,95% CI:1.38-1.81)和人口統計偏差(平均值 = 1.52,95% CI:1.31-1.72)。人口統計偏差的一致低評分表明,醫師評分者未檢測到任何具有刻板印象或不成比例的患者群體扭曲表示的顯著模式。

相關性分析

為了評估不同評估標準之間的關係,我們計算了皮爾遜相關係數。我們發現與科學共識的一致性與全面性(r = 0.67)和整體品質(r = 0.68)呈中度相關。全面性和整體品質顯示出很強的相關性(r = 0.83),而臨床危害和人口統計偏差的可能性呈弱相關(r = 0.22)。

對醫學教育的影響

我們的研究結果對醫學教育具有重大影響,尤其是在標準化醫學考試的審查日益嚴格的情況下。比以往任何時候都更需要可用於像 USMLE 這樣的評估的高品質教育材料。然而,創建新問題的傳統方法是資源密集型的,需要經驗豐富的醫師來編寫臨床案例,並需要多次考試管理來評估其普遍性。因此,非常需要開發大量獨特臨床案例的新方法。

我們的研究提供了有希望的證據,表明像 GPT-4 這樣的大型語言模型可以作為「合成醫學教育」的來源,提供可訪問、可自訂和可擴展的教育資源。我們已經證明,GPT-4 具有固有的臨床知識,可以擴展到創建具有代表性和準確性的患者描述。我們的分析表明,GPT-4 為 USMLE Step 2 CK 考試的皮膚和軟組織部分中測試的疾病生成的案例非常準確,這表明 LLMs 可能潛在地用於設計標準化醫學考試的案例。

科學共識、全面性和整體品質的高評分,加上潛在臨床危害和人口統計偏差的低評分,進一步支持了將 LLMs 用於此目的的可行性。案例全面性和整體品質之間的強烈統計相關性突顯了徹底而詳細的案例演示在醫學教育中的重要性,並證明了 LLMs 提供與上下文相關且完整的臨床推理場景的能力。

案例的平均長度(145.79 ± 26.97 字)完全在 USMLE 案例長度的範圍內,允許考生大約 90 秒來回答每個問題。在案例旁邊包含更長的解釋,展示了 LLMs 不僅可以生成患者描述,還可以生成有用的教學材料。

解決局限性和未來方向

雖然我們的研究證明了 LLMs 在生成高品質臨床案例方面的潛力,但我們也發現了幾個需要在未來研究中解決的局限性。一個關鍵問題是患者人口統計的多樣性有限,男性患者佔多數,並且缺乏種族多樣性。為了確保醫學生充分準備好為不同的患者群體提供服務,至關重要的是在提示工程和模型訓練資料集中納入更多有意識的努力,以包含多樣化的患者表示。未來的研究還應調查模型輸出中系統性偏差的來源和表現。

我們研究的另一個局限性是我們的專家評分小組的組成,其中只有一名皮膚科醫師以及兩名來自內科和急診醫學的主治醫師。雖然非皮膚科醫師評分者經常在各自的專業中診斷和管理常見的皮膚疾病,但他們的專業知識可能無法涵蓋皮膚科疾病的全部範圍。未來的研究將受益於更大比例的皮膚科醫師,以確保對 AI 生成的病例進行更專業的評估。

儘管存在這些局限性,但我們的工作提供了令人信服的證據,表明像 GPT-4 這樣的現成 LLMs 在為標準化考試和教學目的生成臨床案例方面具有巨大的潛力。在更具體的資料集上訓練的適用 LLMs 可以進一步增強這些能力。「合成教育」的高準確性和效率為解決當前傳統醫學教育材料生成方法的局限性提供了一個有希望的解決方案。