引言
近年來,人工智慧(AI)和大型語言模型(LLM)等技術進步為醫學教育和知識評估方法帶來了潛在的變革。特別是,這些發展可以使醫學資訊更容易存取,並使評估更具互動性。
先前的研究已經探討了LLM在美國執業醫師資格考試(USMLE)和日本執業醫師資格考試(JMLE)等各種醫學執照考試中的表現,但這些考試在結構和內容上與TUS存在顯著差異。TUS側重於基礎科學和臨床科學,並特別關注土耳其醫學背景,這為評估LLM在獨特評估環境中的能力提供了獨特的機會。本研究旨在通過評估四個領先LLM在TUS中的表現來填補這一空白。此外,本研究探討了這些發現對課程設計、AI輔助醫學培訓以及土耳其醫學評估的未來的潛在影響。具體來說,我們調查了LLM的表現如何為開發更有效的、針對土耳其醫學課程量身定制的教育資源和評估策略提供信息。這項調查不僅有助於理解特定語言的表現,還有助於更廣泛地討論如何有效地將AI整合到全球醫學教育和評估中。
這些研究的結果表明,ChatGPT和類似的LLM可以在醫學教育和知識評估過程中發揮重要作用。醫學資訊檢索和評估方法中的人工智慧和LLM可以實現創新方法和學習方法的開發,特別是在醫學教育中。本研究旨在通過評估ChatGPT 4、Gemini 1.5 Pro和Cohere-Command R+在土耳其醫學專業培訓入學考試中的表現,進一步調查LLM對醫學教育和知識評估的影響。
本研究探討了先進人工智慧(AI)模型(特別是ChatGPT 4、Gemini 1.5 Pro、Command R+和Llama 3 70B)在醫學教育和評估中的應用,重點是它們在解決醫學專業考試問題中的表現。該研究評估了這些模型對土耳其醫學專業培訓入學考試問題進行全面和系統分析的能力,強調了在考慮解釋能力和準確性等因素時,AI在醫學中的潛力。研究結果表明,AI模型可以顯著促進醫學教育和評估過程,為新的應用和研究領域開闢道路。本文的主要目的是評估AI技術的快速進步,並比較不同AI模型的響應能力。該研究對ChatGPT 4、Gemini 1.5 Pro、Command R+和Llama 3 70B進行了比較分析,評估了它們在2021年土耳其醫學專業培訓入學考試第一學期的240個問題中的表現。
這種比較旨在闡明AI技術的發展軌跡和區別,重點是它們在醫學教育和考試準備等專門領域中的效用。最終目標是提供見解,幫助使用者選擇最適合其特定需求的學習工具。
方法
這些問題以土耳其語問給LLM。這些問題從學生選拔和安置中心的官方網站獲得,採用多項選擇題形式(有A到E五個選項),只有一個最佳答案。答案由LLM以土耳其語提供。
評估過程基於學生選拔和安置中心發布的正確答案。文章提到:’人工智慧模型的問題的’正確’答案是根據學生選拔和安置中心發布的答案定義的。只有根據問題文本中的說明確定為正確的答案才被接受為’正確’。’由於問題和答案都是土耳其語,評估過程涉及將LLM的土耳其語答案與學生選拔和安置中心提供的官方土耳其語答案金鑰進行比較。
醫學教育數據集
本研究使用ChatGPT 4、Gemini 1.5 Pro、Command R+和Llama 3 70B來測試人工智慧模型在醫學知識和案例評估方面的能力。該研究是對2021年3月21日舉行的土耳其醫學專業培訓入學考試的問題進行的。土耳其醫學專業培訓入學考試是由學生選拔和安置中心組織的考試,包括240道題。第一類中的基礎知識問題測試完成醫學教育所需的知識和倫理。第二類是案例問題,涵蓋許多測量分析思維和推理能力的疾病。
問題難度分類
問題的難度級別是根據學生選拔和安置中心發布的官方考生表現數據進行分類的。具體來說,中心報告的每個問題的正確答案率用於將問題分為五個難度級別:
- 1級(最簡單):正確答案率在80%或以上的問題。
- 2級:正確答案率在60%至79.9%之間的問題。
- 3級(中等):正確答案率在40%至59.9%之間的問題。
- 4級:正確答案率在20%至39.9%之間的問題。
- 5級(最困難):正確答案率在19.9%或以下的問題。
人工智慧模型的問題的’正確’答案是根據學生選拔和安置中心發布的答案定義的。只有根據問題文本中的說明確定為正確的答案才被接受為’正確’。此外,每個問題的難度級別都根據學生選拔和安置中心發布的正確答案率分為1到5級。正確答案率在80%及以上的問題被認為是最簡單的(1級),而正確答案率在19.9%及以下的問題被認為是最困難的(5級)。
知識和案例領域
土耳其醫學專業培訓入學考試是土耳其醫學畢業生專業化的關鍵一步,它評估考生在兩個關鍵領域的知識和案例領域。理解這些領域之間的區別對於充分準備至關重要。知識領域側重於評估考生在他們選擇的醫學領域內的理論理解和事實知識。它測試對基本概念和原則的掌握,並建立與專業相關的醫學資訊。它代表了正在測試的特定醫學知識領域,例如基礎醫學科學(解剖學、生物化學、生理學等)和臨床科學(內科、外科、兒科等)案例領域,另一方面,代表了應用知識的真實場景或情境,例如解決問題、分析思維、批判性思維、決策和將概念應用於真實情況。
提示工程
提示工程是設計和微調自然語言提示,以從語言模型或AI系統中獲得特定響應。在2024年4月,我們通過其各自的Web界面直接查詢語言模型來收集響應。
為了確保對每個模型的原始能力進行公平評估,在向LLM呈現問題的方式中實施了嚴格的方法控制。每個問題都是單獨輸入的,並且在提出新問題之前重置會話,以防止模型基於先前的交互進行學習或適應。
數據分析
所有分析均使用Microsoft Office Excel和Python軟體進行。為了比較LLM在不同問題難度上的表現,進行了非配對卡方檢驗。使用_p_ < 0.05的_p_-value閾值來確定統計顯著性。該分析評估了模型準確性是否因問題難度級別而異。
倫理考慮
本研究僅使用網際網路上發布的資訊,不涉及人類受試者。因此,不需要Baskent University倫理委員會的批准。
結果
參加2021年土耳其醫學專業培訓入學考試第一期基礎醫學科學考試的考生的平均正確答案數為51.63。臨床醫學科學考試的平均正確答案數為63.95。臨床醫學科學考試的平均正確答案數高於基礎醫學科學考試。與這種情況平行,人工智慧技術也更成功地回答了臨床醫學科學考試。
AI性能
AI平台的性能使用與人類考生相同的指標進行評估。
ChatGPT 4:
ChatGPT 4在基礎醫學科學部分獲得了103個正確答案的平均分數,在臨床醫學科學部分獲得了110個正確答案的平均分數。這代表了88.75%的總體準確率,顯著優於兩個部分的平均人類考生(p < 0.001)。
Llama 3 70B:
Llama 3 70B在基礎醫學科學部分獲得了95個正確答案的平均分數,在臨床醫學科學部分獲得了95個正確答案的平均分數。這代表了79.17%的總體準確率,這也顯著高於平均人類性能(p < 0.01)。
Gemini 1.5 Pro:
Gemini 1.5 Pro在基礎醫學科學部分獲得了94個正確答案的平均分數,在臨床醫學科學部分獲得了93個正確答案的平均分數。這代表了78.13%的總體準確率,這顯著高於平均人類性能(p < 0.01)。
Command R+:
Command R+在基礎醫學科學部分獲得了60個正確答案的平均分數,在臨床醫學科學部分獲得了60個正確答案的平均分數。這代表了50%的總體準確率,這與基礎醫學科學部分的平均人類性能沒有顯著差異(p = 0.12),但在臨床醫學科學部分顯著較低(p < 0.05)。
AI平台的性能使用與人類考生相同的指標進行評估。
圖3比較了不同LLM根據問題難度的準確性-ChatGPT 4:表現最佳的模型。隨著問題難度的增加,準確率增加,即使在最具挑戰性的問題上也接近70%-Llama 3 70B:性能適中的模型。隨著問題難度的增加,準確率先增加然後降低。在最具挑戰性的問題上,其準確率約為25%。Gemini 1.5 70B:它的表現與Llama 3 70B相似。隨著問題難度的增加,準確率先增加然後降低。在最具挑戰性的問題上,其準確率約為20%。Command R+:性能最低的模型。其準確率隨著問題難度的增加而降低,並且在最具挑戰性的問題上保持在15%左右
總而言之,ChatGPT 4是最不受問題難度影響的模型,並且總體準確率最高。Llama 3 70B和Gemini 1.5 Pro表現適中,而Command R+的成功率低於其他模型。隨著問題難度的增加,模型的準確率降低。這表明LLM在理解和正確回答複雜問題方面仍需要改進
在表1中,ChatGPT 4模型以88.75%的成功率脫穎而出,成為表現最佳的模型。這表明它具有紮實的能力來理解和準確地回答問題。Llama 3 70B模型以79.17%的成功率位居第二。雖然它落後於ChatGPT 4模型,但它仍然表現出回答問題的高水平熟練度。Gemini 1.5 Pro模型緊隨其後,成功率為78.13%。其性能與Llama 3 70B模型相當,表明其具有強大的問題回答能力。另一方面,Command R+模型落後於其他模型,成功率為50%。這表明它可能在特定問題上遇到困難,或者需要進一步微調以提高性能。正確答案在不同難度級別上的分佈。例如,所有模型在簡單問題(難度級別1)上都表現良好,其中ChatGPT 4模型取得了完美的分數。在中等難度問題(級別2和3)上,ChatGPT 4和Llama 3 70B模型繼續表現良好。
相比之下,Gemini 1.5 Pro模型開始顯示出一些弱點。在難題(級別4和5)上,所有模型的性能均下降,其中Command R+模型掙扎得最厲害。總的來說,這些結果為了解每個AI模型的優勢和劣勢提供了寶貴的見解,並且可以為未來的開發和改進工作提供信息
在表3中,基礎醫學科學中的生物化學獲得了ChatGPT 4的完美分數,證明了其在該領域回答問題的卓越能力。Llama 3 70B和Gemini 1.5 Pro也表現良好,但Command R+的準確率為50%,表現不佳。藥理學、病理學和微生物學中表現最佳的模型(ChatGPT 4和Llama 3 70B)表現出強烈的信息一致性,準確率在81%到90%之間。Gemini 1.5 Pro和Command R+落後,但仍然表現良好。解剖學和生理學給模型帶來了一些挑戰。ChatGPT 4和Meta AI-Llama 3 70B表現良好,而Gemini 1.5 Pro和Command R+的準確率低於70%,表現不佳。
臨床醫學科學中的兒科對所有模型都至關重要,其中ChatGPT 4取得了接近完美的分數(90%)。Llama 3 70B緊隨其後,甚至Command R+也實現了43%的準確率。內科和普通外科的表現優於最佳模型,準確率在79%到90%之間。Gemini 1.5 Pro和Command R+落後,但仍然表現良好。麻醉和復甦、急診醫學、神經病學和皮膚病學等專業提交的問題較少,但模型總體上表現良好。ChatGPT 4和Llama 3 70B在這些領域表現出卓越的準確性
關於模型比較,ChatGPT 4是大多數領域中表現最佳的模型,總體準確率為88.75%。它的優勢在於它能夠準確地回答基礎醫學和臨床醫學科學問題。Llama 3 70B緊隨其後,總體準確率為79.17%。雖然它無法完全與ChatGPT 4的性能相媲美,但它仍然表現出跨各個領域的強烈知識一致性。Gemini 1.5 Pro和Command R+落後,總體準確率分別為78.13%和50%。雖然它們在某些領域表現出希望,但它們在所有領域都難以保持一致性
簡而言之,ChatGPT 4是目前最適合回答各個領域醫學科學問題的模型。Gemini 1.5 Pro和Command R+表現出潛力,但需要顯著改進才能與表現最佳的模型競爭
在表4中,關於知識領域,ChatGPT 4在基礎醫學科學領域中的準確率為86.7%(85/98),優於其他模型。ChatGPT 4再次表現最佳,在臨床醫學科學領域中的準確率為89.7%(61/68)。關於案例領域,ChatGPT 4在基礎醫學科學領域中的準確率為81.8%(18/22)。在臨床醫學科學領域中,ChatGPT 4的表現相似,準確率為94.2%(49/52)
模型的成對比較顯示,ChatGPT 4在兩個領域和問題類型中均顯著優於其他模型。Llama 3 70B和Gemini 1.5 Pro的表現相似,而Command R+則落後。根據此分析,我們可以得出結論,ChatGPT 4在知識和案例領域以及基礎醫學科學和臨床醫學科學領域中均表現出卓越的性能。
統計分析
LLM的性能使用Microsoft Office Excel和Python(版本3.10.2)進行分析。為了比較模型在不同問題難度級別上的性能,進行了非配對卡方檢驗。為每個AI模型的正確和錯誤答案構建了按難度級別劃分的列聯表,並應用卡方檢驗來確定跨難度級別的性能是否存在統計學上的顯著差異。使用<0.05的_p_-value閾值來確定統計顯著性。ChatGPT 4的_p_-value為0.00028,並且在_p_ < 0.05時顯著,表明跨不同難度級別的性能存在顯著差異。Gemini 1.5 Pro的_p_-value為0.047,並且在_p_ < 0.05時顯著,表明跨不同難度級別的性能存在顯著差異。Command R+的_p_-value為0.197,並且在_p_ < 0.05時不顯著,表明跨不同難度級別的性能沒有顯著差異。Llama 3 70B的_p_-value:0.118,p-value:0.118,並且在_p_ < 0.05時不顯著,表明跨不同難度級別的性能沒有顯著差異。
ChatGPT 4和Gemini 1.5 Pro在不同問題難度上的正確性顯示出統計學上的顯著差異,表明它們的性能會隨著問題難度的不同而顯著變化。Command R+和Llama 3 70B在難度級別上未表現出顯著的性能差異,表明無論問題難度如何,性能都更加一致。這些結果可能表明不同模型在處理與不同難度相關的複雜性和主題方面存在不同的優勢和劣勢。
討論
TUS是土耳其醫學畢業生追求專業培訓的關鍵國家考試。該考試包括涵蓋基礎科學和臨床科學的多項選擇題,並具有確定專業課程排名的集中排名系統
在評估大型語言模型在TUS上的表現時,GPT-4是表現最佳的模型。同樣,ChatGPT是一個強大的AI模型,在外科領域展現了接近或高於人類水平的表現,分別正確回答了71%和68%的多項選擇題SCORE和Data-B問題。此外,ChatGPT在公共衛生考試中表現出色,超過了當前的通過率並提供了獨特的見解。這些發現突出了GPT-4和ChatGPT在醫學評估中的卓越表現,展示了它們增強醫學教育和潛在診斷輔助的潛力。
對於醫學教育工作者和考官而言,LLM日益提高的準確性提出了有關考試設計和評估的重要問題。如果AI模型可以高精度地解決標準化的醫學考試,則未來的評估可能需要納入超出簡單回憶的高階推理和臨床判斷問題。此外,土耳其醫學機構可以探索AI輔助教育策略,例如根據學生個人需求量身定制學習材料的自適應學習系統。
從國家角度來看,本研究突出了AI在土耳其醫學教育中日益增長的重要性。由於這些LLM在土耳其語醫學問題中表現良好,因此它們可以彌合服務欠佳地區學生獲得高品質教育資源的差距。此外,政策制定者應考慮如何將AI模型整合到土耳其醫療保健專業人員的繼續醫學教育和終身學習計畫中。
總之,雖然ChatGPT-4等AI模型展現了非凡的準確性,但應仔細評估其在醫學教育中的作用。AI輔助學習的潛在好處是巨大的,但正確的實施需要確保這些工具以負責、合乎道德的方式使用,並與人類專業知識結合使用。
局限性
本研究提供了對大型語言模型(LLM)在土耳其醫學專業培訓入學考試(TUS)中的表現的有價值見解,但必須承認幾個重要的局限性,以使研究結果具有背景意義並指導未來的研究。首先,尚不確定本研究中評估的AI模型的訓練數據中是否包含TUS問題。由於過去的TUS問題是公開可用的,因此本研究中使用的問題可能是模型訓練數據的一部分。這引起了人們對模型的性能是否反映了真正的理解或僅僅是記憶特定問題的能力的擔憂。未來的研究應開發評估AI模型是否表現出真正的推理能力或依賴於記憶資訊的方法。
其次,AI模型有可能表現出源於其訓練數據的偏見。這些偏見可能源於訓練數據中某些醫學狀況、人群或觀點的代表性不平衡。例如,由於每種語言中可用的訓練數據的數量和品質存在差異,因此模型在土耳其語中的表現可能與英語不同。此外,這些模型在回答需要瞭解土耳其當地醫療實踐或文化背景的問題時可能不太準確。這些偏見可能會限制研究結果的普遍性,並引起人們對在醫學教育和實踐中使用AI的倫理擔憂。
第三個局限性是,該研究僅關注多項選擇題。在現實世界的臨床實踐中,醫療專業人員需要具備諸如推理複雜案例、解釋模稜兩可的發現以及在不確定性下做出決策的技能。此外,以清晰和富於同情心的方式向患者和同事傳達診斷、治療方案和風險的能力至關重要。尚未測試AI模型執行這些任務的能力,並且它們的能力可能會受到其當前設計和培訓的限制。未來的研究應在更現實的情況下評估AI模型,例如臨床案例模擬和開放式評估。
第四,該研究未包括開放式問題。開放式問題對於評估高階認知技能(例如批判性思維、資訊綜合和臨床推理)至關重要。這些類型的問題需要產生連貫且上下文相關的響應的能力,而不是簡單地從列表中選擇正確的選項。AI模型在此類任務上的性能可能與其在多項選擇題上的性能有很大不同,這代表了未來研究的重要領域。
第五個局限性是,AI模型未在時間壓力下進行測試。人類考生在考試期間會受到嚴格的時間限制,這會影響他們的表現。相反,本研究中的AI模型沒有受到時間壓力,這使他們可以在沒有定時環境壓力的