AI 如何徹底改變甲狀腺癌的診斷,準確率超過 90%
一項醫療技術的突破性進展,是世界首創的人工智慧 (AI) 模型,能夠以超過 90% 的卓越準確度,對甲狀腺癌的階段和風險類別進行分類。 這項創新工具承諾將一線臨床醫生的諮詢前準備時間減少約 50%,標誌著癌症診斷和管理的效率和精確度向前邁出了一大步。
AI 模型的起源
這種開創性 AI 模型的開發,是香港大學李嘉誠醫學院 (HKUMed)、InnoHK 健康數據探索實驗室 (InnoHK D24H) 和倫敦衛生與熱帶醫學院 (LSHTM) 的跨學科研究團隊共同努力的成果。 他們的研究結果發表在著名的 npj Digital Medicine 期刊上,強調了 AI 在改變臨床實踐和改善患者預後方面的潛力。
甲狀腺癌是香港和世界各地普遍存在的惡性腫瘤,需要精確的管理策略。 這些策略的成功取決於兩個關鍵系統:
- 美國癌症聯合委員會 (AJCC) 或腫瘤-淋巴結-轉移 (TNM) 癌症分期系統: 該系統現在是第 8 版,用於確定癌症的程度和擴散。
- 美國甲狀腺協會 (ATA) 風險分類系統: 該系統對癌症復發或進展的風險進行分類。
這些系統對於預測患者生存率和告知治療決策是不可或缺的。 然而,將複雜的臨床資訊手動整合到這些系統中的傳統方法,通常既耗時又容易產生效率低下的問題。
AI 助手如何運作
為了應對這些挑戰,研究團隊設計了一款 AI 助手,它利用大型語言模型 (LLM),類似於 ChatGPT 和 DeepSeek 中使用的模型。 這些 LLM 旨在理解和處理人類語言,使它們能夠分析臨床文檔,並提高甲狀腺癌分期和風險分類的準確性和效率。
AI 模型採用四個離線開源 LLM——Mistral (Mistral AI)、Llama (Meta)、Gemma (Google) 和 Qwen (Alibaba)——來分析自由文本臨床文檔。 這種方法確保了模型可以處理廣泛的臨床資訊,包括病理報告、手術記錄和其他相關醫療記錄。
AI 模型的訓練和驗證
AI 模型經過精心的訓練,使用了基於美國的開放存取數據集,其中包含來自癌症基因組圖譜計劃 (TCGA) 的 50 名甲狀腺癌患者的病理報告。 在訓練階段之後,該模型的性能針對來自 289 名 TCGA 患者和由經驗豐富的內分泌外科醫生創建的 35 個偽病例的病理報告進行了嚴格的驗證。 這種全面的驗證過程確保了該模型在各種臨床情況下都是穩健可靠的。
性能和準確性
透過組合所有四個 LLM 的輸出,研究團隊顯著提高了 AI 模型的整體性能。 該模型在 ATA 風險分類中實現了 88.5% 至 100% 的令人印象深刻的總體準確度,在 AJCC 癌症分期中實現了 92.9% 至 98.1% 的總體準確度。 這種準確度水平超過了傳統的手動文檔審查,後者通常容易出現人為錯誤和不一致。
這個 AI 模型最顯著的優勢之一是它能夠將臨床醫生用於諮詢前準備的時間減少約 50%。 這種節省的時間使臨床醫生能夠將更多時間用於直接患者護理,從而改善了整體患者體驗並提高了護理品質。
研究團隊的主要見解
香港大學李嘉誠醫學院公共衛生學講座教授兼 InnoHK D24H 執行董事 Joseph T Wu 教授強調了該模型的卓越性能,他表示:’我們的模型在分類 AJCC 癌症階段和 ATA 風險類別方面,準確率超過 90%。 該模型的一個顯著優勢是其離線能力,這將允許在本地部署,而無需共享或上傳敏感的患者資訊,從而提供最大的患者隱私。’
Wu 教授還強調了該模型能夠與強大的線上 LLM(如 DeepSeek 和 GPT-4o)相媲美,他指出:’鑒於 DeepSeek 最近的首次亮相,我們使用 ‘零樣本方法’,針對最新版本的 DeepSeek—R1 和 V3—以及 GPT-4o 進行了進一步的比較測試。 我們很高興地發現,我們的模型與這些強大的線上 LLM 表現相當。’
香港大學李嘉誠醫學院臨床醫學學院外科學系臨床助理教授兼內分泌外科主任 Matrix Fung Man-him 醫生強調了該模型的實際益處,他表示:’除了在從複雜的病理報告、手術記錄和臨床筆記中提取和分析資訊方面提供高準確度外,我們的 AI 模型還與人工解讀相比,大大縮短了醫生近一半的準備時間。 它可以同時提供基於兩個國際公認的臨床系統的癌症分期和臨床風險分層。’
Fung 醫生還強調了該模型的多功能性和廣泛應用的潛力,他表示:’AI 模型用途廣泛,可以輕鬆整合到公共和私營部門的各種環境中,以及本地和國際醫療保健和研究機構。 我們樂觀地認為,在現實世界中實施這種 AI 模型可以提高一線臨床醫生的效率並提高護理品質。 此外,醫生將有更多時間與患者諮詢。’
香港大學李嘉誠醫學院臨床醫學學院家庭醫學和基層醫療學系榮譽副教授 Carlos Wong 醫生強調了使用真實患者數據驗證模型的重要性,他表示:’與政府大力倡導在醫療保健中採用 AI 一致,例如最近醫院管理局推出的基於 LLM 的醫療報告撰寫系統,我們的下一步是使用大量真實患者數據評估此 AI 助手的性能。’
Wong 醫生還強調了該模型在臨床環境和醫院中部署的潛力,他表示:’一旦經過驗證,AI 模型就可以輕鬆部署在真實的臨床環境和醫院中,以幫助臨床醫生提高運營和治療效率。’
對臨床實踐的影響
這種 AI 模型的開發對甲狀腺癌診斷和管理領域的臨床實踐產生了深遠的影響。 透過自動化癌症分期和風險分類的過程,該模型可以使臨床醫生能夠將精力集中在患者護理的其他關鍵方面,例如治療計劃和患者諮詢。
此外,該模型的高準確性和可靠性有助於降低診斷過程中出現錯誤和不一致的風險。 這可以導致更明智的治療決策和改善患者預後。
AI 模型還有可能改善服務不足地區患者獲得優質護理的機會。 透過使臨床醫生能夠更有效率地診斷和管理甲狀腺癌,該模型可以幫助減少醫療保健的可及性和預後方面的差距。
未來方向
研究團隊計劃繼續完善和改進 AI 模型,重點是擴展其功能和提高其準確性。 未來的研究還將探索該模型在癌症診斷和管理的其他領域中使用的潛力。
此外,該團隊計劃進行進一步的研究,以評估 AI 模型對臨床實踐和患者預後的影響。 這些研究將有助於確定將模型整合到臨床工作流程中的最佳方法,並確保有效地使用該模型來改善患者護理。
這種 AI 模型的開發代表了對抗甲狀腺癌的重要一步。 透過利用人工智慧的力量,研究人員和臨床醫生正在努力提高癌症診斷和管理的準確性、效率和可及性,最終為患者帶來更好的結果。
AI 模型組件和功能的詳細檢查
AI 模型的架構是幾種尖端技術的複雜混合體,旨在模仿和增強醫療診斷中涉及的認知過程。 該模型的核心依賴於大型語言模型 (LLM),這是一種人工智慧,已證明在理解、解釋和生成人類語言方面具有卓越的熟練程度。 這些 LLM,例如 Mistral、Llama、Gemma 和 Qwen,是 AI 分析能力的基礎構建模組。
大型語言模型 (LLM) 的作用
LLM 經過大量文本和程式碼數據集的訓練,使它們能夠識別數據中的模式、關係和細微差別。 在此 AI 模型的背景下,LLM 的任務是分析臨床文檔,包括病理報告、手術記錄和其他醫療記錄。 這些文檔通常包含複雜的技術語言,需要高度的理解才能提取相關資訊。
LLM 透過將文本分解為更小的單元(例如單詞和短語)來處理文本,然後分析這些單元之間的關係。 此過程涉及識別關鍵實體,例如腫瘤大小、淋巴結受累和遠處轉移,這些對於確定癌症的階段和風險類別至關重要。
離線開源 LLM:Mistral、Llama、Gemma 和 Qwen
AI 模型採用四個離線開源 LLM:Mistral (Mistral AI)、Llama (Meta)、Gemma (Google) 和 Qwen (Alibaba)。 使用多個 LLM 是一個策略性決策,旨在提高模型的穩健性和準確性。 每個 LLM 都有其獨特的優勢和劣勢,透過組合它們的輸出,模型可以利用這些系統的集體智慧。
- Mistral: 以其效率和在各種任務中表現良好的能力而聞名。
- Llama: 專為研究目的而設計,為語言理解提供了堅實的基礎。
- Gemma: 谷歌的產品,以其與其他谷歌服務的整合以及在問題解答方面的強大性能而聞名。
- Qwen: 由阿里巴巴開發,擅長處理複雜的中文語言任務。
這些不同 LLM 的整合使 AI 模型能夠受益於廣泛的視角和方法,最終帶來更準確和可靠的結果。
訓練數據集:癌症基因組圖譜計劃 (TCGA)
AI 模型的訓練數據集來自癌症基因組圖譜計劃 (TCGA),這是一個綜合性的公共資源,包含數千名癌症患者的基因組、臨床和病理數據。 TCGA 數據集提供了豐富的資訊,對於訓練 AI 模型以識別數據中的模式和關係至關重要。
訓練數據集包括來自 50 名甲狀腺癌患者的病理報告。 這些報告包含有關腫瘤特徵的詳細資訊,包括其大小、形狀和位置,以及有關是否存在任何轉移性疾病的資訊。 AI 模型學會識別這些特徵並使用它們來對癌症階段和風險類別進行分類。
驗證過程:確保準確性和可靠性
AI 模型的性能經過嚴格的驗證,使用了來自 289 名 TCGA 患者和由經驗豐富的內分泌外科醫生創建的 35 個偽病例的病理報告。 驗證過程旨在確保模型在各種臨床情況下都是準確和可靠的。
驗證過程涉及將 AI 模型的分類與人類專家進行的分類進行比較。 AI 模型的準確性是透過計算 AI 模型的分類與人類專家進行的分類相匹配的案例百分比來衡量的。
在 ATA 風險分類和 AJCC 癌症分期中實現高準確度
AI 模型在 ATA 風險分類中實現了 88.5% 至 100% 的令人印象深刻的總體準確度,在 AJCC 癌症分期中實現了 92.9% 至 98.1% 的總體準確度。 這些高準確度證明了 AI 改變臨床實踐和改善患者預後的潛力。 該模型準確分類癌症階段和風險類別的能力可以幫助臨床醫生做出更明智的治療決策,從而為患者帶來更好的結果。
離線功能:確保患者隱私
此 AI 模型最顯著的優勢之一是其離線功能。 這意味著該模型可以在本地部署,而無需共享或上傳敏感的患者資訊。 這對於保護患者隱私和確保符合數據安全法規至關重要。
離線功能還使 AI 模型更易於資源受限環境中的醫院和診所使用。 這些設施可能沒有支援線上 AI 模型的頻寬或基礎設施,但它們仍然可以透過在本地部署 AI 模型來受益於其功能。
與線上 LLM 的比較:DeepSeek 和 GPT-4o
研究團隊使用最新版本的 DeepSeek 和 GPT-4o(兩個強大的線上 LLM)進行了比較測試。 這些測試的結果表明,AI 模型的性能與這些線上 LLM 相媲美,證明了其與世界上最好的 AI 系統競爭的能力。
AI 模型可以在不需要網際網路連線的情況下與線上 LLM 相媲美,這是一個顯著的優勢。 這使得 AI 模型更加可靠和安全,因為它不依賴於外部伺服器或網路。
對醫療保健效率和患者護理的變革性影響
將此 AI 模型整合到臨床工作流程中,有望對醫療保健效率和患者護理產生重大轉變。 該模型自動化癌症分期和風險分類過程的能力,可以使臨床醫生能夠將精力集中在患者護理的其他關鍵方面,例如治療計劃和患者諮詢。
AI 模型還有助於降低診斷過程中出現錯誤和不一致的風險,從而做出更明智的治療決策並改善患者預後。 此外,該模型可以透過使臨床醫生能夠更有效率地診斷和管理甲狀腺癌,來改善服務不足地區患者獲得優質護理的機會。
解決倫理考量並確保負責任的 AI 實施
與任何 AI 技術一樣,必須解決倫理考量並確保負責任的 AI 實施。 研究團隊致力於以合乎道德、透明和負責任的方式開發和部署 AI 模型。
一個關鍵的倫理考量是確保 AI 模型不會對任何特定患者群體產生偏見。 研究團隊正在努力解決這個問題,方法是使用多樣化的訓練數據,並仔細監控該模型在不同患者群體中的表現。
另一個倫理考量是確保患者了解 AI 在其護理中的使用情況。 研究團隊致力於向患者提供清晰簡潔的資訊,說明如何使用 AI 模型以及它可能如何影響他們的護理。
研究團隊還致力於確保 AI 模型的使用方式符合醫學倫理原則,例如行善、不傷害、自主和正義。 透過遵守這些原則,研究團隊可以幫助確保 AI 模型用於改善患者護理和促進健康公平。