人工智能(AI)的持續進步不斷重塑各行各業,而在醫學領域,其利害關係或許最高,潛力也最為深遠。多年來,最強大的人工智能模型,特別是能夠處理和生成類人文本的大型語言模型(LLMs),主要都掌握在科技巨頭的保護牆之後。這些專有系統,如廣受討論的 OpenAI 的 GPT-4,展現了非凡的能力,甚至擴展到了複雜的醫療診斷領域。然而,它們的「黑箱」性質以及需要將敏感資訊發送到外部伺服器的要求,對在醫療環境中廣泛、安全地採用構成了重大障礙,因為在醫療環境中,病患隱私不僅是一種偏好,更是一項強制性要求。一個關鍵問題縈繞不去:蓬勃發展的開源 AI 世界能否應對挑戰,提供相當的能力,同時又不損害控制權和保密性?
來自聲譽卓著的哈佛醫學院(Harvard Medical School, HMS)的最新發現表明,答案是響亮的「是」,這標誌著 AI 在臨床環境中應用的潛在轉折點。研究人員仔細比較了一個領先的開源模型與其備受矚目的專有對手,其結果可能使尖端診斷輔助工具的獲取民主化。
新競爭者進入診斷競技場
在一項引起醫學界和科技界共同關注的研究中,HMS 的研究人員將開源的 Llama 3.1 405B 模型與強大的 GPT-4 進行了對比。測試場地是一組精心挑選的 70 個具挑戰性的醫學案例研究。這些並非例行情境;它們代表了臨床實踐中經常遇到的複雜診斷難題。目標很明確:正面評估每個 AI 模型的診斷敏銳度。
最近發表的結果令人矚目。Llama 3.1 405B 模型,可供用戶免費下載、檢查和修改,其診斷準確性與 GPT-4 相當,在某些指標上甚至超過了後者。具體來說,在評估每個模型提供的初步診斷建議的正確性時,Llama 3.1 405B 佔有優勢。此外,在考慮處理完案例細節後提出的最終診斷時,這位開源競爭者再次證明了其相對於既定基準的實力。
這項成就之所以意義重大,不僅在於其性能本身,更在於它所代表的意義。這是首次,一個易於獲取、透明的開源工具被證明能夠在基於案例研究的醫療診斷這項要求嚴苛的任務中,達到與領先的閉源系統相同的高水平。負責監督該研究的 HMS 教授 Arjun K. Manrai ’08 形容這種性能上的均勢「相當了不起」,尤其考慮到歷史背景。
開源優勢:解鎖數據隱私與客製化
哈佛研究突顯的真正改變遊戲規則之處,在於開源模型和專有模型之間的根本區別:可及性與控制權。像 GPT-4 這樣的專有模型通常要求用戶將數據發送到提供商的伺服器進行處理。在醫療保健領域,這立即引發了警訊。病患資訊——症狀、病史、檢測結果——是可想像的最敏感數據之一,受到美國 HIPAA 等嚴格法規的保護。將這些數據傳輸到醫院安全網絡之外的前景,即使是為了獲得先進 AI 分析的潛在好處,也一直是一個主要的障礙。
像 Llama 3.1 405B 這樣的開源模型從根本上改變了這種動態。由於模型的代碼和參數是公開可用的,機構可以下載並將其部署在其自身的安全基礎設施內。
- 數據主權(Data Sovereignty): 醫院可以在其本地伺服器或私有雲上完全運行 AI。病患數據永遠不需要離開機構受保護的環境,有效消除了與外部數據傳輸相關的隱私擔憂。這個概念通常被稱為將「模型帶到數據」,而不是將「數據發送到模型」。
- 增強安全性(Enhanced Security): 將流程保持在內部顯著減少了與第三方 AI 提供商相關的潛在數據洩露的攻擊面。操作環境的控制權完全掌握在醫療機構手中。
- 透明度與可審核性(Transparency and Auditability): 開源模型允許研究人員和臨床醫生潛在地檢查模型的架構,並在一定程度上比不透明的專有系統更好地理解其決策過程。這種透明度可以培養更大的信任,並有助於調試或改進。
哈佛大學 AI 醫學項目博士生、該研究的第一作者 Thomas A. Buckley 強調了這一關鍵優勢。「開源模型解鎖了新的科學研究,因為它們可以部署在醫院自己的網絡中,」他表示。這種能力超越了理論上的潛力,為實際、安全的應用打開了大門。
此外,開源的性質允許前所未有的客製化水平。醫院和研究團隊現在可以使用他們自己的特定病患數據來微調這些強大的基礎模型。
- 特定人群調整(Population-Specific Tuning): 可以調整模型以更好地反映醫院系統服務的特定地方或區域人口的人口統計學特徵、流行疾病和獨特的健康挑戰。
- 協議對齊(Protocol Alignment): 可以調整 AI 行為以符合醫院特定的診斷路徑、治療方案或報告標準。
- 專業化應用(Specialized Applications): 研究人員可以開發高度專業化的模型版本,針對特定的醫學領域,例如放射影像分析解釋支持、病理報告篩查或識別罕見疾病模式。
Buckley 詳細闡述了這一含義:「研究人員現在可以直接將最先進的臨床 AI 用於病患數據……醫院可以使用病患數據來開發客製化模型(例如,以符合他們自己的病患群體)。」這種在內部安全開發的定制 AI 工具的潛力,代表著一個重大的飛躍。
背景:AI 在複雜案例中的衝擊波
哈佛團隊對 Llama 3.1 405B 的調查並非在真空中進行。部分靈感來自於早期研究,特別是一篇引人注目的 2023 年論文所產生的漣漪。該研究展示了 GPT 模型在處理發表於著名期刊《新英格蘭醫學雜誌》(New England Journal of Medicine, NEJM)上一些最令人困惑的臨床案例方面的驚人熟練程度。這些 NEJM 的「麻省總醫院病例記錄」(Case Records of the Massachusetts General Hospital)在醫學界堪稱傳奇——錯綜複雜、常常令人費解的案例,即使是經驗豐富的臨床醫生也面臨挑戰。
「這篇論文引起了極大的關注,基本上表明這個大型語言模型 ChatGPT 能夠以某種方式解決這些極具挑戰性的臨床案例,這有點讓人震驚,」Buckley 回憶道。一個 AI,本質上是一個基於大量文本訓練的複雜模式匹配機器,竟然能夠解開通常需要深厚臨床直覺和經驗的診斷謎團,這個想法既令人著迷,對某些人來說也令人不安。
「這些案例是出了名的困難,」Buckley 補充道。「它們是麻省總醫院(Mass General Hospital)見過的一些最具挑戰性的案例,所以它們對醫生來說很可怕,而當一個 AI 模型也能做到同樣的事情時,同樣令人恐懼。」早期的這一展示突顯了 LLMs 在醫學領域的原始潛力,但也加劇了處理專有系統固有的隱私和控制問題的緊迫性。如果 AI 變得如此強大,確保它可以安全且合乎道德地用於真實病患數據就變得至關重要。
Meta 發布的 Llama 3.1 405B 模型代表了一個潛在的轉捩點。該模型的龐大規模——由其「405B」表示,指的是 4050 億個參數(模型在訓練期間調整以進行預測的變量)——標誌著開源社群內部達到了新的複雜程度。如此巨大的規模表明它可能擁有與 GPT-4 等頂級專有模型性能相媲美的複雜性。「這有點像是我們第一次考慮到,哦,也許開源模型正在發生一些真正不同的事情,」Buckley 指出,解釋了在醫學領域測試 Llama 3.1 405B 的動機。
規劃未來:研究與現實世界整合
確認高性能開源模型適用於敏感的醫療任務具有深遠的影響。正如 Manrai 教授所強調的,這項研究「解鎖並開啟了許多新的研究和試驗」。能夠在安全的醫院網絡內直接處理病患數據,而無需面對外部數據共享的倫理和後勤障礙,消除了臨床 AI 研究的一個主要瓶頸。
想像一下各種可能性:
- 實時決策支持(Real-time Decision Support): 將 AI 工具直接整合到電子健康記錄(EHR)系統中,實時分析傳入的病患數據,以建議潛在診斷、標記關鍵實驗室數值或識別潛在的藥物相互作用,而所有數據都安全地保留在醫院系統內。
- 加速研究週期(Accelerated Research Cycles): 研究人員可以使用大型本地數據集快速測試和完善 AI 假設,可能加速發現新的診斷標記或治療效果。
- 開發高度專業化工具(Development of Hyper-Specialized Tools): 團隊可以專注於為利基醫學專業或特定的複雜程序構建 AI 助手,並使用高度相關的內部數據進行訓練。
正如 Manrai 簡潔地指出的那樣,範式發生了轉變:「有了這些開源模型,你可以將模型帶到數據,而不是將你的數據發送到模型。」這種本地化賦予了醫療機構和研究人員權力,在維護嚴格隱私標準的同時促進創新。
不可或缺的人類元素:AI 作為副駕駛,而非機長
儘管像 Llama 3.1 405B 這樣的 AI 工具表現出色且潛力巨大,但參與研究的人員很快就以關鍵的現實主義來緩和興奮之情。人工智能,無論多麼複雜,目前還不是——而且可能永遠不會——取代人類臨床醫生。Manrai 和 Buckley 都強調,人類的監督仍然絕對必要。
包括 LLMs 在內的 AI 模型具有固有的局限性:
- 缺乏真正的理解(Lack of True Understanding): 它們擅長基於訓練數據進行模式識別和信息綜合,但缺乏真正的臨床直覺、常識,以及理解病患生活背景、情緒狀態或非語言線索細微差別的能力。
- 潛在的偏見(Potential for Bias): AI 模型可能會繼承其訓練數據中存在的偏見,可能導致有偏差的建議或診斷,特別是對於代表性不足的病患群體。開源模型在這方面可能具有優勢,因為訓練數據和過程有時可以被更仔細地審查,但風險依然存在。
- 「幻覺」與錯誤(”Hallucinations” and Errors): 眾所周知,LLMs 有時會生成聽起來合理但錯誤的信息(即所謂的「幻覺」)。在醫療背景下,此類錯誤可能導致嚴重後果。
- 無法處理新穎性(Inability to Handle Novelty): 雖然它們可以處理已知的模式,但 AI 可能難以應對真正新穎的疾病表現或其訓練數據中未充分代表的獨特症狀組合。
因此,醫生和其他醫療保健專業人員的角色並未減弱,而是發生了轉變。他們成為關鍵的驗證者、解釋者和最終決策者。「我們的臨床合作者非常重要,因為他們可以閱讀模型生成的內容並對其進行定性評估,」Buckley 解釋說。AI 的輸出僅僅是一個建議,是在更廣泛的臨床圖景中需要批判性評估的一條數據。「只有當你能讓醫生評估這些結果時,它們才是可信的。」
Manrai 對此表示贊同,他設想 AI 不是自主的診斷者,而是一位有價值的助手。在之前的新聞稿中,他將這些工具定位為「忙碌臨床醫生的寶貴副駕駛」,前提是它們「被明智地使用並負責任地納入當前的醫療基礎設施」。關鍵在於深思熟慮的整合,即 AI 增強人類的能力——或許是通過快速總結龐大的病患歷史、為複雜病例建議鑑別診斷,或標記潛在風險——而不是試圖取代臨床醫生的判斷。
「但至關重要的是,醫生應幫助推動這些努力,以確保 AI 為他們服務,」Manrai 告誡道。臨床 AI 的開發和部署必須是一個協作過程,由處於病患護理前線人員的需求和專業知識指導,確保技術服務於而非支配醫學實踐。哈佛的研究表明,強大、安全的工具正變得可用;下一個關鍵步驟是負責任地利用它們。