全球首個開源多模態(tài)醫(yī)療基礎模型:人工打分平均超越GPT-4V、支持2D/3D放射影像
研究背景GPT4 等一系列大型基礎模型的迅猛發(fā)展突破了人工智能技術的邊界,為眾多垂直領域帶來了新的發(fā)展機遇和挑戰(zhàn)。在醫(yī)學領域,構(gòu)建強大而全面的基礎模型,可以為臨床醫(yī)療任務提供更為智能、高效的解決方案,為醫(yī)護人員和患者創(chuàng)造更為優(yōu)質(zhì)的醫(yī)療體驗,開啟醫(yī)學領域技術創(chuàng)新的新篇章。然而,當前醫(yī)學領域的基礎模型的構(gòu)建往往面臨著三個方面的挑戰(zhàn):缺乏用于訓練的多模態(tài)數(shù)據(jù)集:由于醫(yī)學本身的特殊性,醫(yī)療任務通常需要處理多模態(tài)數(shù)據(jù),包括文本信息(電子健康記錄,醫(yī)學報告)、1D 信號(心電圖)、2D 影像(超聲、X 射線)、3D 影像(CT 或 MRI 掃描)、基因組學等。為了支持醫(yī)學通用基礎模型的訓練,大規(guī)模多模態(tài)數(shù)據(jù)集的構(gòu)建十分迫切。缺乏通用的架構(gòu)設計:在臨床醫(yī)療診斷中,常常需要綜合考慮多個檢查結(jié)果來做出全面判斷,然而,以往的醫(yī)療影像分析工作通常只專注于單一模態(tài)和單一任務,需要為每個任務設計不同的架構(gòu),難以適應臨床綜合診斷的需求。
醫(yī)學領域的基礎模型需要一個通用的架構(gòu),能夠有效融合不同模態(tài)的信息,從而應對廣泛的臨床任務。缺乏有效的基準來評估模型:對模型的臨床知識進行基準測試主要依賴于多種任務的數(shù)據(jù)集,而這些數(shù)據(jù)集的測試案例數(shù)量有限。目前醫(yī)療領域尚未建立一個大規(guī)模、復雜的基準,可以用于全面衡量醫(yī)學基礎模型在中醫(yī)療任務上的性能??紤]到上述挑戰(zhàn),研究團隊聚焦于構(gòu)建放射學領域的醫(yī)學通用基礎模型。放射學領域的圖像模態(tài)種類豐富,影像與報告配對數(shù)據(jù)也相對較多,且放射學在臨床場景中的應用也十分廣泛,例如疾病診斷、治療規(guī)劃和患者進展監(jiān)測等等。具體來說,該論文做出了如下技術貢獻:數(shù)據(jù)上:提供了全新的目前世界上最大規(guī)模的醫(yī)療多模態(tài)數(shù)據(jù)集 MedMD&RadMD,是首個包含 3D 數(shù)據(jù)的大規(guī)模醫(yī)療多模態(tài)數(shù)據(jù)集,含 15.5M 2D 圖像和 180k 的 3D 醫(yī)療影像。模型上:開源了 14B 多模態(tài)基礎模型 RadFM,支持 2D/3D、圖像 / 文本混合輸入。測試上:定義了醫(yī)療基礎模型五大基本任務 —— 模態(tài)識別、疾病診斷、醫(yī)療問答、報告生成和歸因分析,并提供了一個全面的基準——RadBench。
臨床價值本文提出的基礎模型 RadFM 具有巨大的臨床應用意義:支持三維數(shù)據(jù):在實際臨床環(huán)境中,CT 和 MRI 被廣泛使用,大多數(shù)疾病的診斷在很大程度上依賴于它們。RadFM 的模型設計能夠處理真實的臨床成像數(shù)據(jù)。多圖像輸入:合診斷通常需要輸入來自各種模態(tài)的多影像作為輸入,有時甚至需要歷史放射圖像,因此支持多圖像輸入 RadFM 能夠很好的滿足此類臨床需求。交錯數(shù)據(jù)格式:在臨床實踐中,圖像分析通常需要了解患者的病史或背景。交錯數(shù)據(jù)格式允許用戶自由輸入額外的圖像背景信息,確保模型能結(jié)合多源信息完成復雜的臨床決策任務。
與現(xiàn)有的所有醫(yī)學基礎模型相比,RadFM 是第一個同時滿足上述三點要求的模型,對醫(yī)療基礎模型投入實際臨床應用具有巨大推動作用。接下來將從數(shù)據(jù)、模型、測試三個角度具體介紹原文細節(jié):多模態(tài)數(shù)據(jù) MedMD&RadMD研究團隊構(gòu)建了一個當前最大規(guī)模的醫(yī)療多模態(tài)數(shù)據(jù)集 MedMD,是目前首個包含 3D 數(shù)據(jù)的大規(guī)模醫(yī)療多模態(tài)數(shù)據(jù)集,包含 15.5M 2D 圖像和 180k 的 3D 醫(yī)療影像,也并附帶文本描述,例如放射學報告、視覺語言指令或相對應的疾病診斷標簽。MedMD 涵蓋了人體各種放射學模態(tài)和解剖區(qū)域,橫跨 17 個醫(yī)療系統(tǒng),如乳腺、心臟、中樞神經(jīng)系統(tǒng)、胸部、胃腸道、婦科、血液、頭頸部、肝膽、肌肉骨骼、產(chǎn)科、腫瘤、兒科、脊柱、創(chuàng)傷、泌尿和血管,包含超過 5000 種疾病,如下圖 1、2、3 所示。此外,研究團隊還基于 MedMD, 給出了一個放射學多模態(tài)數(shù)據(jù)集 RadMD。

圖 12:RadFM 在 PadChest 上對于未見類直接診斷的結(jié)果,其他多模態(tài)基礎模型都只能取得隨機的預測結(jié)果(0.5 ACC)局限性當前醫(yī)學基礎模型的發(fā)展盡管取得了顯著進展,卻仍存在多方面的局限性,本文作者提出了如下幾點方向:模型絕對性能。雖然 RadFM 大幅超越了舊有基礎模型,但多模態(tài)基礎模型在零樣本情況下的文本生成質(zhì)量仍未能滿足臨床醫(yī)生的期望水平。3D 數(shù)據(jù)缺乏。比較于 2D 數(shù)據(jù)易于收集,在真實臨床中廣泛使用的 3D 數(shù)據(jù)在目前醫(yī)學數(shù)據(jù)庫中仍舊只是少數(shù)。評測指標模糊。目前存在一個缺乏令人信服的醫(yī)學文本質(zhì)量比對評測指標的問題。傳統(tǒng)的翻譯指標在醫(yī)療場景下幾乎失去了意義。例如,對于「病人有肺炎」和「病人無肺炎」兩句話,在傳統(tǒng)指標下可能獲得極高的分數(shù),但這種差異在醫(yī)療場景中是不可接受的。相反,「在肺部見肺炎影像特征」與「病人有肺炎」這兩句信息幾乎一致的話語,在現(xiàn)有指標下反而可能呈現(xiàn)較低的分數(shù)。因此,急需建立更符合醫(yī)學實際需求的評測標準。
總結(jié)在當前的醫(yī)療領域,已經(jīng)陸續(xù)涌現(xiàn)了一些多模態(tài)的基礎模型,例如微軟的 LLaVA-Med 和谷歌的 Med-PaLM M,包括最新的 Med Flamingo。然而,這些模型都還是受限于 2D 的圖像輸入,且其中只有最新的 Med Flamingo 可以支持交錯的圖文輸入。在醫(yī)療領域中,常見的診療影像往往是 3D 的圖像,同時,診療任務通常需要綜合多張圖像來作出準確判斷。為了解決上述問題,研究團隊決定將重點放在放射影像領域,提出模型 RadFM,允許同時處理 2D 和 3D 多模態(tài)的醫(yī)療數(shù)據(jù),例如 CT、MRI 等。而且,該模型能夠綜合處理多張相關影像,提供更全面和準確的信息,有望在診斷和治療等方面取得更好的效果。同時,針對模型的評估,研究團隊綜合了多個挑戰(zhàn)性的任務提出了一個新的 benchmark 以及更科學的醫(yī)療任務評測指標,以此為參考,不斷優(yōu)化數(shù)據(jù)與模型,歡迎大家持續(xù)關注。完整論文目錄:
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關的任何行動之前,請務必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。