首頁 > AI資訊 > 最新資訊 > 全球首個開源多模態(tài)醫(yī)療基礎模型:人工打分平均超越GPT-4V、支持2D/3D放射影像

全球首個開源多模態(tài)醫(yī)療基礎模型:人工打分平均超越GPT-4V、支持2D/3D放射影像

新火種    2023-12-05
本文中,上海交大 & 上海 AI Lab 發(fā)布 Radiology Foundation Model (RadFM),開源 14B 多模態(tài)醫(yī)療基礎模型,首次支持 2D/3D 放射影像輸入。

圖片

研究背景GPT4 等一系列大型基礎模型的迅猛發(fā)展突破了人工智能技術的邊界,為眾多垂直領域帶來了新的發(fā)展機遇和挑戰(zhàn)。在醫(yī)學領域,構(gòu)建強大而全面的基礎模型,可以為臨床醫(yī)療任務提供更為智能、高效的解決方案,為醫(yī)護人員和患者創(chuàng)造更為優(yōu)質(zhì)的醫(yī)療體驗,開啟醫(yī)學領域技術創(chuàng)新的新篇章。然而,當前醫(yī)學領域的基礎模型的構(gòu)建往往面臨著三個方面的挑戰(zhàn):缺乏用于訓練的多模態(tài)數(shù)據(jù)集:由于醫(yī)學本身的特殊性,醫(yī)療任務通常需要處理多模態(tài)數(shù)據(jù),包括文本信息(電子健康記錄,醫(yī)學報告)、1D 信號(心電圖)、2D 影像(超聲、X 射線)、3D 影像(CT 或 MRI 掃描)、基因組學等。為了支持醫(yī)學通用基礎模型的訓練,大規(guī)模多模態(tài)數(shù)據(jù)集的構(gòu)建十分迫切。缺乏通用的架構(gòu)設計:在臨床醫(yī)療診斷中,常常需要綜合考慮多個檢查結(jié)果來做出全面判斷,然而,以往的醫(yī)療影像分析工作通常只專注于單一模態(tài)和單一任務,需要為每個任務設計不同的架構(gòu),難以適應臨床綜合診斷的需求。

醫(yī)學領域的基礎模型需要一個通用的架構(gòu),能夠有效融合不同模態(tài)的信息,從而應對廣泛的臨床任務。缺乏有效的基準來評估模型:對模型的臨床知識進行基準測試主要依賴于多種任務的數(shù)據(jù)集,而這些數(shù)據(jù)集的測試案例數(shù)量有限。目前醫(yī)療領域尚未建立一個大規(guī)模、復雜的基準,可以用于全面衡量醫(yī)學基礎模型在中醫(yī)療任務上的性能??紤]到上述挑戰(zhàn),研究團隊聚焦于構(gòu)建放射學領域的醫(yī)學通用基礎模型。放射學領域的圖像模態(tài)種類豐富,影像與報告配對數(shù)據(jù)也相對較多,且放射學在臨床場景中的應用也十分廣泛,例如疾病診斷、治療規(guī)劃和患者進展監(jiān)測等等。具體來說,該論文做出了如下技術貢獻:數(shù)據(jù)上:提供了全新的目前世界上最大規(guī)模的醫(yī)療多模態(tài)數(shù)據(jù)集 MedMD&RadMD,是首個包含 3D 數(shù)據(jù)的大規(guī)模醫(yī)療多模態(tài)數(shù)據(jù)集,含 15.5M 2D 圖像和 180k 的 3D 醫(yī)療影像。模型上:開源了 14B 多模態(tài)基礎模型 RadFM,支持 2D/3D、圖像 / 文本混合輸入。測試上:定義了醫(yī)療基礎模型五大基本任務 —— 模態(tài)識別、疾病診斷、醫(yī)療問答、報告生成和歸因分析,并提供了一個全面的基準——RadBench。

臨床價值本文提出的基礎模型 RadFM 具有巨大的臨床應用意義:支持三維數(shù)據(jù):在實際臨床環(huán)境中,CT 和 MRI 被廣泛使用,大多數(shù)疾病的診斷在很大程度上依賴于它們。RadFM 的模型設計能夠處理真實的臨床成像數(shù)據(jù)。多圖像輸入:合診斷通常需要輸入來自各種模態(tài)的多影像作為輸入,有時甚至需要歷史放射圖像,因此支持多圖像輸入 RadFM 能夠很好的滿足此類臨床需求。交錯數(shù)據(jù)格式:在臨床實踐中,圖像分析通常需要了解患者的病史或背景。交錯數(shù)據(jù)格式允許用戶自由輸入額外的圖像背景信息,確保模型能結(jié)合多源信息完成復雜的臨床決策任務。

與現(xiàn)有的所有醫(yī)學基礎模型相比,RadFM 是第一個同時滿足上述三點要求的模型,對醫(yī)療基礎模型投入實際臨床應用具有巨大推動作用。接下來將從數(shù)據(jù)、模型、測試三個角度具體介紹原文細節(jié):多模態(tài)數(shù)據(jù) MedMD&RadMD研究團隊構(gòu)建了一個當前最大規(guī)模的醫(yī)療多模態(tài)數(shù)據(jù)集 MedMD,是目前首個包含 3D 數(shù)據(jù)的大規(guī)模醫(yī)療多模態(tài)數(shù)據(jù)集,包含 15.5M 2D 圖像和 180k 的 3D 醫(yī)療影像,也并附帶文本描述,例如放射學報告、視覺語言指令或相對應的疾病診斷標簽。MedMD 涵蓋了人體各種放射學模態(tài)和解剖區(qū)域,橫跨 17 個醫(yī)療系統(tǒng),如乳腺、心臟、中樞神經(jīng)系統(tǒng)、胸部、胃腸道、婦科、血液、頭頸部、肝膽、肌肉骨骼、產(chǎn)科、腫瘤、兒科、脊柱、創(chuàng)傷、泌尿和血管,包含超過 5000 種疾病,如下圖 1、2、3 所示。此外,研究團隊還基于 MedMD, 給出了一個放射學多模態(tài)數(shù)據(jù)集 RadMD。

圖片

圖 1: MedMD 數(shù)據(jù)樣例展示圖片圖 2: MedMD 各部分數(shù)據(jù)構(gòu)成展示

圖片

圖 3: RadMD 上模態(tài)、2D/3D、Anatomy 分布展示模型架構(gòu) RadFMRadFM 是一個多模態(tài)的放射學基礎模型,能夠?qū)⒆匀徽Z言無縫地與 2D 或 3D 醫(yī)學掃描相結(jié)合,并通過文本輸出來解決廣泛的醫(yī)學任務。模型架構(gòu)如下圖 4 所示,研究團隊首先在 MedMD 數(shù)據(jù)集上對該模型進行了預訓練,然后在一個經(jīng)過篩選的數(shù)據(jù)集 RadMD 上進行視覺指令微調(diào)。RadMD 包含 3M 對放射學相關的多模態(tài)數(shù)據(jù),確保了針對特定領域的微調(diào)過程中數(shù)據(jù)集的高質(zhì)量和可靠性。

圖片

圖 4: RadFM 模型架構(gòu)。RadFM 首先在大規(guī)模的數(shù)據(jù)集 MedMD 上進行 Pre-training 然后在 RadMD 上進行領域適配。在模型架構(gòu)上,RadFM 首次支持了 2D 和 3D 自由混合,文本和圖像自由混合的輸入形式。測試基準 RadBench為了更好的評估放射學基礎模型的性能,研究團隊建立了一個全新的、綜合性的評估基準,涵蓋了五大臨床放射任務 —— 模態(tài)識別、疾病診斷、醫(yī)療問答、報告生成和診斷歸因。并與最新的開源多模態(tài)模型進行了比較,例如 Med-flamingo(斯坦福團隊)和 MedVInT(上海交大 & 上海人工智能實驗室)。模型結(jié)果RadBench 上自動評測與人工打分研究團隊優(yōu)先考慮了自動的評測指標進行了大規(guī)模的比較,另外,考慮到生成任務自動指標不可靠的問題,進一步引入了人工打分。在人工打分上,研究團隊還與 OpenAI 發(fā)布的 GPT-4V(ision)進行了比較,平均分數(shù)超越 GPT-4V,結(jié)果如圖 5、6 所示。

圖片

圖 5:RadFM 在多個任務上與現(xiàn)有多模態(tài)醫(yī)療模型的對比,右下為人工打分(5 分制)比較

圖片

圖 6 RadFM 與各大多模態(tài)基礎模型的在五大任務上的對比

圖片

圖 7 人工打分系統(tǒng)樣例展示RadFM 結(jié)果可視化圖 9-10 展示了 RadFM 在 Medical VQA 醫(yī)療視覺問答任務,放射報告生成任務以及推理診斷任務上的結(jié)果。從圖中可以看出,該模型能夠準確判斷圖像對應的解剖部位。然而,在具體的異常判斷方面,仍然存在一些改進的空間。當模型能夠提供正確的影像學特征的情況下,模型的診斷結(jié)果也會更加準確,證明了推理診斷的必要性。

圖片

圖 8: RadFM 在 Medical VQA 任務上的性能展示

圖片

圖 9:RadFM 在報告生成上的性能展示

圖片

圖 10:RadFM 在診斷歸因上的性能展示RadFM 的遷移性另外在各大公開的不同任務、不同模態(tài)(2D/3D)的 benchmark 上, RadFM 也展示了強大的可遷移性,在多個數(shù)據(jù)集上超越了現(xiàn)有的 SOTA 模型,結(jié)果如圖 11:

圖片

圖 11:RadFM 在各大 benchmark 上與 SOTA 的對比最后 RadFM 還涌現(xiàn)出了對于未見疾病的診斷能力,如圖 12 所示:

圖片

圖 12:RadFM 在 PadChest 上對于未見類直接診斷的結(jié)果,其他多模態(tài)基礎模型都只能取得隨機的預測結(jié)果(0.5 ACC)局限性當前醫(yī)學基礎模型的發(fā)展盡管取得了顯著進展,卻仍存在多方面的局限性,本文作者提出了如下幾點方向:模型絕對性能。雖然 RadFM 大幅超越了舊有基礎模型,但多模態(tài)基礎模型在零樣本情況下的文本生成質(zhì)量仍未能滿足臨床醫(yī)生的期望水平。3D 數(shù)據(jù)缺乏。比較于 2D 數(shù)據(jù)易于收集,在真實臨床中廣泛使用的 3D 數(shù)據(jù)在目前醫(yī)學數(shù)據(jù)庫中仍舊只是少數(shù)。評測指標模糊。目前存在一個缺乏令人信服的醫(yī)學文本質(zhì)量比對評測指標的問題。傳統(tǒng)的翻譯指標在醫(yī)療場景下幾乎失去了意義。例如,對于「病人有肺炎」和「病人無肺炎」兩句話,在傳統(tǒng)指標下可能獲得極高的分數(shù),但這種差異在醫(yī)療場景中是不可接受的。相反,「在肺部見肺炎影像特征」與「病人有肺炎」這兩句信息幾乎一致的話語,在現(xiàn)有指標下反而可能呈現(xiàn)較低的分數(shù)。因此,急需建立更符合醫(yī)學實際需求的評測標準。

總結(jié)在當前的醫(yī)療領域,已經(jīng)陸續(xù)涌現(xiàn)了一些多模態(tài)的基礎模型,例如微軟的 LLaVA-Med 和谷歌的 Med-PaLM M,包括最新的 Med Flamingo。然而,這些模型都還是受限于 2D 的圖像輸入,且其中只有最新的 Med Flamingo 可以支持交錯的圖文輸入。在醫(yī)療領域中,常見的診療影像往往是 3D 的圖像,同時,診療任務通常需要綜合多張圖像來作出準確判斷。為了解決上述問題,研究團隊決定將重點放在放射影像領域,提出模型 RadFM,允許同時處理 2D 和 3D 多模態(tài)的醫(yī)療數(shù)據(jù),例如 CT、MRI 等。而且,該模型能夠綜合處理多張相關影像,提供更全面和準確的信息,有望在診斷和治療等方面取得更好的效果。同時,針對模型的評估,研究團隊綜合了多個挑戰(zhàn)性的任務提出了一個新的 benchmark 以及更科學的醫(yī)療任務評測指標,以此為參考,不斷優(yōu)化數(shù)據(jù)與模型,歡迎大家持續(xù)關注。完整論文目錄:

圖片

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關的任何行動之前,請務必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章