久久这,免费视频色,成年免费视频黄网站在线观看

首頁 > AI資訊 > 最新資訊 > 全球首個開源多模態(tài)醫(yī)療基礎模型：人工打分平均超越GPT-4V、支持2D/3D放射影像

全球首個開源多模態(tài)醫(yī)療基礎模型：人工打分平均超越GPT-4V、支持2D/3D放射影像

新火種 2023-12-05

本文中，上海交大 & 上海 AI Lab 發(fā)布 Radiology Foundation Model (RadFM)，開源 14B 多模態(tài)醫(yī)療基礎模型，首次支持 2D/3D 放射影像輸入。

研究背景GPT4 等一系列大型基礎模型的迅猛發(fā)展突破了人工智能技術的邊界，為眾多垂直領域帶來了新的發(fā)展機遇和挑戰(zhàn)。在醫(yī)學領域，構(gòu)建強大而全面的基礎模型，可以為臨床醫(yī)療任務提供更為智能、高效的解決方案，為醫(yī)護人員和患者創(chuàng)造更為優(yōu)質(zhì)的醫(yī)療體驗，開啟醫(yī)學領域技術創(chuàng)新的新篇章。然而，當前醫(yī)學領域的基礎模型的構(gòu)建往往面臨著三個方面的挑戰(zhàn)：缺乏用于訓練的多模態(tài)數(shù)據(jù)集：由于醫(yī)學本身的特殊性，醫(yī)療任務通常需要處理多模態(tài)數(shù)據(jù)，包括文本信息（電子健康記錄，醫(yī)學報告）、1D 信號（心電圖）、2D 影像（超聲、X 射線）、3D 影像（CT 或 MRI 掃描）、基因組學等。為了支持醫(yī)學通用基礎模型的訓練，大規(guī)模多模態(tài)數(shù)據(jù)集的構(gòu)建十分迫切。缺乏通用的架構(gòu)設計：在臨床醫(yī)療診斷中，常常需要綜合考慮多個檢查結(jié)果來做出全面判斷，然而，以往的醫(yī)療影像分析工作通常只專注于單一模態(tài)和單一任務，需要為每個任務設計不同的架構(gòu)，難以適應臨床綜合診斷的需求。

醫(yī)學領域的基礎模型需要一個通用的架構(gòu)，能夠有效融合不同模態(tài)的信息，從而應對廣泛的臨床任務。缺乏有效的基準來評估模型：對模型的臨床知識進行基準測試主要依賴于多種任務的數(shù)據(jù)集，而這些數(shù)據(jù)集的測試案例數(shù)量有限。目前醫(yī)療領域尚未建立一個大規(guī)模、復雜的基準，可以用于全面衡量醫(yī)學基礎模型在中醫(yī)療任務上的性能?？紤]到上述挑戰(zhàn)，研究團隊聚焦于構(gòu)建放射學領域的醫(yī)學通用基礎模型。放射學領域的圖像模態(tài)種類豐富，影像與報告配對數(shù)據(jù)也相對較多，且放射學在臨床場景中的應用也十分廣泛，例如疾病診斷、治療規(guī)劃和患者進展監(jiān)測等等。具體來說，該論文做出了如下技術貢獻：數(shù)據(jù)上：提供了全新的目前世界上最大規(guī)模的醫(yī)療多模態(tài)數(shù)據(jù)集 MedMD&RadMD，是首個包含 3D 數(shù)據(jù)的大規(guī)模醫(yī)療多模態(tài)數(shù)據(jù)集，含 15.5M 2D 圖像和 180k 的 3D 醫(yī)療影像。模型上：開源了 14B 多模態(tài)基礎模型 RadFM，支持 2D/3D、圖像 / 文本混合輸入。測試上：定義了醫(yī)療基礎模型五大基本任務 —— 模態(tài)識別、疾病診斷、醫(yī)療問答、報告生成和歸因分析，并提供了一個全面的基準——RadBench。

臨床價值本文提出的基礎模型 RadFM 具有巨大的臨床應用意義：支持三維數(shù)據(jù)：在實際臨床環(huán)境中，CT 和 MRI 被廣泛使用，大多數(shù)疾病的診斷在很大程度上依賴于它們。RadFM 的模型設計能夠處理真實的臨床成像數(shù)據(jù)。多圖像輸入：合診斷通常需要輸入來自各種模態(tài)的多影像作為輸入，有時甚至需要歷史放射圖像，因此支持多圖像輸入 RadFM 能夠很好的滿足此類臨床需求。交錯數(shù)據(jù)格式：在臨床實踐中，圖像分析通常需要了解患者的病史或背景。交錯數(shù)據(jù)格式允許用戶自由輸入額外的圖像背景信息，確保模型能結(jié)合多源信息完成復雜的臨床決策任務。

與現(xiàn)有的所有醫(yī)學基礎模型相比，RadFM 是第一個同時滿足上述三點要求的模型，對醫(yī)療基礎模型投入實際臨床應用具有巨大推動作用。接下來將從數(shù)據(jù)、模型、測試三個角度具體介紹原文細節(jié)：多模態(tài)數(shù)據(jù) MedMD&RadMD研究團隊構(gòu)建了一個當前最大規(guī)模的醫(yī)療多模態(tài)數(shù)據(jù)集 MedMD，是目前首個包含 3D 數(shù)據(jù)的大規(guī)模醫(yī)療多模態(tài)數(shù)據(jù)集，包含 15.5M 2D 圖像和 180k 的 3D 醫(yī)療影像，也并附帶文本描述，例如放射學報告、視覺語言指令或相對應的疾病診斷標簽。MedMD 涵蓋了人體各種放射學模態(tài)和解剖區(qū)域，橫跨 17 個醫(yī)療系統(tǒng)，如乳腺、心臟、中樞神經(jīng)系統(tǒng)、胸部、胃腸道、婦科、血液、頭頸部、肝膽、肌肉骨骼、產(chǎn)科、腫瘤、兒科、脊柱、創(chuàng)傷、泌尿和血管，包含超過 5000 種疾病，如下圖 1、2、3 所示。此外，研究團隊還基于 MedMD, 給出了一個放射學多模態(tài)數(shù)據(jù)集 RadMD。

圖 1: MedMD 數(shù)據(jù)樣例展示

圖 2: MedMD 各部分數(shù)據(jù)構(gòu)成展示

圖 3: RadMD 上模態(tài)、2D/3D、Anatomy 分布展示模型架構(gòu) RadFMRadFM 是一個多模態(tài)的放射學基礎模型，能夠?qū)⒆匀徽Z言無縫地與 2D 或 3D 醫(yī)學掃描相結(jié)合，并通過文本輸出來解決廣泛的醫(yī)學任務。模型架構(gòu)如下圖 4 所示，研究團隊首先在 MedMD 數(shù)據(jù)集上對該模型進行了預訓練，然后在一個經(jīng)過篩選的數(shù)據(jù)集 RadMD 上進行視覺指令微調(diào)。RadMD 包含 3M 對放射學相關的多模態(tài)數(shù)據(jù)，確保了針對特定領域的微調(diào)過程中數(shù)據(jù)集的高質(zhì)量和可靠性。

圖 4: RadFM 模型架構(gòu)。RadFM 首先在大規(guī)模的數(shù)據(jù)集 MedMD 上進行 Pre-training 然后在 RadMD 上進行領域適配。在模型架構(gòu)上，RadFM 首次支持了 2D 和 3D 自由混合，文本和圖像自由混合的輸入形式。測試基準 RadBench為了更好的評估放射學基礎模型的性能，研究團隊建立了一個全新的、綜合性的評估基準，涵蓋了五大臨床放射任務 —— 模態(tài)識別、疾病診斷、醫(yī)療問答、報告生成和診斷歸因。并與最新的開源多模態(tài)模型進行了比較，例如 Med-flamingo（斯坦福團隊）和 MedVInT（上海交大 & 上海人工智能實驗室）。模型結(jié)果RadBench 上自動評測與人工打分研究團隊優(yōu)先考慮了自動的評測指標進行了大規(guī)模的比較，另外，考慮到生成任務自動指標不可靠的問題，進一步引入了人工打分。在人工打分上，研究團隊還與 OpenAI 發(fā)布的 GPT-4V（ision）進行了比較，平均分數(shù)超越 GPT-4V，結(jié)果如圖 5、6 所示。

圖 5：RadFM 在多個任務上與現(xiàn)有多模態(tài)醫(yī)療模型的對比，右下為人工打分（5 分制）比較

圖 6 RadFM 與各大多模態(tài)基礎模型的在五大任務上的對比

圖 7 人工打分系統(tǒng)樣例展示RadFM 結(jié)果可視化圖 9-10 展示了 RadFM 在 Medical VQA 醫(yī)療視覺問答任務，放射報告生成任務以及推理診斷任務上的結(jié)果。從圖中可以看出，該模型能夠準確判斷圖像對應的解剖部位。然而，在具體的異常判斷方面，仍然存在一些改進的空間。當模型能夠提供正確的影像學特征的情況下，模型的診斷結(jié)果也會更加準確，證明了推理診斷的必要性。

圖 8: RadFM 在 Medical VQA 任務上的性能展示

圖 9：RadFM 在報告生成上的性能展示

圖 10：RadFM 在診斷歸因上的性能展示RadFM 的遷移性另外在各大公開的不同任務、不同模態(tài)（2D/3D）的 benchmark 上， RadFM 也展示了強大的可遷移性，在多個數(shù)據(jù)集上超越了現(xiàn)有的 SOTA 模型，結(jié)果如圖 11：

圖 11：RadFM 在各大 benchmark 上與 SOTA 的對比最后 RadFM 還涌現(xiàn)出了對于未見疾病的診斷能力，如圖 12 所示：

圖 12：RadFM 在 PadChest 上對于未見類直接診斷的結(jié)果，其他多模態(tài)基礎模型都只能取得隨機的預測結(jié)果（0.5 ACC）局限性當前醫(yī)學基礎模型的發(fā)展盡管取得了顯著進展，卻仍存在多方面的局限性，本文作者提出了如下幾點方向：模型絕對性能。雖然 RadFM 大幅超越了舊有基礎模型，但多模態(tài)基礎模型在零樣本情況下的文本生成質(zhì)量仍未能滿足臨床醫(yī)生的期望水平。3D 數(shù)據(jù)缺乏。比較于 2D 數(shù)據(jù)易于收集，在真實臨床中廣泛使用的 3D 數(shù)據(jù)在目前醫(yī)學數(shù)據(jù)庫中仍舊只是少數(shù)。評測指標模糊。目前存在一個缺乏令人信服的醫(yī)學文本質(zhì)量比對評測指標的問題。傳統(tǒng)的翻譯指標在醫(yī)療場景下幾乎失去了意義。例如，對于「病人有肺炎」和「病人無肺炎」兩句話，在傳統(tǒng)指標下可能獲得極高的分數(shù)，但這種差異在醫(yī)療場景中是不可接受的。相反，「在肺部見肺炎影像特征」與「病人有肺炎」這兩句信息幾乎一致的話語，在現(xiàn)有指標下反而可能呈現(xiàn)較低的分數(shù)。因此，急需建立更符合醫(yī)學實際需求的評測標準。

總結(jié)在當前的醫(yī)療領域，已經(jīng)陸續(xù)涌現(xiàn)了一些多模態(tài)的基礎模型，例如微軟的 LLaVA-Med 和谷歌的 Med-PaLM M，包括最新的 Med Flamingo。然而，這些模型都還是受限于 2D 的圖像輸入，且其中只有最新的 Med Flamingo 可以支持交錯的圖文輸入。在醫(yī)療領域中，常見的診療影像往往是 3D 的圖像，同時，診療任務通常需要綜合多張圖像來作出準確判斷。為了解決上述問題，研究團隊決定將重點放在放射影像領域，提出模型 RadFM，允許同時處理 2D 和 3D 多模態(tài)的醫(yī)療數(shù)據(jù)，例如 CT、MRI 等。而且，該模型能夠綜合處理多張相關影像，提供更全面和準確的信息，有望在診斷和治療等方面取得更好的效果。同時，針對模型的評估，研究團隊綜合了多個挑戰(zhàn)性的任務提出了一個新的 benchmark 以及更科學的醫(yī)療任務評測指標，以此為參考，不斷優(yōu)化數(shù)據(jù)與模型，歡迎大家持續(xù)關注。完整論文目錄：

Tags:

深度學習模型影像

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內(nèi)容相關的任何行動之前，請務必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

全球首個開源多模態(tài)醫(yī)療基礎模型：人工打分平均超越GPT-4V、支持2D/3D放射影像

NVIDIA深度適配通義千問大模型，推出艙駕融合大模型解決方案

NVIDIA深度適配通義千問大模型推出艙駕融合大模型解決方案

哈啰亮相2024云棲大會：展示AI整體布局及大模型案例

在線可玩！智譜開源圖生視頻模型，網(wǎng)友直呼Amazing！

奧特曼：o1僅僅是“推理模型的GPT-2”；黃仁勛：我給你加速50倍

熱門文章

全球首個開源多模態(tài)醫(yī)療基礎模型：人工打分平均超越GPT-4V、支持2D/3D放射影像

NVIDIA深度適配通義千問大模型，推出艙駕融合大模型解決方案

NVIDIA深度適配通義千問大模型推出艙駕融合大模型解決方案

哈啰亮相2024云棲大會：展示AI整體布局及大模型案例

在線可玩！智譜開源圖生視頻模型，網(wǎng)友直呼Amazing！

奧特曼：o1僅僅是“推理模型的GPT-2”；黃仁勛：我給你加速50倍

熱門文章

全球首個開源多模態(tài)醫(yī)療基礎模型：人工打分平均超越GPT-4V、支持2D/3D放射影像

NVIDIA深度適配通義千問大模型，推出艙駕融合大模型解決方案

在線可玩！智譜開源圖生視頻模型，網(wǎng)友直呼Amazing！