首頁 > AI資訊 > 行業(yè)動態(tài) > 輕量開源!微軟基礎(chǔ)模型LLaVA-Rad:自動生成高質(zhì)量放射學(xué)報告

輕量開源!微軟基礎(chǔ)模型LLaVA-Rad:自動生成高質(zhì)量放射學(xué)報告

新火種    2025-02-13

圖片

編輯丨coisini

多模態(tài)生成式人工智能的最新進展已將生物醫(yī)學(xué)應(yīng)用擴展到同時處理文本和圖像,在視覺問答和放射學(xué)報告生成等任務(wù)中展現(xiàn)出潛力。然而,這些模型在臨床實現(xiàn)中面臨挑戰(zhàn),特別是大型模型在計算成本等方面帶來了部署難題。小型多模態(tài)模型(SMM)雖然更高效,但與大型模型相比仍存在顯著性能差距。此外,缺乏可訪問的開源模型和可靠的事實正確性評估方法,特別是模型幻覺為臨床采用設(shè)置了重大障礙。

來自微軟研究院、華盛頓大學(xué)、斯坦福大學(xué)、南加州大學(xué)、加州大學(xué)戴維斯分校和加州大學(xué)舊金山分校的研究人員提出了一種新型小型多模態(tài)模型(SMM)——LLaVA-Rad,以及用于事實正確性自動評分的新指標(biāo) CheXprompt。

圖片

論文地址:https://arxiv.org/pdf/2403.08002

LLaVA-Rad 專注于胸部 X 光(CXR)成像,旨在為醫(yī)學(xué)影像檢查自動生成高質(zhì)量放射學(xué)報告。該模型在七個不同來源的數(shù)據(jù)集上進行了訓(xùn)練,共包含 697435 對放射學(xué)圖像 - 報告,并在僅有結(jié)構(gòu)化標(biāo)簽時利用 GPT-4 進行報告合成。

值得一提的是,LLaVA-Rad 僅需單個 V100 GPU 進行推理,并使用 8 個 A100 集群在一天內(nèi)完成訓(xùn)練。

圖片

LLaVA-Rad 的架構(gòu)代表了一種小型多模態(tài)模型(SMM)的全新方法,盡管其規(guī)模顯著小于Med-PaLMM 等模型,但仍實現(xiàn)了卓越的性能。該模型的設(shè)計理念圍繞將訓(xùn)練過程分解為不同的階段:單模態(tài)預(yù)訓(xùn)練和輕量級跨模態(tài)學(xué)習(xí)。

LLaVA-Rad 的架構(gòu)采用了一種高效的適配器機制,將非文本模態(tài)嵌入到文本嵌入空間中。訓(xùn)練過程分為三個階段:預(yù)訓(xùn)練、對齊和微調(diào)。這種模塊化方法實現(xiàn)了穩(wěn)健的單模態(tài)模型開發(fā)和有效的跨模態(tài)適應(yīng)。

圖片

與類似規(guī)模的模型(如 LLaVA-Med、CheXagent 和 MAIRA-1,均為 70 億參數(shù))相比,LLaVA-Rad 表現(xiàn)出卓越的性能。并且,盡管規(guī)模顯著較小,但 LLaVA-Rad 在關(guān)鍵指標(biāo)上超越了 Med-PaLM M 模型,在放射學(xué)文本評估中,ROUGE-L 提高了 12.1%,F(xiàn)1-RadGraph 提高了 10.1%。

圖片

LLaVA-Rad 在多個數(shù)據(jù)集(包括 CheXpert 和 Open-I)上均保持了優(yōu)異性能,即使在測試未見過數(shù)據(jù)時也是如此。這歸功于 LLaVA-Rad 的模塊化設(shè)計和數(shù)據(jù)高效架構(gòu)。LLaVA-Rad 的整體性能和計算效率使其在實際應(yīng)用中極具實用性。

感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責(zé)任。

熱門文章