首頁 > AI資訊 > 最新資訊 > 90%成功響應率,整合約9000個樣本,統合癌癥蛋白質組學的LLM驅動平臺

90%成功響應率,整合約9000個樣本,統合癌癥蛋白質組學的LLM驅動平臺

新火種    2025-03-11
圖片

編輯丨&

功能蛋白質組學為癌癥機制提供了關鍵見解,有助于發現新的生物標志物和治療靶點。為了充分利用他們整合的將近 500 份高質量抗體的精選組合,美國德克薩斯大學決定采用 LLM 驅動來使資源更高效。

他們推出了 DrBioRight 2.0,這是一個由最先進的大型語言模型提供支持的直觀生物信息學平臺。使研究人員能夠探索以蛋白質為中心的癌癥組學數據,進行高級分析,可視化結果,并使用自然語言參與交互式討論。

通過簡化復雜的蛋白質基因組學分析,該工具可加速將大規模功能蛋白質組學數據轉化為有意義的生物醫學見解。

該研究以「DrBioRight 2.0: an LLM-powered bioinformatics chatbot for large-scale cancer functional proteomics analysis」為題,于 2025 年 3 月 6 日刊登于《Nature Communications》。

圖片

DrBioRight 2.0

在過去的十年中,癌癥組學數據的生成取得了顯著進展,特別是在患者腫瘤的 DNA 和 RNA 水平上,都產生了具有里程碑意義的舉措。

然而,兩個顯著的挑戰限制了 TCPA 的直接效用。首先,以前的 RPPA 數據對蛋白質標志物的覆蓋范圍有限。其次,數據門戶僅提供幾個預定義的分析模塊,對于用戶定義的分析幾乎沒有靈活性。

團隊將 RPPA 蛋白檢測組合擴展到大約 500 種高質量抗體,為全面、高質量的泛癌功能蛋白質組學綱要整合了來自 TCGA 和 CCLE 樣本的數據。

他們推出的 DrBioRight 2.0,旨在降低技術門檻,實現復雜組學數據的無縫分析。具有不同背景的用戶可以通過直觀的自然語言查詢輕松無縫地訪問、分析和可視化數據。

圖 1

圖 1:DrBioRight 2.0 中的數據集成工作流程和關鍵創新概述。(圖源:論文)

RPPA500 蛋白檢測組合全面涵蓋了所有 50 個標志性基因集,與之前的蛋白質組合相比,這些基因集中的總蛋白質數量顯著增加了 115%,PTM 蛋白的數量增加了 67%,突出了在蛋白質水平上理解癌癥生物學的能力顯著提高。

在這個平臺中,團隊首先生成了一個統一的多組學數據集,基于 DNA、RNA 和 RPPA500 的蛋白質水平的分子分析數據,以及細胞系表型數據集,超過 10 億個數據值采用 HDF5 格式在 I/O 高效的基于云的服務器上托管的 No-SQL 數據庫中進行整理和重組。

平臺的功能性

DrBioRight 具有傳統分析平臺所不具備的多項功能,包括自然語言理解、透明度和可重復性以及用戶友好性。與 TCPA 之前的分析模塊相比,DrBioRight 通過提供多功能分析而與眾不同。

DrBioRight 的另一個值得注意的特點是它在分析驅動問題和一般問題之間無縫過渡。它還允許用戶以 R markdown 文件的形式下載相應的項目報告,并在 RStudio 中本地運行以重現分析。

這些功能共同將 DrBioRight 定位為一種非常方便的分析工具,為數據分析提供無與倫比的靈活性和定制性。

圖 2

圖 2:DrBioRight 2.0 平臺概述。(圖源:論文)

為了最大限度地提高 DrBioRight 2.0 的性能,團隊實施了尖端技術來增強 LLM。他們整合了一個多代理工作流程,以使用圖架構構建分層代理團隊。

每個團隊由一個或多個代理程序或工具組成。相關性分析工具執行特征之間的關聯分析,包括蛋白質表達、突變和臨床變量。主管將特定于團隊的問題路由到適當的工具,以執行任務和分析結果。

為了微調 LLM,他們還請專家審查策劃和標準化了數千個用戶查詢,創建了訓練和測試數據集。基于微調模型,開發了一款評估系統允許領域 AI 專家相應進行排名。

當使用 LangGraph 在基于圖的工作流程下對同一組問題采用微調模型時,該平臺取得了令人印象深刻的 90% 的成功率。

圖 3

圖 3:微調過程和模型評估概述。(圖源:論文)

高效高質的智能平臺

DrBioRight 2.0 代表了研究人員在癌癥蛋白質組學數據方面的重大進步,實現了三個關鍵里程碑。它拓寬了最常用的癌癥患者和細胞系隊列的蛋白質空間,為生物醫學研究人員提供了獨特而有價值的資源。

由 LLM 提供支持的聊天機器人 DrBioRight 提供了一個直觀、多功能且高度可定制的平臺,有效降低了進入門檻,使來自不同背景的研究人員能夠在沒有廣泛領域知識的情況下有效地分析數據。

數據資源和 LLM 之間的深度集成顯著放大了此類資源的效用。這種集成不僅提高了數據的可訪問性,加快了用戶——開發人員的反饋循環。

與在開發和迭代過程中通常需要大量集成和協調工作的傳統工具相比,DrBioRight 通過其全面的數據資源和高級 LLM 的獨特組合巧妙地解決了這些挑戰。

原文鏈接:https://www.nature.com/articles/s41467-025-57430-4

數據鏈接:https://drbioright.org/resources/

相關代碼:https://drbioright.org

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章