首頁 > AI資訊 > 最新資訊 > 西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

新火種    2023-11-01

近日,由& 醫健AI掘金志主辦的GAIR「醫療科技高峰論壇」在深圳正式召開。

論壇上,西湖大學特聘研究員、西湖歐米創始人郭天南以《AI 賦能的蛋白質組大數據助力精準醫療》為題發表了演講。

郭天南表示:“AlphaFold2 使用 AI 技術在蛋白質結構預測上取得了突破性進展,但此類 AI 驅動的生命科學的更大價值將體現在蛋白質組學中。”

他說到,一個戰場上,有各類兵種和武器,各自的性能就如同是一個蛋白質的結構。要贏得一場戰斗,不僅要知道各類兵種和武器的性能,更需要知道他們的數量、運行及修復方式,以及所有軍力在整個作戰系統中的互動,這個過程在生命健康中就如同是動態的蛋白質組。這個類比在一定程度上體現了蛋白質結構和蛋白質組的關系。”

演講中,郭天南還重點介紹了一種新的蛋白質組大數據展示形式——怎樣將蛋白質組數據轉化成為張量(即 Tensor,多維矩陣)。

“張量可轉化為多種數據格式視頻,包括這里每個像素就是某個蛋白質的一個多肽的一個片段,平鋪后可以得到一副有規律的、類似宇宙的圖像,密集像素之間的間隔都是一個分子單位。這種數據可直接用于深度學習,將人體內的小宇宙轉化為大數據。”

以下為演講的全部內容,做了不改變原意的整理和編輯:

大家好,我是西湖大學特聘研究員郭天南,給大家分享AI 蛋白質組大數據輔助精準醫療的一些想法和實踐。

我的演講分為六個部分:

第一,什么是蛋白質組學;

第二,蛋白質組學最新臨床技術進展;

第三,蛋白質組學大數據的概念,以及AI 發揮的作用;

第四,AI 助力甲狀腺結節的診斷;

第五,AI 在尿檢中實現新冠肺炎分類;

第六,將蛋白質轉化為Tensor 的多維矩陣新概念。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

宏觀世界中存在各種各樣的疾病,不同的檢測方法會把結果以圖像、文字、數字等呈現在我們面前。而AI能將這些大數據進行整理、分析、歸納、預測,給我們的疾病診治帶來極大便利。

同時,還有一個我們看不到的微觀分子的世界,雖然目前還沒有技術可以直接看到微觀世界里分子機器如蛋白質等的具體呈現和動態,但它是真實存在的,并且所有生命活動都是在微觀世界中以蛋白質為主的分子層面上發生的。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

例如在感染新冠肺炎的時候,病毒入侵細胞后,細胞內各種蛋白質等分子會發生相應的改變。一個成年人大約有30 萬億個細胞,一個真菌細胞大約有4000 萬個蛋白質。而人體的每一個白細胞、紅細胞到底有多少種類型的蛋白質,而每一類蛋白質有多少個,現在還沒有準確數據。所以,人體其實包含了無數個非常宏大的微觀世界。

這張圖展示的是一個人的基因組,一個人的基因組基本上固定不變,從出生到死亡,心肝脾肺腎各個不同器官的基因組非常穩定。但每一個器官、每一個細胞都不一樣。我們有紅細胞、白細胞、神經細胞、腫瘤細胞等,它們在形態上有很大差別,功能也不盡相同,這些差別也主要體現在蛋白質層面,也就是蛋白質組。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

蛋白質組是一個非常復雜的體系,這里展示的是其中一些蛋白質,每一個蛋白質就像汽車的一個零件,研究所有蛋白質的科學就叫蛋白質組學(Proteomics),與基因組(Genomics)的概念相對應。

最近,在生命科學和AI 領域有一個突破性進展,將AI應用于蛋白質結構的預測,因為AI預測在理論上可以無限并行計算,也有人將之稱為“蛋白質組”結構的預測。

每一個蛋白質都有獨特的結構,并且這個結構處于動態變化中,不同蛋白質結構間還有相互作用,目前這些結構在一定程度上可以由AI 進行預測。

第一,蛋白質結構預測跟蛋白質組關系是什么?

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

我有一個比喻。這里展示有不同的戰士、不同的武器和不同的裝備,他們就如同是微觀分子世界的一個個蛋白質。每一個裝備有什么性能、有什么樣的形態、可以做什么,都需要研究。

而且,要贏得一場戰斗,還需要知道各種士兵和武器的數量、運行及修復方式,以及所有軍力在整個作戰系統中的互動,這個過程在生命健康中就是蛋白質組學。這個類比在一定程度上體現了蛋白質結構預測和蛋白質組學的關系。

第二,蛋白質組學的臨床最新技術進展。

我一直以來都是從事臨床蛋白質組研究,十幾年前還很難將蛋白質組學技術應用在臨床,因為當時蛋白質組學技術非常復雜,價格昂貴,距離臨床應用尚有很長的路。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

但最近幾年,這個領域有了顯著進步,多種新的技術可有效分析各類臨床樣品。

例如血清、血漿、尿液、眼淚、唾液等各種體液樣本,以及活體組織、石蠟切片、細胞等固體樣本,甚至像毛發、骨骼、牙齒、糞便等特殊組織樣本都可以進行蛋白質組分析,且只需極小量樣本就可進行蛋白質組分析。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

圖中這個案例的組織,直徑是0.5 毫米,上部90% 以上都是白色石蠟,下面紅色部分是僅肉眼可見的組織樣本。

在這部分組織上,我們可以提取出足夠量的樣本進行多次高通量的蛋白質組分析。通過獨特的壓力循環技術,3小時能處理16 個微量組織樣品;從組織提取到進行質譜分析,只需要3 個小時。

這是我們幾個月前在Cell發表的關于Clinical proteomics的Snapshot文章,總結了最新的針對各類臨床樣品的蛋白質組分析方法。

還有一個重要問題,蛋白質組分析的成本。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

根據估算,2006 年使用質譜測一個蛋白質的成本大約是3 美金;而2020 年測一個蛋白質的成本是0.1 美金左右。

如果用在臨床,經過更好地工業優化,使用質譜進行蛋白質檢測的成本還會進一步降低。

有了高通量微量蛋白質組學技術,我們就有可能將AI 納入蛋白質組學驅動的精準醫療當中。

AI 醫療的初衷是希望通過人工智能和醫療大數據來實現對疾病的早期預測、準確診斷、有效治療、靶點發現、預后判斷等。目前使用的醫療數據主要是臨床數據、圖像、文本分析,或簡單的生化檢測。

而組學數據正在興起,因為組學可以得到微觀世界分子的動態信息,其中蛋白質是最主要的靶點,幾乎所有藥物的靶點和效應分子都離不開蛋白質。我們在蛋白質組方面的進展會讓我們加深對生命的理解。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

上圖來自于我們最近的一篇綜述,AI醫療的核心驅動力是AI,還有臨床數據、蛋白質組、轉錄組、基因組。蛋白質組從臨床隊列到樣本到制備分析,整個流程會越來越容易,我們將產生越來越多的蛋白質組大數據。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

所以我們提出“蛋白質組大數據”概念。蛋白質組大數據可以通過各種臨床樣本含有的蛋白質組的內容,和各種蛋白質的量,獲取AI 醫療以前無法獲得的信息。

下面介紹一下蛋白質組在臨床上的應用。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

第一,甲狀腺結節。甲狀腺結節很常見,幾乎一半成年人都有甲狀腺結節,而這些絕大多數為良性。

如果出現甲狀腺結節,一般都是通過B 超、血液檢測進行診斷,如果懷疑結節是惡性的,還需要做穿刺活檢,判斷組織的良惡性。

如果是惡性,就要通過手術切除,雖然這并不是很大的手術。但切除之后,病人需要終生服用人工激素。因為甲狀腺是一個非常重要的器官,切除之后就無法分泌甲狀腺素。

這其中有個關鍵問題,30% 左右的甲狀腺結節目前無法判斷是良性還是惡性,因此患者通常有非常大的心理壓力。壓力之下,大多數人會選擇甲狀腺切除。但手術后卻經常發現其實是良性結節,原本并不需要切除這么重要的器官。這是因為缺乏對甲狀腺結節良惡性進行準確判斷的方法。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

美國有多項研究嘗試使用基因測序方法,為這些無法判斷的甲狀腺結節作

進一步診斷,通常要測100 多個基因,其中包括DNA 和RNA。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

以上表格是目前市面上所有經過FDA 批準的商業化試劑盒。經過第三方評估,發現這些檢測靈敏度很高,接近百分之百,但特異性只有10%-52%,也就是被判斷為惡性的結節,實際上有大約50%-90%是良性的,這就導致過度治療,大量良性甲狀腺結節被切除。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

所以,我們就嘗試開發基于蛋白質的甲狀腺結節診斷系統。具體來說,我們將新加坡578 位患者的數據作為訓練數據集。

首先這些患者的結節良惡性情況是已知的,利用這部分數據我們訓練出了一個神經網絡模型,這個模型最初包含了6000多個蛋白。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

最后我們挑選出了19 個蛋白質,在一個回顧性的臨床隊列中進行了驗證,并在一個前瞻性的多中心臨床隊列中也做了驗證,目前已經有十幾個國內外醫院參與到這項工作中。

該方法在回顧性與前瞻性的隊列里面都能夠達到比較好的效果,具有90% 的準確率,尤其在特異性方面優于基因組的效果。我們正在通過更大規模的前瞻性的隊列去驗證、進一步優化這個基于蛋白質的AI模型,并正在開發可以在臨床使用的試劑盒。

蛋白質組不僅僅可以用作診斷,還可以發現潛在的藥物靶點,幾乎所有的藥物都是要以蛋白質作為靶點。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

例如,我們在甲狀腺癌中發現有一個特殊的亞型叫Hürthle cell亞型,目前的分子機理研究非常少,也沒有特別有效的藥物治療。

目前僅知道這種腫瘤主要患者群體是老年女性,在顯微鏡下酸性染色比較強,但原因未知。我們的數據顯示,在這一群特殊的腫瘤中,有186 個蛋白跟其它腫瘤是不一樣的,其中有160 個蛋白都跟線粒體蛋白相關。

這些線粒體相關的蛋白,很多都是潛在藥物的靶點,有可能用來開發針對這一特殊亞型腫瘤的新方法。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

第二個案例是新冠診斷。絕大部分患者感染新冠之后,自身免疫力都可以將病毒消滅,核酸陽性患者只有很少的部分,其中約20% 的陽性患者會出現重癥和危重癥。根據2020年的數據統計,占80%的輕癥患者可以通過一般抗病毒治療或隔離治愈,而占20%的重癥患者,如果早期干預也可以轉化為輕癥。

但現在世界上還有很多國家的重癥、危重癥病人無法轉好。重癥診斷一般都是基于臨床數據判斷,也就是宏觀世界的數據——病人呼吸急促、血氧飽和度非常低等。

當這些指征出現的時候,病人已經處于重癥,治療窗口期已經非常短,要進行緊急處理,如吸氧、上呼吸機等。

所以,我們試圖在血液中找到一些分子,在患者演變為重癥之前,通過AI進行鑒別診斷,通過分子的改變,提前預判重癥,以期為每一位患者提供更加精準的治療。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

為此,我們在2020年收集了一些輕癥患者、重癥患者以及健康人群對照樣本,將患者分為訓練集和驗證集。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

我們在訓練集中測量了蛋白,其中包含22 個蛋白和7 個代謝物,最終在訓練集中AI 達到了93.5%的準確度,有兩個患者的預測結果和臨床結果不符。其中一位70 歲男性患者,臨床是輕癥,但模型認為他是重癥,而我們發現,他在所有患者中年齡最大,所以這位男性的治療方法也跟重癥患者最相似。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

而在驗證集中的19位患者中,有3 個患者跟臨床診斷不相符,后來發現主要是因為患者復雜的病史情況。

其中,XG45這位患者臨床判斷為重癥,但AI 認為他是輕癥,后來得知,這位患者入院前做了20 多天各種的抗病毒治療,所以入院時雖然臨床表現為重癥,但很快就康復出院。

另外一位患者XG22,臨床癥狀是輕癥,AI 模型判斷為重癥,后來診斷發現有乙肝和糖尿病,是所有觀察組中住院時間最長的一位。其他重癥患者都已經出院,他還沒有明顯的好轉,連續50 多天檢測都呈陽性。這位患者的微觀世界數據表明,他的慢性疾病導致他的免疫系統與其他人都不一樣,比重癥患者對病毒清除能力更弱。

另外一個獨立隊列有十幾位患者,其中3位患者與臨床診斷不相符,后來發現不一定是我們錯了,甚至我們微觀世界的數據其實更加準確。

例如,X2-22 這個患者是一位66 歲的女性,她的分數是所有患者中最低的,比重癥患者還要低,她在采血當天,血糖達到27.8,這是典型的高血糖危象。

我們通過蛋白質和代謝的分析,利用AI 模型,準確找到了這位患者,未來如果我們有可能將這個方法在臨床廣泛使用,有可能讓醫生更加從容的應對類似患者。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

除了對疾病診斷和預后進行判斷之外,蛋白質組數據同時還可以提供分子通路信息,這些改變的通路里通常含有潛在的治療靶點。

我們的文章發表之后,確實有很多臨床研究針對其中一些潛在靶點,對新冠藥物進行了開發。

此外,我們也做了新的研究,利用尿液做新冠診斷。一般我們認為尿液中沒有蛋白,如果發現蛋白尿,一般認為是腎臟功能出了問題。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

但這種觀念是因為過去臨床使用的一般的蛋白檢測技術比較陳舊,而目前蛋白質譜技術可以發現正常尿液里有非常多的蛋白。為此,我們采集新冠和相應對照患者的血樣和尿樣,展開了更多蛋白質組學分析。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

我們發現尿液里有3800 多個蛋白,而同樣的方法只能在血液中發現大約1500 個蛋白,我們在血液中發現的蛋白,其實在尿液樣本中絕大多數都可以測到,且分子量分布差不多,并不是只有小的蛋白才能進入尿液。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

得到結果之后,我們再用機器學習預測,使用血蛋白和尿蛋白進行新冠輕重癥鑒別,發現和目前使用血液檢測蛋白的方法效果類似。

并且,重癥患者尿蛋白模型的分數剛開始還比較高,康復期才逐漸下降。這說明尿蛋白也可以對新冠病情進行分類和預測。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

此外,尿液中還可以發現很多細胞因子,一般通過抗體檢測新冠重癥患者,在細胞因子風暴數據中一般只測量十數個細胞因子。

用質譜檢測可以測到200 多個細胞因子以及受體,我們發現一些新發現的細胞因子都與新冠有密切相關性,這些都是目前只能通過蛋白質譜檢測到的。蛋白質譜可以讓我們看到肉眼無法察覺的,但在微觀世界中真實發生著的蛋白分子的一舉一動。

最后介紹一下我們的新技術——蛋白質大數據。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

大數據一定要有展示形式,大數據領域有一個基本的、適用于深度學習的大數據格式,叫做張量(Tensor),即多維矩陣。各種大數據形式,包括文本、聲音、圖像都可以轉化成Tensor。

那么蛋白質組數據能不能轉化成Tensor?

我們最近將蛋白質轉化為Tensor 多維矩陣,這個矩陣可以轉化為視頻。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

如圖所示,每個像素就是某個蛋白質的一個多肽片段,平鋪后可以得到一副有規律的圖片,如果再放大就會發現每個像素之間像宇宙圖像一樣有一些間隔,每個間隔都是一個分子單位。

我們的微觀世界蛋白質組就像宇宙一樣,有大量信號,這些信號絕大部分都不是隨機存在的,而是生物信號。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

我們做了統計,45 分鐘內質譜機采集的像素點達到100多億個。我們也建立了一些針對蛋白質組tensor的計算流程,像TensorFlow 一樣,可以進行各種深度學習分析,用于疾病診斷、新靶點發現等。

西湖歐米是我們實驗室的Spin-off,我們希望和醫院和社區合作,滿足大家對健康及醫療的需求。雖然有很多宏觀世界數據,但是微觀世界分子運作數據極其匱乏。歐米工廠生產試劑盒、做樣本制備,可以將各類臨床樣品轉化為蛋白質組數據。在數據中心處理之后,AI 可發現并總結規律,用于指導疾病診療。同時,也有望發現新的藥物靶點,與制藥公司合作,開發更好的治療方法。

西湖大學郭天南:從「元宇宙」視角,探秘蛋白質組大數據

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章