首頁 > AI資訊 > 最新資訊 > 精準預測RNA可變剪接,浙大多模態深度學習模型SpTransformer登Nature子刊

精準預測RNA可變剪接,浙大多模態深度學習模型SpTransformer登Nature子刊

新火種    2024-11-15

圖片

組織特異性可變剪接分析算法 SpTransformer 的概念圖。(來源:浙大)

作者 | 浙江大學良渚實驗室沈寧/劉志紅課題組

編輯 |ScienceAI

RNA 可變剪接(Alternative splicing)是基因轉錄后一種重要的調控機制,也是生物體多樣性和蛋白質多功能性的重要來源之一。人類約 90% 以上的基因存在可變剪接,不同組織與細胞類型中可變剪接的多元性促進了細胞表型的多樣性。同時,引起 RNA 可變剪接的變異也與人類多種遺傳疾病相關。

值得注意的是,RNA 可變剪接具有組織特異性,相同的 pre-mRNA 序列能以組織特異性的形式發生可變剪接,從而產生多樣性的轉錄組和蛋白質組表達。然而,現有算法無法預測組織特異性的可變剪接,因此亟需開發能夠精準預測組織特異性可變剪接的算法工具,加深我們對于遺傳變異的解讀及后續研究。

近日,浙江大學良渚實驗室沈寧/劉志紅課題組開發了基于 Transformer 架構的多模態深度學習模型 SpliceTransformer(簡稱 SpTransformer),用于預測 pre-mRNA 序列中的組織特異性可變剪接位點。SpTransformer 可以用于解析組織特異性剪接變異相關的疾病,為疾病相關遺傳變異提供基于可變剪接機制的全新見解。

相關研究以《SpliceTransformer predicts tissue-specific splicing linked to human diseases》為題,于 2024 年 10 月 23 日發表在《Nature Communications》上。

圖片

論文鏈接:https://www.nature.com/articles/s41467-024-53088-6

SpTransformer:基于 Transformer 的計算架構

SpTransformer 在訓練數據和算法架構上均有所創新。

圖片

圖 1:SpTransformer 模型僅以序列為輸入,預測 15 種人體組織中的組織特異性剪接。該模型可用于評估遺傳變異并預測組織特異性的剪接變化,其性能明顯優于其他已有算法。(來源:論文)

SpTransformer 基于 GTEx 人體組織 RNA-seq 數據和額外的哺乳動物(恒河猴、小鼠、大鼠)組織的 RNA-seq 數據訓練,從多個數據集中學習可變剪接相關的序列特征。模型使用 one-hot 編碼的 pre-mRNA 序列作為輸入。序列經過卷積編碼器處理后,通過一個 8 層包含自注意力模塊的 Transformer 網絡,輸出多標簽分類結果。

該方法基于 9000nt~15000nt 的長序列上下文信息,對輸入序列中央的 1000nt 長度序列同時做預測,既能預測出序列中存在的可變剪接位點,也能為每個位點進行多標簽分類,預測位點在 15 個主要人體組織中是否會被使用到。

為了考慮盡可能長的序列上下文信息,模型結合了卷積編碼和 Sparse Sinkhorn Attention 稀疏注意力算法,鼓勵模型考慮遠端序列之間以片段為單位的互作效果,而避免逐一計算堿基和堿基之間的長距離互作關系,這樣的做法允許模型以線性復雜度處理大量數據,從而規避了傳統 Transformer 模型處理超長序列時無法承受顯存開銷的問題。最終,該模型對可變剪接的預測結果明顯優于已有算法,且創新地實現了對組織特異性剪接的預測(圖 1)。

之后,研究者針對模型的可解釋性進行了探索。研究者通過可視化分析模型考慮不同序列元件的權重,發現 SpTransformer 模型可以成功發現 1000 bp 以外的遠端序列調控元件對可變剪接的影響。同時,模型在預測不同組織的可變剪接時,會考慮不同的序列 motif,其中既有已知的經典序列調控元件,也包含未被研究過的 de novo motif。

預測疾病相關的組織特異性可變剪接

隨后,研究者應用 SpTransformer 預測單核苷酸突變(single nucleotide variant,SNV)對組織特異性剪接的影響。通過分別預測突變前序列和突變后序列的剪接情況,并計算它們預測分數的差異,模型以數學方法將突變對目標區域可變剪接的影響量化為 ΔSplice 分數(圖 2)。

圖片

圖 2:SpTransformer 模型可用于評估突變對剪接的影響。(來源:論文)

研究者批量預測了大型數據庫 ClinVar 中收錄的 1,273,053 個 SNV,發現突變的致病性和影響可變剪接的情況有較強的關聯。在非編碼區域突變中,通過 SpTransformer 給出的 ΔSplice 分數,能以超過 0.98 的 ROC-AUC 區分致?。≒athogenic)和良性(Benign)突變。同時,模型將大量原本標注為效果未知(Uncertain significance)的突變注釋為影響可變剪接,一定程度上填補了突變效應注釋的空白。

圖片

圖 3:SpTransformer 模型可用于評估突變對組織特異性剪接的影響,并從大規模數據分析中識別可能影響組織特異性剪接的突變及其富集的基因。(來源:論文)

盡管可變剪接的組織特異性早已為人所知,但突變如何影響這種特異性剪接仍然是個未充分探索的領域。為評估單核苷酸變異(SNV)對組織特異性剪接的影響,研究者開發了 Tissue z-score 分數,用以衡量突變對特定組織中剪接模式的影響是否顯著高于其他組織。

通過分析 GTEx RNA-seq 數據中的非組織特異性剪接位點,并模擬這些位點附近發生隨機突變,研究者建立了用于參考的統計學分布。當待預測 SNV 的 Tissue z-score 明顯大于參考分布中的值時,就認為該 SNV 具有組織特異性。利用這種方法,研究者從 ClinVar 數據庫中識別出可能影響組織特異性剪接的突變及其富集的基因(圖 3)。研究結果顯示,這些基因多與相關組織的遺傳疾病有關,但不一定表現出組織特異性的表達模式。

圖片

圖 4:算法針對三種精神疾病數據展開分析,從組織特異性剪接改變角度解讀精神疾病發生的潛在機制。(來源:論文)

為了深入探討 SpTransformer 在疾病診斷和治療中的應用潛力,研究團隊利用該算法分析了與自閉癥(Autism),精神分裂癥(Schizophrenia)和雙相精神障礙(Bipolar disorder)相關的超過 17 萬個樣本的全外顯子組測序結果。這些樣本涵蓋了患者、患者家庭成員和健康對照組。從超過千萬的未知突變中,SpTransformer 篩選出大量可能影響可變剪接的突變。

研究者深入分析了這些影響剪接的突變,發現腦組織特異性的剪接改變在三種類型的精神疾病中均有顯著富集。進一步的基因表達量分析揭示,這些突變所在的基因,不僅包括在大腦中特異性表達的,也包含在多數組織中廣泛表達的基因,表現出雙峰分布的特點。

GO 富集分析(Gene Ontology enrichment analysis)顯示,由模型篩選出的基因與腦組織功能存在緊密聯系(圖 4),在腦組織中特異性表達的基因通常與突觸信號傳導通路相關,而非組織特異性表達的基因則富集在細胞骨架相關通路。這一發現進一步揭示了腦組織中特異性剪接和特異性表達之間存在相對獨立性,即使是在多種組織中普遍表達的基因,也可能通過剪接變異對腦組織產生重要影響,進而可能引發相關疾病。

同時,雖然從這三種精神疾病中篩選出的基因富集到了某些相同的通路,但每種疾病有其獨特的致病基因及突變。大規模文獻搜索結果顯示,由 SpTransformer 識別的許多基因已有相關文獻支持其與特定疾病的關聯,證明了該工作預測的準確性。此外,還有較多新發現的基因,目前尚未有相關研究報道,這些基因可能為未來的精神疾病研究提供新的線索和方向。

此外,研究者也針對腎臟特異性剪接進行了進一步的數據分析。模型在糖尿病腎病相關數據上進行實戰,經由 RNA-seq 方法進行驗證,以 83% 的準確率預測出了影響腎臟中可變剪接的突變。

具有臨床價值,且開源

以上結果表明,SpTransformer 從組織特異性可變剪接的角度出發,有潛力發現傳統基因表達量分析無法找到的疾病成因。這為理解疾病背后的遺傳因素提供了除基因表達水平以外的重要視角。進一步地,基于組織特異性的可變剪接分析,有望成為解析復雜疾病遺傳機制的關鍵方法之一。

綜上,該研究開發了一個精準地預測具有組織特異性的可變剪接的算法工具 SpTransformer,并通過大量真實突變數據,驗證了其在遺傳診斷中預測組織特異性影響 RNA 可變剪接的致病突變的能力,具有重要臨床價值和研究意義。

文章相關代碼已開源,發布在 GitHub 平臺(。

此外,研究者還提供了一個便捷的在線服務平臺,使用戶能利用 SpTransformer 快速預測突變對組織特異性剪接的影響。

團隊介紹及招聘

浙江大學良渚實驗室沈寧研究員和劉志紅院士為該論文的共同通訊作者,交叉培養博士生游寧遠為本文的第一作者。浙江大學管敏鑫研究員、裴善贍研究員、南京大學蔣松博士、施勁松博士、復旦大學孫思琦研究員協助監督指導了本項工作,良渚實驗室多位研究員及沈寧課題組多名成員對該工作作出了重要貢獻。

良渚實驗室沈寧課題組圍繞「組學與精準醫學分析算法開發與應用」開展臨床轉化密切相關的研究,運用生物信息學數據整合分析與人工智能算法,并結合實驗篩選平臺進行藥物研發與精準治療。

課題組目前有多項具有重要應用價值的課題正在推進,與著名醫學專家主導的實驗室有合作關系,誠招具有實驗生物、計算生物背景的博士后和研究助理。


相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章