分類性能提高10%,港中大利用大型蛋白質語言模型發現未知信號肽
編輯 | 蘿卜皮
信號肽 (SP) 對于跨膜和分泌蛋白靶向并將其轉移到正確位置至關重要。許多現有的預測 SP 的計算工具忽視了極端的數據不平衡問題,而依賴于蛋白質的額外組信息。
香港中文大學的研究人員開發了無偏生物體不可知信號肽網絡(Unbiased Organism-agnostic Signal Peptide Network,USPNet),一種 SP 分類和切割位點預測深度學習方法。
大量的實驗結果表明,USPNet 的分類性能比之前的方法大幅提高了 10%。USPNet 的 SP 發現流程旨在從宏基因組數據中探索從未見過的 SP。
它揭示了 347 個 SP 候選物,這些候選物與訓練數據集中最接近的 SP 之間的序列同一性很低,最低僅為 13%。此外,訓練集中候選物和 SP 之間的模板建模分數大多在 0.8 以上。
這些結果表明,USPNet 已經通過原始氨基酸序列和大型蛋白質語言模型學習了 SP 結構,從而能夠發現未知的 SP。
該研究以「Unbiased organism-agnostic and highly sensitive signal peptide predictor with deep protein language model」為題,于 2023 年 12 月 13 日發布在《Nature Computational Science》。
信號肽 (SP) 是一種短氨基酸序列,可作為特定的靶向信號來引導蛋白質并將其轉移至分泌途徑。它具有三域結構:帶正電的 N 區、疏水性的 H 區和不帶電的 C 區。SP 作為特定片段引導蛋白質到達正確位置,然后被 C 區附近的切割位點切割。因此,SP 的鑒定對于研究蛋白質的功能至關重要。
由于 SP 的全面實驗鑒定可能非常耗時且耗費資源,因此人們提出了許多計算工具來對 SP 進行分類并預測切割位點。
最近,監督模型在 SP 識別方面取得了很大進展。查詢序列被編碼為嵌入向量,然后輸入模型以直接計算每種 SP 類型的概率。比如:DeepSig將深度卷積神經網絡(CNN)架構應用于SP的識別和分離位點位置的預測。此外,SignalP5.0 的出現并對之前提出的所有方法進行了基準測試,而 SignalP6.0 能夠預測之前模型無法檢測到的所有五種類型的 SP。
這些方法在任務中取得了先進的性能,但大多數都存在極端的類不平衡,因此在小類數據上表現不佳。此外,這些方法通常在很大程度上依賴于有關生物體群體的附加信息來提高其性能。然而,現實中從宏基因組數據中獲取足夠的群體信息是不切實際的。一個強大的工具應該只需要氨基酸序列就可以產生準確的預測結果。
受到最近開發的蛋白質語言模型的啟發,該模型可以隱式編碼功能和結構信息并有利于各種下游任務,香港中文大學的研究團隊提出了基于雙向長短期記憶 (BiLSTM) 框架和蛋白質語言模型的無偏生物體不可知信號肽預測器 (USPNet),用于對 SP 進行分類并預測其切割位點位置。
研究人員利用基于高級多序列比對(MSA)的蛋白質語言模型來豐富表示,從而幫助編碼序列的組信息。該團隊將類平衡損失與標簽分布感知邊緣(LDAM)損失結合起來作為 USPNet 的損失函數,從而提高泛化能力。該方法有效地對所有五種類型的 SP 和非 SP 型蛋白質進行分類。
研究人員將他們的模型與其他幾個與任務相關的深度學習模型進行比較。與之前最先進的方法相比,USPNet 在多個類別上的 Matthews 相關系數 (MCC) 提高了 10% 以上。
然后,該團隊構建了從處理宏基因組數據到進行未知 SP 檢測的完整流程。研究人員從多個資源收集豬腸道宏基因組數據,最終從數百萬個序列中篩選出 347 個肽作為與現有 SP 序列一致性較低且可能是未知SP的候選肽。
同樣,該方法仍有改進的途徑。首先,USPNet 的 MSA 過程非常耗時。USPNet-fast 速度提高約 20 倍;因此,用戶可能更喜歡使用 USPNet-fast 來節省大量時間。
其次,雖然 USPNet 對于大多數 SP 類型的預測優于以前的方法,但 USPNet-fast 在革蘭氏陽性組的 Sec/SPII 上表現更好。這主要是由于 MSA 質量較低。正確預測的 MSA Neff 分數平均高于錯誤預測的 Neff 分數。
最后,USPNet 和 USPNet-fast 在識別古細菌 Sec/SPI SP 方面的結果并不是特別令人印象深刻。研究人員認為造成這種現象的原因是他們的損失函數根據不同類型的 SP 的數量調整其權重,從而使 USPNet 傾向于將肽分為小類。為了緩解這種情況,該團隊還提供了專注于預測 Sec/SPI 類別的訓練模型。
未來,加速MSA的生成預計將成為一個重要的研究方向,因為它是確保結構預測等多個下游任務精度的基礎。因此,MSA的進步可以極大地提高各種下游任務以及USPNet的效率。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。