改進分子表征學習,清華團隊提出知識引導的圖Transformer預訓練框架
學習有效的分子特征表征以促進分子特性預測,對于藥物發現具有重要意義。最近,人們通過自監督學習技術預訓練圖神經網絡(GNN)以克服分子特性預測中數據稀缺的挑戰。然而,當前基于自監督學習的方法存在兩個主要障礙:缺乏明確的自監督學習策略和 GNN 的能力有限。
近日,來自清華大學、西湖大學和之江實驗室的研究團隊,提出了知識引導的圖 Transformer 預訓練(Knowledge-guided Pre-training of Graph Transformer,KPGT),這是一種自監督學習框架,通過顯著增強的分子表征學習提供改進的、可泛化和穩健的分子特性預測。KPGT 框架集成了專為分子圖設計的圖 Transformer 和知識引導的預訓練策略,以充分捕獲分子的結構和語義知識。
通過對 63 個數據集進行廣泛的計算測試,KPGT 在預測各個領域的分子特性方面表現出了卓越的性能。此外,通過鑒定兩種抗腫瘤靶點的潛在抑制劑驗證了 KPGT 在藥物發現中的實際適用性。總體而言,KPGT 可以為推進 AI 輔助藥物發現過程提供強大且有用的工具。
該研究以《A knowledge-guided pre-training framework for improving molecular representation learning》為題,于 2023 年 11 月 21 日發布在《Nature Communications》上。
通過實驗確定分子特性需要大量時間和資源,鑒定具有所需特性的分子是藥物發現領域最重大的挑戰之一。近年來,基于 AI 的方法在預測分子特性方面發揮著越來越重要的作用。基于 AI 的分子特性預測方法的主要挑戰之一是分子的表征。
近年來,基于深度學習的方法的出現成為預測分子特性的潛在有用工具,主要是因為它們具有從簡單輸入數據中自動提取有效特征的卓越能力。值得注意的是,各種神經網絡架構,包括循環神經網絡(RNN)、卷積神經網絡(CNN)和圖神經網絡(GNN)擅長對各種格式的分子數據進行建模,從簡化的分子輸入行輸入系統(SMILES)到分子圖像和分子圖。然而,標記分子的有限可用性和化學空間的廣闊限制了它們的預測性能,特別是在處理分布外數據樣本時。
隨著自監督學習方法在自然語言處理和計算機視覺領域取得的顯著成就,這些技術已被用于預訓練 GNN 并改進分子的表征學習,從而在下游分子性質預測任務中取得實質性改進。
研究人員假設將定量描述分子特征的額外知識引入自監督學習框架可以有效應對這些挑戰。分子有許多定量特征,例如分子描述符和指紋,可以通過當前建立的計算工具輕松獲得。整合這些額外的知識可以將豐富的分子語義信息引入自監督學習中,從而大大增強語義豐富的分子表征的獲取。
現有的自監督學習方法通常依賴 GNN 作為骨干模型。然而,GNN 只能提供有限的模型容量。此外,GNN 可能很難捕獲原子之間的遠程交互。基于 Transformer 的模型已經成為游戲規則改變者。其特點是參數數量不斷增加,并且能夠捕獲長程相互作用,為全面模擬分子的結構特征提供了有希望的途徑。
自監督學習框架 KPGT在此,研究人員引入了一種自監督學習框架 KPGT,旨在增強分子表征學習,從而推進下游分子屬性預測任務。KPGT 框架包含兩個主要組件:稱為 Line Graph Transformer (LiGhT) 的骨干模型和知識引導的預訓練策略。KPGT 框架結合了 LiGhT 的高容量模型,該模型專門用于精確建模分子圖結構,以及捕獲分子結構和語義知識的知識引導預訓練策略。
研究人員利用 ChEMBL29 數據集中的大約 200 萬個分子使用知識引導的預訓練策略對 LiGhT 進行預訓練。
圖示:KPGT 概述。(來源:論文)
KPGT 在分子性質預測方面優于基線方法。與幾種基線方法相比,KPGT 在 63 個數據集上取得了很大的進步。
此外,通過成功利用 KPGT 識別造血祖細胞激酶 1 (HPK1) 和成纖維細胞生長因子受體 (FGFR1) 兩個抗腫瘤靶點的潛在抑制劑,展示了 KPGT 的實際應用性。
盡管 KPGT 在有效分子特性預測方面具有優勢,但仍然存在一些局限性。
首先,附加知識的整合是所提方法最顯著的特征。除了 KPGT 中使用的 200 個分子描述符和 512 個 RDKFP 之外,還有可能納入各種其他類型的附加信息知識。此外,進一步的研究可以將三維 (3D) 分子構象整合到預訓練過程中,從而使模型能夠捕獲有關分子的重要 3D 信息,并有可能增強表征學習能力。雖然 KPGT 目前采用具有大約 1 億個參數的主干模型,以及對 200 萬個分子的預訓練,但探索更大規模的預訓練可以為分子表征學習提供更實質性的好處。總的來說,KPGT 為有效的分子表征學習提供了強大的自監督學習框架,從而推動了人工智能輔助藥物發現領域的發展。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。