首頁 > AI資訊 > 最新資訊 > 專訪天壤XLab實驗室負責人苗洪江博士:自動生成蛋白質技術可助力罕見病、新材料等前沿創新

專訪天壤XLab實驗室負責人苗洪江博士:自動生成蛋白質技術可助力罕見病、新材料等前沿創新

新火種    2023-09-21

《科創板日報》3月17日訊(記者 金小莫)自動生成技術最近風頭正勁。除應用于社交、辦公等場景外,記者另獲悉,它也可以在蛋白質設計上有所作為,這在業內被稱為AIGP,即AI Generated Protein,自動生成蛋白質。

在《生物版ChatGPT來了!可“一鍵生成”蛋白質 應用多以開源為主》一文中,《科創板日報》記者就AIGP進行了簡單科普并展現了其未來的應用可能。本文,記者將進一步對話AIGP的行業人士,以期幫助讀者們進一步了解這一前沿技術。

本期對話嘉賓為天壤XLab負責人苗洪江博士。苗博士博士畢業于倫敦帝國理工學院自然科學系,師從結構生物信息領域的奠基人、英國皇家生物學會院士Michael J.E. Sternberg教授,為計算生物學領域專家,在人類基因組學、遺傳代謝組學、蛋白質組學等領域具有深厚積累。

苗博士曾創新性開發預測蛋白質結構的機器學習方法PhyrePower,將可預測的蛋白質空間擴大約30%。2019年,苗洪江博士加入天壤,擔任XLab實驗室負責人,帶領團隊實現了國內首個AI+蛋白質計算設計工作臺的建設。

問:此前DeepMind宣布,AlphaFold已經確定了地球上幾乎所有已知生物體中大約2億種蛋白質的結構,以后確定科學已知的蛋白質預測模型將像用“谷歌搜索”一樣簡單。此前科研人員們已經AI來進行小分子藥物的研發,為什么直到最近才有了AI在大分子領域的一些探索呢?

答:蛋白質設計本身就是一個門檻超高的交叉領域,串聯著非常多的學科知識。在這個領域的研究人員不僅需要具備生物計算的能力,還要具備極強的結構生物學、計算化學、物理學等多方面的知識背景,高門檻導致了整個領域的推廣很難進行。

其實,蛋白質設計已經進入第四個階段,每一階段的能力提升都與人類對蛋白質結構的理解分不開。

第一個階段是最早期的20世紀90年代。這個階段只有少量的蛋白質結構被解析,對于蛋白質折疊的理解也非常局限,這使得當時完全無法實現功能上的設計,只能通過手動拼接出很簡單的二級結構片段。

第二個階段,隨著蛋白質數據庫中的結構信息增加,研究人員得以從這些信息中總結出理性經驗,并根據這些專家經驗組裝出了結構更加復雜的蛋白質。

隨著蛋白質三維結構數據的快速增長,第三個階段中研究人員從中歸納出影響蛋白質折疊的能量函數關系及分子動力學原理,通過天然蛋白質片段拼接和能量函數最小化的方式設計出了與天然蛋白質結構截然不同的全新蛋白質。在這個階段研究人員開始嘗試將目標功能注入所設計的蛋白質中,但由于設計流程十分復雜、專家經驗要求極高,致使蛋白質設計落地應用非常困難。

最近,蛋白質折疊難題被AI算法“破解”,以 AI為主導的蛋白質設計在 2022 年徹底爆發,實現了自動探索巨大的蛋白質空間。現在,借助AI的生成能力,研究人員已經能夠從頭設計全新蛋白質,產業化應用也變得更加容易且豐富多樣,標志著蛋白質設計已經進入了全新的時代。但在實際的大范圍產業實踐推廣中,仍有各種困難阻礙。

問:關于這些困難阻礙,您可否展開具體說說?與AIGC相比的話,AIGP還有哪些特殊的地方呢?

答:主要在于蛋白質自身的特殊性。首先,蛋白質的可折疊空間巨大:以100個氨基酸長度的蛋白質為例,它的可能序列的數量是20^100=1.3×10^130。要計算出準確的蛋白質,需要大模型、大算力、大數據等足夠資源支持,這對于傳統的研發機構和企業來說成本是非常高昂的。

其次是模型的訓練數據非常稀缺。對于算法來說,需要優質數據來強化學習反饋,這需要人工對AI生成的答案進行標注。這在AIGC上較容易實現,而AIGP則需要通過實驗反饋數據,并需要專業的科研人員來對數據進行高質量的標注,挑戰大。

最后,當前的蛋白質設計算法相對復雜,既要保證設計的蛋白質結構和序列的新穎性,又要確保設計結果滿足各方面的應用需求以及蛋白質本身的折疊原理和特性,不僅推理時需要較大算力支持,對于研發人員使用時的技術門檻較高,很難廣泛下沉到產業中去,急需像ChatGPT這種易用的交互支持。

問:如果實現了AIGP,對于行業來說,有什么樣的意義呢?

答:人類已知的天然蛋白質數量為10^15,而潛在的從頭設計蛋白質數量遠超于已知天然蛋白質。這被我們稱為是“5%之外的世界”:

以人體內的蛋白質來說,目前大多數人類蛋白質功能研究都聚焦于約5000種研究較多的人類蛋白質,而人體內還存在著一個巨大的蛋白質世界。事實上,這些功能未知的蛋白質可能掌握著打開解決人類重大疾病的鑰匙,如癌癥、阿爾茲海默癥以及多種罕見病。

除生命科學外,生物合成、新材料、新能源和食品等領域對功能蛋白質也存有巨大的需求。整個蛋白質大分子還擁有巨大的潛在探索空間,蘊藏著無窮無盡、具有極大應用價值。

問:您可否介紹一下天壤Xlab是怎么做的?有哪些成果經驗可分享?

答:天壤成立于2016年;2019年啟動了蛋白質結構預測項目天壤XLab;2021年發布蛋白質結構預測模型TRFold2,基于CASP14測試集的預測精準度位居國內第一、全球第二;2022年9月,我們發布蛋白質設計平臺xCREATOR及設計模型TRDesign,實現按需設計蛋白質;2023年我們上線了將生成式擴散模型應用于蛋白質設計的TRDiffusion,實現可編程的蛋白質從頭設計,“一鍵生成”滿足描述的蛋白質。

2020年,AlphaFold2的出現讓人興奮,將生物學帶入新時代。作為國內AI創新企業,面對這樣的顛覆性技術,我們在團隊人力、資源有限的條件下,從底層核心技術做起,自研核心算法,以迭代升級神經網絡技術大幅降低網絡模型訓練消耗,輸出世界頂尖的AI能力。

除算法之外,我們將AI計算平臺與自動化實驗平臺相結合,創新性提出按需設計的理念,將蛋白質開發從機會性游戲轉變為高確定性的、可預測的生成流程。具體來看,我們有以下幾個創新流程:

專注蛋白質設計工作臺:完善從設計、分析、驗證的平臺功能,圍繞蛋白質設計,On-Demand可控地設計蛋白質,產生世界級的成果;

干濕結合,高通量,快速迭代設計及驗證:加速研發效率,提升準確率、成功率;

通過合作項目完善流程:跑通從設計-分析-驗證的流程,跨過交叉學科間的壁壘,讓工作臺真正好用易用;

建立合作加速實驗室成果和產業落地轉化:和高校、研究機構、制藥公司建立合作,設計和生成所需要的蛋白質。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章