首頁 > AI資訊 > 最新資訊 > 基于Transformer和注意力的可解釋核苷酸語言模型,用于pegRNA優(yōu)化設(shè)計(jì)

基于Transformer和注意力的可解釋核苷酸語言模型,用于pegRNA優(yōu)化設(shè)計(jì)

新火種    2023-11-17
圖片編輯 | 紫羅

基因編輯是一種新興的、比較精確的能對(duì)生物體基因組特定目標(biāo)基因進(jìn)行修飾的一種基因工程技術(shù)。

先導(dǎo)編輯(Prime editor, PE)是美籍華裔科學(xué)家劉如謙(David R.Liu)團(tuán)隊(duì)開發(fā)的精準(zhǔn)基因編輯系統(tǒng),PE 是一種很有前途的基因編輯工具,但由于缺乏準(zhǔn)確和廣泛適用的方法,有效優(yōu)化先導(dǎo)編輯 RNA(prime editing guide RNA, pegRNA)設(shè)計(jì)仍然是一個(gè)挑戰(zhàn)。

近日,來自重慶醫(yī)科大學(xué)、西北農(nóng)林科技大學(xué)、云南民族大學(xué)、浙江大學(xué)醫(yī)學(xué)院和中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院生物信息學(xué)中心(Bioinformatics Center of AMMS)的多學(xué)科多機(jī)構(gòu)研究團(tuán)隊(duì)開發(fā)了優(yōu)化的先導(dǎo)編輯設(shè)計(jì)(Optimized Prime Editing Design,OPED),這是一種可解釋的核苷酸語言模型,利用遷移學(xué)習(xí)來提高其準(zhǔn)確性和通用性,用于預(yù)測(cè) pegRNA 的效率和設(shè)計(jì)優(yōu)化。

對(duì)各種已發(fā)布數(shù)據(jù)集的綜合驗(yàn)證表明,OPED 在不同情景下的效率預(yù)測(cè)中具有廣泛的適用性。值得注意的是,具有高 OPED 分?jǐn)?shù)的 pegRNA 始終顯示出顯著提高的編輯效率。

此外,利用優(yōu)化后的 pegRNA 在 PE2、PE3/PE3b 和 ePE 編輯系統(tǒng)中高效地安裝各種 ClinVar 致病變異,證實(shí)了OPED 在設(shè)計(jì)優(yōu)化中的多功能性和有效性。OPED 始終優(yōu)于現(xiàn)有的最先進(jìn)的方法。

研究人員構(gòu)建了 OPEDVar 數(shù)據(jù)庫,該數(shù)據(jù)庫從超過 20 億個(gè)候選物中優(yōu)化了所有致病性變體的設(shè)計(jì),并提供了一個(gè)可用于任何所需編輯的用戶友好的 OPEDVar web 應(yīng)用程序。

該研究以《Design of prime-editing guide RNAs with deep transfer learning》為題,于 2023 年 10 月 26 日發(fā)布在《Nature Machine Intelligence》上。

圖片

優(yōu)化 pegRNA 設(shè)計(jì)面臨挑戰(zhàn)

PE 是一種多功能和精確的基因組編輯技術(shù),可以在沒有 DNA 雙鏈斷裂或供體 DNA 模板的情況下引入插入、缺失和所有 12 種可能的點(diǎn)突變。PE2 是一個(gè)基本的 PE 版本,包括 Cas9 缺口酶-逆轉(zhuǎn)錄酶融合蛋白,Cas9 缺口酶誘導(dǎo)DNA 單鏈斷裂,以及 pegRNA。pegRNA 包含三個(gè)基本亞序列:一個(gè)引導(dǎo)序列(間隔),一個(gè)引物結(jié)合位點(diǎn)(PBS)和一個(gè)逆轉(zhuǎn)錄模板(RTT)。在 PE3/PE3b 和 ePE 等高級(jí) PE 版本中,使用額外的單向?qū)?RNA(sgRNA)在相反的鏈上誘導(dǎo)缺口。

目前,PE 技術(shù)正處于快速優(yōu)化階段,包括修飾 pegRNA 的序列和結(jié)構(gòu),調(diào)控相關(guān)修復(fù)途徑,以及利用配對(duì) PE 策略。重要的是,PE 效率明顯受到 pegRNA 的特征影響,這凸顯了在最終應(yīng)用前對(duì) pegRNA 進(jìn)行優(yōu)化的必要性和重要性。

針對(duì)不同的編輯類型和不同的編輯位置定制 pegRNA 設(shè)計(jì)是一項(xiàng)復(fù)雜且耗時(shí)的任務(wù)。最近已經(jīng)開發(fā)了三個(gè)基于機(jī)器學(xué)習(xí)的模型(DeepPE, Easy-Prime 和 PRIDICT)來優(yōu)化 pegRNA 設(shè)計(jì)。然而,這些模型嚴(yán)重依賴于人工特征工程,涉及許多預(yù)定義的 pegRNA 特征的計(jì)算。這些模型可能會(huì)忽略關(guān)鍵的見解,并導(dǎo)致有限的準(zhǔn)確性和概括性。此外,它們本質(zhì)上缺乏可解釋性,就像黑盒子一樣。因此,采用諸如 SHAP 之類的事后可解釋方法來提供特征重要性。

OPED 用于 pegRNA 的效率預(yù)測(cè)和設(shè)計(jì)優(yōu)化

受自然語言處理技術(shù)的啟發(fā),研究人員開發(fā)了一個(gè)定制的基于 Transformer 和注意力的 OPED 模型,用于 pegRNA 的效率預(yù)測(cè)和設(shè)計(jì)優(yōu)化。為了提高其準(zhǔn)確性和泛化性,將遷移學(xué)習(xí)引入到預(yù)訓(xùn)練和微調(diào)中。通過直接處理原始核苷酸序列,OPED 自動(dòng)學(xué)習(xí) DNA-pegRNA 對(duì)的全面和可解釋的表示,從而消除了對(duì)預(yù)定義特征的需要。

定制的 Transformer 熟練地處理可變長(zhǎng)度序列,并有效地表征核苷酸之間的空間相互依賴性以及目標(biāo) DNA 和 pegRNA 之間的互補(bǔ)堿基配對(duì)特征。定制的注意力網(wǎng)絡(luò)計(jì)算每個(gè)核苷酸的注意力權(quán)重,并隨后基于這些權(quán)重整合相關(guān)信息。

圖片

圖 1:OPED 模型的框架。(來源:論文)

研究證明了在不同編輯類型、編輯位置、內(nèi)源性位點(diǎn)、實(shí)驗(yàn)室環(huán)境、tevopreQ1 條件、錯(cuò)配修復(fù)(MMR)抑制條件、體外細(xì)胞系和體內(nèi)小鼠肝細(xì)胞中,OPED 預(yù)測(cè) pegRNA 效率的通用性和準(zhǔn)確性。值得注意的是,在上述情況下,與 OPED 得分較低的 pegRNA 相比,較高 OPED 編輯得分的 pegRNA 的編輯效率高得多(2.2-82.9 倍)。

圖片

圖 2:OPED 在已發(fā)布數(shù)據(jù)集上的性能評(píng)估。(來源:論文)

圖片

圖 3:在不同的 PRIDICT 數(shù)據(jù)集上驗(yàn)證 OPED。(來源:論文)

此外,通過使用 PE2、PE3/PE3b 和 ePE 編輯系統(tǒng)的優(yōu)化 PE 設(shè)計(jì)(pegRNA 和 sgRNA)有效安裝各種 ClinVar 致病性變體,驗(yàn)證了 OPED 的廣泛適用性和卓越性能。

圖片

圖 4:人類致病變異與優(yōu)化 PE 設(shè)計(jì)的安裝。(來源:論文)

值得注意的是,與現(xiàn)有 PE 設(shè)計(jì)工具相比,OPED 推薦的 PE 設(shè)計(jì)顯示出更高的平均編輯效率(PE2,2.1–6.8 倍;PE3/PE3b,7.9–24.6 倍;ePE,3.4–47.5 倍)。在所有比較中,OPED 始終優(yōu)于現(xiàn)有 PE 設(shè)計(jì)工具。

圖片

圖 5:PE 優(yōu)化設(shè)計(jì)的實(shí)驗(yàn)驗(yàn)證。(來源:論文)

此外,研究人員構(gòu)建了一個(gè)綜合數(shù)據(jù)庫 OPEDVar,包含針對(duì) 77000 多種 ClinVar 致病性變體的優(yōu)化 PE 設(shè)計(jì),并為 OPED 開發(fā)了一個(gè)用戶友好的 web 應(yīng)用程序。

圖片

圖 6:OPEDVar 數(shù)據(jù)庫和 OPEDVar web 應(yīng)用。(來源:論文)

值得注意的是,OPED 僅在具有規(guī)范 NGG PAM 的 PE2 數(shù)據(jù)集上進(jìn)行訓(xùn)練。因此,盡管經(jīng)過實(shí)驗(yàn)驗(yàn)證,OPED 能夠在包括 NG PAM 在內(nèi)的不同場(chǎng)景下優(yōu)化 pegRNA 和 sgRNA,但其預(yù)測(cè)其他 PE 版本效率的能力有限,其在 NG PAM 上的性能需要更多的實(shí)驗(yàn)驗(yàn)證。

未來研究

在未來的研究中,研究人員建議利用人工智能技術(shù)全面系統(tǒng)地優(yōu)化 pegRNA 和其他序列,如支架序列、nick sgRNA、3' 結(jié)構(gòu) RNA 基序和連接子序,前提是獲得足夠的數(shù)據(jù)。

此外,通過新的基于人工智能的技術(shù),可以改善含有與工程逆轉(zhuǎn)錄酶融合的 Cas9 切口酶的 PE 的效應(yīng)。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章