首頁(yè) > AI資訊 > 最新資訊 > AI能為科學(xué)研究做什么

AI能為科學(xué)研究做什么

新火種    2023-09-12

陳永偉/文

從蛋白質(zhì)的結(jié)構(gòu)說(shuō)起

在生命過(guò)程中,蛋白質(zhì)扮演著十分重要的角色。一方面,它是生物體的構(gòu)造師,小到一個(gè)細(xì)胞,大到各種器官,都需要由蛋白質(zhì)來(lái)構(gòu)造。另一方面,它還是很多生命活動(dòng)的重要參與者,無(wú)論是在生物體內(nèi)進(jìn)行物質(zhì)傳輸、對(duì)各種生化過(guò)程進(jìn)行催化,還是對(duì)來(lái)自體外的侵襲進(jìn)行抵抗,都離不開(kāi)蛋白質(zhì)的參與。

目前,人類已知的蛋白質(zhì)達(dá)到了兩億多種,每一種蛋白質(zhì)的三維結(jié)構(gòu)都不相同,而它們的功能差異就是由這些不同的結(jié)構(gòu)決定的。例如,人們出于滋潤(rùn)補(bǔ)水、護(hù)膚嫩膚的需要,經(jīng)常會(huì)設(shè)法補(bǔ)充膠原蛋白,其奧秘就在于這類蛋白的結(jié)構(gòu)類似于一股擰起來(lái)的繩子,因而具有很強(qiáng)的韌性,從而可以在軟骨、韌帶、骨骼和皮膚之間傳遞張力。又如,我們免疫系統(tǒng)中的抗體蛋白大致上呈現(xiàn)了一種Y型的結(jié)構(gòu),并能夠形成獨(dú)特的鉤狀,這就使得它們可以附著在病毒和細(xì)菌上,對(duì)致病微生物進(jìn)行檢測(cè)、標(biāo)記及消滅。正是因?yàn)榈鞍踪|(zhì)的結(jié)構(gòu)和功能之間存在著以上這樣的關(guān)系,因此從上世紀(jì)中期開(kāi)始,對(duì)蛋白質(zhì)結(jié)構(gòu)的探索就成為了生物學(xué)家研究的一個(gè)重點(diǎn)。

1961年,美國(guó)國(guó)立衛(wèi)生學(xué)院的研究員安芬森(ChristianAnfinsen)發(fā)表了一篇論文,對(duì)其進(jìn)行的一項(xiàng)實(shí)驗(yàn)進(jìn)行了介紹:在實(shí)驗(yàn)中,他將牛胰核糖核酸酶蛋白分子用變性試劑打開(kāi),將二硫鍵還原成巰基,由此,蛋白質(zhì)原有的折疊結(jié)構(gòu)就被破壞了,酶的活性也隨之消失。然后,他將裝有實(shí)驗(yàn)樣品的燒杯暴露在空氣中過(guò)夜。令他驚奇的是,在經(jīng)過(guò)一夜的放置之后,酶的大部分活性恢復(fù)了,被破壞了結(jié)構(gòu)的蛋白質(zhì)又折疊成了原來(lái)的樣子。這有多奇怪呢?大致上就相當(dāng)于我們將一朵由鐵絲編織成的花用老虎鉗拉直,但在經(jīng)過(guò)一段時(shí)間之后,卻發(fā)現(xiàn)那段已經(jīng)被拉直的鐵絲竟又自己變成了一朵花!

為什么會(huì)出現(xiàn)這樣的情況呢?安芬森給出的一個(gè)猜想是:這或許說(shuō)明了蛋白質(zhì)多肽鏈中氨基酸的排列順序,也就是所謂的蛋白質(zhì)一級(jí)結(jié)構(gòu)決定了它最終的三維結(jié)構(gòu)——當(dāng)一級(jí)結(jié)構(gòu)決定后,多肽鏈會(huì)服從熱力學(xué)的定律,自動(dòng)折疊成能量最小化的狀態(tài)。在后來(lái)的生物學(xué)研究中,安芬森的上述猜測(cè)被歸納為了“安芬森法則”。1972年,安芬森憑借著這個(gè)重要的法則斬獲了諾貝爾化學(xué)獎(jiǎng)。

對(duì)于研究者而言,安芬森法則指出了一個(gè)重要的研究方向,即“蛋白質(zhì)折疊問(wèn)題”:既然蛋白質(zhì)的三維結(jié)構(gòu)取決于其一級(jí)結(jié)構(gòu),那么,從理論上講,人們就可以根據(jù)分子間的能量?jī)?yōu)化法則通過(guò)蛋白質(zhì)的一級(jí)結(jié)構(gòu)來(lái)對(duì)其三維結(jié)構(gòu)進(jìn)行預(yù)測(cè)。由于蛋白質(zhì)的功能很大程度上取決于其結(jié)構(gòu),因此如果人們可以充分了解蛋白質(zhì)的三維結(jié)構(gòu),就可以按圖索驥地尋找,甚至創(chuàng)造自己所需要的蛋白質(zhì)。很顯然,由此帶來(lái)的想象空間是十分巨大的。

然而,正所謂“理想很豐滿,現(xiàn)實(shí)很骨感”。盡管乍看之下“蛋白質(zhì)折疊問(wèn)題”的潛在價(jià)值十分巨大,不過(guò)由于組成蛋白質(zhì)多肽鏈的氨基酸數(shù)量都很龐大,因此要通過(guò)其結(jié)構(gòu)來(lái)預(yù)測(cè)蛋白質(zhì)的折疊是非常困難的。所以安芬森法則指出的道路看似光明,但在很長(zhǎng)時(shí)間內(nèi),卻成了一條少有人走的路。

相比之下,生物學(xué)家們似乎更傾向于用直接觀測(cè)的方法來(lái)探索蛋白質(zhì)的結(jié)構(gòu)。從早期的X光衍射法到新近的冷凍電鏡法,隨著實(shí)驗(yàn)器具的日益發(fā)展,人們通過(guò)實(shí)驗(yàn)探索蛋白質(zhì)結(jié)構(gòu)的能力也日漸提高。但盡管如此,相比于蛋白質(zhì)龐大的種類量,人們用實(shí)驗(yàn)探索蛋白質(zhì)結(jié)構(gòu)的努力只能算是杯水車薪。

2018年,轉(zhuǎn)機(jī)出現(xiàn)了。在當(dāng)年11月舉辦的第13屆全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP)上,DeepMind的AI程序AlphaFold成功地對(duì)43種蛋白質(zhì)中的25種的結(jié)構(gòu)進(jìn)行了預(yù)測(cè),由此在98名參賽者中獲得了第一。而相比之下,第二名只預(yù)測(cè)準(zhǔn)確了3種蛋白質(zhì)的結(jié)構(gòu)。更值得一提的是,在對(duì)某些蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)中,AlphaFold得到的結(jié)論甚至比用X光衍射法和冷凍電鏡法觀測(cè)到的結(jié)論更為準(zhǔn)確。

AlphaFold是靠什么獲得了如此優(yōu)異的成績(jī)呢?其實(shí),它用的方法很簡(jiǎn)單:學(xué)習(xí)大量蛋白質(zhì)的序列和結(jié)構(gòu)數(shù)據(jù),從中尋找氨基酸分子之間的相互作用,以及蛋白質(zhì)片段之間的演化關(guān)系,然后再按照找到的規(guī)律對(duì)蛋白質(zhì)的結(jié)構(gòu)進(jìn)行預(yù)測(cè)。

初戰(zhàn)告捷之后,AlphaFold不斷從生物學(xué)、物理學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的最新進(jìn)展中汲取靈感,以此來(lái)升級(jí)自己的算法,其預(yù)測(cè)能力也獲得了很大的提升。2022年7月28日,DeepMind在其官網(wǎng)發(fā)布了一篇名為《AlphaFold揭示蛋白質(zhì)宇宙的結(jié)構(gòu)》(AlphaFoldrevealsthestructureoftheproteinuniverse)的新聞,宣布AlphaFold已經(jīng)對(duì)幾乎所有已知蛋白質(zhì)的結(jié)構(gòu)做出了預(yù)測(cè)。隨后,又將所有預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)放到了網(wǎng)上,供科研人員自行下載使用。據(jù)不少下載了數(shù)據(jù)的科研人員反映,這些數(shù)據(jù)的準(zhǔn)確率非常高。

雖然在未來(lái)的一段時(shí)期內(nèi),人們還需要繼續(xù)對(duì)AlphaFold給出的預(yù)測(cè)數(shù)據(jù)進(jìn)行驗(yàn)證,但可以說(shuō),困擾了人們半個(gè)多世紀(jì)的“蛋白質(zhì)折疊問(wèn)題”基本上已經(jīng)得到了解決。

AI在科學(xué)研究中的應(yīng)用

毫無(wú)疑問(wèn),AlphaFold破解“蛋白質(zhì)折疊問(wèn)題”的成功為生物學(xué)的發(fā)展作出了巨大的貢獻(xiàn)。但這個(gè)事件還有一個(gè)更為重要的意義,即證明了AI可以在科學(xué)研究領(lǐng)域起到至關(guān)重要,甚至是決定性的作用。由此,“人工智能驅(qū)動(dòng)的科學(xué)研究”(AIforscience,有時(shí)也簡(jiǎn)稱AI4S)成為了AI研究中的顯學(xué)。

科學(xué)的發(fā)展是一個(gè)不斷猜想、不斷檢驗(yàn)的過(guò)程。在科學(xué)研究當(dāng)中,研究者需要先提出假設(shè),然后根據(jù)這個(gè)假設(shè)去構(gòu)造實(shí)驗(yàn)、搜集數(shù)據(jù),并通過(guò)實(shí)驗(yàn)來(lái)對(duì)假設(shè)進(jìn)行檢驗(yàn)。在這個(gè)過(guò)程中,研究者需要進(jìn)行大量的計(jì)算、模擬和證明。而在幾乎每一個(gè)步驟當(dāng)中,AI都有很大的用武之地。

(1)研究問(wèn)題的提出

提出一個(gè)好的問(wèn)題是做出一個(gè)好研究的第一步,只有提出的研究問(wèn)題是重要的,后續(xù)的研究才可能有意義。傳統(tǒng)上,科學(xué)問(wèn)題主要有兩個(gè)來(lái)源:一種是對(duì)現(xiàn)象以及數(shù)據(jù)的觀察來(lái)提出某些猜想,比如,天文學(xué)上著名的開(kāi)普勒三定律,就是由開(kāi)普勒在整理天文學(xué)家第谷留下的大量數(shù)據(jù)之后提出,然后再通過(guò)理論研究加以確立的。第二種則是對(duì)既有文獻(xiàn)的梳理,即通過(guò)閱讀既有的研究成果,看看前人的研究還有哪些地方留有不足,然后以此為突破點(diǎn)提出自己的問(wèn)題。在使用了AI這個(gè)工具后,用以上述兩種方式尋找問(wèn)題的研究者都可以大幅改善自己的效率。

先看通過(guò)觀察提問(wèn)。在過(guò)去,通過(guò)觀察來(lái)提問(wèn)對(duì)研究者的直覺(jué)要求是非常高的。以開(kāi)普勒三定律為例,其中的第一定律(橢圓定律),即“行星繞太陽(yáng)運(yùn)行的軌道是橢圓,并且太陽(yáng)在這個(gè)橢圓的一個(gè)焦點(diǎn)上”是相對(duì)直觀的,通過(guò)對(duì)記錄數(shù)據(jù)的觀察基本就可以提出這個(gè)假設(shè)。但第二定律(面積定律),即“行星和太陽(yáng)的連線在相等的時(shí)間間隔內(nèi)掃過(guò)相等的面積”就不那么直觀了,即使是十分仔細(xì)的人也需要在靈感的啟發(fā)之下才可能發(fā)現(xiàn)這個(gè)規(guī)律。至于第三定律(調(diào)和定律),即“行星繞太陽(yáng)一周的恒星時(shí)間(T)的平方與它們軌道長(zhǎng)半軸(a)的立方成正比”則更是一個(gè)非常不直觀的現(xiàn)象,只有非常天才的研究者才有可能提出這樣的假說(shuō)。

而應(yīng)用了AI之后,人們?cè)谡加辛顺浞值挠^測(cè)數(shù)據(jù)之后,就可以相對(duì)容易地提出相關(guān)的研究問(wèn)題。比如,如果人們有了行星運(yùn)行的大量數(shù)據(jù),并且猜想行星繞太陽(yáng)一周的時(shí)間可能和其軌道橢圓的某條軸的長(zhǎng)度存在著某種關(guān)系,那么他就可以讓AI去嘗試建立這些變量之間的函數(shù)關(guān)系。通過(guò)這樣的方法,開(kāi)普勒第三定律就可能比較容易地被提出來(lái)。

再看通過(guò)閱讀文獻(xiàn)來(lái)提問(wèn)。過(guò)去,從事科學(xué)研究的人相對(duì)較少,研究的數(shù)量也相對(duì)較少,因此一個(gè)研究者只要肯下功夫,就至少可以把自己所從事的領(lǐng)域的相關(guān)文獻(xiàn)都予以掌握。然而,隨著科學(xué)的發(fā)展,從事科研的人數(shù)不斷增加,各種科研成果也不斷地涌現(xiàn),一個(gè)科研人員要想完整地了解自己所在研究領(lǐng)域的進(jìn)展已變得越來(lái)越困難,更遑論去了解其他領(lǐng)域的動(dòng)態(tài)來(lái)給自己的研究提供啟發(fā)了。

在應(yīng)用了AI工具后,以上的問(wèn)題可以在很大程度上得到緩解。比如,現(xiàn)在的研究者可以讓ChatGPT等AI大模型來(lái)為自己整理已有的文獻(xiàn),并寫(xiě)成摘要。這樣,他們就可以大幅減少搜索和閱讀文獻(xiàn)所花費(fèi)的精力,可以以更小的成本了解現(xiàn)有研究的進(jìn)展,并在此基礎(chǔ)上提出新的研究問(wèn)題。

(2)數(shù)據(jù)的搜集

在提出了相關(guān)的研究問(wèn)題之后,研究人員就需要設(shè)計(jì)實(shí)驗(yàn),并搜集相關(guān)的數(shù)據(jù),為進(jìn)一步的研究做準(zhǔn)備。在這個(gè)過(guò)程中,AI的應(yīng)用潛力也是十分廣闊的。

這種作用首先體現(xiàn)在數(shù)據(jù)的選擇上。在實(shí)驗(yàn)當(dāng)中,并不是所有的數(shù)據(jù)都是可用的。很多數(shù)據(jù)可能是受到干擾后產(chǎn)生的,如果不剔除這些數(shù)據(jù),后續(xù)的研究結(jié)果就可能受到嚴(yán)重的干擾。現(xiàn)在在很多實(shí)驗(yàn)中,深度學(xué)習(xí)已經(jīng)成為了這項(xiàng)工作的主要承擔(dān)者。

在搜集了數(shù)據(jù)之后,對(duì)數(shù)據(jù)進(jìn)行標(biāo)注也是一項(xiàng)艱巨的工作。例如,在生物學(xué)當(dāng)中,為新分子進(jìn)行功能和結(jié)構(gòu)標(biāo)注對(duì)于后續(xù)的研究來(lái)說(shuō)是非常重要的,但要進(jìn)行這一工作則并不容易。雖然新一代測(cè)序技術(shù)不斷涌現(xiàn),但只有不到1%的已測(cè)序蛋白質(zhì)得到了生物學(xué)功能的標(biāo)注。目前,為了能夠提高數(shù)據(jù)標(biāo)注的效率,研究者們正在嘗試讓AI學(xué)習(xí)手動(dòng)標(biāo)注的結(jié)果,從而訓(xùn)練出代理模型(surrogatemodels)來(lái)幫助自己對(duì)新的數(shù)據(jù)進(jìn)行標(biāo)簽。從現(xiàn)有的結(jié)果看,這種方式確實(shí)可以比較有效地改進(jìn)標(biāo)注效率。

除此之外,AI現(xiàn)在還有一個(gè)非常重要的作用,即生成數(shù)據(jù)。這一點(diǎn),在AI研究領(lǐng)域表現(xiàn)得最為顯著。近十多年來(lái),人工智能的主要發(fā)展主要來(lái)自于機(jī)器學(xué)習(xí)領(lǐng)域,眾所周知,這個(gè)領(lǐng)域的發(fā)展對(duì)數(shù)據(jù)的依賴非常強(qiáng)。在實(shí)踐當(dāng)中,數(shù)據(jù)的搜集和整理不僅成本高、質(zhì)量難控制,還可能衍生出侵犯?jìng)€(gè)人隱私、威脅數(shù)據(jù)安全等問(wèn)題。為了應(yīng)對(duì)這些問(wèn)題,一些學(xué)者建議可以用合成數(shù)據(jù)作為真實(shí)數(shù)據(jù)的補(bǔ)充,供機(jī)器學(xué)習(xí)使用。

與真實(shí)數(shù)據(jù)相比,合成數(shù)據(jù)具有不少優(yōu)勢(shì):一方面,從訓(xùn)練效果上看,用合成數(shù)據(jù)進(jìn)行訓(xùn)練的效果其實(shí)并不比真實(shí)數(shù)據(jù)差,在一些場(chǎng)合,它們的表現(xiàn)甚至更高。在真實(shí)數(shù)據(jù)的形成過(guò)程中,可能混入很多不必要的噪聲信息,這就可能對(duì)其質(zhì)量造成影響,而合成數(shù)據(jù)則沒(méi)有這樣的問(wèn)題。麻省理工學(xué)院、波士頓大學(xué)和IBM曾聯(lián)合做過(guò)一項(xiàng)研究,用真實(shí)數(shù)據(jù)和合成數(shù)據(jù)分別訓(xùn)練模型對(duì)人類的行為進(jìn)行識(shí)別,結(jié)果采用合成數(shù)據(jù)進(jìn)行訓(xùn)練的模型表現(xiàn)要比采用真實(shí)數(shù)據(jù)訓(xùn)練的模型更優(yōu)。另一方面,從成本上看,合成數(shù)據(jù)的成本要遠(yuǎn)遠(yuǎn)低于真實(shí)數(shù)據(jù)。除此之外,由于合成數(shù)據(jù)都是生成而非搜集的,所以使用它們來(lái)進(jìn)行研究還可以規(guī)避很多法律和道德風(fēng)險(xiǎn)。

目前已經(jīng)有越來(lái)越多的AI研究者開(kāi)始用合成數(shù)據(jù)取代真實(shí)數(shù)據(jù)作為機(jī)器學(xué)習(xí)的材料,其對(duì)AI技術(shù)發(fā)展的貢獻(xiàn)正在變得越來(lái)越顯著。正是因?yàn)檫@個(gè)原因,所以《麻省理工科技評(píng)論》(MITTechnologyReview)將合成數(shù)據(jù)技術(shù)評(píng)為了2022年全球十大突破性技術(shù)之一。

(3)科學(xué)計(jì)算和模擬

在科學(xué)研究的過(guò)程中,通常需要進(jìn)行大量的計(jì)算和模擬工作。比如,如果科學(xué)家發(fā)現(xiàn)了某個(gè)星體的運(yùn)行規(guī)律,怎樣才能證明他的發(fā)現(xiàn)是正確的呢?最直觀的方法就是根據(jù)他發(fā)現(xiàn)的規(guī)律計(jì)算出這個(gè)星體在未來(lái)某個(gè)時(shí)間點(diǎn)的位置,然后進(jìn)行比對(duì)。從這個(gè)意義上講,精確的計(jì)算和模擬就是驗(yàn)證理論的關(guān)鍵。

但計(jì)算并不是那么容易的事情。例如,從理論上講,各大星體之間的相對(duì)運(yùn)動(dòng)關(guān)系都可以由萬(wàn)有引力定律推出。牛頓在發(fā)現(xiàn)三大定律之后,就曾經(jīng)很自豪地宣稱,他已經(jīng)掌握了宇宙運(yùn)行的終極奧秘。但是,真實(shí)情況卻并非如此。以由于劉慈欣的小說(shuō)而被人們所熟知的“三體”問(wèn)題為例。從表面上看,“三體”系統(tǒng)是非常簡(jiǎn)單的,總共只有三顆彼此糾纏的恒星,以及一顆夾在其中的行星,要模擬它的運(yùn)動(dòng)軌跡似乎并不難。但一旦我們?cè)噲D用牛頓力學(xué)來(lái)對(duì)其位置進(jìn)行推導(dǎo),就會(huì)發(fā)現(xiàn)得到的聯(lián)立微分方程其實(shí)構(gòu)成了一個(gè)混沌系統(tǒng),其運(yùn)動(dòng)的軌跡是很難確定的,一個(gè)微小的擾動(dòng)都可能帶來(lái)巨大的偏差。正是因?yàn)檫@個(gè)原因,所以在《三體》小說(shuō)中,即使科技水平遠(yuǎn)超地球的三體人也無(wú)法制成一張精確的萬(wàn)年歷。

在現(xiàn)實(shí)中,遠(yuǎn)比“三體”系統(tǒng)復(fù)雜的問(wèn)題比比皆是。在對(duì)這些問(wèn)題進(jìn)行研究時(shí),人們都不得不直面“維度爆炸”問(wèn)題的挑戰(zhàn)。

舉例來(lái)說(shuō),臺(tái)風(fēng)軌跡的預(yù)測(cè)就是一件計(jì)算量需求非常高的工作。傳統(tǒng)上,人們主要是依靠動(dòng)力系統(tǒng)模型來(lái)進(jìn)行預(yù)測(cè)。這種方法會(huì)根據(jù)流體動(dòng)力學(xué)和熱力學(xué)等物理定律來(lái)構(gòu)造大量的微分方程,用它們來(lái)模擬大氣的運(yùn)動(dòng),進(jìn)而對(duì)臺(tái)風(fēng)的走向進(jìn)行預(yù)測(cè)。顯然,這個(gè)動(dòng)力系統(tǒng)是非常復(fù)雜的,不僅預(yù)測(cè)所需要的計(jì)算量非常大,并且非常容易受外生擾動(dòng)因素的影響。正是因?yàn)檫@個(gè)原因,所以世界各國(guó)即使動(dòng)用了最先進(jìn)的超級(jí)計(jì)算機(jī),預(yù)測(cè)也經(jīng)常出錯(cuò)。最近幾年,人們調(diào)整了預(yù)測(cè)的思路,開(kāi)始嘗試用AI模型預(yù)測(cè)臺(tái)風(fēng),由此涌現(xiàn)了一大批相關(guān)的AI模型。這類模型放棄了傳統(tǒng)物理模型的預(yù)測(cè)思路,轉(zhuǎn)而用機(jī)器學(xué)習(xí)的方法來(lái)進(jìn)行預(yù)測(cè),不僅大幅降低了計(jì)算負(fù)擔(dān),而且有效提升了預(yù)測(cè)精度。比如,“風(fēng)烏”模型在一個(gè)單GPU的計(jì)算機(jī)上就可以運(yùn)行,并且僅需30秒即可生成未來(lái)10天全球高精度預(yù)報(bào)結(jié)果。在最近預(yù)測(cè)臺(tái)風(fēng)“杜蘇芮”的過(guò)程中,“風(fēng)烏”模型預(yù)測(cè)的軌跡誤差遠(yuǎn)遠(yuǎn)小于傳統(tǒng)模型,從而為人們抗擊臺(tái)風(fēng)做出了很大的貢獻(xiàn)。

(4)輔助證明

在一些學(xué)科(例如數(shù)學(xué))的研究過(guò)程中,需要對(duì)命題進(jìn)行理論上的證明。從很早開(kāi)始,人們就試圖借助計(jì)算機(jī)來(lái)幫助他們完成這項(xiàng)困難的工作。他們的基本思路是:首先將一個(gè)數(shù)學(xué)命題形式化(formalisation),然后借助計(jì)算機(jī)來(lái)對(duì)形式化的命題給出證明。

在現(xiàn)實(shí)當(dāng)中,很多數(shù)學(xué)命題是由自然語(yǔ)言表述的。比如,著名的“四色問(wèn)題”就是要證明“任何一張地圖只用四種顏色就能使具有共同邊界的國(guó)家著上不同的顏色。”對(duì)于計(jì)算機(jī)來(lái)講,這種自然語(yǔ)言是它們難以理解的,因此它們也不可能幫助人們以自然語(yǔ)言的形式來(lái)解決證明問(wèn)題。幸運(yùn)的是,數(shù)學(xué)家們經(jīng)過(guò)長(zhǎng)期的努力,已經(jīng)對(duì)大部分的數(shù)學(xué)分支建立起了公理化的表述體系。借助于公理化體系,用自然語(yǔ)言表述的命題就可以表述為由一個(gè)系列邏輯判斷構(gòu)成的形式化命題。通過(guò)特定的方式編碼,計(jì)算機(jī)可以對(duì)這些形式化命題進(jìn)行識(shí)別,于是,計(jì)算機(jī)就可以幫助人們用來(lái)進(jìn)行輔助證明。

仍以“四色問(wèn)題”的證明為例:在歷史上,這個(gè)著名的問(wèn)題曾經(jīng)有過(guò)好幾個(gè)版本的證明。盡管在每一個(gè)版本的證明中,數(shù)學(xué)家都用到了計(jì)算機(jī)作為輔助,但最初的證明都是以人工的推導(dǎo)為主,計(jì)算機(jī)的工作主要局限在提供計(jì)算的支持。2005年,英國(guó)劍橋研究院的高級(jí)研究員貢蒂埃(GeorgesGonthier)給出了“四色問(wèn)題”的新一代證明。和前幾代的證明不同,貢蒂埃首先將這個(gè)問(wèn)題轉(zhuǎn)化成了一系列形式化的命題,再用一個(gè)名叫Coq的交互式輔助軟件對(duì)它們進(jìn)行了證明。由于在證明的過(guò)程中,Coq完成了大量最復(fù)雜的證明,因此在某種意義上講,這個(gè)過(guò)程可以算是一個(gè)機(jī)器證明。

需要指出的是,盡管包括Coq在內(nèi)的輔助證明軟件已經(jīng)可以幫助人們完成很多證明工作,但它的自動(dòng)化是非常低的。在多數(shù)時(shí)候,人類研究者還需要充當(dāng)引導(dǎo)員的角色,幫它們把自然命題轉(zhuǎn)化為形式化命題。

隨著AI的發(fā)展,人們開(kāi)始嘗試讓AI來(lái)解決這個(gè)問(wèn)題。比如,2022年,由谷歌、斯坦福大學(xué)等單位的研究人員組成的一個(gè)團(tuán)隊(duì)就發(fā)表了一篇論文,介紹了使用OpenAICodex的神經(jīng)網(wǎng)絡(luò)進(jìn)行自動(dòng)形式化的工作,顯示了用大型語(yǔ)言模型將非形式化語(yǔ)句自動(dòng)翻譯成形式化語(yǔ)句的可行性。今年,這個(gè)團(tuán)隊(duì)又在此基礎(chǔ)之上提出了一整套名為“草圖、草稿、證明”(Draft,Sketch,andProve,簡(jiǎn)稱DSP)的AI輔助證明方法。這套方法建議利用大型語(yǔ)言模型先將自然語(yǔ)言命題轉(zhuǎn)化為由一系列邏輯推理步驟組成的形式化命題,然后用交互式定理證明器來(lái)對(duì)這些命題進(jìn)行證明。當(dāng)然,在這些步驟之間,還存在著一系列的中間猜想。因此在證明的最后,還需要通過(guò)自動(dòng)驗(yàn)證器來(lái)對(duì)這些中間猜想進(jìn)行證明。這樣,上述的工作就可以合起來(lái)構(gòu)成一個(gè)完整的形式化證明。

(5)輔助寫(xiě)作

對(duì)于科研工作來(lái)說(shuō),AI還有一個(gè)重要的貢獻(xiàn):輔助寫(xiě)作。在很多人看來(lái),在完成了研究、得到了相關(guān)的結(jié)論之后,把它們寫(xiě)成論文就是一件非常輕松的事了。但事實(shí)上,情況未必如此。在現(xiàn)實(shí)中,有很多研究人員對(duì)做實(shí)驗(yàn)、跑數(shù)據(jù)非常熱衷,但對(duì)寫(xiě)論文則相當(dāng)?shù)钟|,甚至認(rèn)為花時(shí)間在遣詞造句上完全是浪費(fèi)時(shí)間。而在以ChatGPT為代表的生成式AI興起之后,這類研究人員就得到了拯救。現(xiàn)在,他們?cè)谕瓿裳芯亢螅苯影严嚓P(guān)的結(jié)論丟給ChatGPT,就可以得到非常規(guī)范的論文。很顯然,這會(huì)極大減輕他們的工作負(fù)擔(dān),提升他們的工作效率。

另一個(gè)容易被忽視的貢獻(xiàn)

需要指出的是,除了上述的這些直接貢獻(xiàn)之外,AI還有一個(gè)非常容易被忽視的影響,即重構(gòu)產(chǎn)學(xué)研關(guān)系、促進(jìn)企業(yè)對(duì)基礎(chǔ)研究的投資熱情。對(duì)于面臨一些領(lǐng)域被西方“卡脖子”的我國(guó)而言,這一點(diǎn)可能是尤其需要重視的。

根據(jù)《中國(guó)研發(fā)經(jīng)費(fèi)報(bào)告2022》,2022年我國(guó)基礎(chǔ)研究經(jīng)費(fèi)支出為1951億元,基礎(chǔ)研究投入強(qiáng)度為6.3%。雖然與歷史相比,我國(guó)對(duì)基礎(chǔ)研究投入的強(qiáng)度不斷上升,但如果與國(guó)外相比,就可以看到目前我國(guó)的基礎(chǔ)研究投入強(qiáng)度依然很低。

如果我們把基礎(chǔ)研究投入分執(zhí)行機(jī)構(gòu)進(jìn)行分析,就會(huì)發(fā)現(xiàn)以高校作為執(zhí)行機(jī)構(gòu)的比例是最高的,在總投入中占到了49.4%。其次是研究和開(kāi)發(fā)機(jī)構(gòu),占39.1%,而企業(yè)作為執(zhí)行機(jī)構(gòu)的,僅占6.5%。相比之下,美國(guó)基礎(chǔ)研究經(jīng)費(fèi)由企業(yè)執(zhí)行比例為32.4%,日本基礎(chǔ)研究經(jīng)費(fèi)由企業(yè)執(zhí)行比例為47.07%。眾所周知,高校和科研機(jī)構(gòu)的經(jīng)費(fèi)主要來(lái)自于國(guó)家撥款,而企業(yè)的研究經(jīng)費(fèi)則主要是由其自行投入的。因此,這組數(shù)字就說(shuō)明了,我國(guó)的企業(yè)在基礎(chǔ)研究上進(jìn)行投入的意愿要遠(yuǎn)低于美、日等國(guó)。

為什么會(huì)出現(xiàn)以上這樣的情況呢?一個(gè)重要的原因是,基礎(chǔ)研究的周期太長(zhǎng)、風(fēng)險(xiǎn)較大、轉(zhuǎn)化率又低,導(dǎo)致以利潤(rùn)最大化為目標(biāo)的企業(yè)認(rèn)為從事基礎(chǔ)研究是無(wú)利可圖的。在發(fā)達(dá)國(guó)家,由于建立了比較完善的產(chǎn)學(xué)研共生生態(tài),類似風(fēng)險(xiǎn)可以比較好地在企業(yè)、政府、科研機(jī)構(gòu)等眾多主體之間分擔(dān),所以企業(yè)對(duì)基礎(chǔ)研究的投資積極性就相對(duì)較高。而我國(guó),產(chǎn)、學(xué)、研彼此之間的孤立性還較高,因而就很難有類似的風(fēng)險(xiǎn)分擔(dān)機(jī)制。

顯然,要破解上述問(wèn)題,根本的出路還是要培育健康的創(chuàng)新生態(tài),推進(jìn)產(chǎn)學(xué)研的一體化。但這是一個(gè)長(zhǎng)期的過(guò)程,不是一朝一夕可以實(shí)現(xiàn)的。不過(guò),即使在創(chuàng)新生態(tài)未能有效改善的條件下,AI的應(yīng)用也可以在很大程度上提升企業(yè)投資基礎(chǔ)研究的積極性。通過(guò)前面的分析可以看到,借助AI的輔助,基礎(chǔ)研究的周期可以大幅縮短,效率可以大幅提升。從經(jīng)濟(jì)角度看,這其實(shí)就增加了基礎(chǔ)科研的預(yù)期收益,同時(shí)降低了其失敗風(fēng)險(xiǎn)。因此,原本無(wú)力可圖的基礎(chǔ)研究就可能成為一項(xiàng)合算的生意,企業(yè)對(duì)其投資的積極性也將提升。這樣一來(lái),基礎(chǔ)研究投入不足的問(wèn)題就可以得到有效的緩解。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章