首頁(yè) > AI資訊 > 最新資訊 > 鄧力:轉(zhuǎn)動(dòng)語(yǔ)音深度學(xué)習(xí)飛輪的人|深度學(xué)習(xí)崛起十年

鄧力:轉(zhuǎn)動(dòng)語(yǔ)音深度學(xué)習(xí)飛輪的人|深度學(xué)習(xí)崛起十年

新火種    2023-10-28

鄧力、俞棟、何曉冬......2012年,深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域爆發(fā)之前,他們已經(jīng)推動(dòng)了深度學(xué)習(xí)在語(yǔ)音領(lǐng)域的落地突破。

作者 | 陳鷺伊

編輯 | 岑峰

編者按:2012年,在這一年的 ImageNet 挑戰(zhàn)賽上,深度神經(jīng)網(wǎng)絡(luò) AlexNet 一騎絕塵,以錯(cuò)誤率降低40%、遠(yuǎn)超第二名的成績(jī)拿到了比賽的冠軍。以此為標(biāo)志,深度學(xué)習(xí)開(kāi)始逐漸成為人工智能研究的主流技術(shù),基于Hinton及眾多先驅(qū)提出的深度學(xué)習(xí)理念框架推動(dòng)了語(yǔ)音識(shí)別、圖像識(shí)別、機(jī)器翻譯、自然語(yǔ)言處理和機(jī)器人技術(shù)從“孤軍奮戰(zhàn)”走向協(xié)作,引發(fā)了人工智能大規(guī)模落地的浪潮。

一項(xiàng)突破性技術(shù)發(fā)展的背后,不僅需要長(zhǎng)時(shí)間的積累和醞釀,更離不開(kāi)少數(shù)遠(yuǎn)見(jiàn)者堅(jiān)持不懈的持續(xù)推動(dòng)。而在這一波深度學(xué)習(xí)崛起的浪潮中,有一批華人學(xué)者深度參與其中,成為推動(dòng)深度學(xué)習(xí)與人工智能進(jìn)步的重要力量。值此深度學(xué)習(xí)崛起十周年之際,雷峰網(wǎng)設(shè)立“深度學(xué)習(xí)崛起十年”系列,通過(guò)回顧深度學(xué)習(xí)的發(fā)展歷程, 以“十年十個(gè)故事”的方式,展現(xiàn)華人研究者們對(duì)深度學(xué)習(xí)的推動(dòng),致敬這一波深度學(xué)習(xí)浪潮中的中國(guó)元素。

本文是“深度學(xué)習(xí)崛起十年”系列的第一篇。

1

序幕:一條期盼已久的消息

2012年10月的一天,微軟研究院(MSR)語(yǔ)音研究首席研究員鄧力受邀,從美國(guó)西海岸的西雅圖,橫跨美國(guó)大陸,前往位于美國(guó)東海岸的巴爾的摩、語(yǔ)音和語(yǔ)言處理研究的殿堂CLSP做演講。

鄧力在雷峰網(wǎng)GAIR 2019大會(huì)現(xiàn)場(chǎng)

CLSP的全稱是約翰霍普金斯大學(xué)的語(yǔ)言和語(yǔ)音處理中心(The Johns Hopkins University Center for Language and Speech Processing),由提出了統(tǒng)計(jì)語(yǔ)音識(shí)別框架的著名學(xué)者賈里尼克(Frederick Jelinek)于1992年創(chuàng)立。每年夏天,中心都會(huì)邀請(qǐng)世全球20-30名頂級(jí)的科學(xué)家和學(xué)術(shù)新星、學(xué)生到CLSP一起工作,并舉辦側(cè)重于語(yǔ)音和語(yǔ)言工程的研討會(huì)(Johns Hopkins Summer Workshop),多年來(lái)每屆研討會(huì)的研究成果對(duì)于大詞匯量連續(xù)語(yǔ)音識(shí)別(LVCSR),自然語(yǔ)言處理(NLP)及對(duì)話等領(lǐng)域產(chǎn)生了廣泛的影響,這也使得CLSP成為世界上語(yǔ)音和語(yǔ)言處理的中心之一。

鄧力演講的題目是New Waves of Innovation in Large-Scale Speech Technology Ignited by Deep Learning。就在等待登臺(tái)演講的時(shí)候,正在瀏覽郵件的鄧力看到了一條由多倫多大學(xué)的Geoffrey Hinton親自發(fā)給他的郵件:Hinton的團(tuán)隊(duì)在該周ImageNet 的ILSVRC挑戰(zhàn)賽中以壓倒性的優(yōu)勢(shì)獲得第一,將圖像識(shí)別錯(cuò)誤率從26%降低到了16%,錯(cuò)誤率降低了將近40%。Hinton 在郵件中特別提醒鄧力“ … look at this huge margin!!!”

這也是鄧力期盼已久的一條消息。

盡管當(dāng)時(shí)不少人對(duì)深度學(xué)習(xí)持懷疑態(tài)度,但鄧力對(duì)此深信不疑。在他看來(lái),Hinton在ILSVRC挑戰(zhàn)賽取得成功是一件自然而然的事:作為與Hinton在深度學(xué)習(xí)領(lǐng)域最早的合作者,鄧力及其同事俞棟、Frank Seide等將深度學(xué)習(xí)成功應(yīng)用于語(yǔ)音識(shí)別,并將錯(cuò)誤率降低了30%以上。

這是你的勝利,也是我的勝利。

這是深度學(xué)習(xí)的勝利,也是神經(jīng)網(wǎng)絡(luò)的勝利!

2

深度學(xué)習(xí)的第一次成功,從語(yǔ)音開(kāi)始

鄧力對(duì)神經(jīng)網(wǎng)絡(luò)的“誤會(huì)”消除于2008年。

鄧力對(duì)神經(jīng)網(wǎng)絡(luò)并不陌生。他1977年考入中國(guó)科學(xué)技術(shù)大學(xué)生物系(778班),本科的專業(yè)是神經(jīng)科學(xué)和生物物理學(xué),真正接觸人工神經(jīng)網(wǎng)絡(luò)是在威斯康星大學(xué)麥迪遜分校攻讀電氣工程方向的博士期間,鄧力在語(yǔ)音方面的研究也是始于彼時(shí)。

在博士期間,鄧力嘗試創(chuàng)建人類聽(tīng)覺(jué)模擬和語(yǔ)音識(shí)別神經(jīng)模型,然而進(jìn)展并不順利。不僅神經(jīng)網(wǎng)絡(luò)的理論還有待進(jìn)一步完善,當(dāng)時(shí)的計(jì)算機(jī)也無(wú)法提供足夠的計(jì)算能力,這也使得鄧力在神經(jīng)網(wǎng)絡(luò)方向上的研究舉步維艱。

博士畢業(yè)后,鄧力加入加拿大滑鐵盧大學(xué)任教,期間仍在從事神經(jīng)網(wǎng)絡(luò)方面的研究。其中他與他的一名學(xué)生Khaled Hassanein (現(xiàn)任教于加拿大的McMaster大學(xué))在1993年提出了一種增強(qiáng)神經(jīng)網(wǎng)絡(luò)記憶的新模型。這也是Khaled Hassanein 的博士論文題目,這一研究實(shí)現(xiàn)了一個(gè)可用于語(yǔ)音識(shí)別的完整系統(tǒng),但性能仍無(wú)法超越隱馬爾科夫模型。

鄧力邀請(qǐng)了 Geoffrey Hinton作為這篇博士論文的外審審稿人。在讀過(guò)論文后,Hinton告訴鄧力,受各種條件限制,現(xiàn)階段神經(jīng)網(wǎng)絡(luò)恐怕難以取得進(jìn)一步的突破。這也使得鄧力將精力從神經(jīng)網(wǎng)絡(luò)的研究轉(zhuǎn)向貝葉斯統(tǒng)計(jì)方法和生成模型研究上。

但鄧力仍然是神經(jīng)網(wǎng)絡(luò)圈子的一員。他是神經(jīng)信息處理領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議NIPS的常客,2008年12月的NIPS上,鄧力與Hinton再度見(jiàn)面。

2008年NIPS的主會(huì)場(chǎng)設(shè)在溫哥華,但大會(huì)的專項(xiàng)研討會(huì)(Workshop)安排在了距溫哥華一小時(shí)半車程的滑雪度假村Hilton Whistler Resort and Spa——這也是NIPS的慣例,該會(huì)議在2010年以前一直在滑雪勝地的Whistler舉行。

鄧力和他的同事何曉冬在這一年的NIPS上舉辦了一場(chǎng)語(yǔ)音語(yǔ)言研討會(huì)(NIPS Workshop on Speech and Language: Learning-based Methods and Systems),并請(qǐng)來(lái)Hinton做報(bào)告。Hinton告訴鄧力,自己開(kāi)始用一種新的方法深度學(xué)習(xí)處理語(yǔ)音問(wèn)題,而且取得了不錯(cuò)的結(jié)果。

這讓鄧力大為感到意外。在他的印象中,Hinton從未涉足語(yǔ)音方面的研究,而且過(guò)去神經(jīng)網(wǎng)絡(luò)少有明顯高出其他方法的成功案例。兩人約定事后再詳細(xì)進(jìn)行討論。

在后續(xù)的郵件討論中,Hinton又給鄧力發(fā)來(lái)了一篇新論文的草稿,論文表明,在用三個(gè)小時(shí)的語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)達(dá)到了和鄧力所采用的基于生成式五層動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的方法相媲美的水準(zhǔn)。由于雙方使用的語(yǔ)音數(shù)據(jù)的測(cè)試集不同,鄧力對(duì)此仍持保留態(tài)度,他決定邀請(qǐng)Hinton到微軟總部進(jìn)行訪問(wèn),以便可以在同樣的數(shù)據(jù)集下比較哪一種方法更優(yōu)。

鄧力(左)與Geoffrey Hinton

2009年十一月,Hinton如約到來(lái),他和鄧力一起克服了種種困難,用MATLAB搭建了一個(gè)語(yǔ)音識(shí)別神經(jīng)網(wǎng)絡(luò)的原型。Hinton負(fù)責(zé)了大部分關(guān)于深度波爾茲曼預(yù)訓(xùn)練模型代碼的編寫,代碼的簡(jiǎn)潔流暢讓鄧力嘆為觀止。當(dāng)模型開(kāi)始使用微軟的語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),鄧力馬上感到了不同:雖然比起SOTA還略有差距,但這足以讓鄧力意識(shí)到,深度學(xué)習(xí)的方法是有用的。經(jīng)過(guò)詳細(xì)的誤差分析和基于以往研究經(jīng)驗(yàn)的推理,他意識(shí)到即便只用簡(jiǎn)單的算法,只要用大量數(shù)據(jù)進(jìn)行訓(xùn)練,即便不用波爾茲曼預(yù)訓(xùn)練模型也可能得到出色的結(jié)果。

圍繞這一研究的相關(guān)成果,2009年鄧力和Hinton以及微軟的同事俞棟三人又在NIPS 上共同組織舉辦了一個(gè)深度學(xué)習(xí)在語(yǔ)音研究的應(yīng)用的研討會(huì)(2009 Workshop on Deep Learning for Speech Recognition and Related Applications)。

處理更多的數(shù)據(jù)需要搭建新的系統(tǒng)。Hinton告訴鄧力,他需要花費(fèi)至少一萬(wàn)美元去購(gòu)買Nvidia的GPU來(lái)完善這一項(xiàng)目。鄧力的老板Alex Acero聽(tīng)聞后勸說(shuō)鄧力不必花大價(jià)錢買GPU,去Fry's electronics store買通用顯卡搭建系統(tǒng)會(huì)便宜一些, 然后在滿足了對(duì)神經(jīng)網(wǎng)絡(luò)的好奇心之后回收這些便宜的顯卡。但Hinton認(rèn)為便宜的硬件不僅發(fā)熱量更大,而且以模型所需要的計(jì)算能力,購(gòu)買通用顯卡搭建系統(tǒng)可能會(huì)花費(fèi)更多。最終,鄧力用自己掌控的研究經(jīng)費(fèi)買了三塊Hinton推薦的GPU著手大數(shù)據(jù)的語(yǔ)音識(shí)別實(shí)驗(yàn),并在2010年再度邀請(qǐng)Hinton前來(lái)訪問(wèn)。

經(jīng)過(guò)過(guò)去一年的宣傳,“深度學(xué)習(xí)”的概念開(kāi)始為更多人所知。而Hinton這第二次訪問(wèn)的顧問(wèn)費(fèi)也比去年翻了一番,漲到了2000美元/天。此前,Hinton的兩位研究生Abdelrahman Mohamed 和 George Dahl也來(lái)到微軟,推進(jìn)這一研究。

George Dahl正是推進(jìn)鄧力小組深度學(xué)習(xí)項(xiàng)目的關(guān)鍵人物——盡管在后來(lái)的采訪中,George Dahl笑稱他不了解語(yǔ)音,他開(kāi)始做語(yǔ)音相關(guān)研究的唯一原因是因?yàn)镠inton的其他學(xué)生“都在做視覺(jué)方面的研究”,但他在GPU方面的的豐富經(jīng)驗(yàn)對(duì)于這個(gè)研究項(xiàng)目起到了巨大的推動(dòng)作用。

這也是深度神經(jīng)網(wǎng)絡(luò)在工業(yè)界的大型語(yǔ)音識(shí)別上的革命性突破:在學(xué)習(xí)了大量數(shù)據(jù)后,盡管暫時(shí)拋棄了相對(duì)復(fù)雜的深度波爾茲曼預(yù)訓(xùn)練模型,Hinton的多層建模和鄧力、俞棟提出的用senone建模結(jié)合、共同設(shè)計(jì)的語(yǔ)音原型性能依然超越了其他方法,包括鄧力之前發(fā)明的基于五層動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的方法,在人工智能的歷史上,這是過(guò)去其他方法都不曾達(dá)到的一個(gè)里程碑。

3

猶豫中的前行

盡管微軟很早就開(kāi)始斥巨資投入人工智能研究,并雇傭了一批當(dāng)時(shí)頂尖的人工智能學(xué)家,但在神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)崛起并在其他領(lǐng)域開(kāi)始取得成效的時(shí)候,這種歷史積累反而成了讓微軟更進(jìn)一步的阻礙,在微軟高層、尤其是技術(shù)高層仍對(duì)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)持懷疑態(tài)度。

2010年,鄧力迎來(lái)了一位大老板:曾任卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)系系主任的Peter Lee來(lái)到微軟,擔(dān)任微軟雷德蒙研究院(MSR Redmond)院長(zhǎng)。隨后,他全面負(fù)責(zé)微軟美國(guó)境內(nèi)研究項(xiàng)目的運(yùn)營(yíng),直到2013年7月全面接手微軟研究院。Peter Lee上任的第一件事就是對(duì)研究院的項(xiàng)目及開(kāi)支進(jìn)行審核,當(dāng)他看到鄧力項(xiàng)目組的開(kāi)支時(shí),他大吃一驚。

Peter Lee從80年代在卡內(nèi)基梅隆大學(xué)任教時(shí)就認(rèn)識(shí)Hinton。后來(lái)在紐約時(shí)報(bào)記者凱德·梅斯的一次采訪中,Peter自己提到,和當(dāng)時(shí)的主流學(xué)者一樣,他認(rèn)為Hinton的神經(jīng)網(wǎng)絡(luò)“非常荒謬”,邀請(qǐng)Hinton和他的學(xué)生、購(gòu)買GPU的經(jīng)費(fèi)、NIPS研討會(huì)的費(fèi)用在他看來(lái)純屬浪費(fèi)。但在他來(lái)到微軟之前,這筆費(fèi)用早已進(jìn)入了執(zhí)行階段了。

Peter Lee的態(tài)度也影響到了Hinton與微軟的合作。此前Hinton曾口頭答應(yīng)鄧力,后面還會(huì)將他的另一名博士生Alex Krizhevsky(后來(lái)成為AlexNet論文第一作者。Alex Krizhevsky 和鄧力至今保持良好關(guān)系,不僅Krizhevsky十年前險(xiǎn)些到微軟當(dāng)他語(yǔ)音組的實(shí)習(xí)生,近年鄧力在離開(kāi)微軟后還險(xiǎn)些為 Citadel雇來(lái)了Krizhevsky)送來(lái)微軟讓鄧力帶領(lǐng)他實(shí)習(xí),但后來(lái)Hinton改變了主意。Abdelrahman Mohamed在結(jié)束微軟的實(shí)習(xí)后去往IBM,另一名從事深度學(xué)習(xí)在語(yǔ)音領(lǐng)域應(yīng)用研究的學(xué)生Navdeep Jaitly則去往Google,微軟和Hinton漸行漸遠(yuǎn)。

后來(lái)Hinton在2012年NIPS大會(huì)上舉行競(jìng)拍選擇他的新東家時(shí),他事后告訴鄧力,他在潛意識(shí)里已經(jīng)將微軟排除在外,這不是錢的問(wèn)題(否則他也不會(huì)在4400萬(wàn)美元的出價(jià)上叫停),而是審核制度的問(wèn)題。微軟的審核制度和風(fēng)格或許適合銷售人員,但“絕不適合研究者。”

Hinton 讓鄧力將這個(gè)看法轉(zhuǎn)送給當(dāng)時(shí)任微軟CEO的Steve Balmer。數(shù)月后,微軟對(duì)員工的審核制度果然取消了 “stack ranking”。而鄧力和Hinton合作的那篇近代語(yǔ)音識(shí)別歷史上被引用最多、2012年12月發(fā)表的文章《Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups》,在2011年就已寫好初稿。但Hinton建議鄧力將其學(xué)生在Google和 IBM的相關(guān)研究也包含在這篇文章中,這樣可以讓兩家公司的研究員們?cè)谥髮懻撐臅r(shí)主動(dòng)引用這篇文章,增加文章的影響力。

事實(shí)證明了Hinton是對(duì)的。該論文不僅總結(jié)了深度神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)音識(shí)別的影響,還闡述了如何將包括深度神經(jīng)網(wǎng)絡(luò)的方法在內(nèi)的不同的機(jī)器學(xué)習(xí)方法整合起來(lái)為大規(guī)模的語(yǔ)音識(shí)別帶來(lái)重大的進(jìn)展。目前該文章的引用量已超過(guò)11000次。

另一方面,按凱德·梅斯的書(shū)中提到,盡管后來(lái)Peter Lee看到了鄧力在使用深度學(xué)習(xí)在語(yǔ)音識(shí)別上取得的突破,但他仍認(rèn)為這是“瞎貓碰到了死耗子”,猜測(cè)這一成功無(wú)法被復(fù)制到其他領(lǐng)域的研究中。后來(lái)在2012年7月,Peter Lee飛往猶他州Snowbird參加兩年一度的CRA會(huì)議(該會(huì)議的特色是在會(huì)議期間舉辦的美國(guó)計(jì)算機(jī)系主任論壇,屬于計(jì)算機(jī)系主任們的小圈子),會(huì)上Google的Jeff Dean受邀發(fā)表了關(guān)于深度學(xué)習(xí)的演講。Peter從Snowbird返回后專程找了一趟鄧力,希望鄧力能為他解答為什么Jeff Dean會(huì)對(duì)深度學(xué)習(xí)如此“上頭”。

鄧力試圖向Peter Lee解釋Jeff Dean的DistBelief 論文及其內(nèi)容,以及Google這個(gè)微軟的主要競(jìng)爭(zhēng)對(duì)手正在修建面向未來(lái)的基礎(chǔ)設(shè)施。但Peter Lee打斷了鄧力,告知鄧力根據(jù)NIPS的規(guī)定,在論文發(fā)表前不得對(duì)其進(jìn)行談?wù)摗?/p>

雖然鄧力接下來(lái)繼續(xù)和Peter Lee討論深度學(xué)習(xí)技術(shù)的演變趨勢(shì),但Peter Lee仍然堅(jiān)信語(yǔ)音識(shí)別是一回事,但圖像識(shí)別又是另一回事,而Google就是一個(gè)大把撒幣的敗家子。但Peter Lee最后還是為鄧力安排了一個(gè)專門會(huì)議,希望他能夠向研究院資深研究者及公司高管講述深度學(xué)習(xí)的進(jìn)展。

會(huì)議安排在園區(qū)的另一棟大樓的大會(huì)議室,共有20余名資深研究者和高管參加了會(huì)議。鄧力的演示并不順利,當(dāng)他開(kāi)始講解的時(shí)候,計(jì)算機(jī)視覺(jué)領(lǐng)域的資深研究者Paul Viola打斷了他。“神經(jīng)網(wǎng)絡(luò)從未取得成功。”

Viola甚至走到了臺(tái)前,把鄧力筆記本電腦的投影連接線拔掉接到了自己的電腦上。屏幕上出現(xiàn)的是明斯基和佩珀編寫、1969年的出版的《感知機(jī)》一書(shū)的封面,正是這本書(shū)對(duì)神經(jīng)網(wǎng)絡(luò)的批判導(dǎo)致了神經(jīng)網(wǎng)絡(luò)“失落的二十年”,這是任何一位神經(jīng)網(wǎng)絡(luò)研究者都不愿觸及的“傷疤”。

鄧力試圖繼續(xù)他的演講,但仍被Paul Viola多次打斷。直到參加了這個(gè)會(huì)議的另一位高管陸奇仗義直言,這是鄧力的演講,才讓鄧力得以完成自己的演講。

陸奇是鄧力在微軟的少數(shù)支持者之一。他當(dāng)時(shí)的職位是微軟執(zhí)行副總裁和Bing項(xiàng)目的負(fù)責(zé)人,也是在全球科技公司總部所任職位最高級(jí)別的大陸華人。與其他微軟高管不同的是,在參加這個(gè)會(huì)議前,陸奇參加了在硅谷舉辦的年度黑客活動(dòng)Foo Camp 2012,在活動(dòng)中陸奇注意到了AI領(lǐng)域的華人新星吳恩達(dá)和他介紹的深度學(xué)習(xí)成為了活動(dòng)的焦點(diǎn),而吳恩達(dá)正是與Jeff Dean一同創(chuàng)建了Google Brain項(xiàng)目。

在Foo Camp后的幾周時(shí)間里,陸奇專門抽出時(shí)間閱讀了一系列關(guān)于深度學(xué)習(xí)的論文,當(dāng)鄧力向技術(shù)專家和高管介紹深度學(xué)習(xí)的時(shí)候,陸奇所詢問(wèn)的問(wèn)題也頗為到位。就在會(huì)議之后數(shù)周,鄧力收到了Hinton的電話,Hinton告知鄧力百度愿意給他開(kāi)出1200萬(wàn)美元的Offer,所以他不愿意再次到微軟的鄧力語(yǔ)音組繼續(xù)做顧問(wèn)。鄧力將這一信息轉(zhuǎn)發(fā)給陸奇,陸奇轉(zhuǎn)而建議微軟研究院加入Hinton的爭(zhēng)奪,但微軟對(duì)此仍在猶豫。

4

全面開(kāi)花

相比起微軟總部的謹(jǐn)慎,當(dāng)深度學(xué)習(xí)浪潮來(lái)臨之時(shí),微軟的中國(guó)同行們要積極得多。

從某種意義上來(lái)說(shuō),幾乎每年都會(huì)返回中國(guó)參加學(xué)術(shù)交流的鄧力算得上是中國(guó)深度學(xué)習(xí)應(yīng)用于語(yǔ)音研究的布道者。2010年9月21日,鄧力和俞棟受中科大信息科學(xué)技術(shù)學(xué)院李衛(wèi)平院長(zhǎng)邀請(qǐng)到中科大交流,科大訊飛也有不少人參加了這次交流會(huì)。俞棟分享了將神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音識(shí)別的最新成果,這也使得科大訊飛成為了除微軟總部之外,首先詳細(xì)了解這一研究并著手跟進(jìn)研究的團(tuán)隊(duì)之一。

在結(jié)束中科大的交流后,鄧力和俞棟才繼續(xù)前往微軟亞洲研究院進(jìn)行交流。在中科大交流之后的幾天后,俞棟首次在微軟亞洲研究院聲學(xué)組的一次內(nèi)部討論中提及使用深度神經(jīng)網(wǎng)絡(luò)和senones建模的相關(guān)研究,正是在這次內(nèi)部討論中,微軟亞洲研究院聲學(xué)組的高級(jí)研究員Frank Seide意識(shí)到了這一研究的價(jià)值,他隨即加入該項(xiàng)目,與俞棟一起,兩支團(tuán)隊(duì)精誠(chéng)合作,推進(jìn)該項(xiàng)目的研究。

2012年10月25日,微軟大老板之一、負(fù)責(zé)全球技術(shù)的副總裁Richard Rashid在天津舉行的“二十一世紀(jì)的計(jì)算”學(xué)術(shù)研討會(huì)上當(dāng)場(chǎng)演示用深度學(xué)習(xí)做語(yǔ)音識(shí)別,將英文識(shí)別后,用機(jī)器翻譯成中文,再用語(yǔ)音合成的方法產(chǎn)生中文語(yǔ)音——也就是說(shuō),他在上面講英文,觀眾可以直接聽(tīng)到和他音色很像的中文——整場(chǎng)演示非常成功,幾乎沒(méi)有錯(cuò)誤。

這也引起了產(chǎn)業(yè)界的轟動(dòng),揭開(kāi)了語(yǔ)音識(shí)別產(chǎn)業(yè)應(yīng)用的新一頁(yè)。紐約時(shí)報(bào)2012年11月份頭版頭條專門發(fā)布了一篇文章報(bào)道深度學(xué)習(xí)的進(jìn)展,這篇文章的作者John Markoff親自飛到西雅圖的微軟采訪鄧力,之前也采訪了Hinton。

Richard Rashid在2012年“二十一世紀(jì)的計(jì)算”學(xué)術(shù)研討會(huì)上的演講

Richard Rashid向紐約時(shí)報(bào)表示,相比起之前的語(yǔ)音識(shí)別系統(tǒng),新的深度學(xué)習(xí)技術(shù)使得錯(cuò)誤率降低了30%以上。經(jīng)歷此事的微軟也一改過(guò)去對(duì)深度學(xué)習(xí)的偏見(jiàn),以更積極地態(tài)度參與到Hinton爭(zhēng)奪戰(zhàn)當(dāng)中。

但此時(shí)微軟和競(jìng)爭(zhēng)者們注定要付出更高的成本。深度學(xué)習(xí)已全面開(kāi)花,勢(shì)不可擋。

2012年10月,在佛羅倫薩舉辦的ECCV上,Hinton和他的學(xué)生Alex Krizhevsky和Ilya Sutskever將ILSVRC的圖像識(shí)別錯(cuò)誤率從26%降低到了16%,錯(cuò)誤率降低近40%。得知深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的突破,NIPS大會(huì)組委會(huì)緊急為Hinton安排了一個(gè)Keynote演講,AlexNet的論文也被NIPS 2012接收和發(fā)表。今年正是這篇論文發(fā)表的第10年,不出意外的話,這篇被引用超過(guò)10萬(wàn)次的論文將會(huì)在今年12月的NeurIPS上被授予大會(huì)的“時(shí)間檢驗(yàn)獎(jiǎng)”。

毫無(wú)疑問(wèn),這篇文章的分量已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了一個(gè)“時(shí)間檢驗(yàn)獎(jiǎng)”。甚至可以說(shuō),這篇文章加速了NIPS從神經(jīng)科學(xué)向神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)過(guò)渡的學(xué)術(shù)氛圍,使得更多機(jī)器學(xué)習(xí)的研究者關(guān)注并參與到NIPS中來(lái)。到2018年改名NeurIPS時(shí),NIPS已被人工智能圈子公認(rèn)為最具影響力的機(jī)器學(xué)習(xí)學(xué)術(shù)會(huì)議。

但相比起偏學(xué)術(shù)性的ILSVRC,進(jìn)一步引爆產(chǎn)業(yè)界熱情的是同月結(jié)束的另一場(chǎng)競(jìng)賽Merck Molecular Activity Challenge。該競(jìng)賽由醫(yī)藥巨頭默克集團(tuán)贊助,旨在設(shè)計(jì)軟件以幫助尋找可能產(chǎn)生新藥的分子。Hinton團(tuán)隊(duì)最后一刻決定參加比賽,不僅在設(shè)計(jì)軟件時(shí)沒(méi)有具體了解分子如何與其目標(biāo)結(jié)合,更是在較小的數(shù)據(jù)集下超越了其他方法,獲得了比賽的冠軍。

競(jìng)賽的主辦方Kaggle 的首席執(zhí)行官兼創(chuàng)始人 Anthony Goldbloom 的評(píng)價(jià)是:“這是一個(gè)非常驚人的結(jié)果,因?yàn)檫@是深度學(xué)習(xí)第一次獲勝,而且更重要的是,它在一個(gè)預(yù)期不會(huì)獲勝的數(shù)據(jù)集上獲勝(因?yàn)樯窠?jīng)網(wǎng)絡(luò)通常只在非常大的網(wǎng)絡(luò)上表現(xiàn)良好)。”

也正是在這個(gè)時(shí)候,百度為Hinton開(kāi)出了1200萬(wàn)美元的Offer,希望Hinton為百度效力。

Hinton意識(shí)到百度及其競(jìng)爭(zhēng)對(duì)手更有可能斥巨資收購(gòu)一家公司,于是在征詢了百度和律師的意見(jiàn)后,他創(chuàng)建了一家名為 DNNresearch的公司,并在NIPS 2012期間安排了一個(gè)競(jìng)拍會(huì),價(jià)高者得。

參加競(jìng)拍會(huì)的有四家公司:Google、百度、微軟和Deepmind,鄧力間接代表微軟參與了對(duì)DNNresearch的競(jìng)標(biāo)。多輪出價(jià)后,Hinton最終在4400萬(wàn)美元的價(jià)格叫停了競(jìng)拍,Google成為了贏家。

競(jìng)標(biāo)結(jié)束后,鄧力登上了飛往北京的航班。鄧力的鄰座是百度的余凱,余凱于2012年4月加入百度,領(lǐng)導(dǎo)新成立的百度多媒體部。余凱也是NIPS華人圈子中的活躍者,早在2008年就在NIPS上發(fā)表過(guò)深度學(xué)習(xí)的論文(Deep Learning with Kernel Regularization for Visual Recognition)。2009年鄧力與Hinton在NIPS舉辦研討會(huì)研討會(huì)時(shí),當(dāng)時(shí)就是鄧力親自駕車,帶著余凱和其他兩位研究者從溫哥華前往Whistler的分會(huì)場(chǎng)。

和鄧力一樣,余凱也代表百度參與了對(duì)Hinton的競(jìng)標(biāo)。在飛機(jī)上,兩人花了幾個(gè)小時(shí)來(lái)討論深度學(xué)習(xí)的話題。由于Hinton的競(jìng)拍是保密的,雙方都不約而同避開(kāi)了與競(jìng)拍相關(guān)的話題;但或許也正因?yàn)檫@種刻意的回避,兩人都隱約猜到了對(duì)方的隱藏身份,他們意識(shí)到,新的競(jìng)爭(zhēng)即將到來(lái)。

5

走出語(yǔ)音識(shí)別的圍墻

余凱后來(lái)在接受外媒采訪時(shí)承認(rèn),在競(jìng)拍結(jié)束后,他猜到Hinton可能會(huì)加入Google或者某一家美國(guó)公司,因?yàn)镠inton背部受傷無(wú)法搭乘飛機(jī),他不大可能到中國(guó)旅行。雖然沒(méi)有獲得競(jìng)拍的成功,但他的目的已達(dá)到:通過(guò)這場(chǎng)競(jìng)拍,百度的智囊團(tuán)已經(jīng)意識(shí)到深度學(xué)習(xí)在未來(lái)幾年的重要性,也將會(huì)在深度學(xué)習(xí)上投入更多資源。

對(duì)于鄧力來(lái)說(shuō)也是同樣的道理。盡管對(duì)深度學(xué)習(xí)充滿信心,在之前的項(xiàng)目中,他不得不做好兩手準(zhǔn)備,避免投入過(guò)多的資源,以免萬(wàn)一無(wú)法取得預(yù)想的成果壓力太大。在微軟參加競(jìng)拍后,他總算可以放開(kāi)手腳做研究了。

鄧力此前和Hinton的合作項(xiàng)目中公司內(nèi)部的主要合作者是俞棟。俞棟在國(guó)內(nèi)讀完碩士后留學(xué)美國(guó),分別在印第安納大學(xué)及美國(guó)愛(ài)達(dá)荷大學(xué)獲得計(jì)算機(jī)碩士和博士學(xué)位。他在2002年進(jìn)入微軟研究院語(yǔ)音和對(duì)話組,提出了以senones為最小建模單元直接建模的方法,和鄧力一起為語(yǔ)音識(shí)別做出了開(kāi)創(chuàng)性的研究。2009年NIPS上鄧力和Hinton合辦的那場(chǎng)Workshop,俞棟也是組織者之一。

就在參加與Hinton競(jìng)拍之前,鄧力和俞棟開(kāi)始著手做了一項(xiàng)NIPS的相關(guān)工作:當(dāng)時(shí)雖然NIPS上發(fā)表的神經(jīng)網(wǎng)絡(luò)的內(nèi)容不多,但已經(jīng)呈現(xiàn)出明顯的增長(zhǎng)趨勢(shì)。鄧力和俞棟便一起把從2008年-2011年NIPS上關(guān)于神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)相關(guān)的論文以及在語(yǔ)音、計(jì)算機(jī)視覺(jué)、機(jī)器翻譯等方向的應(yīng)用匯總起來(lái)并進(jìn)行分析寫了一本書(shū),書(shū)名就叫做《Deep Learning — Methods and Applications》(中譯名《深度學(xué)習(xí):方法及應(yīng)用》,2016年3月機(jī)械工業(yè)出版社出版)

關(guān)于這本書(shū)的編寫還有一個(gè)小插曲。當(dāng)時(shí)這本書(shū)交到出版社,出版社找的編審是深度學(xué)習(xí)三巨頭之一的Yoshua Bengio,Bengio看到這本書(shū)后不僅“搭便車”把這本書(shū)的時(shí)間跨度拉長(zhǎng),還加上了20頁(yè)左右的評(píng)語(yǔ)(大約占到這本書(shū)的1/10), 暢談自己對(duì)深度學(xué)習(xí)研究的理解及成果。

他還建議鄧力,與其面面俱到,不如攻其一點(diǎn),將深度學(xué)習(xí)在語(yǔ)音識(shí)別的方法和成果進(jìn)行更深入的描寫。鄧力和俞棟商量后回復(fù)出版社:這個(gè)提議很有道理,我們會(huì)另外再出一本這樣的書(shū)。后來(lái)基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)發(fā)展起來(lái),兩人又另外編寫了一本《Automatic Speech Recognition: A Deep Learning Approach》(中譯名《解析深度學(xué)習(xí):語(yǔ)音識(shí)別實(shí)踐》,2016年電子工業(yè)出版社出版),此時(shí)鄧力正在籌建和管理微軟深度學(xué)習(xí)技術(shù)中心(DLTC),俞棟完成了這本書(shū)的大部分編寫。

而鄧力的另一位重要合作者何曉冬也在這個(gè)時(shí)候加入到對(duì)深度學(xué)習(xí)的研究,在自然語(yǔ)言理解方面開(kāi)啟了跟鄧力的合作。何曉東本科畢業(yè)于清華大學(xué),后來(lái)留學(xué)美國(guó),于密蘇里大學(xué)哥倫比亞分校獲得博士學(xué)位,讀博期間,2001-2003年還在從貝爾實(shí)驗(yàn)室分離出來(lái)的Avaya實(shí)驗(yàn)室連續(xù)做了3年暑期實(shí)習(xí)生。何曉冬的實(shí)習(xí)導(dǎo)師有一次去雷德蒙的微軟做講座,微軟向他要人,他便向微軟推薦了何曉冬。鄧力參與了何曉冬的面試,感受到微軟濃厚的技術(shù)氛圍和西雅圖舒適可人的夏季,何曉冬接受了微軟的橄欖枝。

鄧力與何曉冬

2012年暑期Yoshua Bengio推薦其博士生Gregoire Mesnil來(lái)微軟實(shí)習(xí),何曉冬和鄧力是Gregoire的實(shí)習(xí)導(dǎo)師,研究的課題就是基于深度學(xué)習(xí)的口語(yǔ)理解。2013年春季,何曉冬及其 合作者進(jìn)一步提出并實(shí)現(xiàn)了深度結(jié)構(gòu)化語(yǔ)義模型DSSM(Deep Structured Semantic Models),將多樣化的自然語(yǔ)言所表達(dá)的含義表示成為一個(gè)多維度連續(xù)語(yǔ)義空間中的向量。時(shí)至今日,幾乎所有做搜索推薦場(chǎng)景的大廠仍在使用DSSM及其衍生模型。

2014年,微軟迎來(lái)重大人事調(diào)整,Satya Nadella接替Steve Ballmer擔(dān)任微軟CEO,另一位華人高管沈向洋也從副總裁升職為全球執(zhí)行副總裁,負(fù)責(zé)研究院的管理。對(duì)研究院充滿期望的沈向洋成立了一個(gè)新的部門MSR-T(MSR Technology),專注于對(duì)產(chǎn)業(yè)有直接影響的技術(shù)的研究。MSR-T成立之后,由鄧力牽頭,何曉冬、高劍峰等一批對(duì)深度學(xué)習(xí)充滿熱情的研究者從各個(gè)研究組出來(lái),在MSR-T下成立了深度學(xué)習(xí)技術(shù)中心(DLTC)。

DLTC 成立后,鄧力也將深度學(xué)習(xí)從語(yǔ)音研究拓展到其他領(lǐng)域,帶領(lǐng)日益擴(kuò)展的團(tuán)隊(duì)在深度學(xué)習(xí)的應(yīng)用拓展方面做出了不少成果。代表性的成果包括包括互聯(lián)網(wǎng)搜索問(wèn)答、電子郵件及企業(yè)文檔搜索、市場(chǎng)銷售數(shù)據(jù)的深度學(xué)習(xí)解析與商業(yè)應(yīng)用等。

除了公司給的一些項(xiàng)目,DLTC還做了很多自行探索的新研究,如多模態(tài)深度學(xué)習(xí)。當(dāng)時(shí)微軟的視覺(jué)組在2014年做了一個(gè)數(shù)據(jù)庫(kù)叫MSCOCO,圍繞MSCOCO數(shù)據(jù)集,一些大學(xué)和研究所開(kāi)展了“看圖說(shuō)話”的研究,即用一句話來(lái)描述一張圖片。這也是多模態(tài)研究的起點(diǎn)。

圍繞“看圖說(shuō)話”,何曉冬和他的同事們組織了一個(gè)虛擬研究小組,當(dāng)時(shí)橫跨了微軟MSR Redmond 四個(gè)部門,一同來(lái)參與到了這個(gè)問(wèn)題的研究中。到了2015年,Yann Lecun在CVPR上舉辦了一場(chǎng)深度視覺(jué)研討會(huì)(DeepVision Workshop),何曉冬受邀請(qǐng)?jiān)谟懻摃?huì)上作報(bào)告,介紹了他們提出的語(yǔ)言-視覺(jué)深度多模態(tài)語(yǔ)義模型(DMSM),DMSM是DSSM的升級(jí)版本,可以將圖像和文字都表示成為同一個(gè)跨模態(tài)語(yǔ)義空間內(nèi)的向量,并通過(guò)匹配計(jì)算生成最符合圖像內(nèi)容的文字描述。此后,何曉冬及同事又將知識(shí)融入了多模態(tài)模型中,加速了多模態(tài)技術(shù)的實(shí)用化。

由于對(duì)自然語(yǔ)言理解和語(yǔ)言與視覺(jué)多模態(tài)信息處理的貢獻(xiàn),2018年,何曉冬當(dāng)選為IEEE Fellow。

這一時(shí)期,鄧力的研究方向也轉(zhuǎn)向解決實(shí)際問(wèn)題的解析性和不確定性問(wèn)題,通過(guò)將深度學(xué)習(xí)與不同的機(jī)器學(xué)習(xí)方法進(jìn)行整合,從而讓人工智能做出可解釋的最優(yōu)決策。

2017年5月,鄧力離開(kāi)微軟,出任對(duì)沖基金公司Citadel 首席人工智能官,將深度學(xué)習(xí)的應(yīng)用場(chǎng)景擴(kuò)展到金融領(lǐng)域。而就在本月初,鄧力再度擔(dān)任量化投資管理公司Vatic Investments(梵蒂岡投資)的首席人工智能官兼機(jī)器學(xué)習(xí)全球負(fù)責(zé)人,鄧力將深度學(xué)習(xí)應(yīng)用于其他領(lǐng)域的探索仍在繼續(xù)。

不知這一次的旅程,能否會(huì)帶給我們新的故事?

6

后記:另一個(gè)時(shí)間檢驗(yàn)獎(jiǎng)

2021年6月,ICASSP大會(huì)上頒發(fā)了 2020 年度IEEE信號(hào)處理協(xié)會(huì)(IEEE SPS) 最佳論文獎(jiǎng)(該獎(jiǎng)從過(guò)去6年巴黎發(fā)表的論文選出,相當(dāng)于時(shí)間檢驗(yàn)獎(jiǎng)),鄧力、何曉冬、俞棟以及Yoshua Bengio等人獲獎(jiǎng)。這一工作最早發(fā)端于2012年夏季的那個(gè)關(guān)于深度口語(yǔ)理解的實(shí)習(xí)項(xiàng)目,之后又有新的合作者加以充實(shí)。當(dāng)時(shí)何曉冬曾感慨于深度學(xué)習(xí)的日新月異,這個(gè)工作開(kāi)始之時(shí),這些合作者中只有一位IEEE Fellow,而去年獲獎(jiǎng)的時(shí)候已經(jīng)有了7位Fellow加一個(gè)圖靈獎(jiǎng)了。

2020年度IEEE SPS最佳論文獎(jiǎng)的11位作者

而當(dāng)時(shí)全世界會(huì)訓(xùn)練RNN模型的專家“可以一雙手就可以數(shù)出來(lái)”的深度學(xué)習(xí)社區(qū),如今已成為人工智能領(lǐng)域最茁壯的一個(gè)分支。

十年如一夢(mèng),光陰似箭。

正如茨威格在《人類群星閃耀時(shí)》所言,某些具有世界歷史意義的時(shí)刻一旦發(fā)生,就會(huì)決定幾十年甚至幾百年的歷史進(jìn)程。“就像避雷針的尖端集中了整個(gè)大氣層的電流一樣,那些數(shù)不勝數(shù)的事件也都往往擠在這最短的時(shí)間內(nèi)發(fā)生。”

正如我們熟悉的,讓一個(gè)靜止的飛輪轉(zhuǎn)動(dòng)起來(lái)必須先施加很大的力量,但一旦飛輪轉(zhuǎn)動(dòng)起來(lái),便難以讓它停下來(lái)。深度學(xué)習(xí)的歷史也是如此,當(dāng)?shù)谝粋€(gè)人去轉(zhuǎn)動(dòng)飛輪,需要耗費(fèi)比后來(lái)者更多的力氣,但只要你堅(jiān)持不懈去推動(dòng)飛輪,當(dāng)飛輪開(kāi)始轉(zhuǎn)動(dòng),后面所有人都會(huì)從中獲益。

做時(shí)間的朋友,時(shí)間終將說(shuō)明一切。

如果你有學(xué)術(shù)專家的故事愿意分享,歡迎聯(lián)系:Fiona190913。

注:本文部分內(nèi)容素材來(lái)自于紐約時(shí)報(bào)記者凱德·梅斯(Cade Metz)的《天才制造者》(“Genius Makers”)一書(shū),凱德·梅斯長(zhǎng)期關(guān)注人工智能、無(wú)人駕駛汽車、機(jī)器人、虛擬現(xiàn)實(shí)等新興領(lǐng)域,他也是《連線》雜志的資深撰稿人。在《天才制造者》一書(shū)中,凱德·梅斯用8年時(shí)間里采訪了包括本文提及的多位當(dāng)事人在內(nèi)的400人,并和我們分享了深度學(xué)習(xí)崛起以及科技巨頭圍繞這一新興技術(shù)“擴(kuò)軍備戰(zhàn)”的精彩故事。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章