首頁 > AI資訊 > 行業(yè)動(dòng)態(tài) > 劉聰:聽懂方言的AI,科大訊飛中文語音識(shí)別背后推手|榜單人物

劉聰:聽懂方言的AI,科大訊飛中文語音識(shí)別背后推手|榜單人物

新火種    2023-09-19

2019年1月21日,《麻省理工科技評(píng)論》公布了2018年“35歲以下創(chuàng)新35人”(Innovators Under 35 China)中國區(qū)榜單。從榜單中,我們看到更多中國創(chuàng)新科研力量的崛起,也看到跨學(xué)科、跨領(lǐng)域、并且對(duì)落地應(yīng)用有更強(qiáng)烈企圖心與使命感的科研創(chuàng)新,這其中涵蓋人工智能研究與應(yīng)用、NLP、腦科學(xué)、新材料、新能源、生命科學(xué)、生物科技、自動(dòng)駕駛等多個(gè)不同領(lǐng)域。我們將陸續(xù)發(fā)出對(duì)35位獲獎(jiǎng)?wù)叩莫?dú)家專訪,介紹他們的科技創(chuàng)新成果與經(jīng)驗(yàn),以及他們對(duì)科技趨勢的理解與判斷。

關(guān)于Innovators Under 35 China榜單

自 1999 年起,《麻省理工科技評(píng)論》每年都會(huì)推出“35歲以下創(chuàng)新35人”(Innovators Under 35 China)榜單,旨在于全球范圍內(nèi)評(píng)選出被認(rèn)為最有才華、最具創(chuàng)新精神,以及最有可能改變世界的 35 位年輕技術(shù)創(chuàng)新者或企業(yè)家,共分為發(fā)明家、創(chuàng)業(yè)家、遠(yuǎn)見者、人文關(guān)懷者及先鋒者五類。2017年,該榜單正式推出中國區(qū)評(píng)選,遴選中國籍的青年科技創(chuàng)新者。新一屆榜單正在征集提名與報(bào)名,截止時(shí)間2019年5月31日。詳情請(qǐng)見文末。

近年來,科大訊飛通過訊飛輸入法和訊飛聽見等產(chǎn)品逐漸為人所知。它們的語音識(shí)別表現(xiàn)之所以能夠在業(yè)界獨(dú)占鰲頭,其背后的中文語音識(shí)別系統(tǒng)功不可沒??拼笥嶏wAI研究院常務(wù)副院長劉聰,就是打造相關(guān)技術(shù)的主要負(fù)責(zé)人之一,他曾在2016年、2018年帶領(lǐng)團(tuán)隊(duì)連續(xù)包攬國際英文多通道語音分離和識(shí)別大賽 (CHiME-4、CHiME-5) 的所有項(xiàng)目冠軍。

劉聰于2001年進(jìn)入中國科學(xué)技術(shù)大學(xué),攻讀電子信息工程專業(yè)。大三時(shí),他在機(jī)緣巧合之下聽說了訊飛語音實(shí)驗(yàn)室,而后成功加入其中,開始了在語音識(shí)別領(lǐng)域的研究。2010年,劉聰博士畢業(yè)后正式成為訊飛研究院的一員,專心致力于大詞匯量連續(xù)語音識(shí)別系統(tǒng)的構(gòu)建和優(yōu)化。2010年科大訊飛正式推出的“訊飛語音云”,凝聚了劉聰和團(tuán)隊(duì)在語音識(shí)別領(lǐng)域不斷探索的成果,識(shí)別效果達(dá)到了當(dāng)時(shí)業(yè)界領(lǐng)先的水平。

在劉聰加入訊飛語音實(shí)驗(yàn)室時(shí),深度學(xué)習(xí)方興未艾,語音識(shí)別技術(shù)還處于發(fā)展初期,主流的傳統(tǒng)方法包括基于隱馬爾可夫模型(HMM)的區(qū)分性訓(xùn)練等,但仍有很多尚未被挖掘的研究方向。這些都吸引了他繼續(xù)學(xué)習(xí)和研究,曾多次短期訪問微軟亞洲研究院和加拿大約克大學(xué),研究和優(yōu)化語音識(shí)別技術(shù)的算法。

此后,隨著深度學(xué)習(xí)技術(shù)的崛起,劉聰也將注意力轉(zhuǎn)移到了該領(lǐng)域。從深度神經(jīng)網(wǎng)絡(luò)(DNN),到循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),再到卷積神經(jīng)網(wǎng)絡(luò)(CNN),劉聰和團(tuán)隊(duì)數(shù)年來持續(xù)更新著語音識(shí)別系統(tǒng)的框架和模型。2015年,在解決了訓(xùn)練收斂算法等技術(shù)難關(guān)后,他和團(tuán)隊(duì)提出了基于深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN)的創(chuàng)新性語音識(shí)別框架,可以直接對(duì)整句語音而非局部的語音幀進(jìn)行建模,同時(shí)因?yàn)榫矸e計(jì)算過程做了很大程度共享、使得可以設(shè)計(jì)非常深和寬的模型結(jié)構(gòu),以看到更長的歷史和未來的語音上下文信息。此外,因?yàn)镈FCNN模型相對(duì)于傳統(tǒng)的RNN等模型可以同時(shí)抓住時(shí)域和頻域的結(jié)構(gòu)信息,因此在建模精度上也更勝一籌。

在大數(shù)據(jù)和新技術(shù)的加持下,訊飛語音識(shí)別系統(tǒng)實(shí)現(xiàn)了高速自動(dòng)迭代,語音識(shí)別錯(cuò)誤率保持每年30%的相對(duì)下降,目前一般場景下的識(shí)別準(zhǔn)確率可達(dá)98%。在此基礎(chǔ)上,劉聰還帶領(lǐng)團(tuán)隊(duì)創(chuàng)造多種了中文方言識(shí)別、語音即修即改等實(shí)用性很強(qiáng)的語音功能,讓科技更好地應(yīng)用在生活中。

不過劉聰并沒有止步于此,他關(guān)注到了深度學(xué)習(xí)的另一個(gè)應(yīng)用方向:計(jì)算機(jī)視覺,并且敏銳地察覺到了兩者之間的聯(lián)系。在成為科大訊飛AI研究院副院長之后,他從語音識(shí)別轉(zhuǎn)向計(jì)算機(jī)視覺,開始負(fù)責(zé)醫(yī)學(xué)影像、視頻分析和圖文識(shí)別等技術(shù)的研發(fā)和應(yīng)用。

“因?yàn)樯疃葘W(xué)習(xí)的發(fā)展,在這兩個(gè)領(lǐng)域之間架起了一座橋梁,”劉聰在采訪中解釋道。依托于此前的深厚技術(shù)積累,他帶領(lǐng)團(tuán)隊(duì)快速完成了語音識(shí)別到計(jì)算機(jī)視覺之間的算法框架遷移和借鑒。這雖然聽起來簡單,但實(shí)際操作起來,需要攻克很多技術(shù)難關(guān)。

例如劉聰發(fā)現(xiàn),光學(xué)字符識(shí)別(OCR)與語音識(shí)別一樣都可以歸為序列識(shí)別的范疇,因此語音識(shí)別中屬于序列建模的相關(guān)模型可以應(yīng)用到OCR領(lǐng)域。同時(shí)OCR又是一個(gè)計(jì)算機(jī)視覺問題,近年來計(jì)算機(jī)視覺領(lǐng)域在特征表示學(xué)習(xí)方面取得了長足的進(jìn)步。他和團(tuán)隊(duì)結(jié)合特征表示學(xué)習(xí)和序列建模的最新進(jìn)展,大幅提升了OCR識(shí)別性能。

(來源:劉聰)

除了技術(shù)上的突破,劉聰還帶領(lǐng)團(tuán)隊(duì)完成了多項(xiàng)技術(shù)落地應(yīng)用,涉及語音識(shí)別、視頻監(jiān)控、圖文識(shí)別和醫(yī)學(xué)影像等多個(gè)領(lǐng)域,建樹頗多。在他們的努力下,科大訊飛的醫(yī)學(xué)影像輔助診斷系統(tǒng)已經(jīng)進(jìn)入了50余家醫(yī)院,幫助醫(yī)生提供輔助診療服務(wù);訊飛聽見已服務(wù)多場會(huì)議,進(jìn)行語音和文字的即時(shí)轉(zhuǎn)換。

談到未來的發(fā)展,劉聰表示,他和團(tuán)隊(duì)將繼續(xù)提升語音識(shí)別準(zhǔn)確率,尤其是遠(yuǎn)場識(shí)別和噪音環(huán)境識(shí)別,在中英文混合識(shí)別和個(gè)性化識(shí)別領(lǐng)域繼續(xù)優(yōu)化和創(chuàng)新,并且專注于跨模態(tài)信息深度融合方向的探索,研究基于多模態(tài)信息的情感分析。

與好團(tuán)隊(duì)一起把握住技術(shù)的下一個(gè)趨勢是劉聰?shù)男脑钢唬骸拔覀兒苄疫\(yùn)可以成長在這樣一個(gè)核心技術(shù)突破和產(chǎn)業(yè)應(yīng)用爆發(fā)的時(shí)代,我們也希望借勢浪潮,盡力為時(shí)代做出更多貢獻(xiàn)?!?/p>

或許正是因?yàn)橛泻芏嘞駝⒙斶@樣看重技術(shù)落地的人,我們才有幸能見到越來越多的技術(shù)改變了生活。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章