首頁(yè) > AI資訊 > 行業(yè)動(dòng)態(tài) > 百度AI語(yǔ)音調(diào)用登頂中國(guó)第一,自研芯片+最新模型顛覆傳統(tǒng)算法

百度AI語(yǔ)音調(diào)用登頂中國(guó)第一,自研芯片+最新模型顛覆傳統(tǒng)算法

新火種    2023-11-27

曉查 發(fā)自 凹非寺量子位 報(bào)道 | 公眾號(hào) QbitAI

2019年,NLP和語(yǔ)音技術(shù)取得了多項(xiàng)技術(shù)突破,但是科技公司考慮更多的是AI的“場(chǎng)景”,如何在各種場(chǎng)景中都能方便地集成語(yǔ)音功能。10月,谷歌在Pixel手機(jī)發(fā)布會(huì)上宣布,將語(yǔ)音識(shí)別模型壓縮到50M集成在手機(jī)中,實(shí)現(xiàn)離線(xiàn)的語(yǔ)音轉(zhuǎn)寫(xiě)。而國(guó)內(nèi)的幾家語(yǔ)音技術(shù)公司想得更遠(yuǎn),將語(yǔ)音技術(shù)的接口提供給更多的開(kāi)發(fā)者和企業(yè),讓AI的應(yīng)用場(chǎng)景更廣闊。百度就是其中一家。“生物在物競(jìng)天擇的環(huán)境中進(jìn)化,而AI在應(yīng)用場(chǎng)景中進(jìn)化。”在今天的百度大腦語(yǔ)音能力引擎論壇上,百度CTO王海峰如是說(shuō)。△ 百度CTO王海峰王海峰也透露,百度大腦的語(yǔ)音能力日均調(diào)用量超100億次,居國(guó)內(nèi)第一。擁有國(guó)內(nèi)最大的AI開(kāi)放平臺(tái)的百度大腦,目前已接入開(kāi)發(fā)者超過(guò)150萬(wàn),開(kāi)放228項(xiàng)技術(shù)能力。就在同一天,權(quán)威調(diào)研機(jī)構(gòu)IDC發(fā)布的《2019中國(guó)AI云服務(wù)市場(chǎng)廠(chǎng)商評(píng)估》報(bào)告顯示,百度智能云憑借著在AI技術(shù)、市場(chǎng)和商業(yè)上的表現(xiàn),在中國(guó)排名第一。這也從側(cè)面反映了百度AI在市場(chǎng)中的影響力。除了語(yǔ)音技術(shù)外,百度在其他AI技術(shù)上也全面開(kāi)花。9月,百度在CCKS 2019“知識(shí)圖譜問(wèn)答”大賽中奪冠;11月,F(xiàn)orrester發(fā)布報(bào)告顯示,百度智能云的計(jì)算機(jī)視覺(jué)能力在8大維度獲得第一。這主要是由于百度智能云入局AI最早,也是國(guó)內(nèi)唯一擁有完全自主深度學(xué)習(xí)框架的云服務(wù)商,搶占了AI落地的先機(jī)。因此用上百度語(yǔ)音技術(shù)的開(kāi)發(fā)者越來(lái)越多,這些數(shù)字的背后,有百度大腦語(yǔ)音技術(shù)團(tuán)隊(duì)的研發(fā)實(shí)力作為支持。團(tuán)隊(duì)的領(lǐng)頭人,就是今年8月在朋友圈宣布回歸百度的技術(shù)大牛賈磊。他介紹了百度語(yǔ)音軟硬件技術(shù)獨(dú)一無(wú)二的“秘籍”。△ 百度語(yǔ)音首席架構(gòu)師賈磊新算法降低30%錯(cuò)誤率據(jù)Canalys等第三方統(tǒng)計(jì)機(jī)構(gòu)的數(shù)據(jù),小度音箱在國(guó)內(nèi)市場(chǎng)的占有率在今年登上了第一,賈磊認(rèn)為這是市場(chǎng)對(duì)百度大腦技術(shù)的肯定。百度語(yǔ)音首席架構(gòu)師賈磊表示,百度大腦的語(yǔ)音技術(shù)在今年又取得了一項(xiàng)突破性進(jìn)展,可以將未來(lái)小度音箱的技能進(jìn)一步提升。這項(xiàng)新技術(shù)全稱(chēng)為“基于復(fù)數(shù)CNN的語(yǔ)音增強(qiáng)和聲學(xué)建模一體化端到端建模技術(shù)”。賈磊表示,這項(xiàng)技術(shù)顛覆了傳統(tǒng)的語(yǔ)音識(shí)別算法。目前,市面上主流的智能音箱采用的語(yǔ)音識(shí)別算法,是先將音頻轉(zhuǎn)化為文字,再對(duì)文字進(jìn)行語(yǔ)義理解。這就好比兩個(gè)人相互交流,先把語(yǔ)音寫(xiě)成文字,然后通過(guò)閱讀文字來(lái)理解內(nèi)容。這種識(shí)別方式與人相差甚遠(yuǎn),而且也存在著諸多問(wèn)題。首先,這種方式只有在喚醒識(shí)別后才能確定語(yǔ)音的方向,如果噪聲與聲音方向相同,則會(huì)導(dǎo)致識(shí)別率很低。而且無(wú)法應(yīng)對(duì)說(shuō)話(huà)者邊走邊說(shuō)的情形。而百度大腦提出的基于復(fù)數(shù)CNN的端到端模型,可以直接將聲音轉(zhuǎn)換成語(yǔ)義,更接近于人的語(yǔ)音交互方式,對(duì)噪聲的抵抗力更強(qiáng)。賈磊表示,這項(xiàng)技術(shù)讓遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的錯(cuò)誤率降低了30%以上,對(duì)語(yǔ)音識(shí)別性能的提升幅度屬業(yè)內(nèi)最大,是一項(xiàng)革命性、顛覆性的技術(shù)。這種模型完全不依賴(lài)于數(shù)字信號(hào)處理等技術(shù)學(xué)科,用機(jī)器學(xué)習(xí)將最初的音節(jié)和最終語(yǔ)義直接打通,實(shí)現(xiàn)數(shù)字信號(hào)處理和語(yǔ)音識(shí)別一體化。有了復(fù)數(shù)CNN的端到端模型,智能音箱難以解決的幾大使用場(chǎng)景問(wèn)題都會(huì)得到解決。比如,我們很難一邊走動(dòng)一邊和智能音箱不間斷多輪對(duì)話(huà);在大聲播放電視或音樂(lè)時(shí),智能音箱也無(wú)法聽(tīng)清我們。這些常見(jiàn)場(chǎng)景過(guò)去一直是智能音箱難以使用的痛點(diǎn),未來(lái)都有望被復(fù)數(shù)CNN的端到端模型所化解。未來(lái)的讓模型結(jié)構(gòu)能成功落地,百度還研發(fā)了一種利用近場(chǎng)數(shù)據(jù)來(lái)模擬生成遠(yuǎn)場(chǎng)訓(xùn)練數(shù)據(jù)的方法。利用該方法,百度成功訓(xùn)練出可以達(dá)到落地水平的一體化聲學(xué)模型。為語(yǔ)音造“芯”只有語(yǔ)音的軟件算法還不夠,近年來(lái)國(guó)內(nèi)AI公司越來(lái)越多地涉獵芯片制造,一方面是出于自主可控的考慮,另一方面也是為了讓硬件與軟件之間更好地配合。例如,在語(yǔ)音識(shí)別的場(chǎng)景中,如何快速加載模型,與輸入信號(hào)進(jìn)行快速運(yùn)算,成了最大的難點(diǎn)之一。傳統(tǒng)通用芯片難以解決。為此,百度專(zhuān)門(mén)開(kāi)發(fā)了一款遠(yuǎn)場(chǎng)語(yǔ)音AI芯片“鴻鵠”,在今年7月的百度AI開(kāi)發(fā)者大會(huì)上發(fā)布。百度AI技術(shù)生態(tài)部總經(jīng)理喻友平今天發(fā)布了基于百度鴻鵠芯片的4款硬件模組、開(kāi)發(fā)板和針對(duì)智能家居、智能車(chē)載、智能IoT設(shè)備的3大場(chǎng)景解決方案。鴻鵠在功耗方面有著巨大的優(yōu)勢(shì),ARM芯片在處理語(yǔ)音時(shí)待機(jī)功率超過(guò)1W,而鴻鵠的待機(jī)功耗僅是其他芯片的不到1/10,這讓智能家居集成語(yǔ)音喚醒成為可能。百度鴻鵠芯片預(yù)置語(yǔ)音算法,可與多種不同的主芯片搭配使用。而且,百度大腦研發(fā)的復(fù)數(shù)CNN的網(wǎng)絡(luò)體系很小,可以?xún)?nèi)置到百度鴻鵠芯片中。通過(guò)軟硬件的結(jié)合,百度下一款智能音箱在技術(shù)上可能將會(huì)有更大的突破。百度的目光也不僅僅在智能音箱領(lǐng)域。據(jù)賈磊介紹,百度鴻鵠芯片還是一款車(chē)規(guī)級(jí)芯片,可承受巨大的溫濕度變化,未來(lái)也能集成在汽車(chē)中,作為車(chē)載語(yǔ)音硬件使用。賈磊表示,百度大腦要用最高規(guī)格做硬件、最廣規(guī)格做軟件,以適配不同的應(yīng)用場(chǎng)景。他還預(yù)測(cè),遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的諸多問(wèn)題3年后將得以解決,屆時(shí)準(zhǔn)確率將達(dá)到近場(chǎng)識(shí)別的水平。這會(huì)讓遠(yuǎn)場(chǎng)識(shí)別技術(shù)更普及,成為智能家居、智能手機(jī)等設(shè)備的標(biāo)配。百度鴻鵠芯片也有著更廣闊的應(yīng)用前景。開(kāi)放語(yǔ)音技術(shù)從7年前,百度就開(kāi)始以深度學(xué)習(xí)技術(shù)為依托,研發(fā)智能語(yǔ)音技術(shù)。如今這項(xiàng)技術(shù)已經(jīng)遍布百度內(nèi)部各種產(chǎn)品,從近場(chǎng)語(yǔ)音識(shí)別的輸入法、百度搜索,到遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的智能音箱、車(chē)載語(yǔ)音,再到語(yǔ)音合成的地圖導(dǎo)航、信息流播報(bào)。如今,百度不僅將語(yǔ)音技術(shù)用在自家的產(chǎn)品上,也向其他開(kāi)發(fā)者和企業(yè)用戶(hù)開(kāi)放。△百度AI技術(shù)生態(tài)部總經(jīng)理喻友平喻友平表示,在這一輪科技變革浪潮中,AI是一個(gè)普遍的生產(chǎn)力基礎(chǔ),百度大腦要做的,就是把自己的技術(shù)以更低的門(mén)檻釋放出來(lái),給開(kāi)發(fā)者使用。喻友平將之稱(chēng)為“全棧語(yǔ)音引擎”,這個(gè)引擎中的技術(shù)已經(jīng)廣泛用于語(yǔ)音播報(bào)、語(yǔ)音指令、語(yǔ)音記要、語(yǔ)音質(zhì)檢等領(lǐng)域。多款第三方打車(chē)、支付App上已經(jīng)用上了百度的語(yǔ)音合成技術(shù)。而且百度為了豐富合成語(yǔ)音的應(yīng)用場(chǎng)景,推出了音質(zhì)更好、準(zhǔn)確率更高的音庫(kù)給開(kāi)發(fā)者使用。01:37“百度大腦強(qiáng)大的技術(shù),加上開(kāi)放的態(tài)度,可以釋放巨大的能量。”喻友平說(shuō)。在本次論壇上,家電企業(yè)創(chuàng)維、科技信貸公司瓴岳、農(nóng)業(yè)科技公司華智等公司將百度的語(yǔ)音技術(shù)集成到自己的產(chǎn)品中,實(shí)現(xiàn)了生產(chǎn)力的提高。最后喻友平宣布了百度大腦語(yǔ)音公益計(jì)劃,面向?yàn)橐曊稀⒙?tīng)障等人士提供服務(wù)的科技公司,百度將免費(fèi)提供語(yǔ)音識(shí)別與合成技術(shù),以最低價(jià)提供硬件模組。百度大腦希望將語(yǔ)音技術(shù)的“朋友圈”不斷擴(kuò)大,把AI技術(shù)與醫(yī)療、農(nóng)業(yè)、金融、物聯(lián)網(wǎng)乃至公益事業(yè)聯(lián)系起來(lái)。正如王海峰在大會(huì)開(kāi)場(chǎng)所說(shuō),“AI技術(shù)的進(jìn)化和產(chǎn)業(yè)賦能正向循環(huán),相互促進(jìn),讓AI在應(yīng)用場(chǎng)景中不斷進(jìn)化。”

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴(lài)本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

熱門(mén)文章