小米技術委人工智能實驗室語音組:靠匠心專心贏得市場的“傾心”

“小愛同學!”“我在!”從2017年9月問世,不論是小米智能音箱,還是小米電視、手機,“能聽會道”的“小愛同學”月活躍用戶數量已達到1.15億,成為世界上最忙碌的語音助手之一。細心的用戶會發現,“小愛同學”潛移默化中一直在成長、進步,2023年全國工人先鋒號、小米科技有限責任公司小米技術委人工智能實驗室語音組(以下簡稱“語音團隊”)就是扶持它成長的強大“技術天團”,讓它越來越智能,越來越有溫度。
賦予世界最大的手機AIoT平臺以“耳朵和嘴巴”2017年1月,小米科技有限責任公司(以下簡稱:小米公司)成立人工智能實驗室,下設聲學語音技術等多個研究方向。聲學語音技術總監王育軍是語音組的“元老”,“團隊成立初期僅4人——兩名正式員工和兩名實習生,我們把這段經歷戲稱為‘444 歲月’。”王育軍回憶,就是這僅有的4個人,在4個月的時間內,經過40多次繁復的實驗嘗試,不僅上線了小米第一代語音識別系統,還公開了一篇小米在電視語音交互中“端到端”語音識別的研究成果。該研究成果展示了當年中文“端到端”語音識別技術最好的識別率。
從此語音團隊一路披荊斬棘,除了小米電視,還成功把智能語音交互技術應用到了小米手機、智能音箱系列。由于自研的語音引擎不但速度快,識別率更是超越了微軟、Nuance等知名公司提供的引擎,小米公司決定全面使用自研語音識別技術。有了這項技術,小米公司的智能產品就像長了耳朵一樣,能夠傾聽用戶的指令和訴說。
王育軍介紹,為了與用戶進行遠距離語音交互,語音團隊把研發目光轉向了中遠距離拾音。小米公司研發的設備中,無論是電視等大型家用設備,或是音箱、手機這樣的小型或便攜設備都擁有多顆麥克風,語音團隊利用這些麥克風組成的陣列設計了利用聲音波束指向目標說話人的算法以及利用聲源分離提升目標說話人聲音質量的算法。
在此期間,小米公司率先建設了中國人工智能產業聯盟首批合作實驗室。專家們在實驗室里進行專業的測量與標定,同時在中國南、北方幾十個不同戶型的住宅中進行數據采樣,最終結合回聲消除、房間混響抑制、增益控制和特定噪聲壓制等算法,形成了小米特有的中遠距離,即60厘米到5米的清晰拾音算法。
有了傾聽用戶語音的“耳朵”,團隊開始為小米智能設備打造會說話的“嘴巴”——語音合成的算法能力。王育軍介紹,2017年的6月,語音團隊開始跟蹤最前沿的端到端語音合成技術,經過14個月反復的論文研讀、試驗以及評測,語音團隊追平了國際最先進的語音合成技術水平。
擁有在小米手機、音箱和電視上應用人工智能“聽說”的技術能力之后,團隊開始把自研語音技術全面應用于小米手表、耳機、平板電腦、手環、翻譯機、大家電、兒童機器人、機器狗等50多個品類的智能產品中。
為世界最忙的語音助手打造全棧語音技術2019年,小米公司提出了“手機×AIoT”戰略。為了持續提升這個大生態上的聲音交互體驗,小米公司引入了首席語音科學家Daniel Povey博士,他是全世界開發者使用最多的開源語音識別社區Kaldi的創始人,被業界稱為“Kaldi之父”。Povey博士加入小米后,語音團隊又持續邀請了幾十位業內頂尖的聲學語音算法專家和研發人員加入,一起在世界上最肥沃的聲音技術土壤上耕耘。
專家們把以語音識別為代表的一系列算法擴展為聲音理解技術,內容包括語音識別、聲音分析還原、陣列拾音、語音喚醒、聲紋識別、通話降噪、主動降噪、聲學測量、聲音視覺跨模態感知理解、口語評測、語種識別和聲音文本跨模態情緒識別;把以語音合成為代表的一系列技術擴展為聲音生成技術,內容包括語音合成、聲景合成、音樂生成、聲音復刻、虛擬形象生成以及空間音頻。從而形成了一個包含18個技術方向的完整聲音交互技術棧,幾乎囊括了所有民生領域中的聲學語音應用。
截至2022年底,語音團隊共98人,其中國內外博士20名、碩士75名。正是因為擁有了強大的聲音“技術天團”的技術支撐,才讓小米公司的“小愛同學”更加“能聽會道”。截至目前,“小愛同學”月活躍用戶數量達到1.15億,成為世界上最忙碌的語音助手之一。小米手機日均收到2億次語音識別請求、3億次語音合成請求,日均通過遠場拾音觸發語音交互5200萬次、喚醒語音識別5500萬次、進行1.85億次聲紋識別。
挑戰語音技術天花板,領跑世界先進水平語音技術最早起源于歐美,隨著2011年移動互聯網時代的到來,華人語音的研究者和團隊逐漸踏入語音技術的聚光燈下,小米的語音團隊成為其中的佼佼者。小米擁有世界上最大的智能設備生態網絡,借此孕育了大量的人機語音交互需求。語音團隊滿足了這些真實的用戶需求,為包括手機、耳機、手表、手環、筆記本電腦、大家電、機器人等5000多款智能產品提供聲學語音人機交互技術,并不斷磨礪自己的人工智能算法。
語音團隊不斷挑戰世界級的語音研究“天花板”,參加了語音技術領域內一系列挑戰賽,并獲得了6項國際聲學語音挑戰賽冠軍和2項國內比賽冠軍。同時,團隊在語音研究領域持續創新,研發出超級擬人、語音成分分析與重建、AI作曲和編曲等技術,回饋工業界和學術界。其中,以“個性化情感化語音交互關鍵技術及產業化”獲得北京市科技進步二等獎,以“小米智能語音技術在手機實時通信中的應用”獲得深圳人工智能行業應用獎。截至2022年,語音團隊發表的43篇論文為國際頂級語音會議收錄。
一項項榮譽不僅見證了語音團隊在和聲音交互業務緊密相關的技術領域上實現了從“追跑者”到“領跑者”的蛻變,也為“中國智造”書寫下濃墨重彩的一筆。
擁抱大模型時代,科技賦能中國民生領域為用戶帶來智能生活新體驗的同時,小米始終關注智能設備無障礙建設。王育軍特別介紹了語音聲學團隊為殘障用戶群體研發了一系列算法和應用。
據王育軍介紹,語音團隊為聽障用戶群體開發了“聞聲技術”,不但可以讓設備幫聽障用戶“看到”其他人說話,也可以幫他們“看見”周圍環境中的聲音,例如警報聲、敲門聲等;讀屏技術可以讓視障用戶“看到”屏幕上的內容;“聆聽”技術為構音困難用戶提供了個性化的語音識別,讓他們也可以通過語音和設備交互,這項技術被提名為2021年世界互聯網領先科技成果;“口語評測”技術為聽障人群的語訓提供幫助。作為語音合成技術在無障礙的典型應用案例,語音團隊還開展了聲音配型捐贈工作,賦予失去語言能力的用戶屬于自己的聲音。
“做有溫度的語音技術是我們團隊共同的初心。如今,超大模型技術的涌現,已經標志著我們進入了人工智能2.5時代,小米將積極擁抱大模型時代,為中國民生領域再創技術佳績。”王育軍透露,小米已經集齊大模型的部分先決條件:跨模態編碼的科研能力、個性化垂域模型與大模型的融合推理能力、設備端計算資源以及豐富的行業用戶場景。“聲學語音團隊必將竭盡全力,參與大模型的研發,為中國AI聲學語音技術創新做出貢獻,持續在民生行業問鼎世界第一,用技術創新提升全民生活品質。”王育軍說。
來源:勞動午報記者:孫艷攝影:彭程編輯:石楠聲明|除原創內容及特別說明之外,推送稿件文字及圖片均來自網絡及各大主流媒體。版權歸原作者所有。如認為內容侵權,請聯系我們刪除。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。