能聽懂口音的開源語音系統來了:OpenAI出品,支持99種語言
羿閣 發自 凹非寺量子位 | 公眾號 QbitAI逼近人類水平的語音識別系統來了?沒錯,OpenAI新開源了一個名為「Whisper」的新語音識別系統,據稱在英文語音識別方面擁有接近人類水平的魯棒性和準確性!不僅如此,對于不同口音、專業術語的識別效果也是杠杠的!一經發布就在推特上收獲4800+點贊,
羿閣 發自 凹非寺量子位 | 公眾號 QbitAI逼近人類水平的語音識別系統來了?沒錯,OpenAI新開源了一個名為「Whisper」的新語音識別系統,據稱在英文語音識別方面擁有接近人類水平的魯棒性和準確性!不僅如此,對于不同口音、專業術語的識別效果也是杠杠的!一經發布就在推特上收獲4800+點贊,
在市值沖破萬億大關之際,蘋果并沒有被勝利沖昏頭腦,而是迅速開始在未來產業上布局。領英上的搜索結果顯示,蘋果創辦的健康診所AC wellness正急招逾40人,以給灣區員工提供上門醫療服務。 AC Wellness是蘋果的一個獨立子公司,不過服務對象仍主要是蘋果總部所在地圣克拉拉縣的員工。今年2
本文介紹了 Seed-ASR 技術亮點 —— 高精度識別、大容量模型、支持多種語言、上下文感知、分階段訓練方法。相關同學還分享了立項動機、研發歷程及總結思考,展望了大模型 Scaling Laws 對 ASR 技術的推動和影響。
讓機器“聽懂”人類語言,是“語音識別”技術自誕生起,就一直致力的目標。自20世紀中葉以來,經過近70年的發展,特別是隨著深度學習技術的引入,自動語音識別已取得突破性進展——在標準口音、常見詞匯、安靜環境的應用場景下,機器已然具備接近人類的“聽覺”能力。
語音對于人機交互的重要性毋庸置疑,無論是國內外企業,都在語音識別的速度、準確度以及多語種方面持續創新,但是當機器面對那些有口音的人來說,似乎就沒有那么靈敏了:不僅注意力會不集中,反應遲鈍,甚至還會成為一個獨立的個體,不予任何回應。