首頁 > AI資訊 > 行業動態 > 化身頂級實時翻譯高手,Meta宣布開源最先進通用語言翻譯大模型Seamless

化身頂級實時翻譯高手,Meta宣布開源最先進通用語言翻譯大模型Seamless

新火種    2023-12-05

圖片來源:由無界 AI生成

Meta 研究人員周四宣布,他們開發了一套名為“無縫溝通(Seamless Communication)”的新人工智能模型,旨在實現更自然、更真實的跨語言交流,本質上使通用語音翻譯器的概念成為現實。同時,Meta AI 還發布了相關的研究論文和數據。

被稱為 Seamless 主要模型主要涵蓋了三個子模型:SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2。Seamless 將所有的功能合并到一個統一系統中。 根據研究論文,Seamless 是“第一個可以實時解鎖表達性跨語言交流的公開系統”。


Seamless 如何作為通用實時翻譯器工作

Seamless 翻譯器代表了使用人工智能進行博客交流的新領域。 它結合了三個復雜的神經網絡模型,可實現 100 多種口語和書面語言之間的實時翻譯,同時保留說話者聲音的聲音風格、情感和韻律。

SeamlessExpressive 專注于在語言之間翻譯時保留說話者聲音的聲音風格和情感細微差別。 正如論文中所述,“翻譯應該捕捉人類表達的細微差別。 雖然現有的翻譯工具能夠熟練地捕獲對話中的內容,但它們通常依賴于單調的機器人文本轉語音系統來進行輸出。”

為了在不同語言中保留說話者的聲音風格,研究人員將表現力編碼器納入 SeamlessM4T v2 基礎模型中。 此過程確保單元生成由預期的語速和節奏引導。 此外,用以源語音為條件的富有表現力的單元到語音生成器替換 SeamlessM4T v2 中的 HiFi-GAN 單元聲碼器,可以無縫傳輸音調、情感表達和聲音風格。

SeamlessStreaming 可實現近乎實時的翻譯,延遲僅為約兩秒。 研究人員表示,這是“第一個大規模多語言模型”,可以在近 100 種口頭和書面語言中提供如此快的翻譯速度。SeamlessStreaming 能夠智能地決定何時有足夠的上下文來輸出下一個目標文本或語音片段。 它通過學習的讀/寫策略來實現這一點,該策略根據部分音頻輸入確定是否應該“寫入”并生成輸出或“讀取”并繼續等待更多輸入。 該模型自動適應不同的語言結構,從而在許多不同的語言對上實現更強的性能。

第三個模型,SeamlessM4T v2,是其他兩個模型的基礎。 它是去年發布的原始SeamlessM4T模型的升級版本。 該論文稱,這個新架構“提高了文本和語音輸出之間的一致性”。

升級后的 SeamlessM4T v2 具有非自回歸文本到單元解碼器。 w2v-BERT 2.0 編碼器接受了 450 萬小時的語音數據訓練,而之前的版本則接受了 100 萬小時的訓練。 此外,SeamlessM4T v2 還補充了來自 SeamlessAlign 的針對低資源語言的更多數據。

SeamlessM4T v2 使用自動指標(BLEU、ASR-BLEU、BLASER 2 等)對所有任務和語言進行了全面評估,其性能顯著優于以前的最先進模型。 它還測試了穩健性、偏差和幻覺毒性。

研究人員寫道:“總而言之,Seamless 讓我們對將通用語音翻譯器從科幻小說概念轉變為現實世界技術所需的技術基礎有了關鍵的了解。”

改變全球溝通的潛力

這些模型的功能可以實現新的基于語音的通信體驗,從使用智能眼鏡的實時多語言對話到自動配音的視頻和播客。 研究人員表示,它還可以幫助打破移民和其他溝通困難的人的語言障礙。

該論文指出:“通過公開發布我們的工作,我們希望研究人員和開發人員能夠通過構建旨在在日益互聯和相互依賴的世界中架起多語言聯系的技術來擴大我們貢獻的影響。”

然而,研究人員承認,該技術也可能被濫用于語音網絡釣魚詐騙、深度造假和其他有害應用。 為了促進模型的安全和負責任的使用,他們實施了多項措施,包括音頻水印和減少幻覺有毒輸出的新技術。

Meta堅持開源道路,已在 Hugging Face 上公開發布

這幾個 Seamless Communication 模型已在 Hugging Face 和 Github 上公開發布。

該集合包括 Seamless、SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2 模型以及隨附的元數據。

通過免費提供這些最先進的自然語言處理模型,Meta 希望讓研究人員和開發人員能夠在這項工作的基礎上繼續發展并擴展這項工作,以幫助跨語言和跨文化的人們建立聯系。

在正在發生的這場激烈的生成式 AI 革命中,Meta 一直致力將自己的大模型研究成果開源,包括其頂級大模型 Llama,Llama2等等。這次的開源再次強調了 Meta 在發展 AI 過程中的態度,為研究社區提供了寶貴的新資源。

研究人員總結道:“總的來說,Seamless 可能產生的多維體驗可能會導致機器輔助跨語言交流的實現方式發生巨大變化。”


Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章