首頁 > AI資訊 > 行業動態 > 英偉達發布全新AI音頻模型Fugatto

英偉達發布全新AI音頻模型Fugatto

新火種    2024-11-27

編譯/前方智能

英偉達近日推出了一款名為 Fugatto(全稱為 Foundational Generative Audio Transformer Opus 1)的 AI 音頻模型。這款模型不僅能通過文字提示生成音樂和音效,還能對現有音頻進行修改和轉換,創造出前所未有的聲音組合。

圖片

圖源:英偉達

據英偉達介紹,Fugatto 具備多項獨特功能,比如可以將鋼琴演奏的音樂轉換為人聲演唱,能夠調整語音的口音和情緒,甚至可以創造出"尖叫的薩克斯"或"犬吠般的小號聲"等超現實音效。該模型采用了創新的 ComposableART 技術,能夠將訓練過程中分別出現的音頻特征進行組合,從而產生全新的聲音效果。

在技術層面,研究團隊使用了來自全球多個開源數據集的約 2000 萬個音頻樣本進行訓練,形成了一個擁有 25 億參數的大規模模型。該項目由來自印度、巴西、中國、約旦和韓國等多個國家的研究人員共同開發,這種多元化的團隊構成也使得模型在處理多語言和多重口音方面表現出色。

英偉達應用深度學習研究副總裁 Bryan Catanzaro 表示,生成式 AI 技術將為音樂、游戲和普通創作者帶來全新的創作可能性。不過,考慮到生成式技術可能帶來的潛在風險,英偉達目前尚未計劃對外發布這項技術。

原文標題:英偉達發布全新 AI 音頻模型 Fugatto

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章