五月天激情国产综合婷婷婷,男人添女荫道口视频77分集,天天射天天干

首頁 > AI資訊 > 最新資訊 > 英偉達攜全新AI模型“顛覆”音頻界：可創作音樂、修改人聲

英偉達攜全新AI模型“顛覆”音頻界：可創作音樂、修改人聲

財聯社 2024-11-27

財聯社11月26日訊（編輯黃君芝）據報道，英偉達（Nvidia）開發了一種新型人工智能（AI）模型，可以創造聲音效果，改變人的發音方式，并使用自然語言提示生成音樂。

這個模型被命名為Fugatto，即Foundational Generative Audio Transformer Opus 1，是一個研究項目。英偉達表示，它不會宣布任何發布這項技術的計劃，但它可能會對從音樂、娛樂到翻譯服務等行業產生廣泛的影響。

英偉達應用深度學習研究副總裁Bryan Catanzaro在接受采訪時表示：“Fugatto最令人興奮的地方在于，它擁有一個模型，你可以要求它以某種方式發出聲音，這真的打開了你對它應用范圍的想象。”

他進一步解釋說，市場上的其他模型，有些可以合成語音，有些可以為音樂添加音效，但Fugatto全部都可以做到。Catanzaro說，可以將其視為視頻和圖像生成模型（如Stability AI的Stable Video Diffusion或OpenAI的Sora）的一種補充。

“這里最基本的改進是……我們能夠使用語言合成音頻，我認為，這為人們可以用來創造驚人音頻的工具開辟了新的前景。”他補充說。

根據英偉達的說法，Fugatto是第一個具有新興特性的基礎模型，這意味著它能夠混合經過訓練的元素，并遵循“自由形式的指令”。

具體而言，該模型可以通過標準的文字提示生成音頻，也可以處理您上傳的音頻文件。所以，如果你有一個人說話的文件，你可以把那個人的話翻譯成另一種語言，同時讓它聽起來像他的聲音。你也可以選擇一個簡單的曲調，讓它聽起來像管弦樂表演，或者在音樂中添加不同的節拍。

此外，你也可以上傳一個文檔，讓模型用你喜歡的任何聲音朗讀。更重要的是，你可以告訴模型發出帶有情感分量的聲音。

不過，Catanzaro也補充說，這種模型并不總是完美的。而且，就像生成圖像和視頻的模型一樣，Fugatto也會催生藝術家、音響工程師和相關領域人員的擔憂。但Catanzaro指出，他的本意是希望這項技術能幫助音樂家。

“我希望這是藝術家探索的新工具。”“我認為音頻一直是一個富有成效的探索領域。你知道，當我們獲得新的音頻工具時，有時我們會獲得新的音樂形式。”他說。

Tags:

語音識別英偉人聲

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。