首頁 > AI資訊 > 最新資訊 > AI作曲缺數據,浙大GTSinger數據集上線:適配所有歌聲任務、帶有真實樂譜

AI作曲缺數據,浙大GTSinger數據集上線:適配所有歌聲任務、帶有真實樂譜

新火種    2024-11-16

本文的作者主要來自于浙江大學。第一作者是浙江大學計算機學院的博士生張彧,導師為趙洲教授,主要研究方向是音樂合成,音頻生成和自然語言處理,并在 NeurIPS、AAAI、ACL、EMNLP 等會議發表相關論文。共一作者是來自浙江大學計算機學院的本科生潘昶皓。

傳統的歌聲任務,如歌聲合成,大多是在利用輸入的歌詞和樂譜生成高質量的歌聲。隨著深度學習的發展,人們希望實現可控和能個性化定制的歌聲生成。

因此,技巧可控的歌聲合成、技巧識別、歌聲風格遷移以及語音到歌聲的轉換等任務應運而生。這些任務逐步發展并在短視頻配音和專業音樂創作等現實場景得到應用。

然而,由于缺乏高質量和多任務的開源歌聲數據集,這些新興的歌聲任務的發展受到了很大阻礙。

為此,來自浙江大學的研究團隊提出了一個全球化、多技巧的大型開源高質量歌聲數據集 GTSinger,帶有技巧對照組、真實樂譜、配對朗讀數據,涵蓋了目前所有歌聲任務的需求,并在多個歌聲任務上提供基準測試。

圖片

  • 論文地址:
  • 項目主頁:
  • 開源數據:
  • 開源代碼:

目前,該論文已被 NeurIPS 2024 Datasets and Benchmarks Track 接收為 Spotlight,并已開源完整數據集和相關代碼。

由于錄制歌曲和人工標注成本高昂,高質量和多任務的歌聲數據集的收集難度很大,這是阻礙 AI 音樂生成任務的的主要瓶頸。

而現有開源歌聲數據集的局限性主要包括:

1. 歌聲錄制和人工標注的質量較低,可能導致模型學習到的歌聲跑調或帶有噪音。

2. 語言和歌手的多樣性有限,限制了模型對多樣的音色和風格的學習。

3. 缺乏對多種歌唱技巧(如假聲)的對照組和標注,阻礙了模型對技巧的建模和控制。

4. 不配備真實樂譜,因此無法將模型直接應用在實際音樂創作中。

5. 任務適用性較差,缺乏很多新興的歌聲任務需要的標注和配對朗讀數據。

圖片

圖 1:現有開源歌唱數據集的信息表。Speech 表示配對朗讀數據。Align 和 RMS 分別表示人工音素對齊和真實樂譜。Style 表示全局風格標簽。

為了解決這些挑戰,浙大的研究者們提出了 GTSinger,一個全球化、多技巧的大型開源高質量歌聲數據集,包含技巧對照組、真實樂譜、配對朗讀數據,涵蓋了目前所有的歌聲任務的需求。

比起現有開源歌聲數據集,GTSinger 主要有以下優勢:

1. 專業歌手在專業錄音棚中錄制了 80.59 小時的歌聲,使得 GTSinger 成為目前最大的錄制歌聲數據集;

2. 20 位專業歌手總共使用了九種世界常用的語言(漢語、英語、日語、韓語、俄語、西班牙語、法語、德語和意大利語),為 GTSinger 帶來豐富的風格多樣性;

3. GTSinger 為六種常用歌唱技巧(混聲、假聲、氣聲、咽音、顫音和滑音)提供了對照組和音素級的技巧標注;

4. 不同于 MIDI 等精細樂譜,GTSinger 提供了可以用于實際音樂創作的真實樂譜;

5. 人工音素對齊、全局風格標簽(唱法、情感、音高范圍和速度)以及 16.16 小時的配對朗讀數據,讓 GTSinger 可以適配各種歌聲任務。

圖片

圖 2:GTSinger 中每首歌曲的構成。包括技巧組歌聲、控制組歌聲、配對朗讀的音頻和標注。

收集流程

GTSinger 的收集主要包括三個流程:音頻錄制,人工標注,后續處理。

圖片

圖 3:GTSinger 的數據處理流程。在每一步中都存在人工檢查。

在音頻錄制階段,音樂專家首先從語言自然度、歌聲演唱水平、歌聲技巧熟練度等維度嚴格篩選歌手;接著,專家根據各語言的代表性,技巧的適用度,歌手的音域等因素挑選不同風格和不同情感的歌曲。

之后,歌手在專業錄音棚中錄制高質量的歌聲。在技巧組中,歌手被要求密集使用特定技巧,而對照組則是排除特定技巧的自然演唱。

圖片

圖 4:語言、歌手、技巧和時長的信息表。技巧的時長包括控制組和技巧組中的時長。

人工標注流程主要包括對齊,技巧和風格標注,以及真實樂譜編寫。

在對齊階段,音樂專家首先使用 MFA 完成粗標注,再利用 Praat 來進行對音素邊界,錯字漏字,無聲區域(呼吸或靜默)的校對和標注。

對齊完成后,另一組專家根據聽感對混聲、假聲、氣聲、咽音、顫音和滑音六種技巧進行音素級標注。此外,專家們還為每首歌標記了全局風格標簽,包括唱法(流行或美聲)、情感(快樂或悲傷)、節奏(慢、中、快)和音高范圍(低、中、高)。

接著,為了編寫真實樂譜,研究者首先使用 RMVPE 來提取每首歌的 F0,隨后使用 ROSVOT 推導出 MIDI 形式的精細樂譜。接著,音樂專家根據錄制歌聲,并參考原始伴奏進行以下步驟:

1. 確定實際的節奏、譜號和調性;

2. 調整樂譜以匹配真實音符的音高;

3. 根據真實樂譜的規則修改音符時長;

4. 標注音符類型,如休止符、歌詞或連音符。

圖片

圖 5:F0、精細樂譜與真實樂譜之間的對比。精細樂譜會破壞音符時長的規律性,導致音符碎片化,不適合用于實際作曲。

在后續處理中,多個擅長特定語言的音樂專家對標注進行了審核。最后,歌聲音頻被按語義和無聲區域等因素分割為更小的片段,其中超過 95% 的句子時長在 5 到 20 秒之間。

圖片

圖 6:切句時長、技巧、每分鐘節拍數和音符音高的統計。

基準測試

為了評估數據集質量和任務適用性,GTSinger 在四個歌聲任務上進行了全面評估:技巧可控的歌聲合成、技巧識別、歌聲風格遷移以及語音到歌聲的轉換。

圖片

圖 7:技巧可控的歌聲合成的平行和非平行實驗結果。平行實驗使用真實技巧序列作為目標。在非平行實驗中,六種技巧會隨機且適當地分配給每個目標音素。

圖片

圖 8:技巧檢測的總體和跨語言實驗結果。語言被分類為亞洲語種和歐洲語種,跨語言實驗中模型在其中一類語種訓練并在另外一類測試。

圖片

圖 9:風格遷移的平行和跨語言實驗結果。

圖片

圖 10:語音到歌聲轉換的實驗結果。

根據這些實驗結果,可以看出 GTSinger 不僅能在廣泛的生成任務上應用,也適用于檢測任務。

總結展望

本文提出了 GTSinger,一個全球化、多技巧的大型開源高質量歌聲數據集,帶有技巧對照組、真實樂譜、配對朗讀數據,涵蓋了目前所有歌聲任務的需求,并在多個任務上提供了基準測試。

未來工作可以進一步擴展數據的多樣性,如涵蓋阿拉伯語等常用語言以及氣泡音等技巧。同時研發基于字級別的模型可能會減少人工標注引入的一些細微錯誤的影響。最后,制作有伴奏的錄制歌聲數據集會對音樂領域有更大的幫助。


相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章