圍獵Suno!國產AI音樂三巨頭:華語創作稱雄,MV一鍵生成全球首創
終于,谷歌新一代視頻生成大模型 Veo2 把 Sora 給秒了:「更懂人間煙火」、「懂電影拍攝技巧」、「分辨率高達 4K 」……
視頻生成已經步入影視級,但,還是個默片。
Veo2生成視頻,來自X網友 @moderncpp7,背景音效是作者手動添加。
國內互聯網公司卻開辟了新玩法,讓「視聽同步生成」變成現實。只需上傳一段視頻,音樂大模型就能立刻整出 30 秒的 MV !
中文吐詞清晰,聲音自然,歌詞高度貼合畫面,韻律也很中國,因為視頻只有16秒所以MV也就16秒。
過去整這么一出,還有點折騰。得先用音樂大模型生成音頻,再用剪輯工具把視頻和音頻「拼」起來。
現在,音樂大模型直接把 MV 給你端上來,連提示詞都省了。
一鍵配樂「天譜樂」拿下「全球首創」今年 7 月,音頻垂直賽道獨角獸趣丸科技推出了全球首個多模態配樂大模型「天譜樂」。
趣丸科技一直深耕音樂、音頻領域,旗下的拳頭產品有 TT 語音,如今累計注冊用戶已超 2 億,是國內最大的興趣社交平臺之一。

AI音樂創作平臺-天譜樂官網
「天譜樂」支持文本生曲,最長 3.5 分鐘。
文本生成歌曲,提示詞:寫一首關于當代年輕人青春熱血的歌曲。
除了文本,「天譜樂」 還支持圖片生曲、視頻生曲,也是全球首個落地多模態能力的 AI 音樂應用:
用戶上傳圖片或 60 秒內視頻,就能立刻生成與之高度匹配的 BGM,呈現 30 秒 MV 效果。
而 Suno 直到 10 月才推出了 SunoScenes ,允許用戶通過上傳照片和視頻作為提示詞,生成與之匹配的 30 秒音樂。 我們上傳了一張《好東西》的劇照,「天譜樂」立刻生成了一首歌曲。
給李子柒的一段制茶視頻配上音樂,無論是歌詞還是曲風都帶有濃濃的國風。
我們知道,Suno V3 和 Udio 生成的歌曲都有帶著明顯的金屬質感,聽起來像壓縮過的 MP3 ,尤其是人聲部分特別明顯,中文人聲唱詞更是差強人意。
在最具挑戰的人聲問題上,「天譜樂」中文人聲唱詞在多次技術迭代之后,已經達到了專業級人聲效果,顯著減少了電音感,擁有更加真實的歌手聲音,接近音樂發行的級別。
「天譜樂」此次的技術突破,來自于天譜樂大模型在長序列音樂語意建模和高質量音頻空間建模上實現進一步突破,高度還原音樂音頻在高維空間的連續信號表征,實現音樂性和音質的飛躍。
不過,要生成理想的 MV 效果,歌曲必須高度貼合內容,這意味著音樂模型還要能理解畫面蘊含的情緒、主題和細節。
基于大模型,「天譜樂」能準確識別出畫面情緒和基調,完成卡點,生成精準匹配的背景音樂,這種先進的多模態理解與生成能力使「天譜樂」達到了國際領先水平。
目前,「天譜樂」大模型已全面接入趣丸旗下唱鴨 App,在國內率先實現產品化應用,目前已有 4600 萬人注冊使用唱鴨 App 或天譜樂官網,累計創作近 1000 萬首 AI 歌曲。
「零門檻」音樂生成 國產應用三分天下2023 年 12 月底上線的 Suno 迅速成為 2024 年 AI 音樂領域的焦點。在國內,類似 Suno 的音樂創作模型接連面世,趣丸科技「天譜樂」也與字節跳動、昆侖萬維兩家音樂大模型形成「三分天下有其一」的格局。
在這場「零門檻」AI 音樂生成角逐中,昆侖萬維最先發力。旗下的音樂生成模型「天工 SkyMusic 」基于昆侖萬維的「天工 3.0 」超級大模型打造,能夠快速生成多種風格的音樂作品。
在音質上表現出色,還支持粵語、成都話等方言歌曲創作。目前僅支持文本生曲。
隨后,昆侖萬維又推出 AI 流媒體 App( Melodio )和 AI 商用音樂創作平臺( Mureka ),致力于讓全球用戶都能輕松進行音樂表達。
8 月,字節跳動攜豆包音樂大模型加入 AI 音樂戰局,此時,趣丸科技推出「天譜樂」已兩月有余。
字節的模型一上線就全面接入豆包 App、海綿音樂 App(字節旗下 AI 音樂創作工具),向所有用戶開放。用戶只需輸入簡單的提示詞,就能得到包含歌詞、曲譜和演唱的完整歌曲作品,還內置十多種風格和情緒選項。
相比 Suno,海綿音樂在人聲清晰度、中文發音等方面進行了優化,更能駕馭國風類音樂。
目前支持文本、圖片生曲,但不包括視頻輸入。

相比之下,擁有海量版權的在線音樂巨頭則審慎得多。針對創作者,網易云音樂和騰訊音樂分別推出了具備 AI 輔助創作功能的「天音」和「啟明星」平臺。
「天音」更適合專業創作者,在「一鍵生成」上并沒展現出領先其他 AI 生成應用的優勢。「啟明星」接入了「琴樂大模型」,仍聚焦于純音樂創作,并未涉足涉及人聲的歌曲生成。
對此,騰訊音樂表示,歌曲生成等復雜能力可以拭目以待。作為這一輪 AI 技術下的用戶平臺,他們選擇踴躍但理性投入。

「啟明星」接入了騰訊音樂「琴樂大模型」,輸入曲風、樂器、場景等關鍵詞就會生成一段純音樂。
商用領跑 跨界共創技術可以跨越國界,但應用一定要滿足本地用戶的需求。與當前已經落地的 AIGC 應用類似,國內 AI 音樂模型的發展也更接地氣。
得益于更容易獲符合本土市場偏好的華語和國風音樂訓練數據,國內模型能夠更準確地把握中國聽眾的音樂審美偏好,因此在中文歌曲創作上,「天譜樂」等國產音樂大模型明顯優于市場上最先進的 AI 音樂模型之一 Suno。
Suno 為杜甫《小至》創作的歌曲,無論人聲吐詞還是旋律,都明顯「水土不服」。
同時,國內音樂大模型市場也展現出獨特的競爭格局。與 Suno 等專注技術創新的初創企業不同,這里的主導者是一批深耕內容與文娛領域的互聯網企業。
他們無一例外地將重點放在降低創作門檻上,幫普通人生成個性化音樂,除了想在 C 端市場快速建立起存在感,也源于自身業務的深層需求,如平臺在流量增長進入瓶頸期后盡可能地留住用戶。
數據顯示,2023 年抖音用戶投稿超過 100 億,其中有 78% 的內容都含有 BGM ,對 30 秒到 1 分鐘不等的配樂需求量巨大。傳統模式下,平臺要么為此支付高額版權費,要么自建 BGM 庫。音樂大模型能低成本批量生成個性化 BGM,滿足迫切的業務需求。
作為國內最大的興趣社交平臺之一,趣丸也順應年輕人消費音樂的方式從「聽唱」轉向「唱作」,將音樂大模型整合進唱鴨等產品,通過提升用戶體驗來強化其社交生態。
不少從業者認為,短視頻、廣告宣傳、直播、游戲等場景的 BGM 很可能率先被 AI 取代。這些「快餐」內容對創作專業性、音質和 IP 要求都相對較低,更注重快速生產和個性化定制,與當前 AI 音樂的技術優勢完美契合。
2024 年,音樂大模型橫空出世終于補齊了 AIGC 時代「創作平權」的最后一塊拼圖。隨著技術持續迭代,國內 AI 音樂應用也正朝著雙軌并行的方向演進。
以「天譜樂」為例,一方面踐行著「人人都能玩點音樂」,為普通用戶提供娛樂性音樂生成服務;另一方面也在為專業人士提供更加實用的創作輔助,創造更大價值。
「天譜樂」網頁端已經為廣告、影視和音樂從業者提供專家模式,實現更精準的參數控制。
另外在視頻配樂上,鏡頭卡點識別功能將傳統需要剪輯師手動完成的情緒匹配和卡點對齊過程自動化,極大地提升了工作效率。

「天譜樂」網頁端(也是「唱鴨」的網頁版AI作曲),為廣告、影視和音樂從業者提供音樂專家模式,具備更精準的參數控制和更高的創作自由度。
據了解,「天譜樂」即將推出 MidiRender 功能,它像音樂界的 ControlNet,讓創作過程更可控:
創作者先確定核心創意和基礎旋律——比如像《星球大戰》主題曲開頭那樣具有標志性的動機旋律,再由 AI 協助完成歌詞填充和編曲工作。

MidiRender 不僅強化了人類對音樂生成的細節把控,也大大縮短了傳統創作中從動機旋律到完整作品需要的數周乃至數月時間。
創作者輸入原創音樂片段:「天譜樂」填充歌詞完成編曲:
有了 MidiRender ,「天譜樂」最終做出來的音樂,跟最初人類作曲家的動機旋律完全匹配。
事實上,業界對提升 AI 音樂「可編輯能力」的呼聲一直很高。端到端生成模式難以進行編輯調整,也難以獲取分軌、MIDI 等制作文件,要讓音樂生成工具真正融入創作人士的工作流程,必須實現從盲盒式生成到精確控制的轉變。
視覺生成的技術軌跡也證明了這一點:從 DALL-E 「盲盒式生成」到 Midjourney 的局部重繪,再到 Stable Diffusion 的 ControlNet,視頻生成可控性也在逐步提升。
AI 大模型作為工具,最終還是要服務于人,而不是去搶奪創作主導權,趣丸科技副總裁賈朔認為。未來,AI 和藝術家會是合作伙伴,畢竟,誰不能也不想獨自創造音樂的未來。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。