首頁 > AI資訊 > 最新資訊 > 又刷屏了,昆侖萬維奇襲音樂大模型

又刷屏了,昆侖萬維奇襲音樂大模型

新火種    2025-05-20

文 | 闌夕

出道即巔峰,又一款純正中國血統的大模型,跑出了SOTA(當前最佳水平)的分數。

昆侖萬維發布的音樂大模型Mureka O1,在音樂生成品質的評測上,全面超越作為行業領頭羊的Suno——相當于ChatGPT在文本大模型的優勢地位——成了又一個空降而來的「新王」。

當然,和普通大模型通常通過做題的準確率來對比能力差異不同,音樂內容的好壞缺少完全客觀的評判標準,所以昆侖萬維也做到了力所能及的公平:

在最新的音樂評測中,Mureka O1展現出卓越的音樂品質,在最終的整體聽感評測超過了Suno V4。

圖丨Mureka O1在主觀測評中整體聽感超越Suno V4

而在發音唱對率、樂段準確率、文本相關度、制作質量等客觀指標,多個維度上,Mureka O1都完全勝過了目前市場份額最高的Sonu V4,讓海外的AI技術圈再次發出了靈魂三問:

圖片

圖片

圖丨Mureka O1在文本生成音樂的客觀測評中得分

這是誰?哪兒來的?怎么辦到的?

怎么說呢,疑惑的起點都是傲慢,從看不到中國AI的奮起,到不關心大廠以外的突破,這筆認知債務,還有很長時間要還。

· · ·

作為一家上市公司,昆侖萬維沒有所謂「2VC」的敘事需求,它對AI的研究投入,一方面是對技術創新的敏感,另一方面也是自身業務的延伸。

早在3年前,昆侖萬維就用AI生成的音樂和圖形為旗下游戲業務做了降本增效——2萬塊錢的一首BGM版權,被5塊錢的AI成本頂替——這種基于現實需要的回報,客觀上也為昆侖萬維的AI版圖去掉了表演性質。

昆侖萬維的創始人周亞輝每年都會在朋友圈銳評各家公司的AI表現,并經常流傳出媒體喜聞樂見的金句,比如「字節跳動2023年的AI戰略不及格,但并不影響它在2024年的AI戰略能打滿分。」

而在對自家公司的評價上,周亞輝用了一個自創的詞組:「小而大美」。

昆侖萬維的市值,在500億人民幣左右,真要和全球互聯網大廠正面硬剛,顯然沒有多少勝算,但在周亞輝看來,昆侖萬維的AI進展不是「小而美」,而是「小而大美」,大在哪兒?

大在全球,大在對AI商業化上游的卡位。

如果在YouTube搜索Mureka,就能發現已經有很多創作者在用這款產品創作音樂了,這和很多AI概念產品的擴散路徑——先由技術社區引爆,再去尋找應用場景——還不太一樣,是市場先行、「炸裂」后至。

這和昆侖萬維的海外業務早已打下基底有關,語音社交應用StarMaker是中國互動娛樂出海的標志性產品,全球幾千萬人擠在里面唱歌打榜,對于音樂創作者會在多大程度上為生產力買單,熟念于心。

在這波AI浪潮襲來之前,StarMaker就在自己做語料庫了,單個小語種每個月要花幾百萬美元,這種積累,也相當于昆侖萬維在今天闖入音樂大模型的「合法外掛」,當一個高等級玩家出現在新手村,任何動作都會是降維打擊。

于是就有了Mureka O1的順利登頂。

· · ·

某種程度上,Mureka O1會讓海外的AI從業者內心生出「快別卷了」的無奈,因為它是第一個引入思維鏈(Chain-of-Thought)的音樂大模型。

思維鏈就是OpenAI o1和DeepSeek-R1為大模型行業帶來的第二條進化曲線,通過教會大模型推理能力,在預訓練陷入瓶頸之后重新解決了智能不再提升的問題。

不過思維鏈幾乎只被用在文本大模型領域,從來沒有在音樂大模型有過嘗試,而昆侖萬維實現了讓Mureka O1像一個真實的唱作人那樣,用經驗和思考——而非直覺——來譜曲寫歌。

在已經發布的論文里,Mureka團隊意識到傳統自回歸模型在生成音頻時的局限性,也就是遵循Transformer的預測模式,只能按順序吐出音符(Token),而在開創了思維鏈之后,Mureka O1可以在生成之前就對整體作曲結構做出計劃和梳理,大幅提高音樂的連貫性。

而這正是現階段音樂大模型最深的痛點,沒有之一。

簡單來說,以Suno為代表的舊式音樂大模型,在創作音樂時很容易出現「有曲調而無旋律」的特點,有曲調意味著這確實可被辨識出是一首音樂作品,無旋律則說明和那些真正由人譜寫出來的音樂相比,AI的工作成果不夠動聽,沒有朗朗上口的藝術審美。

這和文本大模型被詬病的地方是一致的,看起來AI很能寫作,吐起詞句來連綿不絕,卻在很多時候經不起細看,因為堆砌痕跡過重,給人「AI味」太濃的觀感,更嚴重的指責,甚至將AI生成的作品稱作是「尸塊」。

而Mureka O1提供的推理能力,可以讓AI站在全局的視角規劃一首音樂從無到有的構建過程,避免「走一步算一步」的強行成分,這在實際體驗上再造了魔法般的美學功底。

比如這首放克風格的音樂作品「Hands up high」,你們聽完一定會和我產生同樣的驚訝,不止是完整度,連同旋律構思和歌詞卡點,包括逼真的人聲唱腔,幾乎都不再有AI生成時那種揮之不散的電子感,達到了可以發行的地步:

還有充滿自由氣息的歡快的鄉村歌曲:

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章