AI音樂的商業(yè)化進入爆發(fā)前夜,昆侖萬維發(fā)布全球首款音樂推理大模型MurekaO1
3月26日,昆侖萬維正式發(fā)布Mureka V6模型與Mureka O1模型。Mureka O1作為全球首款音樂推理大模型,多項性能超越Suno V4、登頂SOTA,中國的AI科技公司再次實現(xiàn)DeepSeek時刻,引領(lǐng)AI音樂革命!
去年4月,昆侖萬維發(fā)布第一代音樂生成模型Mureka V1(SkyMusic)。經(jīng)過近一年升級迭代,Mureka V6、Mureka O1大模型已全量上線。Mureka是全球首批開放API服務(wù)的高質(zhì)量AI音樂生成平臺,將為全球開發(fā)者或音樂平臺提供頂尖的AI生成音樂能力。
昆侖萬維比國內(nèi)大多數(shù)大廠入局AI音樂賽道的時間更早,并且早已將AI音樂視為一個核心競爭方向。Mureka O1的出現(xiàn),為AI音樂乃至AI應用快速走向商業(yè)化提供了一個絕佳范本——達到技術(shù)SOTA,向全球市場提供多樣化的API服務(wù),兼顧C端用戶需求,從而享有更大范圍的SOTA紅利。
近期,昆侖萬維董事長兼CEO方漢接受了專訪。方漢表示,昆侖萬維在音樂數(shù)據(jù)層面已有七八年的積累,在模型和算法迭代方面的工作則始于2021年。Mureka O1如今已取得全球AI音樂SOTA,正是技術(shù)和產(chǎn)品雙輪驅(qū)動造就了昆侖萬維的護城河,這種技術(shù)先進性不僅真正降低了用戶創(chuàng)作門檻與成本,亦將轉(zhuǎn)化為面向全球市場的商業(yè)化紅利,預計為昆侖萬維AI業(yè)務(wù)商業(yè)上的成功帶來重要加持。
《Mureka》AI音樂人MV全網(wǎng)首發(fā),該作品由AI生成,其中音樂由Mureka生成,視頻由SkyReels技術(shù)支持生成。方漢稱,AI產(chǎn)業(yè)正向?qū)嵱没a(chǎn)品化高速迭代,昆侖萬維將關(guān)注AI長期發(fā)展,致力于在全球范圍內(nèi)落地更多更好的AIGC應用, " Mureka降低了用戶的創(chuàng)作門檻、創(chuàng)作成本,我覺得是非常有意義的,不僅能讓每個人更好地用音樂來塑造和表達自我,也將帶來全球各個國家內(nèi)容創(chuàng)作領(lǐng)域的極大爆發(fā)。"
加碼AI音樂生成賽道背后,是昆侖萬維在AIGC領(lǐng)域多年的布局——自2020年開始布局AIGC領(lǐng)域,組建近百人研發(fā)團隊;2022年12月15日,在ChatGPT尚未在國內(nèi)現(xiàn)象級“出圈”時,昆侖萬維就率先發(fā)布「昆侖天工」,彼時其AI內(nèi)容生成能力就已覆蓋文本、圖像、音樂、編程等全模態(tài);2023年初ChatGPT熱潮真正席卷全球之時,昆侖萬維已是國內(nèi)為數(shù)不多的全面布局AIGC領(lǐng)域的重要玩家,發(fā)布自研的「天工 1.0」雙千億級大語言模型。
人工智能發(fā)展日新月異,過去兩年昆侖萬維始終堅持大模型迭代和AI應用并行,天工大模型從1.0升級到4.0,AI應用層則是搜索、游戲、短劇、音樂等場景全面開花,出自昆侖萬維之手的中國首個音樂SOTA模型Mureka V1(SkyMusic)、全球首個集成視頻大模型與3D大模型的AI短劇平臺SkyReels在業(yè)界均具備首創(chuàng)性。
據(jù)悉,Mureka V6是當前Mureka的基座模型,支持純音樂生成,還支持10種語言的AI音樂創(chuàng)作,包括英中日韓法西葡德意俄,覆蓋世界上大多數(shù)國家和地區(qū),瞄準的正是AI的國際化路線。在Mureka V6中,團隊引入自研 ICL(in-context learning)技術(shù),使得聲場更加開闊,人聲質(zhì)感和混音設(shè)計進一步強化。
Mureka O1模型則是基于Mureka V6的思維鏈推理優(yōu)化版本,也是全球首個引入CoT(Chain-of-Thought)的音樂模型,在推理過程中加入思考與自我批判,顛覆性提升音樂品質(zhì)、音樂創(chuàng)作效率和靈活性。此外,Mureka還提供"以歌曲為prompt"、"音色克隆"兩大特色音樂生成功能。
值得關(guān)注的是,Mureka O1中包含的音樂生成領(lǐng)域創(chuàng)新研究成果MusiCoT,具備技術(shù)領(lǐng)先性和前瞻性。由于當前業(yè)界關(guān)于音樂領(lǐng)域的算法工作非常少,僅少數(shù)幾個團隊公開了工作成果,昆侖萬維此次以論文形式公開了Mureka O1的實現(xiàn)原理。
以下為采訪實錄:
Mureka O1取得全球AI音樂SOTA
:我試用了一下MurekaV6&O1,生成的歌曲音色很標準,支持多種語言生成歌曲,功能十分新穎。想了解下,此次Mureka V6&O1模型的創(chuàng)新亮點有哪些?
方漢:首先,Mureka V6 支持純音樂生成,同時也支持10種語言的AI音樂創(chuàng)作,包括中英葡西日韓德法俄意等,已經(jīng)涵蓋了全球人口的將近90%,在全球化的意義上也是非常重要的;Mureka O1大部分指標跟海外的Suno持平,但在部分關(guān)鍵性指標如人聲、背景音樂混音等方面領(lǐng)先于Suno。
其次,Mureka是全球首批開放API服務(wù)的AI音樂生成平臺,我們面向企業(yè)和開發(fā)者開放兩大類靈活的API服務(wù),不僅包括音樂音頻生成API,還有語音合成API,涵蓋的場景非常多樣化。
其中,音樂API包括標準音樂生成API、精調(diào)私有曲庫API,適用于內(nèi)容創(chuàng)作、游戲配樂、短視頻等多場景應用,還能定制品牌音樂、個人專輯等專屬內(nèi)容;語音API包括語音播客、精品說話人、音色克隆等 API ,用于語音播客、預制精品音色語音合成、音色克隆等場景。
值得一提的是,我們還開放了微調(diào)API服務(wù),開發(fā)者可以拿私有數(shù)據(jù)來微調(diào)模型,可以讓模型生成符合其長尾數(shù)據(jù)特征風格的歌曲,因為我們這個模型畢竟是用常見樂器、常見旋律、常見風格來訓練的。比如某個國家有一種特殊的樂器,它的音色可能之前沒有被收錄,用戶將這部分數(shù)據(jù)上傳之后就可以進行模型微調(diào)。這對于專業(yè)音樂人或工作室來說,作用是非常重要的。
另外,Mureka生成的音樂還能夠進行音軌分離,把人聲伴奏及每個樂器都按照不同的軌道輸出,方便用戶后續(xù)進行混音與二次創(chuàng)作。
總而言之,我們的創(chuàng)新亮點非常多,也是非常注重國際化和長尾需求,能夠讓全世界用戶用更低的門檻、更低的成本來進行音樂創(chuàng)作。
:Mureka的核心用戶群體是哪類人群?目前取得了怎樣的效果?
方漢:我們的用戶包括所有對音樂創(chuàng)作有需求的人,包括泛音樂人群,不只是專業(yè)的音樂從業(yè)者。
舉個例子,飯館需要放背景音樂,之前可能是要用比較不菲的價格購買商業(yè)音樂,現(xiàn)在可以用我們的產(chǎn)品制作飯店專屬的音樂。同時,獨立游戲開發(fā)者、影視創(chuàng)業(yè)者也可以跳過原來外包的音樂生產(chǎn)形式,帶來成本的降低。 目前已經(jīng)有超過 100 個國家和地區(qū)的用戶訪問Mureka。
:目前國內(nèi)有海綿音樂,國外有Suno,但整體上國內(nèi)外還沒看到太多AI音樂相關(guān)的產(chǎn)品。按照目前的技術(shù)水平,Mureka是否已經(jīng)取得了這個行業(yè)的SOTA地位?
方漢:我們已經(jīng)達到了全球AI音樂領(lǐng)域的SOTA。
第一,我們在音樂數(shù)據(jù)上已經(jīng)有了將近七八年的積累。此前我們收購了美國音樂社交公司Star Goup,獲得了超過200萬首的授權(quán)曲庫,后來我們逐漸將核心產(chǎn)品StarMaker打造成為海外音樂社交領(lǐng)域的頭部,在東南亞及中東地區(qū)優(yōu)勢穩(wěn)固,同時在拉丁美洲及歐洲主要市場躋身第一梯隊,歷史注冊用戶3.1億。中國有這樣經(jīng)驗的公司并不多。
第二,模型和算法的迭代上,我們從2021年開始對音樂模型進行了多次迭代,在AI音樂生成領(lǐng)域的每個方向都進行過認真的探索和嘗試。
同時,我們也注意引入文本大模型里面的先進技術(shù),比如Mureka O1首次在音樂生成領(lǐng)域應用CoT技術(shù),通過逐步反饋與優(yōu)化機制,顯著提升了歌詞旋律契合度、演唱準確性和藝術(shù)表現(xiàn)力,同時保持了低延時音樂生成。
另外,Mureka O1還能保持非常高效的推理效果,推理速度比競品可能要快一倍以上。
整體而言,Mureka O1的技術(shù)壁壘非常高。
:兼具稀缺性和有趣,Mureka將來有希望成為“Killer App”么?
方漢:我覺得在音樂賽道,Mureka成為Killer App是毋庸置疑的。
:如果未來3-5年AI音樂行業(yè)技術(shù)出現(xiàn)顛覆性突破,昆侖萬維將如何保持核心競爭力?
方漢:我覺得還是要雙輪驅(qū)動,首先技術(shù)上要保持領(lǐng)先,我們有大量的音樂數(shù)據(jù),在模型側(cè)也有長期的研發(fā)積累,我們一定會繼續(xù)向前,不斷迭代;在產(chǎn)品上,我們也會進行產(chǎn)品上的大量創(chuàng)新,不斷探索如何讓普通人更好地利用我們的工具來生產(chǎn)更好的內(nèi)容,在這方面我們可以做的工作也很多。
基于技術(shù)和產(chǎn)品雙輪驅(qū)動,我相信我們的護城河也會越來越深。我們對于音樂賽道可能比大廠還要更加專注,因為這是我們的一個核心競爭方向,所以我們非常有信心在長期的競爭中取得最后的勝利。
AI音樂的API商業(yè)化已進入爆發(fā)前夜
:此次Mureka O1上線,是否音樂創(chuàng)作是昆侖萬維比較看重的一個細分領(lǐng)域?為何比較看重這個細分領(lǐng)域?
方漢:我們非常看好音樂生成這個領(lǐng)域。
公司的口號是「實現(xiàn)通用人工智能,讓每個人能夠更好地塑造和表達自我」,第一句話是說AGI——所有人的長期目標,第二句話實際上指的是AIGC,即內(nèi)容生成賽道。
AIGC指AI生成繪畫、音樂、音頻、視頻等領(lǐng)域,所有這些內(nèi)容創(chuàng)作在AI介入之前成本較高。舉個例子,原來一個公司采購一首曲子,要找人作曲、找樂隊演奏、找混音工作室用硬件設(shè)備混成最終的曲子,單首曲子的報價大概十萬元人民幣,在Mureka出現(xiàn)之后,我們可以把單首曲子的創(chuàng)作成本降到幾塊錢甚至幾分錢。這樣的結(jié)果是:降低了所有人創(chuàng)作內(nèi)容的門檻。
讓每個人更好地塑造和表達自我這件事情,我們覺得非常有意義。不僅降低了用戶創(chuàng)作門檻、創(chuàng)作成本,也將帶來全球各個國家內(nèi)容創(chuàng)作領(lǐng)域的極大爆發(fā)。
同時,我們因為出海比較早,我們有海外音樂社交產(chǎn)品StarMaker,每天有600萬人在上面唱歌并且分享。作為音樂賽道的一個長期的重要玩家,我們積累了大量的技術(shù)經(jīng)驗和數(shù)據(jù),我們從2021年就開始研發(fā)Mureka的基座模型,才使得Mureka O1音樂生成大模型終于能夠達到世界第一的位置。
我們相信在音樂賽道技術(shù)上的領(lǐng)先,能夠轉(zhuǎn)為產(chǎn)品和市場上的大量紅利,這是我們非常看重音樂創(chuàng)作這個細分領(lǐng)域的一個重要原因。
:站在商業(yè)化角度,Mureka取得了SOTA地位后,能夠帶來哪些利好?
方漢:只有在技術(shù)上達到了SOTA,大量的KOL在使用過產(chǎn)品之后會自發(fā)地去宣傳,所有的用戶也會形成一個心智:中國人做的Mureka是目前最好的音樂生成模型,也是目前推理速度最快的、也是能夠定制化生產(chǎn)本地化音樂的模型。取得SOTA地位之后,大量的小語種國家唯一的選擇就是Mureka。
正如前面所說,我們拉低了成本、制作門檻,商業(yè)版訂戶也會大幅增長。音樂制作工具是一個每年約40億美金收入規(guī)模的市場,但其實制作歌曲的人比聽歌的人要少。但隨著門檻降低,未來Mureka全球潛在用戶群會比之前數(shù)字音樂工具市場的用戶群有十倍甚至百倍的增長,這將對我們AI業(yè)務(wù)商業(yè)化有非常大的幫助。
:我也注意到Mureka提供兩大類靈活的API服務(wù),融合了很多細分場景的實際需求。背后是否意味著有比較大的商業(yè)機會?您看到的趨勢是怎樣的?
方漢:我們提供的API面向不同的應用場景,我剛才說的音樂制作工具賽道其實是一個相對窄的賽道,但是提供語音播客API,市場就更廣了,比如Podcast(播客)一年就是一兩百億美金的賽道。
如果把相關(guān)合成API都開放給用戶,不管有什么樣的需求,可能通過Mureka都能得到一攬子的解決方案。比如:智駕場景,車主可以定制專屬座艙音樂;MCN等內(nèi)容制作公司可通過企業(yè)級定制化服務(wù)制作短視頻、廣告配樂;開發(fā)者可以用API做二次開發(fā)提供更有趣的音樂教育、音樂陪伴等產(chǎn)品;垂直場景的播客、有聲內(nèi)容甚至是影視配音領(lǐng)域,都可以用語音合成API支持帶情感的人聲,用于有聲書、虛擬主播等場景。
AI音樂的API商業(yè)化已經(jīng)進入爆發(fā)前夜,短期機會是B端效率工具和C端創(chuàng)作平臺,長期則可能衍生出音樂版權(quán)區(qū)塊鏈、AI作曲師等新業(yè)態(tài)。
:Mureka主要面向海外,此前發(fā)布的AI短劇產(chǎn)品SkyReels也是面向海外,昆侖萬維后續(xù)是否把海外作為AI的主戰(zhàn)場?
方漢:海外肯定是主戰(zhàn)場。
首先,歐美對于所有付費型產(chǎn)品,包括SaaS付費甚至個人用戶訂閱付費,都已培育了較好的付費習慣;其次,海外不是單一市場,而是多語種混合的市場。對于我們這種在海外從0到1打造了多款千萬級DAU產(chǎn)品的公司,我們在出海方面的經(jīng)驗非常豐富。
之前的SkyReels等產(chǎn)品進展也是非常快,已經(jīng)取得了一些成績。我們基本上都是圍繞著通過技術(shù)來降低用戶創(chuàng)作內(nèi)容的門檻和成本,只不過這次Mureka走的是音樂賽道,其他產(chǎn)品走的是社交與視頻賽道。
關(guān)注AI長期發(fā)展,落地更多更好的AIGC應用
:在您看來,這一波人工智能浪潮發(fā)展演變到了什么階段?昆侖萬維下一步的整體AI戰(zhàn)略是什么?
方漢:我認為人工智能已經(jīng)到了從實驗室或技術(shù)報告,甚至說從ToC大量地向ToB去轉(zhuǎn)化的階段,有大量的實際落地場景是非常明確的。產(chǎn)業(yè)已經(jīng)向?qū)嵱没a(chǎn)品化方面高速迭代,我覺得現(xiàn)在這個階段是令人激動的,因為開始真正創(chuàng)造實際價值了。
正如前面所說,我們的愿景和價值觀是「實現(xiàn)通用人工智能,讓每個人能夠更好地塑造和表達自我」。如果說前半句是指仰望星空,那么后半句指的就是腳踏實地,落地更多更好的AIGC應用,兼顧商業(yè)和技術(shù)。
:年初DeepSeek爆火引出了“AI普惠應用”的一個提法,你們怎么看這個說法?真正要實現(xiàn)AI普惠應用要跨過哪些難關(guān)?
方漢:普惠應用肯定是一個終局,但要實現(xiàn)普惠應用,硬件、軟件以及產(chǎn)品方面都要有大幅創(chuàng)新。
硬件方面,目前成本高昂,同時AI硬件市場應該說是全世界一家獨大。隨著硬件競爭不斷加劇,單位成本會逐漸降低,市場上應該會出現(xiàn)至少3-4家公司互相競爭的局面,這樣才能推進硬件的高速迭代。
軟件方面,軟件算法的優(yōu)化空間目前遠遠沒有到挖掘殆盡的地步。DeepSeek的優(yōu)化使得推理成本出現(xiàn)十倍甚至百倍下降,我們認為算法軟件優(yōu)化仍有巨大的空間來降低成本。
產(chǎn)品創(chuàng)新方面,通過產(chǎn)品模式的創(chuàng)新讓大多數(shù)人也能免費使用產(chǎn)品,這里面其實有很多的工作可以做。在中國的游戲及互聯(lián)網(wǎng)應用里其實已經(jīng)有很好的產(chǎn)品模式,我相信通過產(chǎn)品模式創(chuàng)新,也能讓更多普通人使用大模型來提升生活體驗,實現(xiàn)AI普惠。
:昆侖萬維從2020年就開始做AI方向的大模型研發(fā),按照目前的進展,您如何評價公司在整個AI行業(yè)中的地位?
方漢:我們屬于一家關(guān)注AI長期發(fā)展的中型科技公司。跟大廠比,我們的資金沒那么多,但是更加靈活高效,對于業(yè)務(wù)的垂類方向也更加專注;跟初創(chuàng)公司比,我們因為是上市公司,也有巨大的現(xiàn)金流,資金充足,不會因為短期融資的困難而動作變形。長期來看,我們可以堅持研發(fā)方向,以用戶需求為導向,這樣的話才能真正取得一定的成績。
:您是否認同“Scaling Law已經(jīng)放緩”?當前技術(shù)路線下,大模型距離“通用人工智能”還有多遠?
方漢:Scaling Law最早指的是在預訓練階段,人類把所有數(shù)據(jù)都灌進去,讓大模型去學會,但實際上人類的高質(zhì)量數(shù)據(jù)基本上已經(jīng)用完了。而且算力卡的規(guī)模再往上堆疊,訓練成果也沒有明顯的提升。預訓練的Scaling Law肯定已經(jīng)是大大放緩了。
在OpenAI o1和DeepSeek R1出來之后,推理的Scaling Law也已經(jīng)出現(xiàn)。在推理側(cè),我們用更長的時間讓模型輸出,能夠提取得更好的效果,推理的Scaling Law現(xiàn)在還在增長中。
但是從長期來看,推理的Scaling Law本質(zhì)上是讓大模型去學習人類推理的數(shù)據(jù),目前大模型僅學習了數(shù)學和編程的推理數(shù)據(jù),對于大量的高質(zhì)量垂類數(shù)據(jù),大模型目前仍然是一個死記硬背甚至沒有掌握的階段。
我認為,大模型在垂類數(shù)據(jù)以及更多的常識方面,不管是預訓練Scaling Law還是推理Scaling Law,都還有一定的發(fā)展空間。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。