亚洲图片视频在线,69精品久久久,国产精品亚洲欧美中字

首頁 > AI資訊 > 最新資訊 > AI音樂的商業(yè)化進入爆發(fā)前夜，昆侖萬維發(fā)布全球首款音樂推理大模型MurekaO1

AI音樂的商業(yè)化進入爆發(fā)前夜，昆侖萬維發(fā)布全球首款音樂推理大模型MurekaO1

付靜 2025-03-28

3月26日，昆侖萬維正式發(fā)布Mureka V6模型與Mureka O1模型。Mureka O1作為全球首款音樂推理大模型，多項性能超越Suno V4、登頂SOTA，中國的AI科技公司再次實現(xiàn)DeepSeek時刻，引領(lǐng)AI音樂革命！

去年4月，昆侖萬維發(fā)布第一代音樂生成模型Mureka V1（SkyMusic）。經(jīng)過近一年升級迭代，Mureka V6、Mureka O1大模型已全量上線。Mureka是全球首批開放API服務(wù)的高質(zhì)量AI音樂生成平臺，將為全球開發(fā)者或音樂平臺提供頂尖的AI生成音樂能力。

昆侖萬維比國內(nèi)大多數(shù)大廠入局AI音樂賽道的時間更早，并且早已將AI音樂視為一個核心競爭方向。Mureka O1的出現(xiàn)，為AI音樂乃至AI應用快速走向商業(yè)化提供了一個絕佳范本——達到技術(shù)SOTA，向全球市場提供多樣化的API服務(wù)，兼顧C端用戶需求，從而享有更大范圍的SOTA紅利。

近期，昆侖萬維董事長兼CEO方漢接受了專訪。方漢表示，昆侖萬維在音樂數(shù)據(jù)層面已有七八年的積累，在模型和算法迭代方面的工作則始于2021年。Mureka O1如今已取得全球AI音樂SOTA，正是技術(shù)和產(chǎn)品雙輪驅(qū)動造就了昆侖萬維的護城河，這種技術(shù)先進性不僅真正降低了用戶創(chuàng)作門檻與成本，亦將轉(zhuǎn)化為面向全球市場的商業(yè)化紅利，預計為昆侖萬維AI業(yè)務(wù)商業(yè)上的成功帶來重要加持。

《Mureka》AI音樂人MV全網(wǎng)首發(fā)，該作品由AI生成，其中音樂由Mureka生成，視頻由SkyReels技術(shù)支持生成。

方漢稱，AI產(chǎn)業(yè)正向?qū)嵱没a(chǎn)品化高速迭代，昆侖萬維將關(guān)注AI長期發(fā)展，致力于在全球范圍內(nèi)落地更多更好的AIGC應用， " Mureka降低了用戶的創(chuàng)作門檻、創(chuàng)作成本，我覺得是非常有意義的，不僅能讓每個人更好地用音樂來塑造和表達自我，也將帶來全球各個國家內(nèi)容創(chuàng)作領(lǐng)域的極大爆發(fā)。"

加碼AI音樂生成賽道背后，是昆侖萬維在AIGC領(lǐng)域多年的布局——自2020年開始布局AIGC領(lǐng)域，組建近百人研發(fā)團隊；2022年12月15日，在ChatGPT尚未在國內(nèi)現(xiàn)象級“出圈”時，昆侖萬維就率先發(fā)布「昆侖天工」，彼時其AI內(nèi)容生成能力就已覆蓋文本、圖像、音樂、編程等全模態(tài)；2023年初ChatGPT熱潮真正席卷全球之時，昆侖萬維已是國內(nèi)為數(shù)不多的全面布局AIGC領(lǐng)域的重要玩家，發(fā)布自研的「天工 1.0」雙千億級大語言模型。

人工智能發(fā)展日新月異，過去兩年昆侖萬維始終堅持大模型迭代和AI應用并行，天工大模型從1.0升級到4.0，AI應用層則是搜索、游戲、短劇、音樂等場景全面開花，出自昆侖萬維之手的中國首個音樂SOTA模型Mureka V1(SkyMusic)、全球首個集成視頻大模型與3D大模型的AI短劇平臺SkyReels在業(yè)界均具備首創(chuàng)性。

據(jù)悉，Mureka V6是當前Mureka的基座模型，支持純音樂生成，還支持10種語言的AI音樂創(chuàng)作，包括英中日韓法西葡德意俄，覆蓋世界上大多數(shù)國家和地區(qū)，瞄準的正是AI的國際化路線。在Mureka V6中，團隊引入自研 ICL（in-context learning）技術(shù)，使得聲場更加開闊，人聲質(zhì)感和混音設(shè)計進一步強化。

Mureka O1模型則是基于Mureka V6的思維鏈推理優(yōu)化版本，也是全球首個引入CoT（Chain-of-Thought）的音樂模型，在推理過程中加入思考與自我批判，顛覆性提升音樂品質(zhì)、音樂創(chuàng)作效率和靈活性。此外，Mureka還提供"以歌曲為prompt"、"音色克隆"兩大特色音樂生成功能。

值得關(guān)注的是，Mureka O1中包含的音樂生成領(lǐng)域創(chuàng)新研究成果MusiCoT，具備技術(shù)領(lǐng)先性和前瞻性。由于當前業(yè)界關(guān)于音樂領(lǐng)域的算法工作非常少，僅少數(shù)幾個團隊公開了工作成果，昆侖萬維此次以論文形式公開了Mureka O1的實現(xiàn)原理。

項目主頁：MusiCoT.github.io

以下為采訪實錄：

Mureka O1取得全球AI音樂SOTA

：我試用了一下MurekaV6&O1，生成的歌曲音色很標準，支持多種語言生成歌曲，功能十分新穎。想了解下，此次Mureka V6&O1模型的創(chuàng)新亮點有哪些？

方漢：首先，Mureka V6 支持純音樂生成，同時也支持10種語言的AI音樂創(chuàng)作，包括中英葡西日韓德法俄意等，已經(jīng)涵蓋了全球人口的將近90%，在全球化的意義上也是非常重要的；Mureka O1大部分指標跟海外的Suno持平，但在部分關(guān)鍵性指標如人聲、背景音樂混音等方面領(lǐng)先于Suno。

其次，Mureka是全球首批開放API服務(wù)的AI音樂生成平臺，我們面向企業(yè)和開發(fā)者開放兩大類靈活的API服務(wù)，不僅包括音樂音頻生成API，還有語音合成API，涵蓋的場景非常多樣化。

其中，音樂API包括標準音樂生成API、精調(diào)私有曲庫API，適用于內(nèi)容創(chuàng)作、游戲配樂、短視頻等多場景應用，還能定制品牌音樂、個人專輯等專屬內(nèi)容；語音API包括語音播客、精品說話人、音色克隆等 API ，用于語音播客、預制精品音色語音合成、音色克隆等場景。

值得一提的是，我們還開放了微調(diào)API服務(wù)，開發(fā)者可以拿私有數(shù)據(jù)來微調(diào)模型，可以讓模型生成符合其長尾數(shù)據(jù)特征風格的歌曲，因為我們這個模型畢竟是用常見樂器、常見旋律、常見風格來訓練的。比如某個國家有一種特殊的樂器，它的音色可能之前沒有被收錄，用戶將這部分數(shù)據(jù)上傳之后就可以進行模型微調(diào)。這對于專業(yè)音樂人或工作室來說，作用是非常重要的。

另外，Mureka生成的音樂還能夠進行音軌分離，把人聲伴奏及每個樂器都按照不同的軌道輸出，方便用戶后續(xù)進行混音與二次創(chuàng)作。

總而言之，我們的創(chuàng)新亮點非常多，也是非常注重國際化和長尾需求，能夠讓全世界用戶用更低的門檻、更低的成本來進行音樂創(chuàng)作。

：Mureka的核心用戶群體是哪類人群？目前取得了怎樣的效果？

方漢：我們的用戶包括所有對音樂創(chuàng)作有需求的人，包括泛音樂人群，不只是專業(yè)的音樂從業(yè)者。

舉個例子，飯館需要放背景音樂，之前可能是要用比較不菲的價格購買商業(yè)音樂，現(xiàn)在可以用我們的產(chǎn)品制作飯店專屬的音樂。同時，獨立游戲開發(fā)者、影視創(chuàng)業(yè)者也可以跳過原來外包的音樂生產(chǎn)形式，帶來成本的降低。目前已經(jīng)有超過 100 個國家和地區(qū)的用戶訪問Mureka。

：目前國內(nèi)有海綿音樂，國外有Suno，但整體上國內(nèi)外還沒看到太多AI音樂相關(guān)的產(chǎn)品。按照目前的技術(shù)水平，Mureka是否已經(jīng)取得了這個行業(yè)的SOTA地位？

方漢：我們已經(jīng)達到了全球AI音樂領(lǐng)域的SOTA。

第一，我們在音樂數(shù)據(jù)上已經(jīng)有了將近七八年的積累。此前我們收購了美國音樂社交公司Star Goup，獲得了超過200萬首的授權(quán)曲庫，后來我們逐漸將核心產(chǎn)品StarMaker打造成為海外音樂社交領(lǐng)域的頭部，在東南亞及中東地區(qū)優(yōu)勢穩(wěn)固，同時在拉丁美洲及歐洲主要市場躋身第一梯隊，歷史注冊用戶3.1億。中國有這樣經(jīng)驗的公司并不多。

第二，模型和算法的迭代上，我們從2021年開始對音樂模型進行了多次迭代，在AI音樂生成領(lǐng)域的每個方向都進行過認真的探索和嘗試。

同時，我們也注意引入文本大模型里面的先進技術(shù)，比如Mureka O1首次在音樂生成領(lǐng)域應用CoT技術(shù)，通過逐步反饋與優(yōu)化機制，顯著提升了歌詞旋律契合度、演唱準確性和藝術(shù)表現(xiàn)力，同時保持了低延時音樂生成。

圖丨Mureka自研基于MusiCoT的自回歸模型音樂生成技術(shù)（來源：MuisCoT.github.io/）

另外，Mureka O1還能保持非常高效的推理效果，推理速度比競品可能要快一倍以上。

圖丨Mureka O1實現(xiàn)了行業(yè)領(lǐng)先的低延時音樂生成

整體而言，Mureka O1的技術(shù)壁壘非常高。

：兼具稀缺性和有趣，Mureka將來有希望成為“Killer App”么？

方漢：我覺得在音樂賽道，Mureka成為Killer App是毋庸置疑的。

：如果未來3-5年AI音樂行業(yè)技術(shù)出現(xiàn)顛覆性突破，昆侖萬維將如何保持核心競爭力？

方漢：我覺得還是要雙輪驅(qū)動，首先技術(shù)上要保持領(lǐng)先，我們有大量的音樂數(shù)據(jù)，在模型側(cè)也有長期的研發(fā)積累，我們一定會繼續(xù)向前，不斷迭代；在產(chǎn)品上，我們也會進行產(chǎn)品上的大量創(chuàng)新，不斷探索如何讓普通人更好地利用我們的工具來生產(chǎn)更好的內(nèi)容，在這方面我們可以做的工作也很多。

基于技術(shù)和產(chǎn)品雙輪驅(qū)動，我相信我們的護城河也會越來越深。我們對于音樂賽道可能比大廠還要更加專注，因為這是我們的一個核心競爭方向，所以我們非常有信心在長期的競爭中取得最后的勝利。

AI音樂的API商業(yè)化已進入爆發(fā)前夜

：此次Mureka O1上線，是否音樂創(chuàng)作是昆侖萬維比較看重的一個細分領(lǐng)域？為何比較看重這個細分領(lǐng)域？

方漢：我們非常看好音樂生成這個領(lǐng)域。

公司的口號是「實現(xiàn)通用人工智能，讓每個人能夠更好地塑造和表達自我」，第一句話是說AGI——所有人的長期目標，第二句話實際上指的是AIGC，即內(nèi)容生成賽道。

AIGC指AI生成繪畫、音樂、音頻、視頻等領(lǐng)域，所有這些內(nèi)容創(chuàng)作在AI介入之前成本較高。舉個例子，原來一個公司采購一首曲子，要找人作曲、找樂隊演奏、找混音工作室用硬件設(shè)備混成最終的曲子，單首曲子的報價大概十萬元人民幣，在Mureka出現(xiàn)之后，我們可以把單首曲子的創(chuàng)作成本降到幾塊錢甚至幾分錢。這樣的結(jié)果是：降低了所有人創(chuàng)作內(nèi)容的門檻。

讓每個人更好地塑造和表達自我這件事情，我們覺得非常有意義。不僅降低了用戶創(chuàng)作門檻、創(chuàng)作成本，也將帶來全球各個國家內(nèi)容創(chuàng)作領(lǐng)域的極大爆發(fā)。

同時，我們因為出海比較早，我們有海外音樂社交產(chǎn)品StarMaker，每天有600萬人在上面唱歌并且分享。作為音樂賽道的一個長期的重要玩家，我們積累了大量的技術(shù)經(jīng)驗和數(shù)據(jù)，我們從2021年就開始研發(fā)Mureka的基座模型，才使得Mureka O1音樂生成大模型終于能夠達到世界第一的位置。

我們相信在音樂賽道技術(shù)上的領(lǐng)先，能夠轉(zhuǎn)為產(chǎn)品和市場上的大量紅利，這是我們非常看重音樂創(chuàng)作這個細分領(lǐng)域的一個重要原因。

：站在商業(yè)化角度，Mureka取得了SOTA地位后，能夠帶來哪些利好？

方漢：只有在技術(shù)上達到了SOTA，大量的KOL在使用過產(chǎn)品之后會自發(fā)地去宣傳，所有的用戶也會形成一個心智：中國人做的Mureka是目前最好的音樂生成模型，也是目前推理速度最快的、也是能夠定制化生產(chǎn)本地化音樂的模型。取得SOTA地位之后，大量的小語種國家唯一的選擇就是Mureka。

正如前面所說，我們拉低了成本、制作門檻，商業(yè)版訂戶也會大幅增長。音樂制作工具是一個每年約40億美金收入規(guī)模的市場，但其實制作歌曲的人比聽歌的人要少。但隨著門檻降低，未來Mureka全球潛在用戶群會比之前數(shù)字音樂工具市場的用戶群有十倍甚至百倍的增長，這將對我們AI業(yè)務(wù)商業(yè)化有非常大的幫助。

：我也注意到Mureka提供兩大類靈活的API服務(wù)，融合了很多細分場景的實際需求。背后是否意味著有比較大的商業(yè)機會？您看到的趨勢是怎樣的？

方漢：我們提供的API面向不同的應用場景，我剛才說的音樂制作工具賽道其實是一個相對窄的賽道，但是提供語音播客API，市場就更廣了，比如Podcast（播客）一年就是一兩百億美金的賽道。

如果把相關(guān)合成API都開放給用戶，不管有什么樣的需求，可能通過Mureka都能得到一攬子的解決方案。比如：智駕場景，車主可以定制專屬座艙音樂；MCN等內(nèi)容制作公司可通過企業(yè)級定制化服務(wù)制作短視頻、廣告配樂；開發(fā)者可以用API做二次開發(fā)提供更有趣的音樂教育、音樂陪伴等產(chǎn)品；垂直場景的播客、有聲內(nèi)容甚至是影視配音領(lǐng)域，都可以用語音合成API支持帶情感的人聲，用于有聲書、虛擬主播等場景。

AI音樂的API商業(yè)化已經(jīng)進入爆發(fā)前夜，短期機會是B端效率工具和C端創(chuàng)作平臺，長期則可能衍生出音樂版權(quán)區(qū)塊鏈、AI作曲師等新業(yè)態(tài)。

：Mureka主要面向海外，此前發(fā)布的AI短劇產(chǎn)品SkyReels也是面向海外，昆侖萬維后續(xù)是否把海外作為AI的主戰(zhàn)場？

方漢：海外肯定是主戰(zhàn)場。

首先，歐美對于所有付費型產(chǎn)品，包括SaaS付費甚至個人用戶訂閱付費，都已培育了較好的付費習慣；其次，海外不是單一市場，而是多語種混合的市場。對于我們這種在海外從0到1打造了多款千萬級DAU產(chǎn)品的公司，我們在出海方面的經(jīng)驗非常豐富。

之前的SkyReels等產(chǎn)品進展也是非常快，已經(jīng)取得了一些成績。我們基本上都是圍繞著通過技術(shù)來降低用戶創(chuàng)作內(nèi)容的門檻和成本，只不過這次Mureka走的是音樂賽道，其他產(chǎn)品走的是社交與視頻賽道。

關(guān)注AI長期發(fā)展，落地更多更好的AIGC應用

：在您看來，這一波人工智能浪潮發(fā)展演變到了什么階段？昆侖萬維下一步的整體AI戰(zhàn)略是什么？

方漢：我認為人工智能已經(jīng)到了從實驗室或技術(shù)報告，甚至說從ToC大量地向ToB去轉(zhuǎn)化的階段，有大量的實際落地場景是非常明確的。產(chǎn)業(yè)已經(jīng)向?qū)嵱没a(chǎn)品化方面高速迭代，我覺得現(xiàn)在這個階段是令人激動的，因為開始真正創(chuàng)造實際價值了。

正如前面所說，我們的愿景和價值觀是「實現(xiàn)通用人工智能，讓每個人能夠更好地塑造和表達自我」。如果說前半句是指仰望星空，那么后半句指的就是腳踏實地，落地更多更好的AIGC應用，兼顧商業(yè)和技術(shù)。

：年初DeepSeek爆火引出了“AI普惠應用”的一個提法，你們怎么看這個說法？真正要實現(xiàn)AI普惠應用要跨過哪些難關(guān)？

方漢：普惠應用肯定是一個終局，但要實現(xiàn)普惠應用，硬件、軟件以及產(chǎn)品方面都要有大幅創(chuàng)新。

硬件方面，目前成本高昂，同時AI硬件市場應該說是全世界一家獨大。隨著硬件競爭不斷加劇，單位成本會逐漸降低，市場上應該會出現(xiàn)至少3-4家公司互相競爭的局面，這樣才能推進硬件的高速迭代。

軟件方面，軟件算法的優(yōu)化空間目前遠遠沒有到挖掘殆盡的地步。DeepSeek的優(yōu)化使得推理成本出現(xiàn)十倍甚至百倍下降，我們認為算法軟件優(yōu)化仍有巨大的空間來降低成本。

產(chǎn)品創(chuàng)新方面，通過產(chǎn)品模式的創(chuàng)新讓大多數(shù)人也能免費使用產(chǎn)品，這里面其實有很多的工作可以做。在中國的游戲及互聯(lián)網(wǎng)應用里其實已經(jīng)有很好的產(chǎn)品模式，我相信通過產(chǎn)品模式創(chuàng)新，也能讓更多普通人使用大模型來提升生活體驗，實現(xiàn)AI普惠。

：昆侖萬維從2020年就開始做AI方向的大模型研發(fā)，按照目前的進展，您如何評價公司在整個AI行業(yè)中的地位？

方漢：我們屬于一家關(guān)注AI長期發(fā)展的中型科技公司。跟大廠比，我們的資金沒那么多，但是更加靈活高效，對于業(yè)務(wù)的垂類方向也更加專注；跟初創(chuàng)公司比，我們因為是上市公司，也有巨大的現(xiàn)金流，資金充足，不會因為短期融資的困難而動作變形。長期來看，我們可以堅持研發(fā)方向，以用戶需求為導向，這樣的話才能真正取得一定的成績。

：您是否認同“Scaling Law已經(jīng)放緩”？當前技術(shù)路線下，大模型距離“通用人工智能”還有多遠？

方漢：Scaling Law最早指的是在預訓練階段，人類把所有數(shù)據(jù)都灌進去，讓大模型去學會，但實際上人類的高質(zhì)量數(shù)據(jù)基本上已經(jīng)用完了。而且算力卡的規(guī)模再往上堆疊，訓練成果也沒有明顯的提升。預訓練的Scaling Law肯定已經(jīng)是大大放緩了。

在OpenAI o1和DeepSeek R1出來之后，推理的Scaling Law也已經(jīng)出現(xiàn)。在推理側(cè)，我們用更長的時間讓模型輸出，能夠提取得更好的效果，推理的Scaling Law現(xiàn)在還在增長中。

但是從長期來看，推理的Scaling Law本質(zhì)上是讓大模型去學習人類推理的數(shù)據(jù)，目前大模型僅學習了數(shù)學和編程的推理數(shù)據(jù)，對于大量的高質(zhì)量垂類數(shù)據(jù)，大模型目前仍然是一個死記硬背甚至沒有掌握的階段。

我認為，大模型在垂類數(shù)據(jù)以及更多的常識方面，不管是預訓練Scaling Law還是推理Scaling Law，都還有一定的發(fā)展空間。

Tags:

大模型音樂模型

相關(guān)推薦

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內(nèi)容相關(guān)的任何行動之前，請務(wù)必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

AI音樂的商業(yè)化進入爆發(fā)前夜，昆侖萬維發(fā)布全球首款音樂推理大模型MurekaO1

【明日主題前瞻】臺積電加快先進封裝產(chǎn)能擴張，機構(gòu)稱AI加速發(fā)展驅(qū)動先進封裝需求旺盛

券商新一輪AI投顧競賽，智能助手讓投資顧問“卷”起來，誰家投顧更貼心？

如何規(guī)避人工智能帶來的政務(wù)服務(wù)風險

車企財報季|2024年虧轉(zhuǎn)盈東風汽車：尚未明確與長安重組、嵐圖IPO“暫停”

AI音樂的商業(yè)化進入爆發(fā)前夜，昆侖萬維發(fā)布全球首款音樂推理大模型MurekaO1

熱門文章