直播網友AI寫歌征婚,實測最新登榜音樂SOTA模型:免費無限次,一鍵生成
繼Suno、Udio帶火AI音樂生成大模型之后,第一個國產“音樂版Sora”,終于來了!
話不多說,直接“開箱”聽效果,看看到底怎么事。
我們開始就上一下難度,讓它根據《高速運轉的機械》這個網絡段子來做首個歌。
這個任務的難度在于,所有的文字并非是歌詞那般押韻、工整,并且邏輯也比較混亂。
AI先是采用男聲Rap的方式把氣場打開,中間還夾帶了一小段方言,最后女聲演唱部分的音樂也是頗有“黃龍江一派”的氣勢。
嗯,熟悉的畫面這不就來了。
若是讓它爆改一下文字較為工整的古詩詞,AI又該如何接招?
有請李清照的《聲聲慢》:
這段音樂整體是現代風格,先是有一段男聲Rap,咬字和節(jié)奏感上依舊是比較過關。
但最令人意想不到的是,在第23秒的時候,AI直接來了個峰回路轉,直接“殺”進了女聲,音樂的情緒也放慢了下來,頗有“怎一個愁字了得”的意味。
當然,用粵語、英語演唱抒情歌曲,這個AI也是不在話下,甚至連顫音、和聲、和弦都能生成得惟妙惟肖:
而已經體驗過Suno等產品的小伙伴可以聽出來,這個AI在處理中文的時候是拿捏得比較自然的。
那么這個國產“音樂版Sora”,到底是什么來頭?
不賣關子,它就是由昆侖萬維在4月17日正式發(fā)布的天工SkyMusic,劃重點:
效果聽起來還算不錯,那么操作上是否會很麻煩呢?不,巨簡單。
簡單2步就能做首歌
目前,SkyMusic已經集成到了手機上的天工APP,入口就在主頁頂部的“音樂”一欄中。
要想生成剛才那樣的音樂,只需點擊“開始寫歌”就可以了。
在接下來的界面中,正如上文所言,你只要執(zhí)行2個操作即可:
填寫歌詞(300字內)選擇參考曲目
如果在寫歌詞的過程中沒有靈感,你還可以通過“AI寫詞”的功能讓大模型給你幫忙哦~
最后,點擊底部的“生成歌曲”按鈕,大約1到2分鐘左右(親測),就會出結果了。
而且還不是只有1首,是直接給到3個完全不同的版本!
除此之外,在天工APP“音樂”欄目的下方,也有展示用戶篩出來的AI作品。
如果你在聽完某首歌曲之后覺得效果不錯,也想嘗試生成類似風格的音樂,可以點擊旁邊的“做同款”按鈕,只需填寫歌詞就能再生成一首不一樣的歌曲了。
從目前的結果來看,天工SkyMusic可以支持生成80秒左右時長的歌曲;不過一個好消息是,昆侖萬維表示馬上就會開放3分鐘版本了~
而也正如剛才所言,天工SkyMusic是國內首個“音樂版Sora”,并且也取得了不錯的效果。
如此又快又穩(wěn),昆侖萬維又是如何做到的呢?
全球首個公開的技術路線
在AI生成音樂這件事上,即使是像Suno、Udio這樣掀起熱潮的玩家,也同Sora一樣,并沒有公開其背后的技術細節(jié)內容。
但值得一提的是,昆侖萬維此次不僅是把AI生成音樂的產品給發(fā)布出來這么簡單,更是做到了在技術上的“全球首家公開”。
在聊SkyMusic關鍵技術之前,我們需要了解的是,AI音樂生成從技術角度來看,可以分為兩大流派:
符號音樂生成路線大模型音樂音頻生成路線
符號音樂生成比較典型的技術就是MIDI(Musical Instrument Digital Interface,樂器數字接口),通常需要先對大量的樂譜做標注的工作,再對模型進行訓練。
其結果最后得到是樂譜,而并非是真正意義上的音樂,還需要其它的工具來對樂譜做“善后”的工作。
雖然此前學術界也嘗試了在MIDI這樣的技術基礎上,后期加入人聲、樂器、旋律、音色等元素,但所得到的結果并不是非常理想。
而天工SkyMusic選擇的大模型音樂音頻生成,則是與之截然相反的技術路線——
是通過直接地學習來生成音頻波形,并做到把樂器、人聲、旋律、音量、音符等等元素都“一鍋出”。但這條路線需要大量的研發(fā)投入和資金支持,讓大多數人望而卻步。即使強如Google、Meta等科技巨頭,目前也沒有發(fā)布在這條路線上的突破性成果。
同時,這條路線又分為Song、BGM、Speach三個細分領域;由于行業(yè)內普遍都在研究無人聲的BGM領域,導致行業(yè)內對有人聲的Song領域近乎沒有很好的解決方案,更沒有開源的方案可借鑒。
也正因如此,音樂屆的“Sora時刻”才會來得比圖像和視頻更晚一些。
為了解決這兩個老大難的問題,昆侖萬維自研出一套架構來解決,它主要由Encoder、DiT和Decoder三個模塊組成
具體而言,其采用的架構可視為音樂音頻領域的類Sora模型:
Large-scale Transformer:負責譜曲,來學習Music Patches的上下文依賴關系,同時完成音樂可控性;Diffusion Transformer:負責演唱,通過LDM讓Music Patches被還原成高質量音頻。
這也是天工SkyMusic能夠支持生成80秒44100Hz采樣率雙聲道立體聲歌曲的關鍵所在。
在我們與昆侖萬維的交流中,研究人員進一步表示:
從效果中來看,天工SkyMusic在音樂中的咬字(尤其是中文)、情緒、技巧等元素的效果也是達標的。
昆侖萬維董事長兼CEO方漢和新火種CEO孟鴻在昨天的對話直播中,便現場展示了比較有意思的幾個曲子。
例如把《道德經》和寶媽一天的“吐槽”喂給天工SkyMusic,它生成的音樂是這樣的:
再如一位老人給孫女以征婚啟事為主題生成的歌,和吐槽購物“買買買”的歌:
嗯,確實有點意思。
而天工SkyMusic的優(yōu)異表現,源自他背后優(yōu)異的底座大模型——天工3.0。
天工3.0已經發(fā)布,直接拿下兩個業(yè)界之最:
最大規(guī)模:4000億參數的開源MoE大模型國內第一:中國首個音樂AIGC SOTA(State of the arts,領域內最高水準)
先來看下天工3.0大模型在全球權威多模態(tài)性能測試基準MMBench上的評分:
在全球權威多模態(tài)性能測試MMBench和MMBench-CN的評估中,天工3.0不僅在A屬性推理、關系推理、細粒度感知-交叉實例、粗略感知四項性能拿下第一,綜合評分更超越GPT-4V、Gemini Pro等知名文本大模型。
同時昆侖萬維還將將天工3.0“上架”自家的天工APP。
效果怎么樣?一言蔽之:
更聰明:技術知識能力提升20%,數學/推理/代碼/文創(chuàng)能力提升30%更獨立:獨立規(guī)劃、調用、組合外部工具及整合信息來完成復雜需求更全能:提升了專項Agent應對復雜需求的能力多才多藝:內容創(chuàng)作能力全面升級,包括搜、寫、讀、聊、說、畫、聽、唱
例如“弱智吧Benchmark”難不倒天工大模型:
在AI搜索方面,天工3.0APP在調用能力上做了增強,甚至在“研究”模式下還能自動生成大綱、圖譜、思維導圖等內容。
以搜索“AIGC產業(yè)發(fā)展”為例,現在的打開方式可以是這樣的:
在大火的Agent技術方面,天工3.0也專門開設了“智能體”廣場,用戶可以自行構建專屬的超強AI智能體,也可以在廣場中pick自己想要的那一個。
以工作、生活都比較常用到的“擴圖”為例,只需要丟給它一張圖并提出要求,智能體就能生成4種不同的擴圖效果。
總而言之,現在的天工3.0整體體驗的最直觀感受就是面面俱到,最前沿、最fashion的技術和應用統(tǒng)統(tǒng)都可以擁有。
最后,對于國內首發(fā)“音樂版Sora”這事,還有個話題值得聊一聊:
為什么是昆侖萬維?
自從Sora問世引爆全球AIGC大熱潮以來,昆侖萬維絕對稱得上是眾多入局百模大戰(zhàn)選手中的黑馬。
此前,或許很多人對于昆侖萬維的印象還停留在“游戲”、“出海”,但現在,“AIGC”已然成為它最鮮明的標簽。
深入探究昆侖萬維在AIGC領域的發(fā)展歷程,我們可以清晰地看到其迅猛的發(fā)展步伐。
就在Sora發(fā)布僅一個月后,2022年12月,昆侖萬維便發(fā)布了自主研發(fā)的全系列AIGC算法及模型,這套模型不僅具備先進的文本對話功能,還覆蓋了圖像生成、音樂創(chuàng)作、文本理解等多個模態(tài)領域。
從起步開始,昆侖萬維就把“格局打開”,劍指多模態(tài),而這正是今年AI產業(yè)最火熱的賽道之一。
2023年4月17日,昆侖萬維正式發(fā)布其自研的千億級大語言模型“天工”,并于同年7月在天工APP上線。緊隨其后,8月又推出了國內首款AI搜索產品——天工AI搜索,成為首批將AI大模型直接推向市場并服務于C端用戶的企業(yè)。
在這場“AI一日,人間一年”的產業(yè)競賽中,昆侖萬維并沒有安于現狀,而是持續(xù)死磕技術:從公開測試多模態(tài)大模型Skywork-MM,到開源百億參數級別的大語言模型天工Skywork-13B系列,繼而又推出天工SkyAgents平臺,并在今年2月,將國內首個采用MoE架構的大語言模型天工2.0免費向全社會開放。
而現在,正值天工大模型發(fā)布一周年之際,昆侖萬維在2個月內將其迭代到3.0版本,再次拿下兩個業(yè)界之最。
至此,也就不難回答“為什么是昆侖萬維”這個疑問。因為昆侖萬維始終堅守并踐行“All in AGI 與 AIGC”戰(zhàn)略,憑借敏銳的前瞻性和高效的行動力,始終站在AIGC技術發(fā)展的最前沿。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。