首頁 > AI資訊 > 最新資訊 > 我用豆包,生成了AI版《紅樓夢》MV

我用豆包,生成了AI版《紅樓夢》MV

新火種    2024-10-06

要論最近最火的AI視頻生成模型,無疑就屬字節豆包了。

也就是字節一口氣亮出的PixelDance模型和Seaweed模型。

而且大家都說效果好,那這不就得親自測試一波嘍,而且是直接上難度的那種——

最近抖音里很多人都在模仿林黛玉哭泣,我們不妨用“全字節系的AI”來制作一支《紅樓夢》的MV。

然后啊,效果簡直就是一個大寫的萬萬沒想到!話不多說,直接展示成果:

不論是生成的多人物、畫面的質量,甚至是故事情節,豆包的視頻可以說是相當有《紅樓夢》那味兒了。

而也正如剛才提到的,打造這支MV背后的AI,統統都是字節系。

現在我們就來一一拆解細節步驟。

第一步,用豆包查詢《紅樓夢》中的經典片段原文,作為生成圖片的Prompt。

例如王熙鳳出場的名場面,豆包給出了這樣的答案:

我用豆包,生成了AI版《紅樓夢》MV

第二步,我們直接用《紅樓夢》中的原文片段,“喂”給字節的即夢,讓它先生成一幅畫。

例如我們采用的Prompt是:

我用豆包,生成了AI版《紅樓夢》MV

所有生成的圖片如下所示:

我用豆包,生成了AI版《紅樓夢》MV我用豆包,生成了AI版《紅樓夢》MV我用豆包,生成了AI版《紅樓夢》MV我用豆包,生成了AI版《紅樓夢》MV我用豆包,生成了AI版《紅樓夢》MV我用豆包,生成了AI版《紅樓夢》MV

第三步,將生成的圖片丟給豆包PixelDance模型,再附上一句Prompt,讓它生成視頻片段:

(當然,也可以繼續寫出更多的動作。)

采用相同的方法,逐個生成其它視頻的片段。

再例如下面這個片段,Prompt是這樣的:

第四步,用基于豆包音樂模型的海綿音樂,生成1分鐘的視頻BGM,而且Prompt極其簡單:

一曲《夢斷紅樓殤》就誕生了:

我用豆包,生成了AI版《紅樓夢》MV

第五步,將最終的6個視頻和BGM統統導入字節的剪映,對視頻做一個剪輯,就大功告成了!

我用豆包,生成了AI版《紅樓夢》MV

不難看出,現在已經是人人都可以打造MV了,并且步驟和方法也相當簡單,只需聯動一下字節系的AI們:

豆包(豆包語言模型)、即夢(豆包文生圖模型)、豆包視頻生成模型PixelDance、海綿音樂(豆包音樂模型)、剪映。

我用豆包,生成了AI版《紅樓夢》MV

而在整個過程中,視頻生成,無疑是最為關鍵的步驟。

但有一說一,AI版《紅樓夢》中的視頻片段,還并沒有完全展現豆包PixelDance模型的全部真實實力。

視頻生成,已經步入影視級

這次豆包在發布視頻模型之際,把它的能力歸結為了四個點:

精準的語義理解,多動作多主體交互強大動態和炫酷運鏡并存一致性多鏡頭生成多風格多比例兼容

或許光看文字不能很直觀地感受,接下來我們就一一對這四個特點做深入解讀。

精準的語義理解,多動作多主體交互

若是縱覽目前市面上的視頻模型,其實大多數產品只能完成簡單指令單一動作,而豆包PixelDance模型可以說是把AI對于Prompt的理解能力拉上一個高度。

不僅如此,豆包PixelDance模型還能把故事延展開來(時序性多拍動作指令),以及哪怕參考圖片中沒有的人物,也可以通過語言的方式生成。

例如下面這段Prompt:

最初的圖像僅有小朋友的臉,但生成的視頻很好的滿足了Prompt中的所有要求。

再如:

由此可見,不論Prompt多復雜,豆包PixelDance模型是可以hold住的。

強大動態和炫酷運鏡并存

復雜的動態和運鏡,也一直是視頻生成的難點之一。

這是因為真實的動態往往涉及到對物理規律的準確模擬,在復雜動態場景中,多個物體的相互作用會使物理模擬變得極為復雜。

對于人物的動作,還需要模擬人體的關節運動和肌肉變形。

復雜的動態和運鏡通常會帶來光影的變化,而準確地計算光影效果是一項艱巨的任務。光線的傳播、反射、折射等現象都需要進行精確的模擬。

動態場景中的光源也可能是變化的,如太陽的位置隨時間變化、燈光的閃爍等。這就需要實時計算光線的強度、顏色和方向,以確保畫面的光影效果真實自然。

而這些種種的挑戰到了豆包PixelDance模型這里,似乎就不再是難事。

例如在下面這個視頻中,男子在沖浪的過程被生成的可謂是相當逼真,就連浪花、光影、人的動作、發絲等等,都與現實非常貼近:

再如下面這個快速穿越自然的場景,光影的交錯、物理的規律都拿捏的非常精準,宛如科幻大片的片段:

一致性多鏡頭生成

一致性和多鏡頭,同樣也是此前AI視頻生成被人們詬病的一點,甚至人類都開始模仿起了AI們的鬼畜。

例如本來上一個畫面還是人物A,下一個畫面就變成了人物B,甚至連性別和物種都有可能被篡改……

那么豆包PixelDance模型的表現又是如何呢?我們直接來看效果:

第一個畫面是小女孩面對死神,鏡頭一轉給到女孩的時候,豆包PixelDance模型生成的內容不論是發型還是著裝等細節,都保持了一致。

即使面對更加復雜的場景、鏡頭切換,也是沒有問題:

多風格多比例兼容

當然,風格的多變,是每個視頻生成模型的“必修課”,豆包PixelDance模型也是如此。

例如黑白大片風:

我用豆包,生成了AI版《紅樓夢》MV

再如日漫風格:

而且從這兩個例子中,我們也不難發現豆包PixelDance模型對于生成視頻的比例也是可控的。

更具體而言,豆包PixelDance模型支持包括黑白,3D動畫、2D動畫、國畫、水彩、水粉等多種風格;包含1:1,3:4,4:3,16:9,9:16,21:9 六個比例。

嗯,是一個多變且較為全能的選手了。

那么接下來的一個問題是:如何做到的?

對于豆包視頻模型的能力,在發布會上,針對剛才我們所展示的前三項能力,分別對應的技術是這樣的:

我用豆包,生成了AI版《紅樓夢》MV

高效的DiT融合計算單元、全新設計的擴散模型訓練方法,以及深度優化的Transforemer架構,便是“煉”出豆包PixelDanca模型背后的三大技術殺手锏了。

不過對于各個視頻生成產品的效果,“什么樣的才算好?是否有什么標準?”這一問題,在新火種與火山引擎總裁譚待交流過程中,他表示:

不只有視頻模型

除了豆包視頻模型之外,這次字節還發布了2個重磅產品。

首先就是豆包音樂模型。

正如我們給AI《紅樓夢》做BGM時所演示的那般,生成歌曲,Prompt只需簡單的幾個字就可以,只要關鍵字到位,那么歌曲的情感也能精準拿捏。

除此之外,豆包音樂模型還提供了10余種不同的音樂風格和情緒的表達,人聲也幾乎與人類無異。

我用豆包,生成了AI版《紅樓夢》MV

其次就是豆包同聲傳譯模型。

這個模型的效果可以說是媲美人類的同傳了,可以邊說邊翻譯,實時溝通完全沒有障礙;而且在翻譯的準確性和人聲自然度方面也是更上一層樓,可以很好的應用在各種需要同傳的場景。

最后,豆包通用模型的能力,這次也得到了大幅的提升:

我用豆包,生成了AI版《紅樓夢》MV

至此,字節的豆包大模型家族就變得更加壯大了起來,可以一起來看下現在的全景圖:

我用豆包,生成了AI版《紅樓夢》MV

然而,陣容的龐大還是只是一面,更重要的是,豆包家族的模型們是已經被廣泛地使用了。

據了解,截至到9月,豆包大模型的日均tokens使用量已經超過1.3萬億,4個月的時間里tokens整體增長超過了10倍。在多模態方面,豆包·文生圖模型日均生成圖片5000萬張,此外,豆包目前日均處理語音85萬小時。

這組數據也從側面反映出了模型的效果,畢竟只有好用才能會被大眾所接受;這也再次印證了豆包模型最初發布時所提出的那句“只有最大的使用量,才能打磨出最好的大模型”。

也可以視為豆包“左手使用量,右手多場景”的方式反復打磨后的一次正確的驗證;而在驗證過后,字節此次也亮出了他們在大模型上的發展之路,即先To C,再To B。

正如譚待所說:

不僅如此,隨著大模型價格戰的拉響,豆包模型的價格也是一降再降,由此也可以預見大模型發展的一種趨勢——

成本已不會阻礙創新之路。

那么對于豆包模型接下來的發展,是值得期待一波了。

One More Thing:

說到“全字節系AI”,除了做AI版《紅樓夢》MV的工具全是字節產品之外,這篇文章還是在飛書里寫的。

我用豆包,生成了AI版《紅樓夢》MV

最后,一句土味“情話”ending本文:

字節大舞臺,有AI你就來~

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章