首頁 > AI資訊 > 最新資訊 > 到處都能刷到的AI視頻真沒你想的那么簡單

到處都能刷到的AI視頻真沒你想的那么簡單

新火種    2024-10-18

“疑似使用了AI生成技術,請謹慎甄別”

大家有沒有發現,這行小字有點像“廣告僅供參考, 請以實物為準”,已經幾乎在生活中越來越常見了。

特別是現在的短視頻平臺。

刷到個小貓視頻,口型是 AI 合成的。

刷個西游記,也能看到 AI 妖精真身。

到處都能刷到的AI視頻 真沒你想的那么簡單

甚至看一個動畫片,畫面還總是 AI 合成的。

AI視頻越來越多了。

雖然掀起 AI 視頻浪潮的 Sora 還在難產,但 AI 視頻時代或許已經悄然而至。

東吳證券的一份研報里就預測,中國 AI 視頻生成的潛在行業空間,可能擁有超過 5800億元的市場。

但隨著市場不斷火熱,行業的一些問題也逐漸暴露到公眾視野:

視頻化和AI確實都是未來,但像是成本問題、質量問題、協同問題和性能問題,都縈繞在所有初創企業,大廠們的心頭。

到處都能刷到的AI視頻 真沒你想的那么簡單

就拿成本問題和質量問題為例。

大家都知道,目前的生成式大模型特別是視頻,就是一個力大飛磚的過程,需要用海量數據進行訓練。

而超大規模視頻訓練數據,又會對計算和處理數據、以及數據本身有著天量需求,隨之而來的成本增加是一個天文數字。

到處都能刷到的AI視頻 真沒你想的那么簡單

GPT-4o作為一個老款AI,開發成本“僅”為1億美元,訓練成本大概在 7800萬美元左右。

而視頻模型的訓練成本就更高了,以年初推出的視頻模型Sora為例,其訓練和推理所需的算力需求,分別就達到了GPT-4的4.5倍和近400倍。。。

除了天價訓練成本外,大模型訓練樣本質量、處理鏈路復雜,涉及多個環節,需要多團隊協作;自研/第三方, GPU 、 CPU 、 ARM 等多種異構算力資源,又需要靈活調度部署。。。

所以,對不少準備擁抱 AI 視頻的公司們來說,當務之急就是想盡辦法,解決這些問題,才能更快地進化。

要論玩視頻的高手,抖音和火山引擎可就有話說了。

上個月底字節推出的爆火的 PixelDance ,效果那是杠杠的。

我們當時還寫了篇文章專門給大家嘮了遍,就看我們簡單試用生成的視頻效果,就知道還真有點東西喔。

到處都能刷到的AI視頻 真沒你想的那么簡單

而在 15 號結束的火山引擎視頻云技術大會上,開場用了定制數字人譚待來和大家溝通。

結果效果好到,現場參會者們,不少都以為這是視頻摳圖。

而這些高質量 AI 產出背后,其實離不開一個叫BMF的智能框架。

火山引擎通過和自家大模型團隊在內部合作,一起把海量的視頻數據進行預處理。

最后基于火山引擎音視頻處理平臺和 BMF 框架,在短時間內生產了足夠多高質量的視頻素材,用于模型的訓練,才有了 PixelDance 。

功臣之一的 BMF ,為什么能夠做到這些呢?

到處都能刷到的AI視頻 真沒你想的那么簡單

我們用個生活中常見的例子來解釋:

一個公司開發大模型就好比你家做年夜飯。

為了吃上一頓豐盛的年夜飯,你爸爸負責買菜、媽媽燒飯、奶奶包餃子、你搬桌椅板凳。。。

所有人都得有分工,從頭忙到尾,可能還得時不時打個電話發個微信互幫互助,最后一算,好家伙,原來吃頓年夜飯還得花這么多錢。

而BMF就是火山引擎推出的一個“年夜飯一鍵全流程套餐”,它提供了一系列的工具和服務,幫你輕松、快捷地準備好年夜飯。

這個套餐重點針對性地解決了我們前面說到的 4 個行業痛點,進行了相應的調整。

到處都能刷到的AI視頻 真沒你想的那么簡單

比如為了解決視頻訓練數據質量問題,他們掏出了多種算法對視頻進行多維度的分析和篩選,做到了充分精細化的過濾;

應對性能難題,他們又利用BMF框架的靈活調度,提前調配好了性能。

這就相當于準備年夜飯一早就做好了攻略,買菜交給了多多買菜送貨上門、燒飯找了五星級大廚專門掌勺、桌椅板凳安排了專門的小工打雜。。。

反正就是用了BMF這套框架,又便捷又省心又省錢。

到處都能刷到的AI視頻 真沒你想的那么簡單

搞定了企業這邊的需求,火山引擎也沒忘了大家伙。

如今,大家設備的算力不斷上漲,與之而來的就是對視頻畫質提升的強烈需求。

火山引擎通過得天獨厚的優勢,每天在抖音/西瓜等 app ,面對上億用戶,處理海量視頻圖片。

獲得了這么豐富的經驗之后,火山引擎在BMF基礎上,沉淀出了一個更適合普通用戶體質的“BMF lite”,實現了更輕量、更高效、更通用的進化。

到處都能刷到的AI視頻 真沒你想的那么簡單

比如相較于云端,在用戶端側,對于功耗,內存非常敏感,而場景又涉及 Android 、 ios 、 PC 等多平臺。

于是 BMF-Lite 就重點建設基于跨平臺,資源復用的算法包的框架設計。

簡單說就是統一了各個平臺的接口形式,方便集成部署。

再用算法控制器來復用相同的算法實例,在抖音播放場景,點播跟直播播放大部分都是只會生效一個,可以最大程度地復用資源。

到處都能刷到的AI視頻 真沒你想的那么簡單

而除了BMF為代表的智能框架,火山引擎還提出了智能算力和智能編解碼。

火山引擎直接在去年掏出了一款自研視頻轉碼芯片,將自研的視頻編解碼技術融入到了里面。

好處就是,針對視頻點播、直播等特定場景,這款轉碼芯片有著更高的計算密度。

就這么說吧,一套視頻編解碼芯片服務器的轉碼能力,相當于上百臺CPU服務器。

到處都能刷到的AI視頻 真沒你想的那么簡單

今天視頻轉碼芯片上線抖音后,通過實踐數據表明,在同等視頻壓縮效率下,成本能節省 95% 以上。

而針對編解碼層,火山引擎推出了基于自研視頻轉碼芯片構建的“BVE1.2 編碼器”。

這個編碼器大膽融合了深度學習技術,推出了革命性的智能混合編解碼解決方案,將傳統壓縮技術與深度學習壓縮技術有機融合成為一個整體,極大地提升了編解碼的效率,提升了編碼性能。

到處都能刷到的AI視頻 真沒你想的那么簡單

在前不久結束的的第六屆深度學習圖像壓縮挑戰賽( CLIC 大賽)中,“BVE1.2 編碼器”拿到兩個冠軍足以說明實力。

這一套小組合拳下來,感覺有興趣的廠商們,估計滿腦子都是“付款碼掃哪兒”?

你還別說,火山引擎也的確沒打算藏著掖著。

像前面說的 BMF 框架,早在去年就已經開源了,更新完的 BMF lite ,也是直接開源。

到處都能刷到的AI視頻 真沒你想的那么簡單

總的來說,目前,大模型的進化還在持續,視頻 AI 公司之間的競爭也只會日益激烈。

但如果大家只是閉門造車,互相拿成果比拼,用產品說話,可能會顯得競爭有余、合作不足。

而作為可能是全中國短視頻玩得最熟練的字節跳動,他們旗下的火山引擎一次次地將內部技術、框架開源。

特別帶來的 BMF 框架以及它和智能算力和智能編解碼組成的一整套智能底座,的確能夠幫助企業們節約了大量時間和成本,更好地幫助 AI 項目落地發展。

這種競爭和合作共存的態度,才是中國 AI 最樂意見到的場面。

一枝獨秀難成林,萬紫千紅才是春。


Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章