首頁 > AI資訊 > 最新資訊 > 騰訊進軍文生視頻賽道但大規模商業化還需要時間

騰訊進軍文生視頻賽道但大規模商業化還需要時間

界面新聞    2024-12-05

  繼快手可靈、字節即夢之后,騰訊混元大模型也在12月3日宣布上線文生視頻(text-to-video)能力。目前,C端用戶可通過騰訊元寶APP申請試用,企業客戶通過騰訊云提供服務接入,API同步開放內測申請。

  文生視頻是騰訊混元大模型繼文生文、文生圖、3D生成之后的又一次業務拓展嘗試。與多數廠商不同的是,騰訊選擇開源該視頻生成模型,其參數量達到130億,也是當前最大的視頻開源模型。

  這一新功能的操作界面并不復雜。用戶只需要輸入一段描述,即可生成一段5秒時長的視頻,目前支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。

  目前主流平臺支持的免費文生視頻體驗多在5~6秒之間。騰訊混元的多模態生成技術負責人凱撒表示,視頻時長并非技術挑戰,而是算力和數據挑戰。因為每當時長擴長一倍,算力也將呈平方級上升,在成本上并不劃算。大部分影視劇或剪輯作品都是不同鏡頭的拼接,因此第一版將優先滿足基本需求,如果未來有更強烈的長時間鏡頭需求,再做升級。

  凱撒介紹,混元視頻生成模型基于與Sora類似的DiT架構,并在架構設計上進行了多處升級,包括適配了新一代文本編碼器提升語義遵循,能夠更好地應對多個主體描繪。此外,它的一個代表性特色是,能夠實現在畫面主角保持不變的情況下自動切鏡頭,這是目前業界大部分模型所不具備的能力。

  2024年2月,OpenAI發布的文生視頻大模型Sora點燃了文生視頻賽道。不過, Sora目前并未對普通用戶開放,而是僅將測試資格開放給了視覺藝術家、設計師和電影制作人。一種解釋是,考慮到今年的美國大選,OpenAI希望竭力避免安全風險,希望在大選之后再全面對外開放。

  而在Sora尚未徹底“亮活”之前,中國廠商已經表現得頗為積極。快手可靈、字節即夢、Minimax旗下海螺AI、阿里巴巴通義萬相等都是文生視頻領域的代表產品,其中不少已經開始進軍海外,并且推出了較為完備的會員付費體系,快速進行商業化變現。

  考慮到算力及數據成本之高,商業化同時是所有相關產品難以避免的話題。騰訊同樣為混元設計了商業化路徑。由于混元視頻生成模型具有高畫質優勢,可用于工業級商業場景例如廣告宣傳、動畫制作、創意視頻生成等場景。

  但由于技術尚未足夠成熟,目前市面上的文生視頻模型仍然存在一些缺陷。例如生成視頻在畫質、細節、真實感等方面仍與真實視頻存在差距,且用戶對視頻生成過程的控制能力有限,只能通過修改文本提示來間接影響視頻生成效果,而文本與視頻的語義匹配度不足,也會導致生成效果不及用戶預期。

  “我們確實看到很多產品和模型有先發優勢,但自己做的時候卻發現,現在視頻生成、尤其是是文生視頻領域成熟度遠沒有大家想象的那么高。失敗率很高,抽卡太多了。”凱撒表示。“抽卡”指的是文生視頻效果不穩定,用戶需要多次嘗試才能得到符合自己期望的滿意畫面,就像抽獎一樣碰運氣。

  這也是騰訊并不急于商業化的原因。凱撒認為,文生視頻技術還沒有到大規模商業化的程度,仍在技術打磨階段。因此,騰訊決定在這一階段推出文生視頻模型并將其開源,讓更多開發者來使用并基于騰訊混元系列打造應用及服務,也只有更多人來使用,才能更快地將技術推向成熟。

(文章來源:界面新聞)

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章