首頁 > AI資訊 > 最新資訊 > 半年打造出國產AI視頻生成利器,字節前視覺技術負責人王長虎交出答卷

半年打造出國產AI視頻生成利器,字節前視覺技術負責人王長虎交出答卷

新火種    2024-03-14

2023年4月,王長虎加入了AIGC創業大軍成立了愛詩科技。

在此之前,畢業于中科大的王長虎有著13年的微軟研究院工作經歷。2017年加入字節跳動,在職期間組建了字節AI Lab視覺技術團隊,擔任集團視覺技術負責人,參與抖音和TikTok等產品從0到1的發展、搭建字節跳動視覺算法平臺和業務中臺、主導字節跳動視覺大模型從0到1的建設。

23年之前,他雖然也考慮過創業,但時機尚不成熟,生成式AI技術的進步還不足以對社會產生顛覆性影響,直到Stable Diffusion、ChatGPT的出現,王長虎就意識到新的AI時代到來了—— 因為C端的用戶數說明了一切,ChatGPT兩個月就達到一億月活,超過了TikTok的記錄。「這次創業是受時代和內心的雙重感召,此刻就是最佳的時機。」

在2023年上半年國內市場瘋狂卷大語言模型的背景下,王長虎堅信無論是過去、現在、未來,視頻都是最重要的內容,AI視頻生成如果能夠做好,一定會從根本上改變人們創作和消費視頻的范式,是個真正的大機會。因此,王長虎繞開了NLP大模型這個最火的創業領域,做自己熟悉、感興趣的視覺大模型。

4月,王長虎找到現在的合伙人、之前在光源資本TMT/AI方向負責人謝旭璋,并拿到超過五千萬的天使輪融資,隨即宣布成立了新公司「愛詩科技」(AIsphere)。6月,數名核心人員就位,明確了做視頻生成的方向,7月便開始訓練大模型。

接下來半年的時間里,愛詩科技處于從0到1的攻堅期,并沒有什么大動作,很少出現在公眾的視野中。

直到2024年初,在海外一款名為PixVerse的AI視頻生成產品短時間內獲得海外用戶的高度評價,并有許多優秀海外創作者自發使用PixVerse創作出了高質量、高熱度的“大片”。

AI影視探索者閑人一坤用PixVerse制作《山海奇鏡》,自1月初發布后在全網達到近百萬的播放量。

AI科技評論獲悉:PixVerse是AIsphere(愛詩科技)旗下的海外AI視頻生成產品,現已在國外社區上線,國內產品也即將上線。

AIGC風起云涌,AI視頻生成追夢者不斷,王長虎就是其中之一。

在他看來,盡管生成式AI時代已經到來,但新時代孕育的機會不僅是眼前所能見到和可預期的,技術端和用戶端的共同探索將會帶來更大的機會和顛覆性改變。

不輸Pika的AI視頻生成效果

2023年下半年,AI視頻生成領域「如火如荼」。

Runway推出了動態筆刷新功能Motion Brush,用戶只需在圖片上輕輕一劃,即可將其轉化為動態視頻;

Stability AI發布了Stable Video Diffusion視頻模型,創作者可根據需要調整迭代步數、重繪幅度等各種參數,以協助創作者精確掌控畫面生成過程;

除此之外,Meta推出了兩項AI視頻編輯新功能,Midjourney也正在著手開發視頻功能;而在開源方面,AnimateDiff、MAKEAVIDEO、MagicAnimate等也在布局AI視頻生成賽道。

其中,最出圈的非Pika莫屬。Pika 1.0官方宣傳視頻中,諸多用戶用「驚艷」來形容其效果,更有“AI生成視頻的ChatGPT時刻即將達來”的說法。

但其實,Pika創始人孟晨琳曾表示,目前AI視頻生成產品處于類似GPT-2的時期。

事實也是如此,AI視頻生成最大的劣勢,是畫面的豐富度不夠——在生成的視頻中,更多只能呈現嘴部或局部動作,很難整體動起來,這也是各家產品嘗試解決的問題。

AI科技評論用同樣的Prompt輸入目前幾款主流產品,嘗試獲得直觀對比。

從結果上看,愛詩科技生成的視頻不僅扎克伯格的形象更加精準,動作也相對協調,并且可以人物走起來,畫面的延伸程度較高。

王長虎表示,愛詩科技希望未來能夠做到在15秒時長內的視頻中呈現更多的信息量,而非只是讓畫面主體輕微晃動3秒、5秒,讓視頻承載更多有意義的信息,并符合用戶的期待才是核心的。

并且,清晰度、準確性等維度也是愛詩科技主要的發力點,現可以達到4K的分辨率。

視頻中,貓?朵?的運動被清晰地體現出來,同時貓墨鏡中的反射畫面也隨著動作變化。

在這一視頻中,?臉的各個細節得到了還原,頭發絲也清晰可見。

愛詩科技認為,做AI視頻生成產品,最重要的,是讓每個人的簡單創意都能成為作品。

這也意味著,面對用戶五花八門的prompt,只有保持較高的魯棒性、穩定輸出精準畫面,才算是成功。基于這樣的優先級,自然而然會影響愛詩背后數據采集、模型訓練、特定功能路線的選擇。

愛詩科技從7月開始訓練模型,經過三四個月的打磨,產品效果已經不輸同為「模型+應用」模式的視頻生成產品Runway和Pika。

「我們想把整個行業的標準拉得更高一點。」王長虎表示。

脫胎于頂尖視覺團隊的技術能力

在AIGC時代,視覺內容也依然會是最主要的消費載體。

回顧過去,從PGC發展為UGC的過程中,誕生了抖音、快手等現象級的產品。而今走在從UGC跨越到AIGC的路上,勢必也會帶來大量的機會。

王長虎認為,UGC到AIGC,變的是U和AI,最主要的視覺難題不盡相同,但系統性地解決視覺問題所需要的核心技術能力卻一脈相承。

以抖音為代表的短視頻產品舉例,其成功離不開一系列視覺技術能力:對于短視頻特效精準穩定的高效生成、對海量視覺數據的精確清洗和標注、對視頻的低延遲抽幀和安全檢查、對關鍵內容近乎完美的準確識別等。

這一系列技術支撐了短視頻成為UGC時代的核心媒介,并且成為解決AIGC時代視覺生成上準確性、一致性、豐富度等難題的重要基石。

而這些,正是愛詩科技的優勢之一——擁有上一時代全球頂尖視覺技術能力的操盤經驗,沉淀下了硬核的技術能力,工程化能力也足夠強。「這也是我們對于AI視頻生成這件事的信心來源。」王長虎說到。

在抖音、TikTok這種數據量極大、用戶量極高的產品上,所遇到的每一個問題都是「世界級」難題。過去和視頻相關的數據、算法、工程等方方面面問題,愛詩的團隊都遇到過,并且成功攻克,而這些經驗能力可以在一定程度上直接復用。

現在來看,要想做一個好的AI視頻生成產品,需要下面有一個基座的、動態的大模型,數據是其中重要的方面之一,但數據采集并不會構成真正的壁壘,如何做好數據的清洗、篩選等數據處理能力更加重要。

并且,在資源有限的前提下,并不是所有數據都可以用。在強數據處理能力的加持下,愛詩科技會通過AI能力自動找到最優質的那一部分內容,這部分可能只有競品模型1/ 10的體量。如此一來,就有機會用更少的成本、更少的資源,更快地做出更好的模型。

同時,愛詩科技的核心團隊曾經用AI解決了抖音和TikTok這些國民級產品的內容安全問題,因此也能很大程度增強視頻生成的安全性。不管是用戶惡意引導生成的違規數據,還是大模型初期被灌進的臟亂差數據,愛詩科技有能力在海量數據里面把這些內容識別出來,降低對模型質量的干擾程度。

除此之外,愛詩也關注視頻生成的可控性問題,探索如何把運動的世界更好地建模,實現對運動中的人體和物體更精準的控制等。

另一方面,初創科技企業算力有限,把有限的資源用到極致,提高效能以減少訓練和推理的時間,就尤為關鍵——這正是是愛詩團隊從過去的經驗中打磨出的經驗和優勢。

王長虎告訴AI科技評論,在字節,面對像春節發紅包這樣一個時間點,流量可能是平常的數十倍甚至上百倍,需要在不添加額外資源的情況下確保服務器的穩定、不能影響用戶的體驗,這就需要極強的推理效率和工程架構能力。

在字節期間,王長虎帶領的團隊支撐了抖音TikTok等數十個產品和場景的視頻AI能力。模型訓練和推理需要巨大的GPU資源,更重要的是如何用好這些算力,這其中包括模型增效、模型壓縮等技術都是至關重要的。哪怕1%效率的提升,可能意味著節省數百塊GPU。因此,所有技術都需要做到極致。

映射在現在做視頻生成模型的事情上,這種能力能幫助愛詩團隊用更少的資源做出更多的事。比如原來一個視頻生成可能要一分鐘,具備這一能力后就可以用更少的時間完成,這意味著它占用GPU的時間更短,如此一來,同樣的算力可以生成更多的視頻。

「視頻生成并不是像文生圖那樣堆資源和算力就行,在特定的時間內,不僅關乎你的資源有多少,也考驗資源受限下如何更好地建模、更好地解決問題。」王長虎認為。

不同于LLM已經相對明確的發展路徑,AI視頻生成還停留在技術突破的階段。面對諸多的技術挑戰、更高的用戶期待,王長虎表示這也是令愛詩團隊興奮的一個點,解決未來一個階段的問題,視覺大模型會有更大、更快的爬坡階段。

對話王長虎

AI科技評論:在當初創業的節點上,為什么選擇做視覺大模型?

王長虎:我們開始做這件事情的時候,整個市場還是很冷的,很多人會覺得視頻生成太遙遠。但由于我們這個團隊一直在做視頻,所以我們對視頻生成有一個自己的認知——未來AI生成視頻會有一個快速的發展和爆發期。

過去這半年的發展其實是符合我們預期的,這幾個月,越來越多的目光關注到我們,越來越多的同行參與進來,這印證了我們之前的判斷。

AI科技評論:是什么促使你選擇做AI視頻生成?

王長虎:首先,過去幾年我們是伴隨抖音TikTok這些國民級短視頻成長起來的,我們對視頻有深刻認知,視頻在過去、現在和未來,都是最重要的一類內容,會帶來巨大的機會。可能過去幾年,并沒有產生很多圖片類的國民級產品,但是視頻類產品更多,也是耳熟能詳的。視頻承載的內容更豐富,會帶來更多的產品想象力,所以我認為做視頻是更大的機會。

其次,NLP大模型,有chatGPT在前,文生圖大模型,有midjourney在前,所以NLP大模型、文生圖,國內更多是跟隨。而視頻領域,我們看UGC時代,最有影響力的視頻產品就是抖音和TikTok,是中國人做出來的,是領先全球的。因此,視頻生成領域,國內當然有機會比國外做的更好,抖音/TT背后的視頻AI技術,很多都是我帶著我的團隊做出來的,因此我們有天然的優勢。并且,與NLP大模型和文生圖大模型不同,視頻生成還在發展初期,我們有做成全球最好的視頻生成模型的機會。

AI科技評論:愛詩科技團隊做AI視頻生成有什么優勢?

王長虎:從根本上來講,建設視頻大模型,數據、算法和工程能力缺一不可,都有很多問題是需要解決。而我們在建設抖音和TikTok的視頻AI能力的時候,各種各樣的問題都遇到過和解決過,踩過無數的坑,解決過無數的世界難題,我們這個團隊具備這些能力。

而很多問題,我們的同行過去不一定遇到過,要解決問題可能還有不同的解決方案,有很多試錯成本,探索也會有時間成本,而在當前這個階段,時間是最重要的。

處理過抖音和TikTok這些全球范圍內最大的短視頻平臺的多種問題后,我們具備了多種能力,像多模態之間的對齊、更有效的視頻表征、多模態的表征,如何對視頻的時空進行建模、如何在有限資源情況下把算法做到極致等。這些就是過去我們一直在做的事情。

做視覺大模型,本身就不是一個單點,一個算法,一個paper就能搞定的,它是一個系統工程。我們團隊的核心的成員,處理過全球最大短視頻產品的每天數以億計的視頻數據,用視頻AI解決過抖音TikTok背后無數難題,解決過這些國民級產品背后成百上千個服務、數萬個GPU的工程問題。而這些能力很多都是做AI視頻生成大模型的基礎。

AI科技評論:愛詩科技團隊脫胎于國內頂尖的視覺團隊,和過去相比有哪些進步之處?

王長虎:創業和在大公司做事是不一樣的,最大的不同,是創業公司初期資源特別有限,沒有那么多試錯機會。而在字節,我們有機會從0到1把事情做成,踩過很多坑,積累了很多經驗和能力,這些經驗和能力對于初創公司至關重要。

我們認為現在做的事情其實是一件更大的事情。我個人經歷過好多時代,從零幾年那個時候的搜索時代,到之后的深度學習的時代,后來進到字節之后的UGC時代。UGC時代用戶生產內容的效率比PGC的效率更高,涉及的范圍也更廣,也帶來了更大的商業化機會,抖音、快手等短視頻平臺應運而生。

現在的不同之處在于,我們做的是AI,它生產內容的效率會更高。可以預見,AI生成視頻很快就會進入快車道,當生成視頻的質量足夠好、效率足夠高,那肯定會再開啟一個新的時代,那這個時代就有巨大的機會。現在很多革命性的產品過去都是人們所想象不到的,放在AI視頻這個賽道上也是同樣的。

對我們來說,這個時代會更加考驗我們的創造力,不管是模型層面的,還是產品、應用層面的。AI時代的這些人,也要像AI一樣更快的進化,團隊中的每一個成員都在快速地成長。

AI科技評論:現在來看,AI視頻生成產品正火爆,如何看待這一現象?

王長虎:做AI視頻生成,就像在做一個AI攝像機,但它不需要攝像頭這種硬件,不需要再去動畫工作室里面去創作,而是用AI直接生成視頻內容。 越來越多的人去做這樣一個AI攝像機,我覺得這是好事,可以快速能推動這個技術的成熟。其實更重要的是,一旦AI攝像機做成熟之后,背后帶來的新的、更大的機會。

回過頭去看移動互聯網時代,手機攝像頭越來越小,這種技術成熟之后催生了抖音、快手,極大地改變了人們的生活方式。我們目前具備最強的視頻生成能力,同時也期望抓住AI視頻生成帶來的更大的機會,所以,我們也特別歡迎同行能夠發展越來越快,一起促進行業進步。

AI科技評論:當下市場上不同的AI視頻生成產品有什么差異?

王長虎:每個公司都有自己的認知,也有自己的基因。像Runway生成的視頻,雖然有時候主體會動不起來,但看起來很有大片的即視感,這跟早期服務于很多專業創作者,跟服務于電影行業有關。而我們的基因是伴隨著抖音和TikTok成長,我們希望服務于每天玩抖音和TikTok的普通用戶。

所以,看似都是在做AI視頻生成,都是在做「攝像機」,但背后想要的東西不同,服務的用戶不同,然后產品化方向不同,這導致你在做的相機也會有區別。有人想做手機端上的相機,這就要求你一定要做得非常非常小,而有的人是在做單反。

AI科技評論:未來,AI視頻生成前進的方向是什么?

王長虎:我們期待有一天能做到實時的內容生成,可能現在我們生成一個視頻要幾十秒,未來的話希望能實時生成,這有可能徹底顛覆人們生產和消費視頻的模式。

現在我們跟視頻的交流是單向傳遞信息,不管是在電影院還是在網上看劇,不同人看到的都是同一個電影、同一個劇情。但如果能實現實時生成,意味著每個人在消費視頻的時候,都可以去影響里面的人物、劇情。AI生成能力使得內容能夠根據用戶的交互,去自適應地改變內容。秒級的生成意味著它就會實時對用戶的需求進行反饋,所以每個人看到的東西可能是不同的,消費的同時就在創造。

同時視頻本身,也可以知道每個人的喜好,他可以對每個人交互定制化地演繹劇情,因此一個視頻里面就擁有千萬個甚至數以億計的不同的劇情,它自己也可以進化了。那個時候視頻的生產和消費的方式就會是顛覆性的,視頻本身是也會迎來一個巨大的迭代,極大釋放創造力,視頻本身會有很多產品化的機會。

AI科技評論:要想達到實時生成,需要具備什么樣的條件?

王長虎:一是,生成的內容要反映用戶的意圖,生成東西是準確的;

二是,生成的內容一定要是逼真的,這里面的運動要復合物理規律,我們期待有一天生成的東西和真實的東西是很難去區分的;

三是,生成的內容要足夠豐富,真的能夠吸引人,當前產品的表現度都是不夠的;

四是,要讓用戶低成本控制視頻的生成;

五是,要實現高效地快速生成。

這幾個其實不僅僅是算法、工程問題,在本質上是一個資源有限的情況下如何高效解決問題的思考和實踐,這也是我們團隊很大的優勢。

AI科技評論:AI視頻生成將會給當下的社會帶來哪些可預見的變化?

王長虎:AI視頻生成從本質上來講可以極大地降低人們去創作視頻的時間的成本,并且各行各業也是有這樣的視頻生成的需求的。

同時,它有機會去改變原有的內容生成模式,顛覆之前的工作流。比如在影視創作的領域,有很多鏡頭演員拍攝的成本高、難度大、且具有一定的危險性,或者在廣告領域,有一些天馬行空的視頻,也是可以用AI去生成的,有很大的存量市場,帶來顯著的降本增效。

此外,短視頻的興起雖然大大降低了內容創作的門檻,但實際上,能夠真正輸出優質內容的用戶占比并不多,其中的門檻不在于拍攝,而在于創意。AI視頻生成如果降低創意的門檻,幫助用戶將靈感快速可視化、內容化,這也是一件非常有意義的事情。

AI科技評論:基于AI視頻生成會有哪些想象的空間,從業者應該如何做?

王長虎:當AI生成視頻能夠做到理解度高、時效性高的時候,比如用戶說什么東西一下子就能生成了,并且沒有任何門檻,且也能很方便地通過人工智能對內容不斷修正和完善,這個時候才會有更多的用戶進來,創造巨大的市場。可以預見的是,高質量AI原生內容的涌現,將會媲美甚至超越過去短視頻帶來的變革。

我們現在看到了這個機會,第一時間去錘煉自己的技能,當風口真正爆發的時候,我們才有機會去觸摸到背后的本質。

未來是我們還是想希望能夠建設AI native的視頻平臺,服務廣泛的視頻創作者和消費者。

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章