首頁 > AI資訊 > 最新資訊 > 數字人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技

數字人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技

新火種    2023-10-28

打開一個數字人,里面全是生成式 AI。

9 月 23 日晚,杭州亞運會開幕式點燃主火炬的環節,上億線上數字火炬手的「小火苗」匯聚在錢塘江上形成一個數字人形象。隨后,數字人火炬手和現場的第六棒火炬手走到火炬臺前,共同點燃了主火炬。

圖片

作為開幕式的核心創意,數實互聯的火炬點燃形式沖上了熱搜,引發了人們的重點關注。

上億人參與的數字人點火是一個前所未有的創舉,涉及了大量先進且復雜的技術,其中最重要的莫過于如何讓數字人「動起來」。不難看出,在生成式 AI 與大模型迅速發展,數字人研究也出現了更多新變化。

在 10 月初即將舉行的全球計算機視覺頂會 ICCV 2023 上,我們關注到一篇生成 3D 數字人運動研究被大會收錄。相關論文題為《Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models》,由浙江大學、螞蟻集團聯合發布。

圖片

據介紹,這項研究一定程度上解決了數字人遠距離合成復雜運動的問題,能做到原有模型或路徑規劃無法實現的效果。數字人驅動相關的技術,也被用在了亞運會 1 億數字人線上傳遞。

生成式 AI 驅動,讓數字人動起來

很多時候,我們需要在給定的 3D 場景中合成 3D 人體運動,使虛擬人能夠自然地在場景中漫步并與物體交互,這種效果在 AR/VR、電影制作和視頻游戲中都存在多種應用。

在這里,傳統的角色控制運動生成方法旨在由用戶的控制信號引導生成短期或重復的運動,新研究則專注于在給定起始位置和目標對象模型的情況下生成更加長時間的人機交互內容。

這種思路雖然效果更好,但顯然挑戰更大。首先,人與物體的交互應該是連貫的,這需要對人與物體之間的遠程交互進行建模的能力。其次,在內容生成的背景下,生成模型應該能夠合成大小不同的運動,因為真人存在多種接近目標對象并與之交互的方式。

圖片圖 1. 人與物體交互形象的生成。給定一個對象,新方法首先預測一組里程碑(milestone)事件,其中環表示位置,粉紅色衣服的人代表原姿勢。算法在里程碑之間填充動作。該圖顯示新方法使用同一對象生成不同的里程碑和動作。時間的流動用顏色代碼顯示,越深的藍色表示越往后的幀。

在生成數字人動作的方法上,現有的合成方法大致可分為在線生成和離線生成。大多數在線方法側重于角色的實時控制。給定一個目標對象,他們通常使用自回歸模型通過反饋預測來循環生成未來的運動。盡管這種方法已廣泛用于視頻游戲等交互場景,但其質量對于長期生成來說還難以令人滿意。

圖片

為了提高運動質量,最近的一些離線方法采用多級框架,首先生成軌跡,然后合成運動。盡管這種策略可以產生合理的路徑,但路徑多樣性是有限的。

在新研究中,作者提出了一種新的離線方法來綜合長期且多樣化的人與物體交互,其創新在于分層生成策略,該策略首先預測一組里程碑,然后生成里程碑之間的人體動作。

具體來說,給定起始位置和目標對象,作者設計了一個里程碑生成模塊來合成沿著運動軌跡的一組節點,每個里程碑對局部姿勢進行編碼并指示人體運動過程中的過渡點。基于這些里程碑,算法采用運動生成模塊來生成完整的運動序列。由于這些里程碑的存在,我們可以將長序列的生成簡化為合成幾個短運動序列。

此外,每個里程碑的局部姿態是由考慮全局依賴性的 transformer 模型生成的,進而產生時間一致的結果,這進一步有助于相干運動。

除了分層生成框架之外,研究人員還進一步利用擴散模型來合成人與物體的交互。此前的一些運動合成擴散模型結合了 transformer 和去噪擴散概率模型(DDPM)。

值得一提的是,由于運動序列較長,直接將它們應用到新設置中需要大量的計算,可能導致 GPU 內存爆炸。由于新的分層生成框架將長期生成轉換為多個短序列的合成,因此所需的 GPU 內存減少到了與短期運動生成相同的水平。

因此,研究者可以有效地利用 Transformer DDPM 來合成長期運動序列,從而提高生成質量。

為此,研究者設計了一個分層運動生成框架,如下圖所示。

圖片

首先,他們使用 GoalNet 來預測對象上的交互目標,然后生成目標姿態來顯式建模人與物體的交互,接下來使用里程碑生成模塊來估計里程碑的長度,使其產生從起點到目標的里程碑軌跡,并放置里程碑姿態。

這樣一來,長距離運動生成就被分解為多個短距離運動生成的組合。最后,作者設計了一個運動生成模塊,用于合成里程碑之間的軌跡并填充動作。

AI 姿態生成

研究者將人與物體互動并保持靜止的姿態稱為目標姿態。之前,大多數方法使用 cVAE 模型生成人體姿態,但研究者發現該方法在自己的研究中表現不佳。

為了克服這一挑戰,他們引入了 VQ-VAE 模型來建模數據分布,該模型利用離散表示將數據聚類在有限的點集中。此外,根據觀察,不同的人體姿態可能具有相似的屬性(比如人在坐下時,手的動作可能不相同,但腿部位置可能相同),于是,他們把關節分為 L (L = 5) 個不同的非重疊組。

如圖 3 所示,目標姿態被分成獨立的關節組。

圖片

根據起始姿態和目標姿態,我們可以讓算法生成里程碑軌跡,并合成里程碑處的局部姿勢。由于運動數據的長度是未知的,而且可以是任意的(例如,人可能快速走向椅子并坐下,也可能繞著椅子慢慢走一圈后坐下),因此需要預測里程碑的長度,用 N 表示。然后,合成 N 個里程碑點,并在這些點上放置局部姿態。

圖片

最后是動作生成,研究者用到的方法不是逐幀預測動作,而是根據生成的里程碑分層合成整個序列。他們首先生成軌跡,然后合成動作。具體來說,在兩個連續的里程碑內,他們首先完成軌跡。然后,在連續里程碑姿態的引導下填充運動。這兩個步驟分別使用兩個 Transformer DDPM 完成。

對于每個步驟,研究者都會精心設計 DDPM 的條件,以生成目標輸出。

效果領先

研究人員在 SAMP 數據集上比較了不同方法的結果。可以看到,論文所提方法具有更低的 FD、更高的用戶研究得分和更高的 APD。此外,他們的方法實現了比 SAMP 更高的軌跡多樣性。

圖片

新方法在雜亂的場景中也可以生成令人滿意的結果。該方法生成的穿模的幀(frames with penetration)百分比為 3.8%,SAMP 為 4.9%。

圖片

在 SAMP、COUCH 等數據集上,論文所提到的方法均取得了比基線方法更好的結果。

圖片

圖片

完成全鏈路布局

數字人是融合語音、語義、視覺等多模態技術的集大成者。在最近生成式 AI 突破的同時,數字人領域正在經歷跨越式發展,過去需要手工制作的建模、生成交互、渲染等環節正在全面 AI 化。

隨著工程師不斷優化,這項技術在移動端的體驗也在變得更好,剛剛結束的亞運火炬線上傳遞活動就是個很好的例子:想要成為火炬手,我們只需要點開支付寶 App 的小程序。

據說,為確保開幕式項目順暢進行,螞蟻集團的工程師們針對上百款不同型號的手機進行了超過 10 萬次測試,敲下了 20 多萬行代碼,并通過自研 Web3D 互動引擎 Galacean、AI 數字人、云服務、區塊鏈等多種技術結合,保證了人人都可以成為數字火炬手,參與火炬傳遞。亞運數字火炬手平臺,能做到億級用戶規模覆蓋,并支持 97% 的常見智能手機設備。

為了給數字火炬手們帶來真實的參與感,螞蟻的技術團隊開發了 58 個捏臉控制器,通過 AI 算法根據人臉識別畫出數字火炬手的面孔之后,可對臉型、頭發、鼻子、嘴巴、眉毛等進行調整,實現自由換裝,該技術可提供 2 萬億種數字形象。

另外,開幕式點火儀式后,每位數字火炬手都可以收到一張數字點火專屬證書,繪有每位數字火炬手獨一無二的形象,這張證書會通過分布式技術存儲在區塊鏈上。

圖片

從研究論文內容和亞運項目不難看出,背后都有完整數字人技術體系的支撐。據了解,螞蟻集團正積極開展數字人技術探索,并已完成數字人的全鏈路核心技術自研布局。

與市面上多數公司不同,螞蟻集團的數字人技術自研,選擇與生成式 AI 結合的發展方向。從技術部署上,則涵蓋數字人建模、渲染、驅動、交互的全生命周期,結合 AIGC 與大模型,大幅降低了數字人全鏈路生產成本。目前可支持 2D、3D 數字人,提供了播報型、交互型等多種解決方案。

圖片

根據公開資料,可以總結螞蟻數字人平臺目前具備四方面技術優勢和特色:

低成本建模:與清華大學合作推出亞洲人臉 3D 參數化模型,基于照片重建 3D 人臉,更符合亞洲人臉型特點。生成式驅動:驅動生成和動作捕捉結合,對比傳統動作制作流程有效降低成本和提升動作豐富度。高適配渲染:自研 Web3D 渲染引擎 Galacean,覆蓋 97% 常見手機終端;在神經渲染方面搭建了動態驅動和靜態建模解耦的 NeRF 框架,應用于數字人動態視頻場景。智能化交互:基于預訓練的音色克隆,支持分鐘級音頻輸入生成個性化數字人音色;并布局基于大模型的數字人交互。

亞運會開幕式之前,中國信通院發布最新數字人標準符合性驗證結果,螞蟻集團靈境數字人平臺,成為業界首個通過金融數字人評測的產品,獲得了最高評級「杰出級 (L4)」。

而在亞運之外,螞蟻數字人平臺還支持了螞蟻集團支付寶、數字金融、政務、五福等業務,并在今年開始應用于短視頻、直播、小程序等載體向合作伙伴提供基礎服務。

可以預見在不久之后,伴隨生成式 AI 加持的數字人不斷升級,我們也會在更多場景中體驗到更好的交互,真正進入數實融合的智能生活。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章