用擴(kuò)散模型監(jiān)督NeRF,清華文生3D新方法成新SOTA
用文字合成3D圖形的AI模型,又有了新的SOTA!
近日,清華大學(xué)劉永進(jìn)教授課題組提出了一種基于擴(kuò)散模型的文生3D新方式。
無(wú)論是不同視角間的一致性,還是與提示詞的匹配度,都比此前大幅提升。

文生3D是3D AIGC的熱點(diǎn)研究?jī)?nèi)容,得到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。
劉永進(jìn)教授課題組此次提出的新模型叫做TICD(Text-Image Conditioned Diffusion),在T3Bench數(shù)據(jù)集上達(dá)到了SOTA水平。
目前相關(guān)論文已經(jīng)發(fā)布,代碼也即將開(kāi)源。
測(cè)評(píng)成績(jī)已達(dá)SOTA為了評(píng)估TICD方法的效果,研究團(tuán)隊(duì)首先進(jìn)行了定性實(shí)驗(yàn),并對(duì)比了此前一些較好的方法。
結(jié)果顯示,用TICD方法生成的3D圖形質(zhì)量更好、圖形更清晰,與提示詞的匹配程度也更高。

為了進(jìn)一步評(píng)估這些模型的表現(xiàn),團(tuán)隊(duì)在T3Bench數(shù)據(jù)集上將TICD與這些方法進(jìn)行了定量測(cè)試。
結(jié)果顯示,TICD在單對(duì)象、單對(duì)象帶背景、多對(duì)象這三個(gè)提示集上都取得了最好的成績(jī),證明了它在生成質(zhì)量和文本對(duì)齊性上都具有整體優(yōu)勢(shì)。

此外,為了進(jìn)一步評(píng)估這些模型的文本對(duì)齊性,研究團(tuán)隊(duì)還對(duì)3D物體渲染得到的圖片與原始提示詞的CLIP余弦相似度上進(jìn)行了測(cè)試,結(jié)果依然是TICD的表現(xiàn)最佳。

那么,TICD方法是如何實(shí)現(xiàn)這樣的效果的呢?
將多視角一致性先驗(yàn)納入NeRF監(jiān)督目前主流的文本生成3D方法大多使用預(yù)訓(xùn)練的2D擴(kuò)散模型,通過(guò)得分蒸餾采樣(Score Distillation Sampling, SDS)優(yōu)化神經(jīng)輻射場(chǎng)(NeRF)來(lái)生成全新的3D模型。
然而,這種預(yù)訓(xùn)練擴(kuò)散模型提供的監(jiān)督僅限于輸入的文本本身,并未約束多視角間的一致性,可能會(huì)出現(xiàn)生成幾何結(jié)構(gòu)較差等問(wèn)題。
為了在擴(kuò)散模型的先驗(yàn)中引入多視角一致性,一些最新的研究通過(guò)使用多視角數(shù)據(jù)對(duì)2D擴(kuò)散模型進(jìn)行微調(diào),但仍然缺乏細(xì)粒度的視角間連續(xù)性。
為了解決這一挑戰(zhàn),TICD方法將以文本為條件的和圖像為條件的多視角圖像納入NeRF優(yōu)化的監(jiān)督信號(hào)中,分別保證了3D信息與提示詞的對(duì)齊和3D物體不同視角間的強(qiáng)一致性,有效提升了生成3D模型的質(zhì)量。

工作流程上,TICD首先采樣若干組正交的參考相機(jī)視角,使用NeRF渲染出對(duì)應(yīng)的參考視圖,然后對(duì)這些參考視圖運(yùn)用基于文本的條件擴(kuò)散模型,約束內(nèi)容與文本的整體一致性。
在此基礎(chǔ)上選取若干組參考相機(jī)視角,并對(duì)于每個(gè)視角渲染一個(gè)額外新視角下的視圖。接著以這兩個(gè)視圖與視角間的位姿關(guān)系作為新條件,使用基于圖像的條件擴(kuò)散模型約束不同視角間的細(xì)節(jié)一致性。
結(jié)合兩種擴(kuò)散模型的監(jiān)督信號(hào),TICD可對(duì)NeRF網(wǎng)絡(luò)的參數(shù)進(jìn)行更新并循環(huán)迭代優(yōu)化,直到獲得最終的NeRF模型,并渲染出高質(zhì)量、幾何清晰且與文本一致的3D內(nèi)容。
此外,TICD方法可以有效消除現(xiàn)有方法面對(duì)特定文本輸入時(shí)可能產(chǎn)生的幾何信息消失、錯(cuò)誤幾何信息過(guò)量生成、顏色混淆等問(wèn)題。
- 免責(zé)聲明
- 本文所包含的觀(guān)點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀(guān)點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴(lài)本文觀(guān)點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。