用于形狀精確三維感知圖像合成的著色引導生成隱式模型|NeurIPS2021

編譯 |莓酊
編輯 | 青暮生成輻射場的發展推動了3D感知圖像合成的發展。由于觀察到3D對象從多個視點看起來十分逼真,這些方法引入了多視圖約束作為正則化,以從2D圖像學習有效的3D輻射場。盡管取得了進展,但由于形狀-顏色的模糊性,它們往往無法捕獲準確的3D形狀,從而限制了在下游任務中的適用性。在這項研究工作中,來自馬普所和港中文大學的學者通過提出一種新的著色引導生成隱式模型ShadeGAN來解決這種模糊性,它學習了一種改進的形狀表示。
介紹高級深度生成模型,例如StyleGAN和BigGAN,在自然圖像合成方面取得了巨大成功。但這些基于2D表示的模型無法以3D一致性方式合成實例新視圖。它們也無法表示明確的三維物體形狀。為了克服這些限制,研究人員提出了新的深度生成模型,將3D場景表示為神經輻射場。3D感知生成模型可以顯式控制視點,同時在圖像合成過程中保持3D一致性。它們展示了在無監督情況下從一組無約束的2D圖像中學習3D形狀的巨大潛力。如果可以訓練出學習精確3D物體形狀的3D感知生成模型,各種下游應用就可以的到拓展,如3D形狀重建和圖像重照明。現有3D感知圖像合成嘗試傾向于學習不準確且有噪聲的粗略3D形狀,如下圖所示。研究發現,這種不準確是由于方法所采用的訓練策略不可避免地存在模糊性。特別是一種正則化,稱之為“多視圖約束”,用于強制三維表示,使其從不同的視點看起來更逼真。這種約束通常首先將生成器的輸出(例如,輻射場)投影到隨機采樣視點,然后將它作為假圖像提供給鑒別器進行訓練。雖然這種約束使模型能夠以3D感知的方式合成圖像,但會受到形狀-顏色模糊關聯的影響,即便有微小的形狀變化也能生成類似的RGB圖像,這些圖像在鑒別器看來同樣可信,因為許多物體顏色是局部平滑的。因此,不準確的形狀仍然隱藏在這個約束下。

ShadeGAN
神經體繪制
從神經輻射場(NeRF)的開創性工作開始,神經體繪制在表示3D場景和合成新視圖方面得到了廣泛的應用。通過基于坐標神經網絡與體繪制相結合,NeRF以3D一致性完成高保真視圖合成。目前已經提出了一些嘗試擴展或改進NeRF。比如進一步模擬照明,然后學習在給定對齊多視圖、多照明圖像情況下,將反射與著色分離。此外,許多研究從空間稀疏性、建筑設計或高效渲染角度加速了靜態場景的渲染。這些照明和加速技術應用于基于體繪制的生成模型并非易事,因為它們通常從為定位、未配對的圖像中學習,表示相對于輸入潛在編碼變化的動態場景。研究團隊首次嘗試在基于體繪制的生成模型中對照明進行建模,作為精確三維形狀學習的正則化。并進一步為方法設計了高校的渲染技術,它具有相似的見解,但不依賴于通過真實深度進行訓練,也不限于視點小范圍。生成三維感知圖像合成
生成對抗網絡(GANs)可以生成高分辨率的真實照片圖像,但對攝像機視點的明確控制卻很匱乏。為了能夠以3D感知的方式合成圖像,許多最新方法研究了如何將3D表示合并到GANs中。有些研究直接從3D數據中學習,但在本文中,研究團隊關注的是只能訪問無約束2D圖像方法,因為這是更實際的設置。研究團隊多次嘗試采用3D體素特征和學習神經渲染,雖然產生了逼真的3D感知合成,但3D體素不可解釋,無法轉換為3D形狀。NeRF可以成功促使在GANs中使用輻射場作為中間3D表示,是有一些令人印象深刻、具有多視圖一致性的3D感知圖像合成,但這些方法提取的3D形狀通常不精確且有噪聲。在本文中,研究團隊的主要目標是通過在渲染過程中顯式地建模照明來解決不準確形狀。這項創新有助于實現更好的3D感知圖像合成,將具有更廣泛的應用。從2D圖像進行無監督的3D形狀學習
ShadeGAN涉及無監督方法,即從無約束單目視圖2D圖像中學習3D物體形狀。雖然一些方法使用外部3D形狀模板或2D關鍵點作為弱監督,但本文考慮了更有難度的設置——只有2D圖像是可用的。大多數方法采用“綜合分析”范式,就是設計了照片幾何自動編碼器,以在重建損失情況下推斷每個圖像的三維形狀和視點。這是可以學習一些對象類的3D形狀,只是通常依賴正則化來防止瑣碎的解決方案,如常用的對象形狀對稱假設。這種假設傾向于產生對稱結果,可能忽略對象的不對稱方面。最近,GAN2Shape表明,可以為2D GAN生成的圖像恢復3D形狀。但這種方法需要低效的實例特定訓練,并恢復深度貼圖,而不是完整的三維表示。本文提出的三維感知生成模型也可以作為無監督三維形狀學習的有力方法。與上述基于自動編碼器的方法相比,基于GAN的方法避免了推斷每個圖像的視點需求,而且不依賴于強正則性。通過實驗更加證明了與最新、最先進的方法Unsp3d和GAN2Shape相比,ShadeGAN具有更高的性能。
ShadeGAN方法論ShadeGAN通過無約束和未標記的 2D 圖像學習考慮3D 感知圖像合成問題。在生成隱式模型中建模著色,也就是照明和形狀的交互,實現對更精確三維對象形狀的無監督學習。接下來會先提供關于神經輻射場(NeRF)的初步介紹,然后詳細介紹著色引導生成隱式模型。
3.1 神經輻射場的初步研究
作為一種深度隱式模型,NeRF使用MLP網絡將3D場景表示為輻射場。






3.2著色引導生成隱式模型
開發生成隱式模型是十分有趣的,它可以為3D感知圖像合成顯式著色過程建模。研究團隊對NeRF中的MLP網絡進行了兩個擴展。首先,與大多數深度生成模型類似,它進一步取決于從先驗分布































3.3通過曲面跟蹤實現高效體繪制
與NeRF類似,研究團隊使用離散積分實現體繪制,這通常需要沿攝影機光線采樣幾十個點,如圖所示。在本文中,還需要在等式(3)中對生成器執行反向傳播,以獲得每個點的法線方向,這會大大增加計算成本。為了實現更高效的體繪制,一個自然的想法是利用空間稀疏性。通常,體繪制中的權重T (t, z)σ(r(t), z)在訓練過程中會集中在物體表面位置上。如果在渲染之前知道粗糙曲面的位置,就可以在曲面附近采樣點以節省計算。對于靜態場景,將這種空間稀疏性存儲在稀疏體素網格中,但這種技術不能直接應用于我們的生成模型,因為3D場景相對于輸入的潛在編碼不斷變化。

















實驗實驗表明,ShadeGAN學習的3D形狀比以前的方法精確得多,同時允許對照明條件進行顯式控制。使用的數據集包括CelebA、BFM和CAT,它們都只包含無約束的2D RGB圖像。在模型結構方面,我們采用了基于SIREN的MLP作為生成器,卷積神經網絡作為鑒別器。對于光照條件的先驗分布,使用Unsup3d估計真實數據的光照條件,然后擬合

與基線進行比較
將ShadeGAN與兩種最先進的生成隱式模型(GRAF和pi-GAN)進行比較。具體地,圖4包括合成圖像以及它們對應的3D網格,其通過在體積密度σ上執行 marching cubes而獲得。雖然GRAF和pi-GAN可以合成具有可控姿勢的圖像,但它們學習到的3D形狀不準確且有噪聲。相比之下,本文的方法不僅合成真實感的3D一致圖像,而且還學習更精確的3D形狀和曲面法線,這表明所提出的多重照明約束作為正則化的有效性。圖5中包含了更多的合成圖像及其相應的形狀。除了更精確的3D形狀外,ShadeGAN還可以從本質上了解反照率和漫反射著色組件。如圖所示,盡管并不完美,ShadeGAN已成功以令人滿意的質量分離陰影和反照率,因為這種分離是多照明約束的自然解決方案。

消融研究
研究團隊進一步研究了ShadeGAN中幾種設計選擇的影響。首先,執行局部點特定的著色。如圖所示,局部著色策略的結果明顯比原始策略差,這表明考慮


光照感知圖像合成
由于ShadeGAN對著色過程進行建模,因此在設計上允許對照明條件進行顯式控制。下圖提供了這樣的照明感知圖像合成結果,其中ShadeGAN在不同的照明方向下生成有希望的圖像。在預測的a以照明條件μ為條件的情況下,a會略微改變w.r.t.照明條件,如在陰影過暗的區域,a會更亮,最終圖像更自然。我們還可以在等式4(即Blinn Phong著色,其中h是視點和照明方向之間角度的平分線)中選擇性地添加鏡面反射項

GAN反演
ShadeGAN還可以通過執行GAN反演來重建給定的目標圖像。如下圖所示,這種反演允許我們獲得圖像的幾個因素,包括3D形狀、表面法線、近似反照率和陰影。此外,我們還可以通過更改視點和照明條件來進一步執行視圖合成和重新照明。
討論
由于使用的朗伯陰影近似于真實照明,因此ShadeGAN學習的反照率并沒有完全分離。本文的方法不考慮對象的空間變化的材料特性。在未來,研究團隊打算結合更復雜的著色模型,以更好地了解分離的生成反射場。結論本文提出的ShadeGAN是一種新的生成隱式模型,用于形狀精確的3D感知圖像合成。并證實在ShadeGAN中通過顯式光照建模實現的多重光照約束顯著有助于從2D圖像學習精確的3D形狀。ShadeGAN還可以在圖像合成過程中控制照明條件,實現自然的圖像重新照明效果。為了降低計算成本,研究團隊進一步設計了一種輕量級曲面跟蹤網絡,它為生成隱式模型提供了一種高效的體繪制技術,顯著加快了訓練和推理速度。推薦閱讀
2022-01-08

2021-11-20

2022-01-05

相關推薦
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。