BEVControl:兩階段方法使背景、前景控制更精細,編輯更快捷
本文介紹一個,通過 BEV Sketch 布局精確生成多視角街景圖片的方法。
在自動駕駛領域,圖像合成對于下游感知任務的性能提升有著廣泛應用。
利用合成圖像提高感知模型的性能是計算機視覺領域長期存在的研究難題。在使用多視角攝像頭的以視覺為中心的自動駕駛系統中,這個問題變得更加突出,因為有些長尾場景是永遠無法收集到的。
如圖1(a)所示,現有的生成方法將語義分割風格的BEV結構輸入生成網絡,并輸出合理的多視角圖像。在僅根據場景級指標進行評估時,現有方法[1]似乎能合成照片般逼真的街景圖像。然而,一旦放大,我們發現它無法生成準確的對象級別的細節。圖中,我們展示了目前最先進生成算法的一個常見錯誤,即生成的車輛與目標3D邊界框相比方向完全相反。此外,編輯語義分割樣式的BEV結構是一項艱巨的任務,需要大量人力。
因此,我們提出了一種兩階段方法,提供更精細的背景和前景幾何控制,稱為 BEVControl,如圖1(b)所示。它支持草圖風格的BEV結構輸入,可實現快速簡便的編輯。此外,我們的 BEVControl 將視覺一致性分解為兩個子目標:通過控制器(Controller)實現街道視圖和鳥瞰視圖之間的幾何一致性;通過協調器(Coordinator)實現街道視圖之間的外觀一致性。
論文鏈接:https://arxiv.org/abs/2308.01661
方法框架
方法細節
提出的測評指標
最近的街景圖像生成工作僅根據場景級指標(如 FID、road mIoU 等)來評估生成質量。我們發現僅使用這些指標無法評估生成網絡的真正生成能力,如下圖所示。報告的定性和定量結果同時表明,兩組生成的街景圖像雖然具有相似的 FID 分數,但對前景和背景的細粒度控制能力卻大相徑庭。因此,我們提出一套用于精細衡量生成網絡控制能力的評估指標。定量結果
BEVControl與最先進的方法在提出的測評指標上的對比。
定性結果
BEVControl與最先進的方法在NuScenes驗證集上的對比。Demo效果
參考文獻
[1] Swerdlow A, Xu R, Zhou B. Street-View Image Generation from a Bird's-Eye View Layout[J]. arXiv preprint arXiv:2301.04634, 2023.
相關推薦
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。