首頁 > AI資訊 > 最新資訊 > BEVControl:兩階段方法使背景、前景控制更精細,編輯更快捷

BEVControl:兩階段方法使背景、前景控制更精細,編輯更快捷

新火種    2023-10-29

本文介紹一個,通過 BEV Sketch 布局精確生成多視角街景圖片的方法。

在自動駕駛領域,圖像合成對于下游感知任務的性能提升有著廣泛應用。

利用合成圖像提高感知模型的性能是計算機視覺領域長期存在的研究難題。在使用多視角攝像頭的以視覺為中心的自動駕駛系統中,這個問題變得更加突出,因為有些長尾場景是永遠無法收集到的。

如圖1(a)所示,現有的生成方法將語義分割風格的BEV結構輸入生成網絡,并輸出合理的多視角圖像。在僅根據場景級指標進行評估時,現有方法[1]似乎能合成照片般逼真的街景圖像。然而,一旦放大,我們發現它無法生成準確的對象級別的細節。圖中,我們展示了目前最先進生成算法的一個常見錯誤,即生成的車輛與目標3D邊界框相比方向完全相反。此外,編輯語義分割樣式的BEV結構是一項艱巨的任務,需要大量人力。

因此,我們提出了一種兩階段方法,提供更精細的背景和前景幾何控制,稱為 BEVControl,如圖1(b)所示。它支持草圖風格的BEV結構輸入,可實現快速簡便的編輯。此外,我們的 BEVControl 將視覺一致性分解為兩個子目標:通過控制器(Controller)實現街道視圖和鳥瞰視圖之間的幾何一致性;通過協調器(Coordinator)實現街道視圖之間的外觀一致性。

論文鏈接:https://arxiv.org/abs/2308.01661

方法框架

BEVControl 是一個 UNet 結構的生成網絡,由一系列模塊組成。每個模塊有兩個元素,即控制器(Controller )和協調器(Coordinator )。輸入:便于編輯的 BEV 草圖、多視圖噪聲圖像和文本提示;輸出:生成的多視圖圖像。

方法細節

BEV草圖到相機條件的相機投影過程。輸入為BEV草圖。輸出為多視角的前景條件和背景條件。

控制器: 以自注意力的方式接收相機視圖草圖的前景和背景信息,并輸出與 BEV草圖具有幾何一致性的街景特征。協調器:利用一種新穎的跨視圖、跨元素的注意力機制,實現跨視圖的上下文交互,輸出具有外觀一致性的街景特征。

提出的測評指標

最近的街景圖像生成工作僅根據場景級指標(如 FID、road mIoU 等)來評估生成質量。我們發現僅使用這些指標無法評估生成網絡的真正生成能力,如下圖所示。報告的定性和定量結果同時表明,兩組生成的街景圖像雖然具有相似的 FID 分數,但對前景和背景的細粒度控制能力卻大相徑庭。因此,我們提出一套用于精細衡量生成網絡控制能力的評估指標。

定量結果

BEVControl與最先進的方法在提出的測評指標上的對比。應用BEVControl做數據增強,在目標檢測任務上的提升。

定性結果

BEVControl與最先進的方法在NuScenes驗證集上的對比。

Demo效果

參考文獻

[1] Swerdlow A, Xu R, Zhou B. Street-View Image Generation from a Bird's-Eye View Layout[J]. arXiv preprint arXiv:2301.04634, 2023.

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章