首頁(yè) > AI資訊 > 最新資訊 > 單目三維檢測(cè)實(shí)時(shí)泛化,純視覺(jué)自動(dòng)駕駛魯棒感知方法入選ECCV2024

單目三維檢測(cè)實(shí)時(shí)泛化,純視覺(jué)自動(dòng)駕駛魯棒感知方法入選ECCV2024

新火種    2024-11-16

論文第一作者林宏彬來(lái)自香港中文大學(xué) (深圳) Deep Bit 實(shí)驗(yàn)室,導(dǎo)師為李鎮(zhèn)老師。實(shí)驗(yàn)室專注于利用人工智能技術(shù)進(jìn)行跨學(xué)科研究,例如自動(dòng)駕駛的三維感知、醫(yī)學(xué)成像和分子理解的多模態(tài)數(shù)據(jù)分析和生成等。研究領(lǐng)域涵蓋計(jì)算機(jī)視覺(jué)、機(jī)器 / 深度學(xué)習(xí)和 AI4Science。感興趣的同學(xué)可以在主頁(yè)上獲取更多信息https://mypage.cuhk.edu.cn/academics/lizhen/

全自動(dòng)駕駛系統(tǒng)的純視覺(jué)方案如特斯拉 “Tesla Vision”,僅依賴于攝像頭收集的圖像數(shù)據(jù),旨在實(shí)現(xiàn)高效且成本效益高的自動(dòng)駕駛技術(shù)。在現(xiàn)實(shí)場(chǎng)景中,視覺(jué)感知模型在面對(duì)訓(xùn)練數(shù)據(jù)分布外場(chǎng)景的泛化能力尤為關(guān)鍵。來(lái)自香港中文大學(xué)(深圳)、新加坡國(guó)立大學(xué)、昆侖萬(wàn)維和南洋理工大學(xué)的學(xué)者們提出了一種名為 MonoTTA 的單目三維檢測(cè)模型的實(shí)時(shí)測(cè)試時(shí)自適應(yīng)方法。該方法使模能在測(cè)試階段實(shí)時(shí)進(jìn)行快速的無(wú)監(jiān)督學(xué)習(xí),顯著提升了其在未知測(cè)試分布上的表現(xiàn)。
MonoTTA 通過(guò)自適應(yīng)挖掘高置信度物體,同時(shí)利用負(fù)標(biāo)簽以緩解偽標(biāo)簽的噪音,有效減少了模型的漏檢和誤檢,從而幫助單目三維檢測(cè)模型的實(shí)時(shí)泛化。目前代碼已開(kāi)源,歡迎感興趣的小伙伴到 GitHub 查看更多展示視頻。

圖片

  • 論文鏈接:https://arxiv.org/pdf/2405.19682
  • GitHub:https://github.com/Hongbin98/MonoTTA

純視覺(jué)方案在自動(dòng)駕駛的落地應(yīng)用還有多遠(yuǎn)?
近年來(lái),純視覺(jué)自動(dòng)駕駛系統(tǒng)在全球汽車行業(yè)中引起了廣泛關(guān)注,標(biāo)志著自動(dòng)駕駛技術(shù)向更高智能化的邁進(jìn)。不禁讓人思考,在自動(dòng)駕駛領(lǐng)域真正實(shí)現(xiàn)純視覺(jué)方案還有多遠(yuǎn)呢? 
在自動(dòng)駕駛領(lǐng)域,純視覺(jué)方案的泛化能力至關(guān)重要。然而,傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)通常依賴大量預(yù)先收集的數(shù)據(jù)來(lái)訓(xùn)練模型。實(shí)際應(yīng)用中,測(cè)試數(shù)據(jù)的分布往往與訓(xùn)練數(shù)據(jù)不同,這種現(xiàn)象稱為 “分布偏移”。分布偏移在實(shí)際測(cè)試中往往可能表現(xiàn)為:1)自然天氣的變化導(dǎo)致道路上的物體被遮擋(如霧、雪),或光線條件顯著變化;2)由于駕駛過(guò)程中的攝像頭抖動(dòng),出現(xiàn)畫面模糊;3)模型訓(xùn)練數(shù)據(jù)來(lái)自某個(gè)四季如春的城市,但在高緯度的城市進(jìn)行測(cè)試。這些常見(jiàn)但棘手的分布偏移問(wèn)題對(duì)深度學(xué)習(xí)模型的影響很大,往往導(dǎo)致模型性能顯著下降,嚴(yán)重制約了其在室外場(chǎng)景的廣泛部署。
純視覺(jué)方案在遭遇分布偏移時(shí)具體會(huì)有什么問(wèn)題呢?以單目三維檢測(cè)模型為例,如圖 2 所示,當(dāng)一個(gè)經(jīng)過(guò)良好訓(xùn)練的模型直接應(yīng)用于受自然氣候干擾(如雪和霧)影響的非訓(xùn)練分布測(cè)試場(chǎng)景時(shí),相比在訓(xùn)練數(shù)據(jù)相同分布(即晴天)的場(chǎng)景,分布外測(cè)試數(shù)據(jù)中的物體檢測(cè)分?jǐn)?shù)會(huì)顯著下降。正如我們?cè)趷毫犹鞖庀滦熊嚕曇胺秶鷥?nèi)的車輛、行人也會(huì)變得模糊不清,很難判斷清楚遠(yuǎn)方到底是不是有其他車輛。然而當(dāng)前的單目三維檢測(cè)方法通常使用固定的分?jǐn)?shù)閾值(如 0.2)來(lái)進(jìn)行物體檢測(cè),物體檢測(cè)分?jǐn)?shù)的大幅下降導(dǎo)致單目三維檢測(cè)模型出現(xiàn)大量漏檢、錯(cuò)檢,從而使得模型的性能大幅下降。圖片                                       圖 2 單目三維檢測(cè)模型在域外場(chǎng)景下呈現(xiàn)物體檢測(cè)分?jǐn)?shù)的大幅下降,導(dǎo)致大量漏檢、錯(cuò)檢
那么該如何解決分布偏移呢?為了應(yīng)對(duì)數(shù)據(jù)分布的潛在偏移和算法在實(shí)際應(yīng)用場(chǎng)景中對(duì)可擴(kuò)展性和時(shí)效性的需求,一種可行的范式是測(cè)試時(shí)自適應(yīng)(Test-Time Adaptation, TTA)。該范式要求算法在測(cè)試階段指導(dǎo)模型進(jìn)行快速無(wú)監(jiān)督 / 自監(jiān)督學(xué)習(xí),是當(dāng)前用于提升深度模型分布外泛化能力的一種強(qiáng)有效工具。而其中一種更快速、更實(shí)時(shí)的子范式即實(shí)時(shí)測(cè)試時(shí)自適應(yīng)(Fully Test-Time Adaptation, Fully TTA),其旨在通過(guò)在線方式利用連續(xù)的測(cè)試數(shù)據(jù)流實(shí)時(shí)調(diào)整和優(yōu)化模型,緩解數(shù)據(jù)分布偏移帶來(lái)的問(wèn)題從而顯著提高模型的性能。該范式能夠滿足現(xiàn)實(shí)場(chǎng)景下的算法部署與實(shí)時(shí)優(yōu)化需求,因此吸引了學(xué)術(shù)界和工業(yè)界越來(lái)越多的關(guān)注。
現(xiàn)存 Fully TTA 方法卻往往難以應(yīng)對(duì)分布差異很大的檢測(cè)任務(wù)。例如在極端的天氣條件下,如圖 2 中的雪天,單目三維檢測(cè)模型往往無(wú)法生成足夠的高分檢測(cè)結(jié)果。通俗地說(shuō),模型在極端天氣下會(huì)出現(xiàn)絕大部分物體對(duì)象都看不到了的問(wèn)題。然而,現(xiàn)有的 Fully TTA 方法卻是依賴于模型先檢測(cè)出物體對(duì)象,再進(jìn)行模型的實(shí)時(shí)適應(yīng)。因此,這些方法在具有極大差異的分布外場(chǎng)景下難以對(duì)模型進(jìn)行實(shí)時(shí)調(diào)整,換而言之,缺乏挖掘未被正確識(shí)別的物體(即漏檢)的能力。
技術(shù)方案
基于前面的討論,我們不禁思考:要怎么去設(shè)計(jì)一個(gè) TTA 方法,去實(shí)現(xiàn)這種挖掘未被正確識(shí)別的物體(即漏檢)的能力呢?來(lái)自香港中文大學(xué)(深圳)、新加坡國(guó)立大學(xué)、昆侖萬(wàn)維和南洋理工大學(xué)的學(xué)者們給出了他們的看法。學(xué)者們提出了一個(gè)針對(duì)單目三維檢測(cè)模型的實(shí)時(shí)測(cè)試時(shí)自適應(yīng)方法(Monocular Test-Time Adaptation,MonoTTA),其由以下兩個(gè)適應(yīng)策略所組成:1) 基于可靠物體對(duì)象的模型自適應(yīng);2) 基于負(fù)標(biāo)簽優(yōu)化的偽標(biāo)簽噪音緩解。具體細(xì)節(jié)闡述如下: 

圖片

                                          圖 3 MonoTTA 方法整體框架圖
基于可靠物體對(duì)象的模型自適應(yīng):具體而言,測(cè)試數(shù)據(jù)分布的變化會(huì)導(dǎo)致物體對(duì)象的檢測(cè)分?jǐn)?shù)驟降,從而引起漏檢和錯(cuò)檢。而學(xué)者們通過(guò)分析發(fā)現(xiàn),即便在域外場(chǎng)景下,高檢測(cè)分?jǐn)?shù)的物體對(duì)象仍然是相對(duì)可靠的(如下圖 4(a)所示)。此外,即使僅通過(guò)高分物體對(duì)象(例如,score≥0.5)來(lái)優(yōu)化模型,低分和高分對(duì)象的數(shù)量都會(huì)增加(即圖 4(b))。這些觀察啟發(fā)我們要利用高分物體對(duì)象而不是所有物體對(duì)象進(jìn)行模型適應(yīng),這將是一種更可靠的方式來(lái)緩解數(shù)據(jù)分布變化并發(fā)掘潛在物體對(duì)象。

圖片

                                      圖 4 針對(duì)各自域外場(chǎng)景下的物體對(duì)象檢測(cè)分?jǐn)?shù)分析
基于上述觀察可以發(fā)現(xiàn):域外場(chǎng)景下高分對(duì)象不僅是相對(duì)可靠的,還可以通過(guò)高分對(duì)象的這種相對(duì)可靠的模型優(yōu)化,發(fā)掘出更多的低分潛在物體對(duì)象!這啟發(fā)學(xué)者們?cè)O(shè)計(jì)了適應(yīng)性優(yōu)化損失 圖片 來(lái)利用可靠物體對(duì)象子集進(jìn)行模型適應(yīng),從而緩解域外分布的測(cè)試數(shù)據(jù)檢測(cè)分?jǐn)?shù)下降問(wèn)題,并挖掘出更多潛在對(duì)象:

圖片

這里的 圖片 是在迭代倫次 t 下的自適應(yīng)閾值,這是考慮到實(shí)際測(cè)試場(chǎng)景的分布差異是未知的,因此開(kāi)發(fā)了一種自適應(yīng)策略,用于在測(cè)試圖像中自動(dòng)識(shí)別可靠的高分對(duì)象。

圖片

其中,圖片為所有檢測(cè)到的物體對(duì)象的平均分?jǐn)?shù),β 是衰減系數(shù),而 γ 則是遵循原方法的預(yù)定義物體檢測(cè)閾值。B 為批量大小,圖片為單張圖片下的最大檢測(cè)物體對(duì)象數(shù)目,圖片則對(duì)應(yīng)每個(gè)檢測(cè)物體的具體分?jǐn)?shù)值。

基于負(fù)標(biāo)簽優(yōu)化的偽標(biāo)簽噪音緩解:雖然通過(guò)圖片的優(yōu)化,模型能有效緩解漏檢問(wèn)題。但像我們先前討論的,一種極端情況是數(shù)據(jù)分布差異還會(huì)導(dǎo)致高分對(duì)象的極度稀缺,如上圖 4(a)中的雪天場(chǎng)景,此時(shí)大多數(shù)對(duì)象呈現(xiàn)低分,無(wú)法利用高分樣本以優(yōu)化模型。為此,學(xué)者們開(kāi)發(fā)了一個(gè)負(fù)標(biāo)簽正則化項(xiàng),以合理利用眾多低分物體對(duì)象以進(jìn)行負(fù)標(biāo)簽學(xué)習(xí)。一方面,負(fù)標(biāo)簽正則化項(xiàng) 圖片允許模型通過(guò)眾多存在噪聲的低分對(duì)象進(jìn)行模型適應(yīng),從而使得模型在緩解分布變化后獲得更多高分物體對(duì)象;另一方面,這一正則化項(xiàng)也防止了模型過(guò)度擬合噪聲和簡(jiǎn)易解,例如給一個(gè)對(duì)象的所有類別分配高分。

具體地,對(duì)那些低于自適應(yīng)閾值 圖片的物體對(duì)象,基于每個(gè)類別的具體頻率 圖片 ,求和得到最終損失值:

圖片

而每個(gè)類別下的正則約束項(xiàng)有:

圖片

其中,圖片是常數(shù)權(quán)重,圖片則是具體檢測(cè)物體對(duì)象對(duì)于負(fù)類別 k 下的檢測(cè)分?jǐn)?shù)。
通俗來(lái)說(shuō),極端情況下模型往往難以直接辨別出物體是什么,但相較之下模型有更大的把握知道物體對(duì)象不屬于某個(gè)具體類別。特別是極端場(chǎng)景下,圖片會(huì)在模型適應(yīng)中扮演了更重要的角色。因?yàn)樗梢酝ㄟ^(guò)只利用低分?jǐn)?shù)的對(duì)象(即否定負(fù)面類別)來(lái)緩解分布偏移,換句話說(shuō),圖片使得模型在極端場(chǎng)景下仍然能夠減輕分布偏移并獲得更多相對(duì)高分的對(duì)象,從而為圖片的計(jì)算奠定了關(guān)鍵基礎(chǔ)。
實(shí)驗(yàn)
方法有效性:MonoTTA 能為現(xiàn)存單目三維檢測(cè)方法帶來(lái)可觀的性能提升:實(shí)驗(yàn)結(jié)果展示了探索的新方法可以在域外分布測(cè)試場(chǎng)景中為單目三維檢測(cè)模型帶來(lái)顯著的改進(jìn),例如,在所制作的 KITTI-C 數(shù)據(jù)集上的 13 種類型(囊括了噪音、模糊、天氣變化以及設(shè)備退化影響)的分布外偏移中,平均性能提升了 137% 和 244%。

圖片

此外,學(xué)者們還進(jìn)一步在 nuScenes 數(shù)據(jù)集的白天到黑夜(Daytime → Night)和黑夜到白天(Night → Daytime)兩個(gè)在真實(shí)數(shù)據(jù)場(chǎng)景下做進(jìn)一步實(shí)驗(yàn),驗(yàn)證了所提出方法的有效性:

圖片

結(jié)果可視化:進(jìn)一步提供了可視化結(jié)果如下圖所示

圖片

并且,基于 KITTI-RAW 數(shù)據(jù)提供了相應(yīng)的 demo 視頻(更多示例視頻見(jiàn) Github 鏈接),其中左邊為原方法,而右邊則對(duì)應(yīng) MonoTTA 實(shí)時(shí)適應(yīng)后的檢測(cè)結(jié)果。基于單張 4090 顯卡,MonoTTA 僅需約 45ms 即可適配一張 1280X384 的測(cè)試圖像,即 fps >=15。相信通過(guò)量化部署優(yōu)化,這個(gè)速度還能被進(jìn)一步提升。

圖片

                               Defocus 1(畫面模糊 - 等級(jí) 1)圖片                                   Fog 1(霧天 - 等級(jí) 1)

圖片

                                 Gaussian 1(高斯噪聲 - 等級(jí) 1) 基于上述實(shí)驗(yàn)結(jié)果,有理由相信通過(guò)單目三維檢測(cè)模型的實(shí)時(shí)適應(yīng),該論文所設(shè)計(jì)的方法能夠有效地提高模型的泛化性能,從而提升單目三維檢測(cè)在自動(dòng)駕駛中的落地和應(yīng)用。
相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章