首頁 > AI資訊 > 最新資訊 > 為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

新火種    2023-10-29

為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

編譯 | Ailleurs

編輯 | 陳彩嫻

情報分析是一項重要工作,軍事戰略家、研究人員和記者,都依賴情報分析來作出決策、揭露違反國際協議的行為,并向公眾展示戰爭的嚴酷現實。衛星圖像在情報分析工作中扮演了重要的信息來源角色。

然而,在烏克蘭,由于大量的云層覆蓋和頻繁的夜間襲擊,各種形式的衛星圖像都無法捕捉地面信息。好消息是,合成孔徑雷達(Synthetic Aperture Radar,SAR)圖像可以穿透云層,但是需要經過專門培訓的人員來對其圖像進行解讀,如能將這項繁瑣的任務自動化,便可以實現實時動態觀察。而目前基于典型RGB圖像開發的計算機視覺方法尚不能很好地解讀SAR圖像。

因此,相關研究者認為,當下改進針對SAR圖像的方法、代碼庫、數據集和預訓練模型的獲取和可用性,將有助于烏克蘭情報機構、研究人員和記者的工作。

近日,伯克利人工智能研究中心發布了一項新研究,旨在解決SAR圖像的使用受限問題。Ritwik Gupta、Colorado Reed、Anja Rohrbach和Trevor Darrell等人提出一種基線方法和預訓練模型,能夠使人們在做下游分類、語義分割和改變檢測等任務時,方便地互換使用RGB和SAR圖像。

為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

圖1: SEVIRI儀器于2022年2月28日-3月1日在烏克蘭上空測量的氣團(云層)。來源:EUMETSAT


1
機器學習與遙感

我們生活在一個瞬息萬變的世界,經歷著自然災害、社會動蕩、戰爭以及各種混亂事件,它們在地球表面留下了不可預測的且通常是永久性的痕跡。理解我們所處環境的變化一直都是一個歷史性難題。勘測員們被派去探索新的現實境況 ,他們分散的調查發現經常被雜亂地整合,構成現實的一個來源。從法國攝影師納達爾(Nadar)拍下第一張航拍照片,到前蘇聯發射的人類第一顆人造衛星“斯普特尼克1號”(Sputnik 1)的無線電信號被用來分析電離層,保持警覺狀態始終都是人類的目標。

警覺,或者說監測,貫穿著人類幾千年歷史,與任何工具一樣,它也一直是一把雙刃劍。從歷史上看,沒有制衡的監測對社會是有害的。相反,適當且盡責的監測則使我們能夠了解有關世界的深刻真相,進而在科學和人道主義領域取得進步。現在,隨著在軌衛星數量的增長,我們對于環境的認識幾乎每天都在更新。過去,我們只掌握很少的信息,而今天,我們已經擁有了超過我們所能夠有意義地從中提取知識的范圍的大量數據。儲存和理解這些數據中所含信息是一項日益緊迫的工程挑戰。

由于每天都有數百TB的數據從衛星下行傳送到數據中心,通過人工處理從這些數據中獲取知識和可執行建議,已經成為一項無法完成的任務。最廣泛使用的遙感數據形式是光電 (electro-optical,EO)衛星圖像,這種圖像很常見,任何使用過谷歌地圖或類似測繪軟件的人都跟光電圖像“打過交道”。

運用機器學習的光電遙感圖像處理技術已被廣泛應用于科學和商業領域。從改善降水預測,到通過識別磚窯來對人類奴隸制做循證分析(磚窯是現代奴隸制的典型發生場所),再到對整個城市進行分類識別以改善交通路線選擇,機器學習在光電圖像上的產出已經融入了人類社會的方方面面。

為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

圖2: 基輔地區的超高分辨率光電衛星圖像,由Maxar公司于2022年2月28日拍攝。圖像顯示,橫跨斯特雷鎮河的一座橋似乎已被摧毀。

提供光電圖像的常用衛星星座包括美國地質調查局運營的陸地衛星系列(Landsat),和歐洲航天局運營的哥白尼哨兵2號(Copernicus Sentinel-2)。這些星座提供10-60米分辨率的圖像,盡管這對于許多場景來說已經足夠用了,但它們無法觀察到更精細的細節。



2
光電衛星圖像的先進性與局限性

在過去幾年里,豐富的商業資源帶來了超高分辨率的光電圖像。Planet、Maxar、Airbus等公司每天都在對整個地球進行成像,他們提供了極為精確的圖像,分辨率介于0.3-2.0米之間,并且圖像重訪率很高。

為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

圖3: Maxar公司的超高分辨率光電圖像示例,顯示了浮式生產和儲存,卸載裝置,以及一艘油輪。

高分辨率圖像提供的更高分辨率能夠支持一系列的下游使用場景。比如,可以在更精細的尺度上檢測土壤侵蝕,還可以在災害之后對建筑物的損壞進行分類。機器學習方法必須要適應超高分辨率衛星圖像。隨著敏銳度的提高,像素的數量和可識別的類別數量已經增加了幾個數量級。計算機視覺研究對此給予的回應包括,降低計算成本以學習衛星圖像的有效表示,建立方法來減輕標注人員的工作負擔,設計大型軟件框架,來方便計算機視覺從業者對豐富的圖像來源進行處理。

通常來說,現有用于其它非航空RGB圖像的計算機視覺方法,能夠很好遷移到衛星圖像上來,這使得提供高精度結果的商業化超高分辨率圖像能夠立即被投入使用。

然而,盡管高分辨率光電圖像帶來如此多的益處,它仍具有一定的局限性。

對于戰爭和自然災害等高度混亂和危險的情況,持續并且可靠的地面觀測是至關重要的。遺憾的是,在這一點上,光電圖像無法滿足人們的全部監測需求。光電圖像只能在白天探測到光源,而現實情況是,在任何一個時間,都有接近2/3的地面被云層覆蓋。我們必須考慮云層問題,否則想要知道地面上發生了什么重要的事情時,這種地面上的阻礙就成了一個大麻煩。為了解決這個問題,機器學習方法試圖去移除圖像上的云層,來預測在無云的情況下觀測目標會是什么樣,但是這個過程中所丟失的信息基本上是不可恢復的。



3
SAR:夜間也能持續監測地面

合成孔徑雷達(SAR)圖像是一種主動遙感,衛星將微波雷達波脈沖向下傳輸到地球表面,這些雷達波從地面和地面的任何物體上反射回衛星。通過在時間和空間維度上將這些脈沖處理形成SAR圖像,其中的每一個像素都是由不同雷達散射的疊加。

雷達波能穿透云層,而且由于衛星持續地產生雷達波,所以即使在夜間也能照亮地球表面。合成孔徑雷達用途廣泛,可用于估測地表粗糙度、繪制大面積洪水范圍,以及監測受保護水域中是否有非法漁船出沒。

目前,有多個SAR衛星星座在運行。哥白尼哨兵1號星座向人們提供分辨率在10-80米之間的圖像(最常見的是10米分辨率圖像)。大多數商業SAR提供商,如芬蘭的ICEYE的公司和美國的Capella Space公司,能夠提供分辨率在0.5米的圖像。隨著衛星星座數量的增長和政府法規的發展,在即將推出的發射項目中,其它商業SAR提供商的目標是制作出分辨率在0.5米以下且具有高重訪率的圖像。

為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

圖4: Capella Space公司提供的烏克蘭-白俄羅斯邊界上的超高分辨率合成孔徑雷達圖像

雖然合成孔徑雷達圖像乍一看可能與光電圖像非常相似,但其物理原理卻大不相同,這導致圖像產出中出現了許多有趣的效應,這些效應可能是違反直覺的,并且與現代計算機視覺不相容。有三種常見的效應:極化效應(polarization),疊掩效應(layover),多路徑效應(multi-path)

極化效應

為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

圖5: 來自哨兵1號(Sentinel-1)輻射測量地形校正圖像,在烏克蘭第聶伯羅(Dnipro)的同一區域,VH極化(左)和VV極化(右)顯示出差異。雷達在相應的局部區域的回波可能不同。

SAR衛星上的雷達天線經常發射極化的雷達波。極化方向是波電場的方向。地面上的物體對雷達波的不同極化給予不同的反應 。因此,SAR衛星通常以雙極化或四極化模式運行,在水平(H)或垂直(V)方向上傳播極化波,從而產生HH、HV、VH和VV四種波段。所以,盡管我們可以將此與電光圖像中的RGB波段進行對比,但其物理學原理是不同的。

疊掩效應

為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

圖6: Capella公司的超高分辨率SAR圖像示例。體育場的上部似乎與其后方的停車場重疊。

疊掩效應是指雷達波束先到達距離更近的目標物體頂部,后達到更遠的目標物體底部,因而頂部先成像,導致物體的頂部與底部圖像形成重疊。當物體特別高時,這種情況就會發生。從視覺上看,高層建筑呈現出側臥狀,而山脈看起來則是山峰與基底相交。

多路徑效應

為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

圖7: 斜向SAR圖像中橋梁的多徑效應示例

當雷達波從地面上的物體反射,并在返回 SAR 傳感器之前發生多次反彈時,就會發生多路徑效應。多徑效應會導致目標物體在生成的圖像中以各種變換形式出現。這種效應在 SAR 圖像中隨處可見,但在城市地區、森林和其他密集環境中尤為明顯。

基于傳統RGB圖像的現有計算機視覺方法并未考慮到上述這些效應。在光電衛星圖像上訓練的物體檢測器,預設一個特定物體只會出現一次,或者該物體在不同的環境中看起來相對相似,而不是可能與周圍的物體呈現鏡像、分散或者交疊狀態。遮擋的本質和光電圖像中遮擋假設的視覺原理,不能直接運用到SAR圖像上來。

總而言之,現有的計算機視覺技術可以應用于 SAR 圖像,但性能會降低,并且會出現一套系統性錯誤,而這些錯誤可以通過專門針對SAR圖像模式的技術方法來解決。



4
SAR圖像的計算機視覺技術用于烏克蘭情報分析

在烏克蘭,圖像分析師目前使用區域上空可獲取的光電圖像和 SAR 圖像。當光電圖像可用時,為該模式構建的現有計算機視覺工具可有助于加快情報收集過程。但是,當只有 SAR 圖像可用時,這些工具就失效了。圖像分析人員不得不求助于人工分析,這既耗費時間又容易出錯。國際上的一些其它機構正在探索這個問題,但就可用數據量而言,這仍然是一個未被充分研究的領域。

伯克利人工智能研究中心創建了一套初始方法和模型,這些方法和模型從公開發布的 BigEarthNet-MM 數據集和Capella 的 Open Data 數據中,集中學習RGB圖像 、SAR圖像以及RGB+SAR共配圖像的魯棒表示。這兩個數據集都包含RGB和SAR圖像。通過使用這些模型,圖像分析師能夠交替使用 RGB、SAR 或 RGB+SAR共配圖像來執行多種下游視覺任務,例如圖像分類、語義分割、目標檢測或變化檢測。

SAR與EO圖像是具有不同現象學特征的數據源,在這個問題上,研究人員發現在使用SAR圖像來進行表示學習時,Vision Transformer (ViT) 是一種特別有效的架構,因為它消除了卷積神經網絡所固有的尺度和位移不變的歸納偏差。在進行RGB、SAR和RGB+SAR圖像的表示學習時,MAERS方法表現最佳,它基于何愷明等人(2021)提出的掩碼化自動編碼器(Masked Autoencoder,MAE),這是一種可擴展的自監督學習網絡:它將掩碼化數據作為輸入,學習對輸入數據的編碼,然后學習對數據的解碼,對非掩碼輸入數據進行重建。

與過往流行的對比學習視覺表示框架不同,MAE網絡并不預設數據中存在某些可能對于SAR特征而言成問題的增強不變性,相反,它只依賴對原始輸入數據的重建,這對于 RGB、SAR或RGB+ SAR模型來說是一個不可知過程。

如圖8所示,通過學習RGB、SAR和RGB+SAR通道的獨立輸入投影層,MAERS進一步對MAE加以擴展,使用共享的ViT網絡對這些投影層的輸出進行編碼,然后使用獨立的輸出投影層對RGB、SAR或RGB+SAR通道進行解碼。其后,輸入投影層和共享的ViT網絡可以運用到下游任務中,比如目標檢測或變化檢測,在這些任務中,RGB、SAR或RGB+SAR都可以進入輸入編碼器。

為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

圖8: 上方為MAERS學習聯合表示過程的可視化,下方為一個編碼器,可用于執行下游任務,比如用RGB或SAR或RGB+ SAR模型進行對象檢測。

學習RGB、SAR和RGB+SAR模式的表示,有助于執行一系列的下游任務,如基于內容的圖像檢索、分類、分割和檢測。為了證明所學習的表示方法的有效性,研究者在已有的基準上進行了實驗:一是對BigEarthNet-MM數據集中共配的EO和SAR場景進行多標簽分類;二是對SpaceNet 6數據集中超高分辨率的EO和SAR圖像進行語義分割。

對BigEarth-MM數據集進行多標簽分類

為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

圖9:(左)對哨兵2號的EO圖像和哨兵1號的SAR圖像進行分割,將其用于執行BigEarth-MM Challenge規定的多標簽分類任務。給多模型編碼器添加了一個線性層,然后進行端到端的微調。

MAERS使用一組用于ViT編碼器的ImageNet權重進行初始化,然后在BigEarthNet-MM數據集上對RGB、SAR和RGB+SAR圖像進行20個周期的預訓練。研究者在MAERS編碼器上附加了一個單一的線性層,并通過對整個模型進行20個周期的微調來學習多標簽分類任務。

結果顯示在表1中。經過微調的MAERS,優于BigEarthNet-MM論文所呈現的最佳RGB+SAR結果。而且,為了RGB、SAR和RGB+SAR輸入模式的表示學習,對本身已經近乎完美的MAE架構加以調整后,它依然產生了最好的結果。

為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

表1: BigEarthNet-MM測試集所報告的每一類F2分數。

對EO和SAR圖像進行語義分割

研究者進一步做了對建筑足跡進行語義分割的遷移學習實驗,這是一項“及時雨”性質的任務,將有助于圖像分析人員了解烏克蘭所遭受的破壞情況,并且它是在對建筑損失做評估之前的一個先行工作。對于政府官員、記者,和想要了解俄羅斯對基礎設施和平民襲擊的范圍和嚴重程度的人權組織來說,建筑損失評估都有直接的意義。

為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

圖10: 構建基于SAR圖像的MAERS分割示例,取自SpaceNet6。其中左邊顯示的是RGB圖像,右邊顯示的是疊加了分割結果的SAR圖像。SAR圖像以VV、VH和VV/VH波段的假色顯示。

在該實驗中,研究者使用SpaceNet 6數據集作為一個開放和公開的基準,來其用以構建來自Capella Space的VHR SAR圖像中的足跡檢測的表示學習的有效性。他們使用這個編碼器與UperNet架構串聯用于語義分割。圖11顯示了在只有SAR圖像輸入的SpaceNet 6的封閉驗證組件中,在訓練使用SAR或RGB圖像的分割模型上分割建筑所占用的IoU性能。與從頭開始訓練RGB+SAR模型或采用完全相同的結構調整ImageNet權值相比,MAERS預訓練模型可提高約13個點。

為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

圖11: 使用帶有ViT主干網絡的UperNet分割模型,在SpaceNet 6 Challenge上構建分割IoU。

這表明,MAERS可以學習RGB+SAR模式的魯棒表示,因此在完成下游任務時,使用EO或SAR圖像都是可行的。需要注意的是,在建筑物分割任務中,SAR圖像的現象學特征使其具有一定劣勢,而使用EO圖像執行該任務可獲得大于90的IoU得分。這便給SAR技術留下了一個巨大的空白,有待進一步研究。不過,當環境條件不利于EO圖像的捕獲時,從SAR圖像中獲得其性能仍十分重要。



5
技術與人道主義的合流

目前這項研究只得出了初步結果,但仍顯示出了很強的說服力。研究人員表示,他們將向人道主義伙伴提供研究模型,幫助他們對居民區和其他平民區進行環境變化檢測,以更好地揭示入侵者在烏克蘭犯下的戰爭罪行。

當前,人道主義組織正密切關注著烏克蘭的戰爭,這些模型將有助于提高人道主義工作的效率。不過,與任何其它技術一樣,我們需要警惕技術被不恰當地濫用。研究人員考慮到了這一點,他們在設計模型時,參考了在人道主義背景下進行情報和圖像分析的人員所提供的意見,將他們的想法、評論和批評納入考慮,從而提供了一種符合人類利益的工具,并在使用安全方面加上了一把鎖。

原文鏈接:https://bair.berkeley.edu/blog/?refresh=1為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

為了幫助烏克蘭分析情報,伯克利團隊用何愷明提出的MAE神經網絡加速雷達圖像分析

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章