首頁 > AI資訊 > 最新資訊 > 把整個(gè)地球裝進(jìn)神經(jīng)網(wǎng)絡(luò),北航團(tuán)隊(duì)推出全球遙感圖像生成模型

把整個(gè)地球裝進(jìn)神經(jīng)網(wǎng)絡(luò),北航團(tuán)隊(duì)推出全球遙感圖像生成模型

新火種    2024-12-30

北航的研究團(tuán)隊(duì),用擴(kuò)散模型“復(fù)刻”了一個(gè)地球?

在全球的任意位置,模型都能生成多種分辨率的遙感圖像,創(chuàng)造出豐富多樣的“平行場景”。

而且地形、氣候、植被等復(fù)雜的地理特征,也全都考慮到了。

受Google Earth啟發(fā),北航的研究團(tuán)隊(duì)從俯拍視角出發(fā),將整顆地球的衛(wèi)星遙感影像“裝進(jìn)”了深度神經(jīng)網(wǎng)絡(luò)。

基于這樣的網(wǎng)絡(luò),團(tuán)隊(duì)構(gòu)建出了覆蓋全球的俯視視角視覺生成模型MetaEarth。

MetaEarth擁有6億參數(shù),可實(shí)現(xiàn)多種分辨率、無界且覆蓋全球任意地理位置的遙感圖像生成。

覆蓋全球的遙感圖像生成模型

相比于此前的研究,構(gòu)建世界范圍的視覺生成基礎(chǔ)模型更具挑戰(zhàn)性,過程之中克服了多個(gè)難點(diǎn)。

首先是模型容量的挑戰(zhàn),因?yàn)榈厍蚓哂谐鞘小⑸帧⑸衬⒑Q蟆⒈ê脱┑氐葟V泛的地理特征,需要模型能夠理解并表征。

即使是同一類型的人造地物,在不同的緯度、氣候和文化環(huán)境下,也會(huì)表現(xiàn)出巨大差異,這對生成模型的容量提出了很高的要求。

MetaEarth成功解決了這一困難,實(shí)現(xiàn)了不同地點(diǎn)、地貌的高分辨率、大范圍場景生成。

另外,實(shí)現(xiàn)分辨率可控的遙感圖像生成,同樣是一項(xiàng)挑戰(zhàn)。

因?yàn)樵诟┡膱D像成像過程中,地物特征的展現(xiàn)受分辨率影響很大,在不同圖像分辨率下具有明顯的差異,難以具備在指定分辨率(米/像素)下精準(zhǔn)生成的能力。

而在MetaEarth生成不同分辨率的圖像時(shí),都能準(zhǔn)確合理地呈現(xiàn)地物特征,而且不同分辨率之間的關(guān)聯(lián)性也得到了精確對應(yīng)。

最后是無界圖像生成的挑戰(zhàn)——與日常自然圖像不同,遙感圖像具有超大幅寬的特性,邊長可能達(dá)到數(shù)萬像素,此前的方法都難以生成連續(xù)、任意大小的無界圖像。

但MetaEarth生成的連續(xù)無界場景,避開了這一缺陷,可以看到隨著“鏡頭”的平移圖像的移動(dòng)十分絲滑。

此外,MetaEarth具有強(qiáng)大的泛化性能,能夠以未知場景作為條件輸入級聯(lián)生成多分辨率圖像。

例如,將GPT4-V生成的“潘多拉星球”作為初始條件輸入模型,MetaEarth仍然能夠生成具有合理地物分布和逼真細(xì)節(jié)的圖像。

下游任務(wù)上的驗(yàn)證結(jié)果表明,MetaEarth作為一種全新的數(shù)據(jù)引擎,有望為地球觀測領(lǐng)域各類下游任務(wù)提供虛擬環(huán)境和訓(xùn)練數(shù)據(jù)支持。

實(shí)驗(yàn)過程中,作者選擇了遙感圖像分類這一基礎(chǔ)任務(wù)進(jìn)行驗(yàn)證,結(jié)果顯示,MetaEarth所生成的高質(zhì)量圖像的輔助下,下游任務(wù)分類精度有顯著提升。

作者認(rèn)為,MetaEarth有望為衛(wèi)星等空天無人系統(tǒng)平臺(tái)提供一個(gè)逼真的虛擬環(huán)境,并在城市規(guī)劃、環(huán)境監(jiān)測、災(zāi)害管理、農(nóng)業(yè)優(yōu)化等領(lǐng)域廣泛應(yīng)用;

除了作為數(shù)據(jù)引擎之外,MetaEarth在構(gòu)建生成式世界模型方面也具有巨大潛力,為未來的研究提供新的可能。。

那么,MetaEarth究竟是如何實(shí)現(xiàn)的呢?

6億參數(shù)擴(kuò)散模型“復(fù)刻”地球

MetaEarth基于概率擴(kuò)散模型構(gòu)建,具有超過六億的參數(shù)規(guī)模。

為支持模型訓(xùn)練,團(tuán)隊(duì)收集了一個(gè)大型遙感圖像數(shù)據(jù)集,包含覆蓋全球大多數(shù)地區(qū)的多個(gè)空間分辨率的圖像及其地理信息(緯度、經(jīng)度和分辨率)。

在本項(xiàng)研究中,作者提出了一種分辨率引導(dǎo)的自級聯(lián)生成框架。

MetaEarth的整體框架

在該框架下,僅用單一模型即可實(shí)現(xiàn)給定地理位置的多分辨率圖像生成,并在每一級分辨率下創(chuàng)造出豐富多樣的“平行場景”。

具體來說,這是一種編解碼器結(jié)構(gòu)的去噪網(wǎng)絡(luò),將低分辨率條件圖像和空間分辨率編碼后與去噪過程的時(shí)間步嵌入相結(jié)合,預(yù)測每個(gè)時(shí)間步的噪聲,實(shí)現(xiàn)圖像生成。

為了生成無界的任意大小圖像,作者還設(shè)計(jì)了一種內(nèi)存高效的滑動(dòng)窗口生成方法和噪聲采樣策略。

該策略將生成的圖像切分成重疊的圖像塊作為條件,通過特定的噪聲采樣策略,使相鄰圖像塊的共享區(qū)域生成相似的內(nèi)容,從而避免拼接縫隙。

此外,這種噪聲采樣策略,也使得模型能在實(shí)現(xiàn)任意尺寸的無界圖像生成時(shí),消耗更少的顯存資源。

團(tuán)隊(duì)簡介

本研究的作者來自北京航空航天大學(xué)的“學(xué)習(xí)、視覺與遙感實(shí)驗(yàn)室”(LEarning, VIsion and Remote sensing laboratory,LEVIR Lab),實(shí)驗(yàn)室由國家杰青史振威教授領(lǐng)導(dǎo)。

史振威教授曾經(jīng)的博士生、密歇根大學(xué)博士后,現(xiàn)任該實(shí)驗(yàn)室成員的鄒征夏教授,是本文的通訊作者。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章