AI2南郵校友等打造Unified-IO2:首個視覺/語言/音頻/動作多模態模型
來源:新智元
首個視覺、語言、音頻和動作多模態模型Unified-IO 2來了!它能夠完成多種多模態的任務,在超過30個基準測試中展現出了卓越性能。首個具備理解和創造圖像、文本、音頻以及動作能力的自回歸多模態模型來了!
來自艾倫人工智能研究所、伊利諾伊大學厄巴納-香檳分校、華盛頓大學的學者提出了Unified-IO 2。

為了整合不同類型的數據,研究人員將圖像、文本、音頻、動作等各種輸入和輸出轉換成統一的語義表征,再通過一個統一的編解碼器Transformer模型進行處理。
訓練這樣多樣化的數據類型是極其復雜的,因此研究人員設計了多種架構優化方案,來提高模型的穩定性。
研究人員使用來自各種來源的大型多模態預訓練語料庫,通過具有去噪器目標的多模態混合,從頭開始訓練模型。

為了掌握如遵循多模態指令等廣泛的技能,研究人員還特意構建并微調了一個包含120 個現有數據集的集合,并對其進行了擴展和優化。
Unified-IO 2作為一個統一的多功能模型,在GRIT基準測試中取得了SOTA,在超過30個基準測試中展現出了卓越的性能,包括圖像生成與理解、文本理解、視頻和音頻理解以及機器人操作等領域。
研究人員會將這些模型開放給研究社區,共同推動科學研究的進展。
效果展示
Unified-IO 2能夠完成多種多模態的任務:為圖片添加標注,執行各種自由格式的指令,編輯圖片,檢測圖中物體,進行圖片的語義分割(semantic segmentation)、表面法線(surface normal)分析,以及根據圖片生成音頻等。
比如,輸入一幅湖景,它就會給出眼前景象的描述。
你可以要求它給出更細節的描述,分享自己對此的個人印象,還能讓它告訴你來這里游玩有哪些注意事項。
你可以讓它根據眼前的景象生成一段音樂,讓畫風變得像鬧鬼一樣、把橋變成紅色、把場景變成午夜或者日出、把畫面變成達芬奇的畫風,甚至把橋移除。

自然語言
在自然語言上,Unified-IO 2的性能也很強大。
它可以寫一個python函數,來查找列表中最短的字符串:

寫一個Python函數,找到小于n的所有偶數自然數的和:

給一份炒雞蛋的食譜:

還能成功做出邏輯題。
前提: 「有人站在一棟建筑的外面?!辜僭O: 「站在建筑附近的人正在外面等他的朋友?!拐垎栠@個假設能從前提中推斷出來嗎?請給出你的解釋。
常識問題,都回答得很好,比如最后加入美國的州是哪個?

彩虹是怎么產生的?

甚至能讀懂語句中很細微的暗示。比如「圖片很漂亮,但缺乏實質性的東西」,這個產品評論是偏正面還是偏負面?

它會回答:是負面。

圖像生成
圖像生成上,Unified-IO 2的表現也很讓人驚喜。
一張快樂的狗狗在紐約旅行時與地標合影的照片。

將木板路改成小徑。


繪制一幅圖像:夜晚的河畔,倒映著月光,散發著浪漫氣息。一只小船靜靜地泊在河中,周圍是旅游勝地的島嶼和閃爍的篝火。這幅圖應當與草圖風格保持一致,畫面中還應包含藝術家Kim Norlien的特色元素。
Photo wallpaper night, reflection, river, stay, the moon, romance, boat, picture, Kim Norlien, tourism, island, the fire. It should match sketch
上面為生成的,下面是原圖
根據提供的表面法線圖(surface normal map),創作一幅圖像,這幅圖像要體現出homify設計的工業風格餐廳的特點。


上面為生成的,下面是原圖
創建與草圖一致的1280x2120曼達洛人第2季4k 2021 Iphone 6高清4k壁紙、圖像、背景、照片和圖片的圖像。


上面為生成的,下面是原圖
音頻生成
文本轉音頻顯然是小case了。
比如,朗讀:「Many animals of even complex structure which live parasitically within others are wholly devoid of an alimentary cavity.」
很多結構上相當復雜的動物,它們寄生在其他生物體內,卻完全沒有消化系統。不僅如此,我們隨便給一張樂器的照片,Unified-IO 2都能生成對應的聲音。

甚至,Unified-IO 2還可以根據圖片中的場景生成音樂。

有趣的是,當我們把這幅圖的色調和氛圍調「暗」之后,生成音樂也變得陰郁了起來。

此外,我們還可以通過自然語言描述,讓Unified-IO 2生成對應風格的音樂。
比如,創作一首慢節奏的雷鬼風格歌曲,以濃郁的貝斯和鼓點為主導。
圖像理解
問:在這種情況下,我應該注意什么?
答:在霧蒙蒙的夜晚或能見度低時駕車,要特別留意。路上停有幾輛車,包括卡車,因此駕駛時要格外小心,維持適當的車速,并時刻準備應對夜晚燈光可能帶來的眩光和突如其來的障礙物。密切關注交通標志和信號,以及其他車輛的動向,確保在這種復雜的駕駛條件下安全行駛。另外,由于能見度可能影響你對前后車輛的觀察,建議你采取防御性駕駛策略,并與其他車輛保持足夠的安全距離。
問:有幾把椅子?
答:房間里有三把椅子。
問:這張圖片最有可能在哪里?
答:這幅圖片極有可能是展示了華盛頓州雪白覆蓋的雷尼爾山。雷尼爾山以其顯赫和壯麗著稱,無論是從附近的森林、小山丘還是山脈,都能享受到令人贊嘆的美景。
問:請詳細描繪這幅圖像,并談談你對這一場景的感受。
答:畫面中,一座木制的小碼頭靜靜地伸向寧靜的湖面,湖周圍綠樹成蔭。整個場景透出一股寧謐祥和的氣息。遠處,山脈層巒疊嶂,綿延至天際。碼頭幾乎橫跨整個畫面,映襯著周遭自然的壯麗。湛藍的湖水與遠處翠綠山峰的鮮明對比,使得這幅景色更加迷人。總的來說,這幅圖捕捉到了戶外大自然的寧靜與純粹,展現了一片讓人向往的田園風光。
視頻理解
問:視頻里的那個男人在做些什么?
答:視頻里,這位男士在鏡頭前跳著舞,擺出各種姿勢,炫耀他那精湛的舞步和流暢的身姿。
問:機器人在做什么?
答:把桌上的橙色物品放到烤箱里。
根據物體之前的位置信息,能預測出它接下來會出現在哪里嗎?

音頻理解
在給定圖像中找到聲源的邊界框。

找到產生給定聲音的樂器的位置。

圖像稀疏標注
給出圖像中物體的種類和定位框。(參照COCO數據集)


找到圖像中的所有對象。


找出并標識出這只貓的關鍵特征點。


圖像密集標注
創建一個用于識別朝上表面的分割圖(segmentation map)。


通過將每個像素的方向編碼到圖像中來計算此圖像的表面法線。請使用紅色表示z方向,綠色表示y方向。


將葡萄和蘋果分割開來。


具身智能與3D
通過Unified-IO 2,可以讓機器人把所有紅色木塊掃到綠色框內,同時不越界。



在當前機器人RGB觀察和提示「選擇綠色矩形塊并將其放在黃色和紅色塊之間的桌子上」的情況下,目標圖像是什么樣子的?


根據智能體的觀察和行動創建圖片。


方法
統一任務表征
Unified-IO 2通過一個統一的編解碼器Transformer來處理不同類型的數據,如圖片、文本、音頻、動作和邊界框等。它會將這些不同形式的輸入和輸出轉換為共享表征空間里的token序列。
顧名思義,該方法是在Unified-IO基礎上進行改進的。這次,研究人員不僅提升了處理效能,還為更多的數據類型增加了新的編碼器和解碼器。

模型架構
研究人員發現,直接在初代Unified-IO方案中加入更多類型的數據,會讓訓練過程會變得不穩定。
如圖3 (a) (b)所示,如果只進行圖像生成任務(綠色曲線),損失值和梯度范數會穩定下降。當加入圖像和文本任務的混合(橙色曲線)時,梯度范數相較于單一數據類型有輕微上升,但整體仍然穩定。然而,一旦加入視頻數據(藍色曲線),梯度范數就會無限制地飆升。
當模型的超大型(XXL)版本在所有類型的數據上進行訓練時,如圖3 (c) (d)所示,訓練步數達到350k后損失值急劇上升,到了400k步數時,下一個token的預測準確度也大幅下降。

為了應對這個問題,研究人員引入了多項架構改進,顯著提高了多類型數據訓練的穩定性。
- 2D旋轉位置嵌入
模型每一層Transformer中都采用了旋轉位置嵌入(RoPE),而不是相對位置嵌入。
并且,對于圖像等非文本數據,研究人員還對RoPE進行了二維空間的擴展——
對于任意的二維坐標(i, j),把Transformer注意力機制中的查詢(query)和鍵(key)向量分為兩部分,然后分別對這兩部分應用由兩個坐標生成的旋轉嵌入。
- QK歸一化
在將圖像和音頻模態結合進來時,多頭注意力對數值非常大,這會導致注意力權重要么是0,要么是1,從而造成訓練的不穩定。
為了克服這一問題,研究人員在進行點積注意力機制的計算之前,對查詢(query)和鍵(key)向量先進行了層歸一化(LayerNorm)。
- 縮放余弦注意力
研究人員采用了一種稱為感知器重采樣器的技術,將每一幀圖像和音頻片段轉換成固定數目的token。
為了解決QK歸一化后,感知器內部計算出的注意力對數依然會增長到極值的問題,研究人員在感知器中采用了一種稱為縮放余弦注意力的更為嚴格的歸一化方法,從而大大增強了訓練過程的穩定性。
為了防止數值計算上的不穩定,研究人員還啟用了32位浮點數來處理注意力對數。
此外,同時更新視覺 Transformer(ViT)和音頻空間 Transformer(AST)這兩個預訓練模型可能會導致不穩定現象。于是,研究人員選擇在預訓練階段凍結這兩個模型的參數,然后在訓練的最后階段再進行微調。
如圖4所示,盡管處理的輸入和輸出數據類型多種多樣,Unified-IO 2模型在預訓練過程中顯示出了穩定的損失曲線。

多模態數據
與之前的研究相比,UNIFIED-IO 2從一開始就使用了多種類型的多模態數據對模型進行訓練。
這就需要精心準備高質量的開源多模態數據,既用于模型的預訓練,也用于模型根據指令進行微調。
預訓練
- 自然語言處理(33%)
- 圖文(40%)
- 音視頻(25%)
- 3D和具身(1%)
- 數據增強(1%)

指令微調
多模態指令調整是一個關鍵過程,它使得模型能夠掌握多種模態的豐富技能和能力,并能夠適應新穎和特殊的指令。
研究人員通過組合多種監督學習的數據集和任務,構建了一個多模態指令調整數據集,確保每個任務都配有明確的任務指令。
此外,研究人員還引入了開放式任務,并為那些不太常見的模態設計了合成任務,以此來豐富任務類型和指令的多樣性。
最終完成的任務集合包含了超過120個外部數據集中的220個任務。
- 自然語言理解(25.0%)
- 圖像生成(17.6%)
- 音頻生成(7.5%)
- 圖像理解(17.8%)
- 視頻理解(10.6%)
- 音頻理解(10.6%)
- 圖像稀疏標注(7.25%)
- 圖像密集標注(4.06%)
- 視頻稀疏標注(3.42%)
- 具身智能(4.33%)
如圖6所示,指令微調數據的分布情況如下:60%的提示性數據(prompting data);為了防止模型學習新知識時出現災難性遺忘而保留的30%的預訓練數據;6%的任務擴展數據;由自由對話組成的4%文本數據,從而更好地生成類似聊天的回答。

實驗評估
研究人員在包括自然語言推斷、文本生成圖像以及文本生成音頻等關鍵領域對Unified-IO 2進行評估。
如表2所示,Unified-IO 2在生成和理解任務上,性能與專門針對特定任務的模型或通用的多模態模型相當,甚至更強。

研究人員對通用圖像任務魯棒性(GRIT)基準進行了評估,該基準包含七項任務:分類、定位、視覺問答、指代識別、實例分割、關鍵點檢測和表面法向量估計。
要完成這七項任務,需要理解圖像、文本和稀疏輸入,并能夠生成文本、稀疏和密集型輸出。
盡管這些任務只 Unified-IO 2支持的模式的一部分,研究人員之所以選擇在GRIT上進行評估,是因為它為這些能力提供了一個標準化且綜合性的評價體系。
評估結果見表3。
總體來看,Unified-IO 2在GRIT上的表現達到了行業領先水平,比之前最好的模型Unified-IO高出了2.7分。
在各項單獨任務中,可以觀察到在定位(提高了3分)、分類(提高了14分)、分割(提高了2分)和關鍵點檢測(提高了5分)方面取得了進步。
在視覺問答任務上,GRIT評估顯示Unified-IO 2在處理相同數據源的問題上表現更佳,這表明性能差距主要是由于處理從視覺基因組數據庫新構建的問題時會表現不佳。

表4展示了模型在生成圖像、音頻和動作輸出方面的任務上的成績。
研究人員采用了TIFA進行評估,該方法通過視覺問答模型來衡量生成內容與指令的吻合度,并且與人類評價有較高的一致性。
研究人員還使用了在MS COCO數據集上的FID指標進行評估。
在TIFA上的測試結果顯示,Unified-IO 2的得分與minDALL-E相近,并且比其他綜合型模型,比如CoDi和Emu,領先約10分。

從表5可以看出,Unified-IO 2在指代理解能力上仍然取得了出色的成績,與之前在通用多模態模型方面的研究相比,有著明顯的優勢。
在支持更高品質的圖像和文本生成方面,Unified-IO 2還能處理更多種類的任務和多種形式的數據,這充分證明了模型在處理多任務方面的強大能力。
研究人員對視覺與語言任務的性能進行了評估,并將其與其他能夠執行多項任務并遵循指令的視覺-語言綜合型模型進行了對比,結果如表5所示。

Unified-IO 2在視覺問答任務(VQA)中表現出色,僅次于體量更大的13B LLaVa模型在VQA v2的成績,并在ScienceQA和TallyQA上超過了所有其他綜合型模型。
OK-VQA是個例外。研究人員推測,這可能是因為該任務需要外部知識,因此廣泛的語言預訓練變得尤為重要,這也是為什么模型在性能上不如Qwen-VL和mPLUG-Owl2這些進行了深入文本預訓練的專用語言模型。
如表6所示,Unified-IO 2在音頻和視頻的分類、生成視頻標注以及視頻問答任務上都有不錯的表現。
值得一提的是,在Seed-Bench Temporal的測試中,Unified-IO 2比BLIP-2和InstructBLIP高出了8.5分。在Kinetics-Sounds的測試上,Unified-IO 2也超過了只在這一數據集上進行訓練的MBT。

表7展示了單個物體的3D檢測結果。
模型在Objectron基準上取得了與CubeRCNN相媲美的好成績。
然而,在nuScenes和Hypersim上的多物體3D檢測任務中,性能卻有了明顯的下降。這可能是因為訓練數據中只有1.0%是針對3D檢測的。

結論
Unified-IO 2是首個能夠理解和創造圖像、文本、音頻以及動作的自回歸多模態模型(autoregressive multimodal model)。
這個模型從零基礎開始,在各種多模態數據上接受訓練,并通過針對大型多模態語料庫的指令微調,進一步提升了其性能。
為了穩定多模態訓練過程,研究人員進行了若干架構上的改進,并提出了一種多模態混合去噪目標(multimodal mixture of denoiser objective),這使得模型能夠更有效地處理多種類型的數據信號。
研究證明了從大語言模型(LLM)向多模態模型(LMM)的發展,將會為我們帶來了更多的新能力和可能性。
作者介紹
Jiasen Lu

Jiasen Lu是艾倫人工智能研究所的研究科學家,研究領域包括計算機視覺和視覺與語言的交叉研究。
他本科畢業于南京郵電大學,在紐約州立大學布法羅分校獲得了碩士學位。隨后,分別于弗吉尼亞理工大學和佐治亞理工學院取得了計算機工程和計算機科學的博士學位。
Zichen Zhang

Zichen Zhang是艾倫人工智能研究所的預博士研究員(Predoctoral Young Investigators, PYI),由Luca Weihs指導。
在此之前,他曾在由斯坦福視覺與學習實驗室(SVL)和英偉達組成的聯合團隊中從事研究工作,負責人分別是Jim Fan和Yuke Zhu。
他畢業于山東省實驗中學,并在瑪卡萊斯特學院獲得數學與計算機科學學士學位。

- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。