北大騰訊打造多模態(tài)15邊形戰(zhàn)士!語言作“紐帶”,拳打腳踢各模態(tài),超越Imagebind
北大聯(lián)合騰訊打造了一個多模態(tài)15邊形戰(zhàn)士!以語言為中心,“拳打腳踢”視頻、音頻、深度、紅外理解等各模態(tài)。具體來說,研究人員提出了一個叫做LanguageBind的多模態(tài)預(yù)訓(xùn)練框架。用語言作為與其它模態(tài)之間的紐帶,凍結(jié)語言編碼器,然后用對比學(xué)習(xí)方法,將各個模態(tài)映射到一個共享的特征空間,