用語言對齊多模態(tài)信息,北大騰訊等提出LanguageBind,刷新多個榜單
北京大學(xué)與騰訊等機(jī)構(gòu)的研究者們提出了多模態(tài)對齊框架 ——LanguageBind。該框架在視頻、音頻、文本、深度圖和熱圖像等五種不同模態(tài)的下游任務(wù)中取得了卓越的性能,刷榜多項(xiàng)評估榜單,這標(biāo)志著多模態(tài)學(xué)習(xí)領(lǐng)域向著「大一統(tǒng)」理念邁進(jìn)了重要一步。在現(xiàn)代社會,信息傳遞和交流不再局限于單一模態(tài)。