首頁 > AI資訊 > 最新資訊 > 吉娃娃or松餅難題被解決!IDEA研究院新模型打通文本視覺Prompt

吉娃娃or松餅難題被解決!IDEA研究院新模型打通文本視覺Prompt

新火種    2024-04-01

還記得黑客帝國經典的子彈時間嗎?

IDEA研究院最新檢測模型T-Rex2,可以齊刷刷給全部識別出來~

而面對難倒一眾大模型「吉娃娃or松餅」的難題,它只需被投喂一張吉娃娃的照片,就能瞬間迎刃而解。

吉娃娃or松餅難題被解決!IDEA研究院新模型打通文本視覺Prompt

此前,也是同樣的團隊,推出了基于視覺提示的檢測模型T-Rex。

如今,他們將視覺和文本提示融合,相互彌補各自的缺陷,實現了更強的目標檢測能力。

并且與多目標跟蹤模型結合后,各種視頻檢測任務也不在話下。

來看新研究到底說了什么。

打通文本和視覺提示

在開集目標檢測領域,盡管文本提示受到一定的青睞,但也存在一定的局限性。

比如長尾數據短缺。稀有或者全新的物體類別的數據稀缺可能會削弱其學習效率。還有描述上的局限性,對于一些難以用語言描繪的對象,因受限于無法精確描述,也會削弱效果。

而視覺提示提供了更直觀且直接的對象表示方法,但在捕捉常見對象的概念時效果就會很差。

T-Rex2通過對比學習在單個模型中整合兩種提示,因此接受多種格式的輸入,包括文本提示、視覺提示以及兩者的組合。

吉娃娃or松餅難題被解決!IDEA研究院新模型打通文本視覺Prompt

在不同場景中,它可以通過在兩種提示方式之間切換來處理。

因此,它大致有三種工作模式:

文本提示模式、交互式視覺提示模式、通用視覺提示模式。

吉娃娃or松餅難題被解決!IDEA研究院新模型打通文本視覺Prompt

以通用視覺提示模式為例,用戶可以通過向模型提供任意數量的示例圖片,來自定義特定對象的視覺嵌入,然后使用這個嵌入來檢測任意圖像中的對象。

也就是不需要用戶與模型直接互動,就能完成檢測任務。

最終在在四個學術基準測試集 COCO, LVIS, ODinW, 和Roboflow100 上取得了 Zero-Shot SOTA的性能。

吉娃娃or松餅難題被解決!IDEA研究院新模型打通文本視覺Prompt開箱即用諸多領域

無需重新訓練或微調,T-Rex2即可檢測模型在訓練階段從未見過的物體。

該模型不僅可應用于包括計數在內的所有檢測類任務,還為智能交互標注領域提供新的解決方案。

吉娃娃or松餅難題被解決!IDEA研究院新模型打通文本視覺Prompt

除此之外,結合現有的多目標跟蹤模型( 如ByteTrack ),T-Rex2還可用于視頻檢測任務。

吉娃娃or松餅難題被解決!IDEA研究院新模型打通文本視覺Prompt

事實上,這種跨圖檢測能力,讓目標檢測技術在生產生活中可以真正開始廣泛應用。

比如工業生產流水線器件檢測,交通航運領域的船舶、飛機檢測,農業領域的農作物、果蔬檢測,生物醫學領域的細胞、組織檢測,物流領域的貨物檢測,環境領域的野生動物監測等。

現在,T-Rex2讓通用物體檢測又邁出了新的一步。

試玩鏈接:https://deepdataspace.com/playground/ivpT-Rex2 API:https://github.com/IDEA-Research/T-Rex論文鏈接:https://arxiv.org/abs/2403.14610

— 完 —

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章