首頁 > AI資訊 > 最新資訊 > 視覺提示新突破,IDEA研究院發(fā)布T-Rex模型,可在圖上直接選取“Prompt”

視覺提示新突破,IDEA研究院發(fā)布T-Rex模型,可在圖上直接選取“Prompt”

新火種    2023-11-27

繼火爆出圈的Grounded SAM之后,IDEA研究院團隊攜重磅新作歸來:全新視覺提示(Visual Prompt)模型T-Rex,以圖識圖,開箱即用,開啟開集檢測新天地。

拉框、檢測、完成!在剛剛結(jié)束的2023IDEA大會上,IDEA研究院創(chuàng)院理事長、美國國家工程院外籍院士沈向洋展示了基于視覺提示的目標(biāo)檢測新體驗,并發(fā)布了全新視覺提示模型T-Rex的模型實驗室(playground),Interactive Visual Prompt(iVP),掀起現(xiàn)場一波試玩小高潮。

在iVP上,用戶可以親自解鎖“一圖勝千言”的prompting體驗:在圖片上標(biāo)記感興趣的對象,向模型提供視覺示例,模型隨即檢測出目標(biāo)圖片中與之相似的所有實例。整套流程交互便捷,只需幾步操作就可輕松完成。

IDEA研究院4月份發(fā)布的Grounded SAM (Grounding DINO + SAM) 曾在Github上火爆出圈,至今已狂攬11K星。有別于只支持文字提示的Grounded SAM,此次發(fā)布的T-Rex模型提供著重打造強交互的視覺提示功能。

T-Rex具備極強的開箱即用特性,無需重新訓(xùn)練或微調(diào),即可檢測模型在訓(xùn)練階段從未見過的物體。該模型不僅可應(yīng)用于包括計數(shù)在內(nèi)的所有檢測類任務(wù),還為智能交互標(biāo)注場景提供新的解決方案。

團隊透露,研發(fā)視覺提示技術(shù)是源自對真實場景中痛點的觀察。有合作方希望利用視覺模型對卡車上的貨物數(shù)量進(jìn)行統(tǒng)計,然而,僅通過文字提示,模型無法單獨識別出每一個貨物。其原因是工業(yè)場景中的物體在日常生活中較為罕見,難以用語言描述。在此情況下,視覺提示顯然是更高效的方法。與此同時,直觀的視覺反饋與強交互性,也有助于提升檢測的效率與精準(zhǔn)度。

基于對實際使用需求的洞察,團隊將T-Rex設(shè)計成可接受多個視覺提示的模型,且具備跨圖提示能力。除了最基本的單輪提示模式,目前模型還支持以下三種進(jìn)階模式.

多輪正例模式:適用于視覺提示不夠精準(zhǔn)造成漏檢的場景正例+負(fù)例模式:適用于視覺提示帶有二義性造成誤檢的場景跨圖模式:適用于通過單張參考圖提示檢測他圖的場景

在同期發(fā)布的技術(shù)報告中,團隊總結(jié)了T-Rex模型的四大特性:

開放集:不受預(yù)定義類別限制,具有檢測一切物體的能力視覺提示:利用視覺示例指定檢測目標(biāo),克服罕見、復(fù)雜物體難以用文字充分表達(dá)的問題,提高提示效率直觀的視覺反饋:提供邊界框等直觀視覺反饋,幫助用戶高效評估檢測結(jié)果交互性:用戶便捷參與檢測過程,對模型結(jié)果進(jìn)行糾錯

研究團隊指出,在目標(biāo)檢測場景中,視覺提示的加入能夠補足文本提示的部分缺陷。未來,兩者的結(jié)合將進(jìn)一步釋放CV技術(shù)在更多垂直領(lǐng)域的落地潛能。

有關(guān)T-Rex模型的技術(shù)細(xì)節(jié),請參考同期發(fā)布的技術(shù)報告。


本項工作來自IDEA研究院計算機視覺與機器人研究中心。該團隊此前開源的目標(biāo)檢測模型DINO是首個在COCO目標(biāo)檢測上取得榜單第一的DETR類模型;在Github上大火的零樣本檢測器Grounding DINO與能夠檢測、分割一切的Grounded SAM,同樣為該團隊作品。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章