首頁 > AI資訊 > 最新資訊 > 機器視覺領域迎來GPT-3時刻!新模型接連炸場圖像識別門檻大幅降低

機器視覺領域迎來GPT-3時刻!新模型接連炸場圖像識別門檻大幅降低

新火種    2023-09-21

《科創板日報》4月10日訊(編輯 鄭遠方)短短一周不到,視覺領域接連迎來新模型“炸場”,圖像識別門檻大幅降低——

這場AI熱潮中鮮見動靜的Meta終于出手,推出Segment Anything工具,可準確識別圖像中的對象,模型和數據全部開源;

國內智源研究院視覺團隊也提出了通用分割模型SegGPT(Segment Everything in Context),這也是首個利用視覺上下文完成各種分割任務的通用視覺模型。

其中,Meta的項目包括模型Segment Anything Model(SAM)、數據集Segment Anything 1-Billion mask dataset(SA-1B),公司稱后者是有史以來最大的分割數據集。

引起業內轟動的便是這一SAM模型:

1. 正如名字“Segment Anything”一樣,該模型可以用于分割圖像中的一切對象,包括訓練數據中沒有的內容;

2. 交互方面,SAM可使用點擊、框選、文字等各種輸入提示(prompt),指定要在圖像中分割的內容,這也意味著,用于自然語言處理的Prompt模式也開始被應用在計算機視覺領域。

3. 對于視頻中物體,SAM也能準確識別并快速標記物品的種類、名字、大小,并自動用ID為這些物品進行記錄和分類。

英偉達人工智能科學家Jim Fan將Meta的這項研究稱作計算機視覺領域的“GPT-3時刻”之一——其分割方法可以通用,可對不熟悉的物體和圖像進行零樣本泛化,初步驗證了多模態技術路徑及其泛化能力。

進一步來說,SAM可以靈活集成于更大的AI系統。例如,理解網頁的視覺和文本內容;在AR/VR領域,將頭顯用戶視線作為提示來選擇對象,然后將其“提升”到3D中;對于內容創作者,SAM可提取圖像區域以進行拼貼或視頻編輯;SAM還可通過定位動物或物體在視頻中進行研究和跟蹤。

另一方面,智源研究院視覺團隊的SegGPT模型則更偏重于批量化標注分割能力。無論是在圖像還是視頻環境,用戶在畫面上標注識別一類物體,即可批量化識別分割出其他所有同類物體。

例如,若在一張圖像中標注彩虹,便可將其他圖像中的彩虹也一同批量識別分割出來。

西部證券指出,Meta此次推出SAM,預示著大模型在多模態發展方面更進一步,布局計算機視覺/視頻的廠商有望持續受;還有券商補充稱,SAM模型突破了機器視覺底層技術。

國盛證券預計,預計1-5年內,多模態發展將帶來AI泛化能力提升,通用視覺、通用機械臂、通用物流搬運機器人、行業服務機器人、真正的智能家居會進入生活;5-10年內,結合復雜多模態方案的大模型有望具備完備的與世界交互的能力,在通用機器人、虛擬現實等領域得到應用。

據《科創板日報》不完全統計,A股中有望受益于多模態發展的公司有:

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章