首頁 > AI資訊 > 最新資訊 > ChatGPTApp重大進化!能看能聽還會說,多模態(tài)模型細節(jié)同時公布

ChatGPTApp重大進化!能看能聽還會說,多模態(tài)模型細節(jié)同時公布

新火種    2023-09-26
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAIOpenAI連發(fā)兩則重磅消息,首先ChatGPT可以看、聽、說了。新版ChatGPT開啟一種更直觀的交互方式,可以向AI展示正在談論的內(nèi)容。比如拍一張照片,詢問如何調(diào)整自行車座椅高度。官方還給出另一個實用場景思路:打開冰箱拍一張照片,詢問AI晚餐可以吃什么,并生成完整菜譜。更新將在接下來的兩周內(nèi)向ChatGPT Plus訂閱用戶和企業(yè)版用戶推出,iOS和安卓都支持。與此同時,多模態(tài)版GPT-4V模型更多細節(jié)也一并放出。其中最令人驚訝的是,多模態(tài)版早在2022年3月就訓練完了……看到這里,有網(wǎng)友靈魂發(fā)問:有多少創(chuàng)業(yè)公司在剛剛5分鐘之內(nèi)死掉了?看聽說皆備,全新交互方式更新后的ChatGPT移動APP里,可以直接拍照上傳,并針對照片中的內(nèi)容提出問題。比如“如何調(diào)整自行車座椅高度”,ChatGPT會給出詳細步驟。如果你完全不熟悉自行車結(jié)構(gòu)也沒關(guān)系,還可以圈出照片的一部分問ChatGPT“說的是這個嗎?”。就像在現(xiàn)實世界中用手給別人指一個東西一樣。不知道用什么工具,甚至可以把工具箱打開拍給ChatGPT,它不光能指出需要的工具在左邊,連標簽上的文字也能看懂。提前得到使用資格的用戶也分享了一些測試結(jié)果。可以分析自動化工作流程圖。但是沒有認出一張劇照具體出自哪部電影。△認出的朋友歡迎在評論區(qū)回復語音部分的演示還是上周DALL·E 3演示的聯(lián)動彩蛋。讓ChatGPT把5歲小朋友幻想中的“超級向日葵刺猬”講成一個完整的睡前故事。△DALL·E3演示ChatGPT這次講的故事文字摘錄如下:過程中更具體的多輪語音交互細節(jié),以及語音試聽可參考視頻。多模態(tài)GPT-4V能力大揭秘結(jié)合所有公布的視頻演示與GPT-4V System Card中的內(nèi)容,手快的網(wǎng)友已經(jīng)總結(jié)出GPT-4V的視覺能力大揭秘。物體檢測:GPT-4V可以檢測和識別圖像中的常見物體,如汽車、動物、家居用品等。其物體識別能力在標準圖像數(shù)據(jù)集上進行了評估。文本識別:該模型具有光學字符識別 (OCR) 功能,可以檢測圖像中的打印或手寫文本并將其轉(zhuǎn)錄為機器可讀文本。這在文檔、標志、標題等圖像中進行了測試。人臉識別:GPT-4V可以定位并識別圖像中的人臉。它具有一定的能力,可以根據(jù)面部特征識別性別、年齡和種族屬性。其面部分析能力是在 FairFace 和 LFW 等數(shù)據(jù)集上進行測量的。驗證碼解決:在解決基于文本和圖像的驗證碼時,GPT-4V顯示出了視覺推理能力。這表明該模型具有高級解謎能力。地理定位:GPT-4V 具有識別風景圖像中描繪的城市或地理位置的能力,這證明模型吸收了關(guān)于現(xiàn)實世界的知識,但也代表有泄露隱私的風險。復雜圖像:該模型難以準確解釋復雜的科學圖表、醫(yī)學掃描或具有多個重疊文本組件的圖像。它錯過了上下文細節(jié)。同時也總結(jié)了GPT-4V目前的局限性。空間關(guān)系:模型可能很難理解圖像中對象的精確空間布局和位置。它可能無法正確傳達對象之間的相對位置。對象重疊:當圖像中的對象嚴重重疊時,GPT-4V 有時無法區(qū)分一個對象的結(jié)束位置和下一個對象的開始位置。它可以將不同的對象混合在一起。背景/前景:模型并不總是準確地感知圖像的前景和背景中的對象。它可能會錯誤地描述對象關(guān)系。遮擋:當圖像中某些對象被其他對象部分遮擋或遮擋時,GPT-4V 可能無法識別被遮擋的對象或錯過它們與周圍對象的關(guān)系。細節(jié):模型經(jīng)常會錯過或誤解非常小的物體、文本或圖像中的復雜細節(jié),從而導致錯誤的關(guān)系描述。上下文推理:GPT-4V缺乏強大的視覺推理能力來深入分析圖像的上下文并描述對象之間的隱式關(guān)系。置信度:模型可能會錯誤地描述對象關(guān)系,與圖像內(nèi)容不符。同時System Card中也重點聲明了“目前在科學研究和醫(yī)療用途中性能不可靠”。另外后續(xù)還要繼續(xù)研究,是否應該讓模型識別公眾人物,是否應該允許模型從人物圖像中推斷性別、種族或情感等問題。有網(wǎng)友已經(jīng)想好,等更新了要問的第一件事是Sam Altman照片的背包里裝的是什么。那么,你想好第一件事問什么了么?參考鏈接:[1]https://openai.com/blog/chatgpt-can-now-see-hear-and-speak[2]https://openai.com/research/gpt-4v-system-card[3]https://x.com/IntuitMachine/status/1706307412401979455[4]https://x.com/youraimarketer/status/1706461715078975778
相關(guān)推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章