用GPT-4V“操縱”iPhone,無需訓練可完成任意指令,“Siri終結的開始”
一項研究發現:
無需任何訓練,GPT-4V就能直接像人類一樣與智能手機進行交互,完成各種指定命令。
比如讓它在50-100美元的預算內購買一個打奶泡的工具。
它就能像下面這樣一步一步地完成選擇購物程序(亞馬遜)并打開、點擊搜索欄輸入“奶泡器”、找到篩選功能選擇預算區間、點擊商品并完成下單這一系列共計9個操作。

根據測試,GPT-4V在iPhone上完成類似任務的成功率可達75%。
因此,有人感嘆有了它,Siri漸漸就沒有用武之地了(比Siri更懂iPhone)

誰知有人直接擺擺手:
Siri壓根兒一開始就沒這么強好嘛。(狗頭)

還有人看完直呼:

真的這么?
GPT-4V零樣本操作iPhone這項研究來自加州大學圣地亞哥分校、微軟等機構。
它本身是開發了一個MM-Navigator,也就是一種基于GPT-4V的agent,用于開展智能手機用戶界面的導航任務。
實驗設置在每一個時間步驟,MM-Navigator都會得到一個屏幕截圖。
作為一個多模態模型,GPT-4V接受圖像和文本作為輸入并產生文本輸出。
在這里,就是一步步讀屏幕截圖信息,輸出要操作的步驟。
現在的問題就是:
如何讓模型合理地計算出給定屏幕上應該點擊的準確位置坐標(GPT-4V只能給出大概位置)。
作者給出的解決辦法非常簡單,通過OCR工具和IconNet檢測每一個給定屏幕上的UI元素,并標記不同的數字。

這樣一來,GPT-4V就只需面對一張截圖指出要點什么數字進行操作就好。
兩項能力測試測試率先在iPhone上展開。
要想成功操縱手機涉及到GPT-4V不同類型的屏幕理解能力:
一個是語義推理,包括理解屏幕輸入和闡明完成給定指令所需的動作。
一個是指出每一個動作應執行的精確位置(即該點哪個數字)的能力。
因此,作者開發了兩組測試分別進行區分。
1、預期動作描述
只輸出應該干啥,不輸出具體坐標。
在這個任務中,GPT-4V理解指令并給出操作步驟的準確率為90.9%。
比如在下面這個Safari瀏覽器的截圖中,用戶想要打開一個新標簽頁,但左下角的+號是灰色的,應該怎么辦?

GPT-4V回答:
看圖理解表現得很不錯~更多例子可以翻閱論文。
2、本地化動作執行
當讓GPT-4V把這些“紙上談兵”都化為具體行動時(即第二個測試任務),它的正確率有所下降,來到74.5%。
還是上面的例子,它可以遵循自己給出的指令,給出正確的操作數字,比如點擊數字9關閉一個標簽頁。

但如下圖所示,讓它找一個可以識別建筑物的應用程序時,它可以準確指出用ChatGPT,但是卻給出了錯誤數字“15”(應該是“5”)。

還有的錯誤是因為屏幕截圖本身就沒有標出對應位置。
比如讓它從下面的圖中開啟隱身模式,直接給了wifi處于的“11”位置,完全不搭嘎。

此外,除了這種簡單的單步任務,測試也發現GPT-4V完全可以不需訓練就勝任“買起泡器”這樣的復雜指令。
在這個過程中,我們可以看到GPT-4V事無巨細地列出每一步該干什么,以及對應的數字坐標。

最后,是安卓機上的測試。
整體來看,比其他模型比如Llama 2、PaLM 2和ChatGPT表現得明顯要好。
在執行安裝、購物等任務中的總體表現最高得分為52.96%,這些基線模型最高才39.6%。

對于整個實驗來說,它最大的意義是證明多模態模型比如GPT-4V能夠將能力直接遷移到未見過的場景,展現出進行手機交互的極大潛力。
值得一提的是,網友看完這項研究也提出了兩個點:
一是我們如何定義任務執行的成功與否。
比如我們想讓它買洗手液補充裝,只想要一袋,它卻加購了六袋算成功嗎?

二是大伙也不能興奮得太早,要想真的商用這項技術,前進空間還很大。
因為,準確率可達95%的Siri都還經常被吐槽很差勁呢。

本研究一共12位作者,基本都來自微軟。

共同一作兩位。
分別是加州大學圣地亞哥分校的博士生An Yan,以及微軟的高級研究員Zhengyuan Yang,后者本科畢業于中科大,博士畢業于羅切斯特大學。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。