手機學會點屏幕了,為什么笨AI也有未來?
嘴巴一動
完成操作
去年 11 月。榮耀為了新機 Magic 7 Pro 的發布,策劃了一次堪稱行為藝術的事件營銷。
時任榮耀 CEO 的趙明現場指揮 AI Agent YOYO 打開美團,下單了約 2000 杯瑞幸飲料。這一通操作過后,深圳發布會場地周邊的瑞幸門店紛紛「爆單」,門店咖啡師忙到崩潰,接到訂單的騎手更是在門店排起長隊。
這次效果顯著卻略帶荒誕意味的事件營銷,一定程度上讓公眾忽略了榮耀試圖展示的核心技術:「基于 GUI 的個人 AI 智能體」。
時至今日,AI Agent 功能確實已經不新鮮了。而這個技術的關鍵點,在「GUI」這三個字上。
GUI 全稱 Graphical User Interface,圖形用戶界面。作為一個基于 GUI 的 AI Agent,YOYO 不再依賴傳統的 API 接口,而是有了一只虛擬的「手」,直接在代替用戶進行圖形界面操作。整個代行操作不在「后臺」,而是直接在「前臺」,在用戶的眼皮底下實時發生。
需要澄清的是:Magic 7 Pro 市售機型用戶的體驗可能會與發布會演示存在差異。據財聯社報道,當時現場演示用的測試機權限更高,能夠自動免密支付和循環點單,這才不停地點出了 2000 杯飲料。至少在目前,市售機型需要用戶明確告知點單細節(例如品牌、品名、杯型、溫度等),并且在支付環節需要用戶接管確認。
這個細節確實重要,但也不至于抹殺這項技術的存在意義。正相反,我們認為,「基于 GUI」是個很另類,很有趣,頗具試驗性的 AI Agent 實現路徑。
AI Agent 交互的「前臺」新路
榮耀 YOYO 的核心是多模態模型,GUI 交互的本質是語言+視覺的理解。
自然語言處理 (NLP):理解「點一杯冰美式」的指令;
屏幕狀態感知:識別當前界面中的內容,找到正確的按鈕、輸入框等界面元素;
擬人化操作:像人類一樣點擊按鈕、輸入信息;
循環操作:在新的界面中持續解析內容、定位和點擊界面元素。
關于 GUI 的操作部分,這最后一步具體是怎樣實現的,榮耀方面沒有明確透露。一種穩妥的猜測是:它能夠獲得手機的無障礙功能 (accessibility features) 或類似的底層權限,從而控制屏幕點擊事件。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。