首發(fā)體驗|AI學會發(fā)紅包了!國產Agent一句話控制手機電腦,我看到了摸魚自由的未來
2024 年,AI 圈最火的關鍵詞非 Agent 莫屬。
從 OpenAI 的簡單 GPTs 到 Anthropic 能夠自主行動的 computer use,再到最近 AI 初創(chuàng)公司 /dev/agents 憑借 Agent 操作系統(tǒng)估值 5 億美元,廠商們都在試圖尋找 AI 下一個明確的落地方向。
而在國內,上個月智譜 AI 也帶來了自己的答案——AutoGLM。
如果掏出手機、打開應用、點擊搜索、輸入關鍵詞…完成這些操作往往要經過四五步,而有了 AI,這些操作變成了真就一句話的事兒。
到了今天,智譜 AI 在北京也推出了一系列囊括多終端的 Agent 產品。
用戶只需輸入指令,GLM 即可理解指令,規(guī)劃任務,然后識別界面中的窗口、圖形、文字等,并且實現自動操作,如同進入 AI 接管設備的大航海時代。
在 Agent OpenDay 現場,智譜 AI CEO 張鵬現場利用 AutoGLM 面對面建群,并且給在場數百位與會者發(fā)送了微信紅包,以及線上的口令紅包。有沒有搶到紅包的朋友,不妨在評論區(qū)分享你的喜悅。
AutoGLM:移動端(暫時向 Android 開放),可自主執(zhí)行超 50 步的長步驟操作,適用于比價、導航、刷超話等復雜操作
GLM-PC:PC 端(暫時向 Mac 系統(tǒng)開放),適用于解放打工人雙手的生產力工具,手機也能遠程操作電腦
AutoGLM-Web:網頁端,支持百度搜索、知乎、Github 等數十個網站的無人駕駛
最形象的注腳大概就是,從 Chat 走向 Act,AI 無處不在,但 Agent 同樣也無處不在。換言之,從替我們「思考」替我們「做事」,Agent 正在重新定義智能設備。
別人家的 AI 都在聊天,這些 AI 卻能幫我摸魚
AI 幫我摸魚?AutoGLM 讓我躺著刷超話、買咖啡
在之前的文章中,我們已經體驗過智譜 AutoGLM 是如何接管我們的手機。
全自動發(fā)微信、逛淘寶……以往我們要自己動手的事情,現在都被 AutoGLM 包圓。并且,這位 AI 打工人今天還升級了,本事妥妥地見長。
我們也提前體驗上了這些最新的 AI 工具。
我們的消費觀是可以買貴的,但不能買貴了。
比如說,前不久,《人類簡史》的作者尤瓦爾·赫拉利出版了最新著作《智人之上》,那我為什么不讓 AI 幫我在拼多多和淘寶上逛逛,看看哪家劃算。
我只需要動動嘴,AI 就幫我跑斷腿,不過如果仔細看,把書名弄混還是有點小瑕疵的。
要是在嘈雜環(huán)境不方便說話,別擔心。
AutoGLM 還配了個「靜音模式」,打字也能發(fā)號施令,而且在執(zhí)行任務之前,AutoGLM 也給用戶留了 3 秒的「后悔時間」,讓你隨時能喊停,并調整執(zhí)行任務。
追星族有個好消息,全新升級的 AutoGLM 連超話簽到打卡都能搞懂。
以給李行亮的超話打卡為例,只需對著 AutoGLM 懸浮窗輸入我的指令,AI 就會全程代勞,而我只需要遇到敏感信息時「露個面」就行,一鍵告別「錯過打卡」的焦慮。
對了,這些日常任務還能設置快捷指令,一鍵搞定。
可不要小看這個功能,作為天選打工人,下午定時點的咖啡堪稱「續(xù)命神器」,不需要每天反復設置,只需要保留下單咖啡的指令,妥妥省去不少功夫。
選擇隨便模式,所有步驟則是讓 AI 為你決策,開啟咖啡盲盒,但當涉及到發(fā)送,下單付款等重要操作時,AutoGLM 會主動將選擇權重新交回給你。
跨應用協(xié)作是本次升級的重大亮點。
蘋果牌 AI 已經向我們展示了系統(tǒng)級 AI 打通應用墻的重要性,而現在借助 AutoGLM,我們同樣能夠實現類似的效果,比如我讓 AI 去小紅書搜個蒜蓉菜心的教程,并成功轉發(fā)朋友圈。
新增的 AI 導航功能也很實用。想去廣州塔?輕輕和 AutoGLM 說一聲,AI 就把你安排得明明白白。
比較遺憾的是,AutoGLM 僅支持 Android 系統(tǒng)。
但智譜即日起也將放開 AutoGLM 的用戶內測名額,并進一步優(yōu)化功能以及使用上的體驗,預計盡快上線成為真正面向廣大 C 端用戶開放的產品。
智譜清言的插件 AutoGLM-Web 即日也同樣起新上線 AutoGLM 功能。
據悉,AutoGLM-Web 支持百度搜索、微博、知乎、Github 等數十個網站的無人駕駛。
在官方演示的 demo 中,AutoGLM-Web 自動完成了「在百度搜索芒果 TV,打開再見愛人,播放最新一集,發(fā)彈幕」。全程沒有用戶的干預。
▲image description. 圖片來自:xxx
從手機到電腦,讓 AI 替我當打工人
與 AutoGLM 相比,GLM-PC 則在電腦端提供了更多面向職場場景的功能體驗。
GLM-PC 當前專為搭載 M 系列芯片的 Mac 電腦打造,其中以 M1 和 M3 系列設備最為推薦。在對話框中輸入你想進行的操作,GLM-PC 就會評估工具并決定操作計劃。
當然,遇到敏感操作時,GLM-PC 就會自動暫停,等待用戶操作或者進行確認。
想了解 B 站熱門內容?GLM-PC 三下五除二就幫你找到「入站必刷」第一條,幫你省去不少漫無目的的劃水時間。
要約張三開會?發(fā)條微信的事兒,交給 AI。甚至在有頁面的遮擋的情況下,也能精準定位到微信的搜索框里。
它還能幫你預定騰訊會議,順帶把會議邀請發(fā)給參會人。建議完事后,把這套「操作秘籍」收藏起來,通過流程化來提升工作效率。
作為編輯,我個人最愛的功能是讓它幫我梳理海外的 AI 新聞。發(fā)出指令后,AI 就會打開瀏覽器,輸入網址,然后一份清晰的新聞總結就能到手。
對了,如果你是剛從 Win 轉到 Mac 系統(tǒng)的新人,你多少會因為系統(tǒng)的變化弄到手忙腳亂。
現在 GLM-PC 就是你的「救命稻草」,無論是調整顯示模式,還是其他設置,將你的訴求通通交給它。把麻煩的事情甩給 AI,把快樂留給自己,這才是人生贏家的正確打開方式。
GLM-PC 還有一個堪稱「王炸」的功能。
先在 GLM-PC 設置中打開「掛起模式」,然后在手機上通過驗證碼登陸「https://cogagent.aminer.cn/m」,你的手機甚至可以遠程遙控電腦。
具體來說,你可以遠程給 GLM-PC 發(fā)指令消息,讓 GLM-PC 進行電腦操作。GLM-PC 每執(zhí)行一步就會返回操作時的屏幕截圖,而如果有敏感操作,則會等用戶進行確認后再操作。
在現場的演示中,張鵬也通過手機上 GLM-PC 網頁對 cogagent 發(fā)布指令,成功通過電腦端的微信發(fā)送文件。
實際上,當 AI 開始真正「干活」而不只是「對話」,也標志著 AI 應用進入了「接地氣」的務實階段??梢哉f,當 AI 真正開始解決日常瑣事,它就從玩具變成了一個實實在在的生產力工具。
這或許才是 AI 技術最該有的樣子。
Phone Use 時刻
在這兩個月手機圈密集發(fā)布了多款新品,其中有一個趨勢值得留意,雖然 AI 手機還沒得到消費者的廣泛認同,系統(tǒng)級 AI 成了各家廠商 OS 主打的亮點,其實這也是一種 Agent 落地普及的前兆。
無論是 vivo 的藍心小V 和發(fā)布會展示可以 AI 訂餐的 「Phone GPT」,華為鴻蒙的小藝和意圖框架,還是榮耀的 YOYO 智能體,都和智譜今天發(fā)布的 Agent 的本質一樣:
讓 AI 模仿人類的 Plan-Do-Check-Act(計劃-執(zhí)行-檢查-行動)循環(huán) ,從而像人類那樣去操作設備。
就像智譜 AI CEO 張鵬今天的發(fā)布會提到,目前的 Agent 能力更像是在用戶和應用之間,增加一個智能的調度層,鏈接所有應用甚至是所有設備。
這可以看做是大模型通用操作系統(tǒng) LLM-OS的一種雛形,智譜也將這套 Agent 交互稱為 GLM-OS 的構建,將對人機交互形式產生極大的影響。
OpenAI 創(chuàng)始成員、AI 技術大牛 Andrej Karpathy 也曾多次談到大語言模型操作系統(tǒng)(LLM OS),他認為大模型某種程度來說就是一種新的計算機和操作系統(tǒng),它可以連接各種軟件和硬件,以及所有模態(tài)信息組成的外設,并通過函數調用執(zhí)行各種任務。
傳統(tǒng)操作系統(tǒng)中,你需要圍繞 CPU 構建一堆外設,比如鼠標和鍵盤、磁盤存儲、以及緩存空間等。
而在 LLM OS 中,大模型本身就是中央處理器。I/O 外設也不再是鼠標和鍵盤,因為LLM可以兼容更多模態(tài)的數據輸入和輸出。同時大模型調用的外部工具也將從傳統(tǒng)軟件升級為智能體工具。
其中跨應用的操作是非常關鍵的一環(huán),這意味著 Agent 能實現更加復雜的自主連貫操作,也可能走向真正的商業(yè)化落地。
我們在年初曾判斷大模型將成為智能手機新的操作系統(tǒng),自然用戶界面(Natural user interface, NUI )將逐步替代現有的圖形用戶界面(GUI)。
至于各家互聯網公司提供的服務能否打通,可能是未來實現這種交互最大的障礙。但無論是智能手機還是應用,都終將是人類發(fā)展史上一個階段性產物。
目前的 Agent 交互還在早期階段,在行業(yè)內 Scaling Law 遭遇瓶頸的背景下, Agent 要怎么能成為真正的生產力工具,承擔更高比例的工作決策?
智譜 AutoGLM 技術負責人劉瀟在接受 APPSO 采訪時表示,預訓練肯定還要繼續(xù),但對于算法和數據的訓練會有一套新的邏輯。
智譜 AI CEO 張鵬也告訴 APPSO,團隊對于 Scaling Laws 的空間相對樂觀,希望在新的范式和生態(tài)下去探索更多可能性。
今年很多廠商不約而同用自動駕駛來形容 AI 終端的智能程度, OpenAI也 將 AI 劃分為 L1-L5 五個等級。
與 OpenAI 有所不同,智譜將大模型發(fā)展的五個階段定義為:L1 語言能力、L2 邏輯能力(多模態(tài)能力)、L3 使用工具的能力、 L4 自我學習能力、 L5 探究科學規(guī)律。
張鵬認為,大模型已經初步具備了人類與現實物理世界互動的部分能力?!窤gent 將極大地提升 L3 使用工具能力,同時開啟對 L4 自我學習能力的探索」。
從 Phone Use、Computer Use、Car Use 到 All Device Use,大模型的思考能力和 Agent 交互逐步影響我們使用智能設備的方式。
讓 AI 發(fā)微信和點贊現在看起來實用意義有限,但如同 AlphaGo 無論下棋多強都不會對社會帶來多少影響,Google DeepMind 的 AlphaFold 可以預測幾乎所有蛋白質結構,幫助大量疾病的治療和研究。
背后的范式改變才是撬動人類生活方式更新的杠桿,Agent 讓大模型從 Chat 走向 Act,下所謂 AI 終端的形態(tài)才逐漸浮現,而非只是一個命名的改變。
作者:李超凡、莫崇宇
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。