首頁 > AI資訊 > 最新資訊 > 大模型從Chat走向Act,智譜公布Agent新進展:支持跨App、跨設備等玩法

大模型從Chat走向Act,智譜公布Agent新進展:支持跨App、跨設備等玩法

新火種    2024-12-10

WechatIMG72_meitu_1

人類與機器的互動方式正在發生范式轉變。這是由于只有對話功能的Chatbot,正在進化為“有手、有腦、有眼睛”的自主Agent。

11月29日,作為最早探索Agent的大模型企業之一,智譜帶來了多個新進展:

AutoGLM可以自主執行超過50步的長步驟操作,也可以跨APP執行任務;

AutoGLM開啟“全自動”上網新體驗,支持等數十個網站的無人駕駛;

像人一樣操作計算機的GLM-PC啟動內測,基于視覺多模態模型實現通用Agent的技術探索。

在Agent OpenDay現場,智譜CEO張鵬下達了一個簡單語音指令,AutoGLM便給在場數百位嘉賓發送了“一個來自 AI 的微信紅包”。此外,AutoGLM還可以通過手機,遠程指揮電腦自動發送文件。

AutoGLM新升級:挑戰更復雜

新升級的AutoGLM可以挑戰完成復雜任務:

1. 超長任務:理解超長指令,執行超長任務。例如,在采購火鍋食材的例子中,AutoGLM自主執行了54步無打斷操作。并且,在這種多步、循環任務中,AutoGLM的速度表現超過人手動操作。

2. 跨App:AutoGLM支持跨App來執行任務。用戶將習慣于AI自動處理,而不是在多個App間來回切換。由于目前AutoGLM形態更像是用戶和應用間的App執行的調度層,因此跨App能力是里面非常關鍵的一步。

3. 短口令:AutoGLM能夠支持長任務的自定義短語。今天,你不用再給AutoGLM說:“幫我買一杯瑞幸咖啡,生椰拿鐵,五道口店,大杯、熱、微糖” 這類超長指令,只需要說“點咖啡”。

4. 隨便模式:我們都會陷入選擇恐懼,AutoGLM今天可以主動幫你做出決策。隨便模式下所有步驟都讓AI決策,帶來有抽盲盒式的驚喜。想不想嘗嘗AI為你點的咖啡口味?

同時,AutoGLM啟動大規模內測,并將盡快上線成為面向C端用戶的產品。 AutoGLM同時宣布啟動“10個億級App免費Auto升級”的計劃,邀請App伙伴聯合探索自己的Auto新場景。

支持核心場景和核心應用的AutoGLM標品API,會在兩周內上線到智譜maas開放平臺(bigmodel.cn)試用。

Web端開啟“全自動”上網新體驗:即日起智譜清言插件上線AutoGLM功能,支持搜索、微博、知乎、Github等數十個網站的無人駕駛。在現場demo里,智譜清言插件自動完成了“搜索芒果tv,打開小巷人家,播放最新一集,發彈幕結局打卡”。全程沒有人的干預。

GLM-PC邀測:面向“無人駕駛”電腦的一次技術探索

不只是基于手機和瀏覽器,今天智譜還帶來基于PC的自主Agent。GLM-PC是GLM團隊面向“無人駕駛”PC的一次技術探索,基于智譜的多模態模型 CogAgent。目前開放第一階段的內測場景,包括:

1. 會議替身:幫用戶預定和參與會議,發送會議總結。

2. 文檔處理:支持文檔下載、文檔發送、理解和總結文檔。

3. 網頁搜索與總結:在指定平臺(如微信公眾號、知乎、小紅書等)搜索指定關鍵詞,完成閱讀、總結。

4. 遠程和定時操作:遠程手機發指令,GLM-PC可以自主完成電腦操作;設定一個未來時間,在開機狀態下定時執行任務。

5. 隱形屏幕:在用戶工作時,GLM-PC可以在隱形屏幕上自主完成工作,解放屏幕使用權。

人用電腦的過程——用眼看圖形及文字,用腦規劃,再用手執行單擊雙擊、輸入等操作。GLM-PC用電腦的方式幾乎完全和人一樣。也正因如此,理論上只要是為人類設計的應用,在GLM-PC學習之后它都能夠執行。這是一種系統級、跨平臺的能力,不依賴于HTML、API,具備更高的能力上限。

不過,由于PC的復雜程度,以及大家在PC完成的幾乎都是復雜任務,坦率的說,今天大模型的能力距離真正代替大家辦公還有一定距離。GLM-PC在當前版本下,用戶仍需要輸入非常精準的指令。

目前,GLM-PC“邀請體驗”已開啟。智譜方面表示,會在產品完善后盡快上線供所有用戶使用,同時也希望和更多廠商聯合共創共同探索。

AutoGLM和GLM-PC是智譜邁向AI智能操作系統的重要嘗試。它們的出現源于智譜在大語言模型、多模態模型、邏輯推理和工具使用等方面的技術積累。從2023年4月的AgentBench開始,到8月的CogAgent模型,智譜針對AutoGLM,和GLM-PC的模型CogAgent的研發工作進行了一年半的時間。

與OpenAI有所不同,智譜定義了大模型發展的五個階段:L1語言能力、L2邏輯能力(多模態能力)、L3使用工具的能力、 L4自我學習能力、 L5探究科學規律。

發展至今,大模型已經初步具備了人類與現實物理世界互動的部分能力。“Agent將極大地提升L3使用工具能力,同時開啟對L4自我學習能力的探索。” 張鵬說。

張鵬表示,未來GLM團隊將繼續加速agent模型產品的研發,期待著一句話操作電腦和手機的范式盡快到來。

大模型從Chat走向Act

如今,大模型技術正在改變機器和人的互動方式,基于理解需求、規劃與決策、執行行動和自我反思,Agent將帶來符合直覺的人機交互——從人適應機器,到讓機器適應人。

蘋果(Apple Intelligence)、Anthropic(Computer Use)、谷歌(Jarvis)和OpenAI(Operator)等企業也已經把Agent作為2025年的主要關注點。業內普遍認為,2025年將是Agent爆發之年。Gartner近期將agentic AI列為2025年十大技術趨勢之一,并預測2028年至少有15%的日常工作決策將由agentic AI自主完成,而這一數字在2024年為0。

與GenAI不同,Agent是目標驅動型的,能夠完全執行工作流程,適應、學習、迭代、與其他系統和人類協作,并端到端地完成任務。在張鵬看來,Agent可以看作是大模型通用操作系統LLM-OS的雛形。

“現階段,AutoGLM相當于在人與應用之間添加一個執行的調度層,很大程度上改變人機的交互形式。更重要的是,我們看到了LLM-OS的可能,基于大模型智能能力(從L1到L4乃至更高),未來有機會實現原生的人機交互。將人機交互范式帶向新的階段。”

AI時代智能設備新范式

隨著大模型能力的不斷進化,AI慢慢長出了自己的腦、眼和手。不僅僅是智能在持續增強,感知能力和交互帶寬也在不斷豐富和拓展,還有現在的Agent帶來了執行力的加速提升。

智譜COO張帆表示,智能設備在大模型的加持下,將會煥發出新的機會。手機+AI會變成隨身個人智能助理,PC+AI將會成為全新生產力工具,汽車+AI將會讓車成為人們的智能第三生活空間。當然,大模型不僅僅會為手機、PC和汽車帶來機會,而是會惠及各種各樣的智能設備。大模型的不斷進化已經為Agent變革人車交互體驗奠定了強大的基礎。

隨著端側性能及算力持續提升、為AI原生設備適配的模型和端云同源的協同架構出現,Agent不僅在操作系統OS和應用上實現用戶體驗變革,還能將其推廣到各類智能設備上,從手機到電腦,再到汽車、眼鏡、家居和各種edge side設備,各種AI原生設備正在爭相涌現。

最后,榮耀AI技術總監王作建、華碩AIPC智能生態負責人鐘懷圣、小鵬汽車座艙智能語音/智能化業務負責人廉磊、高通AI產品技術中國區負責人萬衛星、英特爾中國區技術部總經理高宇,作為智譜的客戶及合作伙伴,分別從不同的場景出發,分享了他們對智能終端的實踐及展望。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章