首頁 > AI資訊 > 最新資訊 > AI現(xiàn)場發(fā)了2萬紅包,打開了大模型Act時代

AI現(xiàn)場發(fā)了2萬紅包,打開了大模型Act時代

新火種    2024-11-30

我們需要的是「真正解放雙手的智能體」。

最近一段時間,大模型領(lǐng)域正在經(jīng)歷智能體(AI Agent)引發(fā)的革命。Anthropic 推出的升級版 Claude 3.5 Sonnet,一經(jīng)推出即引爆了 AI 圈。

作為新一代 AI 智能體,它跨過了大模型的次元壁,能夠像人一樣直接操縱電子設(shè)備,根據(jù)你給出的自然語音指令移動光標、點擊相應(yīng)位置以及通過虛擬鍵盤輸入信息,模仿人類與計算機的交互方式。大家都在自發(fā)探索智能體的使用方法,比如有人已經(jīng)在用智能體自動代肝崩鐵每日任務(wù)了。

除了打游戲,在工作環(huán)境中智能體還可以接管很多日常事務(wù),比如撰寫郵件、安排會議、整理文件等等,據(jù)說從科研到寫代碼樣樣都行。

有人表示,智能體工具的出現(xiàn)標志著全新人機交互范式踏出了新的一步。

沒過多久,國內(nèi)公司就拿出了對標的產(chǎn)品,而且還更進一步,一次性實現(xiàn)了手機、PC、AI 原生硬件的覆蓋。

今天上午,智譜 Agent 宣布升級,開放「百萬內(nèi)測」申請,翻開了人機交互體驗的新一頁。

這是智譜第一個產(chǎn)品化的智能體 Agent,可以做到讓 AI 通過語音直接操縱硬件設(shè)備,還能跨不同 App 全局操作。

在發(fā)布會現(xiàn)場,智譜 CEO 張鵬展示了一番智能體的能力。讓 Agent 與現(xiàn)場觀眾建面對面群聊。

發(fā)一個總計兩萬塊錢的紅包。

AI 發(fā)的紅包瞬間就搶空了。不得不說謝謝張總,謝謝 AI Agent。

深入手機、PC,能自己做主

智譜智能體的手機版 AutoGLM 與電腦版 GLM-PC,內(nèi)測階段覆蓋部分常用的 App 及應(yīng)用。AutoGLM 支持包括微信、抖音、小紅書、微博等社交平臺、美團、餓了么、等美食平臺、淘寶、京東、拼多多等購物平臺、高德和百度地圖等出行平臺、以及 12306、去哪兒、攜程等旅游訂票平臺。

用戶打開 AutoGLM 后,只需要動動嘴(當然也支持文字輸入),就能讓智能體接管自己的手機,并在上面這些 App 上自動執(zhí)行任何指令任務(wù),比如在微信上對某個公眾號的文章進行摘要總結(jié)、在高德地圖上為你規(guī)劃出行路線,等等。

此次,智譜給 AutoGLM 進行了一系列能力升級。基于這些新能力,我們看到了一些新玩法。

一是「更長」,即 AutoGLM 可以理解、遵循并自主完成超長、復(fù)雜的指令,支持超過 50 步的無打斷連貫操作。在長任務(wù)上執(zhí)行的速度比人類實操還要快。

二是「跨 App」,即 AutoGLM 在更強大泛化能力和思維鏈的加持下,支持復(fù)雜任務(wù)的跨 App 操作。有了這個智能體,用戶與應(yīng)用之間多了一個可以自動執(zhí)行的調(diào)度層,省去了在不同 App 之間來回切換的麻煩,實現(xiàn)了這些 App 之間的協(xié)同操作。

我們以不同 App 之間的信息分享為例,命令 AutoGLM「在小紅書上種草幾款單反相機,然后分享到微信的『編輯部之插科打諢』群」,操作很絲滑。

再比如跨不同 App 購物,AutoGLM 也能一氣呵成。

更多新玩法進一步拓展了 AutoGLM 的功能,包括「短口令」,類似于手機上的快捷指令。在這種模式下,AutoGLM 可以一鍵存儲用戶自定義的快捷短口令,在觸發(fā)該指令后自動發(fā)起并執(zhí)行關(guān)聯(lián)長任務(wù)。

更有意思的還有「開盲盒」,AutoGLM 會默認跳過對話步驟,對于用戶發(fā)出的模糊指令,讓 AI 主動幫你完成選擇。過程中只有在涉及重要操作(比如支付)時才會進行二次確認。

AutoGLM 的自主執(zhí)行能力還擴展到了網(wǎng)頁端。智譜在瀏覽器(Google Chrome 和 Microsoft Edge)的智譜清言插件上提供了 AutoGLM-Web 功能。該功能適配了知乎、微博、X 和豆瓣等社媒網(wǎng)站,百度、谷歌和必應(yīng)等搜索引擎,百度學術(shù)、谷歌學術(shù)和 arXiv 等學術(shù)網(wǎng)站,以及 GitHub 代碼托管網(wǎng)站和資訊類網(wǎng)站。

在這些網(wǎng)站上,智能體遵循用戶指令,可以自動執(zhí)行站內(nèi)搜索、內(nèi)容總結(jié)、生成 arXiv 日報、搭建 GitHub 倉庫、在微博超話簽到等個性化功能,可玩性不錯。如下所示,我們可以讓它自動幫我們在微博分享新鮮事。

在桌面端,智譜同樣推出了像人一樣操作計算機軟件的應(yīng)用 GLM-PC ,它基于通用視覺大模型 CogAgent 的理解與任務(wù)規(guī)劃能力,讓用戶通過簡單的一句話指令執(zhí)行復(fù)雜任務(wù)。

比如查詢并總結(jié)網(wǎng)頁上的信息,并通過微信發(fā)送給別人:

在淘寶上買 XL 碼的羽絨服并購買:

即將上線的隱形屏幕功能更加科幻。AI 可以在不打擾你的情況下提供幫助,解放屏幕使用權(quán)給人,自己在另外一個隱形屏幕上完成工作。

從實現(xiàn)原理來講,GLM-PC 在充分理解用戶指令后對任務(wù)進行規(guī)劃,然后識別電腦界面中的窗口、圖形、文字等信息,然后自動操作電腦。另外,這個 AI 助手在使用過程中可以根據(jù)頁面信息更改計劃并自我糾錯,從而更好地完成任務(wù)。

據(jù)介紹,GLM-PC 尤為擅長處理辦公場景,可以在微信、飛書、釘釘、騰訊會議等平臺執(zhí)行多樣性任務(wù),比如發(fā)送信息、預(yù)定和參與會議。同時支持瀏覽器網(wǎng)頁搜索以及網(wǎng)頁內(nèi)容的閱讀總結(jié)、翻譯,還能進行多種文檔處理,包括下載、發(fā)送和總結(jié)。

打開并加入飛書會議。

郵件發(fā)送會議紀要。

不僅如此,智譜還實現(xiàn)了 GLM-PC 與手機端的聯(lián)動。用戶現(xiàn)在可以在手機上遠程向 GLM-PC 發(fā)消息,讓它自動進行電腦端操作。

最后,智譜在發(fā)布會現(xiàn)場表示,要對十個億級 App 進行免費 Auto 升級。榮耀、華碩、小鵬汽車等大廠,高通、英特爾等硬件、芯片廠商也紛紛站臺,介紹了與智譜的合作。

隨著端到端、多模態(tài)、視頻等新能力的大模型出現(xiàn),大模型已經(jīng)初步具備了和物理世界互動的能力。

我們能夠逐漸想象出山姆·奧特曼口中「前所未有的自然交互」的樣子,但眼前能夠接觸到的很多落地產(chǎn)品,卻似乎總是差點意思。這可能是因為想要構(gòu)建顛覆性的產(chǎn)品,需要的不止是大模型能力,還有對于技術(shù)方向的提前預(yù)判,以及完整系統(tǒng)的優(yōu)化。

其實在發(fā)展大模型基礎(chǔ)技術(shù)之外,智譜最近還一直在推進另一件事:構(gòu)建體系。

我們能夠逐漸想象出山姆?奧特曼口中「前所未有的自然交互」的樣子,但眼前能夠接觸到的很多落地產(chǎn)品,卻似乎總是差點意思。這可能是因為想要構(gòu)建顛覆性的產(chǎn)品,需要的不止是大模型能力,還有對于技術(shù)方向的提前預(yù)判,以及完整系統(tǒng)的優(yōu)化。

智譜在大模型 Agent 方向上的研究由來已久。自 2023 年 4 月,智譜就陸續(xù)提出了 AgentTuning、AgentBench、CogAgent 等大模型智能體工作,今年智譜又連續(xù)發(fā)布了AutoWebGLM、AutoGLM 等成果。智譜針對 AutoGLM、GLM-PC 的研發(fā)工作也經(jīng)歷了一年半以上的時間。

在探索大模型智能體能力邊界的過程中,智譜逐漸獲得了兩個重要的觀察。

首先,智能體和推理本質(zhì)上服從著同大模型訓(xùn)練類似的 Scaling Law。智能體通過和環(huán)境交互,模型獲得來自環(huán)境的反饋監(jiān)督信號,具有類似的規(guī)模擴展效應(yīng)。這說明,通過擴展計算規(guī)模,我們可以持續(xù)地提升大模型智能體的表現(xiàn)水平。

在新的 Scaling Law 背后,智譜設(shè)計了 WebRL,一個自進化在線課程強化學習算法框架。通過引入大模型特有的自進化演化策略,并利用課程學習實現(xiàn)智能體由易到難進行泛化,并最終借助在線 off-policy 強化學習,AutoGLM 實現(xiàn)了在在線環(huán)境中的智能體擴展規(guī)律。

其次,智譜進一步的探索發(fā)現(xiàn)了 Agent 存在 Emergent Ability,即能力涌現(xiàn)。

10 月發(fā)布之初,AutoGLM 尚只能在單個應(yīng)用、短距離任務(wù)上展現(xiàn)能力。然而,隨著工程師們進一步訓(xùn)練和規(guī)模的擴展,最新版本的 AutoGLM 已初步具備跨應(yīng)用、長距離任務(wù)的勝任水平,甚至能夠能遵從復(fù)雜指令在從未見過的 App 應(yīng)用中操作。

其實在發(fā)展大模型基礎(chǔ)技術(shù)之外,智譜最近還一直在推進另一件事:構(gòu)建體系。

由于多模態(tài)大模型的出現(xiàn),現(xiàn)在的 AI 已經(jīng)具備了語義理解、屏幕內(nèi)容解析和行為語義理解等能力。接下來要做的似乎就是找到一種機制,讓大模型能夠一步一步地解題。

智能體(AI Agent)就是用來執(zhí)行這樣復(fù)雜的任務(wù)的。它既具有自主性,又能進行環(huán)境交互,可以分解復(fù)雜任務(wù)進行規(guī)劃,使用專業(yè)的模型或外部工具來提升自身能力,還擁有遠超大模型本身的記憶能力。

這意味著加入智能體之后,手機這樣的設(shè)備可以利用相對輕量級的模型,承載起更加復(fù)雜的自動化任務(wù)。

此前在業(yè)內(nèi),一些科技大廠、創(chuàng)業(yè)公司和手機廠商已在 PC、AI 手機上構(gòu)建了智能體能力,并獲得了不錯的效果。但從技術(shù)發(fā)展的角度來看,這往往是各自產(chǎn)品路線的延伸。智譜提供的解決方案在此基礎(chǔ)上還會覆蓋汽車、智能眼鏡、智能音箱,甚至具身智能的機器人等 AI 原生硬件,體現(xiàn)出了另一種思路。

智譜認為,將來不同的硬件設(shè)備都可能由統(tǒng)一體系的 AI 智能體來操作,這樣才能實現(xiàn)人機交互的提升。為此,他們也在芯片、應(yīng)用 App、操作系統(tǒng) OS 和模型側(cè)進行了提前布局。

包括與芯片、終端廠商持續(xù)合作,從硬件底層進行優(yōu)化,持續(xù)優(yōu)化端側(cè)大模型的能力。在 10 月高通驍龍 8 至尊版發(fā)布時,智譜就宣布已聯(lián)合高通對最新一代端側(cè)視覺大模型 GLM-4V 進行了深度適配和推理優(yōu)化。在端側(cè)部署后,今年的新一代旗艦手機已經(jīng)可以支持豐富的多模態(tài)交互方式,讓人們獲得更加情境化、個性化的終端側(cè)智能體驗。

智譜也和眾多手機、電腦廠商合作,在 AI PC、手機端智能助手領(lǐng)域給大模型進行落地。率先亮出 AI 智能體操作手機的榮耀,就在九月份與智譜達成了 AI 大模型技術(shù)的戰(zhàn)略合作。

本周,智譜還與英特爾、機械革命聯(lián)合發(fā)布了專為程序員設(shè)計的 CODE AI 程序員筆記本,預(yù)裝了基于端側(cè)的智能編程助手。

通過端側(cè)芯片性能優(yōu)化和端云一體架構(gòu),智譜的大模型智能體技術(shù),不久后將出現(xiàn)在越來越多的設(shè)備上。

Agent 的盡頭是什么?

盡管目前的技術(shù)還在初期,但 AI 智能體已經(jīng)展現(xiàn)出了前景。

再往更深的層次想,過去鍵盤鼠標、觸控屏幕這樣物理交互的形式,從 DOS、Windows 再到 iOS、安卓等操作系統(tǒng),都是為了讓人更好地與機器溝通。

大模型正在走一條相反的路,讓我們無需花費大量時間去理解各種應(yīng)用的復(fù)雜界面,減少機械的勞動,反過來讓機器適應(yīng)人類。

智譜 CEO 張鵬在發(fā)布會上表示:「目前的 Agent 能力更像是在用戶和應(yīng)用、設(shè)備之間增加一個智能的調(diào)度層。可以看做是大模型通用操作系統(tǒng) LLM-OS 的一種雛形。這已經(jīng)對人機交互形式產(chǎn)生極大的影響。更重要的是,我們看到了一種大模型操作系統(tǒng) LLM-OS 的可能,基于大模型智能能力,有機會實現(xiàn)原生的人機交互。」

相關(guān)推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章