智譜攜“沉思”加入Agent“混戰”記者實測結果來了!
《科創板日報》4月3日訊(記者 李明明)繼與多地國資合作之后,大模型獨角獸智譜又在產品方面迎來新進展。
近日,智譜推出具有深度思考和操作執行能力的Agent 產品“AutoGLM 沉思”(以下簡稱“沉思”),并已經免費上線。據介紹,“沉思”能查看如知網、小紅書、公眾號、巨潮資訊等不對外開放API的信源,同時具有多模態理解能力,能夠理解網頁上的圖文信息。
在介紹“沉思”時,智譜CEO張鵬略帶調侃地表示,“這個Agent不用39美元,免費而且不用邀請碼?!贝饲?,國產智能體Manus曾掀起一股關于AI Agent的討論熱潮,但因為需要邀請碼發放有限,絕大部分用戶只能觀望,無法真正體驗。
《科創板日報》記者在實測中發現,“沉思”在思考過程中展現出從理解并拆解問題入手,結合信息檢索快速構建解決方案框架的能力。
記者實測“ 沉思”《科創板日報》記者使用“ 沉思”實測了七個任務,它均能較好地完成,舉其中三個例子來展示其推理過程。
任務一讓 Agent 完成高度定制化的旅行方案規劃,以往都需要專業的旅行規劃師才能完成。可以看到,“沉思”迅速打開了相關購票、預定酒店的網站并進行一系列解析后,給出了一份數千字的詳細報告。
任務二中,“沉思”對月壇附近主要門店位置、門店特色、不同平臺外賣服務的配送、價格等多維度對比,并生成詳細表格和報告。
任務三中,“沉思”不停搜索知乎、新浪、搜狐等眾多網站,并迅速生成抖音視頻腳本,其文采水平和完成度均較高。
總體感受是,“沉思”的執行非常迅速,甚至可以打開很多用戶自己的盲區網站,可以大幅度節省時間和決策成本。
但亦有一些用戶告訴《科創板日報》記者,比起邊想邊搜,深度思考類模型產品更應該實現的功能是邊聊邊想,在思考的每一個節點,用戶都能參與進來進行交互,并及時糾正模型動作,以防模型進行一些不必要甚至是錯誤的思考行為和操作。
智能體的應用形態,還將回歸到模型上而隨著Agent爆發的持續迫近,有關Agent的實現方式和最終形態,也成為當前AI從業者的爭論焦點。此前,Pleias的聯合創始人Alexander Doria曾提到,未來AI智能體的發展方向是模型本身,而不是工作流,并列舉了Manus的例子,認為其提示驅動無法完成復雜的任務。
張鵬對《科創板日報》記者表示,其觀點與Alexander Doria基本一致。“未來的新應用形態,尤其是智能體的應用形態,還是會回歸到模型上。這也是我們一直所倡導的模型即場景的概念,未來很多的應用會以模型為核心,包上一個很淺的或者很薄的產品化、應用性的殼就會變成一個產品。模型能力一旦提升,產品能力就會得到提升,這是很典型的新應用范式的變化?!?/p>
“但是,當下AGI之路剛剛開始,模型的能力還無法達到完全類比人的水平,模型能力有限,需工程化解決實際應用問題。永遠是模型進,工程退。其技術越先進,需要工程化的事情越簡單。所以,終極的目標是當造出一個像人一樣聰明的腦子之后,工程上的事情就比較少,只需要給它裝上手和眼睛就可以像人一樣完成很多工作,這也是AGI的終極目標。” 張鵬說。
另有大模型企業人士告訴《科創板日報》記者,Manus更傾向于以AI技術優化具體場景中的流程與體驗,而非聚焦于底層技術突破?!叭欢?,Manus本身未能形成有效的產品壁壘,后續大量開源版本Manus的出現,讓其稀有性被打破,‘沉思’的出現就是一個例子。”
目前來說,Agent要達到可用,需要打通一些公域和私域之間的數據壁壘,以及打通不同平臺之間的壁壘。
比如,Manus此前短暫爆火,但隨后在復雜任務中的表現屢出狀況。有實測案例顯示,解析文件時,Manus對非標準格式的兼容性較差,部分數據直接丟失;網頁爬取環節頻繁遭遇驗證碼攔截,任務中斷。
提到解決辦法,張鵬告訴《科創板日報》記者,公司在公開演示 “沉思”時選擇了大眾易理解的通用場景。但針對專業領域、企業用戶或存在特定限制條件的用戶,智譜已構建了一套功能化的解決方案。這套方案將通過公司未來的 MaaS 平臺(模型即服務)及智能體開發平臺進行沉淀,開發者和企業用戶可基于這兩大基礎平臺便捷調用資源,實現快速適配與功能擴展。張鵬特別強調,這些均屬于產品層面的優化,而非模型層面的問題。
“比如說登錄網盤等這些額外的操作,本質上還是智能體聰明程度不如人類,如果其可以通過圖靈測試,能力與人類非常接近了,那現在的封禁和攔截策略也很難做的到?!?/p>
他進一步解釋,通用Agent不能有短板,包括文本、思考、操作、環境感知和理解的能力、調用工具、反復嘗試的能力等,都不能有明顯的短板。一旦有明顯短板存在,就會導致應用成功率急劇下降。
“我們始終堅持為所有模型注入語言多模態能力,源于對人類認知本質的理解。"”張鵬指出,人類作為具備綜合認知能力的生命體,其智能評判體系具有整體性特征。當公眾審視 AI 系統時,往往不會局限于單一維度的能力對比,而是通過多模態交互體驗形成整體認知。即使某模型在邏輯推理、自然語言生成等單項指標上超越人類,但若多模態交互能力存在短板,仍會被感知為 "智能缺陷"。這一現象揭示出,技術研發者不應簡單歸咎于外部環境,而需從模型架構層面重新審視技術演進路徑。
隨著Agent能力的不斷演進,未來其在硬件端的入口也會更加豐富,包括機器人、眼鏡等設備都將成為新的接入點。而這又帶來了新的問題:調用這些入口還面臨哪些挑戰?
張鵬對此表示,AutoGLM更早是應用在手機端,本次“沉思”只不過是把它移到了PC上。而其他智能硬件,比如眼鏡、車載以及平板等端側亦類似,都可以接入?!暗抢锩娲_實有一些問題,比如,不同類型的設備,最終的交互方式不一樣,比如說眼鏡不可能有鍵盤,就要用語音交互,語音就引入了全新的模態?!?/p>
“所以,當前階段,接入Agent遠非簡單地‘插入芯片、接入現成的SDK’那么容易,這種'即插即用'的便捷性仍是未來愿景,當下還無法實現。”
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。