首頁 > AI資訊 > 最新資訊 > 大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

新火種    2024-01-12

“一個法律案件的事實是否清晰,與法條之間的關系如何判定,全部都在講求邏輯。”

在MEET2024智能未來大會現場,面壁智能聯合創始人、CEO李大海談到大模型在法律行業的落地時強調了邏輯推理能力的重要性。

他認為,AGI革命是與蒸汽革命、電力革命和信息革命并列的第四次技術變革,而作為這場變革的核心技術路線,大模型能夠真正落地應用到生產環節中,最重要的就是邏輯推理能力。

作為國內最早做大模型的團隊,面壁智能在模型訓練的過程中,針對邏輯推理做了非常多細致工作,將其拆分成包括歸納、演繹、時間、空間等多個維度,并專門攻克,逐一提升。

大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

據介紹,面壁智能的千億多模態大模型CPM-Cricket可以對標GPT-3.5的水平,同時邏輯推理能力十分突出。在公考行測的邏輯推理試題測試中,CPM的總正確率達到63.76%,甚至超過GPT-4的61.88%。

然而,隨著各行業和企業都看到了大模型的應用前景和價值,如何才能發揮出大模型的更大潛力,并推動生產力的發展和變革?

李大海給出的答案是“大模型+Agent”。

他將大模型比做汽車的引擎,為汽車提供動力。但如果想要把汽車造出來,還需要轉向系統,需要汽車底盤,以及包括內飾等所有其他組件,才能真正給用戶提供一臺完整的汽車產品。

李大海認為,在大模型這個引擎的基礎上還需要疊加一系列上層技術,包括記憶能力、使用工具等,從而帶來更多廣泛的應用和想象空間,而AI Agent(智能體)就是這一系列技術能力的載體。

為了完整體現李大海在“大模型+Agent”賽道的思考,新火種在不改變原意的基礎上,對他的演講內容進行了編輯整理。

關于MEET智能未來大會:MEET大會是由新火種主辦的智能科技領域頂級商業峰會,致力于探討前沿科技技術的落地與行業應用。今年共有數十家主流媒體及直播平臺報道直播了MEET2024大會,吸引了超過300萬行業用戶線上參會,全網總曝光量累積超過2000萬。

演講要點大模型要能夠真正用在生產環境里,最重要的就是邏輯推理能力大模型是一個新的技術革命,可以跟工業革命、電力革命、信息革命相提并論大模型是底層引擎,想要做好Agent就需要引擎提供強勁的動力輸出大模型帶來的最根本變化是人和機器關系的變化,二者在未來將變得更平等未來世界將是由智能體連接的Internet of Agents的世界

(以下為李大海演講分享全文)

大模型要以邏輯推理為核心能力

面壁智能是從清華大學THUNLP實驗室孵化出來的大模型公司,在公司正式成立之前,我們的團隊就開始深耕大模型領域。與此同時,我們還發起了OpenBMB的開源社區,在這個社區里面做了很多大模型的開源技術和工具。

聯合清華大學和OpenBMB開源社區,我們構建了一個“一體兩翼”的產學研用大模型生態。

面壁智能是國內最早做大模型的團隊,全球第一個中文預訓練大模型就是我們的團隊在2020年12月推出的,叫做CPM-1。2023年11月,我們發布了最新的千億多模態大模型CPM-Cricket,可以對標GPT-3.5的水平。

大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

面壁智能的模型核心能力在于邏輯推理。

從成立之初,我們就認識到大模型能夠真正落地應用到生產環境里,最重要的就是邏輯推理能力。所以我們在做模型訓練的過程中,針對邏輯推理做了非常多細致的工作,將其拆分成包括歸納、演繹、時間、空間等多個維度,并專門攻克,逐一提升。

為了測試模型在真實場景中的邏輯推理表現,我們給大模型模擬了過去三年的公考行測試題,結果顯示CPM的總正確率達到63.76%,甚至超過GPT-4的61.88%。在英文的GMAT測試中,面壁智能大模型的分數是GPT-4的93%,已經非常趨近,個別題型甚至超過GPT-4。

最近,我們在與法律行業客戶的合作中可以看到,應用場景非常關注和依賴模型的邏輯推理能力。案件的事實是否清晰,事實與法律條款之間的關系如何判定,全部都是在講邏輯。經過行業客戶的評估,面壁智能的大模型邏輯推理表現最為突出,恰恰符合客戶的實際需求。

到了今天,我相信大模型的技術路線在整個產業界已形成共識,但大家一定還是會思考,大模型帶來的到底是一個像web3這樣的技術浪潮,還是十年為期的產業變革。

我認為,以大模型為核心的AGI革命是第四次重大技術變革,它可以和蒸汽革命、電力革命、信息革命相提并論,并將至少持續20-30年的時間。若干年后,整個人類社會的生產和生活將會因為AGI革命的演進而發生翻天覆地的變化。

“大模型+Agent”創造更多想象空間

大模型就像是汽車的引擎,為汽車提供動力。但如果想要把汽車造出來,還需要轉向系統,需要汽車底盤,以及包括內飾等所有其他組件,才能真正給用戶提供一臺完整的汽車產品。

因此,在大模型這個引擎的基礎上還需要疊加一系列上層技術,包括記憶能力、使用工具等,從而帶來更多廣泛的應用和想象空間,而AI Agent就是這一系列技術能力的載體。

智能體具有人設、智商、情商、感知力、價值觀和成長性六個維度的典型特征,從而適應各種應用場景。同時,為了讓單個智能體發揮更強大的能力,還需要把它們連接和協同起來,去處理和完成更復雜的任務。

實際上,無論人類社會還是自然界中都有群體智能的典型案例。如同我們需要團隊和組織把個人集結起來,自然界中的蜂群、蟻群、魚群也表現出比單體更高級的智能表現。

基于這些思考,面壁智能自2023年6月起就開始布局“大模型+Agent”的技術路線和落地方向,并在過去的幾個月里,發布了一系列基于大模型驅動的AI Agent智能體應用框架,我們稱之為面壁智能的“AI Agent三駕馬車”。

第一,是AgentVerse智能體通用平臺。

它構建了一個豐富的虛擬空間,其中定義了眾多智能體專家,具有不同人設和專業能力。

當用戶提出需求后,智能體專家們立即啟動組隊流程。這是一個策略性的招募過程,旨在確定哪些專家應當投入特定任務。這些專家組成團隊后,開始互相協商任務細節,明確分工。協商完畢便轉入執行階段,每個Agent依據其角色完成相應的工作,然后再進行整合。

大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

整個過程中還有一個策略規劃者,確保所有智能體的工作協同一致,形成最終成果,并與用戶需求進行對照,若存在較大偏差,還可進行迭代改進。這個框架的通用性使我們能夠在其基礎上開展廣泛的工作。

第二,是XAgent超強智能體應用框架。

它是一個超級智能體,能夠針對復雜任務進行拆解,并基于動態指示做任務分布執行。它扮演著智能體專家的角色,根據人的需求做規劃,完成用戶提出的目標。

在這個規劃的基礎上,如果用戶輸入的信息不夠多,它會與用戶交互,收集必要信息。

在做完規劃后每一步執行的時候,XAgent還會評估執行完每個步驟后是否需要做額外更多的工作,整個過程是一個動態的結構。在基準測試中,XAgent的能力已經全面超越AuotGPT。

大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

舉個例子,當你向XAgent發出指令“我周末有朋友到訪,請為我推薦幾個餐廳”,這個超強智能體不會立刻列出一長串餐廳,相反,它會首先探詢你的偏好,詢問你是否偏愛安靜的環境或是特定類型的飲食,以此來理解你的需求。

它的第一步是與你互動,而不是立即執行任務;接著,基于你的回復進行餐廳搜索;然后,整理搜索結果,并提出幾個帶有優缺點分析的方案。方案準備就緒后,它會以可視化的形式呈現,供你選擇。一旦你做出選擇,它便會通過連接API直接為你預訂餐廳。

這不同于我們通常所熟悉的單步問答模式,它展現了智能體提供的一種更優質的體驗。

第三,是ChatDev多智能體協作開發框架。

它可以幫助我們構建一個虛擬的AI軟件公司,設定CEO、CTO、產品經理、程序員、設計師等不同角色的智能體,并通過一條稱為“對話鏈”的交流網絡連接它們。

這些角色的互動流程與軟件開發中的瀑布模型相契合,包括軟件設計、系統測試和文檔編制等環節。

我們讓這些AI智能體按照明確的分工協作,并通過自然語言進行交流和互動,平均最快不到3分鐘,平均小于3塊錢成本,“不到一杯可樂的時間和錢”就可以完成一個簡單的軟件開發。

大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

在這個工作里,我們還做了一個叫HAI(Human-Agent-Interaction)的功能,讓人跟Agent通過自然語言進行交互,通過這種方式也能讓智能體得到足夠的數據反饋,讓他們的工作做得更好,這是我們在剛剛說的在智能體成長性上的一個探索。

短短兩個多月的時間,ChatDev在GitHub上的星標數量激增,超過1.8萬,連續多日位居Trending排行榜首。

大模型和Agent之間的耦合性非常重要

面壁智能需要同時把大模型和Agent兩件事都做好——

因為大模型是底層引擎,想要做好Agent就需要引擎提供強勁的動力輸出。

實際應用中,發現Agent在哪些方向可能工作得還不夠好,就需要在底層能夠有實時的反饋,能夠及時進行修改和優化。如果完全依賴外部大模型會有很多限制,二者之間的耦合性是非常重要的。

當前,我們在“大模型+Agent”這條技術路線上已經有很多場景正在落地。

在金融場景,面壁智能和國內頭部銀行客戶進行了深入合作,通過大模型為客戶的“智能財富助理”產品提供強大的語言對話能力和邏輯推理能力,解答用戶在金融理財等業務咨詢中的專業問題。

大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

在法律場景,面壁智能打造法律大模型,結合Agent技術為法務人員提供得力助手,針對案件關鍵點提取、事實點厘清、法律條款梳理等進行輔助工作,從而極大縮短案件處理的時間,提升效率。

國內每年大概有3000萬左右的案件,但是基層法務人員數量非常有限。經過訪談,我們發現平均每個基層法務人員每天要處理3-4個案子,但這里面包含了很多復雜案件,處理時間會非常長,一個案件需要訴訟可能會排到三、四個月后。這種情況下需要有法律大模型更好地去幫助法務部門大幅提升案件處理的效率。

大模型帶來的最根本變化是“人與機器之間關系的變化”。它讓機器能夠像人一樣通過自然語言的方式進行交互,并能夠進行邏輯思考,處理復雜任務。

大模型的出現將會使機器與人的關系變得更加平等,每個人都可以擁有一個AI的伙伴,“大模型+Agent”則能夠幫助人們打造更貼心、更懂你的生活智能伙伴。

我們相信,未來的世界將是一個由智能體鏈接的世界,也就是面壁智能所提出的“Internet of Agents”新時代。

大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

大模型是第四次技術革命。每一次技術變革都需要花非常長的時間:第一次工業革命花了上百年,信息革命花了大約50多年,我相信AGI革命的時間也不會短。

2023只是第一年,相信還有很多問題需要解決和突破,包括任務的規劃、多模態、更高級的認知以及更小的模型等等。

希望行業里的所有伙伴一起來把這些問題攻克和解決,讓整個社會和人們的生活變得更好。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章