首頁 > AI資訊 > 最新資訊 > 三個大模型組隊挑戰o1,實測360多模型協作干掉提示詞工程

三個大模型組隊挑戰o1,實測360多模型協作干掉提示詞工程

新火種    2024-09-22

OpenAI o1的橫空出世,開啟了大模型演化的新范式——Inference law(推理定律)。

正如英偉達AI科學家Jim Fan所說,o1的出現標志著大模型研發者開始把集中在訓練階段的投入,開始轉移到了推理過程。

圖片

Jim還引用了機器學習先驅Rich Sutton的經典文章《苦澀的教訓》中的話說,只有兩種技術可以讓(AI)計算的潛能無限擴展——學習和搜索。

而現在,是時候把目光聚焦在后者了。

圖片

在推理側投入更多資源,模型也就有了更完備的思考過程,投入的增加換來的是質的提升。

在國內,360創始人周鴻祎的理念與之不謀而合,而且360更早就提出了“慢思考”的理念,并在技術架構和產品中都付諸了應用。

圖片

同時,360還在其AI產品中強調多模合作,讓來自不同廠商的大模型“抱團取暖”,為國內模型追趕OpenAI,找到了一條可行的道路。

從o1看大模型“慢思考”

雖然o1的具體思考過程始終是OpenAI的至高機密,但可以肯定的是,思維鏈(Chain of Thought, CoT)在其中扮演了重要角色。

OpenAI在關于o1的報告中表示,思維鏈能讓模型學會認識并糾正錯誤,學會將棘手的步驟分解為更簡單的步驟,甚至學會嘗試不同方法,極大地提高了模型的推理能力。

今年的AI頂會ICLR上,谷歌大腦推理團隊創建者Denny Zhou,清華姚班校友、斯坦福助理教授、斯隆獎得主馬騰宇等人的一篇論文,更是揭開了思維鏈的無限潛能。

圖片

透過現象看本質,從某種程度上看,思維鏈的本質就是2002年諾貝爾經濟學獎得主卡尼曼在《思考快與慢》中提出的“系統2”,也就是“慢思考”系統。

所謂“系統2”或“慢思考”,是指復雜、有意識的推理,與之相對的是“系統1”或“快思考”,即簡單無意識的直覺。

而o1的表現證明,這種適用于人類的“慢思考”理念,對大模型來說同樣適用。

但應當注意的是,這兩種系統在人腦中是同時存在、相互配合的,在大模型當中也不應被割裂開來。

周鴻祎認為,o1遵循的可能就是“雙系統理論(Dual Process Theory)”,其核心在于快慢兩種系統的協同運作。

作為“百模大戰”的選手,周鴻祎和360,也是“慢思考”以及“多系統協同”的思考者和先行者。

7月底的ISC.AI大會上,周鴻祎就宣布,要“打造慢思考系統,從而增強大模型的慢思考能力”。

基于“多系統協同”機制,360利用多個模型組成的智能體框架,實現了大模型從“快思考”到“慢思考”的轉變,并打造出了兩款明星AI產品——360AI搜索和360AI瀏覽器。

圖片

讓不同大模型“抱團取暖”

360AI搜索一共有簡潔回答、標準回答和深入回答三種模式,其中一次深入回答會可能就要涉及7-15次的大模型調用。

比如可能會涉及1次意圖識別模型調用,1次搜索詞改寫模型調用,5次搜索調用,1次網頁排序調用,1次生成主回答調用,1次生成追問調用……

在多個模型的協同配合下,360AI搜索形成了這樣的工作鏈路:

首先利用意圖分類模型,對用戶的問題進行意圖識別;接著用任務路由模型對問題進行拆解,不同的問題可以劃分成“簡單任務”、“多步任務”和“復雜任務”,對多個模型進行調度;最后構建AI工作流,使多個大模型協同運作。

比如面對一道古詩詞中譯英題目,路由模塊就會調用起翻譯、反思等多個模型,讓這些模型分工配合、共同完成任務。

圖片

而且最新版本還在生成答案過程中進一步加強了多模型協作,將其作為了一種獨立的回答模式。

三個不同模型分別扮演生成初步答案的專家、檢查回答的反思者和最終給出答案的總結者。

例如在這個案例中,作為專家的Kimi提到了問題的關鍵,但表述不夠鮮明,在反思模型360智腦的建議下,豆包進行了重新總結,形成了直擊問題的解答。

圖片

這樣的工作模式不僅將快慢思考協同和反思機制引入了AI應用,更通過不同模型的交叉驗證,進一步提高了整體表現。

在另一款AI產品——360AI瀏覽器當中,16家廠商的54款大模型也已齊聚一堂,可以實現多種傳統瀏覽器所不具備的能力。

圖片

AI瀏覽器可以10秒鐘總結上萬字英文學術論文,針對其中的細節也可以盡情發問。

圖片

可以沉浸式翻譯pdf文檔,原文和譯文同步滾動、隨時對照。

圖片

還能化身“AI省流俠”,分分鐘幫忙總結在線視頻內容并劃出重點,還能根據視頻架構繪制腦圖,甚至分析創作風格……

圖片

不僅在線文檔和視頻可以解析,這一系列分析功能,對于本地文件也同樣適用。

更為方便的是,360AI瀏覽器還有移動端版本,在手機上也能隨時利用AI輔助上網沖浪。

圖片

已經入駐360AI瀏覽器、同樣基于CoE架構的AI助手(bot.360.com),則可根據任務類型和模型特長自動調度最合適的大模型。

無需切換平臺,就能直接對話54款大模型,或者對話更加強大混合大模型,想選哪個就選哪個。

AI助手同樣支持「多模型協作」,用戶可以從54款模型中任選3款,分別做專家、反思者和總結者。

圖片

未來,360還會推出由五個甚至更多模型協作完成任務的版本。

還是在360AI瀏覽器中,AI助手還上線了“模型競技場”?(bot.360.com),支持54款大模型產品的“同臺競技”,最新版本中還上線了“組隊較量”、“匿名比拼”、“隨機對戰”等功能。

圖片

總的來說,360AI搜索還是360AI瀏覽器雖然側重點有所不同,但背后體現的還是那個核心理念——

在進行“慢思考”的同時,不卷單一模型的能力,而是讓模型“抱團取暖”,博采眾長,形成“眾人拾柴火焰高”的局面。

當然,這樣做的意義,也不僅僅是為用戶帶來了更好的AI體驗,對各大模型的開發者而言同樣是一種激勵。

我們知道,大模型研發投入巨大,唯有足夠多的用戶才能夠收回成本。

而依托360AI搜索、瀏覽器、安全衛士等入口,360將能夠觸達10億用戶的入口開放給了大模型開發者。

這也是阿里、騰訊、百度等大廠,以及大模型六小虎紛紛加入360AI架構的重要原因。

所以,360與這十多家廠商雙向奔赴,實現了模型與AI應用相互促進、彼此發展的良性循環。

模型競技場更是給國產大模型提供了一個在競爭中學習的平臺,以及獲得用戶評價的絕佳機會,塑造了更加積極進取的氛圍。

“消滅”Prompt工程

從技術層面上看,在理念與產品之間架起橋梁的,是360獨創的CoE(Collaboration-of-Experts,專家協同)架構。

CoE架構集合了數量更多的大模型和專家模型,通過思維鏈和“多系統協同”的方式實現了“快思考”和“慢思考”的有機結合。

在思路上,CoE與o1選擇了相近的路線,但是在深度上走得更遠——

o1無論再怎么融合,也無外乎是OpenAI的自家模型,CoE卻是海納百川,集合了數量更多的大模型和專家模型。

圖片

△CoE架構原理圖

而且,CoE架構中還接入了很多十億甚至更小參數的專家模型,使得整個系統更加智能,在獲得高質量回答的同時,節約推理資源、提升響應速度。

早在CoE架構剛發布的時候,基于CoE集各家所長的混合大模型能力就超過了(當時最強的)GPT-4o。

該混合大模型在翻譯、寫作等12項指標的測試中取得了80.49分的綜合成績,超越了GPT-4o的69.22分;而且除了代碼以外,其余11項指標均優于GPT-4o。

圖片

而且CoE架構對所有模型都敞開懷抱,比OpenAI在開放協作的道路上走的更遠……

另外,無論是OpenAI的o1,還是360的CoE,都將讓大模型的發展走向一個新的趨勢——

復雜的人工環節將實現自動化,具體到大模型當中,就是“消滅”Prompt工程。

乍一看有些反直覺,因為在我們使用大模型時,提示詞的好壞對生成內容有著決定性的影響,其重要性不言而喻。

但仔細想想又并不矛盾——大模型等AI應用,歸根結底是要為了人類而服務;

而提示工程卻是讓人類去適應模型的工作方式,簡直“倒反天罡”。

所以,提示工程固然重要,但不該成為普通用戶使用大模型的“絆腳石”。

解決的思路就是將提示詞的設計工作,像其他任務一樣,作為思維鏈中的一環,交給大模型來做。

這樣的模式下,提示工程的靈魂依然被保留,但在用戶的視野當中逐漸淡化,形成一種“消亡”的感觀。

這種模式背后所反映的,也是360對AI未來發展的一點期許——

實現AI向著更多人的普惠,讓大模型不再“高居廟堂”,而是成為萬家燈火。

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章