首頁 > AI資訊 > 最新資訊 > 站上大模型制高點:給不輸GPT

站上大模型制高點:給不輸GPT

新火種    2023-10-23

機器之心報道

作者:澤南

我們即將進入一個 AI 原生的時代,一個人機交互的新時代。

「這是迄今為止最強的文心大模型。它實現了基礎模型的全面升級,在理解、生成、邏輯和記憶四大能力上都比文心一言線上版本有了明顯提升,綜合水平與 GPT-4 相比毫不遜色,」百度創始人、董事長兼 CEO 李彥宏說道。

國內的大模型已經沖到了業界最強水平?10 月 17 日,百度世界大會上文心大模型 4.0 的發布引來了一大波關注。

在昨天的大會現場,百度展示了一段又一段 demo,文心大模型現在能看懂你的言外之意,比如問它一個問題:「我想回承德買房,能用公積金貸款嗎?手續怎么辦,我在北京工作。」

一段完全口語化的表達,前后亂序,沒有明確表述,但 AI 也能理解說話人的潛臺詞:公積金是北京的,戶口可能在承德。文心一言理解上下文之后準確針對問題給出了回答。

當然還有先進的多模態方向:給文心大模型一個新車型的圖片,再加上幾句話的提示(Prompt),它就可以很快生成完整的企劃文案圖片,并把素材結合成海報。再提示幾下,文心就能結合官網信息和已有內容生成一段宣傳視頻,其中還有數字人在進行講解。

從零開始到輸出海報和視頻,整個過程不到三分鐘。

「人們常說不寫作業母慈子孝,一寫作業雞飛狗跳。文心一言能不能幫助家長解決輔導功課的問題?」李彥宏說道。

給出一道數學題,文心的解答過程非常詳細。AI 還能夠進一步解釋這個問題中涉及到的各個知識點。

衡量 AI 智能程度的另一個指標在于長期記憶能力,如果大模型生成的內容前后邏輯不一致,那就不存在可用性了。在現場,李彥宏讓文心一言生成一部武俠小說的大綱,再在其中細化情節,加入幾個人物,改變沖突的戲劇要素…… 問題來了,經歷了多輪對話,它還記得自己最開始給女主角設定的特殊能力嗎?

完全沒有問題。

面向全社會開放才一個多月,文心大模型的綜合水平看來又有了大幅進化,不過在主題演講上的那些畢竟是「命題作文」,真正用起來會不會是一回事呢?

其實想要用上并不難:昨天大會的一開場,百度就宣布文心大模型 4.0 開啟邀請測試,現場觀眾都有了測試權限,在網站和 APP 上都可以體驗。我們則是提前獲得了評測資格,嘗試了一下新版本。

文心大模型 4.0 正面對比 GPT-4

在文心一言的網站上,現在已經出現了文心大模型 4.0 的標簽,表面看起來和 3.5 版沒有太大區別:

在這里我們要引入一點前置知識:上個版本文心大模型 3.5 已經有了插件(現有 8 種)、多模態理解、生成等能力,通過知識點增強技術實現了對世界知識的熟練掌握。因此,既然說 4.0 版是「迄今為止最強大模型」,我們就不能再用以前過于簡單的問題來考驗它了。

先看理解能力,這道「中文十級題」目測連網友都會翻車,文心大模型 4.0 的回答簡潔明了:

換業界標桿 GPT-4 來回答,它理解并解釋了其中幽默的意味,但表示無法確定小明最后買的是幾等座:

下面這段話是在一檔直播節目上出現的,那時人們評價道:全中國沒人聽得懂白巖松在說什么。

兩個大模型都認為說話人想表達的是:人們都喜愛足球這項運動,不應該因為一小部分人的不喜歡而影響到這種喜愛。不過作為人類,還是得說一句 AI 沒有理解「想說聲喜愛很難」這種感情。

看起來理解問題的水準上,兩種模型水平相近,文心大模型在一小部分問題上有點優勢。

再看邏輯推理能力,輸入一個高考試卷中的物理選擇題,文心大模型 4.0 和 GPT-4 都給出了正確的回答:

看起來文心能給出的答案更詳細一些,另外還顯示了幾個進一步解釋概念的引導選項,似乎它對做題進行了專門的優化?

我們繼續問了很多高考的數學題目,結果各有對錯,也有些是都答不上來的??傮w來看文心 4.0 和 GPT-4 的水平相近。

還有多模態生成,我們直接用同樣的指令讓兩個大模型生成一段視頻,文心一言調用「一鏡留影」插件,直接輸出了結果:

GPT-4 則是調用 CapCut(字節的剪映)插件生成視頻內容。需要注意的是,它提示要想生成視頻,就必須要與你進行多輪對話,逐步確定好視頻腳本(英文的)、屏幕比例等等:

在不斷的測試中我們還能看出,如果你 Prompt 得越仔細,說 AI 話的格式越規整,GPT-4 的表現就相對越好,不過最終也并沒有產生決定性的差距。調戲大模型,現在已經越來越像一門學問了。

為了測試四大能力中的長期記憶能力,我們讓文心大模型 4.0 閱讀一篇貼吧的帖子:在崩鐵更新了 1.4 版本之后,有人從自己專業的角度對劇情進行了一長段吐槽,那么這評價合理嗎?

文心認為游戲劇情不需要完全按照現實世界的邏輯來展開。我不是很認同,我就是想要符合現實邏輯的劇情:

能不能再跌宕起伏一點?

再嘗試替換其中的一個人物:

看起來,文心大模型 4.0 可以在保持原始知識的情況下,與人在不斷對話的過程中生成、提煉出你想要的內容。

還有一些我們經常會用得到的功能。在 ChatGPT 出現后,越來越多的人開始嘗試使用大模型幫忙來潤色論文,據說 AI 寫論文看起來很有功底,一般人還真比不上。我們用一段著名的發言試一下:

文心大模型 4.0 把它改寫成了這樣:

與之相對的是,GPT-4 更多地使用了原文的信息:

不過在更多測試中,GPT-4 生成的內容偶爾會出現夾雜英文的現象。

另外,文心一言目前為保證獲取實時信息,默認接入了百度搜索插件,也在理解網絡新趨勢的時候能幫得上忙。比如,我們最近都在反思自己有沒有努力工作:

相比之下,GPT-4 給出了似乎是基于大模型幻覺的回答。

如果多點一步選擇使用 Bing 聯網版的 GPT-4 則可以得到正確回復,不過再次出現了語言問題,偶爾會獲得全英文的回答。

看起來,文心大模型 4.0 在四大核心能力上的提升的確明顯,和 GPT-4 比毫不遜色的說法也并不是夸張,特別是在中文領域里,水平是經得起考驗的。

核心技術揭秘

能做得到業內領先,百度實現了哪些技術進步?在昨天會上,百度 CTO 王海峰解讀了文心大模型 4.0 的關鍵技術和最新進展。

「相比 3.5 版本,文心大模型 4.0 的理解、生成、邏輯、記憶四大能力都有顯著提升,」王海峰說道?!钙渲欣斫夂蜕赡芰Φ奶嵘认嘟6壿嫼陀洃浤芰Φ奶嵘齽t更大。邏輯的提升幅度達到理解的近三倍,記憶的提升幅度也達到了理解的兩倍多。」這些提升都會給用戶帶來幫助。

這些改進的速度很快 —— 其實文心大模型 4.0 在 9 月初就達到了上線標準,開始了小流量測試。過去的一個多月里經過不斷調優,它的生成效果又提升了近 30%。

基礎模型能力的增長體現在應用上,就轉化成了生產效率的提升。比如在各家大廠都說在用的智能代碼助手上,百度基于文心大模型的 Comate 在內部應用效果不錯,整體的代碼采納率現在是 40%,高頻用戶的代碼采納率達到 60%。現在百度每天新增的代碼中,有 20% 是由大模型生成的,這個比例還在不斷升高。

這些提升又是靠什么做到的?總的來說,百度基于高效率算力、自研框架、更好的數據處理機制,再結合算法與調優,這才訓練出了規模更大、效果更好的文心大模型 4.0。

今年 3 月正式發布的文心一言,其背后基于文心大模型 3.0,這是一個有知識增強的大語言模型,它從數萬億數據和數千億知識中融合學習,又使用了有監督精調、人類反饋強化學習、提示等技術,具備知識增強、檢索增強和對話增強的優勢。

5 月份發布的文心大模型 3.5 則在基礎模型、精調技術、知識點增強、邏輯推理、插件機制等方面進行了改進,取得了生成效果和效率的提升。

文心大模型 4.0 以它們為基礎,繼續在多個關鍵技術向上突破。

具體來說,百度:

在萬卡算力上基于飛槳平臺,通過集群基礎設施和調度系統、飛槳框架的軟硬協同優化,支持了大模型的穩定高效訓練。通過建設多維數據體系,形成了從數據挖掘、分析、合成、標注到評估閉環,充分提高數據的利用效率,大幅提升模型效果。基于有監督精調、偏好學習、強化學習等技術進行多階段對齊,保證了模型能夠更好地與人類的判斷和選擇對齊。利用可再生訓練技術通過增量式的參數調優,有效節省了訓練資源和時間,加快了模型迭代速度。

基于這一系列的提升,自三月以來文心大模型的訓練效率已累計提升 3.6 倍;訓練穩定性方面,周均的訓練有效率已超過 98%。

另外在更高層面上還有一些改進。

文心大模型 4.0 實現了輸入和輸出兩階段的知識點增強,一方面對用戶輸入的問題進行理解,拆解出所需的知識點,然后在搜索引擎、知識圖譜、數據庫中查找準確知識,再把這些知識組裝進 Prompt 送入大模型,提升了準確率和效率。另一方面又對大模型的輸出進行「反思」,從生成結果中拆解出知識點,再用搜索引擎、知識圖譜、數據庫,以及大模型本身進行確認,對有差錯的內容進行修正。

給大模型再加一層自動化的 AutoGPT 被認為是大模型的重要發展方向,百度同樣構建了文心的智能體機制。人的認知系統可劃分為兩個部分:系統 1,反應很快,但容易出錯;系統 2,反應慢,但更理性、更準確。在基礎大模型之上百度進一步研制了系統 2,包括理解、規劃、反思和進化,能夠做到可靠執行,自我進化,并一定程度上將思考過程白盒化,從而讓機器像人一樣思考和行動,自主的完成復雜任務,并能夠在環境中持續學習實現自主進化。

接下來,文心一言團隊還會繼續加班加點,持續提升大模型的能力。

目前,文心大模型的用戶量增長很快。王海峰公布了一組數字:自 8 月 31 日文心一言面向全社會開放至今,僅用 40 多天的時間,文心一言的用戶規模已經達到 4500 萬,同時覆蓋了 5.4 萬開發者,4300 個場景,825 個應用,與之匹配的插件也超過了 500 個。

百度:做國內第一個 AI 原生化公司

當然,前面展示的文心一言只是生成式 AI 應用的一小部分。

大模型理解、生成、邏輯、記憶的四大核心能力突破,是催生 AI 原生應用的必要條件,帶來了全新的想象和創新空間。

李彥宏表示,百度要做第一個把所有產品進行重構的公司。在世界大會上,百度發布了多款 AI 原生的應用,來自搜索、地圖、文庫、網盤等業務線的十余個應用產品全部亮相。

百度搜索是大模型落地的第一步,「新搜索」是全新的 AI 互動式搜索,它實現了三大重要提升:極致滿足、推薦激發、多輪交互。當你在搜索框里輸入問題,它不再是單純的輸出鏈接,而是生成完整的答案,并附帶易于理解的圖表。

大模型加持的生產力工具也在變得更聰明,分析師現在可以通過大模型工具可以把十幾天才能完成的任務縮短到幾分鐘來完成,參與在線會議的人可以從冗長的對話內容里快速總結出重要信息,出差時 AI 也會自動幫你安排行程:

在我們每天都會用的百度地圖上,最新上線的 V19 版本基于文心大模型進行了重構,其中的「AI 向導」具備多輪自然語言交互能力,用說話的方式就能喚醒菜單里被折疊的上千種能力,也可以理解人們不是具體地點的需求,并找到最優解,當好一個向導。

如果把眼光放遠到更多行業,百度正在大力推動數字技術與實體經濟的深度融合,其大模型技術已應用在制造、能源、電力、化工、交通等實體產業中。在千帆大模型平臺上,現在已有超過 1.7 萬企業開發了產業模型和解決方案,覆蓋了各行業的近 500 個場景。

最近一段時間,AI 領域技術的軍備競賽讓我們對技術突破越來越熟視無睹。有時候甚至會忘記距離 ChatGPT 正式發布,現在才過去十個多月的時間。在這段時間里,通用的生成式 AI 已經從遙不可及的愿景,變成了人人在玩的聊天機器人,又蛻變成為了眾多行業效率提升的基礎。

而在未來,不論時間的長短,AI 原生的智能化注定要改變所有人的生活和工作方式。

可喜的是,在這個過程中,國內公司已經拿到了入場門票。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章