首頁 > AI資訊 > 最新資訊 > 不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

新火種    2023-10-28

10月17日的百度世界大會,百度創始人、董事長兼CEO李彥宏官宣文心大模型4.0發布,其中一句話讓人印象深刻:文心大模型4.0綜合水平與GPT-4相比已經毫不遜色!這么短的時間內,國內大模型是否真就趕上了GPT-4。有媒體針對連著進行了公開的評測,結果顯示文心大模型4.0已然在綜合能力上可以逼近并比肩 GPT-4,甚至在一些強調文化背景的問題中展現了超越 GPT-4 的態勢。

此次測評維度評測整體圍繞模型的語言理解、推理、生成、知識、記憶這五個維度展開設計,設計了以下10類評測題:

常識推理題

打敗80%人類的中文語言理解題

再上點難度:語言理解+邏輯推理

成年人不擅長的古詩生成題

本土文化考察:90后專屬非主流文字識別

弱智吧經典戰役

知識問答:四大名著考察

GPT-4最擅長的數學計算

GPT-4最擅長的代碼題

測測翻譯腔

第一類評測題:常識推理題

首先祭出這個曾經把全體大模型(包括文心一言3.5、通義千問、訊飛星火、ChatGPT等)都干崩了的常識推理Case:

文心大模型4.0

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

GPT-4

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

結果顯示,文心4.0完勝!幾個月過去了,GPT-4還是做不對,但親測文心4.0成為了目前全世界唯一一個把這個case做對的大模型。

第二類評測題:打敗80%人類的中文語言理解題

在語言理解問題上,簡單case測試沒意義!直接上難度看下兩者的表現。

文心大模型4.0

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

GPT-4

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

可以看到這一局評測雙方表現都差強人意,可以說是打平。嘗試一下例子:

文心大模型4.0

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

GPT-4

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

本以為這個case兩個模型也都要翻車,沒想到文心和GPT竟然都做對了。比不出來?那就再來一題!

文心大模型4.0

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

GPT-4

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

結果竟然又打平了。看來兩者的語言理解能力都很強,不分伯仲。

第三類評測題:語言理解+邏輯推理

文心大模型4.0

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

GPT-4

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

雖然GPT-4和文心4.0答案都對了,但推理過程是錯的,這局算打平。

文心大模型4.0

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

GPT-4

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

可以看到,文心4.0逐步分析,展現出了清晰的推理邏輯,而 GPT-4 則明顯暈了,效果驚艷,文心4.0勝!

第四類評測題:成年人不擅長的古詩生成題

文心大模型4.0

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

GPT-4

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

能從結果看出,果然還是百度更懂中文。文心大模型4.0比GPT-4表現更優秀!

第五類評測題:本土文化考察:90后專屬非主流文字識別

80、90后一定還記得當年在QQ空間上流行的非主流文字,來,看看你倆有沒有刷過QQ空間。

文心大模型4.0

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

GPT-4

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

果然,通過這道題,能看出百度是有20年前的互聯網記憶的,OpenAI在本土化方面的表現被百度碾壓,符合預期!

第六類評測題:弱智吧經典戰役

這就必須祭出每逢大模型發布時,媒體的必考題。

文心大模型4.0

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

GPT-4

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

文心4.0完勝!GPT-4太失敗了,時隔半年,它還是認為生蠔煮熟后就變成了熟蠔,現在認為煮熟后叫做“蠔”或者“煮熟的蠔”。

第七類評測題:知識問答:四大名著考察

相信大家已經通過上面的評測感受到了文心4.0在中文語言理解等方面對GPT-4形成的碾壓。我們接著考察一下兩個模型對四大名著的掌握程度。

文心大模型4.0

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

GPT-4

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

離大譜!GPT-4不僅真的胡亂編造起來林黛玉倒拔垂楊柳的故事,連孫悟空、觀音都搬出來了。

第八類評測題:GPT-4最擅長的數學計算

在我們之前的評測中,GPT-4的數學計算完爆一眾國產模型。時隔半年,再來PK一波!

文心大模型4.0

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

GPT-4

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

這道題GPT-4竟然答錯了,文心大模型4.0在這道數學計算題上贏了GPT-4!當然這只是一個例子,有興趣的小伙伴可以找更多case進行測試。

第九類評測題:GPT-4最擅長的代碼題

直接上NLP算法工程師最熟悉的分詞算法,看看NLP大模型對NLP算法的理解能力。

文心大模型4.0

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

GPT-4

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

文心大模型4.0的代碼能力的確有了不錯的提升,本題打平!

第十類評測題:測測翻譯腔

做機器翻譯容易,但想要翻譯出來的內容非常地道,不帶翻譯腔,其實很難。

文心大模型4.0

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

GPT-4

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知仔細對比下,文心4.0的英翻中的結果翻譯腔明顯更弱,翻譯的更加地道,本題文心4.0勝!

文心大模型4.0

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

GPT-4

不僅毫不遜色,甚至小有優勢?你對文心大模型4.0的真實能力一無所知

這道題,文心大模型4.0竟然翻譯成了古詩,足以看出在中文上的領先優勢!

由于case有限,盡管從這不到20個case中,看起來文心大模型4.0效果比GPT-4效果好很多,但實際上由于測試類型覆蓋不夠全,因此不能得出置信的文心大模型4.0比GPT-4強的結論,僅能作為一個對兩個大模型能力特色的感性認知。整體上,可以看出文心大模型4.0的表現非常超出預期,相比3.5版本的提升實在是太大了。

一直以來,國內外無數大模型測評榜單來來去去回回,其中哪怕是在中文能力之上,始終位居榜首紋絲不動的仍然是目前世界上最先進的大模型——GPT-4。而伴隨著文心大模型4.0的發布,經過測評后,可以給出的答案是:

“文心大模型4.0綜合水平與GPT-4相比確實已經毫不遜色!”

通過上面從理解、生成、邏輯、記憶這四大能力出發并且不斷切換不同展示能力的視角與問題,可以看到文心大模型4.0已然在綜合能力上可以逼近并比肩 GPT-4,甚至在一些強調文化背景的問題中展現了超越 GPT-4 的態勢。文心大模型在4.0時代綜合能力的進化,是為未來一個智能時代的到來奠基。

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章