首頁 > AI資訊 > 最新資訊 > 打口水戰(zhàn)不如比拼硬實力!文心一言VS科大訊飛VS360智腦誰更勝一籌?

打口水戰(zhàn)不如比拼硬實力!文心一言VS科大訊飛VS360智腦誰更勝一籌?

新火種    2023-09-20

《科創(chuàng)板日報》5月26日訊(記者 黃心怡) 大模型領(lǐng)域的口水戰(zhàn)不斷。

此前,王小川與百度陣營因在技術(shù)差距上的不同意見,引發(fā)廣泛熱議。近日,對于股價一度逼近跌停,科大訊飛回應(yīng)稱“股價下跌系某生成式AI寫作虛假‘小作文’導(dǎo)致”,這也導(dǎo)致了百度方面的“回懟”。文心一言相關(guān)負責人在社交平臺發(fā)文質(zhì)疑這篇“AI小作文”的真?zhèn)巍?/p>

“口水戰(zhàn)”不斷的背后,是今年以來國內(nèi)人工智能大模型激烈賽道競爭。迄今,國內(nèi)的科技公司、高校、研究機構(gòu)已發(fā)布了30多款A(yù)I大模型產(chǎn)品。在百度文心一言最先公開邀測后,阿里、科大訊飛、360等企業(yè)的大模型也紛紛亮相……

口水戰(zhàn)再熱鬧,終究得靠硬實力見真章。《科創(chuàng)板日報》記者近期獲得了360、科大訊飛大模型的內(nèi)測體驗名額。

從測試結(jié)果來看,國內(nèi)僅有百度文心一言、360智腦等少數(shù)幾家企業(yè)開放了AI作圖功能。其中,360還專門發(fā)布了AI繪圖應(yīng)用360鴻圖,提供了更多文生圖的高級選項。

在文字創(chuàng)作能力上,各家大模型差距并不大。而科大訊飛的星火大模型在數(shù)理能力表現(xiàn)尤為突出,是少數(shù)通過了“小升初”考試的選手。

▍文心一言VS 360智腦:AI作圖大比拼

當前,國內(nèi)僅有百度文心一言、360智腦等少數(shù)幾家企業(yè)的大模型開放了AI作圖的應(yīng)用。訊飛星火還僅支持自然語言處理。

訊飛星火認知大模型對AI作圖的回答

在最初的文心一言版本中,由于對中文輸入詞的理解不足,文心一言曾經(jīng)鬧出不少關(guān)于“紅燒獅子頭”、“胸有成竹”的笑話。

經(jīng)過版本迭代,文心一言已經(jīng)修正了這些問題。《科創(chuàng)板日報》記者也同樣對360智腦進行了測試。

提問:畫一個胸有成竹的男人

360智腦:

文心一言:

360智腦走的是寫實風,文心一言則是人物畫,如果以“胸有成竹”的字面理解來評估,360智腦的圖片似乎更為準確。

提問:畫一張車水馬龍的圖

360智腦:

文心一言:

提問:畫一張紅燒獅子頭

360智腦:

文心一言:

在“紅燒獅子頭”回答中,360智腦提供的四張圖片里,有一張不幸出現(xiàn)了“真獅子頭”的錯誤。

提問:畫一幅畫,媽媽抱著寶寶、寶寶在哭泣,寶寶6個月左右

360智腦:

文心一言:

從兩者生成的圖片來看,文心一言的哭泣畫面較為生動寫實,360智腦則提供更多不同風格的選擇。

提問:生成一張云計算的配圖

360智腦:

文心一言:

顯然,對科技詞匯的理解上,文心一言更勝一籌。

值得一提的是,360專門發(fā)布了AI繪圖應(yīng)用360鴻圖,除了一次能夠生成四張不同的圖片,還提供電腦壁紙、海報、頭像等模式,并支持上傳參考圖,進行渲染方式、光線等設(shè)定選擇。

▍文字生成能力比拼:各家差距不大

《科創(chuàng)板日報》記者用常見的“文字游戲”問題,對科大訊飛、360智腦、文心一言進行了一一測試。整體而言,各家都已經(jīng)對這些問題進行了專門的修正。

360智腦:

訊飛星火:

此前,記者曾向多個大模型提問了涉及信息搜索的問題:特斯拉在國內(nèi)過去五個月、過去一年的銷量是多少?

當時,文心一言的答案較為不盡如人意。這次記者重新進行提問。

文心一言的最新回答:

文心一言的舊版回答:

在與問題的匹配度方面,文心一言的回答質(zhì)量有所提升。

360智腦:

360給出了截至2021年8月的數(shù)據(jù),但數(shù)據(jù)顯然存在錯誤。

訊飛星火:

訊飛星火直接表示無法回答準確的數(shù)據(jù)。

看熱鬧不嫌事大,記者要求三家撰寫一篇:科大訊飛與文心一言對峙的新聞報道。

360智腦:

訊飛星火:

文心一言:

從文章內(nèi)容來看,文心一言、訊飛星火的新聞內(nèi)容更為完整。特別是文心一言還提供了新聞標題。

那么,這些大模型的商業(yè)文案寫作能力如何呢?

提問:請給我一段針對雙11童裝品牌的140字營銷文案,品牌名是童心未泯,關(guān)鍵詞是用料健康、性價比高。

360智腦:

文心一言:

訊飛星火:

三家大模型都給出了還不錯的回答。相比最初測試的版本,文心一言這次的回答變得更為簡潔。

此前文心一言的回答:

▍數(shù)理能力比拼:科大訊飛完勝

在數(shù)理邏輯推算能力方面,記者曾對文心一言、通義千問、云從大模型進行了測試,表現(xiàn)均頗為普通,答案準確度較低。

某次數(shù)學(xué)競賽共20道題,評分標準是:每做對一題得5分,每做錯或不做一題扣1分。小華參加了這次競賽,得了64分。問:小華做對幾道題?

正確答案應(yīng)該是14題,而文心一言這次得出了42題,360智腦得出了28道題。只有科大訊飛的星火認知大模型答對了。

文心一言:

360智腦:

訊飛星火:

記者又找了幾道“小升初”數(shù)學(xué)題,訊飛星火大模型均順利通過了測試。

2分和5分的硬幣共36枚,共值99分。問:兩種硬幣各多少枚?

訊飛星火模型給出了正確答案:2分27枚,5分9枚。

訊飛星火:

360智腦:

文心一言:

對于經(jīng)典的雞兔同籠題,訊飛星火也得出了正確的回答。

相關(guān)推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章