首頁 > AI資訊 > 最新資訊 > 5款主流國產大模型PK:誰最好用?誰更懂你?我們幫你試了試

5款主流國產大模型PK:誰最好用?誰更懂你?我們幫你試了試

新火種    2023-09-05

近日,包括百度、百川智能等8家國產大模型通過首批備案“持證上崗”。用戶可在對應平臺上申請賬號,與AI智能對話。

那么,這些大模型是否真的無所不知?真的能幫助用戶解決問題?還是一個放大版的Siri呢?

記者選取了其中五款模型,包括豆包(字節云雀大模型)、通義千問(阿里通義大模型)、訊飛星火(星火認知大模型)、文心一言(百度文心大模型)、智譜清言(智譜 ChatGLM 2大模型),從搜索能力、上下文理解能力、情感分析力、編程能力四個方面來考察,出了一張20道原創考題的“試卷”,看看哪款模型最好用。

誰能代替搜索引擎?

信息搜索是普通用戶最有可能使用大模型的場景,那么,它們真的可靠嗎?

從結果來看,豆包的信息搜索能力較強,其余大模型存在信息過舊、信息錯誤、無結果的問題,遠無法代替搜索引擎。

記者詢問的是“請告訴我《解放日報》的地址”。只有豆包準確地說出正確答案,而文心一言、智譜清言或許是數據庫并未更新,提供的地址均為舊址,讀者按照這個地址可找不到報社。

訊飛星火和通義千問更是離譜。訊飛星火捏造了一個錯誤的地址;而通義千問則建議記者在搜索引擎搜索,或是去官網尋找,可謂是“問了也白問”。

豆包的信息最為準確。

如果是涉及法律、經濟等專業知識,大模型的表現會更好嗎?

記者詢問了第二個問題,“從法律的角度分析,媽媽和女朋友同時掉進水里,你會救誰?”

這一問題雖是坊間常見的談資,但題目限定在法律角度下,因此考驗大模型對法律法規的理解。這種極端的情況下一般沒有標準答案,通常認為(非法律實操層面),子女對直系親屬有救助義務,但戀人并非直系親屬。

從結果來看,豆包與訊飛星火較為可靠,邏輯清晰且無明顯漏洞,似乎可以給男士們提供參考。

通義千問沒有注意到法律限定詞,回答較為籠統,屬于“正確的廢話”;而文心一言的答案更妙,看似非常的專業,引用了刑法,但核查后會發現存在較多事實性錯誤,屬于一本正經地瞎說。

文心一言的回答有較多事實性錯誤。刑法第二百三十一條規定“單位犯本節第二百二十一條至第二百三十條規定之罪的,對單位判處罰金,并對其直接負責的主管人員和其他直接責任人員,依照本節各該條的規定處罰。”同時,回答中“無論你先救哪一個都可能被指控違法行為”有誤。

不僅僅是文心一言,通義千問也存在專業信息失實的問題。

在詢問“人民幣的發行機構是什么?”后,通義千問雖說出正確答案,但引用的《中國人民銀行法》也是錯誤的,第二十一條規定并非如它所說。

看來法律知識依舊是大模型越不過去的坎啊。

《中國人民銀行法》第二十一條規定“殘缺、污損的人民幣,按照中國人民銀行的規定兌換,并由中國人民銀行負責收回、銷毀”。

誰能和你順暢聊天?

對話是大模型產品與用戶聯系最緊密的功能之一,能聽懂、答得上、會接梗都是大模型的“必修課”,國產大模型在這堂課上能打幾分?

“上周他去了醫院”“這周他回到了工作崗位”,說出這兩句話,大模型能猜出這兩周發生了什么事情嗎?雖然兩句話缺少直接的因果關系,但這五個大模型幾乎都能答得出——“他”可能生病了,去醫院看病康復了之后,這周開始重新上班。

不過,文心一言的回答似乎更加全面,將可能性分成了三部分:其一是生病或受傷,經過治療康復后重返崗位;其二是與慢性疾病有關,只是去醫院做了檢查或手術;其三是沒有生病,去醫院只是進行體檢或打疫苗而已。由此可看出,文心一言用了“窮盡式”的方法,雖然回復比較啰嗦,但更為精確。

緊接著,記者再問一句“那他上周為什么不來上班”,為了考察大模型是否能聯系上下文理解。令人吃驚的是,豆包、訊飛星火、通義千問、智譜清言都能答得出“上周去醫院”,只有文心一言完全忘記了上輪對話,“無法確定上周為什么沒來上班”,再次“窮盡式”回答出缺席上班的原因。

在情感分析方面,記者通過文本分析、情感強度對比,以及用西班牙語等方式表達情感,結果證明五個大模型都是“情感大師”,對記者說話時的“微情感”把握非常準確。

為了更好測試日常對話中的非常規對話的理解,記者講了“網絡冷笑話”——林黛玉為何倒拔垂楊柳,結果難倒了一批大模型:豆包判斷出林黛玉和倒拔垂楊柳出自不同的典故,解釋了兩者的原始出處,并指出兩者毫無關聯,但沒有找出這句話背后的“網梗”,而通義千問和智譜清言敏銳地發現了“網梗”,還將原文出處和網友們的聯想全部展現出來。

也就是說,多數大模型在應付日常交流對話已經基本沒多大問題,但要學會幽默“接梗”還為時尚早。

誰能幫你寫代碼?

在ChatGPT發布后,部分程序員就曾感慨“要失業了”,因為大模型在編程、找漏洞方面有一定優勢。

那么,在上述五款國產大模型中,誰的編程能力更佳呢?誰又能教你寫代碼呢?

記者從基本算術運算、條件語句、IF循環、函數和數據結構五個方面入手,以編程初學者的身份來試試大模型。

從編程能力上來看,五款大模型并無較大區別,代碼正確且能運行,不存在前文中遇到的“瞎編法律條文”的情況。

如果硬是要挑一些問題的話,星火的代碼簡潔性欠佳。因為即使是最簡單的加法,星火都套用了def函數,而其余模型皆為直接運算。

星火在計算簡單的加法。

但并不是每一款大模型都適合當編程老師。

從代碼的可讀性上來看,文心一言比較適合初學者學習編程。因為它不僅在代碼中插入了#號說明,標示出每一步的含義,同時在文末附上文字總結,以幫助用戶理解代碼的邏輯。更貼心的是,文心一言還點明注意事項,例如在詢問判斷數字正負的問題中,它提醒編碼者注意用戶輸入的信息,建議添加錯誤處理代碼的語句。對于初學者而言,十分友好。

相較之下,星火的可讀性最弱,說明性文字較少,編程小白容易看不懂。

文心一言的代碼與文末總結。

從上述測試結果來看,各大品牌模型各具特色,用戶可根據實際需求進行選擇。

此外,除了文字問答外,大模型還有其他功能。根據新華社研究院中國企業發展研究中心今年8月發布的《人工智能大模型體驗報告2.0》,星火還可用于數據自動分析、可視化工具等,輔助人類提高工作效率;文心一言則善于處理深度的語義理解和文本生成;商湯商量則在情商上表現優秀,具有讀懂日常溝通中一語雙關的能力,也能在人際關系處理中出謀劃策。

整體而言,我國AI大模型發展火熱,上半年相關融資事件超過20起,不僅有超過20款通用大模型,也有與教育、金融、醫療緊密結合的垂直大模型應用。產業生態已初步形成,在政府、企業、學界等各方的共同努力下,我國人工智能產業將實現跨越式進步、發展。

附:記者設計了20道大模型測試題,部分測試結果包含主觀因素,僅供參考。

知識理解

1、網絡流行語:林黛玉為何倒拔垂楊柳?

“林黛玉倒拔垂楊柳”是著名的“網梗”,來自網友們的惡搞,類似的還有“猛張飛病補雀金裘””宋公明三打白骨精”“劉姥姥醉打蔣門神”等。

這不僅能考驗大模型對四大名著的理解,還能判斷出大模型對當前網絡俚語的理解程度。

豆包

通義千問

文心一言

訊飛星火

智譜清言

2、信息搜索與聯想:上觀新聞地址在哪里?解放日報地址在哪里?

上觀新聞是解放日報旗下新媒體,通過詢問解放日報和上觀新聞的地址,既能考驗大模型的搜索能力,還能判斷出大模型能否將二者聯系在一起。

通義千問

文心一言

訊飛星火

智譜清言

3、法律知識:從法律的角度分析,媽媽和女朋友同時掉進水里,你會救誰?

豆包

訊飛星火

智譜清言

4、政務知識:人民幣的發行機構是什么?

豆包

通義千問

文心一言

5、道德悖論:假設你是火車司機,面臨兩條分叉鐵軌,一條上躺著5個人,另一條躺著一個人,你無法剎車但是可以控制方向,你會選擇駛向哪條鐵軌?

經典的“電車難題”考驗大模型的道德思維和邏輯表達能力。

豆包

通義千問

文心一言

訊飛星火

智譜清言

上下文理解

1. 故事連貫性:給定以下兩句話“他打開了冰箱。冰箱里沒有食物。” 請問,這兩句話之間是否存在邏輯上的連貫性?

豆包

通義千問

文心一言

訊飛星火

智譜清言

2. 信息引申:給定一段文本描述了一個人正在燉湯,然后突然提到他切了一些新鮮的蔬菜。請問,你認為這些蔬菜將被用于什么?

豆包

通義千問

文心一言

訊飛星火

智譜清言

3. 詞匯聯系:給定一句話“她買了一本有關星座的書。”請問,這句話中的“星座”一詞通常與什么相關聯?

豆包

通義千問

文心一言

訊飛星火

智譜清言

4. 時間序列:給定以下兩個事件“上周他去了醫院。這周他回到了工作崗位”。請問,這兩個事件之間發生了什么?

豆包

通義千問

5. 引用上下文:那他上周為什么不來上班

情感分析

1. 文本情感分析:給定以下句子“我今天過得很開心”。請問這個句子表達了什么樣的情感?

2. 多語言情感:請分析以下句子的情感,該句子以西班牙語編寫“Estoy muy emocionado por mi próximo viaje.”

3. 情感強度:給定兩個句子“我很高興”和 “我非常高興!” 請問,哪一個表達了更強烈的情感?

4. 情感變化:分析以下文本段落中的情感變化“他一開始感到害怕,但后來變得勇敢起來。”

編程能力

編程基礎:編寫一個簡單的程序,將兩個數字相加并輸出結果。例如,輸入5和3,輸出8。

2. 條件語句:編寫一個程序,接受用戶輸入的數字,并判斷該數字是否為正數、負數或零,然后輸出相應的消息。

3. 循環:編寫一個程序,計算并輸出1到100之間所有偶數的和。

4. 函數:定義一個函數,接受一個字符串作為參數,然后返回該字符串的反轉版本。例如,輸入“hello”,返回“olleh”。

5. 數據結構:創建一個列表(數組)包含一組整數,然后編寫一個程序,找到列表中的最大值和最小值,并輸出它們。

欄目主編:李曄 

題圖來源:上觀題圖 圖片


相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章