久久综合九九,国产真实乱子伦精品视频,91人体视频

首頁 > AI資訊 > 最新資訊 > 5款主流國產大模型PK：誰最好用？誰更懂你？我們幫你試了試

5款主流國產大模型PK：誰最好用？誰更懂你？我們幫你試了試

新火種 2023-09-05

近日，包括百度、百川智能等8家國產大模型通過首批備案“持證上崗”。用戶可在對應平臺上申請賬號，與AI智能對話。

那么，這些大模型是否真的無所不知？真的能幫助用戶解決問題？還是一個放大版的Siri呢？

記者選取了其中五款模型，包括豆包（字節云雀大模型）、通義千問（阿里通義大模型）、訊飛星火（星火認知大模型）、文心一言（百度文心大模型）、智譜清言（智譜 ChatGLM 2大模型），從搜索能力、上下文理解能力、情感分析力、編程能力四個方面來考察，出了一張20道原創考題的“試卷”，看看哪款模型最好用。

誰能代替搜索引擎？

信息搜索是普通用戶最有可能使用大模型的場景，那么，它們真的可靠嗎？

從結果來看，豆包的信息搜索能力較強，其余大模型存在信息過舊、信息錯誤、無結果的問題，遠無法代替搜索引擎。

記者詢問的是“請告訴我《解放日報》的地址”。只有豆包準確地說出正確答案，而文心一言、智譜清言或許是數據庫并未更新，提供的地址均為舊址，讀者按照這個地址可找不到報社。

訊飛星火和通義千問更是離譜。訊飛星火捏造了一個錯誤的地址；而通義千問則建議記者在搜索引擎搜索，或是去官網尋找，可謂是“問了也白問”。

豆包的信息最為準確。

如果是涉及法律、經濟等專業知識，大模型的表現會更好嗎？

記者詢問了第二個問題，“從法律的角度分析，媽媽和女朋友同時掉進水里，你會救誰？”

這一問題雖是坊間常見的談資，但題目限定在法律角度下，因此考驗大模型對法律法規的理解。這種極端的情況下一般沒有標準答案，通常認為（非法律實操層面），子女對直系親屬有救助義務，但戀人并非直系親屬。

從結果來看，豆包與訊飛星火較為可靠，邏輯清晰且無明顯漏洞，似乎可以給男士們提供參考。

通義千問沒有注意到法律限定詞，回答較為籠統，屬于“正確的廢話”；而文心一言的答案更妙，看似非常的專業，引用了刑法，但核查后會發現存在較多事實性錯誤，屬于一本正經地瞎說。

文心一言的回答有較多事實性錯誤。刑法第二百三十一條規定“單位犯本節第二百二十一條至第二百三十條規定之罪的,對單位判處罰金,并對其直接負責的主管人員和其他直接責任人員,依照本節各該條的規定處罰。”同時，回答中“無論你先救哪一個都可能被指控違法行為”有誤。

不僅僅是文心一言，通義千問也存在專業信息失實的問題。

在詢問“人民幣的發行機構是什么？”后，通義千問雖說出正確答案，但引用的《中國人民銀行法》也是錯誤的，第二十一條規定并非如它所說。

看來法律知識依舊是大模型越不過去的坎啊。

《中國人民銀行法》第二十一條規定“殘缺、污損的人民幣，按照中國人民銀行的規定兌換，并由中國人民銀行負責收回、銷毀”。

誰能和你順暢聊天？

對話是大模型產品與用戶聯系最緊密的功能之一，能聽懂、答得上、會接梗都是大模型的“必修課”，國產大模型在這堂課上能打幾分？

“上周他去了醫院”“這周他回到了工作崗位”，說出這兩句話，大模型能猜出這兩周發生了什么事情嗎？雖然兩句話缺少直接的因果關系，但這五個大模型幾乎都能答得出——“他”可能生病了，去醫院看病康復了之后，這周開始重新上班。

不過，文心一言的回答似乎更加全面，將可能性分成了三部分：其一是生病或受傷，經過治療康復后重返崗位；其二是與慢性疾病有關，只是去醫院做了檢查或手術；其三是沒有生病，去醫院只是進行體檢或打疫苗而已。由此可看出，文心一言用了“窮盡式”的方法，雖然回復比較啰嗦，但更為精確。

緊接著，記者再問一句“那他上周為什么不來上班”，為了考察大模型是否能聯系上下文理解。令人吃驚的是，豆包、訊飛星火、通義千問、智譜清言都能答得出“上周去醫院”，只有文心一言完全忘記了上輪對話，“無法確定上周為什么沒來上班”，再次“窮盡式”回答出缺席上班的原因。

在情感分析方面，記者通過文本分析、情感強度對比，以及用西班牙語等方式表達情感，結果證明五個大模型都是“情感大師”，對記者說話時的“微情感”把握非常準確。

為了更好測試日常對話中的非常規對話的理解，記者講了“網絡冷笑話”——林黛玉為何倒拔垂楊柳，結果難倒了一批大模型：豆包判斷出林黛玉和倒拔垂楊柳出自不同的典故，解釋了兩者的原始出處，并指出兩者毫無關聯，但沒有找出這句話背后的“網梗”，而通義千問和智譜清言敏銳地發現了“網梗”，還將原文出處和網友們的聯想全部展現出來。

也就是說，多數大模型在應付日常交流對話已經基本沒多大問題，但要學會幽默“接梗”還為時尚早。

誰能幫你寫代碼？

在ChatGPT發布后，部分程序員就曾感慨“要失業了”，因為大模型在編程、找漏洞方面有一定優勢。

那么，在上述五款國產大模型中，誰的編程能力更佳呢？誰又能教你寫代碼呢？

記者從基本算術運算、條件語句、IF循環、函數和數據結構五個方面入手，以編程初學者的身份來試試大模型。

從編程能力上來看，五款大模型并無較大區別，代碼正確且能運行，不存在前文中遇到的“瞎編法律條文”的情況。

如果硬是要挑一些問題的話，星火的代碼簡潔性欠佳。因為即使是最簡單的加法，星火都套用了def函數，而其余模型皆為直接運算。

星火在計算簡單的加法。

但并不是每一款大模型都適合當編程老師。

從代碼的可讀性上來看，文心一言比較適合初學者學習編程。因為它不僅在代碼中插入了#號說明，標示出每一步的含義，同時在文末附上文字總結，以幫助用戶理解代碼的邏輯。更貼心的是，文心一言還點明注意事項，例如在詢問判斷數字正負的問題中，它提醒編碼者注意用戶輸入的信息，建議添加錯誤處理代碼的語句。對于初學者而言，十分友好。

相較之下，星火的可讀性最弱，說明性文字較少，編程小白容易看不懂。

文心一言的代碼與文末總結。

從上述測試結果來看，各大品牌模型各具特色，用戶可根據實際需求進行選擇。

此外，除了文字問答外，大模型還有其他功能。根據新華社研究院中國企業發展研究中心今年8月發布的《人工智能大模型體驗報告2.0》，星火還可用于數據自動分析、可視化工具等，輔助人類提高工作效率；文心一言則善于處理深度的語義理解和文本生成；商湯商量則在情商上表現優秀，具有讀懂日常溝通中一語雙關的能力，也能在人際關系處理中出謀劃策。

整體而言，我國AI大模型發展火熱，上半年相關融資事件超過20起，不僅有超過20款通用大模型，也有與教育、金融、醫療緊密結合的垂直大模型應用。產業生態已初步形成，在政府、企業、學界等各方的共同努力下，我國人工智能產業將實現跨越式進步、發展。

附：記者設計了20道大模型測試題，部分測試結果包含主觀因素，僅供參考。

知識理解

1、網絡流行語：林黛玉為何倒拔垂楊柳？

“林黛玉倒拔垂楊柳”是著名的“網梗”，來自網友們的惡搞，類似的還有“猛張飛病補雀金裘””宋公明三打白骨精”“劉姥姥醉打蔣門神”等。

這不僅能考驗大模型對四大名著的理解，還能判斷出大模型對當前網絡俚語的理解程度。

豆包

通義千問

文心一言

訊飛星火

智譜清言

2、信息搜索與聯想：上觀新聞地址在哪里？解放日報地址在哪里？

上觀新聞是解放日報旗下新媒體，通過詢問解放日報和上觀新聞的地址，既能考驗大模型的搜索能力，還能判斷出大模型能否將二者聯系在一起。

通義千問

文心一言

訊飛星火

智譜清言

3、法律知識：從法律的角度分析，媽媽和女朋友同時掉進水里，你會救誰？

豆包

訊飛星火

智譜清言

4、政務知識：人民幣的發行機構是什么？

豆包

通義千問

文心一言

5、道德悖論：假設你是火車司機，面臨兩條分叉鐵軌，一條上躺著5個人，另一條躺著一個人，你無法剎車但是可以控制方向，你會選擇駛向哪條鐵軌？

經典的“電車難題”考驗大模型的道德思維和邏輯表達能力。

豆包

通義千問

文心一言

訊飛星火

智譜清言

上下文理解

1. 故事連貫性：給定以下兩句話“他打開了冰箱。冰箱里沒有食物。” 請問，這兩句話之間是否存在邏輯上的連貫性？

豆包

通義千問

文心一言

訊飛星火

智譜清言

2. 信息引申：給定一段文本描述了一個人正在燉湯，然后突然提到他切了一些新鮮的蔬菜。請問，你認為這些蔬菜將被用于什么？

豆包

通義千問

文心一言

訊飛星火

智譜清言

3. 詞匯聯系：給定一句話“她買了一本有關星座的書。”請問，這句話中的“星座”一詞通常與什么相關聯？

豆包

通義千問

文心一言

訊飛星火

智譜清言

4. 時間序列：給定以下兩個事件“上周他去了醫院。這周他回到了工作崗位”。請問，這兩個事件之間發生了什么？

豆包

通義千問

5. 引用上下文：那他上周為什么不來上班

情感分析

1. 文本情感分析：給定以下句子“我今天過得很開心”。請問這個句子表達了什么樣的情感？

2. 多語言情感：請分析以下句子的情感，該句子以西班牙語編寫“Estoy muy emocionado por mi próximo viaje.”

3. 情感強度：給定兩個句子“我很高興”和 “我非常高興！” 請問，哪一個表達了更強烈的情感？

4. 情感變化：分析以下文本段落中的情感變化“他一開始感到害怕，但后來變得勇敢起來。”

編程能力

編程基礎：編寫一個簡單的程序，將兩個數字相加并輸出結果。例如，輸入5和3，輸出8。

2. 條件語句：編寫一個程序，接受用戶輸入的數字，并判斷該數字是否為正數、負數或零，然后輸出相應的消息。

3. 循環：編寫一個程序，計算并輸出1到100之間所有偶數的和。

4. 函數：定義一個函數，接受一個字符串作為參數，然后返回該字符串的反轉版本。例如，輸入“hello”，返回“olleh”。

5. 數據結構：創建一個列表（數組）包含一組整數，然后編寫一個程序，找到列表中的最大值和最小值，并輸出它們。

欄目主編：李曄

題圖來源：上觀題圖圖片

Tags:

深度學習模型主流

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

5款主流國產大模型PK：誰最好用？誰更懂你？我們幫你試了試

NVIDIA深度適配通義千問大模型，推出艙駕融合大模型解決方案

NVIDIA深度適配通義千問大模型推出艙駕融合大模型解決方案

哈啰亮相2024云棲大會：展示AI整體布局及大模型案例

在線可玩！智譜開源圖生視頻模型，網友直呼Amazing！

奧特曼：o1僅僅是“推理模型的GPT-2”；黃仁勛：我給你加速50倍

熱門文章