大模型傳媒能力如何?新京報AI研究院報告:存幻覺,寫作待提高
打分標準為:準確性(4分):概括是否準確反映了文檔內容,是否準確回答了測試人員的問題。覆蓋面(3分):概括是否涵蓋了文檔中的所有不能遺漏的重要內容。語言表達(3分):生成內容是否流暢,概括語言是否清晰易懂。可上傳文檔長度和可識別文檔類型(扣分項):大模型無法上傳或無法識別全部內容可酌情扣分。
分析:海螺AI在這項測試中得分穩居第一,豆包、騰訊元寶分列第二三位。會議紀要總結對于記者來說屬于“剛需”能力,因此測試中要求對新京報貝殼財經關于自動駕駛的閉門討論會錄音速記作為素材,進行內容總結。其中,文心一言、訊飛星火、百小應對嘉賓觀點進行了提煉,訊飛星火、智譜、海螺AI特別把整個會議中提煉出來的綜合觀點與嘉賓觀點結合,海螺AI還有最后總結,表現良好,因此也得到了高分。
在首次測試中,表現堪稱災難的“長文本搜索”能力,本次出現顯著改善,除了訊飛星火外,所有大模型均在一段長文本中搜索到了記者插入的問題答案。相比之下,上一次測試中一半以上的大模型無法搜索到。
不過,在財報對比方面,大模型仍表現出能力不足。在“請根據上傳的這兩份文檔,總結對比工商銀行與交通銀行2024年中期財報中總收入、凈利潤、毛利率等重點財務數據,并作總結。”題目中,百小應、智譜、Kimi、夸克AI無法上傳完整的兩份財報。海螺AI則在上傳的文件超過處理上限的情況下“強行”生成了答案。
此次測試中,對比財務分析軟件Wind數據,正確回答出總收入數據的只有文心一言、豆包、天工AI,但即便它們的總收入數據準確,其余數據仍然不準確。這說明讓面向大眾的C端大模型分析財報,準確率仍然堪憂。
測試中,文心一言在對比財報題目中生成的答案,其在總收入的數據上對比準確。
四、核心要點發現與總結
1. 點贊信息搜集能力,新聞寫作能力尚不足
橫向對比大模型五個維度的平均得分水平,排名由高到低分別是信息搜集能力(6.166分)、翻譯能力(6.136分)、長文本能力(5.845分)、事實核查與價值觀判斷能力(5.767分)、新聞寫作能力(5.678分)。
媒體從業者對于使用大模型代替搜索引擎進行信息檢索的能力較為滿意,但要讓大模型取代新聞工作者進行新聞寫作,尚需時日,大模型生成的新聞文章相比其他能力難言令人滿意。
2. 翻譯能力排名下滑,專業領域稍顯吃力
本次測評,翻譯能力得分排在第二位,而在上一次測評中,翻譯能力排名第一。這一變化除了大模型聯網后信息搜集能力得到大幅提升導致搜索能力增強因此排名上升外,也因為本次要求翻譯的題目難度增加,因此看到了大模型翻譯能力的上限,特別是對于特殊文體文章,AI尚不能精準且靈活翻譯。
不過,信息搜集能力和翻譯能力的評分均在6分以上,超過了及格線。
3. 事實核查能力跌破及格線,小眾謠言上“翻車”
在上一次測評中,事實核查與價值觀判斷能力評分也在及格線之上,但上一次的測試題目較為簡單。此次對于相對小眾的謠言,仍然有大模型“翻車”,這導致事實核查能力評分跌破了及格線,說明大模型無法辨別所有謠言。
4.長文本能力明顯提高,無法勝任財報分析工作
在上一次測試中,長文本能力得分墊底,而本次測評長文本能力得分則躍居第三,特別是文內檢索能力得到了大幅提升,絕大多數大模型能夠通過文內檢索能力找到用戶想要的答案,可見技術得到了加強。
長文本上傳方面,本輪測試支持上傳兩份完整長文本的大模型占到半數以上,相比上一次也有了長足進步。不過,對于內容嚴謹程度要求較高的財報分析等工作,大模型仍然無法勝任。
5.限定特定范圍,暴露“幻覺”問題短板
在本次測試中,不少問題都限定了時間或者事件范圍,結果不少大模型出現“幻覺”現象,比如“梳理上個月的爆款新聞”一題中,生成內容錯誤地囊括包括中國載人航天成功登月,以及“鼠頭鴨脖”事件發生在上個月等。如果不限制范圍則“幻覺”明顯減少,例如“搜索老年人詐騙案例”這一問題時,基本上所有大模型生成內容表現不錯。
6.個別問題無法生成回答,內容生成審核需更靈活
在本次測試中,不少大模型得分較低并非因為能力問題,而是無法生成答案。在關于中央文件的解讀、人民日報文章的翻譯中,不少大模型無法生成。一些大模型甚至在2024年12月中旬的測試中無法回答“吳柳芳事件”(截至2025年1月10日該問題已修復)。當前對內容的審核,一些大模型可能需要更加靈活。
測試時,科大訊飛對搜索總結“吳柳芳事件”這一問題的回答(現已修復)。
結語
經過本次測評,我們可以發現,總體得分上,文心一言、騰訊元寶、通義千問等模型表現突出,它們在五大維度上均展現出了較強的實力,沒有明顯的短板。同時,我們也注意到,盡管不同模型在各項能力上存在一定的差異,但整體上都在向著更加成熟、高效的方向邁進。
在信息搜集能力方面,大模型們普遍能夠緊跟時事新聞動態,給出較完整的檢索結果,但在具體的時間跨度或特定事件范圍的限制下,部分模型出現了“幻覺”問題,生成了與實際情況不符的內容。這提醒我們在使用大模型時需要謹慎核實其生成內容的真實性。同時,針對部分大模型在特定任務中無法生成答案的情況,我們也呼吁大模型的內容審核機制需要更加靈活以適應不斷變化的應用場景。
新聞寫作能力方面,盡管各模型在語法、邏輯、內容準確性和新聞風格等方面都取得了一定的成績,但整體上仍存在一定的同質化現象,缺乏獨特的視角和創造性。這要求我們在利用大模型進行新聞寫作時,需要更加注重內容的多樣性和創新性,以提升新聞報道的質量和吸引力。
在事實核查與價值觀判斷能力上,部分模型在面對含有誤導信息和錯誤價值觀的內容時,表現出了較高的警惕性和修正能力。然而,對于相對小眾的謠言或敏感議題,仍有模型“翻車”,這提醒我們在使用大模型進行事實核查時,需要保持審慎態度,并結合人工審核等手段進行雙重驗證。
翻譯能力方面,盡管各模型在普通文章的翻譯上表現尚可,但在面對特殊文體文章或專業領域術語時,仍存在一定的挑戰。這要求我們在利用大模型進行翻譯時,需要充分考慮文章的類型和領域特點,選擇適合的模型進行翻譯,并必要時進行人工修正。
相比第一期測評,本期測評揭示了大模型產品在長文本能力方面的進步,特別是文內檢索能力得到了大幅提升,絕大多數大模型已經能夠通過文內檢索找到用戶所需的答案,這無疑為記者和編輯等傳媒從業者提供了更為便捷和高效的工具。盡管如此,對于內容嚴謹程度要求較高的財報分析等工作,大模型仍顯得力不從心,需要傳媒從業者審慎對待。
綜上所述,生成式大模型在傳媒行業的應用已經取得了顯著的進展,但仍存在一定的局限性和改進空間。未來,隨著技術的不斷進步和應用場景的不斷拓展,我們有理由相信大模型將在傳媒行業中發揮更加重要的作用。同時,我們也需要持續關注大模型的發展動態和技術挑戰,加強技術研發和應用創新,以推動傳媒行業的持續健康發展。
(文章來源:新京報)
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。