首頁 > AI資訊 > 最新資訊 > 金融大模型應用評測報告出爐,安全對齊表現優異,專業認知、多模態處理能力亟待提升

金融大模型應用評測報告出爐,安全對齊表現優異,專業認知、多模態處理能力亟待提升

新火種    2024-12-15

2024年12月13日,上海人工智能實驗室聯合上海財經大學、上海庫帕思科技有限公司發布《金融大模型應用評測報告(2024)》(以下簡稱《報告》)。 評測圍繞金融行業的核心業務需求及大模型在金融場景中的適配性,結合銀行、證券、保險、基金等重點應用場景,對14家機構的20個主流大模型的金融專業能力進行了評測。

結果顯示,參評模型在金融安全與價值對齊方面表現優異,體現出行業對關鍵合規性和倫理問題普遍高度重視;而在模型基礎能力、金融專業認知,特別是多模態處理能力等方面,參評模型存在一定短板,尤其是在復雜金融業務場景中的表現亟待提升。按綜合總分排名,Anthropic、階躍星辰/財躍星辰和阿里巴巴的參評模型位列前三。

未來,金融領域評測報告將以每年一至兩次的頻率發布,旨在為行業提供客觀評測結果與方向指引參考,助力金融科技在智能化、專業化、精細化方向上進一步突破與發展。

image

image

訪問鏈接或掃描二維碼可下載摘要版《報告》:

https://img.shlab.org.cn/pjlab/files/2024/12/638695925361130000.pdf

image

報告摘要

?參評模型在金融安全與價值觀對齊方面表現優異,體現出行業對關鍵合規性和倫理問題高度重視。

?在模型基礎能力、金融專業認知能力,特別是多模態處理能力等方面,參評模型存在一定短板,尤其是在復雜金融業務場景中的表現亟待提升。

?在金融業務輔助拓展能力維度,模型在智能投資顧問方面的整體表現尤為亮眼,這既反映了大模型的應用潛力,也揭示了評測數據集在構建業務方向的豐富性和復雜程度方面仍有較大提升空間。

?隨著大模型在金融業務場景應用的深入和擴展,安全問題或以更隱蔽和多變的形式顯現。因此,持續迭代更新安全評測方法,強化相關數據集建設將是未來的重點任務。

?高質量金融語料數據集的可持續供給對提升模型能力具有決定性意義。特別是在多模態金融數據集方面,當前的供給不足已成為業界共同面臨的瓶頸。

為促進大模型的產業應用與生態發展,上海AI實驗室構建了大模型開源開放評測體系司南(OpenCompass),客觀中立地為大模型技術創新提供堅實的技術支撐;同時積極與業界共建垂類評測,通過構建評測基準-評測-應用閉環,發揮評測數據價值,為產業應用提供方向牽引與安全保障。

本次評測的開展,旨在切實提升金融服務的智能化水平,降低企業數字化轉型成本,并積極探索金融垂直領域大模型應用的新理念、新機制和新手段,進一步推動金融科技創新應用的發展。

評測以司南平臺為核心工具,圍繞金融行業的核心業務需求及大模型在金融場景中的適配性,結合銀行、證券、保險、基金等重點應用場景,形成“模型基礎能力”“金融安全與價值對齊能力”“金融風險控制能力”“金融專業認知能力”“金融業務輔助拓展能力” 等五大測評維度。基于《金融大模型應用評測指南》(T/SAIAS 019—2024)團體標準,評測采用了《庫帕思金融大模型評測數據集(2024版)》。評測對象包括14家機構的20個主流大模型,含閉源和開源模型,分別通過購買API 接口和下載部署的方式進行測試。綜合評估分數采用線性加權模型,對每項指標進行標準化處理后加權平均計算。

image

《報告》顯示,參評模型綜合平均得分為71.9。在5大評測維度中,參評模型在金融安全與價值對齊能力維度表現最為出色,平均得分達92.8。在模型基礎能力和金融專業認知能力(含多模態任務)維度得分較低,分別為59.8和52.0,且各模型表現差異較大。

綜合總分排名前三的模型依次為:

1.Anthropic Claude-3.5-Sonnet-20240620, 79.8分

2.階躍星辰/財躍星辰 Step-2-16k/Finstep,79.7分

3.阿里巴巴 Qwen2.5-72b-Instruct/Qwen2-VL-72B,77.6分

本次測評一定程度上展示了大模型在金融應用方向的能力現狀,各模型整體表現基本滿足當下場景需求,其中金融安全與價值對齊表現優異,但仍存在較大提升空間,如金融專業認知和多模態處理能力。本次評測是依據《金融大模型應用評測指南》(T/SAIAS 019—2024)團體標準,使用《庫帕思金融大模型評測數據集(2024版)》,通過司南大模型開源開放評測體系對部分通用大模型和金融垂類大模型的一次抽樣測試。評測并未涵蓋所有的金融場景和模型,評測數據集的部分樣例已在OpenDataLab社區公開。

本次評測是相關工作的第一步,通過選取部分模型進行評估來對方法進行驗證。未來,還將每年開展至少1-2次評測,并逐步擴大測試范圍,開放和共建評測工具、評測數據集和評測方法體系。同時,將與金融行業各方協同,進一步強化以金融業務為中心的模型評測體系建設,加強高質量金融語料建設,結合相關標準;加強對大模型應用實踐的引導與規范,并與實踐緊密結合,以更好推動大模型技術在金融領域的落地應用。

image

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章