首頁 > AI資訊 > 最新資訊 > 對話恒生電子白碩:大模型不擅長精準計算,數據質量決定模型能力

對話恒生電子白碩:大模型不擅長精準計算,數據質量決定模型能力

新火種    2023-11-08

“過去幾個月我們對金融行業進行了比較廣泛的調研,結果表明行業對大模型的關注和參與程度比較高,但真正落地的應用還比較少——8%在立項階段,17%在測試階段,超過70%的金融機構還處于調研階段。”恒生電子董事長劉曙峰近日表示,“金融機構的同事們可以不要那么焦慮,畢竟大多數機構還不知道怎么真正應用到業務場景中去。”

劉曙峰提到,大模型在落地應用時存在著模型選擇難、算力供應不足、應用成熟度不足等問題。作為“百模大戰”的參與者之一,恒生電子此前發布“金融行業大模型LightGPT”,并在近日發布了最新能力升級成果,以及數個大模型應用產品,同時正式開放產品公測。

在鈦媒體App此前的行業調研中,同樣感受到了大模型落地金融行業過程中遇到的諸多難點。比如,當前絕大部分中小金融機構缺乏探索大模型的高額預算;“幻覺問題”難以完全克服,大大限制了應用落地表現等等。

對此,鈦媒體App近日與恒生電子首席科學家、大模型產品總監白碩展開了深入對話。在加入恒生電子前,白碩曾任中科院計算機所博士生導師,上海證券交易所總工程師。

半導體禁令或將倒逼算力合作

鈦媒體App:最近大家關注度比較高的是美國半導體禁令,新規可能會沖擊英偉達A800或者H800的銷售,對國內AI芯片或帶來沖擊,怎么看這一禁令后續對大模型行業帶來的連鎖反應?

白碩:我理解這可能會帶來幾方面影響:第一,由于禁令的生效,國內大模型企業可能打算買的或者已經在路上的AI芯片,都可能存在一定的風險。買不到當然就是“無米之炊”,大模型企業想推廣的一些場景可能面臨不方便推廣或者沒有那么順利的問題。

挑戰也帶來了另一方面的影響:一方面,國產相應GPU可以快速頂上,達到同步、同功能、等效的替換。站在這個角度上,確實我們看到一些企業,譬如海光、華為的昇騰都在發力,我也期待他們會提供更加符合客戶要求的算力支持,我們也會一起幫助AI的應用真正在行業落地。所以從這一方面來看,其實它是一個機會,推動國產GPU的技術進步。

此外,未來還會不會有另外一種可能性,當前國內大模型已經有的算力,可能處于一種分散的狀態,不一定能夠發揮它最大的效能,已經有的算力掌握在少數單位或者少數機構的手里,并不能非常充分地發揮它的作用。我們有沒有可能把算力集中起來,以行業的方式,統一提供服務?這也是我們在思考的一條路徑。

頭部機構技術先發優勢明顯

鈦媒體App:大模型的開發需要大量資金、算力和數據支撐,它會不會拉大頭部和中小金融機構之間的技術差距?

白碩:如果從算力角度來看,不同規模金融機構在算力方面投入的差距,可能很大程度上會使這個差距加劇,對算力投入成本的承受程度各不相同。但是,如果可以通過行業能力統一的方式來提供算力服務,大家或許都有機會。

另一方面,實際上大模型的預訓練、精調和推理部署需要的算力有數量級的差別。實力雄厚的頭部企業研發投入充足,先發優勢明顯,可以利用相對大的算力和自有數據對大模型進行精調;而研發投入相對有限的中小機構,可以采用跟隨策略,直接使用成熟模型,只進行推理部署而不做精調。像恒生這樣的金融科技服務商,可以在打造成熟模型方面為市場提供相應服務。

“行業云+混合部署”是未來出路

鈦媒體App:最近了解到,中小金融機構的投入預算很少,很多新業務不太愿意嘗試,恒生電子在實踐中有怎樣的經驗和體會?

白碩:這有一個“既要…又要…”的問題。所謂“既要…又要…”,就是既要合規,又要盡可能地不做重復建設。因為不重復建設就可能意味著數據要素的流動。如果這個流動不是監管所允許的或者不是公司愿意的,那就會成為問題。

我們都知道SaaS化,大模型的SaaS有一個專門的名詞叫MaaS(模型即服務)。MaaS可以把算力資源最大程度地使用出來,大家可以通過模型訂閱的方式獲得服務。但當遇到數據不能彼此互通的情況,這種模式就不太成立,大模型只能私有部署。所以這里有一個解決方案,就是用“行業云+混合部署”模式。行業云就意味著是行業有公信力一個單位或者一個機構來提供云服務,監管認可的公信力會解決很多問題。

另一方面,混合部署將是一個常態化的方案。采取私有化部署+MaaS服務相結合的混合云部署方式,一方面滿足監管合規、數據安全的要求,另一方面可以快速引入行業資源和能力,完成大模型的應用落地;同時通過訂閱服務獲得數據服務、AI服務的持續更新。

大模型不擅長精準計算

鈦媒體App:關于幻覺問題,有人跟我提到過一個觀點,大模型的核心優勢是創造性,但由于幻覺問題的存在,大模型和金融業會存在本質性的矛盾,當然這里的“金融業”是比較狹窄的含義。您怎么看待這個問題?

白碩:創造性還是很籠統的概念,具體地說就是語言能力和知識能力。大模型最亮眼的表現是語言能力,無論是意圖的精準理解還是內容生成,都非常驚艷。但是,它的知識能力處在進化過程當中,而且它是有上限的。

像數學公式的推導,還有像知識圖譜,中間需要很深層的穿透計算,每一步都需要精準計算。如果把這些精準的知識放到大模型里,那么就又變概率了,增加了不確定性。這不是大模型擅長的,這類工作就不應該交給它。我認為,不應該把大模型的創造性用在這些需要精準計算和推理的地方,用了反而會起反作用。

而在一些內容生成方面,我們鼓勵大模型有創造性,能夠做到千人千面。比如我們問同樣的問題,大模型可能可以給到精神一致、但表述不一樣、甚至表述風格都不一樣的不同回答,這就充分體現了大模型的創造性。

當前我覺得還有一個偏向,可能有一些技術人員,或者AI業余愛好者常常在一些業務用不到的點上考驗AI大模型,像腦筋急轉彎的問題之類。我呼吁業內避免走入誤區,在選擇業務真正需要的場景時,考察的著眼點不要放在錯誤的、沒價值的地方。

數據質量決定模型能力

鈦媒體App:關于數據的問題。投研、投顧是大家比較期待的場景,但也有一些業內人士表示,目前為止還沒有體現出很出色的表現,數據孤島化、數據質量不高等問題依然存在,極大限制了應用表現。

白碩:你說的是對的,這里面誰來連通這些數據,是有講究的。從我們的實踐來看,要有一個類似“光子”(注:恒生電子推出的金融應用對接大模型的“中控”平臺)這樣的東西來拉通各種數據、各種資源。比如在財富投顧場景中,投顧話術的生成需要給大模型提供各類數據,比如來自行情數據庫的數據、來自基本面數據庫的數據,還有來自證券公司系統里的客戶自身的持倉數據等。

所以,我們要有一個“中控”平臺,能夠像一個巫師一樣,從四面八方把有用的資源召喚出來,使用在同一個業務場景中。比如在投顧場景中,大模型可以根據這些資源,進一步進行計算、分析、摘取、生成,最后形成綜合了各個方面資源的投顧建議給到投資顧問。

這是大模型自身做不到的,需要以一種無縫的方式拉通多方面的資源才能做到。而這些工作恰恰是我們最擅長的。

鈦媒體App:目前金融大模型有開源也有閉源,您怎么看待開源、閉源的路徑選擇?

白碩:開源分為代碼開源和參數開源。一般都能做得到代碼開源,也就是說真正拉開距離的不是代碼,不是訓練和推理的框架,而是數據。數據可能決定了模型的能力。所以,用數據這件事情差異還是蠻大的,盡管訓練和推理框架都是開源的,但只要數據本身有特色,仍然能夠打造具有自己特色的大模型,這是一個我們的基本判斷。

如果涉及到參數開源,參數開源意味著你的上家(底座大模型)用它的數據訓練過一次模型,得到了一些參數,而你沒有廢棄這些參數而是繼承,然后在這些參數基礎上,用你的數據繼續訓練,把這些參數向效果更好的方向去迭代修改在這種情況下,開源參數的質量會很大程度上決定后續的模型質量作者|蔡鵬程)

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章