首頁 > AI資訊 > 最新資訊 > 中國聯通業界首創大模型能力邊界量化基準

中國聯通業界首創大模型能力邊界量化基準

新火種    2025-01-12

12月21日,OpenAI 發布了具有超強推理能力的大模型o3,引起了業內對大模型推理能力的廣泛討論和深入研究。o3的發布也帶來了三個引人深思的問題:市面上主流大模型的推理能力究竟如何?在真實應用場景中,是否總是需要具有極強推理能力的模型?在實際應用中,如何根據應用需求選擇合適參數量的大模型而避免“用大炮打蚊子”,以獲得最高性價。

中國聯通借鑒動物智能演化規律,結合大模型實際落地應用實踐,在業界首次提出大模型能力邊界量化基準,定量分析主流語言大模型能力邊界,詳細刻畫模型參數量、模型能力與應用場景之間的關系,為語言大模型的應用選型提供理論和經驗指導,將有助于降低語言大模型應用門檻,促進大模型普惠化。相關研究成果以為題發表在自然語言處理權威會議NLPCC2024上,相應的評估基準已向業界開源,獲得業界廣泛認可。

論文鏈接:

https://arxiv.org/abs/2406.10307

評估基準:

https://github.com/UnicomAI/UnicomBenchmark/tree/main/A-Eval

借鑒動物智能演化規律

一般來說,動物的腦神經元越多,腦容量越大,智力水平就越高。另外,不同智力水平的動物擅長的任務種類和難度也各不相同,即使小如烏鴉的大腦,也可以完成“烏鴉喝水”這樣的任務。

動物智能演化規律

相似地,在語言大模型中,擴展法則指出模型參數量越大,模型能力越強,相應的算法消耗和應用成本也越高。然而這樣的定性分析是不夠的,大模型能力邊界定量刻畫的缺乏,導致在實際應用中經常出現“高射炮打蚊子”的情況。因此對大模型能力邊界的定量刻畫是必要且緊迫的。

構建大模型能力評估基準

中國聯通研究團隊從實際應用場景維度出發,對語言大模型主要能力進行歸納、梳理和總結,建立了應用驅動的大語言模型能力評估基準。該評估基準包括文本生成、理解、關鍵信息抽取、邏輯推理、任務規劃等5大類能力,又細分為27類子能力。

語言大模型主要能力

針對27類子能力,中國聯通研究團隊構建了相應的評測任務和由易、中、難三個難度等級的678個問答對構成的評估數據集。為避免數據泄露問題,所有數據均由專家團隊人工編寫。

應用驅動的語言大模型能力評估數據集

量化主流大模型能力邊界

團隊設計了專家評估和基于大模型的自動化評估方法,對同一家族8個不同規模的模型(0.5B, 1.8B, 4B, 7B, 14B, 32B, 72B, 110B)進行測試和評估,避免模型架構、訓練數據等非模型參數量因素對評估結果產生干擾,得到了不同參數量模型在各種任務上的可靠的評估結果。從下圖的評測結果可以看出,不同參數量模型能力不同,模型參數量越大,模型能力越強,對于復雜任務需要使用大參數量模型。

不同參數量模型在各類任務中的準確率

依據能力要求確定模型參數量

根據語言大模型能力邊界測評結果,團隊提出了一種簡單可行的模型選型方法,指導模型落地應用時的參數選型。總的來說,針對不同任務,任務難度越高要求參數越大;針對同一任務,參數越大模型性能越好。具體地,可依據某項任務對模型性能的底線要求來選擇相應參數的規模,以圖中任務為例:在用戶需求準確率為80%的前提下,對于拼寫錯誤校正任務,14B以上模型可獲90分以上;對于邏輯錯誤檢測任務,110B以上模型可達90分以上;如果同時應用多個任務,先為每個任務選擇合適的模型,再選擇其中參數量最大的模型即可。選型過程中不需要用戶對大模型有深入了解,這將降低用戶選擇使用大模型的門檻,促進大模型普惠化。

模型參數量選擇方法示例

探索設計模型選型使用“說明書”

在元景大模型應用落地中,中國聯通基于上述評估基準,打造評估工具,量化1B、7B、13B、34B和70B等元景基礎大模型的能力邊界,并分別將其用于違規短信分類、投訴工單分類、客服助手、漁業知識問答、元景App問答等場景,提煉“模型參數量-模型能力-應用場景”關聯關系(如下圖),作為大模型使用“說明書”,集成到元景MaaS平臺,為開發者提供選模型指引。

模型參數量-能力-場景的對應關系圖

接下來,中國聯通將繼續推進模型邊界量化機理研究,擴展和深化“模型參數量-模型能力-應用場景”關聯關系,協同業界持續擴展模型能力邊界,完善和增強大模型的“記憶-推理-規劃-創造-成長-價值觀”能力鏈條,打造自主可控、模態豐富、性能先進、高性價比、安全可信的基礎大模型,支撐千行百業場景應用,加速大模型普惠化。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章