首頁 > AI資訊 > 最新資訊 > 搭建數(shù)推分離雙網(wǎng)絡(luò)架構(gòu),「雙腦」大模型一體機突破落地算力瓶頸|早期項目

搭建數(shù)推分離雙網(wǎng)絡(luò)架構(gòu),「雙腦」大模型一體機突破落地算力瓶頸|早期項目

新火種    2024-12-11

作者|黃楠

編輯|袁斯來

在大模型技術(shù)浪潮中,Scaling Law被業(yè)界遵循為第一性原理,直至科技媒體The Information在獨家報道中指出,OpenAI下一代旗艦?zāi)P蚈rion的訓(xùn)練效果或遠不及預(yù)期:與GPT-4相比,性能提升也許微乎其微。這引發(fā)了從業(yè)者對大模型發(fā)展路徑的深度思考:Scaling Law是否是唯一方向?

長期以來,基于Scaling Law的大模型落地存在重大瓶頸,廠商為提升模型能力,持續(xù)擴大預(yù)訓(xùn)練數(shù)據(jù)、訓(xùn)練算力并擴大模型參數(shù)規(guī)模,不僅成本高;同時,算法同質(zhì)化也會導(dǎo)致數(shù)據(jù)規(guī)模和訓(xùn)練算力的同質(zhì)化,最終造成輸出能力的趨同。另一側(cè),大模型能否有效學(xué)習(xí)客戶數(shù)據(jù)并成為領(lǐng)域?qū)<遥彩且淮筇魬?zhàn)。

當前,單一依賴Scaling Law進行集中式暴力訓(xùn)練已顯露諸多弊端。大模型的“智能”并非僅受參數(shù)規(guī)模決定,大模型如何在實際場景中發(fā)揮作用,才是企業(yè)客戶關(guān)注的焦點。要打破模型到應(yīng)用落地之間的高墻,硬氪近日接觸到的「傳神物聯(lián)網(wǎng)」提出,集中式預(yù)訓(xùn)練模式值得重新審視,實時學(xué)習(xí)和訓(xùn)練模式更具探索價值。

「傳神物聯(lián)網(wǎng)」董事長何恩培指出,大模型在相同參數(shù)下,模型算法和架構(gòu)更先進,所需訓(xùn)練算力越小,訓(xùn)練數(shù)據(jù)也越少,不僅不影響模型的能力,甚至在部分指標上可超越常規(guī)架構(gòu)大參數(shù)的模型。“相比之下,這種采用高效算法和架構(gòu)的小參數(shù)模型更適合商業(yè)落地,而且也可以滿足通用場景的需求。”

傳神創(chuàng)始人何恩培就《基于雙網(wǎng)絡(luò)架構(gòu)數(shù)推分離大模型的探索與實踐》發(fā)表主題演講

基于這一理念,「傳神物聯(lián)網(wǎng)」在其發(fā)布的任度大模型,采用了全技術(shù)棧自主研發(fā)、未使用任何開源代碼和框架的雙網(wǎng)絡(luò)架構(gòu),將推理網(wǎng)絡(luò)與數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)分離。

其中,客戶數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)如同人類左腦,專注于數(shù)據(jù)的動態(tài)管理與迭代訓(xùn)練,持續(xù)為模型注入知識養(yǎng)分;推理網(wǎng)絡(luò)則如同人類右腦,作為經(jīng)大量數(shù)據(jù)預(yù)訓(xùn)練的基礎(chǔ)網(wǎng)絡(luò),具備不錯的推理和泛化能力。

這種雙網(wǎng)絡(luò)協(xié)同工作的設(shè)計,可有效降低訓(xùn)練的算力成本,避免微調(diào)導(dǎo)致的基座模型能力退化和泛化能力減弱等問題。同時,數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)還可以學(xué)習(xí)企業(yè)的歷史數(shù)據(jù),并實時學(xué)習(xí)業(yè)務(wù)運營產(chǎn)生的新數(shù)據(jù),兩個網(wǎng)絡(luò)聯(lián)合工作,輸出客戶所需成果。

測試顯示,任度大模型基于數(shù)推分離技術(shù),突破了常規(guī)大模型技術(shù)架構(gòu)限制,上下文輸入長度不受限,可將億量級用戶數(shù)據(jù)壓縮至神經(jīng)網(wǎng)絡(luò)中,并進行深度知識理解,極為接近 “實時” 數(shù)據(jù)學(xué)習(xí)模式。即使是極少量數(shù)據(jù)更新,也能快速上傳并完成數(shù)據(jù)壓縮,迭代為企業(yè)自己的定制化大模型。

任度大模型共有2.1B和9B兩個版本,在降低算力成本方面,其訓(xùn)練與推理時的算力成本分別為同等大模型的10%-20%以及25%-50%。

硬氪了解到,目前「傳神物聯(lián)網(wǎng)」已將雙網(wǎng)絡(luò)架構(gòu)的數(shù)推分離大模型應(yīng)用至任度“雙腦”大模型一體機,即將投放市場。該一體機基于數(shù)推分離的雙腦模式,可以解決客戶數(shù)據(jù)離場訓(xùn)練、向量效果有限及人才投入高等痛點,實現(xiàn)更新數(shù)據(jù)的本地實時學(xué)習(xí),并快速轉(zhuǎn)化為“企業(yè)知識專家”。

針對客戶數(shù)據(jù)安全和私有化問題,任度“雙腦”大模型一體機可采用本地部署及訓(xùn)練,無需上傳至公有云,保障了數(shù)據(jù)隱私安全。同時,其根原創(chuàng)和高性參比的特性,可在一定程度上解決客戶應(yīng)用大模型過程中的高硬件投入、高能耗及技術(shù)安全和軟件漏洞等痛點。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責(zé)任。

熱門文章