首頁(yè) > AI資訊 > 最新資訊 > 騰訊披露最新大模型訓(xùn)練方法可節(jié)省50%算力成本

騰訊披露最新大模型訓(xùn)練方法可節(jié)省50%算力成本

21世紀(jì)經(jīng)濟(jì)報(bào)道    2023-11-24

  隨著大模型時(shí)代到來(lái),模型參數(shù)呈指數(shù)級(jí)增長(zhǎng),已達(dá)到萬(wàn)億級(jí)別。與此同時(shí),大模型也逐漸從支持單一模態(tài)、單一任務(wù)發(fā)展為支持多種模態(tài)下的多種任務(wù)。

  在這種趨勢(shì)下,大模型訓(xùn)練所需算力巨大,遠(yuǎn)超單個(gè)芯片的處理速度,而多卡分布式訓(xùn)練通信損耗巨大。如何提高硬件資源利用率,成為影響國(guó)產(chǎn)大模型技術(shù)發(fā)展和實(shí)用性的重要前提。

  在此背景下,騰訊于11月23日宣布,騰訊混元大模型背后的自研機(jī)器學(xué)習(xí)框架Angel再次升級(jí),可將大模型訓(xùn)練效率提升至主流開源框架的2.6倍,千億級(jí)大模型訓(xùn)練可節(jié)省50%算力成本。

  Angel能力提升背后,是基于訓(xùn)練框架和推理框架的迭代。據(jù)悉,面向大模型訓(xùn)練,騰訊自研了機(jī)器學(xué)習(xí)訓(xùn)練框架AngelPTM,可針對(duì)預(yù)訓(xùn)練、模型精調(diào)和強(qiáng)化學(xué)習(xí)等全流程進(jìn)行加速和優(yōu)化,能夠以更少的資源和更快的速度訓(xùn)練更大的模型。

  而為了解決推理成本的不斷上升,騰訊自研的大模型推理框架AngelHCF通過擴(kuò)展并行能力、采用多種Attention優(yōu)化策略等方式對(duì)性能進(jìn)行了提升。同時(shí),框架還適配了多種壓縮算法,以提高吞吐能力,從而實(shí)現(xiàn)更快的推理性能和更低的成本。

  實(shí)測(cè)數(shù)據(jù)顯示,相較于業(yè)界主流框架,AngelHCF的推理速度提高了1.3倍。在騰訊混元大模型文生圖的應(yīng)用中,推理耗時(shí)從原本的10秒縮短至3-4秒。

  另外,升級(jí)后的Angel還提供了從模型研發(fā)到應(yīng)用落地的一站式平臺(tái),包含數(shù)據(jù)處理、精調(diào)、模型評(píng)估、一鍵部署以及提示詞調(diào)優(yōu)等服務(wù),讓大模型的“開箱即用”成為可能。

  據(jù)介紹,在應(yīng)用開發(fā)層面,騰訊內(nèi)部已有超過300項(xiàng)業(yè)務(wù)和應(yīng)用場(chǎng)景接入騰訊混元大模型內(nèi)測(cè),相比上個(gè)月數(shù)量翻了一倍。

(文章來(lái)源:21世紀(jì)經(jīng)濟(jì)報(bào)道)

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章