首頁 > AI資訊 > 最新資訊 > 人工智能模型的分布式訓練技術(shù)

人工智能模型的分布式訓練技術(shù)

新火種    2023-12-26

1. 算力荒:大模型繞不開的大難題自從ChatGPT引爆大模型發(fā)展熱潮,眾多科技企業(yè)前赴后繼,紛紛投入大模型研發(fā)中。然而,這波創(chuàng)業(yè)浪潮中鮮有小微初創(chuàng)企業(yè)的身影,甚至一些堪稱“準獨角獸”規(guī)模的企業(yè),也只集中在大模型的下游應用創(chuàng)新或微調(diào)中,不具備獨立的大模型創(chuàng)新能力。與海外層出不窮的新成果相比,我國這波創(chuàng)新浪潮遠不夠猛烈。而與該現(xiàn)象相對的是:大模型背后的神經(jīng)網(wǎng)絡(luò)技術(shù)其實早已頗為普及;國內(nèi)擁有眾多專業(yè)人才,有能力獨立完成模型的設(shè)計、搭建和訓練。

由此,一類觀點認為:大模型創(chuàng)新的主要門檻并不在算法與技術(shù),而在于訓練一個大模型、完成思路驗證和檢驗所需的超大規(guī)模算力。算力,才是這條賽道最高的墻。讓我們用數(shù)字更直觀地理解這一困難:大模型的海量參數(shù)絕非單臺計算設(shè)備所能容納,集群是大模型訓練的標配。GPT的訓練集群規(guī)模為25000張A100,按官方售價折算已達數(shù)億美金。這遠非絕大多數(shù)創(chuàng)新企業(yè)所能承擔。由于上萬個計算單元間的數(shù)據(jù)同步效率會給大模型訓練帶來重要影響,因此對單數(shù)據(jù)中心建設(shè)規(guī)模的要求也達到新高,連一些專業(yè)服務商都難以獨立提供可滿足大模型訓練需求的單一計算集群。而我國當下還面臨著愈發(fā)嚴苛的制裁:海外硬件資源越發(fā)緊缺,國產(chǎn)替代品依然存在較大性能差距。解決算力不足,成為中國人工智能創(chuàng)新發(fā)展的核心問題。

2. 面向大模型的分布式方法論當單點能力不足成為主要瓶頸后,大家總會去思考集群化、分布式的解決之道。從“東數(shù)西算”工程和“全國一體化算力網(wǎng)絡(luò)”,到云邊端協(xié)同一體化計算框架,再到群智計算以及Web3激勵式計算聚合等。我們總能窺見“聚少成多”的底層邏輯。然而,相比于傳統(tǒng)計算任務,讓分布式系統(tǒng)適配于大模型規(guī)模的神經(jīng)網(wǎng)絡(luò)訓練卻絕非一件簡單的事。尤其是把分布式協(xié)作的范圍從單個集群內(nèi)部的局域網(wǎng)內(nèi)協(xié)作,放大到城域網(wǎng)、廣域網(wǎng)范圍下多個中遠距離集群間協(xié)作,所產(chǎn)生的挑戰(zhàn)將更加復雜。

接下來我們將從與分布式訓練的兩個核心部分入手,介紹模型的分布式訓練,對這一挑戰(zhàn)建立認識:2.1 分布式訓練的前提:神經(jīng)網(wǎng)絡(luò)模型的分割與并行化訓練神經(jīng)網(wǎng)絡(luò)訓練有前后依賴、相互耦合的特性,導致其并行化存在天然困難。以一個最基本的三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為例,其訓練流程通常包含前向推理和反向傳播兩個步驟:在前向推理過程中,數(shù)據(jù)由輸入層輸入,在層間逐級計算傳遞,并在最后由輸出層輸出結(jié)果。隨后,我們計算推理得到的結(jié)果與真實結(jié)果之間的誤差,由輸出層將該誤差反向逐級傳播計算,直到輸入層。由此,我們可以得到每一層中每個參數(shù)的梯度,并由優(yōu)化器根據(jù)梯度更新參數(shù)。在這一過程中,每一層的計算都依賴于其前一層(或后一層)的數(shù)據(jù)。

圖1 經(jīng)典的神經(jīng)網(wǎng)絡(luò)訓練流程在這樣的架構(gòu)下,“模型平行方法”(Model parallelism)與“數(shù)據(jù)平行方法”(Data parallelism)是當下兩種分布式訓練的主要思路:2.1.1 模型平行方法該類方法將神經(jīng)網(wǎng)絡(luò)模型分割,由不同計算節(jié)點負責不同部分的計算,每個計算節(jié)點擁有不同的參數(shù)或模型層。通過這種方法,單個節(jié)點的參數(shù)量減少。然而由于神經(jīng)網(wǎng)絡(luò)各層次間前后依賴的特性,模型平行法有時需要計算節(jié)點的“串行化”,因此相關(guān)研究往往著眼于“流水線(Pipeline)”的搭建,把切分后的模型順序傳送給流水線上的設(shè)備進行計算,通過將模型切分為粒度足夠小的分片以降低流水線上計算設(shè)備的閑置率。圖2 模型平行方法、其串行化特性以及流水線搭建案例詳細而言,模型平行訓練一般包括以下幾個部分:模型分割、訓練流程調(diào)度優(yōu)化、流水線搭建等。為了將訓練任務分散到不同計算設(shè)備的同時避免過于頻繁的數(shù)據(jù)交換,需要找到適合神經(jīng)網(wǎng)絡(luò)架構(gòu)的模型分割方法,當前的主流方法一般為:層間分割與層內(nèi)分割。層間分割是最直觀的模型分割方式:由于神經(jīng)網(wǎng)絡(luò)模型自身是分層的,可以天然地由不同設(shè)備分別負責整個神經(jīng)網(wǎng)絡(luò)中一層或多層的訓練。層間分割下,不同計算機之間需要交換前向推理時的激活數(shù)據(jù),以及反向傳播時的梯度數(shù)據(jù)。層內(nèi)分割會對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行進一步地細分。不同計算設(shè)備分別負責神經(jīng)網(wǎng)絡(luò)一層或多層內(nèi)的部分神經(jīng)元激活函數(shù)計算、以及部分矩陣(張量)運算。在層內(nèi)分割下,前向推理時,負責某一層不同部分的不同計算設(shè)備,基于其所訓練的神經(jīng)網(wǎng)絡(luò)架構(gòu)的具體特性,獲得前一層的全部或部分激活數(shù)據(jù),并提供給下一層的全部或部分計算設(shè)備。反向傳播亦與之相類似。兩種模型分割方式都在模型平行訓練的實踐中有著廣泛的運用。二者也可以同時運用。而性能表現(xiàn)取決于所訓練的神經(jīng)網(wǎng)絡(luò)具體架構(gòu)。模型分割之外,還需要均衡各計算設(shè)備所負責的工作,避免單臺設(shè)備成為整個訓練流程的計算瓶頸。因此還需要采用優(yōu)化方法,針對最適合現(xiàn)有神經(jīng)網(wǎng)絡(luò)和設(shè)備的模型分割及任務分配方式進行優(yōu)化問題建模求解,找到最大化模型訓練效率的優(yōu)化方法。神經(jīng)網(wǎng)絡(luò)前后依賴的特性和串行化的訓練流程,難以實現(xiàn)真正的并行化,所以一般還需要通過不斷細分計算粒度并搭建“流水線”的方法,盡量提高設(shè)備的占用率,降低設(shè)備空閑時間。

圖3 層內(nèi)分割與層間分割的調(diào)度優(yōu)化從整體效益看:當模型平行方法用于大規(guī)模分布式算力的協(xié)同任務時,不利于最大化發(fā)揮規(guī)模優(yōu)勢給效率帶來的潛在提升機會。此外,由于各個節(jié)點均存儲有全量訓練數(shù)據(jù),這不利于數(shù)據(jù)隱私的保護。2.1.2 數(shù)據(jù)平行方法在采用數(shù)據(jù)平行方法進行模型分布式訓練過程中,相同的模型參數(shù)被復制到各個計算節(jié)點上。在單次迭代中,每個計算節(jié)點基于各自不同的小批量數(shù)據(jù)計算局部梯度或模型更新。然后,節(jié)點間交換結(jié)果,執(zhí)行聚合和廣播操作,以獲得新的全局模型。

圖4 經(jīng)典的數(shù)據(jù)平行方法訓練流程數(shù)據(jù)平行訓練有多種不同的模式:完全同步模式、適用于異構(gòu)設(shè)備的部分同步模式、聚合參數(shù)而不是梯度的本地隨機梯度下降模式、由參數(shù)服務器異步聚合梯度更新參數(shù)的完全異步模式、不要求參數(shù)完全同步的謠傳通信模式等。完全同步模式的一個訓練循環(huán)可以被分為如下幾個串行的步驟:數(shù)據(jù)加載、前向計算、反向傳播、梯度聚合、模型更新。其中,僅有梯度聚合步驟需要計算機之間通信,以保證全局模型的一致性。

由于該步驟前、后都是計算負擔較重的環(huán)節(jié),當網(wǎng)絡(luò)中節(jié)點計算能力不一致時,計算較快的節(jié)點必須等待較慢的節(jié)點完成計算才能開始同步,完成梯度聚合。在小規(guī)模的、同構(gòu)設(shè)備的網(wǎng)絡(luò)中,使用完全同步模式帶來的損失較小,當網(wǎng)絡(luò)規(guī)模擴大,更多樣化的設(shè)備加入網(wǎng)絡(luò)中后,其訓練效率將受到較慢設(shè)備的制約。部分同步模式并不要求所有設(shè)備每一個訓練循環(huán)的嚴格同步。在兩次梯度聚合的間隔內(nèi),其允許計算較快的設(shè)備完成多次訓練循環(huán)。但為了保持模型的一致以保證收斂,部分同步模式限制了較快設(shè)備所允許的循環(huán)次數(shù)。通過合適的參數(shù)設(shè)置,部分同步模式可以有效減少快速設(shè)備的空閑時間,提高收斂速率。

本地隨機梯度下降模式更改了設(shè)備間需要同步的步驟:其取消了梯度聚合步驟,而是在模型更新后聚合模型參數(shù)。這一方法又被稱為“模型平均”法。各設(shè)備可以將本地的模型訓練多個循環(huán)后再完成平均,以降低通信頻率。然而,過多地減少通信頻率又會影響模型收斂率。因此,找到通訊消耗與收斂率之間的平衡點成為當前研究的重要方向。完全異步模式將模型更新與訓練流程完全分開:其允許在僅從一部分設(shè)備得到的梯度的基礎(chǔ)上更新模型,而無需等待所有設(shè)備完成訓練循環(huán)。具體而言,該模式使用一個獨立的參數(shù)服務器,該服務器在得到部分設(shè)備計算得到的梯度后即更新整個模型。

該方法可以完全避免慢速設(shè)備的短板效應,但收斂率存在一定損失。謠傳通信模式是一種新興的數(shù)據(jù)平行訓練方法:其并不需要維護一個完全相同的全局模型,即不需要參數(shù)的完全同步。具體而言,一臺設(shè)備僅需要與部分設(shè)備通信,完成部分的參數(shù)同步。該方法的一大難點在于當局部參數(shù)不一致時如何保證最終模型的一致性,以及如何在部分更新的情況下實現(xiàn)模型的有效性。然而,這一方法與分布式、移動性網(wǎng)絡(luò)具有天然的高匹配度。

圖5 不同模型平行訓練模式的訓練流程對比直觀上,數(shù)據(jù)平行方法可以真正發(fā)揮分布式算力的并行化優(yōu)勢,該方法也是當下并行訓練中更常見的方案。但其也有缺點:模型的每個可訓練參數(shù)都對應一個梯度值,數(shù)據(jù)平行訓練中每次梯度聚合所需傳輸?shù)臄?shù)據(jù)量都與模型的參數(shù)量相當。對于參數(shù)量較大的大模型而言,這一高頻多次的傳輸帶來了巨大的通信開銷。2.1.3 混合平行方法在除了模型平行和數(shù)據(jù)平行方法以外,從技術(shù)實現(xiàn)上,目前還存在混合平行方法。這一類方法結(jié)合了數(shù)據(jù)平行訓練的規(guī)模化優(yōu)勢和模型平行訓練的低帶寬消耗。一些研究將混合了層間分割、層內(nèi)分割的模型平行訓練以及數(shù)據(jù)平行訓練方式稱為3D平行訓練。但相對應地,對混合平行訓練的優(yōu)化難度也更高。

圖6 混合了層間分割、層內(nèi)分割的模型平行訓練以及數(shù)據(jù)平行訓練的3D平行訓練以上,我們對模型分拆與并行化訓練進行了介紹。然而無論采用何種并行方法,在分布式訓練場景中,都必須首先解決好海量數(shù)據(jù)在不同計算節(jié)點間的高速同步與傳輸。通信效率是分布式訓練中的核心瓶頸,而當面對大模型時,這一問題則更加突出。2.2 分布式訓練的保障:從本地集群到大范圍跨域的數(shù)據(jù)同步如前所述,無論采用何種并行方法,在分布式訓練場景中,都必須首先解決好海量數(shù)據(jù)在不同計算節(jié)點間的高速同步與傳輸。

圍繞當前大模型的分布式訓練的兩種核心思想(模型平行和數(shù)據(jù)平行),多種支撐數(shù)據(jù)同步的技術(shù)逐漸引起了學界與業(yè)界的關(guān)注,接下來,我們從本地集群同步擴展到跨域同步,介紹分布式訓練涉及的數(shù)據(jù)同步及其相關(guān)的通信與調(diào)度技術(shù):2.2.1 遠程直接內(nèi)存訪問技術(shù)(RDMA)分布式訓練的節(jié)點間需要頻繁交換模型參數(shù)、梯度等大量數(shù)據(jù)。這些數(shù)據(jù)的傳輸需要操作系統(tǒng)和協(xié)議棧的統(tǒng)籌調(diào)度,從而給數(shù)據(jù)傳輸帶來額外的延遲,影響并行化訓練效率。此外,由于這些數(shù)據(jù)均存儲于內(nèi)存(或顯存)中,向外傳輸前需要先經(jīng)處理器和總線傳輸給網(wǎng)絡(luò)設(shè)備,在給處理器和總線增加了巨大負擔之外,也帶來了額外的時間開銷。針對這些開銷,遠程直接內(nèi)存訪問(RDMA)技術(shù)誕生了。RDMA技術(shù)使用專用硬件讀寫內(nèi)存數(shù)據(jù)并直接與外部通信,將數(shù)據(jù)從本地系統(tǒng)快速移動到遠程系統(tǒng)的內(nèi)存中,而不對操作系統(tǒng)、CPU增加任何負載。圖7 RDMA工作原理目前,RDMA有三種協(xié)議:InfiniBand、RoCE、iWARP。InfiniBand是一種專為RDMA量身定做的網(wǎng)絡(luò)協(xié)議,可以從硬件級別上保證數(shù)據(jù)傳輸?shù)目煽啃浴nfiniBand與TCP/IP不兼容,從鏈路層到傳輸控制層都需要專用實現(xiàn)。RoCE允許在以太網(wǎng)上執(zhí)行RDMA協(xié)議(可分為RoCEv1和RoCEv2)。RoCE是為了滿足更大市場需求而設(shè)計出來的低成本InfiniBand網(wǎng)絡(luò)。iWARP 允許在TCP上執(zhí)行RDMA協(xié)議,它能夠運行在標準TCP/IP網(wǎng)絡(luò)中,對硬件的要求也相對簡單(只需iWARP網(wǎng)卡),但缺點是性能比RoCE更差。

圖8 RDMA協(xié)議類型人工智能的分布式訓練讓RDMA技術(shù)得到越來越廣泛的關(guān)注,而對于大規(guī)模、大跨度集群的需求,使基于RDMA的大規(guī)模組網(wǎng)技術(shù)也日益得到重視。目前,各界圍繞大規(guī)模RDMA組網(wǎng)架構(gòu)、關(guān)鍵算法(如擁塞控制、負載均衡)、網(wǎng)絡(luò)虛擬化、與主流網(wǎng)絡(luò)的融合(如降低無損網(wǎng)絡(luò)依賴性)等方向已開展了系列深入研究,其中不乏微軟、谷歌、華為、阿里等巨頭。由于我國現(xiàn)有的單個集群能力往往不足以滿足大模型需求,跨集群協(xié)作的需求將使兼容于TCP/IP網(wǎng)絡(luò)的iWARP等協(xié)議受到進一步重視。2.2.2集合通信分布式訓練任務間完成數(shù)據(jù)傳輸調(diào)度的方式一般可以分為點對點(Point-to-Point Communication)和集合通信(Collective Communication)。

點對點通信是在兩個節(jié)點之間進行通信和數(shù)據(jù)同步。集合通信是指在一組節(jié)點內(nèi)進行通信完成數(shù)據(jù)同步的方式。計算集群中海量數(shù)據(jù)的同步需要采用集合通信方法。集合通信一般包含多個Sender和Receiver,通信類型包括:Broadcast、Gather、All-Gather、Scatter、Reduce、All-Reduce、Reduce-Scatter、All-to-All等。以數(shù)據(jù)平行訓練為例,去中心化的梯度聚合需要每臺計算機獲得所有計算機計算得到的梯度,這一操作即需要All-Reduce,即將所有設(shè)備(All)上的信息歸納(Reduce)到所有設(shè)備(All)上。顯然,直接的All-Reduce將帶來極大的通信資源浪費,因為同一份數(shù)據(jù)可能會被冗余傳輸多次。因此,許多優(yōu)化版All-Reduce算法被提出,如環(huán)狀All-Reduce、基于二叉樹的All-Reduce等,這些算法均能極大降低All-Reduce的帶寬和延遲。

圖9 All-Reduce我們以環(huán)狀All-Reduce為例說明集合通信優(yōu)化調(diào)度的思路:基于環(huán)狀All-Reduce,每臺設(shè)備僅需與另外兩臺設(shè)備通信,分為Scatter-Reduce與All-Gather兩個步驟。首先對相鄰設(shè)備完成多次Scatter-Reduce操作,在每臺設(shè)備分別獲取得到聚合后的完整數(shù)據(jù)中一部分。隨后,每臺設(shè)備再對其相鄰設(shè)備完成多次All-Gather操作,在每臺設(shè)備中補全完整數(shù)據(jù)。環(huán)狀All-Reduce不僅能降低帶寬和延遲,還可以簡化網(wǎng)絡(luò)的拓撲結(jié)構(gòu),降低網(wǎng)絡(luò)的搭建成本。當數(shù)據(jù)同步調(diào)度擴展到廣域網(wǎng)范圍時,現(xiàn)有集合通信思路將面臨一些新的問題,例如重新評估各類算法在新場景下的有效性及其效率評測方法,重新建模計算節(jié)點的鄰近關(guān)系等。圖10 Scatter-Reduce的第一與最后一次循環(huán)

圖11 All-Gather的第一與最后一次循環(huán)2.2.3 算力網(wǎng)絡(luò)算力網(wǎng)絡(luò)是一種網(wǎng)絡(luò)前沿技術(shù),其目標是構(gòu)建連接算力的網(wǎng)絡(luò),使算力像水電一樣高效流動。傳統(tǒng)的網(wǎng)絡(luò)設(shè)施僅僅承擔信息傳遞的基礎(chǔ)功能,是連接用戶與計算資源的“數(shù)據(jù)通道”;而算力網(wǎng)絡(luò)可以構(gòu)建數(shù)據(jù)、計算資源、網(wǎng)絡(luò)的一體化服務,使計算需求方在網(wǎng)絡(luò)的幫助下,高效感知并調(diào)用遠距離的算力資源,打破自身單點計算能力的局限。算力網(wǎng)絡(luò)能夠連接大范圍內(nèi)的算力集群實現(xiàn)計算任務協(xié)同,目前被視為支撐多集群間大模型跨域分布式訓練的網(wǎng)絡(luò)基礎(chǔ)設(shè)施層最優(yōu)解。當前,算力網(wǎng)絡(luò)的發(fā)展方興未艾,體系架構(gòu)及諸多關(guān)鍵技術(shù)還未形成定論,產(chǎn)業(yè)及標準化工作也在不斷推進中。國際電信聯(lián)盟(ITU)于2021年9月正式發(fā)布的算力網(wǎng)絡(luò)框架結(jié)構(gòu)標準(ITU-T Y.2501:Computing Power Network–Framework and Architecture)中提出,算力網(wǎng)絡(luò)主要由四層構(gòu)成,分別為算力網(wǎng)絡(luò)資源層、算力網(wǎng)絡(luò)控制層、算力網(wǎng)絡(luò)服務層、算力網(wǎng)絡(luò)編排管理層。

圖12 算力網(wǎng)絡(luò)功能架構(gòu)算力網(wǎng)絡(luò)資源層對算力服務方和網(wǎng)絡(luò)運營方提供的各類計算資源進行了抽象,主要涉及云計算節(jié)點、邊緣計算節(jié)點等各類設(shè)備資源,例如各類服務器上的計算資源和部署的服務資源、交換機和路由器上的網(wǎng)絡(luò)資源、存儲設(shè)備上的存儲資源。算力網(wǎng)絡(luò)控制層從算力網(wǎng)絡(luò)資源層收集資源信息,并將資源信息發(fā)送給服務層以便其處理相關(guān)算力服務請求。當接收到算力網(wǎng)絡(luò)服務層的服務請求處理結(jié)果后,算力網(wǎng)絡(luò)控制層將根據(jù)資源狀態(tài)信息生成資源分配策略,并通知資源供應商占用相關(guān)資源、更新資源狀態(tài)信息。

此外,根據(jù)資源分配策略獲取網(wǎng)絡(luò)連接需求,調(diào)度相關(guān)網(wǎng)絡(luò)資源,建立對應網(wǎng)絡(luò)鏈路。算力網(wǎng)絡(luò)服務層主要用于實現(xiàn)具體算力服務功能。算力網(wǎng)絡(luò)服務層通過算力網(wǎng)絡(luò)控制層獲取各種算力資源信息和網(wǎng)絡(luò)資源信息,根據(jù)算力服務請求和資源信息,提供可選的資源和對應價格,并支持算力服務用戶和各類資源供應商完成交易過程。算力網(wǎng)絡(luò)編排管理層能夠為算力網(wǎng)絡(luò)實現(xiàn)編排、安全、建模和運維管理功能。算力編排模塊負責對算力網(wǎng)絡(luò)中各類資源和服務進行編排管理。算力網(wǎng)絡(luò)安全模塊負責采用安全相關(guān)的控制手段消除算力網(wǎng)絡(luò)環(huán)境中的各種威脅隱患。算力建模模塊用于根據(jù)各種服務對算力的狀態(tài)及變化規(guī)律進行定量化描述。算力運維管理模塊能夠負責算力網(wǎng)絡(luò)的各種運行操作管理及維護。基于上述各層的能力支撐,算力網(wǎng)絡(luò)完成對算力資源的抽象、標識、路由、調(diào)度等,實現(xiàn)遠距離計算供需間的高效匹配。大模型分布式訓練作為一項整體的計算任務,在經(jīng)過并行化處理、數(shù)據(jù)同步調(diào)度決策后,形成多個更小顆粒度的計算子任務,由算力網(wǎng)絡(luò)依據(jù)所需的QoS,在分布式的算力集群間完成統(tǒng)籌調(diào)配。

3. 總結(jié)與展望單點算力的不足,促使學術(shù)界和工業(yè)界投入更多的視線到分布式訓練技術(shù),希望基于廣域內(nèi)分散的多個算力集群,開展協(xié)同訓練。一方面,這是一場以空間換時間的戰(zhàn)斗:通過投入更多的集群,給算力單點的能力提升爭取時間。另一方面,這也許是中西部算力產(chǎn)業(yè)轉(zhuǎn)型升級的大好機會:長期以來,雖然中西部算力集群有成本更低、綠電占比更高等優(yōu)勢,但也存在業(yè)務需求單一、不足等問題,當人工智能需求爆發(fā)后,又出現(xiàn)因單點建設(shè)規(guī)模不足難以提供服務等困難。然而,當分布式訓練技術(shù)不斷成熟后,在算力網(wǎng)絡(luò)高效調(diào)度的整體統(tǒng)籌下,分散的小規(guī)模數(shù)據(jù)中心將有更多機會參與到巨大的人工智能需求所釋放的產(chǎn)業(yè)機遇里,這可能是中西部城市通過并不高的投入就能深度參與到人工智能發(fā)展浪潮中的好機會。大模型是一種超大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型。

傳統(tǒng)神經(jīng)網(wǎng)絡(luò)分布式訓練技術(shù)長期以來更多局限于單集群內(nèi),跨域場景較少。讓大模型在大范圍多集群間完成分布式訓練,一方面,將會在模型拆分等計算任務上增加更多新挑戰(zhàn);另一方面,在廣域網(wǎng)完成海量訓練數(shù)據(jù)的同步,所涉及的相關(guān)網(wǎng)絡(luò)及調(diào)度問題也將是一個新的研究場景。相關(guān)研究會逐步更新現(xiàn)有技術(shù)棧,乃至形成全新的技術(shù)棧。而當“星火·鏈網(wǎng)”等區(qū)塊鏈平臺通過提供分布式激勵保障和可信計算環(huán)境等基礎(chǔ)條件,也更加深入地融進算力網(wǎng)絡(luò)、人工智能分布式訓練等新型計算場景,全新且巨大的產(chǎn)業(yè)機遇更會應運而生。

本文作者:信通院泰爾英福iF-Labs 焦臻楨、張曉普同濟大學電信學院 唐志恒、李莉

相關(guān)推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章