隨著人工智能技術(shù)的發(fā)展,AI大模型參數(shù)規(guī)模急劇擴(kuò)張,對(duì)計(jì)算能力提出極高要求,企業(yè)構(gòu)建智算集群并引入并行計(jì)算技術(shù)加速模型訓(xùn)練。但在萬億參數(shù)規(guī)模模型的跨機(jī)并行訓(xùn)練中,出現(xiàn)了空泡現(xiàn)象,即模型數(shù)據(jù)傳輸時(shí)GPU因等待而無法充分利用,影響整體訓(xùn)練效率?;旌蠈<夷P鸵氲膶<也⑿杏?xùn)練,進(jìn)一步加劇了通信帶寬和時(shí)延問題,使GPU空轉(zhuǎn)時(shí)間增加,成為大模型訓(xùn)練的技術(shù)瓶頸。因此,實(shí)現(xiàn)超大規(guī)模智算集群內(nèi)多GPU、多服務(wù)器間的高速互聯(lián),提高GPU利用率,是行業(yè)面臨的重要挑戰(zhàn)。
GPU機(jī)內(nèi)高速互聯(lián)關(guān)鍵需求
為實(shí)現(xiàn)GPU高速互聯(lián)、提升其利用率,業(yè)界推出超節(jié)點(diǎn)方案,即在單節(jié)點(diǎn)增加GPU數(shù)量。此舉可顯著減少跨節(jié)點(diǎn)通信,因機(jī)內(nèi)帶寬通常遠(yuǎn)高于跨機(jī)帶寬,充分挖掘機(jī)內(nèi)帶寬潛力,成為降低GPU空轉(zhuǎn)、提升利用效率的關(guān)鍵所在。GPU機(jī)內(nèi)高速互聯(lián)關(guān)鍵需求如下:
· 更多GPU卡數(shù)可擴(kuò)展互聯(lián)需求:傳統(tǒng)點(diǎn)對(duì)點(diǎn)互聯(lián)模式只支持單機(jī)8卡GPU互聯(lián),需要有創(chuàng)新性的互聯(lián)技術(shù)突破單機(jī)8卡限制,為GPU間提供高速、低延遲通信路徑,打造更大規(guī)模高帶寬域,顯著提升單機(jī)擴(kuò)展性與通信帶寬。
· 超高帶寬需求:AI訓(xùn)練要求GPU集群高吞吐量互聯(lián),承載張量并行流量的帶寬需達(dá)T比特量級(jí)。當(dāng)前主流的Scale-up互聯(lián)技術(shù)在物理層多使用以太網(wǎng)serdes,單通道(lane)速率高達(dá)224Gbps,遠(yuǎn)超PCIe(peripheral component interconnet express)的serdes速率。
· 低延遲通信需求:Scale-up網(wǎng)絡(luò)追求極致性能,要求時(shí)延控制在亞微秒級(jí)別,通過省略傳統(tǒng)網(wǎng)絡(luò)層、采用新信道編碼方案及優(yōu)化網(wǎng)絡(luò)架構(gòu)等手段,減少GPU因等待數(shù)據(jù)出現(xiàn)的閑置時(shí)間,提升系統(tǒng)整體性能。
中興通訊GPU高速互聯(lián)OLink解決方案
為了實(shí)現(xiàn)國內(nèi)GPU支持萬億模型訓(xùn)練,中興通訊設(shè)計(jì)16卡以上超節(jié)點(diǎn)來搭建訓(xùn)練集群,縮短總體訓(xùn)練時(shí)間。
我們結(jié)合自身在高速互聯(lián)領(lǐng)域的技術(shù)優(yōu)勢(shì),創(chuàng)造性提出以太+總線融合的GPU卡間高速互聯(lián)技術(shù)方案(見圖1)。機(jī)內(nèi)和機(jī)間統(tǒng)一采用OLink交換高速互聯(lián)方案,通過開放的OLink互聯(lián)協(xié)議+交換芯片,提供開放的端到端GPU高速互聯(lián)方案,滿足當(dāng)前及未來可預(yù)見的大模型訓(xùn)練場(chǎng)景下GPU間的高速通信需求。
OLink高速互聯(lián)方案技術(shù)特征
OLink高速互聯(lián)方案融合頂尖技術(shù),物理層運(yùn)用差分傳輸與輕量FEC編碼,實(shí)現(xiàn)低時(shí)延高帶寬;鏈路層靠自動(dòng)重傳請(qǐng)求和循環(huán)冗余校驗(yàn)確??煽總鬏?信用流控機(jī)制攻克擁塞,保障無損通信;憑借統(tǒng)一內(nèi)存尋址和語義技術(shù),助力GPU內(nèi)存共享,賦能高效異構(gòu)協(xié)同。
· 物理層低時(shí)延高帶寬:OLink總線在物理層對(duì)信號(hào)傳輸技術(shù)進(jìn)行改進(jìn),減少干擾和噪聲,提供信號(hào)質(zhì)量和完整性;采用更先進(jìn)的物理介質(zhì)和輕量級(jí)FEC等傳輸技術(shù),提高物理層數(shù)據(jù)傳輸速率和亞微秒級(jí)傳輸時(shí)延。
· 鏈路層高可靠傳輸技術(shù):OLink總線對(duì)錯(cuò)誤檢測(cè)和快速恢復(fù)技術(shù)進(jìn)行優(yōu)化,減少數(shù)據(jù)傳輸中的丟包和重傳,同時(shí)提供鏈路級(jí)重傳技術(shù),保證數(shù)據(jù)的可靠傳輸。
· 基于信用授權(quán)的流控技術(shù):OLink總線針對(duì)機(jī)內(nèi)GPU高速互聯(lián)場(chǎng)景,通過基于信用授權(quán)的擁塞流控機(jī)制,解決多打一等復(fù)雜場(chǎng)景下無損通信關(guān)鍵問題,提供智算芯片超大規(guī)模組網(wǎng)能力。
· 統(tǒng)一內(nèi)存編址技術(shù):允許Scale-up域內(nèi)的GPU共享同一個(gè)虛擬地址空間,使得多個(gè)GPU可以直接互相訪問對(duì)方的內(nèi)存,方便模型參數(shù)和中間結(jié)果在顯存間靈活分配與共享,簡(jiǎn)化異構(gòu)計(jì)算編程模型。
· 內(nèi)存語義支持技術(shù):允許在網(wǎng)絡(luò)通信過程中對(duì)內(nèi)存進(jìn)行操作,通過特定的指令集和協(xié)議,實(shí)現(xiàn)數(shù)據(jù)在內(nèi)存和網(wǎng)絡(luò)之間的高效交互,為計(jì)算節(jié)點(diǎn)提供更靈活的操作方式,進(jìn)一步提升計(jì)算性能。
基于OLink技術(shù)的智算芯片高速互聯(lián)
通過OLink互聯(lián)協(xié)議+交換芯片,為GPU提供大規(guī)模端到端高速互聯(lián)解決方案。
· 借鑒業(yè)界成熟的以太網(wǎng)生態(tài)成為首選,復(fù)用以太網(wǎng)成熟的光模塊、組網(wǎng)方案和運(yùn)維能力;
· GPU機(jī)內(nèi)和機(jī)間的互聯(lián)都使用OLink互聯(lián)技術(shù),互聯(lián)網(wǎng)絡(luò)和端側(cè)設(shè)備解耦,各廠商的算力或存儲(chǔ)設(shè)備均可以接入本方案的互聯(lián)網(wǎng)絡(luò);
· 引入更多合作伙伴,打造規(guī)模更大、成本更低的智算平臺(tái);
· 在GPU端側(cè)嵌入OLink IP,同時(shí)交換芯片支持在網(wǎng)計(jì)算;
· 端側(cè)OLink IP針對(duì)大模型應(yīng)用場(chǎng)景,對(duì)以太網(wǎng)技術(shù)進(jìn)行低延遲、無損和端網(wǎng)協(xié)同等方面的改進(jìn)。
OLink未來演進(jìn)
GPU機(jī)內(nèi)Scale-up域高速互聯(lián)技術(shù)仍在持續(xù)迭代演進(jìn),OLink技術(shù)會(huì)在在網(wǎng)計(jì)算、光互聯(lián)等方向持續(xù)演進(jìn)。在網(wǎng)計(jì)算技術(shù)方面,AllReduce、AllGather等操作常用于深度學(xué)習(xí)梯度同步,將其卸載到交換設(shè)備,設(shè)備接收數(shù)據(jù)后規(guī)約計(jì)算,能減少網(wǎng)絡(luò)流量,釋放處理器資源,提升網(wǎng)絡(luò)性能。伴隨光通信發(fā)展,Olink技術(shù)將在GPU高速互聯(lián)領(lǐng)域大展拳腳,實(shí)現(xiàn)更高傳輸速率、更低功耗與更遠(yuǎn)傳輸距離,為高性能計(jì)算注入強(qiáng)大動(dòng)力,開啟科技新篇章。
作者:中興通訊 楊茂彬
新聞來源:中興通訊技術(shù)(簡(jiǎn)訊)