日本大道一卡2卡三卡4卡,欧美日韩日本看資源免費看,每日更新影音av资源

隨著人工智能技術(shù)的飛速發(fā)展，特別是AI大模型參數(shù)規(guī)模的快速增長，對計算資源的需求呈現(xiàn)出爆炸性增長，需要極高的算力來處理和訓(xùn)練，同時模型的注意力機制和前饋網(wǎng)絡(luò)都需要大量的內(nèi)存資源。最理想的方式就是開發(fā)一個超級大的GPU，具備超級大的計算能力和內(nèi)存資源，由這個超級GPU完成所有大模型數(shù)據(jù)的處理。但現(xiàn)實上是不可能的，業(yè)界發(fā)展出超節(jié)點技術(shù)來應(yīng)對這一問題。目前，在超節(jié)點技術(shù)領(lǐng)域，英偉達(dá)推出了基于NVLink的NVL72方案，憑借其私有協(xié)議的優(yōu)勢，實現(xiàn)了高性能的GPU互聯(lián);與此同時，ODCC(開放數(shù)據(jù)中心委員會)則基于以太網(wǎng)RoCE技術(shù)提出了ETH-X方案，以開放標(biāo)準(zhǔn)為基礎(chǔ)，為行業(yè)提供更具兼容性和靈活性的選擇。本文重點探討這兩種超節(jié)點解決方案的特點與應(yīng)用場景，深入分析他們在高性能計算領(lǐng)域的價值與潛力。

Scale-up和Scale-out網(wǎng)絡(luò)

為了應(yīng)對大模型參數(shù)規(guī)模的快速增長，可以把大模型分解為兩大類，分別處理(見圖1)。一類是需要在高頻度進行數(shù)據(jù)交互的，例如張量并行，把這些并行處理放置到GPU之間，通過超高帶寬、超低時延互聯(lián)的網(wǎng)絡(luò)進行處理，形成一個超節(jié)點，壓縮超節(jié)點內(nèi)部GPU之間的通信開銷成本，這個網(wǎng)絡(luò)就是Scale-up網(wǎng)絡(luò)。Scale-up網(wǎng)絡(luò)是一個追求極致性能的互聯(lián)網(wǎng)絡(luò)，支持Load/ Store內(nèi)存語義。另一類是將數(shù)據(jù)分解為相對獨立的并行任務(wù)，如流水線并行和數(shù)據(jù)并行，這個網(wǎng)絡(luò)就是Scale-out網(wǎng)絡(luò)。Scale-out網(wǎng)絡(luò)利用現(xiàn)有的Infiniband或RoCE網(wǎng)絡(luò)，支持消息語義。

Scale-out網(wǎng)絡(luò)通過網(wǎng)卡提供對外接口，并借助高性能、高密度的交換機組網(wǎng)實現(xiàn)節(jié)點間的互聯(lián)擴展。當(dāng)前，常見的組網(wǎng)方式包括框盒組網(wǎng)和盒盒組網(wǎng)，這兩種組網(wǎng)方式為超節(jié)點在Scale-out方向上的擴展提供了靈活且高效的連接能力。

Scale-up網(wǎng)絡(luò)則聚焦于超節(jié)點內(nèi)部的深度互聯(lián)，由GPU內(nèi)部I/O與HB Switch相結(jié)合，形成all-to- all的全互聯(lián)拓?fù)浣Y(jié)構(gòu)。在Scale-up連接的技術(shù)路線上，業(yè)界目前存在兩種主要方向：基于私有協(xié)議的方案和基于標(biāo)準(zhǔn)開放協(xié)議的方案。這些技術(shù)路線旨在實現(xiàn)超節(jié)點內(nèi)部GPU之間的高速互聯(lián)，從而滿足復(fù)雜計算任務(wù)對性能的極致追求。

相較于超節(jié)點之間的Scale-out網(wǎng)絡(luò)，超節(jié)點內(nèi)部的Scale-up網(wǎng)絡(luò)具備顯著的優(yōu)勢：更高的帶寬、更低的通信時延，以及更大的緩存一致性內(nèi)存空間。這些特性使得Scale-up網(wǎng)絡(luò)能夠更好地支持超節(jié)點內(nèi)部密集型計算任務(wù)的需求，進一步提升整體計算效率。

英偉達(dá)NVL72

NVL72是英偉達(dá)推出的機柜級超節(jié)點，整個系統(tǒng)由18個Compute Tray和9個Switch Tray構(gòu)成(見圖2)。1個Compute Tray包含2個GB200超級芯片(Superchip)，每個GB200超級芯片有2個Blackwell系列的B200 GPU，整個機柜共72個Black- well GPU。同時每個Compute Tray提供4個網(wǎng)絡(luò)接口卡(NIC)用于Scale-out方向的擴展。1個Switch Tray包含2顆NVLINK Switch芯片，整個機柜提供18個NVLink Switch芯片。整機柜后部通過線纜將Compute Tray和Switch Tray進行互聯(lián)。

B200采用最新一代的NVLink 5連接方案，對外可提供1.8TB/s(NVIDIA采用雙向計算，即單向7.2Tb/s)的NVLink連接，單個Compute Tray提供7.2TB/s(單向28.8Tb/s)帶寬，NVL72整機柜的Compute Tray提供129.6TB/S的NVLink帶寬。NVLink5 Switch對外可提供7.2TB/s(單向28.8Tb/s)的NVLink連接，單個Switch Tray提供14.4TB/s(單向57.6Tb/s)帶寬，NVL72整機柜的Switch Tray提供129.6TB/s的NVLink帶寬。這樣超節(jié)點整機柜Compute Tray的GPU和Switch Tray的交換芯片之間就可以實現(xiàn)全連接。

B200和NVLink5采用200G的serdes，為實現(xiàn)B200的單向7.2Tb/s的帶寬，需要72個差分對，NVL72超節(jié)點整機柜就需要5184個差分對。Compute Tray和Switch Tray通過機柜后面的線纜連接，每根線纜包含1個差分對，NVL72超節(jié)點整機柜需要5184根線纜。

NVL72通過NVLink連接將72個GPU組成一個超大Fabric網(wǎng)絡(luò)，這個網(wǎng)絡(luò)解決了GPU之間的高速通信帶寬和效率問題，同時通過NVLink，所有GPU都可以任意訪問其他GPU的內(nèi)存空間。另外，英偉達(dá)還設(shè)計了NVLink C2C，B200和Grace CPU之間采用NVLink C2C連接，創(chuàng)建了一個NVLink可尋址的內(nèi)存地址空間，B200和Grace CPU之間的內(nèi)存可以互相訪問。通過NVLink和NVLink C2C，每個B200 GPU可以訪問超節(jié)點其他所有超級芯片的內(nèi)存，包括B200和Grace CPU。每顆B200提供192GB的HBM3e內(nèi)存，每顆Grace CPU提供480GB的LPDDR5X內(nèi)存。這樣每個GB200超級芯片提供384GB HBM內(nèi)存和480GB LPDDR5X內(nèi)存，NVL72整機柜支持13.5TB的HBM和17TB的LPDDR5X內(nèi)存容量。

GB200超級芯片的功耗為2700W，每個Compute Tray的功耗約為6.3kW，每個Switch Tray功耗超過800W，NVL72整機柜的功耗預(yù)計達(dá)到120kW，采用冷板液冷進行散熱。

考慮到實際機房提供120kW機柜能力的難度，英偉達(dá)還支持規(guī)格減半的NVL36。有兩種方案：

Switch Tray結(jié)構(gòu)不變，Compute Tray同樣也是有2個GB200超級芯片，包含4個B200和2個Grace CPU，但尺寸改為2U，整個NVL36超節(jié)點的Compute Tray數(shù)量減半、GPU數(shù)量減半，Switch Tray可以有一半的帶寬(28.8Tb/s)用于對外連接擴展;

Switch Tray結(jié)構(gòu)不變，Compute Tray尺寸不變保持為1U，但GB200超級芯片包含的B200數(shù)量減為1個，整個NVL36超節(jié)點的GPU數(shù)量減半，Switch Tray可以有一半的帶寬(28.8Tb/s)用于對外連接擴展。

方案2可以提供更大的LPDDR內(nèi)存空間，但價格會更貴。兩個NVL36超節(jié)點之間通過ACC線纜互聯(lián)，同樣可以提供72卡的計算能力。通過L2 NVLink Switch進行16個NVL36超節(jié)點互聯(lián)，可以完成Scale-up方向NVL576的擴展，提供576卡的計算能力。

我們來看NVL72怎么滿足Scale-up網(wǎng)絡(luò)的特性的。

高帶寬

NVL72的每個B200 GPU提供7.2Tbps的Scale-up連接帶寬，同時通過PCIe對外提供400Gbps的Scale-out連接帶寬，Scale-up帶寬是Scale-out帶寬的18倍。

低時延

英偉達(dá)官方?jīng)]有提供NVLink Switch的轉(zhuǎn)發(fā)時延具體數(shù)據(jù)，但以低時延作為一個賣點，同時從設(shè)計上充分考慮低時延的架構(gòu)。Switch Tray和Compute Tray之間采用的是電纜連接，這樣可以節(jié)省因CDR或DSP引入的將近100ns的時延，同時也降低了成本。

大內(nèi)存空間

NVL72利用NVLink和NVLink C2C，所有GPU都可以訪問整個超節(jié)點其他GPU的HBM內(nèi)存和Grace CPU的DDR內(nèi)存，NVL72整機柜支持13.5TB的HBM和17TB的LPDDR5X內(nèi)存容量。

ODCC ETH-X

由中國信通院、騰訊在ODCC牽頭發(fā)起的ETH-X項目可以支持單個超節(jié)點64卡的計算能力，和英偉達(dá)的私有NVLink方案不同，ETH-X采用更為開放的RoCE方案。

整個系統(tǒng)有16個Compute Tray和8個Switch Tray。每個Compute Tray包含4張GPU和1個X86 CPU，CPU和GPU之間通過PCIe Switch對接。整個機柜共64張GPU。同時每個Compute Tray提供4個NIC用于Scale-out方向的擴展。每個Switch Tray包含1顆支持RoCE的高性能51.2Tbps以太網(wǎng)交換芯片，整個機柜提供8個Switch芯片。GPU和Switch芯片支持100G serdes。當(dāng)前主流的GPU互聯(lián)帶寬為3.2Tbps，ETH-X整機柜GPU互聯(lián)帶寬為204.8Tbps。8個Switch Tray支持409.6Tbps的帶寬，一半用于超節(jié)點柜內(nèi)連接GPU，另一半的帶寬用于背靠背連接旁邊機柜的超節(jié)點或者通過L2 HB Switch做更大的HBD域Scale-up擴展。對于Intel Gaudi3 GPU，可以提供4.8Tbps的帶寬，因此超節(jié)點機柜需要12個Switch Tray。同時，ETH-X也支持Switch Tray沒有外部Scale-up擴展口的方案，所有serdes連接都用于柜內(nèi)互聯(lián)，這時候只需要4個2U高的Switch Tray(Gaudi3為6個)。

ETH-X對Scale-up網(wǎng)絡(luò)特性的支持情況：

高帶寬

ETH-X的每個GPU提供3.2Tbps(或4.8Tbps)的Scale-up連接帶寬，同時通過PCIe對外提供400Gbps的Scale-out連接帶寬，Scale-up帶寬是Scale-out帶寬的8~12倍。

低時延

ETH-X沒有限定Switch Tray的芯片型號，可以采用Broadcom的Tomahawk5，也可以采用Marvell的Teralynx10，甚至還可以采用國產(chǎn)化的25.6T芯片2片進行設(shè)計?？傮w來說，Scale-up方向的Switch時延控制在納秒級是大家的一個共識。同時ETH-X也借鑒了NVIDIA NVL72的經(jīng)驗，Switch Tray和Compute Tray之間采用的是更低成本和更低時延的電纜連接。

大內(nèi)存空間

NVIDIA NVL72通過GPU-Switch-GPU的NVILink實現(xiàn)統(tǒng)一內(nèi)存地址空間，通過GPU-CPU的NVLink C2C實現(xiàn)緩存一致性。而ETH-X的GPU-Switch- GPU之間為RoCE連接、GPU-CPU之間為PCIe連接，需要進一步的開發(fā)互通協(xié)議，向應(yīng)用層提供支持Direct Copy、Direct Access以及UVA統(tǒng)一編址等內(nèi)存語義，實現(xiàn)GPU之間的訪存協(xié)議。

總結(jié)和展望

NVL72和ETH-X超節(jié)點都可以提供高帶寬、低時延、大內(nèi)存空間的Scale-up網(wǎng)絡(luò)擴展。NVL72方案采用NVLink和NVLink C2C連接，超節(jié)點內(nèi)的GPU之間的內(nèi)存都可以互訪。ETH-X采用開放的以太網(wǎng)解決方案，優(yōu)點是生態(tài)開放，可以推廣為ODCC組織的一個標(biāo)準(zhǔn)，不過由于沒有NVLink這種類總線的協(xié)議，ETH-X后續(xù)還需要進行內(nèi)存語義支持的開發(fā)。兩種超節(jié)點的關(guān)鍵指標(biāo)對比如表1所示。

NVL72憑借其先發(fā)優(yōu)勢，在國外OTT大廠中獲得了較多的訂單，展現(xiàn)出強大的市場競爭力。然而，它也存在一定的局限性，其基于私有協(xié)議的生態(tài)體系相對封閉，可能在一定程度上限制了更廣泛的行業(yè)協(xié)作與創(chuàng)新。

ETH-X作為開放標(biāo)準(zhǔn)，在進度上稍落后于NVL72，這主要是由于公開標(biāo)準(zhǔn)的制定過程需要投入大量時間和精力。這一過程中不僅涉及復(fù)雜的技術(shù)討論，還需在標(biāo)準(zhǔn)成員間進行多方面的協(xié)調(diào)與博弈，包括技術(shù)細(xì)節(jié)、商業(yè)利益以及戰(zhàn)略方向等非技術(shù)因素。盡管如此，開放標(biāo)準(zhǔn)的特性為ETH-X帶來了廣闊的潛在應(yīng)用空間和行業(yè)包容性。

獨行快，眾行遠(yuǎn)，NVL72和ETH-X作為當(dāng)前超節(jié)點技術(shù)的兩大代表，各自展現(xiàn)了獨特的魅力。在未來的發(fā)展中，我們相信這兩種技術(shù)將在各自的生態(tài)系統(tǒng)中綻放異彩，共同為超節(jié)點技術(shù)的發(fā)展書寫精彩篇章。

作者：中興通訊潘文斌

超節(jié)點技術(shù)：NVL72和ETH-X