光互連與光交換解鎖超節(jié)點規(guī)模上限|曦智科技CTO孟懷宇博士報告回顧

訊石光通訊網(wǎng) 2025/8/7 18:52:19

  在智猩猩聯(lián)合主辦的2025中國AI算力大會同期進行的「超節(jié)點技術(shù)研討會」上,曦智科技聯(lián)合創(chuàng)始人兼首席技術(shù)官孟懷宇博士圍繞《光互連、光交換:解鎖超節(jié)點規(guī)模上限》發(fā)表了主題報告。

  孟懷宇博士指出,超節(jié)點技術(shù)在大模型的訓(xùn)練與推理過程中發(fā)揮著至關(guān)重要的作用。其理想架構(gòu)為單層拓撲,這能夠顯著降低延遲與成本。然而,由于國產(chǎn)芯片制程的限制,往往需要集成數(shù)百塊國產(chǎn)GPU才能與海外產(chǎn)品相當。

  在這種情況下,孟懷宇博士認為,擴大超節(jié)點規(guī)模主要有兩條路徑:一是提升單機柜的功耗,二是增加機柜的數(shù)量。而跨機柜互連必然要依賴光技術(shù)。

  針對光互連大規(guī)模應(yīng)用所面臨的功耗、成本以及可靠性挑戰(zhàn),孟懷宇博士認為高集成光學(xué)方案是破局的關(guān)鍵。通過采用共封裝光學(xué)(CPO)技術(shù),將光電轉(zhuǎn)換集成至芯片附近,可將功耗降低 1/3 至 2/3,同時也減少了分立器件的數(shù)量,從而提升了可靠性。

  最后,孟懷宇博士還分享了曦智科技的分布式光交換(dOCS)技術(shù)。dOCS在光I/O層嵌入交換功能,實現(xiàn)了兩大價值:一是動態(tài)冗余,在故障發(fā)生時,能夠以服務(wù)器為單位切換拓撲,從而降低備份成本;二是靈活伸縮超節(jié)點規(guī)模,可根據(jù)不同模型的算力需求進行適配。最終,曦智科技希望構(gòu)建一個融合光電計算、光互連與光交換的高效集群。

  本文為孟懷宇博士的報告實錄,有一定刪減。

  超節(jié)點本身的價值我覺得不需要過多的說,今天前面各位專家已經(jīng)也談到了很多,主要是在大模型訓(xùn)練和推理兩個層面。

  在訓(xùn)練層面,我們看到模型的尺寸自從GPT-3出來以后迅速發(fā)展,訓(xùn)練所需要的GPU數(shù)量也指數(shù)級增長。超節(jié)點可以極大地提高訓(xùn)練的效率,尤其是對比較大的模型。

  推理可能是2025年以來在國內(nèi)市場更受關(guān)注的一個應(yīng)用場景。

  上面這張圖是黃仁勛在25年上半年GTC上展示的一個圖片的簡化版本,意思是說大模型的推理可以按照橫軸和縱軸分成兩個部分。橫軸是單個用戶輸出token的速度,可以把它翻譯成用戶體驗,從某種意義上也可以把它翻譯成價格。而縱軸是每張卡可以輸出的模型數(shù)量,從經(jīng)濟學(xué)的邏輯來說可以把它翻譯成產(chǎn)量。那么價格乘以產(chǎn)量就是總的產(chǎn)值。

  因此我們在這張圖片上面選一個運營點的時候,它所囊括的那個方塊,就意味著這個狀態(tài)下系統(tǒng)可以產(chǎn)生的價值。黃仁勛在GTC上想要展示的,是他們的Blackwell NVL72超節(jié)點從產(chǎn)生價值的角度來講遠遠高于之前的8卡集群。

  01 超節(jié)點架構(gòu)應(yīng)往單層發(fā)展

  超節(jié)點的架構(gòu)我們看到有單層超節(jié)點和兩層超節(jié)點兩個邏輯,這個概念也很清楚,就是超節(jié)點的計算卡需要多少層交換機才能夠組成一個整體。

  從算法的應(yīng)用上來講,尤其是超節(jié)點的推理來說,我們希望它整體延遲更低、成本更低、可靠性更好。由此推得,超節(jié)點最好是只有一層。但是現(xiàn)實中我們可能沒有足夠大的交換機,沒有足夠大的高效互連,使得在某些情況下沒辦法把超節(jié)點做成一層架構(gòu)。也有超節(jié)點是用兩層的架構(gòu),但是我們覺得這應(yīng)該是暫時的一個妥協(xié)方案,最終超節(jié)點架構(gòu)應(yīng)該往單層方向發(fā)展。

  剛才說了,超節(jié)點我們希望是單層,這是一個點。第二個點,在國產(chǎn)生態(tài)中,單卡單芯片算力是嚴重受限的,基本上直接被制程所限制。那么,當國產(chǎn)芯片制程可能一段時間內(nèi)停留在7納米水平的時候,我們的單芯片的算力、帶寬、顯存容量、顯存帶寬,比現(xiàn)在主流的NVL72用的B200芯片,基本上是2倍、4倍甚至7倍的差距。

  如果人家一個超節(jié)點NVL72有72個B200芯片,咱們假設(shè)使用7nm國產(chǎn)GPU,大概也就是A100的水平,基本上就是幾百張卡。

  剛才提到我們希望超節(jié)點是一層的,然后又希望國產(chǎn)超節(jié)點要對標海外的的超節(jié)點,這樣就得到我們需要幾百個國產(chǎn)GPU連成一層的超節(jié)點,我們要怎么實現(xiàn)呢?

  02 單層超節(jié)點擴大規(guī)模主流路徑


  我們覺得現(xiàn)在的起點和將來的終點,應(yīng)該都是大家比較認可的。短期內(nèi)盡量往單個機柜塞,單機柜的功耗上限有多少就塞多少。比如傳統(tǒng)數(shù)據(jù)中心里,非計算、非高電的機柜功耗就是20kW,可能還不到。將來每個機柜可能會超過100kW,甚至我也看到有更多的一些規(guī)劃,我們肯定也希望機柜的數(shù)量盡量多。因為國產(chǎn)GPU,100kW放進去可能也就是100個,如果需要幾百張卡的超節(jié)點的話,肯定是需要多個機柜的。

  所以我覺得發(fā)展的起點和終點大家應(yīng)該是有共識的:起點是單機柜,終點是多機柜,且每個機柜的電量會越來越高。

  從機柜數(shù)量和每個機柜能夠容納的GPU數(shù)量來講,可以說有兩條路徑。第一條路徑是先把單個機柜的功耗往上提,盡量往里塞(GPU),看能塞多少。NVIDIA走的其實就是這樣一個路線,今年也發(fā)布了后面的幾代產(chǎn)品,從NVL72、144到576。還有一條路徑是先考慮增加機柜的數(shù)量,把數(shù)量加到位了之后,再把他們連成一個超節(jié)點。海外比較典型的樣品就是谷歌的TPU,最新應(yīng)該是有數(shù)千卡的超節(jié)點,它其實就是一個多機柜的展示方法。

  這時出現(xiàn)了光互連的必然性。當超過一個機柜,多個機柜的GPU互連的時候,直接使用光可能是一個必要的選擇。

  超節(jié)點GPU直接出光使用多個機柜的時候有什么好處呢?

  首先,光纜相對于銅纜最明確的優(yōu)勢就是距離遠。一般來說,銅纜112G可以走1米或者2米,或者AEC有的時候可以走3-7米。而普通的短距光纜很容易就可以到50米、100米甚至千米級別。距離不是問題,這其實就產(chǎn)生了很多的可能性,比如組成超節(jié)點的機器可以隨便放在哪里。

  今天上午,包括之前的專家也提到高電機柜本身也是有相當?shù)募夹g(shù)挑戰(zhàn)的。比如整個數(shù)據(jù)中心的土建、供電、液冷以及整套系統(tǒng)如何設(shè)計等。當我們有跨機柜的超節(jié)點能力的時候,短期內(nèi)其實就可以規(guī)避這些問題。

  比如同樣是四個服務(wù)器的超節(jié)點,假設(shè)單個機柜無法支持那么大的供電和散熱,我們可以把它們放在兩個機柜里,通過光纜互連,這樣就能組成一個超節(jié)點。

  解鎖了距離限制之后,其實還有很多其他的優(yōu)勢。從商業(yè)上來講,交付形態(tài)不一定就是完整的機柜,因為超節(jié)點本身就是多個服務(wù)器連起來,我們可以用4個、6個或者8個服務(wù)器,也可以按照客戶的需求靈活配置,對有些客戶來說他們是比較在意這一點的。

  大家都知道光纜傳輸距離遠遠長于銅纜,另外還有一點可能大家沒太意識到,光纜其實比銅纜要細很多。

  上圖右側(cè)展示的是我們已經(jīng)部署落地的光纜和銅纜混合的一個超節(jié)點。大家很容易看出來,淺藍色很細的線就是光纜,占據(jù)了圖片很大面積的黑色的線就是銅纜,很明顯他們的尺寸是不一樣的。

  如果用銅纜來做這件事,可能上架的時候會阻塞風(fēng)道,影響散熱,導(dǎo)致產(chǎn)生一些問題。當然也可以用液冷,但是液冷又是另外一層技術(shù)難點。另外銅纜比較重,會去拉上面的銅纜接口。銅攬接口長期承重的時候,會有可靠性的問題。這些都是我們在現(xiàn)實部署中遇到的一些具體情況。

  使用光纜業(yè)界也有一些顧慮,包括功耗、成本和可靠性三個方面,尤其是在大規(guī)模超節(jié)點中,光纜的使用數(shù)量會非常大。一個典型的例子就是華為今年發(fā)布的CloudMatrix 384超節(jié)點。

  上圖我圈出了兩個數(shù)字,CloudMatrix 384在二層使用了3000多根光纜,也就意味著6000多個光模塊。這么大數(shù)量的光模塊顯然對于功耗、成本和可靠性有著非常高的要求。

  為什么光互連相比銅互連會有這樣的問題呢?基于可插拔光模塊的光互連,實際上不是半導(dǎo)體產(chǎn)品,每個光模塊至少有二三十個零件。激光器、隔離器、棱鏡等,還要用膠水等各種各樣的方式把它們粘起來,之后以上這些再乘以4或者乘以8。所以每個光模塊里都有幾十個分立的零件,通過機械的方式組合成最終的產(chǎn)品。

  大家很容易聯(lián)想到,我們可以把光模塊這樣的非半導(dǎo)體產(chǎn)品變成半導(dǎo)體產(chǎn)品,把這些元器件全部或者盡量多的集成到1個或者2個芯片里,從而符合長期以來大家認知當中的芯片產(chǎn)品的邏輯。

  芯片產(chǎn)品不怕復(fù)雜,一個計算芯片可能有數(shù)十億個晶體管,只要能夠在半導(dǎo)體工藝中進行生產(chǎn),其可靠性就會非常好。在需求量非常大的時候,每個芯片的成本也可以降低到可控層面。因此,我們覺得解決以上問題很重要的一個方向就是使用集成度更高、更接近于半導(dǎo)體邏輯的光學(xué)產(chǎn)品。

  03 光互連技術(shù)的演進


  通過這張圖我們可以看到光互連技術(shù)的演進路線。

  左下角是目前大部分光通信的狀態(tài),業(yè)界在這方面也有幾十年的經(jīng)驗,是一個可插拔的光模塊。光模塊距離主芯片的距離,從服務(wù)器的尺寸來看可能有幾十厘米。再進一步,可以把光電轉(zhuǎn)換模塊放在離主芯片更近的地方,比如放在同一個PCB板上,這個距離可能會到5cm、3cm。

  再往后可以放在同一個封裝上面,變成所謂的共封裝光學(xué)Co - Packaged Optics,簡稱CPO,這也是最近兩年以來比較火的一個概念。

  最后我們很容易想象,可以把光電轉(zhuǎn)換和主芯片,也就是數(shù)字芯片垂直3D堆疊放在同一個芯片上,實現(xiàn)光電融合。

  這樣的技術(shù)演進在集成度上有多大的好處呢?這里有一個直觀的展示。

  上面中間展示的是博通51.2T的TH5交換機,也是博通第一代量產(chǎn)化的共封裝光學(xué)CPO產(chǎn)品。大家可以看到中間的封裝旁邊有四塊玻璃窗口一樣的東西,里面是可以傳達51.2T的一個光電轉(zhuǎn)換引擎,被封裝在芯片邊里。

  如果51.2T的帶寬用傳統(tǒng)的光模塊來支持,會是什么狀態(tài)呢?那就是周圍這一圈光模塊,128個光模塊全部擺在一起就是這個樣子。

  通過上圖,這樣大家可以很直觀的看到兩種技術(shù)在集成度上會有多大的提升。

  功耗層面,從光學(xué)層面來講,共封裝光學(xué)相比傳統(tǒng)可插拔光模塊會節(jié)省1/3-2/3左右的功耗。功耗相對來說是小一點的擔(dān)憂,畢竟不管怎么說,通信的功耗相比1kW以上的GPU來說可能還是很小的。

  可靠性是更為重要的一點。集群在做訓(xùn)練和推理的時候,與傳統(tǒng)的網(wǎng)絡(luò)邏輯不一樣,他們是協(xié)同作戰(zhàn)。也就是說假如一個GPU因為互連出現(xiàn)問題,少則拖累一個服務(wù)器,多則整個萬卡集群需要重啟,這個代價是非常大的。所以業(yè)界對于集群任何部分的可靠性都有很高的要求,當然也包括對互連的可靠性。

  我們使用更先進的集成光學(xué)技術(shù)的時候,對于光互連的可靠性實際上也有比較客觀的提升,最簡單的就是分立器件的數(shù)量少了。當然每個器件通過機械的方式安裝在一起的時候,每一個安裝的地方都有可能出問題。此外因為是光互連,某一個地方進去一?;覊m可能都會產(chǎn)生問題,我們可以盡量減少灰塵可能進去的地方,從而降低出現(xiàn)問題的概率,包括把激光光源拉到面板上面遠離熱源,這樣本身也可以極大降低光互連出問題的概率。

  海外一些巨頭在共封裝光學(xué)CPO上已經(jīng)有一些布局。

  在共封裝光學(xué)CPO上的研究,包括商業(yè)化嘗試,在過去十年一直在持續(xù)。真正做到接近量產(chǎn)級別的,是通訊領(lǐng)域的第一大巨頭博通,前面也展示了他們共封裝的交換機。今年上半年,NVIDIA在GTC上也發(fā)布了他們共封裝光學(xué)CPO產(chǎn)品。也就是說通信和算力界的兩大龍頭,都已經(jīng)進入了這個領(lǐng)域。

  04 基于分布式光交換的超節(jié)點新架構(gòu)


  對于整體可靠性的提升,我們還有另一個想法,就是通過光交換減少冗余度。從現(xiàn)有超節(jié)點的架構(gòu)來說,不管是直連架構(gòu),還是交換架構(gòu),都要回答一個問題:當一個超節(jié)點有上百甚至數(shù)百個GPU的時候,如何保證任何一個點出問題時,超節(jié)點還能繼續(xù)運行。所以總要有各種各樣的冗余設(shè)置在里面。

  我們覺得可以把交換功能融入到光互連中,把一些小的交換功能融入到光IO領(lǐng)域,我們稱之為分布式光交換dOCS。這是一個很小的功能,但組成集群之后可以實現(xiàn)非常有意思的狀態(tài)。

  通過上圖來做一些簡單的解釋。

  假設(shè)上面的每一個圓都是一個服務(wù)器,超節(jié)點是由若干個服務(wù)器組成的。正常狀態(tài)下,第一行每4個服務(wù)器(32卡)組成一個超節(jié)點,我們可以通過光互連把前面12個服務(wù)器組成三個超節(jié)點,并給到兩個備份的服務(wù)器。同時,因為我們在光互連出口的地方提供了交換功能,因此可以做靈活的拓撲切換。

  假設(shè)因為某些原因兩個服務(wù)器出了問題,當系統(tǒng)檢測到異常時,分布式光交換可以跳過一個服務(wù)器重組超節(jié)點。比如圖中第二行,跳過第4個壞的服務(wù)器,然后把兩個備份服務(wù)器拉進來,重新把好的服務(wù)器用起來,壞的服務(wù)器下線。

  這樣冗余備災(zāi)的顆粒度就不是整個超節(jié)點了,只是一個服務(wù)器。對于冗余來講,能夠在很大程度上的緩解壓力,因為用來冗余備災(zāi)的服務(wù)器是不再賺錢的服務(wù)器。

  我們肯定希望系統(tǒng)在保持整個集群效率的前提下,能用更小的冗余度保證整體運營是最好的,這樣的靈活度對于大集群來說是非常有價值的。

  從另一個方向來說,靈活的拓撲切換可以被用來構(gòu)建不同尺寸的超節(jié)點。很多時候,超節(jié)點的尺寸并不是越高越好。

  假設(shè)一個GPU出口帶寬總數(shù)一致,對于比較大的模型來說會希望組建大尺寸的超節(jié)點。但當某個時候要切換到相對小一點的模型時,比如文生圖模型比大語言模型要小很多,這種情況下,所謂最佳的超節(jié)點尺寸可能就變成了兩個服務(wù)器,或者有的時候需要六個服務(wù)器、八個服務(wù)器,可以通過靈活的切換,達到靈活改變超節(jié)點尺寸的效果。

  當然把所有的服務(wù)器接上所有的交換機也可以實現(xiàn),但其成本、系統(tǒng)的復(fù)雜度,和這樣的超節(jié)點解決方案就不在一個層次了。

  這里展示的是我們實現(xiàn)這一點所做的一些工作,總體來說就是集成的光電轉(zhuǎn)換。區(qū)別是我們在每一個光電轉(zhuǎn)換的出口處,做了多路徑備份,由整個系統(tǒng)去控制它,在恰當?shù)臅r候做恰當?shù)那袚Q,以實現(xiàn)拓撲的靈活調(diào)整。

  使用分布式光交換,可以在各個情況下提升超節(jié)點集群算力的利用率。此外,我們知道最大、最先進的交換芯片其實也是非常依賴先進制程和先進封裝技術(shù)的,而分布式光交換所依賴的供應(yīng)鏈要簡單不少。光芯片不依賴先進制程,并且相對來說國內(nèi)水平和海外差距不大,這個可能是使用光交換,尤其是分布式光交換的額外好處。

  這個視頻,是曦智科技對于下一代更強大的光電混合算力集群的愿景,融入了基于純電基礎(chǔ)設(shè)施的優(yōu)勢,同時加上集成光學(xué)可以帶來更強大的性能提升,共同組成一個包括光電混合計算+光互連+光交換的集群狀態(tài)。

新聞來源:智猩猩

相關(guān)文章