AI技術(shù)發(fā)展至今,大模型呈現(xiàn)出超百萬億參數(shù)、長序列、多模態(tài)、推理/測試時計算(test-time scaling)以及物理AI幾大明顯的發(fā)展趨勢,可以預(yù)見的是,AI對集群算力的需求仍將保持高速增長的態(tài)勢,智算集群發(fā)展到十萬卡甚至百萬卡規(guī)模已成為行業(yè)發(fā)展的必然需求。在超十萬卡規(guī)模的智算集群中,由Scale-up網(wǎng)絡(luò)構(gòu)成的高帶寬域(即業(yè)界所說的超節(jié)點(diǎn)域)將扮演著重要的角色。以NVIDIA NVL72為例,相比上一代單機(jī)8卡服務(wù)器,在同等的32k集群規(guī)模下,GPT-MOE-1.8T模型推理性能提升30倍,訓(xùn)練效率提升4倍。由于相比Scale-out網(wǎng)絡(luò)這種明顯的業(yè)務(wù)加速收益,Scale-up網(wǎng)絡(luò)從2024年開始成為業(yè)界研究的焦點(diǎn)。國外以AMD為代表的GPU廠商牽頭成立了UAlink技術(shù)聯(lián)盟,而國內(nèi)短時間出現(xiàn)騰訊ETH-X、中國移動OISA以及中興通訊提出的OLink(即Open Link)等多種技術(shù)方案,并出現(xiàn)了“總線型”和“網(wǎng)絡(luò)型”兩種技術(shù)路線之爭。這兩種技術(shù)路線到底是水火不容還是殊途同歸,是當(dāng)前行業(yè)關(guān)注的焦點(diǎn)問題。
第一性原理看Scale-up網(wǎng)絡(luò):核心需求是什么
Scale-up網(wǎng)絡(luò)作為智算集群所引入的一種新型網(wǎng)絡(luò)類型,在進(jìn)行技術(shù)路線選擇時,首先要明確其核心的技術(shù)需求是什么。以當(dāng)前業(yè)界Scale-up網(wǎng)絡(luò)的行業(yè)標(biāo)桿NVIDIA為例,其NVLink技術(shù)目前已經(jīng)發(fā)展到了第5代,最初是為了解決PCIe帶寬不足問題而設(shè)計的。當(dāng)GPU之間的通信帶寬需求達(dá)到300GB/s,為了實(shí)現(xiàn)8卡之間的高速全互聯(lián),出現(xiàn)了第一代NVSwitch芯片。從NVIDIA官方透露的未來3年芯片規(guī)劃來看,Scale-up網(wǎng)絡(luò)呈現(xiàn)出如下發(fā)展趨勢:NVLink接口帶寬逐代穩(wěn)步提升(NVLink5的1.8TB/s到NVlink 6的3.6TB/s),Scale-up互聯(lián)規(guī)模漸進(jìn)式提升(NVL576到NVL 1k),隨之而來的是其配套的交換芯片NVSwitch的容量同步提升?;谶@些基本的技術(shù)信息,再綜合應(yīng)用場景的基本特點(diǎn),可以總結(jié)出Scale-up的一些基本特點(diǎn)。
總體而言,Scale-up需要的既不是傳統(tǒng)的總線技術(shù),也不是傳統(tǒng)的網(wǎng)絡(luò)技術(shù),Scale-up是具有其特定訴求的新型互聯(lián)應(yīng)用場景。任何將總線技術(shù)(如PCIe)或網(wǎng)絡(luò)技術(shù)(如以太網(wǎng)、Infiniband等)直接照搬應(yīng)用在Scale-up場景的做法,都將引入某個維度的性能代價。
Scale-up網(wǎng)絡(luò)本身是“總線”和“網(wǎng)絡(luò)”技術(shù)在特定場景融合應(yīng)用的產(chǎn)物,其綜合了兩者的特點(diǎn),并融入了自身的核心訴求(見圖1)。
一方面,Scale-up繼承了總線技術(shù)的一部分用戶側(cè)需求,如支持Load/Store內(nèi)存語義、要求控制芯片PPA(performance power area,能效比)代價等,但引入了超高帶寬和相對寬松的時延需求。以最新PCIe 6.0×16為例,其帶寬只有256GB/s,這與NVLink動輒TB級的通信帶寬存在明顯的代差。從Scale-up本身的應(yīng)用場景出發(fā),由于存在計算-通信掩蓋等優(yōu)化技術(shù),Scale-up網(wǎng)絡(luò)相對而言具有更高的時延容忍度,然而,由于Load/Store語義的同步通信特征,延遲又不能過于寬松。
另一方面,Scale-up網(wǎng)絡(luò)也繼承了網(wǎng)絡(luò)技術(shù)的擴(kuò)展性需求。由于技術(shù)、成本等多方面因素的約束,Scale-up互聯(lián)規(guī)模從最初的8卡發(fā)展到如今的百卡,未來有可能擴(kuò)展到千卡,這種規(guī)模需求介于總線互聯(lián)規(guī)模和網(wǎng)絡(luò)互聯(lián)規(guī)模之間,因此必須借鑒網(wǎng)絡(luò)技術(shù)高可擴(kuò)展性的設(shè)計經(jīng)驗(yàn)。
此外,由于Scale-up應(yīng)用場景的特點(diǎn),為了給上層應(yīng)用提供一個高效、友好的通信環(huán)境,需要支持DMA(direct memory access)語義和內(nèi)存統(tǒng)一編址,其中DMA語義可有效提升數(shù)據(jù)批量傳輸?shù)男阅?,?nèi)存統(tǒng)一編址能為上層應(yīng)用提供更友好的編程模型。
綜上所述,Scale-up的核心需求是TB級超高帶寬、k級擴(kuò)展性、多語義、低功耗、百納秒延遲以及內(nèi)存統(tǒng)一編址等。
Scale-up網(wǎng)絡(luò)技術(shù)路線:網(wǎng)絡(luò)總線化還是總線網(wǎng)絡(luò)化
鑒于Scale-up網(wǎng)絡(luò)對未來AI基礎(chǔ)設(shè)施的重要性,當(dāng)前業(yè)界存在多種技術(shù)路線,大致可以分為“網(wǎng)絡(luò)總線化”和“總線網(wǎng)絡(luò)化”兩種思路(見圖2)。
“網(wǎng)絡(luò)總線化”技術(shù)路線
所謂的“網(wǎng)絡(luò)總線化”技術(shù)路線,其主流思路是在傳統(tǒng)以太網(wǎng)協(xié)議以及交換技術(shù)的基礎(chǔ)上,針對Scale-up網(wǎng)絡(luò)的需求開展協(xié)議優(yōu)化以及交換芯片架構(gòu)創(chuàng)新,從而滿足未來一段時間內(nèi)Scale-up超節(jié)點(diǎn)組網(wǎng)的需求。這種技術(shù)思路常見于以太網(wǎng)解決方案提供商,其抓住Scale-up高帶寬的首要訴求,通過成熟開放、快速發(fā)展的以太網(wǎng)生態(tài)解決智算“生態(tài)封閉”的問題,通過擁抱以太網(wǎng)高速Serdes成熟產(chǎn)業(yè)生態(tài)解決高帶寬互聯(lián)需求。然而,該技術(shù)路線通常需要采用一定的技術(shù)手段滿足Scale-up網(wǎng)絡(luò)對延遲性能、低功耗、多語義、內(nèi)存統(tǒng)一編址等需求,這些工作存在大量的創(chuàng)新空間。中興OLink是該技術(shù)路線的踐行者,通過低延遲FEC、LD/ST Packing、內(nèi)存統(tǒng)一編址、在網(wǎng)計算等一系列創(chuàng)新功能,可以實(shí)現(xiàn)Scale-up網(wǎng)絡(luò)的整體訴求。
“總線化網(wǎng)絡(luò)化”技術(shù)路線
所謂的“總線網(wǎng)絡(luò)化”技術(shù)路線,其主流思路是以傳統(tǒng)的總線技術(shù)為基礎(chǔ),摒棄一些高代價低收益的總線需求,再引入網(wǎng)絡(luò)技術(shù)元素,滿足Scale-up高帶寬和擴(kuò)展性需求。這種思路常見于GPU廠商或以總線技術(shù)擅長的廠商,如NVIDIA NVLink和AMD Infinity Fabric。AMD牽頭成立的Ualink技術(shù)聯(lián)盟是該技術(shù)路線的踐行者,其協(xié)議主體更多借鑒了PCIe和CXL的設(shè)計思想,一方面結(jié)合Scale-up的特點(diǎn)摒棄了硬件Cache Coherency的需求,此外,通過在物理層引入以太網(wǎng)Serdes能力,解決了傳統(tǒng)總線技術(shù)帶寬能力不足的問題。
兩種技術(shù)路線的共性和不同
從技術(shù)的角度看,無論是“總線網(wǎng)絡(luò)化”還是“網(wǎng)絡(luò)總線化”,其本質(zhì)都是圍繞Scale-up網(wǎng)絡(luò)的核心需求開展的不同設(shè)計,最終都是一個與傳統(tǒng)總線和傳統(tǒng)網(wǎng)絡(luò)都不同的特殊網(wǎng)絡(luò),過度強(qiáng)調(diào)兼容“總線”或兼容“網(wǎng)絡(luò)”都會帶來一些需求或者性能的損失,因此兩者并不存在絕對的優(yōu)劣。
從產(chǎn)業(yè)推進(jìn)的角度看,兩種Scale-up技術(shù)路線均存在落地上的困難,均需要GPU和網(wǎng)絡(luò)基礎(chǔ)設(shè)施進(jìn)行深度聯(lián)合設(shè)計,且在此過程中,GPU通常處于相對強(qiáng)勢的地位。兩者的差異在于,“總線網(wǎng)絡(luò)化”的技術(shù)路線更容易被GPU廠商所接受和理解,但通常需求各異難于統(tǒng)一,這加劇了產(chǎn)業(yè)落地的難度。而當(dāng)前數(shù)量眾多的GPU廠商已經(jīng)切換以太網(wǎng)接口,這種情況下“網(wǎng)絡(luò)總線化”反而更容易得到落地。
中興OLink協(xié)議采用“網(wǎng)絡(luò)總線化”的架構(gòu)思路,提供完善的端側(cè)IP和交換芯片的產(chǎn)品解決方案,并基于公共以太網(wǎng)技術(shù)底座實(shí)現(xiàn)Scale-out和Scale-up融合組網(wǎng),大幅降低了網(wǎng)絡(luò)建設(shè)和運(yùn)維成本。
Scale-up網(wǎng)絡(luò)發(fā)展趨勢和產(chǎn)業(yè)建議
從當(dāng)前AI基礎(chǔ)設(shè)施發(fā)展趨勢來看,Scale-up網(wǎng)絡(luò)將扮演越來越重要的角色,其呈現(xiàn)出如下發(fā)展趨勢:
· Scale-up網(wǎng)絡(luò)規(guī)模在技術(shù)上不斷突破,在應(yīng)用中有序提升
未來幾年,隨著高速互聯(lián)技術(shù)、芯片工藝、系統(tǒng)工程等技術(shù)不斷取得突破,Scale-up的理論互聯(lián)規(guī)模將從當(dāng)前的百卡發(fā)展到千卡甚至數(shù)千卡的規(guī)模,但由于部署成本、邊際收益、功耗密度、RAS(reliability,availability,and serviceability)等方面因素的限制,Scale-up實(shí)際落地的超節(jié)點(diǎn)規(guī)模將有序提升,且長期穩(wěn)定在百卡左右。
· 光互聯(lián)深入到芯片級,Scale-up網(wǎng)絡(luò)架構(gòu)將迎來重構(gòu)契機(jī)
隨著電互聯(lián)逐漸觸達(dá)香農(nóng)定律的極限,光互聯(lián)技術(shù)將深入到芯片級,以CPO/Optical IO為代表的技術(shù)成為AI芯片的重要發(fā)展方向。通過光互聯(lián)可以極大提升帶寬密度并降低互聯(lián)功耗,服務(wù)器、交換機(jī)的產(chǎn)品形態(tài)和互聯(lián)方式均發(fā)生重大變化,Scale-up網(wǎng)絡(luò)將迎來架構(gòu)重構(gòu)。
· Scale-up和Scale-out網(wǎng)絡(luò)在協(xié)同中融合
隨著Scale-up網(wǎng)絡(luò)和Scale-out網(wǎng)絡(luò)技術(shù)的進(jìn)一步發(fā)展,基礎(chǔ)設(shè)施層面的融合需求將推動產(chǎn)品技術(shù)的進(jìn)一步靠攏,當(dāng)Scale-up網(wǎng)絡(luò)和Scale-out網(wǎng)絡(luò)在底層技術(shù)逐漸從相似走向統(tǒng)一時,Scale-up和Scale-out網(wǎng)絡(luò)將逐漸融合。
當(dāng)前Scale-up網(wǎng)絡(luò)的重要性和技術(shù)路線的多樣性之間的矛盾顯得尤為突出,很多所謂的技術(shù)路線之爭更多存在于具體的技術(shù)方案上,在要解決的核心問題上其實(shí)沒有根本性的矛盾。在當(dāng)前智算基礎(chǔ)設(shè)施產(chǎn)業(yè)事實(shí)性壟斷明顯的情況下,中興通訊呼吁產(chǎn)業(yè)界能更多凝聚共識,以“小步快跑”的模式推動Scale-up網(wǎng)絡(luò)的繁榮發(fā)展。
作者:中興通訊 李和松
新聞來源:中興通訊技術(shù)(簡訊)
相關(guān)文章