ICC訊 隨著AI大模型訓練對網(wǎng)絡帶寬需求的指數(shù)級增長,800G交換機成為智算中心不可或缺的基礎設施。在這一技術演進過程中,線性直驅(qū)光模塊(LPO)技術通過創(chuàng)新性地去掉DSP芯片,實現(xiàn)了功耗降低27%、時延減少17%以及成本顯著降低的多重突破,已然成為下一代數(shù)據(jù)中心建設的關鍵技術。然而,LPO技術將傳統(tǒng)光模塊中的DSP功能轉(zhuǎn)移到交換機側(cè),由此衍生出兩大核心技術挑戰(zhàn):
首先,在信號完整性方面,取消DSP后,抑制信號抖動和噪聲的任務完全依賴于交換機本身來實現(xiàn),這對112Gbps PAM4信號的傳輸質(zhì)量提出了前所未有的要求,同時在800G超高密度端口配置下,還需確保所有端口在長期運行中的信號穩(wěn)定性,這對交換機的硬件設計和制造工藝都帶來了嚴苛考驗;其次,在多廠商兼容性方面,要支持不同廠商的LPO模塊即插即用,這要求交換機必須具備智能化的參數(shù)自適應能力,這對芯片級的硬件識別和系統(tǒng)級的軟件優(yōu)化提出了雙重挑戰(zhàn)。
紫光股份旗下新華三集團憑借其“架構(gòu)級創(chuàng)新、智能化調(diào)優(yōu)、多場景協(xié)同”獨特模式,不僅率先攻克了這些技術難題,更成功實現(xiàn)了800G LPO交換機的規(guī)模商用。目前,該解決方案已成功應用于多個互聯(lián)網(wǎng)、運營商客戶,特別是在AI算力基礎設施和大模型訓練等前沿場景中展現(xiàn)出卓越性能。這一成就源于新華三在高速信號系統(tǒng)全鏈路設計中的理論創(chuàng)新、硬件優(yōu)化與器件協(xié)同能力的深度融合。
架構(gòu)級創(chuàng)新:
攻克LPO的物理層挑戰(zhàn)
面對LPO技術帶來的嚴苛挑戰(zhàn),新華三通過傳輸系統(tǒng)優(yōu)化、串擾抑制方案和動態(tài)補償機制三大核心技術,構(gòu)建起高速信號傳輸?shù)耐暾U象w系。
在傳輸系統(tǒng)方面,新華三創(chuàng)新性地構(gòu)建了完整的鏈路損耗控制體系。采用Ultra Low Loss級PCB板材,優(yōu)化高速信號層疊歸一化設計,并通過系統(tǒng)鏈路全遍歷提取仿真,實現(xiàn)了112G PAM4信號傳輸損耗降低20%以上的突破。這一創(chuàng)新為LPO架構(gòu)提供了關鍵的信號質(zhì)量基礎。
針對高速信號傳輸中不可避免的串擾難題,研發(fā)團隊開發(fā)了創(chuàng)新的抑制方案。通過小孔技術和偏心孔技術優(yōu)化布線密度,采用多線徑控制動態(tài)調(diào)整走線間距,同時采用低插損高速連接器,提升高頻性能,使全鏈路信噪比提升超過10dB。這些措施協(xié)同作用,確保了高速信號的穩(wěn)定傳輸。
更為關鍵的是,針對取消DSP后信號補償?shù)碾y題,研發(fā)團隊重點優(yōu)化了動態(tài)補償機制:當鏈路中高頻信號發(fā)生不同程度的衰減時,發(fā)送端ASIC芯片針對性在SerDes發(fā)送端,提供不同程度的預加重(增強信號跳變沿幅度)或去加重(降低穩(wěn)態(tài)信號電平);同時接收端SerDes動態(tài)調(diào)整CTLE均衡器(提升高頻增益)和DFE抽頭權(quán)重,實現(xiàn)信號損傷的快速補償。整套機制通過預訓練參數(shù)庫與硬件補償模塊的協(xié)同,在毫秒級時間內(nèi)完成信號質(zhì)量優(yōu)化,既滿足LPO規(guī)范的眼圖要求,又顯著降低系統(tǒng)復雜度,展現(xiàn)了硬件精準控制與軟件智能調(diào)優(yōu)的深度融合能力。
智能化調(diào)優(yōu):
從硬件補償?shù)杰浖赃m應優(yōu)化
在解決多廠商兼容性這一難題,新華三基于前述硬件層的信號補償能力,自主研發(fā)的智能調(diào)優(yōu)系統(tǒng)以51.2T交換芯片平臺為依托,構(gòu)建起完整的信號質(zhì)量監(jiān)測與調(diào)節(jié)體系。該系統(tǒng)通過硬件層的SerDes的可配置補償能力和軟件層智能算法的協(xié)同,構(gòu)建兩級優(yōu)化體系:ASIC芯片執(zhí)行基于預訓練參數(shù)的信號整形(信號補償),上層軟件通過實時信道監(jiān)測、動態(tài)迭代優(yōu)化超過數(shù)十項電信號參數(shù),實現(xiàn)對信號質(zhì)量的精準調(diào)控,成功攻克了“各廠家模塊在不同端口參數(shù)調(diào)優(yōu)難、異廠家一致性差”的行業(yè)痛點。
這套智能調(diào)優(yōu)系統(tǒng)展現(xiàn)出強大的解決能力。研發(fā)團隊通過實時監(jiān)測各端口的眼圖質(zhì)量、抖動特性等關鍵指標,經(jīng)過上千小時的優(yōu)化與數(shù)百小時的專業(yè)驗證,對交換機驅(qū)動軟件和高速模塊寄存器中的高速電信號參數(shù)進行數(shù)百輪的參數(shù)調(diào)整,最終生成能夠滿足業(yè)務要求的最優(yōu)參數(shù)模型,將端口誤碼率控制在業(yè)內(nèi)領先水平,并集成至交換機系統(tǒng)軟件。模塊上電時,系統(tǒng)自動識別并配置最優(yōu)電信號參數(shù),確保低誤碼率運行,實現(xiàn)業(yè)務端口的穩(wěn)定高效。
在實際應用場景中,該系統(tǒng)自動識別LPO模塊類型,并通過智能調(diào)優(yōu)系統(tǒng)中預存的最優(yōu)參數(shù)模型,快速匹配并應用對應配置,確保不同端口性能表現(xiàn)的高度一致。同時,該技術支持熱插拔場景,能夠在模塊更換后在可在毫秒級時延內(nèi)完成參數(shù)自適應,保障業(yè)務無感知切換;在多廠商兼容方案方面,系統(tǒng)嚴格遵循CMIS和SFF-8636國際標準,實現(xiàn)了對各廠家的不同模塊規(guī)格、不同芯片方案、不同激光器方案、以及多種應用模式(一分二、一分四)等模塊的類型讀取,可靈活智能識別端口模塊模式,實現(xiàn)即插即用。這一突破極大降低了用戶部署的復雜度,為LPO技術的規(guī)模商用提供了關鍵支持。
多場景協(xié)同:
技術到商業(yè)閉環(huán)實踐
新華三精心打造了高效的光模塊協(xié)同體系,成功構(gòu)建了完整的技術與商業(yè)閉環(huán),通過三大核心支柱推動LPO技術規(guī)模商用。
在認證測試體系方面,新華三建立了行業(yè)領先的四維認證標準。該體系包含76項嚴格測試項目:本體認證重點驗證光電信號特性和診斷功能;適配測試全面評估與交換機的兼容性;結(jié)構(gòu)測試確保機械強度;環(huán)境測試覆蓋從低溫到高溫的全溫度范圍。只有通過這一嚴苛認證體系的產(chǎn)品,才能獲得新華三交換機適配認證資格。
可靠性保障體系貫穿光模塊全生命周期。認證引入階段采用DPA分析和極端環(huán)境測試;生產(chǎn)階段實施包括ESS、老化測試、長纖測試等多重篩選;運維階段通過模塊到系統(tǒng)多級智能運維手段實現(xiàn)質(zhì)量閉環(huán)。這套體系使光模塊年故障率控制在1000PPM以下,達到業(yè)界領先水平。
新華三建立了覆蓋模塊、系統(tǒng)、平臺三層的智能運維體系。在模塊層,除基礎診斷功能外,通過專有寄存器擴展支持環(huán)回測試等高級功能;在系統(tǒng)層,開發(fā)的參數(shù)管理系統(tǒng)實現(xiàn)診斷數(shù)據(jù)實時解析與配置管理;在平臺層,部署的健康管理平臺基于全生命周期數(shù)據(jù)構(gòu)建預測模型,支持故障預警和壽命評估。結(jié)合AD-DC智算版的實時監(jiān)控能力,可對功率、溫度等關鍵指標進行分鐘級故障定位,完整覆蓋"交換機+GPU服務器"端網(wǎng)光模塊監(jiān)控場景,運維效率顯著提升。
基于在交換機硬件設計、智能調(diào)優(yōu)系統(tǒng)和光模塊協(xié)同體系方面的全方位技術突破,新華三 800G LPO 交換機已在多個領域取得顯著成效:支持頭部互聯(lián)網(wǎng)企業(yè)數(shù)萬卡GPU集群高效互聯(lián),降低運營商數(shù)據(jù)中心動態(tài)時延,承載AI智算中心數(shù)千卡GPU集群的訓練流量,提升了制造業(yè)核心系統(tǒng)吞吐能力。這一創(chuàng)新實踐不僅突破了AI算力瓶頸,更展現(xiàn)了我國在高端網(wǎng)絡設備領域的技術領導力。面向未來,新華三將繼續(xù)深化技術創(chuàng)新、完善協(xié)同體系,積極參與國際標準制定,為全球數(shù)據(jù)中心網(wǎng)絡的綠色發(fā)展貢獻更多力量。
新聞來源:新華三