掃一掃下載界面新聞APP

中科曙光

自研高速網(wǎng)絡(luò)會成為算力集群的下一戰(zhàn)場嗎？

從硬件性能追趕到生態(tài)體系成熟，國產(chǎn)替代之路仍然漫長。

周末ZM · 來源：界面新聞

圖片來源：界面圖庫

界面新聞記者 | 周末
界面新聞編輯 | 文姝琪

在算力集群的規(guī)模競賽邁向十萬卡的過程中，圍繞高速網(wǎng)絡(luò)的技術(shù)競賽正在浮出水面。中科曙光近日發(fā)布高速網(wǎng)絡(luò)方案ScaleFabric，試圖補(bǔ)上國產(chǎn)算力產(chǎn)業(yè)鏈長期缺失的一環(huán)。

“網(wǎng)絡(luò)可靠性是未來的重點。”中科曙光高級副總裁李斌對界面新聞等媒體表示，算卡集群從萬卡到十萬卡做突破，最核心的技術(shù)不是來自于計算節(jié)點，而是來自于互聯(lián)系統(tǒng)，來保證規(guī)模擴(kuò)大后本身效率的可擴(kuò)展。

這一判斷指向了AI算力基礎(chǔ)設(shè)施正在改變的事實：當(dāng)GPU芯片的競爭已經(jīng)白熱化，將數(shù)以萬計的芯片高效串聯(lián)、協(xié)同的網(wǎng)絡(luò)能力，正在成為決定算力集群性能的又一關(guān)鍵變量。

一個大規(guī)模算力集群的構(gòu)建分為兩層。第一層是縱向擴(kuò)展（Scale-up），在單臺服務(wù)器或單機(jī)柜內(nèi)集成大量GPU及AI芯片，通過高速互聯(lián)形成超級計算節(jié)點；第二層是橫向擴(kuò)展（Scale-out），通過高速網(wǎng)絡(luò)將這些節(jié)點串聯(lián)成集群。

在縱向擴(kuò)展層面，一場圍繞超節(jié)點卡數(shù)的競賽正在展開。

2026年1月，英偉達(dá)發(fā)布第六代NVLink以及NVLink Switch，兩者支持最新的Rubin架構(gòu)，目前商用最大支持72張XPU卡。

國內(nèi)廠商則推行得相對激進(jìn)。在中國半導(dǎo)體制造工藝相對落后的背景下，Scale-up被視為通過堆疊更多卡數(shù)來規(guī)避單一芯片性能不足的替代方案。

據(jù)界面新聞此前報道，華為昇騰通過在超節(jié)點互聯(lián)技術(shù)上強(qiáng)力投資，發(fā)力走“集群規(guī)?；甭肪€，試圖憑借這一方向“做到世界上算力最強(qiáng)”，推出了配備384張昇騰AI加速卡的華為昇騰384超節(jié)點真機(jī)。瞄準(zhǔn)類似目標(biāo)，沐曦推出了連接64張曦云C550通用GPU的超節(jié)點產(chǎn)品耀龍S8000 G2。中科曙光在2025年12月也推出了單機(jī)柜640卡的scaleX640超節(jié)點。

一名從業(yè)人士告訴界面新聞，影響超節(jié)點內(nèi)部的串聯(lián)效率和協(xié)同的主要因素是Scale-up協(xié)議，互聯(lián)芯片延遲和帶寬；華為昇騰384是現(xiàn)在量產(chǎn)的超節(jié)點產(chǎn)品中卡數(shù)最多的方案，中科曙光的640卡方案目前尚未量產(chǎn)。

但無論超節(jié)點規(guī)模最終穩(wěn)定在何處，它們共同指向了同一瓶頸：節(jié)點內(nèi)芯片越多，節(jié)點之間的網(wǎng)絡(luò)壓力就越大。這也帶來了高速互聯(lián)快速膨脹的市場。李斌表示，相比原來的數(shù)據(jù)中心高速網(wǎng)絡(luò)的用量，基本上提高了10到20倍，“從網(wǎng)絡(luò)端口就可以看到市場的增量”。

這恰恰是橫向擴(kuò)展——也是ScaleFabric所瞄準(zhǔn)的市場。在橫向擴(kuò)展中，讓大量節(jié)點高效協(xié)同的核心技術(shù)是RDMA（遠(yuǎn)程直接內(nèi)存訪問）。這一技術(shù)繞過CPU和操作系統(tǒng)，讓機(jī)器之間直接讀寫內(nèi)存，而這帶來的低延遲對AI大模型的訓(xùn)練和推理至關(guān)重要。

實現(xiàn)RDMA有兩條主流路線。InfiniBand原生支持RDMA，無需CPU參與即可在系統(tǒng)間進(jìn)行直接內(nèi)存?zhèn)鬏敗Ｓミ_(dá)在2019年以69億美元收購Mellanox后，就牢牢把控了這一高性能網(wǎng)絡(luò)技術(shù)市場，憑借其硅芯片設(shè)計專業(yè)、自研高速互連和網(wǎng)絡(luò)技術(shù)及CUDA，形成了一套生態(tài)內(nèi)的閉環(huán)。

另一條路線是RoCE（融合以太網(wǎng)上的RDMA），將RDMA功能嫁接到標(biāo)準(zhǔn)以太網(wǎng)上，成本更低、生態(tài)更開放，但需要復(fù)雜配置才能接近無損效果。Google、Meta等部分海外科技公司及國內(nèi)互聯(lián)網(wǎng)大廠均有所采用。

在InfiniBand目前仍是AI高性能網(wǎng)絡(luò)標(biāo)桿的背景下，中國公司面臨的問題是，這條路線的核心供應(yīng)被一家美國公司壟斷。

在這一背景下，中科曙光選擇不走被更多國內(nèi)廠商采用的RoCE路線，而是自研一套基于InfiniBand技術(shù)理念的方案。中科曙光高速網(wǎng)絡(luò)互聯(lián)產(chǎn)品部總工程師萬偉的解釋是，基于在高性能計算的經(jīng)驗，其認(rèn)為InfiniBand的技術(shù)路線在AI和HPC（高性能計算）中有不可替代的優(yōu)勢；作為真正的無損網(wǎng)絡(luò)，其無損特性對RDMA性能的發(fā)揮至關(guān)重要。

據(jù)界面新聞了解，中科曙光此次發(fā)布的ScaleFabric核心是InfiniBand網(wǎng)絡(luò)的設(shè)計思路，可以看作是基于InfiniBand技術(shù)的一種優(yōu)化。作為國內(nèi)首款原生無損RDMA高速網(wǎng)絡(luò)方案，ScaleFabric涵蓋了從交換芯片、網(wǎng)卡到交換機(jī)、驅(qū)動與管理軟件的完整自研體系。萬偉透露，其端到端通信時延的能力上限已做到0.9微秒。

在商業(yè)策略上，ScaleFabric試圖在英偉達(dá)的技術(shù)理念與國產(chǎn)自主可控之間找到平衡點。

該系統(tǒng)在定位上對標(biāo)英偉達(dá)Infiniband，系統(tǒng)結(jié)構(gòu)保持透明，通過標(biāo)準(zhǔn)SIP網(wǎng)絡(luò)接口支持不同計算芯片的互聯(lián)與適配。在此基礎(chǔ)上，團(tuán)隊正在探索讓計算芯片通過專有協(xié)議直通網(wǎng)卡，同時推動芯片間互聯(lián)協(xié)議的共享，為與其他廠商的計算芯片實現(xiàn)高效直連鋪路。

但曙光并不打算將自己鎖定在單一協(xié)議上。李斌透露，未來的技術(shù)路線將探索不同協(xié)議的融合，可能在原生RDMA的基礎(chǔ)上做不同網(wǎng)絡(luò)路線的兼容。

ScaleFabric的意義，或許不在于正面超越英偉達(dá)，而在于提供一條國產(chǎn)自主可控的替代路徑。李斌對界面新聞表示，中科曙光期待在InfiniBand的技術(shù)路線能實現(xiàn)技術(shù)上的國產(chǎn)化替代，包括實現(xiàn)業(yè)務(wù)上真正的市場占比替代。

但技術(shù)指標(biāo)上的接近，與產(chǎn)業(yè)生態(tài)的成熟之間，仍隔著一段不短的路程。

北京科技大學(xué)高性能計算領(lǐng)域?qū)＜覂Ω顚缑嫘侣劚硎?，國產(chǎn)計算硬件發(fā)展總體落后英偉達(dá)一到兩代，“更難的是上面的生態(tài)”。英偉達(dá)圍繞InfiniBand構(gòu)建了多年的產(chǎn)業(yè)生態(tài)，并非單靠硬件性能對標(biāo)就能復(fù)制。

ScaleFabric目前已在位于鄭州的國家超算互聯(lián)網(wǎng)核心節(jié)點三萬卡智算集群中進(jìn)行了部署驗證，但更大規(guī)模的產(chǎn)業(yè)化落地仍需時間。從單一集群內(nèi)的驗證到成為市場上被廣泛選擇的方案，這條突圍之路，可能比單純的芯片研發(fā)周期更為漫長。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文，侵權(quán)必究。

中科曙光

2.5k

中科曙光發(fā)布首款全棧自研400G無損高速網(wǎng)絡(luò)——scaleFabric5天前
中科曙光：三名高管擬合計減持不超0.47%公司股份15天前

硬科技

自研高速網(wǎng)絡(luò)會成為算力集群的下一戰(zhàn)場嗎？

從硬件性能追趕到生態(tài)體系成熟，國產(chǎn)替代之路仍然漫長。

周末ZM · 2026/03/17 15:25來源：界面新聞

圖片來源：界面圖庫

界面新聞記者 | 周末
界面新聞編輯 | 文姝琪

在縱向擴(kuò)展層面，一場圍繞超節(jié)點卡數(shù)的競賽正在展開。

2026年1月，英偉達(dá)發(fā)布第六代NVLink以及NVLink Switch，兩者支持最新的Rubin架構(gòu)，目前商用最大支持72張XPU卡。

據(jù)界面新聞此前報道，華為昇騰通過在超節(jié)點互聯(lián)技術(shù)上強(qiáng)力投資，發(fā)力走“集群規(guī)模化”路線，試圖憑借這一方向“做到世界上算力最強(qiáng)”，推出了配備384張昇騰AI加速卡的華為昇騰384超節(jié)點真機(jī)。瞄準(zhǔn)類似目標(biāo)，沐曦推出了連接64張曦云C550通用GPU的超節(jié)點產(chǎn)品耀龍S8000 G2。中科曙光在2025年12月也推出了單機(jī)柜640卡的scaleX640超節(jié)點。

實現(xiàn)RDMA有兩條主流路線。InfiniBand原生支持RDMA，無需CPU參與即可在系統(tǒng)間進(jìn)行直接內(nèi)存?zhèn)鬏?。英偉達(dá)在2019年以69億美元收購Mellanox后，就牢牢把控了這一高性能網(wǎng)絡(luò)技術(shù)市場，憑借其硅芯片設(shè)計專業(yè)、自研高速互連和網(wǎng)絡(luò)技術(shù)及CUDA，形成了一套生態(tài)內(nèi)的閉環(huán)。

在InfiniBand目前仍是AI高性能網(wǎng)絡(luò)標(biāo)桿的背景下，中國公司面臨的問題是，這條路線的核心供應(yīng)被一家美國公司壟斷。

在商業(yè)策略上，ScaleFabric試圖在英偉達(dá)的技術(shù)理念與國產(chǎn)自主可控之間找到平衡點。

但技術(shù)指標(biāo)上的接近，與產(chǎn)業(yè)生態(tài)的成熟之間，仍隔著一段不短的路程。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文，侵權(quán)必究。

歷史搜索全部刪除

熱門搜索

自研高速網(wǎng)絡(luò)會成為算力集群的下一戰(zhàn)場嗎？

中科曙光

評論

自研高速網(wǎng)絡(luò)會成為算力集群的下一戰(zhàn)場嗎？

自研高速網(wǎng)絡(luò)會成為算力集群的下一戰(zhàn)場嗎？

中科曙光

評論

自研高速網(wǎng)絡(luò)會成為算力集群的下一戰(zhàn)場嗎？

自研高速網(wǎng)絡(luò)會成為算力集群的下一戰(zhàn)場嗎？

自研高速網(wǎng)絡(luò)會成為算力集群的下一戰(zhàn)場嗎？