界面新聞記者 | 徐美慧
界面新聞編輯 | 文姝琪
12月20日至21日,摩爾線程首屆MUSA開發(fā)者大會(MDC 2025)在北京開幕。這是其上市后的首次公開亮相。摩爾線程創(chuàng)始人、董事長兼CEO張建中把從架構(gòu)到集群的全棧技術(shù)等“全家桶”擺到臺前,集中發(fā)布了一系列以自主MUSA統(tǒng)一架構(gòu)為核心的全棧技術(shù)成果。
其中,最受關(guān)注的是摩爾線程新一代全功能GPU架構(gòu)“花港”。界面新聞記者了解到,花港支持FP4到FP64的全精度計算,算力密度提升50%,效能提升10倍,可支持十萬卡以上規(guī)模的智算集群。
在張建中給出的路線圖里,花港被定義為下一代全功能GPU架構(gòu)的底座。未來,摩爾線程將推出兩款基于該架構(gòu)的GPU芯片,包括高性能AI訓(xùn)推一體的“華山”芯片和專攻高性能圖形渲染的“廬山”芯片。
同步發(fā)布的還有夸娥萬卡智算集群(KUAE2.0)。張建中披露了其在萬卡規(guī)模下的關(guān)鍵效率指標(biāo),包括訓(xùn)練算力利用率MFU在Dense大模型上達(dá)60%、在MoE大模型上達(dá)40%,有效訓(xùn)練時間占比超過90%,訓(xùn)練線性擴(kuò)展效率達(dá)到95%。
在推理側(cè),摩爾線程聯(lián)合硅基流動,基于MTT S5000運(yùn)行DeepSeek R1 671B全量模型,單卡Prefill吞吐突破4000 tokens每秒、Decode吞吐突破1000 tokens每秒。

此外,張建中還發(fā)布了面向下一代超大規(guī)模智算中心的MTT C256超節(jié)點(diǎn)架構(gòu)規(guī)劃,并提及在具身智能、科學(xué)智能(AI4S)、AI for 6G等領(lǐng)域的深度布局計劃。
更貼近開發(fā)者日常的變化,來自一臺算力筆記本。
摩爾線程這次還發(fā)布了一款面向開發(fā)者的AI算力筆記本MTT AIBOOK。該筆記本搭載摩爾線程自主研發(fā)的智能SoC芯片“長江”,提供50 TOPS異構(gòu)AI算力,支持混合精度計算,運(yùn)行基于Linux內(nèi)核的MT AIOS操作系統(tǒng),具備多系統(tǒng)兼容能力,預(yù)置完整AI開發(fā)環(huán)境與工具鏈。
界面新聞記者了解到,目前,這款筆記本已在京東開放預(yù)售,32GB、1TB的版本預(yù)售價為9999元。
一名摩爾線程研發(fā)人員向界面新聞記者表示,這款面向AI開發(fā)者的算力本,同時也是把端側(cè)產(chǎn)品化跑通的全鏈路驗證。
“如果新芯片出來,連自家都沒有從頭到尾驗證一遍,合作伙伴往往也會謹(jǐn)慎使用,我們用AIBOOK把硬件、驅(qū)動、軟件棧、工具鏈與系統(tǒng)打包到一臺設(shè)備里,讓合作伙伴看到‘證明是可以用的’,導(dǎo)入節(jié)奏也會更穩(wěn)?!毖邪l(fā)人員向界面新聞記者表示。
對摩爾線程這類的GPU廠商而言,開發(fā)者與個人市場的入口,往往也是更容易推進(jìn)生態(tài)擴(kuò)張的一條路。
硬件之外,軟件棧與開發(fā)者習(xí)慣往往決定生態(tài)擴(kuò)張速度。
英偉達(dá)將CUDA定義為并行計算平臺與編程模型,圍繞它形成了長期積累的工具鏈和開發(fā)者社區(qū)。公開信息顯示,截至去年6月,全球CUDA開發(fā)者規(guī)模約為500萬人。英偉達(dá)官網(wǎng)信息顯示,CUDA累計下載量已超過5300萬次。
與之對標(biāo),MUSA覆蓋從芯片架構(gòu)、指令集、編程模型到運(yùn)行庫與驅(qū)動框架的全棧體系,本次升級到5.0版本。
張建中給出了更具體指標(biāo),muDNN的GEMM與FlashAttention效率超過98%,通信效率達(dá)到97%,編譯器性能提升3倍,并計劃逐步開源計算加速庫、通信庫與系統(tǒng)管理框架等組件。
“生態(tài)體系是GPU行業(yè)的核心護(hù)城河與價值所在,依托MUSA架構(gòu)的優(yōu)勢,我們會持續(xù)加大研發(fā)投入,攻克從硬件到軟件的核心技術(shù)挑戰(zhàn),深化與生態(tài)伙伴的協(xié)同,共同構(gòu)建自立自強(qiáng)的國產(chǎn)計算產(chǎn)業(yè)生態(tài)?!睆埥ㄖ姓f。
實(shí)際上,摩爾線程這條全棧路線本質(zhì)上是用軟件生態(tài)去放大硬件競爭力。
TrendForce在2025年10月的分析中預(yù)計,全球AI服務(wù)器出貨量在2026年仍將保持兩位數(shù)增速,供給與生態(tài)繼續(xù)向頭部集中。IDC的相關(guān)信息也顯示,2025年上半年中國加速服務(wù)器市場規(guī)模約160億美元,并保持增長態(tài)勢。
隨著推理負(fù)載占比上升,算子、通信與編譯器的工程化能力開始與芯片峰值參數(shù)同等重要,這也是廠商把軟件棧與集群工程放到同一張路線圖上的原因。
在需求上行與供給約束并存的環(huán)境下,國產(chǎn)GPU公司更需要用可持續(xù)的軟件棧、規(guī)?;桓杜c工程能力進(jìn)入主流產(chǎn)業(yè)鏈。
此外,張建中還披露了目前摩爾學(xué)院的發(fā)展進(jìn)度,截至今年12月,其AI開發(fā)者社區(qū)與學(xué)習(xí)者規(guī)模接近20萬人,覆蓋200多所高校,并吸引超過10萬名學(xué)子參與,“我們希望聚集所有的能力能夠共同去打造國產(chǎn)GPU的生態(tài)。”
多位摩爾線程的合作伙伴在接受界面新聞記者采訪時都提到,接入生態(tài)的第一關(guān)仍是適配與工程細(xì)節(jié)。
一位合作伙伴向界面新聞記者表示,張建中在臺上談差距“很坦誠”,現(xiàn)實(shí)里大家最直接的體感是,與國際主流產(chǎn)品相比,國內(nèi)在性能與生態(tài)上大約還差“1到2代”。
其向界面新聞記者表示,實(shí)際的推理場景未必需要追到最頂配的配置,現(xiàn)階段“夠用”和“劃算”這兩點(diǎn)對不少客戶更重要。
另一位合作伙伴則在接受界面新聞記者采訪時表示,CUDA生態(tài)“幾十萬人用了很多年”,遷移到MUSA時,業(yè)務(wù)方最希望的是工具鏈更順、適配覆蓋更廣,但這類工作極其消耗人力,需要廠商持續(xù)投入。
無論是合作伙伴的現(xiàn)場反饋,還是張建中的公開表述,大家并不避諱公開談現(xiàn)實(shí)問題——與國際主流產(chǎn)品相比,國內(nèi)在性能、生態(tài)與工程積累上仍存在差距。
張建中表示,希望利用全功能GPU建立這樣的基礎(chǔ)設(shè)施,“為各行業(yè)的科研工作者和科技開發(fā)者,讓他們有條件做得更好?!?/p>
對摩爾線程而言,上市只是走到了國產(chǎn)GPU賽道的前列。接下來,如何把技術(shù)路線圖轉(zhuǎn)化為交付能力,并在生態(tài)構(gòu)建上直面國際巨頭與國內(nèi)日趨激烈的市場競爭,依然是一場硬仗。


