掃一掃下載界面新聞APP

梁文鋒搭“箭”，黃仁勛難安

“箭”已上弦，但遲遲未發(fā)。

盒飯財(cái)經(jīng) ·

文 | 盒飯財(cái)經(jīng) 徹諾

不發(fā)一言，全網(wǎng)卻在時(shí)刻盯梢。

3月29日晚至30日上午，DeepSeek經(jīng)歷了一場(chǎng)大規(guī)模服務(wù)中斷。據(jù)環(huán)球時(shí)報(bào)，29日22時(shí)開始，網(wǎng)頁(yè)端與App全面卡頓，頻繁彈出“服務(wù)器繁忙”提示，相關(guān)功能無(wú)法正常使用。至30日清晨，仍有用戶反饋無(wú)法正常使用。

而后，“DeepSeek崩了”相關(guān)話題迅速?zèng)_上百度、微博、今日頭條等多個(gè)平臺(tái)的熱搜榜前十。海外科技圈也在關(guān)注，除了媒體報(bào)道，更有不少專業(yè)用戶進(jìn)行實(shí)測(cè)，對(duì)比前后同一任務(wù)的執(zhí)行結(jié)果。

對(duì)比外界的高度關(guān)注和推測(cè)，DeepSeek官方?jīng)]有進(jìn)度通報(bào)，也沒(méi)有解釋原因。3月30日上午，官網(wǎng)發(fā)布公告：【已解決】DeepSeek網(wǎng)頁(yè)/APP性能異常，服務(wù)狀態(tài)顯示“正常”。

3月中上旬，更是因?yàn)?OpenRouter上出現(xiàn)的一款名為Hunter Alpha神秘模型，而引發(fā)了猜測(cè)。當(dāng)時(shí)，不少開發(fā)者認(rèn)為這可能是V4的隱身測(cè)試版。后來(lái)，證明該神秘模型并非V4，是小米旗艦?zāi)Ｐ蚆iMo-V2-Pro的內(nèi)部測(cè)試版本。而DeepSeek對(duì)該推測(cè)并未發(fā)聲。

一動(dòng)一靜，微妙的張力來(lái)自梁文鋒：“箭”已上弦，但遲遲未發(fā)。

2024年年底V3，隨后的2025年年初R1發(fā)布，DeepSeek瞬間比肩OpenAI等巨頭，登頂中美等國(guó)App Store榜首。產(chǎn)品技術(shù)之外，因極低的算力成本，引發(fā)美股半導(dǎo)體板塊劇烈震蕩?，F(xiàn)如今，行業(yè)正屏息以待梁文鋒的下一個(gè)大招——DeepSeek V4。然而，原本業(yè)內(nèi)預(yù)期在今年一季度就會(huì)亮相的 V4，卻一再推遲。

2月、春節(jié)前后、3月初、最早4月，外界對(duì)DeepSeek V4發(fā)布的時(shí)間猜測(cè)一路后移。除此，V4的定位、架構(gòu)、性能、上下文窗口、定價(jià)、供應(yīng)鏈等情況也在高度關(guān)注中，傳聞不斷。

其中，一條供應(yīng)鏈相關(guān)的報(bào)道，更是在技術(shù)之外引發(fā)了各種猜想。據(jù)路透社報(bào)道，兩位了解情況的消息人士表示，DeepSeek在即將進(jìn)行重大模型更新之前，未向美國(guó)芯片制造商展示其即將推出的旗艦?zāi)Ｐ停@打破了行業(yè)標(biāo)準(zhǔn)做法。

短短幾行字，透露的是一個(gè)“釜底抽薪”的鏈路。

英偉達(dá)能撐起這萬(wàn)億市值，靠的不僅僅是GPU硬件本身，還有其打磨了十幾年的CUDA軟件生態(tài)。CUDA就像是給全球AI開發(fā)者鋪好的一條路，沿著走總能“大力出奇跡”。但如真和上述報(bào)道透露的一樣，DeepSeek要做的便是鋪好了一條“繞過(guò)CUDA”的高速公路。

而更戲劇性的是，從2025年12月至今DeepSeek相關(guān)方面陸續(xù)發(fā)布的論文和開源項(xiàng)目來(lái)看，這些推測(cè)并非空穴來(lái)風(fēng)。

一、拿著放大鏡找變化

當(dāng)?shù)貢r(shí)間3月29日傍晚，X平臺(tái)上，名為“AiBattle”的用戶發(fā)了一條推文。

The DeepSeek model that they serve on the WEB/APP may have been updated again

The model does seem to consistently identify itself as V3 now

The zero-shot coding outputs I’m getting now also seem different in style from the ones I got a few days ago

It needs more testing to be completely sure

翻譯過(guò)來(lái)，大概的意思就是：網(wǎng)頁(yè)和APP端上，DeepSeek模型可能已經(jīng)再次更新。現(xiàn)在，這個(gè)模型似乎始終將其自身標(biāo)識(shí)為V3版本。做了一些測(cè)試，發(fā)現(xiàn)零提示能力大漲，輸出的風(fēng)格和幾天前不太一樣。但還需要進(jìn)行更多測(cè)試才能完全確定結(jié)論。

配圖則是兩張鵜鶘騎自行車的前后對(duì)比圖。

通過(guò)這張對(duì)比圖，明顯能看到其空間與圖形代碼能力大幅提升。在畫面構(gòu)圖、色彩搭配以及元素邏輯上，肉眼可見(jiàn)地碾壓一周前的版本。截至3月31日18:47，該條推文累計(jì)獲得162.8K個(gè)Views。

用SVG（可縮放矢量圖形）畫一只騎自行車的鵜鶘，常被視為大模型空間與渲染能力“試金石”的極限測(cè)試題。

這道測(cè)試題，來(lái)自全球知名的開源開發(fā)者、Django框架聯(lián)合創(chuàng)始人Simon Willison。他認(rèn)為現(xiàn)在大模型刷榜的數(shù)據(jù)水分太大，而SVG本質(zhì)上是由無(wú)數(shù)的坐標(biāo)、曲線公式和顏色代碼組成的純代碼。讓一個(gè)沒(méi)有真手真眼的“純文本 AI”用代碼去精確描繪“一只鵜鶘”的生物特征和“一輛自行車”機(jī)械結(jié)構(gòu)，能直接暴露出大模型的空間想象能力和代碼邏輯能力。

一天后，該用戶補(bǔ)充發(fā)布了“更多測(cè)試”的結(jié)果。

“AiBattle”表示，在7小時(shí)的宕機(jī)之后，DeepSeek可能再次對(duì)模型進(jìn)行了修改。在停機(jī)之前，該模型自稱為V3版本?，F(xiàn)在它又變回自稱“最新版本”。SVG的質(zhì)量似乎也變得更差，回到了以前的狀態(tài)。

如“AiBattle”這樣的開發(fā)者并不是少數(shù)。AI圈如同被DeepSeek“斷更”，他們拿著放大鏡，試圖找到蛛絲馬跡，以證明V4已在弦上。

例如，他們發(fā)現(xiàn)知識(shí)庫(kù)截止日期可能悄悄延后了。有用戶發(fā)現(xiàn)，DeepSeek不開啟聯(lián)網(wǎng)搜索的前提下，知道2025年美國(guó)選舉結(jié)果，但對(duì)2026年2月的大事則一無(wú)所知，這使得外界推測(cè)新版本的知識(shí)截止日期可能是2026年1月。

例如，上下文token方面。2月11日，DeepSeek悄悄把現(xiàn)有模型的上下文窗口從128K擴(kuò)到1M tokens，并將知識(shí)截止更新到2025年5月。社區(qū)很多人把這理解為V4相關(guān)基礎(chǔ)設(shè)施正在上線前測(cè)試。

底層技術(shù)論文，往往是新一代大模型的預(yù)告片和說(shuō)明書。

對(duì)比外界的推測(cè)和社區(qū)的測(cè)試，更確定的是自2025年年底以來(lái)，DeepSeek發(fā)布的論文和開源的項(xiàng)目。

2025年12月31日，梁文鋒上傳發(fā)布了一篇名為《mHC: Manifold-Constrained Hyper-Connections》的論文。

這篇文章解決了傳統(tǒng)Hyper-Connections在大規(guī)模訓(xùn)練中信號(hào)指數(shù)放大（最高可達(dá)3000×）導(dǎo)致的訓(xùn)練崩潰問(wèn)題，以及通過(guò)將HC的殘差空間投影到特定流形，恢復(fù)恒等映射（identity mapping）屬性，保證信息守恒。

論文中，梁文鋒的名字出現(xiàn)在作者一欄中。

2026年1月，DeepSeek在GitHub上發(fā)布了一項(xiàng)名為“Engram”的研究成果，并同步上傳了名為《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models（基于可擴(kuò)展查找的條件記憶：大語(yǔ)言模型稀疏性的新維度）》的論文。

這一研究成果，被業(yè)內(nèi)稱為“用哈希表替代大模型死記硬背”的神器。

2月26日，DeepSeek聯(lián)合北京大學(xué)、清華大學(xué)發(fā)布了最新推理架構(gòu)論文。論文標(biāo)題為《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》，解決的是Agent長(zhǎng)文本吞吐瓶頸的框架問(wèn)題。

這或許是梁文鋒準(zhǔn)備的三支利箭。

二、有的放矢，想要榨干硬件的每一滴性能

如今的大模型軍備競(jìng)賽中，頂級(jí)AI公司發(fā)布底層技術(shù)論文，早就不是傳統(tǒng)意義上的“秀肌肉”了。

這三支箭，自然也是有的放矢。

mHC、Engram、DualPath這三項(xiàng)技術(shù)，表面上看分別屬于算法數(shù)學(xué)、模型架構(gòu)和系統(tǒng)工程三個(gè)截然不同的領(lǐng)域，但如果把它們拼在一起，會(huì)發(fā)現(xiàn)它們不是孤立的學(xué)術(shù)論文。

先看，mHC（Manifold-Constrained Hyper-Connections）。類似一個(gè)穩(wěn)定的骨架，解決“練得出來(lái)”的問(wèn)題。

當(dāng)模型參數(shù)飆升到幾千億甚至萬(wàn)億時(shí)，傳統(tǒng)的殘差連接會(huì)成為信息流通的“窄門”，但隨意增加跨層連接又會(huì)導(dǎo)致訓(xùn)練崩潰。mHC通過(guò)將這些連接約束在特定的數(shù)學(xué)流形（雙隨機(jī)矩陣）上，保證了超大模型在極深、極寬的架構(gòu)下依然能穩(wěn)定訓(xùn)練。

怎么直白的理解？

這種新型的連接結(jié)構(gòu)，就相當(dāng)于花一點(diǎn)點(diǎn)小錢，換來(lái)團(tuán)隊(duì)高效率。就好像，在AI內(nèi)部稍微調(diào)整了一下“部門間的溝通機(jī)制”，雖然增加了6-7%的溝通成本，但讓整個(gè)模型在學(xué)習(xí)時(shí)再也不會(huì)出現(xiàn)“配合混亂”的問(wèn)題，變得更穩(wěn)定、更聰明。

而Engram（條件記憶模塊），就像是外掛的硬盤，解決“記得住且夠聰明”的問(wèn)題。

基于mHC搭好的超大模型骨架，Engram開始對(duì)“大腦”進(jìn)行分區(qū)。過(guò)去的大模型把所有知識(shí)都死記硬背在昂貴的神經(jīng)網(wǎng)絡(luò)權(quán)重里，導(dǎo)致“推理計(jì)算”和“記憶”搶占資源。Engram 引入了全新的稀疏性，把靜態(tài)知識(shí)打包成哈希表卸載到廉價(jià)的CPU內(nèi)存里，通過(guò)O(1) 極速查找，從而把極其寶貴的GPU算力100%釋放出來(lái)，專門用于復(fù)雜的邏輯推理。

這種稀疏注意力，就相當(dāng)于讓大模型學(xué)會(huì)“一目十行”和“抓重點(diǎn)”的能力。原本讓AI讀一篇長(zhǎng)文，哪怕是廢話，也要逐字精讀。當(dāng)AI獲得“一目十行”這一buff后，看長(zhǎng)文的速度直接翻倍，計(jì)算壓力大大減輕。

更直白的理解，這種知識(shí)存儲(chǔ)，類似于把死記硬背變成了查字典。以前AI為了記住某本書是誰(shuí)寫的、某國(guó)首都是哪這樣的固定知識(shí)，需要消耗大腦大量的算力去硬記?，F(xiàn)在DeepSeek的做法是，把這些“死知識(shí)”拎出來(lái)單獨(dú)做成了一本“字典”。AI 遇到這種問(wèn)題直接去“翻字典”，不用再耗費(fèi)腦力，把算力全省下來(lái)用在“邏輯推理”和“思考”。

DualPath（雙路徑推理框架），則是高效的物流系統(tǒng)，解決“用得起、跑得快”的問(wèn)題。

模型練好了，大腦也變聰明了，當(dāng)它作為Agent去處理幾十萬(wàn)字的長(zhǎng)文本和多輪代碼任務(wù)時(shí)，會(huì)產(chǎn)生海量的上下文緩存（KV-Cache）。這時(shí)候計(jì)算不再是瓶頸，“讀取硬盤數(shù)據(jù)到顯卡”的 I/O 帶寬成了瓶頸。DualPath巧妙地調(diào)用了集群中原本閑置的解碼節(jié)點(diǎn)（Decode）的網(wǎng)卡，去幫預(yù)填充節(jié)點(diǎn)（Prefill）搬運(yùn)數(shù)據(jù)，讓端到端的吞吐量暴增近2倍。

簡(jiǎn)單的理解，就是AI在處理超長(zhǎng)任務(wù)時(shí)，其實(shí)不是“腦子”不夠用，而是“手腳”搬運(yùn)數(shù)據(jù)的速度太慢拖了后腿。DualPath這項(xiàng)技術(shù)就像一個(gè)聰明的車間主任，把別處閑置的“運(yùn)輸車”調(diào)過(guò)來(lái)幫忙搬數(shù)據(jù)，直接讓整體工作效率翻了一倍。

理論上來(lái)看，mHC，刺向了“CUDA 生態(tài)墻”，證明了非英偉達(dá)的底層硬件加上極致的數(shù)學(xué)通信優(yōu)化，依然能跑通萬(wàn)億參數(shù)大模型；Engram，刺向了“顯存焦慮”，把死知識(shí)踢出GPU，大幅降低推理的硬件門檻；DualPath，針對(duì)的則是“Agent 吞吐瓶頸”，大幅提升大模型的并發(fā)處理能力。

這三項(xiàng)技術(shù)看似解決不同問(wèn)題，但背后的技術(shù)信仰完全一致：不迷信算力堆砌，通過(guò)極致的解耦，榨干硬件的每一滴性能。

但，這與硅谷所信奉的Scaling Law（規(guī)模法則）并不一致。Scaling Law的核心就是“大力出奇跡”，更多更先進(jìn)的芯片，燒出更聰明的大模型。

這一路徑下，大模型越做越大，對(duì)算力的需求便是無(wú)底洞。這也是黃仁勛掛在嘴邊的“The more you buy，The more you save（買得越多，省得越多）”，讓人信奉的底層邏輯。

三、“算力溢價(jià)”的定價(jià)權(quán)是否會(huì)轉(zhuǎn)移

2025年GTC大會(huì)上，黃仁勛將他那句“買得越多，省得越多”，升級(jí)為了“The more you buy, the more you make（?買得越多，賺得越多）?”。

這句話的精妙之處，在于直接用超市打折區(qū)的標(biāo)語(yǔ)，消解企業(yè)花幾十億美金采購(gòu)顯卡的財(cái)務(wù)焦慮。在這套邏輯下，高昂的資本支出不知不覺(jué)成了極具性價(jià)比的投資。

但，如果奇跡不一定非要大力呢？

如果mHC、Engram、DualPath這三大底層技術(shù)真的能在商業(yè)中規(guī)模化貫通，這就意味著DeepSeek找到了一條新路，一條跳出“花錢買算力、漲參數(shù)、再買算力”循環(huán)的新路。甚至，哪怕V4遲遲未發(fā)布，但在想象中植入了一個(gè)念頭：過(guò)去堆算力的暴力美學(xué)路徑并不是唯一選擇，還可以拼算法、拼工程、拼數(shù)學(xué)。

當(dāng)?shù)貢r(shí)間2月25日，路透社經(jīng)合作媒體轉(zhuǎn)載的報(bào)道指出，DeepSeek似乎已將其即將推出的旗艦?zāi)Ｐ吞崆敖o包括華為在內(nèi)的中國(guó)芯片供應(yīng)商做適配，但沒(méi)有同樣給英偉達(dá)或AMD預(yù)覽。

從行業(yè)慣例來(lái)看，過(guò)去幾年，全球大部分大模型在發(fā)布前，通常會(huì)和英偉達(dá)、AMD等芯片制造商共享主要模型的預(yù)發(fā)布版本，以確保其軟件在廣泛使用的硬件上高效運(yùn)行。

底層技術(shù)論文在先，不確定的不利消息在后，心癢要撓未撓，利箭將射未射。

對(duì)于英偉達(dá)這樣體量的企業(yè)而言，自然并不擔(dān)心少賣了幾張卡。但，如果是開辟的路線被繞開呢？那關(guān)乎的是“算力溢價(jià)”的定價(jià)權(quán)是否會(huì)轉(zhuǎn)移？如果DeepSeek V4真的把多模態(tài)和Agent的成本打到極低，甚至讓手機(jī)或PC端側(cè)推理成為主流，那么硅谷奉為圭臬的“云端算力霸權(quán)”就會(huì)動(dòng)搖。

當(dāng)然，V4一天未發(fā)，以上這些都只是建立在“如果”之上的推測(cè)。

商業(yè)世界的殘酷在于，有想法有野心，并不意味著立刻就能鋪平新道。V4一直未發(fā)布，或許也有這類原因存在。

但，DeepSeek 的核心邏輯始終清晰：用算法效率彌補(bǔ)硬件劣勢(shì)，用開源策略強(qiáng)化商業(yè)模式，用效率革命挑戰(zhàn)算力暴力。一旦V4正式落地，市場(chǎng)震蕩將再次不可避免——問(wèn)題不是“會(huì)不會(huì)”，而是“何時(shí)”。

參考資料：

1.《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》，https://arxiv.org/abs/2602.21548

2.《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》，https://github.com/deepseek-ai/Engram

3.《mHC: Manifold-Constrained Hyper-Connections》，https://arxiv.org/abs/2512.24880

4.《DeepSeek to launch new AI model focused on coding in February, The Information reports》，Reuters

5.《DeepSeek V4 什么時(shí)候發(fā)布？2026 最新消息、規(guī)格與值得關(guān)注的重點(diǎn)》，Jessie，

https://evolink.ai/zh/blog/deepseek-v4-release-window-prep

6.《DeepSeek宕機(jī)8小時(shí)后升級(jí)？新模型能力大增引熱議》，第一電動(dòng)網(wǎng)

7.《消息稱DeepSeek V4模型讓華為等早期訪問(wèn)，不讓英偉達(dá)AMD先用》，IT之家

8.《DeepSeek V4 Is Coming This Month. Why It Could Rattle the Markets, Again.》

9.《Exclusive-DeepSeek withholds latest AI model from US chipmakers including Nvidia, sources say》，Reuters

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

算力大模型

評(píng)論

暫無(wú)評(píng)論哦，快來(lái)評(píng)價(jià)一下吧！

下載界面新聞

微信公眾號(hào)

微博