DeepSeek“開(kāi)源周”收官，連續(xù)五天到底都發(fā)布了什么？

全球開(kāi)發(fā)者可基于這些開(kāi)源項(xiàng)目進(jìn)行二次開(kāi)發(fā)與改進(jìn)。

宋佳楠 · 來(lái)源：界面新聞

DeepSeek“開(kāi)源周”收官，連續(xù)五天到底都發(fā)布了什么？

圖片來(lái)源：視覺(jué)中國(guó)

界面新聞?dòng)浾?| 宋佳楠

2月28日，國(guó)內(nèi)AI明星公司DeepSeek為期五天的 “開(kāi)源周” 告一段落。其于2月24日正式啟動(dòng)，計(jì)劃開(kāi)源5個(gè)代碼庫(kù)，旨在以完全透明的方式與全球開(kāi)發(fā)者社區(qū)分享其在通用人工智能（AGI）領(lǐng)域的研究進(jìn)展。

回顧這五日，其最先開(kāi)源的是FlashMLA，這是專為英偉達(dá)Hopper GPU優(yōu)化的高效MLA解碼內(nèi)核，專為處理可變長(zhǎng)度序列設(shè)計(jì)。

在自然語(yǔ)言處理等任務(wù)里，數(shù)據(jù)序列長(zhǎng)度不一，傳統(tǒng)處理方式會(huì)造成算力浪費(fèi)。而FlashMLA如同智能交通調(diào)度員，能依據(jù)序列長(zhǎng)度動(dòng)態(tài)調(diào)配計(jì)算資源。例如在同時(shí)處理長(zhǎng)文本和短文本時(shí)，它可以精準(zhǔn)地為不同長(zhǎng)度的文本分配恰當(dāng)?shù)乃懔Γ苊?“大馬拉小車” 或資源不足的情況。發(fā)布6小時(shí)內(nèi)，GitHub上收藏量突破5000次，被認(rèn)為對(duì)國(guó)產(chǎn)GPU性能提升意義重大。

第二日開(kāi)源的是DeepEP。DeepEP是首個(gè)用于MoE（混合專家模型）訓(xùn)練和推理的開(kāi)源EP通信庫(kù)。MoE模型訓(xùn)練和推理中，不同專家模型需高效協(xié)作，這對(duì)通信效率要求極高。DeepEP支持優(yōu)化的全對(duì)全通信模式，就像構(gòu)建了一條順暢的高速公路，讓數(shù)據(jù)在各個(gè)節(jié)點(diǎn)間高效傳輸。

它還原生支持FP8低精度運(yùn)算調(diào)度，降低計(jì)算資源消耗，并且在節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間都支持NVLink和RDMA，擁有用于訓(xùn)練和推理預(yù)填充的高吞吐量?jī)?nèi)核以及用于推理解碼的低延遲內(nèi)核。簡(jiǎn)單來(lái)說(shuō)，它讓MoE模型各部分間溝通更快、消耗更少，提升了整體運(yùn)行效率。

第三日是DeepGEMM，矩陣乘法加速庫(kù)，為V3/R1的訓(xùn)練和推理提供支持。通用矩陣乘法是眾多高性能計(jì)算任務(wù)的核心，其性能優(yōu)化是大模型降本增效的關(guān)鍵。DeepGEMM采用了DeepSeek-V3中提出的細(xì)粒度scaling技術(shù)，僅用300行代碼就實(shí)現(xiàn)了簡(jiǎn)潔高效的FP8通用矩陣乘法。

它支持普通GEMM以及專家混合（MoE）分組GEMM，在Hopper GPU上最高可達(dá)到1350+ FP8 TFLOPS（每秒萬(wàn)億次浮點(diǎn)運(yùn)算）的計(jì)算性能，在各種矩陣形狀上的性能與專家調(diào)優(yōu)的庫(kù)相當(dāng)，甚至在某些情況下更優(yōu)，且安裝時(shí)無(wú)需編譯，通過(guò)輕量級(jí)JIT模塊在運(yùn)行時(shí)編譯所有內(nèi)核。

第四日開(kāi)源優(yōu)化并行策略（DualPipe和EPLB）。DualPipe是一種用于V3/R1訓(xùn)練中計(jì)算與通信重疊的雙向管道并行算法。以往的管道并行存在 “氣泡” 問(wèn)題，即計(jì)算和通信階段存在等待時(shí)間，造成資源浪費(fèi)。DualPipe通過(guò)實(shí)現(xiàn) “向前” 與 “向后” 計(jì)算通信階段的雙向重疊，將硬件資源利用率提升超30%。

EPLB則是一種針對(duì)V3/R1的專家并行負(fù)載均衡器。基于混合專家（MoE）架構(gòu)，它通過(guò)冗余專家策略復(fù)制高負(fù)載專家，并結(jié)合啟發(fā)式分配算法優(yōu)化GPU間的負(fù)載分布，減少GPU閑置現(xiàn)象。

在第五日，DeepSeep開(kāi)源了面向全數(shù)據(jù)訪問(wèn)的推進(jìn)器3FS，也就是Fire-Flyer文件系統(tǒng)。它是一個(gè)專門為了充分利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)帶寬而設(shè)計(jì)的并行文件系統(tǒng)，能實(shí)現(xiàn)高速數(shù)據(jù)訪問(wèn)，提升AI模型訓(xùn)練和推理的效率。

此外，DeepSeek還開(kāi)源了基于3FS的數(shù)據(jù)處理框架Smallpond，它可以進(jìn)一步優(yōu)化3FS的數(shù)據(jù)管理能力，讓數(shù)據(jù)處理更加方便、快捷。

全球開(kāi)發(fā)者可基于上述開(kāi)源項(xiàng)目進(jìn)行二次開(kāi)發(fā)與改進(jìn)，有望推動(dòng)AI技術(shù)在更多領(lǐng)域的應(yīng)用。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文，侵權(quán)必究。

寶潔

3.6k

語(yǔ)音AI創(chuàng)企Deepgram完成1.3億美元融資，估值13億美元1天前
天數(shù)智芯1月26日將發(fā)布未來(lái)三代GPGPU路線圖7天前

硬科技

評(píng)論

暫無(wú)評(píng)論哦，快來(lái)評(píng)價(jià)一下吧！

下載界面新聞

微信公眾號(hào)

微博

寶潔

DeepSeek“開(kāi)源周”收官，連續(xù)五天到底都發(fā)布了什么？

全球開(kāi)發(fā)者可基于這些開(kāi)源項(xiàng)目進(jìn)行二次開(kāi)發(fā)與改進(jìn)。

宋佳楠 · 2025/02/28 11:08來(lái)源：界面新聞

圖片來(lái)源：視覺(jué)中國(guó)

界面新聞?dòng)浾?| 宋佳楠

回顧這五日，其最先開(kāi)源的是FlashMLA，這是專為英偉達(dá)Hopper GPU優(yōu)化的高效MLA解碼內(nèi)核，專為處理可變長(zhǎng)度序列設(shè)計(jì)。

EPLB則是一種針對(duì)V3/R1的專家并行負(fù)載均衡器?；诨旌蠈＜遥∕oE）架構(gòu)，它通過(guò)冗余專家策略復(fù)制高負(fù)載專家，并結(jié)合啟發(fā)式分配算法優(yōu)化GPU間的負(fù)載分布，減少GPU閑置現(xiàn)象。

全球開(kāi)發(fā)者可基于上述開(kāi)源項(xiàng)目進(jìn)行二次開(kāi)發(fā)與改進(jìn)，有望推動(dòng)AI技術(shù)在更多領(lǐng)域的應(yīng)用。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文，侵權(quán)必究。

歷史搜索全部刪除

熱門搜索

DeepSeek“開(kāi)源周”收官，連續(xù)五天到底都發(fā)布了什么？

寶潔

評(píng)論

DeepSeek“開(kāi)源周”收官，連續(xù)五天到底都發(fā)布了什么？

DeepSeek“開(kāi)源周”收官，連續(xù)五天到底都發(fā)布了什么？

寶潔

評(píng)論

DeepSeek“開(kāi)源周”收官，連續(xù)五天到底都發(fā)布了什么？

DeepSeek“開(kāi)源周”收官，連續(xù)五天到底都發(fā)布了什么？

DeepSeek“開(kāi)源周”收官，連續(xù)五天到底都發(fā)布了什么？