四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

正在閱讀:

DeepSeek“開源周”收官,連續(xù)五天到底都發(fā)布了什么?

掃一掃下載界面新聞APP

DeepSeek“開源周”收官,連續(xù)五天到底都發(fā)布了什么?

全球開發(fā)者可基于這些開源項目進行二次開發(fā)與改進。

圖片來源:視覺中國

界面新聞記者 | 宋佳楠

2月28日,國內AI明星公司DeepSeek為期五天的 “開源周” 告一段落。其于2月24日正式啟動,計劃開源5個代碼庫,旨在以完全透明的方式與全球開發(fā)者社區(qū)分享其在通用人工智能(AGI)領域的研究進展。

回顧這五日,其最先開源的是FlashMLA,這是專為英偉達Hopper GPU優(yōu)化的高效MLA解碼內核,專為處理可變長度序列設計。

在自然語言處理等任務里,數(shù)據(jù)序列長度不一,傳統(tǒng)處理方式會造成算力浪費。而FlashMLA如同智能交通調度員,能依據(jù)序列長度動態(tài)調配計算資源。例如在同時處理長文本和短文本時,它可以精準地為不同長度的文本分配恰當?shù)乃懔Γ苊?“大馬拉小車” 或資源不足的情況。發(fā)布6小時內,GitHub上收藏量突破5000次,被認為對國產GPU性能提升意義重大。

第二日開源的是DeepEP。DeepEP是首個用于MoE(混合專家模型)訓練和推理的開源EP通信庫。MoE模型訓練和推理中,不同專家模型需高效協(xié)作,這對通信效率要求極高。DeepEP支持優(yōu)化的全對全通信模式,就像構建了一條順暢的高速公路,讓數(shù)據(jù)在各個節(jié)點間高效傳輸。

它還原生支持FP8低精度運算調度,降低計算資源消耗,并且在節(jié)點內和節(jié)點間都支持NVLink和RDMA,擁有用于訓練和推理預填充的高吞吐量內核以及用于推理解碼的低延遲內核。簡單來說,它讓MoE模型各部分間溝通更快、消耗更少,提升了整體運行效率 。

第三日是DeepGEMM,矩陣乘法加速庫,為V3/R1的訓練和推理提供支持。通用矩陣乘法是眾多高性能計算任務的核心,其性能優(yōu)化是大模型降本增效的關鍵。DeepGEMM采用了DeepSeek-V3中提出的細粒度scaling技術,僅用300行代碼就實現(xiàn)了簡潔高效的FP8通用矩陣乘法。

它支持普通GEMM以及專家混合(MoE)分組GEMM,在Hopper GPU上最高可達到1350+ FP8 TFLOPS(每秒萬億次浮點運算)的計算性能,在各種矩陣形狀上的性能與專家調優(yōu)的庫相當,甚至在某些情況下更優(yōu),且安裝時無需編譯,通過輕量級JIT模塊在運行時編譯所有內核。

第四日開源優(yōu)化并行策略(DualPipe和EPLB)。DualPipe是一種用于V3/R1訓練中計算與通信重疊的雙向管道并行算法。以往的管道并行存在 “氣泡” 問題,即計算和通信階段存在等待時間,造成資源浪費。DualPipe通過實現(xiàn) “向前” 與 “向后” 計算通信階段的雙向重疊,將硬件資源利用率提升超30%。

EPLB則是一種針對V3/R1的專家并行負載均衡器?;诨旌蠈<遥∕oE)架構,它通過冗余專家策略復制高負載專家,并結合啟發(fā)式分配算法優(yōu)化GPU間的負載分布,減少GPU閑置現(xiàn)象。

在第五日,DeepSeep開源了面向全數(shù)據(jù)訪問的推進器3FS,也就是Fire-Flyer文件系統(tǒng)。它是一個專門為了充分利用現(xiàn)代SSD和RDMA網絡帶寬而設計的并行文件系統(tǒng),能實現(xiàn)高速數(shù)據(jù)訪問,提升AI模型訓練和推理的效率。

此外,DeepSeek還開源了基于3FS的數(shù)據(jù)處理框架Smallpond,它可以進一步優(yōu)化3FS的數(shù)據(jù)管理能力,讓數(shù)據(jù)處理更加方便、快捷。

全球開發(fā)者可基于上述開源項目進行二次開發(fā)與改進,有望推動AI技術在更多領域的應用。

未經正式授權嚴禁轉載本文,侵權必究。

寶潔

3.6k
  • 寶潔2026財年第一季度凈銷售額224億美元,同比增長3%
  • 合百集團:連鎖及批發(fā)分銷機構遍布安徽14個地市及江蘇淮安、宿遷、南通3市

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

DeepSeek“開源周”收官,連續(xù)五天到底都發(fā)布了什么?

全球開發(fā)者可基于這些開源項目進行二次開發(fā)與改進。

圖片來源:視覺中國

界面新聞記者 | 宋佳楠

2月28日,國內AI明星公司DeepSeek為期五天的 “開源周” 告一段落。其于2月24日正式啟動,計劃開源5個代碼庫,旨在以完全透明的方式與全球開發(fā)者社區(qū)分享其在通用人工智能(AGI)領域的研究進展。

回顧這五日,其最先開源的是FlashMLA,這是專為英偉達Hopper GPU優(yōu)化的高效MLA解碼內核,專為處理可變長度序列設計。

在自然語言處理等任務里,數(shù)據(jù)序列長度不一,傳統(tǒng)處理方式會造成算力浪費。而FlashMLA如同智能交通調度員,能依據(jù)序列長度動態(tài)調配計算資源。例如在同時處理長文本和短文本時,它可以精準地為不同長度的文本分配恰當?shù)乃懔?,避?“大馬拉小車” 或資源不足的情況。發(fā)布6小時內,GitHub上收藏量突破5000次,被認為對國產GPU性能提升意義重大。

第二日開源的是DeepEP。DeepEP是首個用于MoE(混合專家模型)訓練和推理的開源EP通信庫。MoE模型訓練和推理中,不同專家模型需高效協(xié)作,這對通信效率要求極高。DeepEP支持優(yōu)化的全對全通信模式,就像構建了一條順暢的高速公路,讓數(shù)據(jù)在各個節(jié)點間高效傳輸。

它還原生支持FP8低精度運算調度,降低計算資源消耗,并且在節(jié)點內和節(jié)點間都支持NVLink和RDMA,擁有用于訓練和推理預填充的高吞吐量內核以及用于推理解碼的低延遲內核。簡單來說,它讓MoE模型各部分間溝通更快、消耗更少,提升了整體運行效率 。

第三日是DeepGEMM,矩陣乘法加速庫,為V3/R1的訓練和推理提供支持。通用矩陣乘法是眾多高性能計算任務的核心,其性能優(yōu)化是大模型降本增效的關鍵。DeepGEMM采用了DeepSeek-V3中提出的細粒度scaling技術,僅用300行代碼就實現(xiàn)了簡潔高效的FP8通用矩陣乘法。

它支持普通GEMM以及專家混合(MoE)分組GEMM,在Hopper GPU上最高可達到1350+ FP8 TFLOPS(每秒萬億次浮點運算)的計算性能,在各種矩陣形狀上的性能與專家調優(yōu)的庫相當,甚至在某些情況下更優(yōu),且安裝時無需編譯,通過輕量級JIT模塊在運行時編譯所有內核。

第四日開源優(yōu)化并行策略(DualPipe和EPLB)。DualPipe是一種用于V3/R1訓練中計算與通信重疊的雙向管道并行算法。以往的管道并行存在 “氣泡” 問題,即計算和通信階段存在等待時間,造成資源浪費。DualPipe通過實現(xiàn) “向前” 與 “向后” 計算通信階段的雙向重疊,將硬件資源利用率提升超30%。

EPLB則是一種針對V3/R1的專家并行負載均衡器?;诨旌蠈<遥∕oE)架構,它通過冗余專家策略復制高負載專家,并結合啟發(fā)式分配算法優(yōu)化GPU間的負載分布,減少GPU閑置現(xiàn)象。

在第五日,DeepSeep開源了面向全數(shù)據(jù)訪問的推進器3FS,也就是Fire-Flyer文件系統(tǒng)。它是一個專門為了充分利用現(xiàn)代SSD和RDMA網絡帶寬而設計的并行文件系統(tǒng),能實現(xiàn)高速數(shù)據(jù)訪問,提升AI模型訓練和推理的效率。

此外,DeepSeek還開源了基于3FS的數(shù)據(jù)處理框架Smallpond,它可以進一步優(yōu)化3FS的數(shù)據(jù)管理能力,讓數(shù)據(jù)處理更加方便、快捷。

全球開發(fā)者可基于上述開源項目進行二次開發(fā)與改進,有望推動AI技術在更多領域的應用。

未經正式授權嚴禁轉載本文,侵權必究。