四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

正在閱讀:

從防范一?;覊m做起,上海批量布局AI發(fā)電廠

掃一掃下載界面新聞APP

從防范一?;覊m做起,上海批量布局AI發(fā)電廠

預(yù)計到2027年,上海算力規(guī)模將提升至20萬PFLOPS(每秒千萬億次浮點(diǎn)運(yùn)算)。

人工智能,上海,算力上海;AI發(fā)電廠;防范一?;覊m

圖片來源:界面圖庫

界面新聞記者 | 莊鍵

界面新聞編輯 | 謝靈寧

打開機(jī)房大門,映入你眼簾的將是房間內(nèi)整齊排列的算力服務(wù)器,同時出現(xiàn)的持續(xù)轟鳴聲,則來自于為降低服務(wù)器溫度而不間斷轉(zhuǎn)動的風(fēng)扇。

界面新聞近日實地探訪了坐擁國內(nèi)首批“萬卡集群”的上海松江智算中心。該項目由上海國企儀電集團(tuán)牽頭成立的上海智能算力科技有限公司(下稱智算科技)投資。

所謂“萬卡集群”,意指通過高速網(wǎng)絡(luò)與軟硬件系統(tǒng),將一萬張甚至數(shù)量更多的GPU(圖形處理器)連接,形成統(tǒng)一調(diào)度的計算中樞,可以將其視為人工智能領(lǐng)域的發(fā)電廠。國內(nèi)目前已建成42個“萬卡集群”,數(shù)量位居全球前列。

松江智算中心投用后,其算力就處于滿負(fù)荷使用狀態(tài),這背后是人工智能行業(yè)需求快速增長所導(dǎo)致的算力資源稀缺。國家數(shù)據(jù)局的統(tǒng)計稱,今年3月,國內(nèi)日均Token(詞元)調(diào)用量超過140萬億,相比2024年初增長了1000多倍。

上海已在籌劃擴(kuò)大算力基礎(chǔ)設(shè)施,明確將圍繞浦東、金山、松江、臨港和青浦等重點(diǎn)區(qū)域,積極部署智能算力、提升集群規(guī)模。

預(yù)計到2027年,上海算力規(guī)模將提升至20萬PFLOPS(每秒千萬億次浮點(diǎn)運(yùn)算)。根據(jù)今年1月披露的數(shù)據(jù),上海算力規(guī)模已突破12萬PFLOPS。

智算科技總經(jīng)理孫躍解釋稱,上海有諸多垂類人工智能應(yīng)用,需要就近布局算力資源,從而快速響應(yīng)這些任務(wù)的需求,達(dá)到降低網(wǎng)絡(luò)延時等效果。

上海也集聚了芯片、大模型等大量人工智能上下游企業(yè),在本地布局“萬卡集群”,有利于執(zhí)行技術(shù)攻關(guān)任務(wù)。

對于“萬卡集群”而言,算力卡無疑是其中的靈魂。在先進(jìn)算力卡被限制進(jìn)口的背景下,設(shè)備采購存在一定難度。但在孫躍看來,“建設(shè)‘萬卡集群’是一個龐大的系統(tǒng)工程,購買算力卡,在整件事情中可能不見得是最難的?!?/p>

智算中心需要高效的通訊網(wǎng)絡(luò)和相應(yīng)的存儲設(shè)備,才能讓算力卡以集群的形態(tài)高效運(yùn)轉(zhuǎn)。如果將一個“萬卡集群”拆解,零部件數(shù)量可達(dá)到數(shù)十萬個,種類超過百種。

在智算科技系統(tǒng)工程中心總監(jiān)胡寶群看來,“萬卡集群”建設(shè)過程中,一個容易忽略卻又極為關(guān)鍵的風(fēng)險點(diǎn),來自灰塵。他將其稱為“萬卡集群”建設(shè)的入門第一課。

在組成“萬卡集群”的百余種零部件中,光模塊是極為重要的一種。通常情況下,一個集群需要配備上萬個光模塊,但這種火柴盒大小的電子元器件對灰塵極度敏感。

胡寶群告訴界面新聞,光模塊只要接觸到非常小的灰塵,就會影響對應(yīng)算力卡的運(yùn)行,甚至讓整個“萬卡集群”無法穩(wěn)定工作。

因此,在松江智算中心建設(shè)和運(yùn)行過程中,智算科技的團(tuán)隊都在想方設(shè)法防范灰塵帶來的潛在影響。比如在光模塊安裝環(huán)節(jié),就規(guī)定其暴露在空氣中的時間必須控制在三秒以內(nèi)。

此外,松江智算中心所在四層建筑的樓道內(nèi),也專門安放了有粘性的地毯,用于吸附人走過時鞋底的污物,減少空氣中的灰塵來源。

松江智算中心,圖片來源:儀電集團(tuán)

搭建“萬卡集群”被認(rèn)為是一項復(fù)雜的系統(tǒng)工程,難度可與衛(wèi)星發(fā)射相比。“在發(fā)射衛(wèi)星過程中,任何一個零部件故障都會導(dǎo)致整個任務(wù)失敗,‘萬卡集群’也類似,對每個環(huán)節(jié)都有很高的可靠性要求?!睂O躍提及。

同樣高難度的,是讓“萬卡集群”能夠7*24小時不間斷地高效運(yùn)轉(zhuǎn),為用戶提供算力服務(wù)。

在人工智能模型訓(xùn)練過程中,智算中心的故障都可能導(dǎo)致整個任務(wù)中斷。在一套由數(shù)十萬個零部件組成的“萬卡集群”中,設(shè)備故障的發(fā)生幾乎無可避免。

但通過技術(shù)和架構(gòu)層面的冗余設(shè)計,松江項目的“萬卡集群”能夠?qū)崿F(xiàn)即使故障發(fā)生,也不影響模型訓(xùn)練任務(wù)的執(zhí)行,并且在數(shù)分鐘甚至數(shù)秒內(nèi)完成故障定位,便于下一步的故障排除。

在人工智能時代,算力被認(rèn)為會像水和電一樣,每個人都能極為方便地取用。“萬卡集群”的穩(wěn)定運(yùn)行,將是實現(xiàn)這項設(shè)想的關(guān)鍵一環(huán)。

智算科技系統(tǒng)平臺部負(fù)責(zé)人翟雨佳稱,“我們的目標(biāo)是讓‘萬卡集群’能夠像供水和供電那樣穩(wěn)定,讓用戶感受不到算力的存在?!?/p>

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

從防范一粒灰塵做起,上海批量布局AI發(fā)電廠

預(yù)計到2027年,上海算力規(guī)模將提升至20萬PFLOPS(每秒千萬億次浮點(diǎn)運(yùn)算)。

人工智能,上海,算力上海;AI發(fā)電廠;防范一?;覊m

圖片來源:界面圖庫

界面新聞記者 | 莊鍵

界面新聞編輯 | 謝靈寧

打開機(jī)房大門,映入你眼簾的將是房間內(nèi)整齊排列的算力服務(wù)器,同時出現(xiàn)的持續(xù)轟鳴聲,則來自于為降低服務(wù)器溫度而不間斷轉(zhuǎn)動的風(fēng)扇。

界面新聞近日實地探訪了坐擁國內(nèi)首批“萬卡集群”的上海松江智算中心。該項目由上海國企儀電集團(tuán)牽頭成立的上海智能算力科技有限公司(下稱智算科技)投資。

所謂“萬卡集群”,意指通過高速網(wǎng)絡(luò)與軟硬件系統(tǒng),將一萬張甚至數(shù)量更多的GPU(圖形處理器)連接,形成統(tǒng)一調(diào)度的計算中樞,可以將其視為人工智能領(lǐng)域的發(fā)電廠。國內(nèi)目前已建成42個“萬卡集群”,數(shù)量位居全球前列。

松江智算中心投用后,其算力就處于滿負(fù)荷使用狀態(tài),這背后是人工智能行業(yè)需求快速增長所導(dǎo)致的算力資源稀缺。國家數(shù)據(jù)局的統(tǒng)計稱,今年3月,國內(nèi)日均Token(詞元)調(diào)用量超過140萬億,相比2024年初增長了1000多倍。

上海已在籌劃擴(kuò)大算力基礎(chǔ)設(shè)施,明確將圍繞浦東、金山、松江、臨港和青浦等重點(diǎn)區(qū)域,積極部署智能算力、提升集群規(guī)模。

預(yù)計到2027年,上海算力規(guī)模將提升至20萬PFLOPS(每秒千萬億次浮點(diǎn)運(yùn)算)。根據(jù)今年1月披露的數(shù)據(jù),上海算力規(guī)模已突破12萬PFLOPS。

智算科技總經(jīng)理孫躍解釋稱,上海有諸多垂類人工智能應(yīng)用,需要就近布局算力資源,從而快速響應(yīng)這些任務(wù)的需求,達(dá)到降低網(wǎng)絡(luò)延時等效果。

上海也集聚了芯片、大模型等大量人工智能上下游企業(yè),在本地布局“萬卡集群”,有利于執(zhí)行技術(shù)攻關(guān)任務(wù)。

對于“萬卡集群”而言,算力卡無疑是其中的靈魂。在先進(jìn)算力卡被限制進(jìn)口的背景下,設(shè)備采購存在一定難度。但在孫躍看來,“建設(shè)‘萬卡集群’是一個龐大的系統(tǒng)工程,購買算力卡,在整件事情中可能不見得是最難的?!?/p>

智算中心需要高效的通訊網(wǎng)絡(luò)和相應(yīng)的存儲設(shè)備,才能讓算力卡以集群的形態(tài)高效運(yùn)轉(zhuǎn)。如果將一個“萬卡集群”拆解,零部件數(shù)量可達(dá)到數(shù)十萬個,種類超過百種。

在智算科技系統(tǒng)工程中心總監(jiān)胡寶群看來,“萬卡集群”建設(shè)過程中,一個容易忽略卻又極為關(guān)鍵的風(fēng)險點(diǎn),來自灰塵。他將其稱為“萬卡集群”建設(shè)的入門第一課。

在組成“萬卡集群”的百余種零部件中,光模塊是極為重要的一種。通常情況下,一個集群需要配備上萬個光模塊,但這種火柴盒大小的電子元器件對灰塵極度敏感。

胡寶群告訴界面新聞,光模塊只要接觸到非常小的灰塵,就會影響對應(yīng)算力卡的運(yùn)行,甚至讓整個“萬卡集群”無法穩(wěn)定工作。

因此,在松江智算中心建設(shè)和運(yùn)行過程中,智算科技的團(tuán)隊都在想方設(shè)法防范灰塵帶來的潛在影響。比如在光模塊安裝環(huán)節(jié),就規(guī)定其暴露在空氣中的時間必須控制在三秒以內(nèi)。

此外,松江智算中心所在四層建筑的樓道內(nèi),也專門安放了有粘性的地毯,用于吸附人走過時鞋底的污物,減少空氣中的灰塵來源。

松江智算中心,圖片來源:儀電集團(tuán)

搭建“萬卡集群”被認(rèn)為是一項復(fù)雜的系統(tǒng)工程,難度可與衛(wèi)星發(fā)射相比。“在發(fā)射衛(wèi)星過程中,任何一個零部件故障都會導(dǎo)致整個任務(wù)失敗,‘萬卡集群’也類似,對每個環(huán)節(jié)都有很高的可靠性要求?!睂O躍提及。

同樣高難度的,是讓“萬卡集群”能夠7*24小時不間斷地高效運(yùn)轉(zhuǎn),為用戶提供算力服務(wù)。

在人工智能模型訓(xùn)練過程中,智算中心的故障都可能導(dǎo)致整個任務(wù)中斷。在一套由數(shù)十萬個零部件組成的“萬卡集群”中,設(shè)備故障的發(fā)生幾乎無可避免。

但通過技術(shù)和架構(gòu)層面的冗余設(shè)計,松江項目的“萬卡集群”能夠?qū)崿F(xiàn)即使故障發(fā)生,也不影響模型訓(xùn)練任務(wù)的執(zhí)行,并且在數(shù)分鐘甚至數(shù)秒內(nèi)完成故障定位,便于下一步的故障排除。

在人工智能時代,算力被認(rèn)為會像水和電一樣,每個人都能極為方便地取用?!叭f卡集群”的穩(wěn)定運(yùn)行,將是實現(xiàn)這項設(shè)想的關(guān)鍵一環(huán)。

智算科技系統(tǒng)平臺部負(fù)責(zé)人翟雨佳稱,“我們的目標(biāo)是讓‘萬卡集群’能夠像供水和供電那樣穩(wěn)定,讓用戶感受不到算力的存在?!?/p>

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。