四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

正在閱讀:

AI算力的下一個(gè)戰(zhàn)場(chǎng),已經(jīng)延伸到了太空

掃一掃下載界面新聞APP

AI算力的下一個(gè)戰(zhàn)場(chǎng),已經(jīng)延伸到了太空

“軌道算力”的圈地運(yùn)動(dòng)已打響。

文|硅谷101

你有沒(méi)有想過(guò):下一代的“算力工廠”,可能根本不在地球上?過(guò)去幾年,AI把數(shù)據(jù)中心變成了新的“能源怪獸”。電力、散熱、用水、選址,這些都成為了制約AI進(jìn)化的關(guān)鍵瓶頸。

于是,一個(gè)聽(tīng)起來(lái)似乎很科幻的想法,突然被拎到了臺(tái)面上:那就是把數(shù)據(jù)中心搬到太空去。在太空建數(shù)據(jù)中心,聽(tīng)起來(lái)有點(diǎn)像是個(gè)騙投資人的 PPT? 但實(shí)際上,一場(chǎng)關(guān)于“軌道算力”的圈地運(yùn)動(dòng),已經(jīng)拉開(kāi)了帷幕。

在剛剛閉幕的達(dá)沃斯論壇上,馬斯克宣稱在未來(lái)的2至3年內(nèi),太空就將成為部署AI數(shù)據(jù)中心成本最低的地方。緊接著當(dāng)?shù)貢r(shí)間2月2號(hào),SpaceX宣布已收購(gòu)人工智能公司xAI,而馬斯克透露,二者完成合并后,SpaceX最重要的事情之一就是將推進(jìn)部署太空數(shù)據(jù)中心。

除了馬斯克外,其他公司也在密切布置著太空數(shù)據(jù)中心。亞馬遜創(chuàng)始人貝佐斯旗下的藍(lán)色起源,在一年多前已經(jīng)秘密組建了開(kāi)發(fā)團(tuán)隊(duì),用以打造軌道AI數(shù)據(jù)中心的專用衛(wèi)星;谷歌也在近期發(fā)布了一項(xiàng)名為Suncatcher(捕光者)的太空數(shù)據(jù)中心計(jì)劃,預(yù)計(jì)將在2027年把第一批“機(jī)架級(jí)算力”送入軌道;英偉達(dá)剛剛通過(guò)初創(chuàng)公司Starcloud將一顆搭載了H100 GPU的衛(wèi)星送入了軌道,并且首次在太空中完成了Nano-GPT模型的訓(xùn)練,標(biāo)志著太空算力建設(shè)已經(jīng)進(jìn)入到了實(shí)踐驗(yàn)證階段。

所以今天的太空數(shù)據(jù)中心,似乎已經(jīng)不是“要不要做”的問(wèn)題,而是誰(shuí)能先把它做成。為什么科技公司們寧愿忍受極高的發(fā)射成本,也要把服務(wù)器送上天?在萬(wàn)米高空的真空中,數(shù)據(jù)中心究竟該怎么建?當(dāng)算力離開(kāi)地球表面,真的能跑出更便宜、更高效的AI嗎?

01 為什么要把數(shù)據(jù)中心送“上天”?

要理解為什么數(shù)據(jù)中心要上天,我們先得看看現(xiàn)在地面的日子有多難過(guò)。如果現(xiàn)在你問(wèn)硅谷大佬們,AI進(jìn)化的終極瓶頸是什么? 他們大概率不會(huì)說(shuō)是算法,也不是人才,甚至也不是芯片,而就是兩個(gè)最基礎(chǔ)的物理限制:電力和散熱。

在我們的之前一期關(guān)于“數(shù)據(jù)中心的真實(shí)賬單”的內(nèi)容中曾經(jīng)細(xì)致拆解過(guò),雖然供電和冷卻設(shè)備加起來(lái)不足整個(gè)數(shù)據(jù)中心建設(shè)成本的10%,但卻是數(shù)據(jù)中心現(xiàn)在真正被“卡脖子”的地方。

地面數(shù)據(jù)中心的本質(zhì)是一個(gè)吞電巨獸。 當(dāng)前一個(gè)超大規(guī)模AI數(shù)據(jù)中心的持續(xù)用電規(guī)模,已經(jīng)從過(guò)去的幾十兆瓦(MW),躍升到數(shù)百兆瓦,甚至逼近1吉瓦(GW)。1吉瓦是什么概念? 如果一個(gè)系統(tǒng)以1吉瓦的功率24小時(shí)、全年無(wú)休地運(yùn)行,一年產(chǎn)生的電量大約是8.8太瓦(TW)時(shí),基本相當(dāng)于一座中等規(guī)模城市一整年的用電量。

AI帶來(lái)的問(wèn)題不僅是消耗電力,更在于這些電力最終都會(huì)轉(zhuǎn)化為熱。以H100這類(lèi)高端GPU為例, 單卡功耗已經(jīng)接近700瓦,當(dāng)成千上萬(wàn)張顯卡組成集群時(shí),散熱就成了一項(xiàng)比計(jì)算本身更昂貴的系統(tǒng)工程。

隨著全球AI算力需求的指數(shù)級(jí)提升,傳統(tǒng)的風(fēng)冷技術(shù)已經(jīng)很難滿足高密度算力設(shè)備的散熱需求,液冷變?yōu)榱吮匦杵贰?shù)據(jù)研究,一個(gè)大型數(shù)據(jù)中心,每消耗1千瓦時(shí)電力,往往需要1至2升淡水用于冷卻。 這意味著一個(gè)百兆瓦級(jí)AI數(shù)據(jù)中心,每天就可能消耗上百萬(wàn)升水。 更麻煩的是,隨著GPU功耗繼續(xù)上升,冷卻系統(tǒng)的效率提升已經(jīng)明顯放緩。

但AI想要繼續(xù)向前發(fā)展,還必須依賴大規(guī)模的能源消耗,AI巨頭們?yōu)榱双@取電力是絞盡腦汁:收購(gòu)改造發(fā)電廠,自建電網(wǎng),搶購(gòu)燃?xì)廨啓C(jī),研究核能……地面已然卷入了一場(chǎng)AI能源戰(zhàn)爭(zhēng)。

在這樣的背景下,需要尋找一個(gè)能源更充足、更穩(wěn)定,且散熱也能更高效的地方,答案就是太空。在大氣層以外,太空為人類(lèi)準(zhǔn)備了三份地面永遠(yuǎn)無(wú)法提供的厚禮:

第一份厚禮是能源。在地面,能源是一個(gè)復(fù)雜的系統(tǒng)問(wèn)題,涉及到發(fā)電、輸電、儲(chǔ)能、調(diào)峰、碳排、土地等環(huán)節(jié)。哪怕是最理想的新能源體系,也繞不開(kāi)天氣變化和季節(jié)波動(dòng)。

但在太空的近地軌道上,太陽(yáng)能的邏輯則完全不同:沒(méi)有大氣層的折射、沒(méi)有云層的遮擋、更沒(méi)有晝夜交替,只要電池板夠大,理論上就能獲得24小時(shí)不斷電、幾乎零成本的清潔能源。

計(jì)算數(shù)據(jù)顯示:在地球軌道上,太陽(yáng)能的利用效率是地面的8到10倍。這意味著能源第一次變成了“連續(xù)變量”,而非“間歇資源”,這對(duì)于AI的發(fā)展極其關(guān)鍵。因?yàn)锳I的訓(xùn)練和推理,最關(guān)鍵的不是“便宜的電”,而是需要長(zhǎng)期穩(wěn)定、不會(huì)中斷的功率輸入。

從更宏觀的角度看,“太陽(yáng)能”只是太空能源金礦的冰山一角。今天在太空里使用的“太陽(yáng)能”,本質(zhì)上只是太陽(yáng)聚變反應(yīng)的副產(chǎn)品。太陽(yáng)本身是一個(gè)穩(wěn)定運(yùn)行了45億年的天然核聚變反應(yīng)堆,每一秒釋放的能量,都遠(yuǎn)超整個(gè)人類(lèi)社會(huì)所需要的總和。

如今為了獲取能源,很多投資者們都去研究制造小型聚變反應(yīng),馬斯克對(duì)此表示這完全是多此一舉,因?yàn)槲覀冾^頂上早就掛著一個(gè)免費(fèi)的、不會(huì)熄火的終極能量源。

第二份禮物是散熱。在地面,需要用巨大的風(fēng)扇和昂貴的液冷系統(tǒng),但太空的散熱則是完全不同的物理法則。

AI運(yùn)行會(huì)產(chǎn)生巨熱,而太空背景溫度僅為3開(kāi)爾文(約 -270℃),只需將散熱器背對(duì)太陽(yáng),就能獲得高效的自然冷卻。在真空環(huán)境中,熱量不需要被“搬走”,而是可以以輻射的方式向深空釋放。我們可以通過(guò)巨大的輻射散熱板,直接把廢熱丟進(jìn)宇宙,前微軟能源戰(zhàn)略經(jīng)理Ethan Xu告訴我們,這意味著PUE(能源使用效率)可以無(wú)限逼近于1。

Ethan XU

前微軟能源戰(zhàn)略經(jīng)理,前突破能源科研總監(jiān)

太空中的溫度是非常低的,而傳統(tǒng)的數(shù)據(jù)中心,可能有接近4%的電力是用來(lái)給數(shù)據(jù)中心制冷的,而不是用來(lái)給算力供電的。所以在太空中,如果能夠很好地利用太空溫度接近絕對(duì)零度的這一環(huán)境,那么數(shù)據(jù)中心產(chǎn)生的廢熱,就可以通過(guò)輻射散熱的方式直接排到深空當(dāng)中。這樣,數(shù)據(jù)中心的電力使用效率(PUE)就可以在理論上接近于1。也就是說(shuō),在給數(shù)據(jù)中心提供的這些電力當(dāng)中,幾乎所有的電力都是用來(lái)給算力供電的,而不是用來(lái)給制冷供電的。

第三份禮物是極低延遲。光在真空中的傳播速度比在光纖里快30%, 通過(guò)激光鏈路,太空數(shù)據(jù)中心可以繞過(guò)復(fù)雜的陸地網(wǎng)絡(luò)和海底電纜,實(shí)現(xiàn)真正意義上的“全球算力秒達(dá)”。當(dāng)算力節(jié)點(diǎn)開(kāi)始部署在軌道上,它們就不再代表著“遠(yuǎn)離地球”,而是有可能在特定網(wǎng)絡(luò)拓?fù)渲校D(zhuǎn)化成更接近用戶、更快的中繼節(jié)點(diǎn)。

所以太空同時(shí)滿足了持續(xù)能源、極端散熱、接近物理極限的通信條件這三個(gè)條件,正好也是AI算力當(dāng)下最稀缺的三樣?xùn)|西。但是聽(tīng)起來(lái)如此完美的方案,在現(xiàn)實(shí)中卻面臨著一個(gè)巨大的入場(chǎng)券問(wèn)題: 怎么才能把那些比鋼琴還重、比瓷器還脆弱的服務(wù)器,塞進(jìn)火箭,再精準(zhǔn)地部署到軌道上呢? 太空數(shù)據(jù)中心,究竟該怎么建?

02 太空數(shù)據(jù)中心怎么建?當(dāng)前的兩種主要探索路徑

目前來(lái)看,全球的探索,已經(jīng)逐漸收斂為兩條主流路徑: 一條是“在軌邊緣計(jì)算”;另一條是“軌道云數(shù)據(jù)中心”,這兩種探索,一個(gè)解決“現(xiàn)在的問(wèn)題”,一個(gè)押注“未來(lái)的規(guī)模”。解決的是不同層級(jí)的問(wèn)題,也代表著不同階段的野心。

關(guān)于這兩種路徑,最近浙江大學(xué)和新加坡南洋理工大學(xué)也在Nature上聯(lián)合發(fā)布了最新研究,首次系統(tǒng)性地提出了完整的技術(shù)框架,我們也采訪到了該論文的第一作者Ablimit Aili博士,來(lái)幫助我們理解兩種路線究竟有什么區(qū)別、都怎么建。

Chapter 2.1 在軌邊緣計(jì)算

首先來(lái)看在“軌邊緣計(jì)算”模式,邊緣數(shù)據(jù)中心并非一個(gè)完整的“云”,它的核心邏輯相對(duì)簡(jiǎn)單:不再把衛(wèi)星采集到的所有數(shù)據(jù)都傳回地面,而是把AI加速器直接送上已經(jīng)在運(yùn)行的衛(wèi)星,讓數(shù)據(jù)在太空中就被分析、篩選和壓縮。適用于一些規(guī)模較小、更加專用的場(chǎng)景。

Ablimit Aili

浙江大學(xué)長(zhǎng)三角智慧綠洲創(chuàng)新中心特聘研究員

邊緣數(shù)據(jù)中心,主要考慮的是單個(gè)衛(wèi)星或者較小的衛(wèi)星群。比如這些衛(wèi)星群可能提供遙感服務(wù)或者成像服務(wù)。為了對(duì)它們進(jìn)行升級(jí),我們?cè)谏?jí)時(shí)加上更好的算力,比如AI加速器,以此提升這些衛(wèi)星的特殊計(jì)算能力(如圖像處理能力),從而大大降低這些衛(wèi)星需要傳輸給地面站的數(shù)據(jù)量。這首先會(huì)大大地降低服務(wù)的延遲時(shí)間,間接地也會(huì)降低地面數(shù)據(jù)中心需要處理的數(shù)據(jù)量。

一個(gè)代表性成功案例是Starcloud與英偉達(dá)的合作。去年11月Starcloud成功將英偉達(dá)H100 GPU送入軌道,他們發(fā)射的Starcloud-1衛(wèi)星,搭載了一顆H100級(jí)別的GPU,整套算力系統(tǒng)僅重60公斤,大小相當(dāng)于一臺(tái)小型冰箱。

這顆衛(wèi)星的任務(wù)并非“展示算力”, 而是直接接收來(lái)自合成孔徑雷達(dá)(SAR)衛(wèi)星群的數(shù)據(jù),在軌道上完成實(shí)時(shí)處理,再把結(jié)果回傳地球。

截至目前,它在太空中完成了幾個(gè)重要任務(wù):一是成功調(diào)用了谷歌的開(kāi)源模型Gemma,并向地球發(fā)出了“Hi地球人,你們好”的問(wèn)候,仿佛一個(gè)地外智慧生命;二是使用莎士比亞全集訓(xùn)練由OpenAI創(chuàng)始成員Andrej Karpathy打造的NanoGPT,讓模型能夠以莎士比亞式的英語(yǔ)進(jìn)行表達(dá);三是實(shí)時(shí)讀取傳感器數(shù)據(jù),進(jìn)行實(shí)時(shí)情報(bào)分析,比如瞬間識(shí)別野火熱信號(hào)等,并及時(shí)通知地面人員。

Starcloud-1 的成功,也意味著太空中的算力第一次不再只是“輔助系統(tǒng)”,而開(kāi)始直接參與計(jì)算本身?!霸谲夁吘売?jì)算”之所以成為太空數(shù)據(jù)中心建設(shè)第一條被跑通的路線,背后有著非常清晰的技術(shù)和商業(yè)邏輯。

首先,在軌邊緣計(jì)算的技術(shù)難度相對(duì)可控。所謂“可控”,并不指“把GPU送上天”這件事很容易,而是因?yàn)樗龅模菍?duì)既有技術(shù)的延伸,而非一次系統(tǒng)級(jí)重構(gòu):

1.在硬件層面,這條路線并沒(méi)有發(fā)明新的計(jì)算架構(gòu),使用的仍然是成熟的數(shù)據(jù)中心級(jí)AI加速器,只是將它們重新封裝以適配太空環(huán)境。

2.在系統(tǒng)層面, 在軌邊緣計(jì)算不追求復(fù)雜的算力調(diào)度和多節(jié)點(diǎn)協(xié)同。一顆衛(wèi)星對(duì)應(yīng)一類(lèi)特定任務(wù)(如遙感圖像處理、氣象、災(zāi)害監(jiān)測(cè)、軍事偵察等),因此它更像是一臺(tái)“任務(wù)專用的算力設(shè)備”,而非一個(gè)分布式云系統(tǒng)。

由于這些任務(wù)本身就高度確定,這意味著算法、算力規(guī)模、功耗及散熱,都可以在發(fā)射前被充分設(shè)計(jì)和驗(yàn)證,而不是到了軌道上才“臨場(chǎng)發(fā)揮”。即便某一顆算力衛(wèi)星出現(xiàn)問(wèn)題,其影響也是局部的、可隔離的,不會(huì)像云數(shù)據(jù)中心那樣牽一發(fā)動(dòng)全身。

其次,在應(yīng)用層面,它的商業(yè)模式非常清晰。通過(guò)在軌計(jì)算,能夠顯著減少下行帶寬壓力、降低通信能耗并顯著縮短決策延遲,為各類(lèi)任務(wù)進(jìn)行服務(wù),因此,這不僅僅是“未來(lái)算力”的故事,更是立刻可量化的效率和收益。

Aili博士在采訪中還表示,“在軌邊緣計(jì)算”更重要的意義在于,這條路線正在幫助完成一件關(guān)鍵的事情:驗(yàn)證算力能否在太空中長(zhǎng)期、穩(wěn)定、可靠地運(yùn)行,從而為未來(lái)真正建設(shè)軌道云數(shù)據(jù)中心打下基礎(chǔ)。

Ablimit Aili

浙江大學(xué)長(zhǎng)三角智慧綠洲創(chuàng)新中心特聘研究員

這是非常重要的第一步,因?yàn)樾枰?yàn)證幾個(gè)關(guān)鍵點(diǎn):其中最重要的是這個(gè)GPU在太空中的算力表現(xiàn)。因?yàn)樘窄h(huán)境和地面環(huán)境有著很大的區(qū)別,最大的區(qū)別在于太空中存在大量高能粒子,這對(duì)計(jì)算設(shè)備的影響非常大。首先,他們需要知道這個(gè)GPU能不能提供預(yù)期的算力;其次,他們也想驗(yàn)證GPU能不能承受這些粒子的輻射,以及能否提供幾年甚至十年以上的服務(wù)。

不過(guò),因?yàn)椤霸谲夁吘売?jì)算”主要服務(wù)于特定任務(wù),所以它也有著非常清晰的天花板。它更適合圖像識(shí)別、目標(biāo)檢測(cè)、事件篩選,而非通用的大規(guī)模計(jì)算。此外,從物理角度來(lái)看,因?yàn)槭苤朴谛l(wèi)星體積、供電和散熱,它也不可能無(wú)限堆疊GPU, 更談不上訓(xùn)練超大模型。

所以,“在軌邊緣計(jì)算”更多的是一種對(duì)太空數(shù)據(jù)中心的驗(yàn)證和嘗試。

Chapter 2.2 軌道云數(shù)據(jù)中心

相比之下,軌道云數(shù)據(jù)中心的目標(biāo)則更為直接、大膽,那就是在太空中構(gòu)建一個(gè)真正意義上的云計(jì)算基礎(chǔ)設(shè)施。

這條路線不再局限于某一類(lèi)特定任務(wù),而是試圖在軌道上構(gòu)建一個(gè)包含多算力節(jié)點(diǎn)、具備高速星間通信能力,且受統(tǒng)一調(diào)度與編排的系統(tǒng),最終目標(biāo)是讓太空中算力能像地面云一樣,實(shí)現(xiàn)靈活調(diào)用、分配與擴(kuò)展。

目前最成體系的軌道云設(shè)想之一,來(lái)自谷歌內(nèi)部的Suncatcher Projec(“捕光者”計(jì)劃),它的核心思路是:在軌道上部署相對(duì)固定位置的算力平臺(tái),通過(guò)持續(xù)穩(wěn)定的太陽(yáng)能供電,為地面的數(shù)據(jù)中心提供算力補(bǔ)充。

在這個(gè)設(shè)想中,太空算力并非獨(dú)立運(yùn)行的“外星系統(tǒng)”,而是被納入現(xiàn)有云計(jì)算體系,成為地面云的一部分。它不追求全球移動(dòng)覆蓋或承擔(dān)用戶直連通信,主要任務(wù)是為地面數(shù)據(jù)中心分擔(dān)算力壓力。簡(jiǎn)單來(lái)說(shuō), 你可以把它理解為懸掛在太空中的“超大規(guī)模算力機(jī)架”。

Ablimit Aili

浙江大學(xué)長(zhǎng)三角智慧綠洲創(chuàng)新中心特聘研究員

在他們發(fā)表的文章中,幾十顆衛(wèi)星形成一個(gè)集群。它不是覆蓋整個(gè)地區(qū),而是一個(gè)群體,并始終保持大致的形狀不變。我猜,這樣設(shè)計(jì)是為了確保它們?cè)谔罩械奶囟ㄎ恢?,能夠與地面數(shù)據(jù)中心實(shí)現(xiàn)數(shù)據(jù)通信。

在谷歌發(fā)布的該計(jì)劃的論文中,非常詳細(xì)地闡釋了Suncatcher系統(tǒng)的架構(gòu)設(shè)定、建設(shè)方案以及成本測(cè)算,從模式上來(lái)說(shuō),Sunchather計(jì)劃幾乎是將地面數(shù)據(jù)中心拆解為眾多小單元,再將它們逐一“太空化”。

它的設(shè)想是在日照更穩(wěn)定的晨昏軌道部署一批搭載太陽(yáng)能陣列的衛(wèi)星,每顆衛(wèi)星均配備Google TPU加速器,衛(wèi)星之間通過(guò)自由空間光通信(FSO)互聯(lián),再用一套更“智能”的控制系統(tǒng)實(shí)現(xiàn)讓這些衛(wèi)星在太空“貼身飛行”,也就是保持極近距離而不發(fā)生碰撞。論文中還舉出了一個(gè)非常具體的結(jié)構(gòu):用81顆衛(wèi)星形成半徑1公里的集群。

在硬件與成本方面,谷歌也進(jìn)行了充分的可行性論證:

1.硬件方面:谷歌專門(mén)為太空數(shù)據(jù)中心研制了特別版本的TPU,針對(duì)Trillium TPU進(jìn)行的輻射測(cè)試結(jié)果顯示,在等效約5年軌道任務(wù)壽命的輻射劑量下,TPU未出現(xiàn)致命性失效。

2.成本方面:谷歌基于SpaceX的發(fā)射數(shù)據(jù)進(jìn)行了詳細(xì)的學(xué)習(xí)曲線分析,推測(cè)到2030年代中期,LEO發(fā)射成本有望降至小于200美元/公斤的量級(jí),若星艦實(shí)現(xiàn)完全重復(fù)使用,發(fā)射成本甚至可能進(jìn)一步降至每公斤60美元甚至15美元。

按照計(jì)劃,谷歌預(yù)計(jì)在2027年初發(fā)射兩顆原型衛(wèi)星,屆時(shí)將測(cè)試TPU在太空中的實(shí)際運(yùn)行情況,并驗(yàn)證光通信鏈路的穩(wěn)定性。

Chapter 2.2.1 SpaceX:基于Starlink的“軌道云”

如果說(shuō)谷歌是“從數(shù)據(jù)中心出發(fā),把它拆成衛(wèi)星編隊(duì)再搬上天”,那SpaceX的路線剛好相反:它是“從衛(wèi)星星座出發(fā),讓星座進(jìn)化成算力云”。

SpaceX手里有一個(gè)現(xiàn)實(shí)存在的、規(guī)模最大的低軌星座——Starlink,截至目前,Starlink大約有9300顆活躍衛(wèi)星,占所有在軌可運(yùn)行衛(wèi)星的約65%,且衛(wèi)星之間已通過(guò)激光鏈路高速互聯(lián)。這意味著,如果想要在太空里做“分布式系統(tǒng)”,SpaceX是少數(shù)真正擁有“分布式硬件底座”的公司。

SpaceX的設(shè)想是:讓部分Starlink衛(wèi)星, 逐步從“純通信節(jié)點(diǎn)”演進(jìn)為同時(shí)具備通信與算力能力的節(jié)點(diǎn),這樣一來(lái),算力不再集中在少數(shù)固定平臺(tái), 而是分布在整張軌道網(wǎng)絡(luò)中。

那具體該怎么實(shí)現(xiàn)呢?實(shí)際上,現(xiàn)在已經(jīng)在天上的Starlink衛(wèi)星不會(huì)直接變成數(shù)據(jù)中心,必須通過(guò)“改造后的新一代衛(wèi)星”,才能真正承載計(jì)算任務(wù)。

目前在軌運(yùn)行的Starlink衛(wèi)星,核心任務(wù)只有通信(負(fù)責(zé)用戶接入、數(shù)據(jù)中繼和星間激光鏈路轉(zhuǎn)發(fā)),這些衛(wèi)星雖然具備一些算力,但并非為高密度計(jì)算而設(shè)計(jì),因此,把它們直接“升級(jí)成數(shù)據(jù)中心”,在工程上并不現(xiàn)實(shí)。

所以SpaceX更可能采取的路徑是:在后續(xù)發(fā)射中,引入一類(lèi)全新的、被改造過(guò)的“算力增強(qiáng)型衛(wèi)星”,這些衛(wèi)星在設(shè)計(jì)上會(huì)發(fā)生明顯變化,包括具備更高的供電能力、專門(mén)為算力設(shè)計(jì)的散熱結(jié)構(gòu)、以及更強(qiáng)的星間通信接口等。它們的核心身份是網(wǎng)絡(luò)中的“計(jì)算節(jié)點(diǎn)”,而非純粹的“通信節(jié)點(diǎn)”,當(dāng)新衛(wèi)星被發(fā)射上天后,它們會(huì)與原有的Starlink衛(wèi)星通過(guò)星間激光鏈路連接,共同組成一個(gè)在軌的、分層式的云系統(tǒng)。

Aili博士在采訪中表示,SpaceX的這種方案,跟他們的研究團(tuán)隊(duì)從多年前所開(kāi)始思考的軌道云數(shù)據(jù)中心建設(shè)方式不謀而合。

Ablimit Aili

浙江大學(xué)長(zhǎng)三角智慧綠洲創(chuàng)新中心特聘研究員

我們提出的云數(shù)據(jù)中心框架,是基于現(xiàn)有的通信衛(wèi)星,比如Starlink。在此基礎(chǔ)上,我們加上通用服務(wù)器等設(shè)備,加大太陽(yáng)能板,加大冷卻板,或者增加冷卻板數(shù)量,并配備更高的帶寬。所以,這個(gè)思路和SpaceX比較類(lèi)似。

這種模式的核心特點(diǎn)是,它并不追求一次性建成超大規(guī)模算力中心,而是依托現(xiàn)有Starlink星座不斷疊加節(jié)點(diǎn)能力,讓軌道網(wǎng)絡(luò)本身慢慢具備計(jì)算屬性,進(jìn)而形成一個(gè)覆蓋全球、動(dòng)態(tài)調(diào)度分布式網(wǎng)絡(luò)。它的優(yōu)勢(shì)在于演進(jìn)成本更低,并且風(fēng)險(xiǎn)可控,就算某個(gè)算力節(jié)點(diǎn)出問(wèn)題,也不會(huì)拖垮整張通信網(wǎng)絡(luò)。

Chapter 2.2.2 太空站式集中數(shù)據(jù)中心

除了“在軌邊緣計(jì)算”和“基于星座的軌道云”,還有一種更直覺(jué)、也更具“地面思維”的探索方向:在太空中建設(shè)集中式數(shù)據(jù)中心。

它的核心思路很簡(jiǎn)單:不把算力分散在大量衛(wèi)星上,而是在太空站或大型在軌平臺(tái)中,集中部署機(jī)柜級(jí)算力系統(tǒng),就像把一座小型地面數(shù)據(jù)中心,整體搬到軌道上。

目前,這條路線更多停留在研究與早期工程驗(yàn)證階段,但已有部分機(jī)構(gòu)和創(chuàng)業(yè)公司開(kāi)始布局。在航天機(jī)構(gòu)層面,包括NASA和歐洲航天體系都曾在國(guó)際空間站(ISS)環(huán)境中,進(jìn)行過(guò)與在軌計(jì)算、數(shù)據(jù)處理和邊緣算力相關(guān)的實(shí)驗(yàn);此外,一些商業(yè)航天公司也在研究在空間站嵌入數(shù)據(jù)中心的可行性,包括Axiom Space,Voyager Space等。

這種模式的優(yōu)勢(shì)在于結(jié)構(gòu)集中、維護(hù)邏輯清晰,且最接近地面數(shù)據(jù)中心的工程思維;但代價(jià)同樣明顯:面臨極高的發(fā)射與在軌建設(shè)成本、擴(kuò)展性有限、且強(qiáng)烈依賴在軌維護(hù)能力。

Ethan Xu

前微軟能源戰(zhàn)略經(jīng)理、前突破能源科研總監(jiān)

首先,它的算力比較集中,跟地面上的數(shù)據(jù)中心類(lèi)似。由于算力集中,各個(gè)機(jī)柜或芯片之間的通信速度會(huì)更快,延時(shí)更低,連接也更可靠。

但是從另一方面來(lái)講,可能在運(yùn)維時(shí)可靠性會(huì)出現(xiàn)問(wèn)題。如果是分布式數(shù)據(jù)中心,即便一個(gè)衛(wèi)星上的算力節(jié)點(diǎn)出現(xiàn)了問(wèn)題,還有幾十個(gè)、幾百個(gè)其他的節(jié)點(diǎn)在。但如果是這種集中式、大型的數(shù)據(jù)中心,如果遭遇比較大的問(wèn)題,就有可能同時(shí)影響大量的算力。

至此,我們已經(jīng)看到了一幅相當(dāng)完整的太空數(shù)據(jù)中心建設(shè)圖景:有的選擇從最務(wù)實(shí)的“在軌邊緣計(jì)算”入手,有的試圖直接構(gòu)建真正的“軌道云計(jì)算”體系,雖然路徑不同、節(jié)奏不同,但它們指向的是同一個(gè)方向:算力,正在被認(rèn)真地推向軌道。

當(dāng)這些路線開(kāi)始從計(jì)劃圖紙走向工程和現(xiàn)實(shí)世界,真正的考驗(yàn)才剛剛開(kāi)始。

03 太空數(shù)據(jù)中心的建設(shè)挑戰(zhàn)與前景

Chapter 3.1 技術(shù)挑戰(zhàn)

太空有太陽(yáng)、有真空環(huán)境,似乎好像天生就適合部署算力,但一旦進(jìn)入工程層面,卻并沒(méi)有那么簡(jiǎn)單。我們先來(lái)看一顆普通的通信衛(wèi)星:

它左右展開(kāi)的兩個(gè)“大翅膀”是太陽(yáng)能板,負(fù)責(zé)為整顆衛(wèi)星提供電力,也是它幾乎唯一的能源來(lái)源。

衛(wèi)星中間相對(duì)緊湊的“盒子”,是衛(wèi)星平臺(tái)。這里面包含了姿態(tài)控制、推進(jìn)系統(tǒng)、電源管理、熱控和計(jì)算控制單元,負(fù)責(zé)讓衛(wèi)星在軌道上穩(wěn)定運(yùn)行、精確指向地面。

衛(wèi)星前方或下方突出的結(jié)構(gòu)是通信載荷。它們負(fù)責(zé)接收來(lái)自地面的信號(hào),進(jìn)行簡(jiǎn)單處理和放大,然后再轉(zhuǎn)發(fā)回地球。

傳統(tǒng)通信衛(wèi)星的設(shè)計(jì)目標(biāo)非常明確:盡量少算、少熱、少功耗,把復(fù)雜計(jì)算留在地面,自己只做“信號(hào)中繼”。而要把算力真正搬到衛(wèi)星上,改變的絕不僅是“多加一塊芯片”,而是要從能源、散熱到結(jié)構(gòu)設(shè)計(jì),將整顆衛(wèi)星的工程邏輯推翻重來(lái)。

首先發(fā)生變化的,是能量系統(tǒng)。為了支撐持續(xù)運(yùn)行的計(jì)算單元,單個(gè)衛(wèi)星的太陽(yáng)能板需要更大面積,電源管理系統(tǒng)也必須更復(fù)雜,因?yàn)樗懔π枰牟皇恰捌骄娏Α?,而是穩(wěn)定、持續(xù)、不掉線的功率輸入。

Ethan Xu

前微軟能源戰(zhàn)略經(jīng)理、前突破能源科研總監(jiān)

比如100兆瓦的太陽(yáng)能發(fā)電站,在地表上可能相當(dāng)于200個(gè)左右足球場(chǎng)大小的面積,規(guī)模非常大。如果同樣的太陽(yáng)能板要放到太空中展開(kāi),至少需要幾十個(gè)足球場(chǎng)那么大的面積。所以,這就意味著必須從工程上解決一個(gè)問(wèn)題:如何用更輕質(zhì)、更高效的材料,把太陽(yáng)能板折疊好,發(fā)射到太空當(dāng)中,再將其展開(kāi)。在日常運(yùn)維時(shí),還必須采用自動(dòng)化方式,比如利用機(jī)器人對(duì)太陽(yáng)能板進(jìn)行維護(hù)。這就和在地面上出了問(wèn)題,派工人去排查、修復(fù)的模式完全不一樣了。

接著變化的,是衛(wèi)星的“中樞”。在傳統(tǒng)通信衛(wèi)星中,中間的“盒子”主要負(fù)責(zé)控制和調(diào)度;而在算力衛(wèi)星里,這里會(huì)多出真正的計(jì)算載荷——AI加速器、存儲(chǔ)模塊、數(shù)據(jù)處理單元,它們將成為新的“核心器官”。

隨之而來(lái)的,是散熱結(jié)構(gòu)的變化。通信載荷產(chǎn)生的熱量有限,但算力載荷會(huì)持續(xù)發(fā)熱,這意味著衛(wèi)星外部, 必須增加專門(mén)的輻射散熱板,把熱量穩(wěn)定地送向深空。

而這些變化,會(huì)讓衛(wèi)星的重量和重心發(fā)生改變, 進(jìn)而也對(duì)發(fā)射能力和星座部署節(jié)奏提出了全新的要求。

Chapter 3.2 工程實(shí)現(xiàn)與成本挑戰(zhàn)

即便技術(shù)上可行,太空數(shù)據(jù)中心仍然要面對(duì)一個(gè)更現(xiàn)實(shí)的問(wèn)題:工實(shí)現(xiàn)程的復(fù)雜度以及建設(shè)成本的可承受性。

在地面,數(shù)據(jù)中心的建設(shè)流程高度成熟:設(shè)計(jì)、施工、通電,每一步都有標(biāo)準(zhǔn)化路徑,但在太空,工程流程被迫拉長(zhǎng)成一條極復(fù)雜鏈條:從系統(tǒng)級(jí)設(shè)計(jì)到模塊化制造、再到多次發(fā)射、 在軌展開(kāi)、聯(lián)調(diào)運(yùn)行,最后還有運(yùn)行維護(hù)與退役處置,任何一個(gè)環(huán)節(jié)出錯(cuò),都可能導(dǎo)致前期所有投入“作廢”,這就迫使工程本身必須極度保守。

我們?cè)谏弦黄跀?shù)據(jù)中心建設(shè)成本的視頻中分析過(guò),目前建設(shè)1GW的地面數(shù)據(jù)中心大約需要516億美元,但要建設(shè)同等規(guī)模的太空數(shù)據(jù)中心呢?

目前太空數(shù)據(jù)中心的成本結(jié)構(gòu)主要包括四個(gè)部分:能源系統(tǒng)(空間太陽(yáng)能陣列)、散熱系統(tǒng)(超大面積輻射散熱器)、算力與航天級(jí)系統(tǒng)封裝、以及發(fā)射和在軌組裝。

其中,光是“發(fā)射和在軌組裝”這一項(xiàng),成本就幾乎要追上地面數(shù)據(jù)中心的總造價(jià)。為了“能被送上天”,算力、能源、散熱系統(tǒng),都必須被拆分、減重、重新封裝,這不僅提高了單瓦算力的制造成本,一旦規(guī)模上升到百兆瓦甚至吉瓦級(jí),發(fā)射次數(shù)將變成一個(gè)不可忽視的“成本乘數(shù)”。

根據(jù)NASA、JPL等機(jī)構(gòu)的測(cè)算,要在太空中實(shí)現(xiàn)1GW級(jí)持續(xù)功率的在軌能源系統(tǒng),大約需要數(shù)百萬(wàn)平方米級(jí)太陽(yáng)能陣列,這意味著系統(tǒng)總質(zhì)量甚至?xí)_(dá)到上萬(wàn)噸級(jí),即便是按照SpaceX Falcon 9最低的內(nèi)部發(fā)射成本約1500萬(wàn)至2800萬(wàn)美元/公斤來(lái)計(jì)算,這一部分的整體投入就已經(jīng)達(dá)到200至300億美元。

此外,地面數(shù)據(jù)中心可以容忍一定比例的故障, 因?yàn)橛布梢噪S時(shí)更換,但太空數(shù)據(jù)中心不行,算力系統(tǒng)必須在多年無(wú)人維護(hù)的條件下穩(wěn)定運(yùn)行,這也意味著更高規(guī)格的元器件、更嚴(yán)格的測(cè)試周期和更慢的技術(shù)迭代節(jié)奏,最終的結(jié)果是每一瓦算力,都要承擔(dān)更高的“生存成本”。

所以當(dāng)把所有環(huán)節(jié)納入考量,哪怕是非常保守地估算,目前1GW的太空數(shù)據(jù)中心的建設(shè)成本都可能上探至千億美元。

不過(guò),Ethan也表示,雖然現(xiàn)在建太空數(shù)據(jù)中心還非常昂貴,但在發(fā)射成本大幅下降前提下,由于能源方面的成本幾乎為零,未來(lái)太空數(shù)據(jù)中心也可能在整體生命周期成本上優(yōu)于地面系統(tǒng)。

Ethan Xu

前微軟能源戰(zhàn)略經(jīng)理、前突破能源科研總監(jiān)

從經(jīng)濟(jì)本質(zhì)上看,太空數(shù)據(jù)中心主要是利用未來(lái)數(shù)十年極低的運(yùn)行成本優(yōu)勢(shì),來(lái)彌補(bǔ)前期高昂投入的劣勢(shì)。如果前期投入能持續(xù)降低,同時(shí)未來(lái)長(zhǎng)期的運(yùn)行成本也能不斷地下降,那么綜合來(lái)看,太空數(shù)據(jù)中心的成本很有可能在未來(lái)幾年與地面數(shù)據(jù)中心接近,甚至更低。

Chapter 3.3 監(jiān)管與挑戰(zhàn)

即便技術(shù)與成本可行,太空數(shù)據(jù)中心仍面臨一個(gè)非常重要的挑戰(zhàn)——監(jiān)管。無(wú)論采用哪種形態(tài)建設(shè),太空數(shù)據(jù)中心本質(zhì)上都意味著在軌設(shè)備數(shù)量級(jí)的增長(zhǎng),為了實(shí)現(xiàn)數(shù)據(jù)中心級(jí)的算力規(guī)模,龐大的衛(wèi)星群甚至?xí)训厍虬鼑饋?lái),而在近地軌道已經(jīng)日益擁擠的情況下,勢(shì)必會(huì)引發(fā)整個(gè)軌道的系統(tǒng)性問(wèn)題。

首先是軌道擁擠。算力衛(wèi)星通常更重、壽命更長(zhǎng)、運(yùn)行狀態(tài)更復(fù)雜,當(dāng)不同國(guó)家、不同企業(yè)以及不同類(lèi)型的衛(wèi)星同時(shí)在同一軌道層運(yùn)行,協(xié)調(diào)難度會(huì)被成倍放大。

其次是碰撞風(fēng)險(xiǎn)與太空垃圾。 高功耗算力衛(wèi)星一旦失效,如果不能及時(shí)、可控地離軌,便可能成為長(zhǎng)期存在的碎片源,而碎片一旦產(chǎn)生,會(huì)在軌道上以極高速度傳播風(fēng)險(xiǎn)——這影響的不僅只是單個(gè)項(xiàng)目, 更是整個(gè)軌道環(huán)境的長(zhǎng)期安全。

這也意味著,太空數(shù)據(jù)中心的推進(jìn)不僅需要技術(shù)突破和資本支持,更需要一套全新的軌道治理機(jī)制,包括制定更嚴(yán)格的離軌與退役標(biāo)準(zhǔn),以及實(shí)現(xiàn)跨國(guó)界、跨運(yùn)營(yíng)方的長(zhǎng)期協(xié)作。

Chapter 3.4 未來(lái)前景

在理清了太空數(shù)據(jù)中心所面臨的技術(shù)、成本和監(jiān)管的一系列挑戰(zhàn)后,一個(gè)判斷就變得更清晰了:太空數(shù)據(jù)中心絕非一條“短期見(jiàn)效”的路線。

從宏觀算力體系的視角來(lái)看,未來(lái)太空數(shù)據(jù)中心的角色并非地面數(shù)據(jù)中心的替代者, 而是補(bǔ)充性的存在。至少在可預(yù)見(jiàn)的未來(lái),地面數(shù)據(jù)中心依然具備無(wú)可替代的優(yōu)勢(shì):成本更低、部署更快、維護(hù)更靈活、生態(tài)也更成熟,對(duì)于絕大多數(shù)通用計(jì)算任務(wù)而言,將算力部署在地面,依然是最經(jīng)濟(jì)、最高效的選擇。

而太空數(shù)據(jù)中心的建設(shè)意義,不在于追求短期的“性價(jià)比”,而在于開(kāi)辟一條不再受制于地面物理?xiàng)l件的算力增長(zhǎng)路徑。當(dāng)算力規(guī)模持續(xù)膨脹,地面數(shù)據(jù)中心日益受到能源供給、散熱能力、用水壓力及土地資源等約束時(shí),太空所提供的是一種長(zhǎng)期可行的備選方案。

因此,即便太空數(shù)據(jù)中心真正落地,更現(xiàn)實(shí)、也更可能出現(xiàn)的形態(tài)并非“算力整體上天”,而是地面與太空并存的“混合算力體系”:地面數(shù)據(jù)中心繼續(xù)承擔(dān)主體算力、核心存儲(chǔ)和高頻交互任務(wù);而太空數(shù)據(jù)中心,則在特定場(chǎng)景中發(fā)揮關(guān)鍵作用。

Ethan Xu

前微軟能源戰(zhàn)略經(jīng)理,前突破能源科研總監(jiān)

太空數(shù)據(jù)中心在某些場(chǎng)景下是非常可行的。比如在AI訓(xùn)練過(guò)程中,需要消耗大量的能量,但AI訓(xùn)練針對(duì)的客戶主要是公司內(nèi)部的科研人員,并不是普通消費(fèi)者。因此,可以將這類(lèi)對(duì)能耗要求特別大、對(duì)延遲要求不高、同時(shí) 對(duì)可靠性要求也不是那么高的算力需求,放到太空中進(jìn)行。此外,隨著太空科技的發(fā)展,很多數(shù)據(jù)需要在太空中采集,也需要在太空中計(jì)算。所以,太空數(shù)據(jù)中心可以作為一種邊緣數(shù)據(jù)中心存在。

04 云端之上重新定義算力的物理邊界

如果說(shuō)地面數(shù)據(jù)中心定義了過(guò)去二十年算力增長(zhǎng)的方式,那么太空數(shù)據(jù)中心,更像是在為下一個(gè)算力時(shí)代,提前鋪設(shè)一條尚未啟用的基礎(chǔ)設(shè)施。

今天的它,仍然昂貴、復(fù)雜、充滿爭(zhēng)議,距離規(guī)?;€有很長(zhǎng)的路要走,但它所回應(yīng)的, 是一個(gè)越來(lái)越現(xiàn)實(shí)的問(wèn)題:當(dāng)算力需求繼續(xù)膨脹,地面世界是否還能無(wú)限承載?

也許在短期內(nèi),太空數(shù)據(jù)中心不會(huì)成為主角,但它正在提醒著我們——當(dāng)人類(lèi)開(kāi)始認(rèn)真討論把“云”送上軌道,便意味著“算力”已經(jīng)被當(dāng)作一種需要跨越行星尺度來(lái)思考的基礎(chǔ)資源。太空數(shù)據(jù)中心的意義,或許不在于它什么時(shí)候能落地,而在于它也讓我們意識(shí)到:人類(lèi)計(jì)算的邊界,如今已不再止于地球。

 

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

AI算力的下一個(gè)戰(zhàn)場(chǎng),已經(jīng)延伸到了太空

“軌道算力”的圈地運(yùn)動(dòng)已打響。

文|硅谷101

你有沒(méi)有想過(guò):下一代的“算力工廠”,可能根本不在地球上?過(guò)去幾年,AI把數(shù)據(jù)中心變成了新的“能源怪獸”。電力、散熱、用水、選址,這些都成為了制約AI進(jìn)化的關(guān)鍵瓶頸。

于是,一個(gè)聽(tīng)起來(lái)似乎很科幻的想法,突然被拎到了臺(tái)面上:那就是把數(shù)據(jù)中心搬到太空去。在太空建數(shù)據(jù)中心,聽(tīng)起來(lái)有點(diǎn)像是個(gè)騙投資人的 PPT? 但實(shí)際上,一場(chǎng)關(guān)于“軌道算力”的圈地運(yùn)動(dòng),已經(jīng)拉開(kāi)了帷幕。

在剛剛閉幕的達(dá)沃斯論壇上,馬斯克宣稱在未來(lái)的2至3年內(nèi),太空就將成為部署AI數(shù)據(jù)中心成本最低的地方。緊接著當(dāng)?shù)貢r(shí)間2月2號(hào),SpaceX宣布已收購(gòu)人工智能公司xAI,而馬斯克透露,二者完成合并后,SpaceX最重要的事情之一就是將推進(jìn)部署太空數(shù)據(jù)中心。

除了馬斯克外,其他公司也在密切布置著太空數(shù)據(jù)中心。亞馬遜創(chuàng)始人貝佐斯旗下的藍(lán)色起源,在一年多前已經(jīng)秘密組建了開(kāi)發(fā)團(tuán)隊(duì),用以打造軌道AI數(shù)據(jù)中心的專用衛(wèi)星;谷歌也在近期發(fā)布了一項(xiàng)名為Suncatcher(捕光者)的太空數(shù)據(jù)中心計(jì)劃,預(yù)計(jì)將在2027年把第一批“機(jī)架級(jí)算力”送入軌道;英偉達(dá)剛剛通過(guò)初創(chuàng)公司Starcloud將一顆搭載了H100 GPU的衛(wèi)星送入了軌道,并且首次在太空中完成了Nano-GPT模型的訓(xùn)練,標(biāo)志著太空算力建設(shè)已經(jīng)進(jìn)入到了實(shí)踐驗(yàn)證階段。

所以今天的太空數(shù)據(jù)中心,似乎已經(jīng)不是“要不要做”的問(wèn)題,而是誰(shuí)能先把它做成。為什么科技公司們寧愿忍受極高的發(fā)射成本,也要把服務(wù)器送上天?在萬(wàn)米高空的真空中,數(shù)據(jù)中心究竟該怎么建?當(dāng)算力離開(kāi)地球表面,真的能跑出更便宜、更高效的AI嗎?

01 為什么要把數(shù)據(jù)中心送“上天”?

要理解為什么數(shù)據(jù)中心要上天,我們先得看看現(xiàn)在地面的日子有多難過(guò)。如果現(xiàn)在你問(wèn)硅谷大佬們,AI進(jìn)化的終極瓶頸是什么? 他們大概率不會(huì)說(shuō)是算法,也不是人才,甚至也不是芯片,而就是兩個(gè)最基礎(chǔ)的物理限制:電力和散熱。

在我們的之前一期關(guān)于“數(shù)據(jù)中心的真實(shí)賬單”的內(nèi)容中曾經(jīng)細(xì)致拆解過(guò),雖然供電和冷卻設(shè)備加起來(lái)不足整個(gè)數(shù)據(jù)中心建設(shè)成本的10%,但卻是數(shù)據(jù)中心現(xiàn)在真正被“卡脖子”的地方。

地面數(shù)據(jù)中心的本質(zhì)是一個(gè)吞電巨獸。 當(dāng)前一個(gè)超大規(guī)模AI數(shù)據(jù)中心的持續(xù)用電規(guī)模,已經(jīng)從過(guò)去的幾十兆瓦(MW),躍升到數(shù)百兆瓦,甚至逼近1吉瓦(GW)。1吉瓦是什么概念? 如果一個(gè)系統(tǒng)以1吉瓦的功率24小時(shí)、全年無(wú)休地運(yùn)行,一年產(chǎn)生的電量大約是8.8太瓦(TW)時(shí),基本相當(dāng)于一座中等規(guī)模城市一整年的用電量。

AI帶來(lái)的問(wèn)題不僅是消耗電力,更在于這些電力最終都會(huì)轉(zhuǎn)化為熱。以H100這類(lèi)高端GPU為例, 單卡功耗已經(jīng)接近700瓦,當(dāng)成千上萬(wàn)張顯卡組成集群時(shí),散熱就成了一項(xiàng)比計(jì)算本身更昂貴的系統(tǒng)工程。

隨著全球AI算力需求的指數(shù)級(jí)提升,傳統(tǒng)的風(fēng)冷技術(shù)已經(jīng)很難滿足高密度算力設(shè)備的散熱需求,液冷變?yōu)榱吮匦杵?。?shù)據(jù)研究,一個(gè)大型數(shù)據(jù)中心,每消耗1千瓦時(shí)電力,往往需要1至2升淡水用于冷卻。 這意味著一個(gè)百兆瓦級(jí)AI數(shù)據(jù)中心,每天就可能消耗上百萬(wàn)升水。 更麻煩的是,隨著GPU功耗繼續(xù)上升,冷卻系統(tǒng)的效率提升已經(jīng)明顯放緩。

但AI想要繼續(xù)向前發(fā)展,還必須依賴大規(guī)模的能源消耗,AI巨頭們?yōu)榱双@取電力是絞盡腦汁:收購(gòu)改造發(fā)電廠,自建電網(wǎng),搶購(gòu)燃?xì)廨啓C(jī),研究核能……地面已然卷入了一場(chǎng)AI能源戰(zhàn)爭(zhēng)。

在這樣的背景下,需要尋找一個(gè)能源更充足、更穩(wěn)定,且散熱也能更高效的地方,答案就是太空。在大氣層以外,太空為人類(lèi)準(zhǔn)備了三份地面永遠(yuǎn)無(wú)法提供的厚禮:

第一份厚禮是能源。在地面,能源是一個(gè)復(fù)雜的系統(tǒng)問(wèn)題,涉及到發(fā)電、輸電、儲(chǔ)能、調(diào)峰、碳排、土地等環(huán)節(jié)。哪怕是最理想的新能源體系,也繞不開(kāi)天氣變化和季節(jié)波動(dòng)。

但在太空的近地軌道上,太陽(yáng)能的邏輯則完全不同:沒(méi)有大氣層的折射、沒(méi)有云層的遮擋、更沒(méi)有晝夜交替,只要電池板夠大,理論上就能獲得24小時(shí)不斷電、幾乎零成本的清潔能源。

計(jì)算數(shù)據(jù)顯示:在地球軌道上,太陽(yáng)能的利用效率是地面的8到10倍。這意味著能源第一次變成了“連續(xù)變量”,而非“間歇資源”,這對(duì)于AI的發(fā)展極其關(guān)鍵。因?yàn)锳I的訓(xùn)練和推理,最關(guān)鍵的不是“便宜的電”,而是需要長(zhǎng)期穩(wěn)定、不會(huì)中斷的功率輸入。

從更宏觀的角度看,“太陽(yáng)能”只是太空能源金礦的冰山一角。今天在太空里使用的“太陽(yáng)能”,本質(zhì)上只是太陽(yáng)聚變反應(yīng)的副產(chǎn)品。太陽(yáng)本身是一個(gè)穩(wěn)定運(yùn)行了45億年的天然核聚變反應(yīng)堆,每一秒釋放的能量,都遠(yuǎn)超整個(gè)人類(lèi)社會(huì)所需要的總和。

如今為了獲取能源,很多投資者們都去研究制造小型聚變反應(yīng),馬斯克對(duì)此表示這完全是多此一舉,因?yàn)槲覀冾^頂上早就掛著一個(gè)免費(fèi)的、不會(huì)熄火的終極能量源。

第二份禮物是散熱。在地面,需要用巨大的風(fēng)扇和昂貴的液冷系統(tǒng),但太空的散熱則是完全不同的物理法則。

AI運(yùn)行會(huì)產(chǎn)生巨熱,而太空背景溫度僅為3開(kāi)爾文(約 -270℃),只需將散熱器背對(duì)太陽(yáng),就能獲得高效的自然冷卻。在真空環(huán)境中,熱量不需要被“搬走”,而是可以以輻射的方式向深空釋放。我們可以通過(guò)巨大的輻射散熱板,直接把廢熱丟進(jìn)宇宙,前微軟能源戰(zhàn)略經(jīng)理Ethan Xu告訴我們,這意味著PUE(能源使用效率)可以無(wú)限逼近于1。

Ethan XU

前微軟能源戰(zhàn)略經(jīng)理,前突破能源科研總監(jiān)

太空中的溫度是非常低的,而傳統(tǒng)的數(shù)據(jù)中心,可能有接近4%的電力是用來(lái)給數(shù)據(jù)中心制冷的,而不是用來(lái)給算力供電的。所以在太空中,如果能夠很好地利用太空溫度接近絕對(duì)零度的這一環(huán)境,那么數(shù)據(jù)中心產(chǎn)生的廢熱,就可以通過(guò)輻射散熱的方式直接排到深空當(dāng)中。這樣,數(shù)據(jù)中心的電力使用效率(PUE)就可以在理論上接近于1。也就是說(shuō),在給數(shù)據(jù)中心提供的這些電力當(dāng)中,幾乎所有的電力都是用來(lái)給算力供電的,而不是用來(lái)給制冷供電的。

第三份禮物是極低延遲。光在真空中的傳播速度比在光纖里快30%, 通過(guò)激光鏈路,太空數(shù)據(jù)中心可以繞過(guò)復(fù)雜的陸地網(wǎng)絡(luò)和海底電纜,實(shí)現(xiàn)真正意義上的“全球算力秒達(dá)”。當(dāng)算力節(jié)點(diǎn)開(kāi)始部署在軌道上,它們就不再代表著“遠(yuǎn)離地球”,而是有可能在特定網(wǎng)絡(luò)拓?fù)渲校D(zhuǎn)化成更接近用戶、更快的中繼節(jié)點(diǎn)。

所以太空同時(shí)滿足了持續(xù)能源、極端散熱、接近物理極限的通信條件這三個(gè)條件,正好也是AI算力當(dāng)下最稀缺的三樣?xùn)|西。但是聽(tīng)起來(lái)如此完美的方案,在現(xiàn)實(shí)中卻面臨著一個(gè)巨大的入場(chǎng)券問(wèn)題: 怎么才能把那些比鋼琴還重、比瓷器還脆弱的服務(wù)器,塞進(jìn)火箭,再精準(zhǔn)地部署到軌道上呢? 太空數(shù)據(jù)中心,究竟該怎么建?

02 太空數(shù)據(jù)中心怎么建?當(dāng)前的兩種主要探索路徑

目前來(lái)看,全球的探索,已經(jīng)逐漸收斂為兩條主流路徑: 一條是“在軌邊緣計(jì)算”;另一條是“軌道云數(shù)據(jù)中心”,這兩種探索,一個(gè)解決“現(xiàn)在的問(wèn)題”,一個(gè)押注“未來(lái)的規(guī)模”。解決的是不同層級(jí)的問(wèn)題,也代表著不同階段的野心。

關(guān)于這兩種路徑,最近浙江大學(xué)和新加坡南洋理工大學(xué)也在Nature上聯(lián)合發(fā)布了最新研究,首次系統(tǒng)性地提出了完整的技術(shù)框架,我們也采訪到了該論文的第一作者Ablimit Aili博士,來(lái)幫助我們理解兩種路線究竟有什么區(qū)別、都怎么建。

Chapter 2.1 在軌邊緣計(jì)算

首先來(lái)看在“軌邊緣計(jì)算”模式,邊緣數(shù)據(jù)中心并非一個(gè)完整的“云”,它的核心邏輯相對(duì)簡(jiǎn)單:不再把衛(wèi)星采集到的所有數(shù)據(jù)都傳回地面,而是把AI加速器直接送上已經(jīng)在運(yùn)行的衛(wèi)星,讓數(shù)據(jù)在太空中就被分析、篩選和壓縮。適用于一些規(guī)模較小、更加專用的場(chǎng)景。

Ablimit Aili

浙江大學(xué)長(zhǎng)三角智慧綠洲創(chuàng)新中心特聘研究員

邊緣數(shù)據(jù)中心,主要考慮的是單個(gè)衛(wèi)星或者較小的衛(wèi)星群。比如這些衛(wèi)星群可能提供遙感服務(wù)或者成像服務(wù)。為了對(duì)它們進(jìn)行升級(jí),我們?cè)谏?jí)時(shí)加上更好的算力,比如AI加速器,以此提升這些衛(wèi)星的特殊計(jì)算能力(如圖像處理能力),從而大大降低這些衛(wèi)星需要傳輸給地面站的數(shù)據(jù)量。這首先會(huì)大大地降低服務(wù)的延遲時(shí)間,間接地也會(huì)降低地面數(shù)據(jù)中心需要處理的數(shù)據(jù)量。

一個(gè)代表性成功案例是Starcloud與英偉達(dá)的合作。去年11月Starcloud成功將英偉達(dá)H100 GPU送入軌道,他們發(fā)射的Starcloud-1衛(wèi)星,搭載了一顆H100級(jí)別的GPU,整套算力系統(tǒng)僅重60公斤,大小相當(dāng)于一臺(tái)小型冰箱。

這顆衛(wèi)星的任務(wù)并非“展示算力”, 而是直接接收來(lái)自合成孔徑雷達(dá)(SAR)衛(wèi)星群的數(shù)據(jù),在軌道上完成實(shí)時(shí)處理,再把結(jié)果回傳地球。

截至目前,它在太空中完成了幾個(gè)重要任務(wù):一是成功調(diào)用了谷歌的開(kāi)源模型Gemma,并向地球發(fā)出了“Hi地球人,你們好”的問(wèn)候,仿佛一個(gè)地外智慧生命;二是使用莎士比亞全集訓(xùn)練由OpenAI創(chuàng)始成員Andrej Karpathy打造的NanoGPT,讓模型能夠以莎士比亞式的英語(yǔ)進(jìn)行表達(dá);三是實(shí)時(shí)讀取傳感器數(shù)據(jù),進(jìn)行實(shí)時(shí)情報(bào)分析,比如瞬間識(shí)別野火熱信號(hào)等,并及時(shí)通知地面人員。

Starcloud-1 的成功,也意味著太空中的算力第一次不再只是“輔助系統(tǒng)”,而開(kāi)始直接參與計(jì)算本身?!霸谲夁吘売?jì)算”之所以成為太空數(shù)據(jù)中心建設(shè)第一條被跑通的路線,背后有著非常清晰的技術(shù)和商業(yè)邏輯。

首先,在軌邊緣計(jì)算的技術(shù)難度相對(duì)可控。所謂“可控”,并不指“把GPU送上天”這件事很容易,而是因?yàn)樗龅?,是?duì)既有技術(shù)的延伸,而非一次系統(tǒng)級(jí)重構(gòu):

1.在硬件層面,這條路線并沒(méi)有發(fā)明新的計(jì)算架構(gòu),使用的仍然是成熟的數(shù)據(jù)中心級(jí)AI加速器,只是將它們重新封裝以適配太空環(huán)境。

2.在系統(tǒng)層面, 在軌邊緣計(jì)算不追求復(fù)雜的算力調(diào)度和多節(jié)點(diǎn)協(xié)同。一顆衛(wèi)星對(duì)應(yīng)一類(lèi)特定任務(wù)(如遙感圖像處理、氣象、災(zāi)害監(jiān)測(cè)、軍事偵察等),因此它更像是一臺(tái)“任務(wù)專用的算力設(shè)備”,而非一個(gè)分布式云系統(tǒng)。

由于這些任務(wù)本身就高度確定,這意味著算法、算力規(guī)模、功耗及散熱,都可以在發(fā)射前被充分設(shè)計(jì)和驗(yàn)證,而不是到了軌道上才“臨場(chǎng)發(fā)揮”。即便某一顆算力衛(wèi)星出現(xiàn)問(wèn)題,其影響也是局部的、可隔離的,不會(huì)像云數(shù)據(jù)中心那樣牽一發(fā)動(dòng)全身。

其次,在應(yīng)用層面,它的商業(yè)模式非常清晰。通過(guò)在軌計(jì)算,能夠顯著減少下行帶寬壓力、降低通信能耗并顯著縮短決策延遲,為各類(lèi)任務(wù)進(jìn)行服務(wù),因此,這不僅僅是“未來(lái)算力”的故事,更是立刻可量化的效率和收益。

Aili博士在采訪中還表示,“在軌邊緣計(jì)算”更重要的意義在于,這條路線正在幫助完成一件關(guān)鍵的事情:驗(yàn)證算力能否在太空中長(zhǎng)期、穩(wěn)定、可靠地運(yùn)行,從而為未來(lái)真正建設(shè)軌道云數(shù)據(jù)中心打下基礎(chǔ)。

Ablimit Aili

浙江大學(xué)長(zhǎng)三角智慧綠洲創(chuàng)新中心特聘研究員

這是非常重要的第一步,因?yàn)樾枰?yàn)證幾個(gè)關(guān)鍵點(diǎn):其中最重要的是這個(gè)GPU在太空中的算力表現(xiàn)。因?yàn)樘窄h(huán)境和地面環(huán)境有著很大的區(qū)別,最大的區(qū)別在于太空中存在大量高能粒子,這對(duì)計(jì)算設(shè)備的影響非常大。首先,他們需要知道這個(gè)GPU能不能提供預(yù)期的算力;其次,他們也想驗(yàn)證GPU能不能承受這些粒子的輻射,以及能否提供幾年甚至十年以上的服務(wù)。

不過(guò),因?yàn)椤霸谲夁吘売?jì)算”主要服務(wù)于特定任務(wù),所以它也有著非常清晰的天花板。它更適合圖像識(shí)別、目標(biāo)檢測(cè)、事件篩選,而非通用的大規(guī)模計(jì)算。此外,從物理角度來(lái)看,因?yàn)槭苤朴谛l(wèi)星體積、供電和散熱,它也不可能無(wú)限堆疊GPU, 更談不上訓(xùn)練超大模型。

所以,“在軌邊緣計(jì)算”更多的是一種對(duì)太空數(shù)據(jù)中心的驗(yàn)證和嘗試。

Chapter 2.2 軌道云數(shù)據(jù)中心

相比之下,軌道云數(shù)據(jù)中心的目標(biāo)則更為直接、大膽,那就是在太空中構(gòu)建一個(gè)真正意義上的云計(jì)算基礎(chǔ)設(shè)施。

這條路線不再局限于某一類(lèi)特定任務(wù),而是試圖在軌道上構(gòu)建一個(gè)包含多算力節(jié)點(diǎn)、具備高速星間通信能力,且受統(tǒng)一調(diào)度與編排的系統(tǒng),最終目標(biāo)是讓太空中算力能像地面云一樣,實(shí)現(xiàn)靈活調(diào)用、分配與擴(kuò)展。

目前最成體系的軌道云設(shè)想之一,來(lái)自谷歌內(nèi)部的Suncatcher Projec(“捕光者”計(jì)劃),它的核心思路是:在軌道上部署相對(duì)固定位置的算力平臺(tái),通過(guò)持續(xù)穩(wěn)定的太陽(yáng)能供電,為地面的數(shù)據(jù)中心提供算力補(bǔ)充。

在這個(gè)設(shè)想中,太空算力并非獨(dú)立運(yùn)行的“外星系統(tǒng)”,而是被納入現(xiàn)有云計(jì)算體系,成為地面云的一部分。它不追求全球移動(dòng)覆蓋或承擔(dān)用戶直連通信,主要任務(wù)是為地面數(shù)據(jù)中心分擔(dān)算力壓力。簡(jiǎn)單來(lái)說(shuō), 你可以把它理解為懸掛在太空中的“超大規(guī)模算力機(jī)架”。

Ablimit Aili

浙江大學(xué)長(zhǎng)三角智慧綠洲創(chuàng)新中心特聘研究員

在他們發(fā)表的文章中,幾十顆衛(wèi)星形成一個(gè)集群。它不是覆蓋整個(gè)地區(qū),而是一個(gè)群體,并始終保持大致的形狀不變。我猜,這樣設(shè)計(jì)是為了確保它們?cè)谔罩械奶囟ㄎ恢?,能夠與地面數(shù)據(jù)中心實(shí)現(xiàn)數(shù)據(jù)通信。

在谷歌發(fā)布的該計(jì)劃的論文中,非常詳細(xì)地闡釋了Suncatcher系統(tǒng)的架構(gòu)設(shè)定、建設(shè)方案以及成本測(cè)算,從模式上來(lái)說(shuō),Sunchather計(jì)劃幾乎是將地面數(shù)據(jù)中心拆解為眾多小單元,再將它們逐一“太空化”。

它的設(shè)想是在日照更穩(wěn)定的晨昏軌道部署一批搭載太陽(yáng)能陣列的衛(wèi)星,每顆衛(wèi)星均配備Google TPU加速器,衛(wèi)星之間通過(guò)自由空間光通信(FSO)互聯(lián),再用一套更“智能”的控制系統(tǒng)實(shí)現(xiàn)讓這些衛(wèi)星在太空“貼身飛行”,也就是保持極近距離而不發(fā)生碰撞。論文中還舉出了一個(gè)非常具體的結(jié)構(gòu):用81顆衛(wèi)星形成半徑1公里的集群。

在硬件與成本方面,谷歌也進(jìn)行了充分的可行性論證:

1.硬件方面:谷歌專門(mén)為太空數(shù)據(jù)中心研制了特別版本的TPU,針對(duì)Trillium TPU進(jìn)行的輻射測(cè)試結(jié)果顯示,在等效約5年軌道任務(wù)壽命的輻射劑量下,TPU未出現(xiàn)致命性失效。

2.成本方面:谷歌基于SpaceX的發(fā)射數(shù)據(jù)進(jìn)行了詳細(xì)的學(xué)習(xí)曲線分析,推測(cè)到2030年代中期,LEO發(fā)射成本有望降至小于200美元/公斤的量級(jí),若星艦實(shí)現(xiàn)完全重復(fù)使用,發(fā)射成本甚至可能進(jìn)一步降至每公斤60美元甚至15美元。

按照計(jì)劃,谷歌預(yù)計(jì)在2027年初發(fā)射兩顆原型衛(wèi)星,屆時(shí)將測(cè)試TPU在太空中的實(shí)際運(yùn)行情況,并驗(yàn)證光通信鏈路的穩(wěn)定性。

Chapter 2.2.1 SpaceX:基于Starlink的“軌道云”

如果說(shuō)谷歌是“從數(shù)據(jù)中心出發(fā),把它拆成衛(wèi)星編隊(duì)再搬上天”,那SpaceX的路線剛好相反:它是“從衛(wèi)星星座出發(fā),讓星座進(jìn)化成算力云”。

SpaceX手里有一個(gè)現(xiàn)實(shí)存在的、規(guī)模最大的低軌星座——Starlink,截至目前,Starlink大約有9300顆活躍衛(wèi)星,占所有在軌可運(yùn)行衛(wèi)星的約65%,且衛(wèi)星之間已通過(guò)激光鏈路高速互聯(lián)。這意味著,如果想要在太空里做“分布式系統(tǒng)”,SpaceX是少數(shù)真正擁有“分布式硬件底座”的公司。

SpaceX的設(shè)想是:讓部分Starlink衛(wèi)星, 逐步從“純通信節(jié)點(diǎn)”演進(jìn)為同時(shí)具備通信與算力能力的節(jié)點(diǎn),這樣一來(lái),算力不再集中在少數(shù)固定平臺(tái), 而是分布在整張軌道網(wǎng)絡(luò)中。

那具體該怎么實(shí)現(xiàn)呢?實(shí)際上,現(xiàn)在已經(jīng)在天上的Starlink衛(wèi)星不會(huì)直接變成數(shù)據(jù)中心,必須通過(guò)“改造后的新一代衛(wèi)星”,才能真正承載計(jì)算任務(wù)。

目前在軌運(yùn)行的Starlink衛(wèi)星,核心任務(wù)只有通信(負(fù)責(zé)用戶接入、數(shù)據(jù)中繼和星間激光鏈路轉(zhuǎn)發(fā)),這些衛(wèi)星雖然具備一些算力,但并非為高密度計(jì)算而設(shè)計(jì),因此,把它們直接“升級(jí)成數(shù)據(jù)中心”,在工程上并不現(xiàn)實(shí)。

所以SpaceX更可能采取的路徑是:在后續(xù)發(fā)射中,引入一類(lèi)全新的、被改造過(guò)的“算力增強(qiáng)型衛(wèi)星”,這些衛(wèi)星在設(shè)計(jì)上會(huì)發(fā)生明顯變化,包括具備更高的供電能力、專門(mén)為算力設(shè)計(jì)的散熱結(jié)構(gòu)、以及更強(qiáng)的星間通信接口等。它們的核心身份是網(wǎng)絡(luò)中的“計(jì)算節(jié)點(diǎn)”,而非純粹的“通信節(jié)點(diǎn)”,當(dāng)新衛(wèi)星被發(fā)射上天后,它們會(huì)與原有的Starlink衛(wèi)星通過(guò)星間激光鏈路連接,共同組成一個(gè)在軌的、分層式的云系統(tǒng)。

Aili博士在采訪中表示,SpaceX的這種方案,跟他們的研究團(tuán)隊(duì)從多年前所開(kāi)始思考的軌道云數(shù)據(jù)中心建設(shè)方式不謀而合。

Ablimit Aili

浙江大學(xué)長(zhǎng)三角智慧綠洲創(chuàng)新中心特聘研究員

我們提出的云數(shù)據(jù)中心框架,是基于現(xiàn)有的通信衛(wèi)星,比如Starlink。在此基礎(chǔ)上,我們加上通用服務(wù)器等設(shè)備,加大太陽(yáng)能板,加大冷卻板,或者增加冷卻板數(shù)量,并配備更高的帶寬。所以,這個(gè)思路和SpaceX比較類(lèi)似。

這種模式的核心特點(diǎn)是,它并不追求一次性建成超大規(guī)模算力中心,而是依托現(xiàn)有Starlink星座不斷疊加節(jié)點(diǎn)能力,讓軌道網(wǎng)絡(luò)本身慢慢具備計(jì)算屬性,進(jìn)而形成一個(gè)覆蓋全球、動(dòng)態(tài)調(diào)度分布式網(wǎng)絡(luò)。它的優(yōu)勢(shì)在于演進(jìn)成本更低,并且風(fēng)險(xiǎn)可控,就算某個(gè)算力節(jié)點(diǎn)出問(wèn)題,也不會(huì)拖垮整張通信網(wǎng)絡(luò)。

Chapter 2.2.2 太空站式集中數(shù)據(jù)中心

除了“在軌邊緣計(jì)算”和“基于星座的軌道云”,還有一種更直覺(jué)、也更具“地面思維”的探索方向:在太空中建設(shè)集中式數(shù)據(jù)中心。

它的核心思路很簡(jiǎn)單:不把算力分散在大量衛(wèi)星上,而是在太空站或大型在軌平臺(tái)中,集中部署機(jī)柜級(jí)算力系統(tǒng),就像把一座小型地面數(shù)據(jù)中心,整體搬到軌道上。

目前,這條路線更多停留在研究與早期工程驗(yàn)證階段,但已有部分機(jī)構(gòu)和創(chuàng)業(yè)公司開(kāi)始布局。在航天機(jī)構(gòu)層面,包括NASA和歐洲航天體系都曾在國(guó)際空間站(ISS)環(huán)境中,進(jìn)行過(guò)與在軌計(jì)算、數(shù)據(jù)處理和邊緣算力相關(guān)的實(shí)驗(yàn);此外,一些商業(yè)航天公司也在研究在空間站嵌入數(shù)據(jù)中心的可行性,包括Axiom Space,Voyager Space等。

這種模式的優(yōu)勢(shì)在于結(jié)構(gòu)集中、維護(hù)邏輯清晰,且最接近地面數(shù)據(jù)中心的工程思維;但代價(jià)同樣明顯:面臨極高的發(fā)射與在軌建設(shè)成本、擴(kuò)展性有限、且強(qiáng)烈依賴在軌維護(hù)能力。

Ethan Xu

前微軟能源戰(zhàn)略經(jīng)理、前突破能源科研總監(jiān)

首先,它的算力比較集中,跟地面上的數(shù)據(jù)中心類(lèi)似。由于算力集中,各個(gè)機(jī)柜或芯片之間的通信速度會(huì)更快,延時(shí)更低,連接也更可靠。

但是從另一方面來(lái)講,可能在運(yùn)維時(shí)可靠性會(huì)出現(xiàn)問(wèn)題。如果是分布式數(shù)據(jù)中心,即便一個(gè)衛(wèi)星上的算力節(jié)點(diǎn)出現(xiàn)了問(wèn)題,還有幾十個(gè)、幾百個(gè)其他的節(jié)點(diǎn)在。但如果是這種集中式、大型的數(shù)據(jù)中心,如果遭遇比較大的問(wèn)題,就有可能同時(shí)影響大量的算力。

至此,我們已經(jīng)看到了一幅相當(dāng)完整的太空數(shù)據(jù)中心建設(shè)圖景:有的選擇從最務(wù)實(shí)的“在軌邊緣計(jì)算”入手,有的試圖直接構(gòu)建真正的“軌道云計(jì)算”體系,雖然路徑不同、節(jié)奏不同,但它們指向的是同一個(gè)方向:算力,正在被認(rèn)真地推向軌道。

當(dāng)這些路線開(kāi)始從計(jì)劃圖紙走向工程和現(xiàn)實(shí)世界,真正的考驗(yàn)才剛剛開(kāi)始。

03 太空數(shù)據(jù)中心的建設(shè)挑戰(zhàn)與前景

Chapter 3.1 技術(shù)挑戰(zhàn)

太空有太陽(yáng)、有真空環(huán)境,似乎好像天生就適合部署算力,但一旦進(jìn)入工程層面,卻并沒(méi)有那么簡(jiǎn)單。我們先來(lái)看一顆普通的通信衛(wèi)星:

它左右展開(kāi)的兩個(gè)“大翅膀”是太陽(yáng)能板,負(fù)責(zé)為整顆衛(wèi)星提供電力,也是它幾乎唯一的能源來(lái)源。

衛(wèi)星中間相對(duì)緊湊的“盒子”,是衛(wèi)星平臺(tái)。這里面包含了姿態(tài)控制、推進(jìn)系統(tǒng)、電源管理、熱控和計(jì)算控制單元,負(fù)責(zé)讓衛(wèi)星在軌道上穩(wěn)定運(yùn)行、精確指向地面。

衛(wèi)星前方或下方突出的結(jié)構(gòu)是通信載荷。它們負(fù)責(zé)接收來(lái)自地面的信號(hào),進(jìn)行簡(jiǎn)單處理和放大,然后再轉(zhuǎn)發(fā)回地球。

傳統(tǒng)通信衛(wèi)星的設(shè)計(jì)目標(biāo)非常明確:盡量少算、少熱、少功耗,把復(fù)雜計(jì)算留在地面,自己只做“信號(hào)中繼”。而要把算力真正搬到衛(wèi)星上,改變的絕不僅是“多加一塊芯片”,而是要從能源、散熱到結(jié)構(gòu)設(shè)計(jì),將整顆衛(wèi)星的工程邏輯推翻重來(lái)。

首先發(fā)生變化的,是能量系統(tǒng)。為了支撐持續(xù)運(yùn)行的計(jì)算單元,單個(gè)衛(wèi)星的太陽(yáng)能板需要更大面積,電源管理系統(tǒng)也必須更復(fù)雜,因?yàn)樗懔π枰牟皇恰捌骄娏Α保欠€(wěn)定、持續(xù)、不掉線的功率輸入。

Ethan Xu

前微軟能源戰(zhàn)略經(jīng)理、前突破能源科研總監(jiān)

比如100兆瓦的太陽(yáng)能發(fā)電站,在地表上可能相當(dāng)于200個(gè)左右足球場(chǎng)大小的面積,規(guī)模非常大。如果同樣的太陽(yáng)能板要放到太空中展開(kāi),至少需要幾十個(gè)足球場(chǎng)那么大的面積。所以,這就意味著必須從工程上解決一個(gè)問(wèn)題:如何用更輕質(zhì)、更高效的材料,把太陽(yáng)能板折疊好,發(fā)射到太空當(dāng)中,再將其展開(kāi)。在日常運(yùn)維時(shí),還必須采用自動(dòng)化方式,比如利用機(jī)器人對(duì)太陽(yáng)能板進(jìn)行維護(hù)。這就和在地面上出了問(wèn)題,派工人去排查、修復(fù)的模式完全不一樣了。

接著變化的,是衛(wèi)星的“中樞”。在傳統(tǒng)通信衛(wèi)星中,中間的“盒子”主要負(fù)責(zé)控制和調(diào)度;而在算力衛(wèi)星里,這里會(huì)多出真正的計(jì)算載荷——AI加速器、存儲(chǔ)模塊、數(shù)據(jù)處理單元,它們將成為新的“核心器官”。

隨之而來(lái)的,是散熱結(jié)構(gòu)的變化。通信載荷產(chǎn)生的熱量有限,但算力載荷會(huì)持續(xù)發(fā)熱,這意味著衛(wèi)星外部, 必須增加專門(mén)的輻射散熱板,把熱量穩(wěn)定地送向深空。

而這些變化,會(huì)讓衛(wèi)星的重量和重心發(fā)生改變, 進(jìn)而也對(duì)發(fā)射能力和星座部署節(jié)奏提出了全新的要求。

Chapter 3.2 工程實(shí)現(xiàn)與成本挑戰(zhàn)

即便技術(shù)上可行,太空數(shù)據(jù)中心仍然要面對(duì)一個(gè)更現(xiàn)實(shí)的問(wèn)題:工實(shí)現(xiàn)程的復(fù)雜度以及建設(shè)成本的可承受性。

在地面,數(shù)據(jù)中心的建設(shè)流程高度成熟:設(shè)計(jì)、施工、通電,每一步都有標(biāo)準(zhǔn)化路徑,但在太空,工程流程被迫拉長(zhǎng)成一條極復(fù)雜鏈條:從系統(tǒng)級(jí)設(shè)計(jì)到模塊化制造、再到多次發(fā)射、 在軌展開(kāi)、聯(lián)調(diào)運(yùn)行,最后還有運(yùn)行維護(hù)與退役處置,任何一個(gè)環(huán)節(jié)出錯(cuò),都可能導(dǎo)致前期所有投入“作廢”,這就迫使工程本身必須極度保守。

我們?cè)谏弦黄跀?shù)據(jù)中心建設(shè)成本的視頻中分析過(guò),目前建設(shè)1GW的地面數(shù)據(jù)中心大約需要516億美元,但要建設(shè)同等規(guī)模的太空數(shù)據(jù)中心呢?

目前太空數(shù)據(jù)中心的成本結(jié)構(gòu)主要包括四個(gè)部分:能源系統(tǒng)(空間太陽(yáng)能陣列)、散熱系統(tǒng)(超大面積輻射散熱器)、算力與航天級(jí)系統(tǒng)封裝、以及發(fā)射和在軌組裝。

其中,光是“發(fā)射和在軌組裝”這一項(xiàng),成本就幾乎要追上地面數(shù)據(jù)中心的總造價(jià)。為了“能被送上天”,算力、能源、散熱系統(tǒng),都必須被拆分、減重、重新封裝,這不僅提高了單瓦算力的制造成本,一旦規(guī)模上升到百兆瓦甚至吉瓦級(jí),發(fā)射次數(shù)將變成一個(gè)不可忽視的“成本乘數(shù)”。

根據(jù)NASA、JPL等機(jī)構(gòu)的測(cè)算,要在太空中實(shí)現(xiàn)1GW級(jí)持續(xù)功率的在軌能源系統(tǒng),大約需要數(shù)百萬(wàn)平方米級(jí)太陽(yáng)能陣列,這意味著系統(tǒng)總質(zhì)量甚至?xí)_(dá)到上萬(wàn)噸級(jí),即便是按照SpaceX Falcon 9最低的內(nèi)部發(fā)射成本約1500萬(wàn)至2800萬(wàn)美元/公斤來(lái)計(jì)算,這一部分的整體投入就已經(jīng)達(dá)到200至300億美元。

此外,地面數(shù)據(jù)中心可以容忍一定比例的故障, 因?yàn)橛布梢噪S時(shí)更換,但太空數(shù)據(jù)中心不行,算力系統(tǒng)必須在多年無(wú)人維護(hù)的條件下穩(wěn)定運(yùn)行,這也意味著更高規(guī)格的元器件、更嚴(yán)格的測(cè)試周期和更慢的技術(shù)迭代節(jié)奏,最終的結(jié)果是每一瓦算力,都要承擔(dān)更高的“生存成本”。

所以當(dāng)把所有環(huán)節(jié)納入考量,哪怕是非常保守地估算,目前1GW的太空數(shù)據(jù)中心的建設(shè)成本都可能上探至千億美元。

不過(guò),Ethan也表示,雖然現(xiàn)在建太空數(shù)據(jù)中心還非常昂貴,但在發(fā)射成本大幅下降前提下,由于能源方面的成本幾乎為零,未來(lái)太空數(shù)據(jù)中心也可能在整體生命周期成本上優(yōu)于地面系統(tǒng)。

Ethan Xu

前微軟能源戰(zhàn)略經(jīng)理、前突破能源科研總監(jiān)

從經(jīng)濟(jì)本質(zhì)上看,太空數(shù)據(jù)中心主要是利用未來(lái)數(shù)十年極低的運(yùn)行成本優(yōu)勢(shì),來(lái)彌補(bǔ)前期高昂投入的劣勢(shì)。如果前期投入能持續(xù)降低,同時(shí)未來(lái)長(zhǎng)期的運(yùn)行成本也能不斷地下降,那么綜合來(lái)看,太空數(shù)據(jù)中心的成本很有可能在未來(lái)幾年與地面數(shù)據(jù)中心接近,甚至更低

Chapter 3.3 監(jiān)管與挑戰(zhàn)

即便技術(shù)與成本可行,太空數(shù)據(jù)中心仍面臨一個(gè)非常重要的挑戰(zhàn)——監(jiān)管。無(wú)論采用哪種形態(tài)建設(shè),太空數(shù)據(jù)中心本質(zhì)上都意味著在軌設(shè)備數(shù)量級(jí)的增長(zhǎng),為了實(shí)現(xiàn)數(shù)據(jù)中心級(jí)的算力規(guī)模,龐大的衛(wèi)星群甚至?xí)训厍虬鼑饋?lái),而在近地軌道已經(jīng)日益擁擠的情況下,勢(shì)必會(huì)引發(fā)整個(gè)軌道的系統(tǒng)性問(wèn)題。

首先是軌道擁擠。算力衛(wèi)星通常更重、壽命更長(zhǎng)、運(yùn)行狀態(tài)更復(fù)雜,當(dāng)不同國(guó)家、不同企業(yè)以及不同類(lèi)型的衛(wèi)星同時(shí)在同一軌道層運(yùn)行,協(xié)調(diào)難度會(huì)被成倍放大。

其次是碰撞風(fēng)險(xiǎn)與太空垃圾。 高功耗算力衛(wèi)星一旦失效,如果不能及時(shí)、可控地離軌,便可能成為長(zhǎng)期存在的碎片源,而碎片一旦產(chǎn)生,會(huì)在軌道上以極高速度傳播風(fēng)險(xiǎn)——這影響的不僅只是單個(gè)項(xiàng)目, 更是整個(gè)軌道環(huán)境的長(zhǎng)期安全。

這也意味著,太空數(shù)據(jù)中心的推進(jìn)不僅需要技術(shù)突破和資本支持,更需要一套全新的軌道治理機(jī)制,包括制定更嚴(yán)格的離軌與退役標(biāo)準(zhǔn),以及實(shí)現(xiàn)跨國(guó)界、跨運(yùn)營(yíng)方的長(zhǎng)期協(xié)作。

Chapter 3.4 未來(lái)前景

在理清了太空數(shù)據(jù)中心所面臨的技術(shù)、成本和監(jiān)管的一系列挑戰(zhàn)后,一個(gè)判斷就變得更清晰了:太空數(shù)據(jù)中心絕非一條“短期見(jiàn)效”的路線。

從宏觀算力體系的視角來(lái)看,未來(lái)太空數(shù)據(jù)中心的角色并非地面數(shù)據(jù)中心的替代者, 而是補(bǔ)充性的存在。至少在可預(yù)見(jiàn)的未來(lái),地面數(shù)據(jù)中心依然具備無(wú)可替代的優(yōu)勢(shì):成本更低、部署更快、維護(hù)更靈活、生態(tài)也更成熟,對(duì)于絕大多數(shù)通用計(jì)算任務(wù)而言,將算力部署在地面,依然是最經(jīng)濟(jì)、最高效的選擇。

而太空數(shù)據(jù)中心的建設(shè)意義,不在于追求短期的“性價(jià)比”,而在于開(kāi)辟一條不再受制于地面物理?xiàng)l件的算力增長(zhǎng)路徑。當(dāng)算力規(guī)模持續(xù)膨脹,地面數(shù)據(jù)中心日益受到能源供給、散熱能力、用水壓力及土地資源等約束時(shí),太空所提供的是一種長(zhǎng)期可行的備選方案。

因此,即便太空數(shù)據(jù)中心真正落地,更現(xiàn)實(shí)、也更可能出現(xiàn)的形態(tài)并非“算力整體上天”,而是地面與太空并存的“混合算力體系”:地面數(shù)據(jù)中心繼續(xù)承擔(dān)主體算力、核心存儲(chǔ)和高頻交互任務(wù);而太空數(shù)據(jù)中心,則在特定場(chǎng)景中發(fā)揮關(guān)鍵作用。

Ethan Xu

前微軟能源戰(zhàn)略經(jīng)理,前突破能源科研總監(jiān)

太空數(shù)據(jù)中心在某些場(chǎng)景下是非??尚械?。比如在AI訓(xùn)練過(guò)程中,需要消耗大量的能量,但AI訓(xùn)練針對(duì)的客戶主要是公司內(nèi)部的科研人員,并不是普通消費(fèi)者。因此,可以將這類(lèi)對(duì)能耗要求特別大、對(duì)延遲要求不高、同時(shí) 對(duì)可靠性要求也不是那么高的算力需求,放到太空中進(jìn)行。此外,隨著太空科技的發(fā)展,很多數(shù)據(jù)需要在太空中采集,也需要在太空中計(jì)算。所以,太空數(shù)據(jù)中心可以作為一種邊緣數(shù)據(jù)中心存在。

04 云端之上重新定義算力的物理邊界

如果說(shuō)地面數(shù)據(jù)中心定義了過(guò)去二十年算力增長(zhǎng)的方式,那么太空數(shù)據(jù)中心,更像是在為下一個(gè)算力時(shí)代,提前鋪設(shè)一條尚未啟用的基礎(chǔ)設(shè)施。

今天的它,仍然昂貴、復(fù)雜、充滿爭(zhēng)議,距離規(guī)?;€有很長(zhǎng)的路要走,但它所回應(yīng)的, 是一個(gè)越來(lái)越現(xiàn)實(shí)的問(wèn)題:當(dāng)算力需求繼續(xù)膨脹,地面世界是否還能無(wú)限承載?

也許在短期內(nèi),太空數(shù)據(jù)中心不會(huì)成為主角,但它正在提醒著我們——當(dāng)人類(lèi)開(kāi)始認(rèn)真討論把“云”送上軌道,便意味著“算力”已經(jīng)被當(dāng)作一種需要跨越行星尺度來(lái)思考的基礎(chǔ)資源。太空數(shù)據(jù)中心的意義,或許不在于它什么時(shí)候能落地,而在于它也讓我們意識(shí)到:人類(lèi)計(jì)算的邊界,如今已不再止于地球。

 

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。