四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

正在閱讀:

估值430億,這家獨角獸接手英偉達“看不上”的生意

掃一掃下載界面新聞APP

估值430億,這家獨角獸接手英偉達“看不上”的生意

當60億美元估值的“推理專精”獨角獸撞上4.2萬億美元的生態(tài)帝國,AI芯片的戰(zhàn)場正從通用算力轉(zhuǎn)向細分賽道的生死競速。

文|融中財經(jīng)

一個登頂,一個起跳,4.2萬億美元與60億美元的落差,為AI芯片戰(zhàn)局埋下新變量。

一邊是英偉達市值沖破4.2萬億美元,成為歷史上首家達到這一規(guī)模的科技公司——這個數(shù)字超過了英國所有上市公司的市值總和,堪稱商業(yè)史上“大象級”的存在。

另一邊,2016年成立的加州初創(chuàng)公司Groq正洽談新一輪融資:以60億美元(約430億人民幣)的投后估值募集3-5億美元的資金,用于履行與沙特阿拉伯的重磅合同。

當黃仁勛在東方意氣風發(fā)之際,Groq創(chuàng)始人喬納森·羅斯正盯著沙特的數(shù)據(jù)中心屏幕——那里由1.9萬顆自研芯片組成的AI推理集群,從2024年12月搭建到投入運行僅用了8天,成為中東加速AI基建的核心引擎。

60億對4.2萬億,Groq以不足英偉達0.2%的體量,展開了一場“不對稱”的芯片競賽。

這家公司被視為英偉達最強的競爭對手之一。它以LPU芯片的SRAM架構(gòu)和TSP流式計算專攻推理,靠80TB/s片上帶寬和靜態(tài)調(diào)度砍掉延遲,瞄準英偉達H100的推理短板;英偉達則憑CUDA生態(tài)和HBM顯存壟斷,一邊用H200強化推理能效,一邊通過供應(yīng)鏈控制(如買斷HBM產(chǎn)能)壓制對手。

前者借沙特布局和開源模型突圍,后者靠開發(fā)者綁定和全棧優(yōu)勢死守,在推理市場上演“精準狙擊”與“生態(tài)護城河”的攻防戰(zhàn)。

創(chuàng)企中的“金湯匙玩家”

這家2016年誕生于硅谷的公司,從誕生就自帶“明星基因”。

創(chuàng)始人喬納森·羅斯(Jonathan Ross)的履歷本身就是塊金字招牌——他是谷歌第一代張量處理單元(TPU)的核心研發(fā)成員,親歷了AI芯片從實驗室走向產(chǎn)業(yè)化的關(guān)鍵階段。公司的另一位創(chuàng)始人是谷歌Alphabet的X實驗室工程師道格拉斯·懷特曼(Douglas Wightman)。同樣值得關(guān)注的是Groq的硬件工程副總裁吉姆·米勒(Jim Miller),這位行業(yè)老兵既主導(dǎo)過亞馬遜AWS云計算硬件的開發(fā)與交付,也曾在英特爾領(lǐng)銜Pentium II處理器項目,橫跨消費電子與企業(yè)級硬件兩大領(lǐng)域。

羅斯和米勒的履歷吸引了前谷歌TPU團隊80%的核心成員加入Groq,這種人才聚集效應(yīng)在2024年Groq的沙特投資后進一步放大——Groq與Meta合作,為其官方Llama API提供推理加速服務(wù);Meta首席AI科學家Yann LeCun以技術(shù)顧問身份支持Groq; 英特爾前晶圓廠負責人Stuart Pann則出任Groq首席運營官(COO)。

頂級團隊自然吸引頂級資本。

2024年8月,黑石集團(BlackRock)領(lǐng)投了Groq 6.4億美元的D輪融資,思科、三星Catalyst基金等機構(gòu)跟投,讓Groq的估值一舉沖到28億美元。短短一年后,其估值即將翻倍至60億美元,成為AI芯片賽道成長最快的獨角獸之一。

此次Groq募資3-5億美元,除了履行和沙特的合同,幫助其AI推理數(shù)據(jù)中心項目快速落地外,還包括構(gòu)建北美本土供應(yīng)鏈、擴張GroqCloud開發(fā)者生態(tài),以及應(yīng)對英偉達H200芯片量產(chǎn)帶來的競爭壓力。盡管沙特協(xié)議帶來長期收入預(yù)期,但里程碑式付款條款導(dǎo)致2025年上半年需補充流動資金以應(yīng)對產(chǎn)能爬坡前的資金缺口。

Groq的融資帶著明確的戰(zhàn)略意圖。

2024年底,Groq以閃電般的速度開啟在沙特的戰(zhàn)略布局。早在2024年9月,Groq便與沙特阿美的數(shù)字與技術(shù)子公司Aramco Digital簽署諒解備忘錄,計劃在沙特達曼建設(shè)全球最大規(guī)模的AI推理數(shù)據(jù)中心。

作為落地的第一步,Groq于2024年12月在達曼快速部署了包含1.9萬個LPU(語言處理單元)的推理集群,僅用8天時間即完成上線,每日可處理數(shù)十億Tokens(詞元),展現(xiàn)出驚人的執(zhí)行效率。

為適配沙特的高溫環(huán)境,Groq對硬件設(shè)計進行了針對性優(yōu)化,同時啟動阿拉伯語NLP模型的本地化開發(fā),以滿足中東市場的特定需求。

該項目被納入沙特“2030愿景”,沙特阿美為此提供了上億美元的資金支持,目標在2025年將處理能力提升至每日數(shù)千億Tokens,并最終部署10.8萬個LPU芯片,形成全球最大的AI推理基礎(chǔ)設(shè)施之一。這一布局依托沙特的地緣優(yōu)勢、低廉的能源成本和充足的建設(shè)空間。Groq的快速行動為其后續(xù)獲得沙特15億美元投資承諾奠定了基礎(chǔ)。

2025年2月,沙特主權(quán)基金通過沙特阿美旗下Aramco Digital向其拋出15億美元投資承諾,條件是協(xié)助沙特建設(shè)本土AI基礎(chǔ)設(shè)施。這筆錢不僅讓Groq的現(xiàn)金流底氣十足,更讓其業(yè)績預(yù)期飆升:2025年營收有望實現(xiàn)跨越式增長,達到5億美元,使Groq邁入“億級營收俱樂部”。

不碰“訓練”主戰(zhàn)場,??小巴评怼庇补穷^

Groq從沒想過與英偉達在AI訓練芯片市場正面交鋒。

當英偉達的GPU憑借CUDA生態(tài)在訓練領(lǐng)域占據(jù)超80%市場份額時,它選了條差異化路線:專注于AI推理芯片。

這步棋精準踩中了行業(yè)痛點。AI計算的“訓練”與“推理”環(huán)節(jié)有著本質(zhì)區(qū)別:訓練像“教學生”,需要海量數(shù)據(jù)反復(fù)調(diào)整模型參數(shù),對算力的通用性和精度要求極高;推理則像“學生答題”,需要在毫秒級時間內(nèi)給出結(jié)果,更強調(diào)低延遲、高并發(fā)和低成本。

英偉達的GPU本是為圖形渲染設(shè)計的,改造后用于AI訓練合適,但拿來做推理卻有些“大材小用”——其硬件資源中,有相當一部分是為支持訓練時的復(fù)雜梯度計算而設(shè)計,在推理階段反而成了冗余負擔。

Groq的核心產(chǎn)品LPU(Language Processing Unit)就是沖著推理場景的痛點來的。它不追求“全能型”算力,而是聚焦“推理專項優(yōu)化”:讓Meta的Llama、谷歌的Gemma等已訓練完成的大模型,在執(zhí)行文本生成、語義理解等任務(wù)時跑得更快、更省電。

根據(jù)Groq官方在2024年底發(fā)布的基準測試結(jié)果,搭載LPU芯片的Llama模型,在大模型推理任務(wù)中每秒能生成500個Tokens(文本詞元),對比英偉達H100(FP16)的150個Tokens每秒的速度快了約3倍,對比英偉達H200的200 Tokens每秒的速度,也快了兩倍多。

在商業(yè)模式上,Groq也與英偉達走出了完全不同的路徑。

英偉達靠“硬件銷售+軟件生態(tài)”的組合拳盈利——既賣GPU芯片和DGX服務(wù)器等硬件,又通過CUDA平臺綁定開發(fā)者;

Groq則另辟蹊徑,采用“芯片即服務(wù)”模式:自己建設(shè)數(shù)據(jù)中心,將LPU芯片組成服務(wù)器集群,向客戶提供云端推理算力租用服務(wù)。這種模式讓客戶無需直接采購硬件,直接通過API調(diào)用就能體驗其芯片性能,大大降低了嘗試門檻。

今年7月,Groq宣布在歐洲芬蘭建設(shè)新的數(shù)據(jù)中心,進一步擴大云端服務(wù)版圖,顯然是想通過“服務(wù)先行”策略快速占領(lǐng)市場。

Groq的技術(shù)手冊里藏著不少“反套路”設(shè)計。

當行業(yè)巨頭們比拼4nm、5nm、7nm先進制程時,它反其道而行之,選擇相對成熟的14nm工藝;當英偉達的H100 GPU依賴HBM高帶寬顯存提升性能時,Groq在LPU芯片里塞進了230MB SRAM高速緩存,靠架構(gòu)創(chuàng)新彌補制程差距。

這步險棋意外走通了。大帶寬SRAM讓LPU的片上內(nèi)存帶寬達到80TB/s,數(shù)據(jù)可以在芯片內(nèi)部高速流轉(zhuǎn),不必頻繁訪問板載顯存,直接將推理延遲砍掉一半以上。

更關(guān)鍵的是,這種設(shè)計讓Groq避開了HBM顯存的供應(yīng)鏈瓶頸——英偉達的H100之所以常年缺貨,很大程度上受制于HBM顯存的產(chǎn)能,而SRAM的供應(yīng)相對穩(wěn)定,讓LPU的量產(chǎn)更有保障。

架構(gòu)層面的差異更具顛覆性。

英偉達GPU采用“SIMD”架構(gòu),擅長同時處理大量相似任務(wù),但需要動態(tài)調(diào)度線程,存在一定算力閑置;Groq的TSP(Tensor Streaming Processor)架構(gòu)則采用“流式計算”模式,將推理任務(wù)拆解成固定流水線,通過靜態(tài)調(diào)度讓每個時鐘周期的算力都得到充分利用。這種設(shè)計讓單顆LPU芯片的算力達到1000萬億次運算每秒(1000 TOPS),在部分機器學習模型上,速度比常規(guī)GPU甚至谷歌TPU快10到100倍。

Groq的技術(shù)路線雖在推理場景展現(xiàn)優(yōu)勢,但也存在顯著短板。

LPU芯片內(nèi)置230MB SRAM雖能實現(xiàn)高帶寬,但單芯片內(nèi)存遠低于英偉達H100的80GB HBM顯存,導(dǎo)致運行大模型時需大規(guī)模集群拆分。

正如原阿里技術(shù)副總裁賈揚清的推算,運行Llama-70b模型理論上需572顆LPU(單芯片2萬美元,總成本超1100萬美元),而8顆H100(總成本約30萬美元)即可實現(xiàn)相當性能,硬件成本差距達30倍以上。盡管實際部署中可通過模型分片優(yōu)化,但大規(guī)模集群的運維復(fù)雜度和能耗(576顆LPU集群功耗約100kW,8卡H100約30kW)仍顯著高于GPU方案。

更關(guān)鍵的是專用架構(gòu)的場景局限性:專用硬件的靜態(tài)調(diào)度優(yōu)勢在算法迭代頻繁時反而成為劣勢,難以像GPU通過軟件更新快速適配新模型。

生態(tài)破局與市場裂縫

技術(shù)再強,沒有生態(tài)支撐也難成氣候。英偉達的CUDA平臺已積累超400萬開發(fā)者,形成“硬件-軟件-開發(fā)者”的穩(wěn)固三角,這是任何挑戰(zhàn)者都繞不開的高墻。Groq的破局策略是"借船出海":盡可能對接現(xiàn)有開源生態(tài),降低開發(fā)者的遷移成本。

它首先瞄準了開源大模型社群。Groq團隊花了大量精力優(yōu)化Meta的Llama系列、谷歌的Gemma等熱門開源模型在LPU芯片上的運行效率,這些模型本身已積累數(shù)百萬開發(fā)者,只要證明LPU能讓模型跑得更快,自然能吸引開發(fā)者嘗試。更關(guān)鍵的是,Groq在2025年推出了開發(fā)者控制臺,通過友好的編程接口和免費算力(每月1000萬Tokens的額度)試用政策,目前吸引了7.5萬名開發(fā)者注冊。

價格策略同樣服務(wù)于生態(tài)擴張。LPU芯片2萬美元出頭的定價,不僅比英偉達H100的2.5-3萬美元低,也比部分中端GPU更具吸引力。Groq CEO喬納森·羅斯曾表示,到2025年底,Groq計劃部署150萬顆推理芯片,占據(jù)全球一半的AI推理計算能力。這番話雖有營銷成分,卻精準點出了行業(yè)趨勢——AI算力投入的重心正從模型訓練階段向推理階段傾斜。

英偉達當然不會坐視“Groq們”蠶食市場。

面對推理芯片的崛起,它已迅速調(diào)整策略:推出基于安培架構(gòu)的A30/A10等推理專用GPU,優(yōu)化TensorRT軟件庫的推理延遲,并通過Triton推理服務(wù)器提供端到端加速方案,試圖將訓練領(lǐng)域的優(yōu)勢延伸到推理市場。

更難撼動的是CUDA生態(tài)的“慣性”。開發(fā)者在CUDA平臺上積累了大量代碼和工具鏈,遷移到新平臺需要重新學習和調(diào)試,這種“路徑依賴”讓很多企業(yè)寧愿忍受GPU的高成本,也不愿冒險嘗試新方案。

有行業(yè)人士透露,部分企業(yè)在與Groq接觸時異常謹慎,生怕消息走漏后被英偉達“穿小鞋”——比如延遲交付GPU,這種隱形壓力客觀上抬高了新芯片的推廣門檻。

然而,市場永遠存在裂縫。

2024年以來的“GPU荒”讓客戶苦不堪言:云計算廠商為了搶購英偉達芯片,不得不提前幾個月下單,否則就可能排不上產(chǎn)能。這種供需失衡讓企業(yè)開始主動尋找“第二供應(yīng)商”,降低對單一廠商的依賴,這為Groq創(chuàng)造了窗口期。

更重要的是,AI芯片市場并非“二元對立”。除了英偉達和Groq,英國的Graphcore、中國的寒武紀、美國的Cerebras等玩家都在各自的技術(shù)路線上發(fā)力,形成“一超多強”的競爭格局。

Groq的優(yōu)勢在于,它抓住了沙特等新興市場的需求——中東國家正雄心勃勃地建設(shè)AI基礎(chǔ)設(shè)施,既有錢又有場景,還樂于扶持非美國主流的技術(shù)供應(yīng)商以實現(xiàn)技術(shù)自主,這種地緣需求為Groq提供了理想的“試驗田”。

然而,面對新興市場的爭奪,初創(chuàng)公司如Groq需加速布局——因為巨頭們也沒有停下腳步。繼去年12月Groq在沙特布局后,今年5月,英偉達與AMD也發(fā)現(xiàn)了這一新興市場,相繼宣布在沙特建設(shè)芯片制造及AI基礎(chǔ)設(shè)施基地,直接切入中東AI算力核心市場,這無疑給后來者增添了競爭壓力。

全球AI芯片的競合態(tài)勢,在中國市場呈現(xiàn)出更復(fù)雜的張力。這種壓力也在迫使中國AI芯片市場加速“場景化突圍”。中國AI芯片市場的突圍路徑,正通過垂直場景的深度綁定逐步清晰——避開通用算力的正面競爭,在本土特色場景中打磨技術(shù)與生態(tài)。

結(jié)語

這場60億對4.2萬億的較量,才剛剛開始。

它的結(jié)局大概不是“你死我活”的零和游戲,而是形成“多元共生”的生態(tài)平衡:英偉達繼續(xù)主導(dǎo)高端AI訓練市場,Groq等新銳在推理細分賽道分得一杯羹。

這一格局恰似行業(yè)演進的常態(tài):正如智能手機時代,蘋果、三星錨定高端市場,小米、傳音則在中低端與新興市場開辟空間,彼此并非替代而是互補;又如AI領(lǐng)域,通用大模型與垂直場景的AI Agent各司其職——前者支撐基礎(chǔ)能力,后者深耕具體需求。

對整個行業(yè)來說,這種競爭是好事。Groq的出現(xiàn)至少能迫使英偉達優(yōu)化推理芯片的成本和性能,讓更多企業(yè)用得起AI算力。畢竟,AI應(yīng)用的場景豐富——從智能客服到自動駕駛,從醫(yī)療診斷到工業(yè)質(zhì)檢,不同場景對算力的需求千差萬別,既需要英偉達這樣的“全能選手”,也需要Groq這樣的“專精玩家”。

“某種程度上,我們的存在對英偉達反而是一種利好,”Groq CEO羅斯說?!八麄兛梢岳^續(xù)生產(chǎn)那些高利潤訓練用的GPU,而我們則接手他們不太想做、低利潤但高產(chǎn)量的推理業(yè)務(wù)。”

當年沒人能想到,一家顯卡公司能成為AI時代的“賣鏟人”;同理,今天估值60億美元的Groq,十年后或許會在AI芯片版圖中占據(jù)重要一席。

羅斯直言:“你的工作不是跟隨浪潮,而是要提前站位,準備好迎接它?!?/p>

無論Groq最終能否撼動英偉達,它所代表的創(chuàng)新精神和差異化打法都為行業(yè)帶來了新的思考:在巨頭林立的AI時代,小團隊依然有機會憑借卓越的洞察和執(zhí)行,實現(xiàn)對大象的“螞蟻撼樹”——或許不能將之推倒,卻足以令大象為之側(cè)目,不得不改變方向。

這正是技術(shù)進步最迷人的地方,也是市場競爭的價值所在。

 

來源:元素elements

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

英偉達

4.9k
  • 黃仁勛澄清:對OpenAI的千億投資“從未承諾”,英偉達將逐步評估
  • 黃仁勛否認對OpenAI不滿,透露將巨額投資

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

估值430億,這家獨角獸接手英偉達“看不上”的生意

當60億美元估值的“推理專精”獨角獸撞上4.2萬億美元的生態(tài)帝國,AI芯片的戰(zhàn)場正從通用算力轉(zhuǎn)向細分賽道的生死競速。

文|融中財經(jīng)

一個登頂,一個起跳,4.2萬億美元與60億美元的落差,為AI芯片戰(zhàn)局埋下新變量。

一邊是英偉達市值沖破4.2萬億美元,成為歷史上首家達到這一規(guī)模的科技公司——這個數(shù)字超過了英國所有上市公司的市值總和,堪稱商業(yè)史上“大象級”的存在。

另一邊,2016年成立的加州初創(chuàng)公司Groq正洽談新一輪融資:以60億美元(約430億人民幣)的投后估值募集3-5億美元的資金,用于履行與沙特阿拉伯的重磅合同。

當黃仁勛在東方意氣風發(fā)之際,Groq創(chuàng)始人喬納森·羅斯正盯著沙特的數(shù)據(jù)中心屏幕——那里由1.9萬顆自研芯片組成的AI推理集群,從2024年12月搭建到投入運行僅用了8天,成為中東加速AI基建的核心引擎。

60億對4.2萬億,Groq以不足英偉達0.2%的體量,展開了一場“不對稱”的芯片競賽。

這家公司被視為英偉達最強的競爭對手之一。它以LPU芯片的SRAM架構(gòu)和TSP流式計算專攻推理,靠80TB/s片上帶寬和靜態(tài)調(diào)度砍掉延遲,瞄準英偉達H100的推理短板;英偉達則憑CUDA生態(tài)和HBM顯存壟斷,一邊用H200強化推理能效,一邊通過供應(yīng)鏈控制(如買斷HBM產(chǎn)能)壓制對手。

前者借沙特布局和開源模型突圍,后者靠開發(fā)者綁定和全棧優(yōu)勢死守,在推理市場上演“精準狙擊”與“生態(tài)護城河”的攻防戰(zhàn)。

創(chuàng)企中的“金湯匙玩家”

這家2016年誕生于硅谷的公司,從誕生就自帶“明星基因”。

創(chuàng)始人喬納森·羅斯(Jonathan Ross)的履歷本身就是塊金字招牌——他是谷歌第一代張量處理單元(TPU)的核心研發(fā)成員,親歷了AI芯片從實驗室走向產(chǎn)業(yè)化的關(guān)鍵階段。公司的另一位創(chuàng)始人是谷歌Alphabet的X實驗室工程師道格拉斯·懷特曼(Douglas Wightman)。同樣值得關(guān)注的是Groq的硬件工程副總裁吉姆·米勒(Jim Miller),這位行業(yè)老兵既主導(dǎo)過亞馬遜AWS云計算硬件的開發(fā)與交付,也曾在英特爾領(lǐng)銜Pentium II處理器項目,橫跨消費電子與企業(yè)級硬件兩大領(lǐng)域。

羅斯和米勒的履歷吸引了前谷歌TPU團隊80%的核心成員加入Groq,這種人才聚集效應(yīng)在2024年Groq的沙特投資后進一步放大——Groq與Meta合作,為其官方Llama API提供推理加速服務(wù);Meta首席AI科學家Yann LeCun以技術(shù)顧問身份支持Groq; 英特爾前晶圓廠負責人Stuart Pann則出任Groq首席運營官(COO)。

頂級團隊自然吸引頂級資本。

2024年8月,黑石集團(BlackRock)領(lǐng)投了Groq 6.4億美元的D輪融資,思科、三星Catalyst基金等機構(gòu)跟投,讓Groq的估值一舉沖到28億美元。短短一年后,其估值即將翻倍至60億美元,成為AI芯片賽道成長最快的獨角獸之一。

此次Groq募資3-5億美元,除了履行和沙特的合同,幫助其AI推理數(shù)據(jù)中心項目快速落地外,還包括構(gòu)建北美本土供應(yīng)鏈、擴張GroqCloud開發(fā)者生態(tài),以及應(yīng)對英偉達H200芯片量產(chǎn)帶來的競爭壓力。盡管沙特協(xié)議帶來長期收入預(yù)期,但里程碑式付款條款導(dǎo)致2025年上半年需補充流動資金以應(yīng)對產(chǎn)能爬坡前的資金缺口。

Groq的融資帶著明確的戰(zhàn)略意圖。

2024年底,Groq以閃電般的速度開啟在沙特的戰(zhàn)略布局。早在2024年9月,Groq便與沙特阿美的數(shù)字與技術(shù)子公司Aramco Digital簽署諒解備忘錄,計劃在沙特達曼建設(shè)全球最大規(guī)模的AI推理數(shù)據(jù)中心。

作為落地的第一步,Groq于2024年12月在達曼快速部署了包含1.9萬個LPU(語言處理單元)的推理集群,僅用8天時間即完成上線,每日可處理數(shù)十億Tokens(詞元),展現(xiàn)出驚人的執(zhí)行效率。

為適配沙特的高溫環(huán)境,Groq對硬件設(shè)計進行了針對性優(yōu)化,同時啟動阿拉伯語NLP模型的本地化開發(fā),以滿足中東市場的特定需求。

該項目被納入沙特“2030愿景”,沙特阿美為此提供了上億美元的資金支持,目標在2025年將處理能力提升至每日數(shù)千億Tokens,并最終部署10.8萬個LPU芯片,形成全球最大的AI推理基礎(chǔ)設(shè)施之一。這一布局依托沙特的地緣優(yōu)勢、低廉的能源成本和充足的建設(shè)空間。Groq的快速行動為其后續(xù)獲得沙特15億美元投資承諾奠定了基礎(chǔ)。

2025年2月,沙特主權(quán)基金通過沙特阿美旗下Aramco Digital向其拋出15億美元投資承諾,條件是協(xié)助沙特建設(shè)本土AI基礎(chǔ)設(shè)施。這筆錢不僅讓Groq的現(xiàn)金流底氣十足,更讓其業(yè)績預(yù)期飆升:2025年營收有望實現(xiàn)跨越式增長,達到5億美元,使Groq邁入“億級營收俱樂部”。

不碰“訓練”主戰(zhàn)場,??小巴评怼庇补穷^

Groq從沒想過與英偉達在AI訓練芯片市場正面交鋒。

當英偉達的GPU憑借CUDA生態(tài)在訓練領(lǐng)域占據(jù)超80%市場份額時,它選了條差異化路線:專注于AI推理芯片。

這步棋精準踩中了行業(yè)痛點。AI計算的“訓練”與“推理”環(huán)節(jié)有著本質(zhì)區(qū)別:訓練像“教學生”,需要海量數(shù)據(jù)反復(fù)調(diào)整模型參數(shù),對算力的通用性和精度要求極高;推理則像“學生答題”,需要在毫秒級時間內(nèi)給出結(jié)果,更強調(diào)低延遲、高并發(fā)和低成本。

英偉達的GPU本是為圖形渲染設(shè)計的,改造后用于AI訓練合適,但拿來做推理卻有些“大材小用”——其硬件資源中,有相當一部分是為支持訓練時的復(fù)雜梯度計算而設(shè)計,在推理階段反而成了冗余負擔。

Groq的核心產(chǎn)品LPU(Language Processing Unit)就是沖著推理場景的痛點來的。它不追求“全能型”算力,而是聚焦“推理專項優(yōu)化”:讓Meta的Llama、谷歌的Gemma等已訓練完成的大模型,在執(zhí)行文本生成、語義理解等任務(wù)時跑得更快、更省電。

根據(jù)Groq官方在2024年底發(fā)布的基準測試結(jié)果,搭載LPU芯片的Llama模型,在大模型推理任務(wù)中每秒能生成500個Tokens(文本詞元),對比英偉達H100(FP16)的150個Tokens每秒的速度快了約3倍,對比英偉達H200的200 Tokens每秒的速度,也快了兩倍多。

在商業(yè)模式上,Groq也與英偉達走出了完全不同的路徑。

英偉達靠“硬件銷售+軟件生態(tài)”的組合拳盈利——既賣GPU芯片和DGX服務(wù)器等硬件,又通過CUDA平臺綁定開發(fā)者;

Groq則另辟蹊徑,采用“芯片即服務(wù)”模式:自己建設(shè)數(shù)據(jù)中心,將LPU芯片組成服務(wù)器集群,向客戶提供云端推理算力租用服務(wù)。這種模式讓客戶無需直接采購硬件,直接通過API調(diào)用就能體驗其芯片性能,大大降低了嘗試門檻。

今年7月,Groq宣布在歐洲芬蘭建設(shè)新的數(shù)據(jù)中心,進一步擴大云端服務(wù)版圖,顯然是想通過“服務(wù)先行”策略快速占領(lǐng)市場。

Groq的技術(shù)手冊里藏著不少“反套路”設(shè)計。

當行業(yè)巨頭們比拼4nm、5nm、7nm先進制程時,它反其道而行之,選擇相對成熟的14nm工藝;當英偉達的H100 GPU依賴HBM高帶寬顯存提升性能時,Groq在LPU芯片里塞進了230MB SRAM高速緩存,靠架構(gòu)創(chuàng)新彌補制程差距。

這步險棋意外走通了。大帶寬SRAM讓LPU的片上內(nèi)存帶寬達到80TB/s,數(shù)據(jù)可以在芯片內(nèi)部高速流轉(zhuǎn),不必頻繁訪問板載顯存,直接將推理延遲砍掉一半以上。

更關(guān)鍵的是,這種設(shè)計讓Groq避開了HBM顯存的供應(yīng)鏈瓶頸——英偉達的H100之所以常年缺貨,很大程度上受制于HBM顯存的產(chǎn)能,而SRAM的供應(yīng)相對穩(wěn)定,讓LPU的量產(chǎn)更有保障。

架構(gòu)層面的差異更具顛覆性。

英偉達GPU采用“SIMD”架構(gòu),擅長同時處理大量相似任務(wù),但需要動態(tài)調(diào)度線程,存在一定算力閑置;Groq的TSP(Tensor Streaming Processor)架構(gòu)則采用“流式計算”模式,將推理任務(wù)拆解成固定流水線,通過靜態(tài)調(diào)度讓每個時鐘周期的算力都得到充分利用。這種設(shè)計讓單顆LPU芯片的算力達到1000萬億次運算每秒(1000 TOPS),在部分機器學習模型上,速度比常規(guī)GPU甚至谷歌TPU快10到100倍。

Groq的技術(shù)路線雖在推理場景展現(xiàn)優(yōu)勢,但也存在顯著短板。

LPU芯片內(nèi)置230MB SRAM雖能實現(xiàn)高帶寬,但單芯片內(nèi)存遠低于英偉達H100的80GB HBM顯存,導(dǎo)致運行大模型時需大規(guī)模集群拆分。

正如原阿里技術(shù)副總裁賈揚清的推算,運行Llama-70b模型理論上需572顆LPU(單芯片2萬美元,總成本超1100萬美元),而8顆H100(總成本約30萬美元)即可實現(xiàn)相當性能,硬件成本差距達30倍以上。盡管實際部署中可通過模型分片優(yōu)化,但大規(guī)模集群的運維復(fù)雜度和能耗(576顆LPU集群功耗約100kW,8卡H100約30kW)仍顯著高于GPU方案。

更關(guān)鍵的是專用架構(gòu)的場景局限性:專用硬件的靜態(tài)調(diào)度優(yōu)勢在算法迭代頻繁時反而成為劣勢,難以像GPU通過軟件更新快速適配新模型。

生態(tài)破局與市場裂縫

技術(shù)再強,沒有生態(tài)支撐也難成氣候。英偉達的CUDA平臺已積累超400萬開發(fā)者,形成“硬件-軟件-開發(fā)者”的穩(wěn)固三角,這是任何挑戰(zhàn)者都繞不開的高墻。Groq的破局策略是"借船出海":盡可能對接現(xiàn)有開源生態(tài),降低開發(fā)者的遷移成本。

它首先瞄準了開源大模型社群。Groq團隊花了大量精力優(yōu)化Meta的Llama系列、谷歌的Gemma等熱門開源模型在LPU芯片上的運行效率,這些模型本身已積累數(shù)百萬開發(fā)者,只要證明LPU能讓模型跑得更快,自然能吸引開發(fā)者嘗試。更關(guān)鍵的是,Groq在2025年推出了開發(fā)者控制臺,通過友好的編程接口和免費算力(每月1000萬Tokens的額度)試用政策,目前吸引了7.5萬名開發(fā)者注冊。

價格策略同樣服務(wù)于生態(tài)擴張。LPU芯片2萬美元出頭的定價,不僅比英偉達H100的2.5-3萬美元低,也比部分中端GPU更具吸引力。Groq CEO喬納森·羅斯曾表示,到2025年底,Groq計劃部署150萬顆推理芯片,占據(jù)全球一半的AI推理計算能力。這番話雖有營銷成分,卻精準點出了行業(yè)趨勢——AI算力投入的重心正從模型訓練階段向推理階段傾斜。

英偉達當然不會坐視“Groq們”蠶食市場。

面對推理芯片的崛起,它已迅速調(diào)整策略:推出基于安培架構(gòu)的A30/A10等推理專用GPU,優(yōu)化TensorRT軟件庫的推理延遲,并通過Triton推理服務(wù)器提供端到端加速方案,試圖將訓練領(lǐng)域的優(yōu)勢延伸到推理市場。

更難撼動的是CUDA生態(tài)的“慣性”。開發(fā)者在CUDA平臺上積累了大量代碼和工具鏈,遷移到新平臺需要重新學習和調(diào)試,這種“路徑依賴”讓很多企業(yè)寧愿忍受GPU的高成本,也不愿冒險嘗試新方案。

有行業(yè)人士透露,部分企業(yè)在與Groq接觸時異常謹慎,生怕消息走漏后被英偉達“穿小鞋”——比如延遲交付GPU,這種隱形壓力客觀上抬高了新芯片的推廣門檻。

然而,市場永遠存在裂縫。

2024年以來的“GPU荒”讓客戶苦不堪言:云計算廠商為了搶購英偉達芯片,不得不提前幾個月下單,否則就可能排不上產(chǎn)能。這種供需失衡讓企業(yè)開始主動尋找“第二供應(yīng)商”,降低對單一廠商的依賴,這為Groq創(chuàng)造了窗口期。

更重要的是,AI芯片市場并非“二元對立”。除了英偉達和Groq,英國的Graphcore、中國的寒武紀、美國的Cerebras等玩家都在各自的技術(shù)路線上發(fā)力,形成“一超多強”的競爭格局。

Groq的優(yōu)勢在于,它抓住了沙特等新興市場的需求——中東國家正雄心勃勃地建設(shè)AI基礎(chǔ)設(shè)施,既有錢又有場景,還樂于扶持非美國主流的技術(shù)供應(yīng)商以實現(xiàn)技術(shù)自主,這種地緣需求為Groq提供了理想的“試驗田”。

然而,面對新興市場的爭奪,初創(chuàng)公司如Groq需加速布局——因為巨頭們也沒有停下腳步。繼去年12月Groq在沙特布局后,今年5月,英偉達與AMD也發(fā)現(xiàn)了這一新興市場,相繼宣布在沙特建設(shè)芯片制造及AI基礎(chǔ)設(shè)施基地,直接切入中東AI算力核心市場,這無疑給后來者增添了競爭壓力。

全球AI芯片的競合態(tài)勢,在中國市場呈現(xiàn)出更復(fù)雜的張力。這種壓力也在迫使中國AI芯片市場加速“場景化突圍”。中國AI芯片市場的突圍路徑,正通過垂直場景的深度綁定逐步清晰——避開通用算力的正面競爭,在本土特色場景中打磨技術(shù)與生態(tài)。

結(jié)語

這場60億對4.2萬億的較量,才剛剛開始。

它的結(jié)局大概不是“你死我活”的零和游戲,而是形成“多元共生”的生態(tài)平衡:英偉達繼續(xù)主導(dǎo)高端AI訓練市場,Groq等新銳在推理細分賽道分得一杯羹。

這一格局恰似行業(yè)演進的常態(tài):正如智能手機時代,蘋果、三星錨定高端市場,小米、傳音則在中低端與新興市場開辟空間,彼此并非替代而是互補;又如AI領(lǐng)域,通用大模型與垂直場景的AI Agent各司其職——前者支撐基礎(chǔ)能力,后者深耕具體需求。

對整個行業(yè)來說,這種競爭是好事。Groq的出現(xiàn)至少能迫使英偉達優(yōu)化推理芯片的成本和性能,讓更多企業(yè)用得起AI算力。畢竟,AI應(yīng)用的場景豐富——從智能客服到自動駕駛,從醫(yī)療診斷到工業(yè)質(zhì)檢,不同場景對算力的需求千差萬別,既需要英偉達這樣的“全能選手”,也需要Groq這樣的“專精玩家”。

“某種程度上,我們的存在對英偉達反而是一種利好,”Groq CEO羅斯說?!八麄兛梢岳^續(xù)生產(chǎn)那些高利潤訓練用的GPU,而我們則接手他們不太想做、低利潤但高產(chǎn)量的推理業(yè)務(wù)?!?/p>

當年沒人能想到,一家顯卡公司能成為AI時代的“賣鏟人”;同理,今天估值60億美元的Groq,十年后或許會在AI芯片版圖中占據(jù)重要一席。

羅斯直言:“你的工作不是跟隨浪潮,而是要提前站位,準備好迎接它?!?/p>

無論Groq最終能否撼動英偉達,它所代表的創(chuàng)新精神和差異化打法都為行業(yè)帶來了新的思考:在巨頭林立的AI時代,小團隊依然有機會憑借卓越的洞察和執(zhí)行,實現(xiàn)對大象的“螞蟻撼樹”——或許不能將之推倒,卻足以令大象為之側(cè)目,不得不改變方向。

這正是技術(shù)進步最迷人的地方,也是市場競爭的價值所在。

 

來源:元素elements

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。