四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

正在閱讀:

走出ICU的“AI三小龍”,究竟做對(duì)了什么?

掃一掃下載界面新聞APP

走出ICU的“AI三小龍”,究竟做對(duì)了什么?

大模型2.0時(shí)代,屬于“制藥廠 ”

文|最話FunTalk  林書 

編輯|劉宇翔

Anthropic終于忍不住“龍蝦打洞”了。

美國時(shí)間4月4日15:00(北京時(shí)間4月5日03:00),Anthropic旗下Claude Code負(fù)責(zé)人Boris Cherny宣布Claude訂閱(Pro/Max)不再覆蓋OpenClaw等第三方平臺(tái),用戶只能使用額外套餐或Claude API密鑰使用這些工具。

這意味著企業(yè)、初創(chuàng)團(tuán)隊(duì)、開發(fā)者都無法再利用OpenClaw去近乎無限量套利Claude訂閱服務(wù),被迫轉(zhuǎn)入更為昂貴的按量計(jì)費(fèi)模式。

簡而言之就是,基于人類使用習(xí)慣模式的Anthropic 的訂閱服務(wù),被OpenClaw 變成了7×24 小時(shí)自動(dòng)運(yùn)行的算力消耗,給系統(tǒng)帶來了“disproportionate stress”(不成比例的壓力),收入與成本倒掛。Anthropic的商業(yè)模式被挖得千瘡百孔,不堪重負(fù)。

此外,Anthropic還有一點(diǎn)不能忍的是,OpenClaw 遲早會(huì)將Anthropic“供應(yīng)商化”。

OpenClaw 最新版更新支持多模型自動(dòng)/手動(dòng)切換,從之前的Claude 單點(diǎn)依賴(此前 60% 會(huì)話跑在Claude 上)轉(zhuǎn)向“模型池”(model pool)架構(gòu),用戶可以在 Claude、GPT-5.4、Gemini以及中國國產(chǎn)模型(如智譜、MiniMax)之間自由切換,不再鎖定單一供應(yīng)商。

表面上看,這次更新是對(duì)Anthropic 和Google 的封禁的回應(yīng),通過多模型冗余確保服務(wù)連續(xù)性,避免過于依賴單一模型,受制于模型廠商的政策變動(dòng)。但其實(shí),即使沒有這次Anthropic的封禁,加入Open AI后,OpenClaw 創(chuàng)始人Peter Steinberger 也遲早會(huì)采取“模型池”模式。

因?yàn)橐坏┝?xí)慣使用OpenClaw后,用戶就在不知不覺中不會(huì)再在意用的是哪家的模型,更在意結(jié)果,OpenClaw 成了AI超級(jí)入口,而模型廠商則成了OpenClaw 背后的“供應(yīng)商”。

顯然,這對(duì)于有著長遠(yuǎn)目標(biāo)的Anthropic 來說,是沒法接受的,與其坐以待斃,不如主動(dòng)重拳出擊。

但對(duì)于智譜、MiniMax等中國國產(chǎn)模型來說,Anthropic“封殺”O(jiān)penClaw,以及OpenClaw的多模型切換功能,卻是一個(gè)重大機(jī)會(huì)。當(dāng)Claude API 成本過高時(shí),開發(fā)者可能會(huì)切換配置到智譜、MiniMax ,甚至不排除當(dāng)作為主力模型使用,以規(guī)避訂閱轉(zhuǎn)API 的高昂成本。

畢竟,智譜、MiniMax的Token價(jià)格相對(duì)于Anthropic的,要便宜得多。

但Token便宜,并不是它們最大的優(yōu)勢(shì)。

01、三強(qiáng)的崛起

2026年4月1日,智譜發(fā)布上市后的第一份年報(bào),CEO張鵬在業(yè)績會(huì)上反復(fù)強(qiáng)調(diào)了兩個(gè)字:Token量。

這背后是一系列亮眼的表現(xiàn):智譜2025年全年?duì)I收7.24億元,同比增長132%,是國內(nèi)收入最大的獨(dú)立大模型公司;MaaS開放平臺(tái)的年度經(jīng)常性收入(ARR)達(dá)到17億元,12個(gè)月暴漲60倍;API價(jià)格上調(diào)83%之后,調(diào)用量反而繼續(xù)攀升。

張鵬把這種罕見的“漲價(jià)放量”歸結(jié)為一個(gè)公式:AGI商業(yè)價(jià)值 = 智能上界× Token消耗規(guī)模。

模型的智能上限,決定你敢不敢漲價(jià);Token消耗規(guī)模,決定漲價(jià)之后有沒有人買單。智譜兩個(gè)都做到了。

月之暗面的故事更具戲劇性。2026年1月27日,Kimi K2.5發(fā)布,僅僅一個(gè)月后,ARR突破1億美元,20天的收入超過2025年全年。3月中旬,公司完成新一輪融資,估值從43億美元飆升至180億美元——三個(gè)月翻了四倍。

更耐人尋味的是,Kimi的海外收入已經(jīng)反超國內(nèi),海外API收入增長4倍,而楊植麟站上了英偉達(dá)GTC大會(huì)的演講臺(tái),成為該會(huì)議上唯一一位中國大模型創(chuàng)始人,這無疑成了Kimi的高光時(shí)刻。

同樣地,MiniMax則用另一種方式證明了自己的存在感。2025年全年收入7904萬美元,同比增長159%。但真正讓行業(yè)側(cè)目的,是2026年前兩個(gè)月M2系列的API調(diào)用量——達(dá)到去年12月的六倍,其中來自“龍蝦”O(jiān)penClaw編程場景的Token消耗增長超過10倍。M2.5模型在SWE-Bench上拿到80.2%的得分,與Anthropic的Claude Opus 4.6幾乎持平,而價(jià)格僅為后者的十分之一。

如果把時(shí)鐘撥回兩年前,這三家公司正擠在同一間“ICU”里。2024年下半年,“AI六小龍”集體陷入困境,融資收緊、商業(yè)化遙遙無期、大廠環(huán)伺、“六小龍不如一條蟲”的嘲諷不絕于耳。彼時(shí)的DeepSeek剛剛憑借V3和R1震驚世界,風(fēng)頭一時(shí)無兩,相比之下,智譜、Kimi和MiniMax更像是被大時(shí)代拋在身后的配角。

可短短一年之后,劇本完全翻轉(zhuǎn)。

這種翻轉(zhuǎn)歸功于“龍蝦”熱潮——2026年春節(jié)前后,OpenClaw作為開源AI Agent框架引爆了全球開發(fā)者社區(qū),全球AI Token消耗從每周5.6萬億暴增到14.8萬億,三強(qiáng)恰好成了最大的“飼料供應(yīng)商”。

與傳統(tǒng)單次對(duì)話不同,OpenClaw執(zhí)行一個(gè)任務(wù)往往需要數(shù)十輪API調(diào)用,Token消耗成倍放大,這就意味著使用費(fèi)用也急劇提高。Token貨幣化的結(jié)果就是,用戶迫切尋找更便宜的模型。而在OpenRouter平臺(tái)上,MiniMax和智譜的收費(fèi)僅為海外競品如Claude Opus的1/16(輸入100萬Token約0.3 vs 5),這吸引了大量海外開發(fā)者。

所以自今年2月起,OpenClaw熱潮推動(dòng)下,全球最大API聚合平臺(tái)OpenRouter 上中國模型調(diào)用量三周大漲127%,首次超越美國模型(5.16萬億 vs 2.7萬億Token),其中2026年Q1智譜的API調(diào)用量增長400%,就部分歸因于OpenClaw生態(tài)的放量。而MiniMax M2.5在OpenRouter平臺(tái)上曾連續(xù)兩周蟬聯(lián)全球調(diào)用量榜首,周調(diào)用量達(dá)1.63萬億Token。

但僅僅把智譜、MiniMax的翻盤全歸因于OpenClaw也并不公允,智譜和MiniMax的增長還得益于模型能力突破,智譜GLM-5在多項(xiàng)基準(zhǔn)測試中登頂開源模型榜首,Coding和Agent能力突出;MiniMax M2專為編碼與智能體任務(wù)優(yōu)化,也契合了Agent工作流需求。

旺盛的需求和模型能力提高,使得它們?cè)谝欢ǔ潭壬蠐碛辛嗽俣▋r(jià)權(quán),今年3月智譜將API價(jià)格上調(diào)83%,但調(diào)用量依然供不應(yīng)求增長400%,就說明了這點(diǎn)。

但同樣面對(duì)龍蝦的風(fēng)口,六小龍中的另外幾條龍,表現(xiàn)又怎樣?

零一萬物已經(jīng)放棄了通用大模型,宣布不再做單一大模型,而是采用模型開放策略,轉(zhuǎn)型做企業(yè)級(jí)部署服務(wù),核心技術(shù)團(tuán)隊(duì)在DeepSeek沖擊后分崩離析。百川智能的創(chuàng)始人王小川經(jīng)歷了他所謂的“至暗時(shí)刻”——業(yè)務(wù)線收縮、高管離職、目標(biāo)搖擺,最終押注AI醫(yī)療這個(gè)垂直賽道,基本退出了通用大模型的競爭。

同一個(gè)風(fēng)口,有人飛升,有人墜落。差距出在哪?

答案藏在一個(gè)更深層的邏輯里:龍蝦的風(fēng)口不是誰都能追,它考的是你的底模夠不夠強(qiáng)、工具鏈夠不夠深、開發(fā)者生態(tài)夠不夠厚。

而六小龍中的三強(qiáng),恰恰是在龍蝦來臨之前,就已經(jīng)在這三個(gè)維度上默默積累了足夠的勢(shì)能。

問題是:為什么偏偏是他們?

02、范式的轉(zhuǎn)變

要回答這個(gè)問題,必須先理解一件在2024年底悄然發(fā)生、卻深刻改變了整個(gè)行業(yè)走向的事——Ilya Sutskever在NeurIPS 2024上的那場演講。

這位OpenAI的聯(lián)合創(chuàng)始人、被尊為“AI宗師”的人物,在那場罕見的公開露面中說了一句話:我們所知道的預(yù)訓(xùn)練,將毫無疑問地終結(jié),我們已經(jīng)觸及了數(shù)據(jù)的頂峰,不會(huì)再有更多了。

這句話在業(yè)界引發(fā)了一場深刻的路線分裂。

一派認(rèn)為Scaling Law沒有撞墻,只是需要Scaling的對(duì)象變了——從互聯(lián)網(wǎng)原始數(shù)據(jù)轉(zhuǎn)向合成數(shù)據(jù)、推理軌跡、以及推理時(shí)的計(jì)算量。另一派則認(rèn)為Transformer架構(gòu)本身已觸及天花板,大模型需要一場從底層數(shù)學(xué)結(jié)構(gòu)開始的架構(gòu)革命。

對(duì)此,六小龍中的三強(qiáng)給出了自己的答案:都不選?;蛘哒f,兩個(gè)都選。

這就是所謂的“第三條路”——不是純粹地繼續(xù)堆數(shù)據(jù)、堆算力(老路已經(jīng)走到頭了),也不是推倒重來搞一個(gè)全新架構(gòu)(風(fēng)險(xiǎn)太大、周期太長),而是用架構(gòu)層面的精準(zhǔn)創(chuàng)新,去撬動(dòng)新形式的Scaling。

Kimi從大模型底層三大模塊——優(yōu)化器、注意力機(jī)制、殘差連接同時(shí)突破。

其MuonClip優(yōu)化器引入二階梯度信息,通過牛頓-舒爾茨迭代和QK-Clip機(jī)制解決“Logits爆炸”問題,實(shí)現(xiàn)同等算力下更高模型質(zhì)量或同等質(zhì)量下大幅降低算力需求,提升Scaling效率。

Attention Residuals論文獲馬斯克點(diǎn)贊,因?yàn)槠溆胹oftmax注意力實(shí)現(xiàn)“選擇性回憶”,使48B模型達(dá)到60B效果。

MiniMax路徑不同但信仰一致:創(chuàng)始人閆俊杰堅(jiān)信Scaling Law及模態(tài)等價(jià)性,這構(gòu)成其技術(shù)戰(zhàn)略的第一性原理。

MiniMax在各模態(tài)獨(dú)立驗(yàn)證Scaling規(guī)律:語言模型側(cè)將線性注意力推進(jìn)至工業(yè)級(jí),使百萬長文本算力消耗降至傳統(tǒng)方案幾百分之一;多模態(tài)側(cè)發(fā)現(xiàn)Visual Tokenizer的Scaling Law,解決視頻生成投入產(chǎn)出問題,獲得結(jié)構(gòu)性效率優(yōu)勢(shì)。

作為這一策略的錯(cuò)過,M2.5的230B總參數(shù)僅激活10B推理,SWE-Bench得分80.2%,價(jià)格為Claude Opus 4.6的十分之一,這源于MoE架構(gòu)與推理優(yōu)化帶來的成本優(yōu)勢(shì)。

智譜走的路子,表面上是漲價(jià)后不跌反升的“飛輪驗(yàn)證”,2026年一季度價(jià)格漲了83%,Token調(diào)用量卻增長400%。但真正的秘密在于三個(gè)維度的同時(shí)強(qiáng)化,形成了一個(gè)“多角形飛輪”,很難被競爭對(duì)手同時(shí)追趕。

在模型方面,GLM-5在編程、長文本、多模態(tài)上的突破,讓它成了Agent開發(fā)者的必選項(xiàng)。與此同時(shí),智譜完成了與華為昇騰、摩爾線程等七大國產(chǎn)芯片的算子級(jí)優(yōu)化,讓部署成本直接降低50%。這意味著國產(chǎn)芯片選擇智譜,從可選變成了必須,轉(zhuǎn)換成本有形化了。

而在數(shù)據(jù)閉環(huán)上,智譜不像大廠的數(shù)據(jù)分散在各處,開發(fā)者用GLM完成一個(gè)Agent任務(wù),推理軌跡、糾錯(cuò)過程全部被記錄,這種“真實(shí)任務(wù)數(shù)據(jù)”的價(jià)值,遠(yuǎn)高于互聯(lián)網(wǎng)爬蟲或合成數(shù)據(jù)。模型越強(qiáng),用戶越多,飛輪就這樣轉(zhuǎn)起來了。

三家公司的路徑各有不同,但有一個(gè)共同的底層邏輯:“第三條路”帶來的不僅僅是極致的性價(jià)比,而是在Token消耗量爆炸式增長后,仍然能維持任務(wù)質(zhì)量的穩(wěn)定。

龍蝦場景下,一個(gè)稍復(fù)雜的編程任務(wù)平均消耗350萬Token——是普通對(duì)話的數(shù)百倍。在這種級(jí)別的負(fù)載下,模型的推理穩(wěn)定性、長上下文下的性能衰減控制、以及端到端的延遲管理,才是開發(fā)者選擇誰的真正標(biāo)準(zhǔn)。

換句話說,便宜只是入場券,穩(wěn)定才是留下來的理由。

03、DeepSeek最大的挑戰(zhàn)

如果三強(qiáng)的崛起,代表了“第三條路”的勝利,那么另一個(gè)更尖銳的問題是:為什么與三強(qiáng)同為大模型企業(yè)出身的DeepSeek,沒有率先實(shí)現(xiàn)這樣的突破?

坦白說,DeepSeek在大模型1.0時(shí)代創(chuàng)造的成就,至今仍令人敬佩。

V3和R1以極低的訓(xùn)練成本實(shí)現(xiàn)了SOTA級(jí)別的性能,MLA(多頭潛在注意力)和混合專家架構(gòu)的組合,在當(dāng)時(shí)堪稱驚艷。梁文鋒以極致的、勇猛的工程學(xué)思維,把每一塊GPU的性價(jià)比壓榨到了極致——這種“力出一孔”的能力,正是大模型1.0時(shí)代最重要的競爭力。

但1.0時(shí)代的競爭邏輯,和2.0時(shí)代有根本的不同。

到了2.0時(shí)代,問題變了。當(dāng)Ilya宣告“我們所知道的預(yù)訓(xùn)練將要終結(jié)”之后,行業(yè)面臨的不再是“怎么把模型做得更大”,而是“下一步往哪走?”

是繼續(xù)Scaling別的東西,還是徹底換架構(gòu)?這是一個(gè)充滿不確定性的岔路口。

在這個(gè)岔路口上,DeepSeek(以下簡稱DS)遇到了兩個(gè)結(jié)構(gòu)性的困難。

第一個(gè)困難來自商業(yè)化的缺失,導(dǎo)致其無法持續(xù)地Scaling。

DS至今沒有系統(tǒng)性的商業(yè)化運(yùn)營,其API雖然被大量使用,但因?yàn)镈S是開源的,因此大量企業(yè)把DS權(quán)重下載下來,私有化部署在自己的服務(wù)器上,這部分用戶的數(shù)據(jù)完全在企業(yè)內(nèi)網(wǎng)里,DS的母體一個(gè)字也收不到,同時(shí)還有大量開發(fā)者通過阿里云、騰訊云、百度云等第三方平臺(tái)調(diào)用DS,數(shù)據(jù)留在了云廠商那里。

更關(guān)鍵的地方在于:DS免費(fèi)或超低價(jià)的API定價(jià),難以支撐數(shù)據(jù)工程的運(yùn)轉(zhuǎn)成本,這意味著DS用戶越多越虧,用戶翻倍,虧損也翻倍,這使其無法像三強(qiáng)那樣,在龍蝦實(shí)戰(zhàn)中不斷迭代。

第二個(gè)困難更加微妙,也是制約DS架構(gòu)創(chuàng)新的瓶頸。

DeepSeek的團(tuán)隊(duì)至今不到140人,平均年齡只有28歲,成員幾乎清一色來自國內(nèi)頂尖高校的應(yīng)屆畢業(yè)生和在讀博士生。這個(gè)選擇并非無意為之,梁文鋒曾公開表達(dá)過他的人才哲學(xué):“經(jīng)驗(yàn)并不意味著能力,反而可能限制創(chuàng)新。”

但這里有一個(gè)隱患,在2.0時(shí)代的架構(gòu)創(chuàng)新需求下,架構(gòu)層面的真正突破,往往需要的不只是聰明的年輕人,還需要見過不同范式的人之間的知識(shí)碰撞。

楊植麟在Google Brain見過Transformer如何從論文變成工業(yè)級(jí)系統(tǒng);智譜創(chuàng)始人唐杰的團(tuán)隊(duì),不僅有著扎根清華的學(xué)術(shù)背景,也帶領(lǐng)KEG實(shí)驗(yàn)室深耕了近二十年,發(fā)表了超過500篇頂尖論文。

這種“多層代際、多種背景”的知識(shí)密度,才使得架構(gòu)革命與創(chuàng)新成為了可能。

從唯物主義的角度上說,技術(shù)創(chuàng)新的必要條件,不是只是天才的“靈光一閃”,更需要看知識(shí)、人才的密度、多樣性是否達(dá)到了一定的閾值和豐度。

說到底,DS的問題不是“技術(shù)不夠強(qiáng)”,而是它不能再用大模型1.0的思維打2.0的仗。

很多人都喜歡把訓(xùn)練大模型叫做“煉丹”,這不是段子,而是一種精準(zhǔn)的隱喻。

大模型訓(xùn)練的本質(zhì),就是把海量數(shù)據(jù)(原料)投入神經(jīng)網(wǎng)絡(luò)(爐子),經(jīng)過漫長的參數(shù)調(diào)整(火候),最終期待涌現(xiàn)出一種難以預(yù)測的“智能”。你事先并不完全知道產(chǎn)出會(huì)是什么——調(diào)一下學(xué)習(xí)率,改一下Batch Size,模型的表現(xiàn)就可能陡然提升,這種高度依賴經(jīng)驗(yàn)與直覺的摸索過程,和古人在丹爐前的反復(fù)試探如出一轍。

1.0時(shí)代更講究“煉丹師”的個(gè)人洞見,一個(gè)天才型的創(chuàng)始人,帶著一小群精英,在丹爐前反復(fù)實(shí)驗(yàn),直到煉出驚世駭俗的成果。這在很長一段時(shí)間里是有效的。

但2.0時(shí)代需要的,更可能是“制藥廠”式的體系化創(chuàng)新。

什么叫制藥廠?它不依賴任何一個(gè)藥劑師的靈感,而是靠可復(fù)制的研發(fā)流程、可量化的質(zhì)量標(biāo)準(zhǔn)、和持續(xù)不斷的臨床反饋來穩(wěn)定地產(chǎn)出新藥。

在大模型2.0時(shí)代,持續(xù)的體系化創(chuàng)新能力,比任何一次單點(diǎn)技術(shù)突破都重要得多。誰能把“創(chuàng)新”從個(gè)人英雄主義變成組織級(jí)的穩(wěn)定產(chǎn)出,誰就能在這個(gè)充滿不確定性的時(shí)代里掌握主動(dòng)權(quán)。

以Kimi為例,3月16日,Kimi發(fā)布Attention Residuals論文,被馬斯克點(diǎn)贊,之后Reddit上已有開發(fā)者在復(fù)現(xiàn)。這背后反映的,實(shí)際上是其一種系統(tǒng)化、團(tuán)隊(duì)化的知識(shí)積累體系。

絕大多數(shù)公司,從論文到產(chǎn)品的路徑是:核心論文→模型訓(xùn)練→產(chǎn)品發(fā)布→用戶反饋→下一個(gè)核心論文。但Kimi打破了這個(gè)模式,Kimi 3月16日論文發(fā)表后,從論文idea到學(xué)術(shù)發(fā)表到產(chǎn)品實(shí)現(xiàn)到開源代碼,只用了不到3天的迭代周期。

這說明,Kimi把論文看作一個(gè)可視化的思想工具,用來快速獲得全球反饋的中間產(chǎn)品,而非要等到論文或產(chǎn)品完美后,再等待反饋。

論文的作者組成,還暴露了一個(gè)秘密:Guangyu Chen(陳廣宇)和其他作者加起來,一共35人,其中還有一位17歲的高中生,這在大模型論文里很罕見。

通常情況下,即使是OpenAI、DeepSeek發(fā)表的論文,作者也大多只有十幾到20位。

這說明Kimi的論文不是“精英研究團(tuán)隊(duì)的產(chǎn)物”,而是“整個(gè)公司在這個(gè)方向上的集體知識(shí)總結(jié)”。

三強(qiáng)之所以能走出ICU,不是因?yàn)樗鼈儞碛斜菵eepSeek更聰明的工程師,而是因?yàn)槠浣⒘艘环N更快的迭代速度、更密集的知識(shí)流轉(zhuǎn)、更體系化的創(chuàng)新機(jī)制。

大模型1.0時(shí)代屬于煉丹師,那是一個(gè)憑借個(gè)人洞見和技術(shù)魄力就能改變格局的英雄時(shí)代。但2.0時(shí)代,屬于制藥廠,屬于那些把創(chuàng)新變成流水線、把突破變成日常、把個(gè)人能力沉淀為組織能力的企業(yè)。

六小龍中的三強(qiáng),正在做同樣的事。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

走出ICU的“AI三小龍”,究竟做對(duì)了什么?

大模型2.0時(shí)代,屬于“制藥廠 ”

文|最話FunTalk  林書 

編輯|劉宇翔

Anthropic終于忍不住“龍蝦打洞”了。

美國時(shí)間4月4日15:00(北京時(shí)間4月5日03:00),Anthropic旗下Claude Code負(fù)責(zé)人Boris Cherny宣布Claude訂閱(Pro/Max)不再覆蓋OpenClaw等第三方平臺(tái),用戶只能使用額外套餐或Claude API密鑰使用這些工具。

這意味著企業(yè)、初創(chuàng)團(tuán)隊(duì)、開發(fā)者都無法再利用OpenClaw去近乎無限量套利Claude訂閱服務(wù),被迫轉(zhuǎn)入更為昂貴的按量計(jì)費(fèi)模式。

簡而言之就是,基于人類使用習(xí)慣模式的Anthropic 的訂閱服務(wù),被OpenClaw 變成了7×24 小時(shí)自動(dòng)運(yùn)行的算力消耗,給系統(tǒng)帶來了“disproportionate stress”(不成比例的壓力),收入與成本倒掛。Anthropic的商業(yè)模式被挖得千瘡百孔,不堪重負(fù)。

此外,Anthropic還有一點(diǎn)不能忍的是,OpenClaw 遲早會(huì)將Anthropic“供應(yīng)商化”。

OpenClaw 最新版更新支持多模型自動(dòng)/手動(dòng)切換,從之前的Claude 單點(diǎn)依賴(此前 60% 會(huì)話跑在Claude 上)轉(zhuǎn)向“模型池”(model pool)架構(gòu),用戶可以在 Claude、GPT-5.4、Gemini以及中國國產(chǎn)模型(如智譜、MiniMax)之間自由切換,不再鎖定單一供應(yīng)商。

表面上看,這次更新是對(duì)Anthropic 和Google 的封禁的回應(yīng),通過多模型冗余確保服務(wù)連續(xù)性,避免過于依賴單一模型,受制于模型廠商的政策變動(dòng)。但其實(shí),即使沒有這次Anthropic的封禁,加入Open AI后,OpenClaw 創(chuàng)始人Peter Steinberger 也遲早會(huì)采取“模型池”模式。

因?yàn)橐坏┝?xí)慣使用OpenClaw后,用戶就在不知不覺中不會(huì)再在意用的是哪家的模型,更在意結(jié)果,OpenClaw 成了AI超級(jí)入口,而模型廠商則成了OpenClaw 背后的“供應(yīng)商”。

顯然,這對(duì)于有著長遠(yuǎn)目標(biāo)的Anthropic 來說,是沒法接受的,與其坐以待斃,不如主動(dòng)重拳出擊。

但對(duì)于智譜、MiniMax等中國國產(chǎn)模型來說,Anthropic“封殺”O(jiān)penClaw,以及OpenClaw的多模型切換功能,卻是一個(gè)重大機(jī)會(huì)。當(dāng)Claude API 成本過高時(shí),開發(fā)者可能會(huì)切換配置到智譜、MiniMax ,甚至不排除當(dāng)作為主力模型使用,以規(guī)避訂閱轉(zhuǎn)API 的高昂成本。

畢竟,智譜、MiniMax的Token價(jià)格相對(duì)于Anthropic的,要便宜得多。

但Token便宜,并不是它們最大的優(yōu)勢(shì)。

01、三強(qiáng)的崛起

2026年4月1日,智譜發(fā)布上市后的第一份年報(bào),CEO張鵬在業(yè)績會(huì)上反復(fù)強(qiáng)調(diào)了兩個(gè)字:Token量。

這背后是一系列亮眼的表現(xiàn):智譜2025年全年?duì)I收7.24億元,同比增長132%,是國內(nèi)收入最大的獨(dú)立大模型公司;MaaS開放平臺(tái)的年度經(jīng)常性收入(ARR)達(dá)到17億元,12個(gè)月暴漲60倍;API價(jià)格上調(diào)83%之后,調(diào)用量反而繼續(xù)攀升。

張鵬把這種罕見的“漲價(jià)放量”歸結(jié)為一個(gè)公式:AGI商業(yè)價(jià)值 = 智能上界× Token消耗規(guī)模。

模型的智能上限,決定你敢不敢漲價(jià);Token消耗規(guī)模,決定漲價(jià)之后有沒有人買單。智譜兩個(gè)都做到了。

月之暗面的故事更具戲劇性。2026年1月27日,Kimi K2.5發(fā)布,僅僅一個(gè)月后,ARR突破1億美元,20天的收入超過2025年全年。3月中旬,公司完成新一輪融資,估值從43億美元飆升至180億美元——三個(gè)月翻了四倍。

更耐人尋味的是,Kimi的海外收入已經(jīng)反超國內(nèi),海外API收入增長4倍,而楊植麟站上了英偉達(dá)GTC大會(huì)的演講臺(tái),成為該會(huì)議上唯一一位中國大模型創(chuàng)始人,這無疑成了Kimi的高光時(shí)刻。

同樣地,MiniMax則用另一種方式證明了自己的存在感。2025年全年收入7904萬美元,同比增長159%。但真正讓行業(yè)側(cè)目的,是2026年前兩個(gè)月M2系列的API調(diào)用量——達(dá)到去年12月的六倍,其中來自“龍蝦”O(jiān)penClaw編程場景的Token消耗增長超過10倍。M2.5模型在SWE-Bench上拿到80.2%的得分,與Anthropic的Claude Opus 4.6幾乎持平,而價(jià)格僅為后者的十分之一。

如果把時(shí)鐘撥回兩年前,這三家公司正擠在同一間“ICU”里。2024年下半年,“AI六小龍”集體陷入困境,融資收緊、商業(yè)化遙遙無期、大廠環(huán)伺、“六小龍不如一條蟲”的嘲諷不絕于耳。彼時(shí)的DeepSeek剛剛憑借V3和R1震驚世界,風(fēng)頭一時(shí)無兩,相比之下,智譜、Kimi和MiniMax更像是被大時(shí)代拋在身后的配角。

可短短一年之后,劇本完全翻轉(zhuǎn)。

這種翻轉(zhuǎn)歸功于“龍蝦”熱潮——2026年春節(jié)前后,OpenClaw作為開源AI Agent框架引爆了全球開發(fā)者社區(qū),全球AI Token消耗從每周5.6萬億暴增到14.8萬億,三強(qiáng)恰好成了最大的“飼料供應(yīng)商”。

與傳統(tǒng)單次對(duì)話不同,OpenClaw執(zhí)行一個(gè)任務(wù)往往需要數(shù)十輪API調(diào)用,Token消耗成倍放大,這就意味著使用費(fèi)用也急劇提高。Token貨幣化的結(jié)果就是,用戶迫切尋找更便宜的模型。而在OpenRouter平臺(tái)上,MiniMax和智譜的收費(fèi)僅為海外競品如Claude Opus的1/16(輸入100萬Token約0.3 vs 5),這吸引了大量海外開發(fā)者。

所以自今年2月起,OpenClaw熱潮推動(dòng)下,全球最大API聚合平臺(tái)OpenRouter 上中國模型調(diào)用量三周大漲127%,首次超越美國模型(5.16萬億 vs 2.7萬億Token),其中2026年Q1智譜的API調(diào)用量增長400%,就部分歸因于OpenClaw生態(tài)的放量。而MiniMax M2.5在OpenRouter平臺(tái)上曾連續(xù)兩周蟬聯(lián)全球調(diào)用量榜首,周調(diào)用量達(dá)1.63萬億Token。

但僅僅把智譜、MiniMax的翻盤全歸因于OpenClaw也并不公允,智譜和MiniMax的增長還得益于模型能力突破,智譜GLM-5在多項(xiàng)基準(zhǔn)測試中登頂開源模型榜首,Coding和Agent能力突出;MiniMax M2專為編碼與智能體任務(wù)優(yōu)化,也契合了Agent工作流需求。

旺盛的需求和模型能力提高,使得它們?cè)谝欢ǔ潭壬蠐碛辛嗽俣▋r(jià)權(quán),今年3月智譜將API價(jià)格上調(diào)83%,但調(diào)用量依然供不應(yīng)求增長400%,就說明了這點(diǎn)。

但同樣面對(duì)龍蝦的風(fēng)口,六小龍中的另外幾條龍,表現(xiàn)又怎樣?

零一萬物已經(jīng)放棄了通用大模型,宣布不再做單一大模型,而是采用模型開放策略,轉(zhuǎn)型做企業(yè)級(jí)部署服務(wù),核心技術(shù)團(tuán)隊(duì)在DeepSeek沖擊后分崩離析。百川智能的創(chuàng)始人王小川經(jīng)歷了他所謂的“至暗時(shí)刻”——業(yè)務(wù)線收縮、高管離職、目標(biāo)搖擺,最終押注AI醫(yī)療這個(gè)垂直賽道,基本退出了通用大模型的競爭。

同一個(gè)風(fēng)口,有人飛升,有人墜落。差距出在哪?

答案藏在一個(gè)更深層的邏輯里:龍蝦的風(fēng)口不是誰都能追,它考的是你的底模夠不夠強(qiáng)、工具鏈夠不夠深、開發(fā)者生態(tài)夠不夠厚。

而六小龍中的三強(qiáng),恰恰是在龍蝦來臨之前,就已經(jīng)在這三個(gè)維度上默默積累了足夠的勢(shì)能。

問題是:為什么偏偏是他們?

02、范式的轉(zhuǎn)變

要回答這個(gè)問題,必須先理解一件在2024年底悄然發(fā)生、卻深刻改變了整個(gè)行業(yè)走向的事——Ilya Sutskever在NeurIPS 2024上的那場演講。

這位OpenAI的聯(lián)合創(chuàng)始人、被尊為“AI宗師”的人物,在那場罕見的公開露面中說了一句話:我們所知道的預(yù)訓(xùn)練,將毫無疑問地終結(jié),我們已經(jīng)觸及了數(shù)據(jù)的頂峰,不會(huì)再有更多了。

這句話在業(yè)界引發(fā)了一場深刻的路線分裂。

一派認(rèn)為Scaling Law沒有撞墻,只是需要Scaling的對(duì)象變了——從互聯(lián)網(wǎng)原始數(shù)據(jù)轉(zhuǎn)向合成數(shù)據(jù)、推理軌跡、以及推理時(shí)的計(jì)算量。另一派則認(rèn)為Transformer架構(gòu)本身已觸及天花板,大模型需要一場從底層數(shù)學(xué)結(jié)構(gòu)開始的架構(gòu)革命。

對(duì)此,六小龍中的三強(qiáng)給出了自己的答案:都不選?;蛘哒f,兩個(gè)都選。

這就是所謂的“第三條路”——不是純粹地繼續(xù)堆數(shù)據(jù)、堆算力(老路已經(jīng)走到頭了),也不是推倒重來搞一個(gè)全新架構(gòu)(風(fēng)險(xiǎn)太大、周期太長),而是用架構(gòu)層面的精準(zhǔn)創(chuàng)新,去撬動(dòng)新形式的Scaling。

Kimi從大模型底層三大模塊——優(yōu)化器、注意力機(jī)制、殘差連接同時(shí)突破。

其MuonClip優(yōu)化器引入二階梯度信息,通過牛頓-舒爾茨迭代和QK-Clip機(jī)制解決“Logits爆炸”問題,實(shí)現(xiàn)同等算力下更高模型質(zhì)量或同等質(zhì)量下大幅降低算力需求,提升Scaling效率。

Attention Residuals論文獲馬斯克點(diǎn)贊,因?yàn)槠溆胹oftmax注意力實(shí)現(xiàn)“選擇性回憶”,使48B模型達(dá)到60B效果。

MiniMax路徑不同但信仰一致:創(chuàng)始人閆俊杰堅(jiān)信Scaling Law及模態(tài)等價(jià)性,這構(gòu)成其技術(shù)戰(zhàn)略的第一性原理。

MiniMax在各模態(tài)獨(dú)立驗(yàn)證Scaling規(guī)律:語言模型側(cè)將線性注意力推進(jìn)至工業(yè)級(jí),使百萬長文本算力消耗降至傳統(tǒng)方案幾百分之一;多模態(tài)側(cè)發(fā)現(xiàn)Visual Tokenizer的Scaling Law,解決視頻生成投入產(chǎn)出問題,獲得結(jié)構(gòu)性效率優(yōu)勢(shì)。

作為這一策略的錯(cuò)過,M2.5的230B總參數(shù)僅激活10B推理,SWE-Bench得分80.2%,價(jià)格為Claude Opus 4.6的十分之一,這源于MoE架構(gòu)與推理優(yōu)化帶來的成本優(yōu)勢(shì)。

智譜走的路子,表面上是漲價(jià)后不跌反升的“飛輪驗(yàn)證”,2026年一季度價(jià)格漲了83%,Token調(diào)用量卻增長400%。但真正的秘密在于三個(gè)維度的同時(shí)強(qiáng)化,形成了一個(gè)“多角形飛輪”,很難被競爭對(duì)手同時(shí)追趕。

在模型方面,GLM-5在編程、長文本、多模態(tài)上的突破,讓它成了Agent開發(fā)者的必選項(xiàng)。與此同時(shí),智譜完成了與華為昇騰、摩爾線程等七大國產(chǎn)芯片的算子級(jí)優(yōu)化,讓部署成本直接降低50%。這意味著國產(chǎn)芯片選擇智譜,從可選變成了必須,轉(zhuǎn)換成本有形化了。

而在數(shù)據(jù)閉環(huán)上,智譜不像大廠的數(shù)據(jù)分散在各處,開發(fā)者用GLM完成一個(gè)Agent任務(wù),推理軌跡、糾錯(cuò)過程全部被記錄,這種“真實(shí)任務(wù)數(shù)據(jù)”的價(jià)值,遠(yuǎn)高于互聯(lián)網(wǎng)爬蟲或合成數(shù)據(jù)。模型越強(qiáng),用戶越多,飛輪就這樣轉(zhuǎn)起來了。

三家公司的路徑各有不同,但有一個(gè)共同的底層邏輯:“第三條路”帶來的不僅僅是極致的性價(jià)比,而是在Token消耗量爆炸式增長后,仍然能維持任務(wù)質(zhì)量的穩(wěn)定。

龍蝦場景下,一個(gè)稍復(fù)雜的編程任務(wù)平均消耗350萬Token——是普通對(duì)話的數(shù)百倍。在這種級(jí)別的負(fù)載下,模型的推理穩(wěn)定性、長上下文下的性能衰減控制、以及端到端的延遲管理,才是開發(fā)者選擇誰的真正標(biāo)準(zhǔn)。

換句話說,便宜只是入場券,穩(wěn)定才是留下來的理由。

03、DeepSeek最大的挑戰(zhàn)

如果三強(qiáng)的崛起,代表了“第三條路”的勝利,那么另一個(gè)更尖銳的問題是:為什么與三強(qiáng)同為大模型企業(yè)出身的DeepSeek,沒有率先實(shí)現(xiàn)這樣的突破?

坦白說,DeepSeek在大模型1.0時(shí)代創(chuàng)造的成就,至今仍令人敬佩。

V3和R1以極低的訓(xùn)練成本實(shí)現(xiàn)了SOTA級(jí)別的性能,MLA(多頭潛在注意力)和混合專家架構(gòu)的組合,在當(dāng)時(shí)堪稱驚艷。梁文鋒以極致的、勇猛的工程學(xué)思維,把每一塊GPU的性價(jià)比壓榨到了極致——這種“力出一孔”的能力,正是大模型1.0時(shí)代最重要的競爭力。

但1.0時(shí)代的競爭邏輯,和2.0時(shí)代有根本的不同。

到了2.0時(shí)代,問題變了。當(dāng)Ilya宣告“我們所知道的預(yù)訓(xùn)練將要終結(jié)”之后,行業(yè)面臨的不再是“怎么把模型做得更大”,而是“下一步往哪走?”

是繼續(xù)Scaling別的東西,還是徹底換架構(gòu)?這是一個(gè)充滿不確定性的岔路口。

在這個(gè)岔路口上,DeepSeek(以下簡稱DS)遇到了兩個(gè)結(jié)構(gòu)性的困難。

第一個(gè)困難來自商業(yè)化的缺失,導(dǎo)致其無法持續(xù)地Scaling。

DS至今沒有系統(tǒng)性的商業(yè)化運(yùn)營,其API雖然被大量使用,但因?yàn)镈S是開源的,因此大量企業(yè)把DS權(quán)重下載下來,私有化部署在自己的服務(wù)器上,這部分用戶的數(shù)據(jù)完全在企業(yè)內(nèi)網(wǎng)里,DS的母體一個(gè)字也收不到,同時(shí)還有大量開發(fā)者通過阿里云、騰訊云、百度云等第三方平臺(tái)調(diào)用DS,數(shù)據(jù)留在了云廠商那里。

更關(guān)鍵的地方在于:DS免費(fèi)或超低價(jià)的API定價(jià),難以支撐數(shù)據(jù)工程的運(yùn)轉(zhuǎn)成本,這意味著DS用戶越多越虧,用戶翻倍,虧損也翻倍,這使其無法像三強(qiáng)那樣,在龍蝦實(shí)戰(zhàn)中不斷迭代。

第二個(gè)困難更加微妙,也是制約DS架構(gòu)創(chuàng)新的瓶頸。

DeepSeek的團(tuán)隊(duì)至今不到140人,平均年齡只有28歲,成員幾乎清一色來自國內(nèi)頂尖高校的應(yīng)屆畢業(yè)生和在讀博士生。這個(gè)選擇并非無意為之,梁文鋒曾公開表達(dá)過他的人才哲學(xué):“經(jīng)驗(yàn)并不意味著能力,反而可能限制創(chuàng)新?!?/p>

但這里有一個(gè)隱患,在2.0時(shí)代的架構(gòu)創(chuàng)新需求下,架構(gòu)層面的真正突破,往往需要的不只是聰明的年輕人,還需要見過不同范式的人之間的知識(shí)碰撞。

楊植麟在Google Brain見過Transformer如何從論文變成工業(yè)級(jí)系統(tǒng);智譜創(chuàng)始人唐杰的團(tuán)隊(duì),不僅有著扎根清華的學(xué)術(shù)背景,也帶領(lǐng)KEG實(shí)驗(yàn)室深耕了近二十年,發(fā)表了超過500篇頂尖論文。

這種“多層代際、多種背景”的知識(shí)密度,才使得架構(gòu)革命與創(chuàng)新成為了可能。

從唯物主義的角度上說,技術(shù)創(chuàng)新的必要條件,不是只是天才的“靈光一閃”,更需要看知識(shí)、人才的密度、多樣性是否達(dá)到了一定的閾值和豐度。

說到底,DS的問題不是“技術(shù)不夠強(qiáng)”,而是它不能再用大模型1.0的思維打2.0的仗。

很多人都喜歡把訓(xùn)練大模型叫做“煉丹”,這不是段子,而是一種精準(zhǔn)的隱喻。

大模型訓(xùn)練的本質(zhì),就是把海量數(shù)據(jù)(原料)投入神經(jīng)網(wǎng)絡(luò)(爐子),經(jīng)過漫長的參數(shù)調(diào)整(火候),最終期待涌現(xiàn)出一種難以預(yù)測的“智能”。你事先并不完全知道產(chǎn)出會(huì)是什么——調(diào)一下學(xué)習(xí)率,改一下Batch Size,模型的表現(xiàn)就可能陡然提升,這種高度依賴經(jīng)驗(yàn)與直覺的摸索過程,和古人在丹爐前的反復(fù)試探如出一轍。

1.0時(shí)代更講究“煉丹師”的個(gè)人洞見,一個(gè)天才型的創(chuàng)始人,帶著一小群精英,在丹爐前反復(fù)實(shí)驗(yàn),直到煉出驚世駭俗的成果。這在很長一段時(shí)間里是有效的。

但2.0時(shí)代需要的,更可能是“制藥廠”式的體系化創(chuàng)新。

什么叫制藥廠?它不依賴任何一個(gè)藥劑師的靈感,而是靠可復(fù)制的研發(fā)流程、可量化的質(zhì)量標(biāo)準(zhǔn)、和持續(xù)不斷的臨床反饋來穩(wěn)定地產(chǎn)出新藥。

在大模型2.0時(shí)代,持續(xù)的體系化創(chuàng)新能力,比任何一次單點(diǎn)技術(shù)突破都重要得多。誰能把“創(chuàng)新”從個(gè)人英雄主義變成組織級(jí)的穩(wěn)定產(chǎn)出,誰就能在這個(gè)充滿不確定性的時(shí)代里掌握主動(dòng)權(quán)。

以Kimi為例,3月16日,Kimi發(fā)布Attention Residuals論文,被馬斯克點(diǎn)贊,之后Reddit上已有開發(fā)者在復(fù)現(xiàn)。這背后反映的,實(shí)際上是其一種系統(tǒng)化、團(tuán)隊(duì)化的知識(shí)積累體系。

絕大多數(shù)公司,從論文到產(chǎn)品的路徑是:核心論文→模型訓(xùn)練→產(chǎn)品發(fā)布→用戶反饋→下一個(gè)核心論文。但Kimi打破了這個(gè)模式,Kimi 3月16日論文發(fā)表后,從論文idea到學(xué)術(shù)發(fā)表到產(chǎn)品實(shí)現(xiàn)到開源代碼,只用了不到3天的迭代周期。

這說明,Kimi把論文看作一個(gè)可視化的思想工具,用來快速獲得全球反饋的中間產(chǎn)品,而非要等到論文或產(chǎn)品完美后,再等待反饋。

論文的作者組成,還暴露了一個(gè)秘密:Guangyu Chen(陳廣宇)和其他作者加起來,一共35人,其中還有一位17歲的高中生,這在大模型論文里很罕見。

通常情況下,即使是OpenAI、DeepSeek發(fā)表的論文,作者也大多只有十幾到20位。

這說明Kimi的論文不是“精英研究團(tuán)隊(duì)的產(chǎn)物”,而是“整個(gè)公司在這個(gè)方向上的集體知識(shí)總結(jié)”。

三強(qiáng)之所以能走出ICU,不是因?yàn)樗鼈儞碛斜菵eepSeek更聰明的工程師,而是因?yàn)槠浣⒘艘环N更快的迭代速度、更密集的知識(shí)流轉(zhuǎn)、更體系化的創(chuàng)新機(jī)制。

大模型1.0時(shí)代屬于煉丹師,那是一個(gè)憑借個(gè)人洞見和技術(shù)魄力就能改變格局的英雄時(shí)代。但2.0時(shí)代,屬于制藥廠,屬于那些把創(chuàng)新變成流水線、把突破變成日常、把個(gè)人能力沉淀為組織能力的企業(yè)。

六小龍中的三強(qiáng),正在做同樣的事。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。