掃一掃下載界面新聞APP

走出ICU的“AI三小龍”，究竟做對(duì)了什么？

大模型2.0時(shí)代，屬于“制藥廠 ”

最話FunTalk ·

文｜最話FunTalk 林書

編輯｜劉宇翔

Anthropic終于忍不住“龍蝦打洞”了。

美國時(shí)間4月4日15:00（北京時(shí)間4月5日03:00），Anthropic旗下Claude Code負(fù)責(zé)人Boris Cherny宣布Claude訂閱（Pro/Max）不再覆蓋OpenClaw等第三方平臺(tái)，用戶只能使用額外套餐或Claude API密鑰使用這些工具。

這意味著企業(yè)、初創(chuàng)團(tuán)隊(duì)、開發(fā)者都無法再利用OpenClaw去近乎無限量套利Claude訂閱服務(wù)，被迫轉(zhuǎn)入更為昂貴的按量計(jì)費(fèi)模式。

簡而言之就是，基于人類使用習(xí)慣模式的Anthropic 的訂閱服務(wù)，被OpenClaw 變成了7×24 小時(shí)自動(dòng)運(yùn)行的算力消耗，給系統(tǒng)帶來了“disproportionate stress”（不成比例的壓力），收入與成本倒掛。Anthropic的商業(yè)模式被挖得千瘡百孔，不堪重負(fù)。

此外，Anthropic還有一點(diǎn)不能忍的是，OpenClaw 遲早會(huì)將Anthropic“供應(yīng)商化”。

OpenClaw 最新版更新支持多模型自動(dòng)/手動(dòng)切換，從之前的Claude 單點(diǎn)依賴（此前 60% 會(huì)話跑在Claude 上）轉(zhuǎn)向“模型池”（model pool）架構(gòu)，用戶可以在 Claude、GPT-5.4、Gemini以及中國國產(chǎn)模型（如智譜、MiniMax）之間自由切換，不再鎖定單一供應(yīng)商。

表面上看，這次更新是對(duì)Anthropic 和Google 的封禁的回應(yīng)，通過多模型冗余確保服務(wù)連續(xù)性，避免過于依賴單一模型，受制于模型廠商的政策變動(dòng)。但其實(shí)，即使沒有這次Anthropic的封禁，加入Open AI后，OpenClaw 創(chuàng)始人Peter Steinberger 也遲早會(huì)采取“模型池”模式。

因?yàn)橐坏┝?xí)慣使用OpenClaw后，用戶就在不知不覺中不會(huì)再在意用的是哪家的模型，更在意結(jié)果，OpenClaw 成了AI超級(jí)入口，而模型廠商則成了OpenClaw 背后的“供應(yīng)商”。

顯然，這對(duì)于有著長遠(yuǎn)目標(biāo)的Anthropic 來說，是沒法接受的，與其坐以待斃，不如主動(dòng)重拳出擊。

但對(duì)于智譜、MiniMax等中國國產(chǎn)模型來說，Anthropic“封殺”O(jiān)penClaw，以及OpenClaw的多模型切換功能，卻是一個(gè)重大機(jī)會(huì)。當(dāng)Claude API 成本過高時(shí)，開發(fā)者可能會(huì)切換配置到智譜、MiniMax ，甚至不排除當(dāng)作為主力模型使用，以規(guī)避訂閱轉(zhuǎn)API 的高昂成本。

畢竟，智譜、MiniMax的Token價(jià)格相對(duì)于Anthropic的，要便宜得多。

但Token便宜，并不是它們最大的優(yōu)勢(shì)。

01、三強(qiáng)的崛起

2026年4月1日，智譜發(fā)布上市后的第一份年報(bào)，CEO張鵬在業(yè)績會(huì)上反復(fù)強(qiáng)調(diào)了兩個(gè)字：Token量。

這背后是一系列亮眼的表現(xiàn)：智譜2025年全年?duì)I收7.24億元，同比增長132%，是國內(nèi)收入最大的獨(dú)立大模型公司；MaaS開放平臺(tái)的年度經(jīng)常性收入（ARR）達(dá)到17億元，12個(gè)月暴漲60倍；API價(jià)格上調(diào)83%之后，調(diào)用量反而繼續(xù)攀升。

張鵬把這種罕見的“漲價(jià)放量”歸結(jié)為一個(gè)公式：AGI商業(yè)價(jià)值 = 智能上界× Token消耗規(guī)模。

模型的智能上限，決定你敢不敢漲價(jià)；Token消耗規(guī)模，決定漲價(jià)之后有沒有人買單。智譜兩個(gè)都做到了。

月之暗面的故事更具戲劇性。2026年1月27日，Kimi K2.5發(fā)布，僅僅一個(gè)月后，ARR突破1億美元，20天的收入超過2025年全年。3月中旬，公司完成新一輪融資，估值從43億美元飆升至180億美元——三個(gè)月翻了四倍。

更耐人尋味的是，Kimi的海外收入已經(jīng)反超國內(nèi)，海外API收入增長4倍，而楊植麟站上了英偉達(dá)GTC大會(huì)的演講臺(tái)，成為該會(huì)議上唯一一位中國大模型創(chuàng)始人，這無疑成了Kimi的高光時(shí)刻。

同樣地，MiniMax則用另一種方式證明了自己的存在感。2025年全年收入7904萬美元，同比增長159%。但真正讓行業(yè)側(cè)目的，是2026年前兩個(gè)月M2系列的API調(diào)用量——達(dá)到去年12月的六倍，其中來自“龍蝦”O(jiān)penClaw編程場景的Token消耗增長超過10倍。M2.5模型在SWE-Bench上拿到80.2%的得分，與Anthropic的Claude Opus 4.6幾乎持平，而價(jià)格僅為后者的十分之一。

如果把時(shí)鐘撥回兩年前，這三家公司正擠在同一間“ICU”里。2024年下半年，“AI六小龍”集體陷入困境，融資收緊、商業(yè)化遙遙無期、大廠環(huán)伺、“六小龍不如一條蟲”的嘲諷不絕于耳。彼時(shí)的DeepSeek剛剛憑借V3和R1震驚世界，風(fēng)頭一時(shí)無兩，相比之下，智譜、Kimi和MiniMax更像是被大時(shí)代拋在身后的配角。

可短短一年之后，劇本完全翻轉(zhuǎn)。

這種翻轉(zhuǎn)歸功于“龍蝦”熱潮——2026年春節(jié)前后，OpenClaw作為開源AI Agent框架引爆了全球開發(fā)者社區(qū)，全球AI Token消耗從每周5.6萬億暴增到14.8萬億，三強(qiáng)恰好成了最大的“飼料供應(yīng)商”。

與傳統(tǒng)單次對(duì)話不同，OpenClaw執(zhí)行一個(gè)任務(wù)往往需要數(shù)十輪API調(diào)用，Token消耗成倍放大，這就意味著使用費(fèi)用也急劇提高。Token貨幣化的結(jié)果就是，用戶迫切尋找更便宜的模型。而在OpenRouter平臺(tái)上，MiniMax和智譜的收費(fèi)僅為海外競品如Claude Opus的1/16（輸入100萬Token約0.3 vs 5），這吸引了大量海外開發(fā)者。

所以自今年2月起，OpenClaw熱潮推動(dòng)下，全球最大API聚合平臺(tái)OpenRouter 上中國模型調(diào)用量三周大漲127%，首次超越美國模型（5.16萬億 vs 2.7萬億Token），其中2026年Q1智譜的API調(diào)用量增長400%，就部分歸因于OpenClaw生態(tài)的放量。而MiniMax M2.5在OpenRouter平臺(tái)上曾連續(xù)兩周蟬聯(lián)全球調(diào)用量榜首，周調(diào)用量達(dá)1.63萬億Token。

但僅僅把智譜、MiniMax的翻盤全歸因于OpenClaw也并不公允，智譜和MiniMax的增長還得益于模型能力突破，智譜GLM-5在多項(xiàng)基準(zhǔn)測試中登頂開源模型榜首，Coding和Agent能力突出；MiniMax M2專為編碼與智能體任務(wù)優(yōu)化，也契合了Agent工作流需求。

旺盛的需求和模型能力提高，使得它們?cè)谝欢ǔ潭壬蠐碛辛嗽俣▋r(jià)權(quán)，今年3月智譜將API價(jià)格上調(diào)83%，但調(diào)用量依然供不應(yīng)求增長400%，就說明了這點(diǎn)。

但同樣面對(duì)龍蝦的風(fēng)口，六小龍中的另外幾條龍，表現(xiàn)又怎樣？

零一萬物已經(jīng)放棄了通用大模型，宣布不再做單一大模型，而是采用模型開放策略，轉(zhuǎn)型做企業(yè)級(jí)部署服務(wù)，核心技術(shù)團(tuán)隊(duì)在DeepSeek沖擊后分崩離析。百川智能的創(chuàng)始人王小川經(jīng)歷了他所謂的“至暗時(shí)刻”——業(yè)務(wù)線收縮、高管離職、目標(biāo)搖擺，最終押注AI醫(yī)療這個(gè)垂直賽道，基本退出了通用大模型的競爭。

同一個(gè)風(fēng)口，有人飛升，有人墜落。差距出在哪？

答案藏在一個(gè)更深層的邏輯里：龍蝦的風(fēng)口不是誰都能追，它考的是你的底模夠不夠強(qiáng)、工具鏈夠不夠深、開發(fā)者生態(tài)夠不夠厚。

而六小龍中的三強(qiáng)，恰恰是在龍蝦來臨之前，就已經(jīng)在這三個(gè)維度上默默積累了足夠的勢(shì)能。

問題是：為什么偏偏是他們？

02、范式的轉(zhuǎn)變

要回答這個(gè)問題，必須先理解一件在2024年底悄然發(fā)生、卻深刻改變了整個(gè)行業(yè)走向的事——Ilya Sutskever在NeurIPS 2024上的那場演講。

這位OpenAI的聯(lián)合創(chuàng)始人、被尊為“AI宗師”的人物，在那場罕見的公開露面中說了一句話：我們所知道的預(yù)訓(xùn)練，將毫無疑問地終結(jié)，我們已經(jīng)觸及了數(shù)據(jù)的頂峰，不會(huì)再有更多了。

這句話在業(yè)界引發(fā)了一場深刻的路線分裂。

一派認(rèn)為Scaling Law沒有撞墻，只是需要Scaling的對(duì)象變了——從互聯(lián)網(wǎng)原始數(shù)據(jù)轉(zhuǎn)向合成數(shù)據(jù)、推理軌跡、以及推理時(shí)的計(jì)算量。另一派則認(rèn)為Transformer架構(gòu)本身已觸及天花板，大模型需要一場從底層數(shù)學(xué)結(jié)構(gòu)開始的架構(gòu)革命。

對(duì)此，六小龍中的三強(qiáng)給出了自己的答案：都不選?；蛘哒f，兩個(gè)都選。

這就是所謂的“第三條路”——不是純粹地繼續(xù)堆數(shù)據(jù)、堆算力（老路已經(jīng)走到頭了），也不是推倒重來搞一個(gè)全新架構(gòu)（風(fēng)險(xiǎn)太大、周期太長），而是用架構(gòu)層面的精準(zhǔn)創(chuàng)新，去撬動(dòng)新形式的Scaling。

Kimi從大模型底層三大模塊——優(yōu)化器、注意力機(jī)制、殘差連接同時(shí)突破。

其MuonClip優(yōu)化器引入二階梯度信息，通過牛頓-舒爾茨迭代和QK-Clip機(jī)制解決“Logits爆炸”問題，實(shí)現(xiàn)同等算力下更高模型質(zhì)量或同等質(zhì)量下大幅降低算力需求，提升Scaling效率。

Attention Residuals論文獲馬斯克點(diǎn)贊，因?yàn)槠溆胹oftmax注意力實(shí)現(xiàn)“選擇性回憶”，使48B模型達(dá)到60B效果。

MiniMax路徑不同但信仰一致：創(chuàng)始人閆俊杰堅(jiān)信Scaling Law及模態(tài)等價(jià)性，這構(gòu)成其技術(shù)戰(zhàn)略的第一性原理。

MiniMax在各模態(tài)獨(dú)立驗(yàn)證Scaling規(guī)律：語言模型側(cè)將線性注意力推進(jìn)至工業(yè)級(jí)，使百萬長文本算力消耗降至傳統(tǒng)方案幾百分之一；多模態(tài)側(cè)發(fā)現(xiàn)Visual Tokenizer的Scaling Law，解決視頻生成投入產(chǎn)出問題，獲得結(jié)構(gòu)性效率優(yōu)勢(shì)。

作為這一策略的錯(cuò)過，M2.5的230B總參數(shù)僅激活10B推理，SWE-Bench得分80.2%，價(jià)格為Claude Opus 4.6的十分之一，這源于MoE架構(gòu)與推理優(yōu)化帶來的成本優(yōu)勢(shì)。

智譜走的路子，表面上是漲價(jià)后不跌反升的“飛輪驗(yàn)證”，2026年一季度價(jià)格漲了83%，Token調(diào)用量卻增長400%。但真正的秘密在于三個(gè)維度的同時(shí)強(qiáng)化，形成了一個(gè)“多角形飛輪”，很難被競爭對(duì)手同時(shí)追趕。

在模型方面，GLM-5在編程、長文本、多模態(tài)上的突破，讓它成了Agent開發(fā)者的必選項(xiàng)。與此同時(shí)，智譜完成了與華為昇騰、摩爾線程等七大國產(chǎn)芯片的算子級(jí)優(yōu)化，讓部署成本直接降低50%。這意味著國產(chǎn)芯片選擇智譜，從可選變成了必須，轉(zhuǎn)換成本有形化了。

而在數(shù)據(jù)閉環(huán)上，智譜不像大廠的數(shù)據(jù)分散在各處，開發(fā)者用GLM完成一個(gè)Agent任務(wù)，推理軌跡、糾錯(cuò)過程全部被記錄，這種“真實(shí)任務(wù)數(shù)據(jù)”的價(jià)值，遠(yuǎn)高于互聯(lián)網(wǎng)爬蟲或合成數(shù)據(jù)。模型越強(qiáng)，用戶越多，飛輪就這樣轉(zhuǎn)起來了。

三家公司的路徑各有不同，但有一個(gè)共同的底層邏輯：“第三條路”帶來的不僅僅是極致的性價(jià)比，而是在Token消耗量爆炸式增長后，仍然能維持任務(wù)質(zhì)量的穩(wěn)定。

龍蝦場景下，一個(gè)稍復(fù)雜的編程任務(wù)平均消耗350萬Token——是普通對(duì)話的數(shù)百倍。在這種級(jí)別的負(fù)載下，模型的推理穩(wěn)定性、長上下文下的性能衰減控制、以及端到端的延遲管理，才是開發(fā)者選擇誰的真正標(biāo)準(zhǔn)。

換句話說，便宜只是入場券，穩(wěn)定才是留下來的理由。

03、DeepSeek最大的挑戰(zhàn)

如果三強(qiáng)的崛起，代表了“第三條路”的勝利，那么另一個(gè)更尖銳的問題是：為什么與三強(qiáng)同為大模型企業(yè)出身的DeepSeek，沒有率先實(shí)現(xiàn)這樣的突破？

坦白說，DeepSeek在大模型1.0時(shí)代創(chuàng)造的成就，至今仍令人敬佩。

V3和R1以極低的訓(xùn)練成本實(shí)現(xiàn)了SOTA級(jí)別的性能，MLA（多頭潛在注意力）和混合專家架構(gòu)的組合，在當(dāng)時(shí)堪稱驚艷。梁文鋒以極致的、勇猛的工程學(xué)思維，把每一塊GPU的性價(jià)比壓榨到了極致——這種“力出一孔”的能力，正是大模型1.0時(shí)代最重要的競爭力。

但1.0時(shí)代的競爭邏輯，和2.0時(shí)代有根本的不同。

到了2.0時(shí)代，問題變了。當(dāng)Ilya宣告“我們所知道的預(yù)訓(xùn)練將要終結(jié)”之后，行業(yè)面臨的不再是“怎么把模型做得更大”，而是“下一步往哪走？”

是繼續(xù)Scaling別的東西，還是徹底換架構(gòu)？這是一個(gè)充滿不確定性的岔路口。

在這個(gè)岔路口上，DeepSeek（以下簡稱DS）遇到了兩個(gè)結(jié)構(gòu)性的困難。

第一個(gè)困難來自商業(yè)化的缺失，導(dǎo)致其無法持續(xù)地Scaling。

DS至今沒有系統(tǒng)性的商業(yè)化運(yùn)營，其API雖然被大量使用，但因?yàn)镈S是開源的，因此大量企業(yè)把DS權(quán)重下載下來，私有化部署在自己的服務(wù)器上，這部分用戶的數(shù)據(jù)完全在企業(yè)內(nèi)網(wǎng)里，DS的母體一個(gè)字也收不到，同時(shí)還有大量開發(fā)者通過阿里云、騰訊云、百度云等第三方平臺(tái)調(diào)用DS，數(shù)據(jù)留在了云廠商那里。

更關(guān)鍵的地方在于：DS免費(fèi)或超低價(jià)的API定價(jià)，難以支撐數(shù)據(jù)工程的運(yùn)轉(zhuǎn)成本，這意味著DS用戶越多越虧，用戶翻倍，虧損也翻倍，這使其無法像三強(qiáng)那樣，在龍蝦實(shí)戰(zhàn)中不斷迭代。

第二個(gè)困難更加微妙，也是制約DS架構(gòu)創(chuàng)新的瓶頸。

DeepSeek的團(tuán)隊(duì)至今不到140人，平均年齡只有28歲，成員幾乎清一色來自國內(nèi)頂尖高校的應(yīng)屆畢業(yè)生和在讀博士生。這個(gè)選擇并非無意為之，梁文鋒曾公開表達(dá)過他的人才哲學(xué)：“經(jīng)驗(yàn)并不意味著能力，反而可能限制創(chuàng)新。”

但這里有一個(gè)隱患，在2.0時(shí)代的架構(gòu)創(chuàng)新需求下，架構(gòu)層面的真正突破，往往需要的不只是聰明的年輕人，還需要見過不同范式的人之間的知識(shí)碰撞。

楊植麟在Google Brain見過Transformer如何從論文變成工業(yè)級(jí)系統(tǒng)；智譜創(chuàng)始人唐杰的團(tuán)隊(duì)，不僅有著扎根清華的學(xué)術(shù)背景，也帶領(lǐng)KEG實(shí)驗(yàn)室深耕了近二十年，發(fā)表了超過500篇頂尖論文。

這種“多層代際、多種背景”的知識(shí)密度，才使得架構(gòu)革命與創(chuàng)新成為了可能。

從唯物主義的角度上說，技術(shù)創(chuàng)新的必要條件，不是只是天才的“靈光一閃”，更需要看知識(shí)、人才的密度、多樣性是否達(dá)到了一定的閾值和豐度。

說到底，DS的問題不是“技術(shù)不夠強(qiáng)”，而是它不能再用大模型1.0的思維打2.0的仗。

很多人都喜歡把訓(xùn)練大模型叫做“煉丹”，這不是段子，而是一種精準(zhǔn)的隱喻。

大模型訓(xùn)練的本質(zhì)，就是把海量數(shù)據(jù)（原料）投入神經(jīng)網(wǎng)絡(luò)（爐子），經(jīng)過漫長的參數(shù)調(diào)整（火候），最終期待涌現(xiàn)出一種難以預(yù)測的“智能”。你事先并不完全知道產(chǎn)出會(huì)是什么——調(diào)一下學(xué)習(xí)率，改一下Batch Size，模型的表現(xiàn)就可能陡然提升，這種高度依賴經(jīng)驗(yàn)與直覺的摸索過程，和古人在丹爐前的反復(fù)試探如出一轍。

1.0時(shí)代更講究“煉丹師”的個(gè)人洞見，一個(gè)天才型的創(chuàng)始人，帶著一小群精英，在丹爐前反復(fù)實(shí)驗(yàn)，直到煉出驚世駭俗的成果。這在很長一段時(shí)間里是有效的。

但2.0時(shí)代需要的，更可能是“制藥廠”式的體系化創(chuàng)新。

什么叫制藥廠？它不依賴任何一個(gè)藥劑師的靈感，而是靠可復(fù)制的研發(fā)流程、可量化的質(zhì)量標(biāo)準(zhǔn)、和持續(xù)不斷的臨床反饋來穩(wěn)定地產(chǎn)出新藥。

在大模型2.0時(shí)代，持續(xù)的體系化創(chuàng)新能力，比任何一次單點(diǎn)技術(shù)突破都重要得多。誰能把“創(chuàng)新”從個(gè)人英雄主義變成組織級(jí)的穩(wěn)定產(chǎn)出，誰就能在這個(gè)充滿不確定性的時(shí)代里掌握主動(dòng)權(quán)。

以Kimi為例，3月16日，Kimi發(fā)布Attention Residuals論文，被馬斯克點(diǎn)贊，之后Reddit上已有開發(fā)者在復(fù)現(xiàn)。這背后反映的，實(shí)際上是其一種系統(tǒng)化、團(tuán)隊(duì)化的知識(shí)積累體系。

絕大多數(shù)公司，從論文到產(chǎn)品的路徑是：核心論文→模型訓(xùn)練→產(chǎn)品發(fā)布→用戶反饋→下一個(gè)核心論文。但Kimi打破了這個(gè)模式，Kimi 3月16日論文發(fā)表后，從論文idea到學(xué)術(shù)發(fā)表到產(chǎn)品實(shí)現(xiàn)到開源代碼，只用了不到3天的迭代周期。

這說明，Kimi把論文看作一個(gè)可視化的思想工具，用來快速獲得全球反饋的中間產(chǎn)品，而非要等到論文或產(chǎn)品完美后，再等待反饋。

論文的作者組成，還暴露了一個(gè)秘密：Guangyu Chen（陳廣宇）和其他作者加起來，一共35人，其中還有一位17歲的高中生，這在大模型論文里很罕見。

通常情況下，即使是OpenAI、DeepSeek發(fā)表的論文，作者也大多只有十幾到20位。

這說明Kimi的論文不是“精英研究團(tuán)隊(duì)的產(chǎn)物”，而是“整個(gè)公司在這個(gè)方向上的集體知識(shí)總結(jié)”。

三強(qiáng)之所以能走出ICU，不是因?yàn)樗鼈儞碛斜菵eepSeek更聰明的工程師，而是因?yàn)槠浣⒘艘环N更快的迭代速度、更密集的知識(shí)流轉(zhuǎn)、更體系化的創(chuàng)新機(jī)制。

大模型1.0時(shí)代屬于煉丹師，那是一個(gè)憑借個(gè)人洞見和技術(shù)魄力就能改變格局的英雄時(shí)代。但2.0時(shí)代，屬于制藥廠，屬于那些把創(chuàng)新變成流水線、把突破變成日常、把個(gè)人能力沉淀為組織能力的企業(yè)。

六小龍中的三強(qiáng)，正在做同樣的事。

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦，快來評(píng)價(jià)一下吧！

下載界面新聞

微信公眾號(hào)

微博

走出ICU的“AI三小龍”，究竟做對(duì)了什么？

大模型2.0時(shí)代，屬于“制藥廠 ”

最話FunTalk · 2026/04/09 19:47

文｜最話FunTalk 林書

編輯｜劉宇翔

Anthropic終于忍不住“龍蝦打洞”了。

此外，Anthropic還有一點(diǎn)不能忍的是，OpenClaw 遲早會(huì)將Anthropic“供應(yīng)商化”。

顯然，這對(duì)于有著長遠(yuǎn)目標(biāo)的Anthropic 來說，是沒法接受的，與其坐以待斃，不如主動(dòng)重拳出擊。

畢竟，智譜、MiniMax的Token價(jià)格相對(duì)于Anthropic的，要便宜得多。

但Token便宜，并不是它們最大的優(yōu)勢(shì)。

01、三強(qiáng)的崛起

2026年4月1日，智譜發(fā)布上市后的第一份年報(bào)，CEO張鵬在業(yè)績會(huì)上反復(fù)強(qiáng)調(diào)了兩個(gè)字：Token量。

張鵬把這種罕見的“漲價(jià)放量”歸結(jié)為一個(gè)公式：AGI商業(yè)價(jià)值 = 智能上界× Token消耗規(guī)模。

模型的智能上限，決定你敢不敢漲價(jià)；Token消耗規(guī)模，決定漲價(jià)之后有沒有人買單。智譜兩個(gè)都做到了。

可短短一年之后，劇本完全翻轉(zhuǎn)。

但同樣面對(duì)龍蝦的風(fēng)口，六小龍中的另外幾條龍，表現(xiàn)又怎樣？

同一個(gè)風(fēng)口，有人飛升，有人墜落。差距出在哪？

而六小龍中的三強(qiáng)，恰恰是在龍蝦來臨之前，就已經(jīng)在這三個(gè)維度上默默積累了足夠的勢(shì)能。

問題是：為什么偏偏是他們？

02、范式的轉(zhuǎn)變

要回答這個(gè)問題，必須先理解一件在2024年底悄然發(fā)生、卻深刻改變了整個(gè)行業(yè)走向的事——Ilya Sutskever在NeurIPS 2024上的那場演講。

這句話在業(yè)界引發(fā)了一場深刻的路線分裂。

對(duì)此，六小龍中的三強(qiáng)給出了自己的答案：都不選?；蛘哒f，兩個(gè)都選。

Kimi從大模型底層三大模塊——優(yōu)化器、注意力機(jī)制、殘差連接同時(shí)突破。

Attention Residuals論文獲馬斯克點(diǎn)贊，因?yàn)槠溆胹oftmax注意力實(shí)現(xiàn)“選擇性回憶”，使48B模型達(dá)到60B效果。

MiniMax路徑不同但信仰一致：創(chuàng)始人閆俊杰堅(jiān)信Scaling Law及模態(tài)等價(jià)性，這構(gòu)成其技術(shù)戰(zhàn)略的第一性原理。

換句話說，便宜只是入場券，穩(wěn)定才是留下來的理由。

03、DeepSeek最大的挑戰(zhàn)

坦白說，DeepSeek在大模型1.0時(shí)代創(chuàng)造的成就，至今仍令人敬佩。

但1.0時(shí)代的競爭邏輯，和2.0時(shí)代有根本的不同。

是繼續(xù)Scaling別的東西，還是徹底換架構(gòu)？這是一個(gè)充滿不確定性的岔路口。

在這個(gè)岔路口上，DeepSeek（以下簡稱DS）遇到了兩個(gè)結(jié)構(gòu)性的困難。

第一個(gè)困難來自商業(yè)化的缺失，導(dǎo)致其無法持續(xù)地Scaling。

第二個(gè)困難更加微妙，也是制約DS架構(gòu)創(chuàng)新的瓶頸。

這種“多層代際、多種背景”的知識(shí)密度，才使得架構(gòu)革命與創(chuàng)新成為了可能。

說到底，DS的問題不是“技術(shù)不夠強(qiáng)”，而是它不能再用大模型1.0的思維打2.0的仗。

很多人都喜歡把訓(xùn)練大模型叫做“煉丹”，這不是段子，而是一種精準(zhǔn)的隱喻。

但2.0時(shí)代需要的，更可能是“制藥廠”式的體系化創(chuàng)新。

這說明，Kimi把論文看作一個(gè)可視化的思想工具，用來快速獲得全球反饋的中間產(chǎn)品，而非要等到論文或產(chǎn)品完美后，再等待反饋。

論文的作者組成，還暴露了一個(gè)秘密：Guangyu Chen（陳廣宇）和其他作者加起來，一共35人，其中還有一位17歲的高中生，這在大模型論文里很罕見。

通常情況下，即使是OpenAI、DeepSeek發(fā)表的論文，作者也大多只有十幾到20位。

這說明Kimi的論文不是“精英研究團(tuán)隊(duì)的產(chǎn)物”，而是“整個(gè)公司在這個(gè)方向上的集體知識(shí)總結(jié)”。

六小龍中的三強(qiáng)，正在做同樣的事。

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

歷史搜索全部刪除

熱門搜索

走出ICU的“AI三小龍”，究竟做對(duì)了什么？

01、三強(qiáng)的崛起

02、范式的轉(zhuǎn)變

03、DeepSeek最大的挑戰(zhàn)

評(píng)論

走出ICU的“AI三小龍”，究竟做對(duì)了什么？

01、三強(qiáng)的崛起

02、范式的轉(zhuǎn)變

03、DeepSeek最大的挑戰(zhàn)

走出ICU的“AI三小龍”，究竟做對(duì)了什么？

01、三強(qiáng)的崛起

02、范式的轉(zhuǎn)變

03、DeepSeek最大的挑戰(zhàn)

評(píng)論

走出ICU的“AI三小龍”，究竟做對(duì)了什么？

01、三強(qiáng)的崛起

02、范式的轉(zhuǎn)變

03、DeepSeek最大的挑戰(zhàn)

走出ICU的“AI三小龍”，究竟做對(duì)了什么？

02、范式的轉(zhuǎn)變

走出ICU的“AI三小龍”，究竟做對(duì)了什么？

03、DeepSeek最大的挑戰(zhàn)