文|奇點湃
近來百度搜索全面AI化,作為核心業(yè)務,內部稱大搜,確如百度AI Day上所稱,為十年來最大變化。
然而眾所周知,搜索的關鍵字零散,隱約指向用戶的問題,而AI預期的Agent模式,能夠輔助執(zhí)行完整的任務,差距不可以道里計,大約不會受制于搜索框。盡管此次改版擴框,支持長文本和多模態(tài)輸入,恐怕仍不夠激進,是一種過渡狀態(tài)。
同期百度文庫網(wǎng)盤業(yè)務發(fā)力,虎嗅商業(yè)消費組做了采訪,《百度暗藏一支1200人的勁旅》,這標題略抽象,仿佛在說司馬懿圖謀造反。文庫的野望是做“一站式AI創(chuàng)作平臺”,已經(jīng)開發(fā)內容操作系統(tǒng)和系列創(chuàng)作工具。
或許后者更具想象空間。當下號稱自媒體UGC(用戶生成內容),仍遵循媒體邏輯,將用戶區(qū)分為受眾和作者,這是因為內容制作仍有一定門檻,而字節(jié)始作俑的算法分發(fā)模式,讓流量變現(xiàn)閉環(huán)。內容生產(chǎn)沒有質量,也有數(shù)量。若能更進一步,完全消除門檻,且創(chuàng)新分享方式,突出內容本身的邏輯,超越流量,那不啻于一場內容革命。
AI的序幕剛剛拉開,判斷具體業(yè)務成敗還為時過早,不妨先回顧產(chǎn)業(yè)史,確認真問題。互聯(lián)網(wǎng)連接萬物,連接的對象和方式,可分為信息,人與商品(服務)三類,要滿足用戶簡單的需求,供給端并不簡單,構成紛繁的生態(tài),即對應BAT三頭,硅谷FANG大同小異。
自產(chǎn)業(yè)開辟,生態(tài)經(jīng)歷若干輪變革。大套娃管住小套娃,不限于巨頭,創(chuàng)業(yè),就業(yè),對變化的把握,回應關系重大。一個人的命運,當然要靠自己奮斗,也要考慮歷史的進程。百度一度沉寂,戰(zhàn)略為坊間議論,也可以放在這個框架下理解。
01 算法的大他者
最初門戶時代以信息為主,社交和電商已經(jīng)開張,還很弱小,不成為生態(tài)。商業(yè)模式也以廣告為主。相比門戶主頁平鋪,由海量編輯人工生成,以“標題黨”著稱。
搜索引擎按關鍵字排序,賦予全網(wǎng)信息一個結構,從而接管信息生態(tài)。按關鍵字匹配廣告也更精準,圈占可能最肥的一塊油水。同時社交和電商壯大,找到商業(yè)模式,于是進入BAT時代。
那時就有個人站,站長同時懂內容和技術,還要搞定域名啥的,堪稱六邊形戰(zhàn)士。2005年新浪博客上線,人人都能零幀起手,說起來UGC(用戶生產(chǎn)內容)這條賽道還是門戶開啟的。當初起高樓何其熱鬧,已于2023年悄無聲息地關閉,也成了時代的一?;摇?/p>
微博2009年上線,顧名思義短小的博客,對其定位兩個平行,高配低配的產(chǎn)品。結果盡管新浪同時掌握了內容和渠道,卻錯過市場機遇,沒能結合,搞撒尿牛丸。有點像硅谷歷史上的施樂帕樂阿托中心。
微博不加思索地沿襲推特的140字限制,超出只能掛外部生成的長圖文,站方聽之任之,重點推名人大V,“我是薛蠻子,我有987萬粉絲,讓我進去。”全都是浮云……還是受限于門戶的媒體思維。微博如今也能多發(fā)字數(shù),發(fā)文章,然而為時已晚。
企業(yè)官方定義,“基于數(shù)據(jù)挖掘的推薦引擎產(chǎn)品”。挖掘的是用戶行為數(shù)據(jù),實際是一個關于人的觀賞(惡)趣味的引擎,打開App刷第一個內容,算法就開始標注,根據(jù)標簽推薦。
刷得越多,標注越細密。交叉多(人)對多(標簽)。理論上可以無限細分,機器的能力沒有上限,如同古人用正多邊形趨近求圓面積,然而人不等于諸多標簽(現(xiàn)象)疊加,后面存在一個整體意識統(tǒng)攝所有,哲學上叫主體性。且隨著時間流逝,人性是會變的。
我們無意探討這一終極命題,已經(jīng)爭議幾千年,實操并不會無限細分,通過專一高強度投喂,受眾心智會不自覺向標簽滑動,雙向奔赴,反過來驗證標簽,實現(xiàn)閉環(huán)?!拔褂脩舫允福脩舫粤?,說明用戶愛吃矢?!?/p>
費錢費力開發(fā)這套系統(tǒng),當然不是為探索人性的邊界,而是發(fā)售廣告,在用戶畫像的顆粒度和營銷的規(guī)模經(jīng)濟之間平衡,也不會無限細分。這就跟傳統(tǒng)媒體的模式一模一樣,只是技術上從狂轟濫炸到精確制導的飛躍。
如果說受眾還是不自覺被規(guī)訓,作者則自覺配合標簽生產(chǎn),有時還會分擔標注工作。賣的人設并非本人,鼓吹“做自己”也是濫大街的標簽。所以生產(chǎn)也是傳統(tǒng)模式,可以看作一個擁有成千上萬頻道的電視臺,或者用機器替代新浪的海量編輯。
雙方實際不構成供需,關注實際無關,各自勾兌算法。站方就像地產(chǎn)中介或村里的媒婆,兩頭忽悠,最大化商業(yè)模式。將兩邊的人都分解為標簽,標簽同質化,作匹配,積少成多,由此創(chuàng)造了流量。
流量為王,于是這個時代所有人都不免被流量裹挾,作者追求10萬+,五分鐘熱度,黑紅也是紅,官媒也拙劣地模仿……來歷不明的勢力買量,制造影響,普通觀眾則淪為數(shù)字,信息過載,被迫接收大量做作,沒有營養(yǎng)的內容。
將人降級為信息,就不是社交是媒體。而作為一種信息生態(tài),盡管搜索結果也為SEO(搜索引擎優(yōu)化)污染,永遠博弈,還是能對人們尋求未知有所幫助,而算法分發(fā)強化成見,在使用價值,以及社會評價上都稍遜于搜索。
算法分發(fā)商業(yè)上取得巨大成功,曾經(jīng)以為BAT格局已定,字節(jié)異軍突起,給人印象深刻,騰訊相關業(yè)務負責人打急了,說過頭話,百度專門成立“打頭辦”(內容生態(tài)市場部),兩家都和字節(jié)高強度訴訟,抖音后來還能帶貨,也即一打三,等等,然而拋開數(shù)字,把握定性,并未能侵入三頭的原生生態(tài),構成替代,僅僅威脅到衍生的內容和直播。
在這個意義,BAT的霸權仍然成立,如同IT古典時代,“無法和IBM競爭,只能和IBM的一部分競爭。”百度沉寂多年,市值掉落攜程,市盈率破十,不改變當下搜索還是最高的信息生態(tài)。
盡管三頭的護城河都在,受沖擊的程度因人而異,小馬過河。騰訊更適合作為公關戰(zhàn)的目標,然而社交主生態(tài)的商業(yè)模式不等于信息子生態(tài)。在門戶時代QQ不被看好,就因為社交不兼容廣告,后來與游戲結合,算法的沖擊對騰訊只是變起肘腋,而搜索依賴廣告,對百度就是心腹大患。信息模式不構成替代,商業(yè)模式卻是零和。
游戲的風評也不高,算法分發(fā)的問題還要嚴重一些,前者更多是觀念的慣性,用互聯(lián)網(wǎng)搞社會對立卻是個新發(fā)明。給人貼標簽,且標簽之間割裂,自然不能像完整的人格那樣內部折衷,按這種模式內在的邏輯,必然上強度,標簽極化,用粉圈術語叫提純結晶,以轉化購買沖動,廉價的情緒比知識更容易制造,劣幣驅逐良幣。
這并非平臺單方面的陽謀,算法分發(fā)與下沉市場同步,作者營業(yè)配合標簽,下沉市場受眾則在社會學層面擁抱標簽,普大喜奔,如戶晨風“蘋果人生”“安卓人生”,傳統(tǒng)“面子”是由人肉網(wǎng)絡維持的評價。精英也不能免俗,只是追捧的更精致優(yōu)雅,如山姆會員店,各有各典,求仁得仁。
張小龍干了一輩子程序員,有精神追求(潔癖),多半想不到這層,咪蒙第一個天才地把握到其中潛力,并付諸實踐(及以下均為比喻,今日頭條與微信公眾平臺于2012年8月幾乎同時上線,咪蒙則遲至2015年才走上人生巔峰)。
奈何咪老師和她月薪五萬的小助理,全是廢物文科生,還停留在手工業(yè)時代。咪老師風光了幾年被封,團隊開枝散葉,有絲分裂,手速再快,終究比不過另一批理科生開動流水線生產(chǎn),一個咪蒙倒下去,千萬個咪蒙站起來。
這是最大的外部性,遠遠超過制造垃圾信息。種種對抗性議題固然有社會成因,被技術急劇放大,亦難辭其咎。
微博已經(jīng)歷幾輪整改,前(翻)車之鑒,從蠻荒時代走過來,屏幕底下沒有新鮮事。大V膨脹了,飄了,以為天兄附體,最終公開處刑,身(賬號)死名滅。此時此刻恰如彼時彼刻。
小紅書也是個性推薦,然而刻意與抖音錯位,信奉“自然生長”,漸進滲透圈層,且女生多,養(yǎng)成大不一樣的調性,或為模式演化的更高形態(tài)。也隱約可見張力,在小紅書,既能找到大量有信息密度的內容,特別是完整可執(zhí)行的方案,對搜索引擎構成真正的替代,也有豐富的小布爾喬亞景觀,以及打拳。近來也暴露增長焦慮,參考君澤《小紅書的“趙露思悖論”》。
如果一切可以重來,百度身在業(yè)內,應該很早接觸到算法分發(fā)的概念,有過短暫的時間窗口,假使抓住機會,順利搶占賽道,那不過是將兩個信息生態(tài)的沖突內部化,也要承載隨之而來的所有業(yè)力,如同當年的醫(yī)藥廣告。
02 我還有機會嗎?
算法模式統(tǒng)治行業(yè)已久,成為事實的標準,甚至塑造了從業(yè)者的信念,如同曾經(jīng)BAT的霸權。然而當初有過別的可能。
2000年代中,曾泛起一陣思想波瀾(夠不上浪潮),也是財經(jīng)出版最后的黃金時代,光陰似箭,一晃已經(jīng)二十年。當時仍以引進概念為主,我游戲文字,選取最熱的四個,拼湊為“藍長平二”,《藍海戰(zhàn)略》和《世界是平的》如今看就是笑話,圖樣圖那義務,而web2.0和長尾理論,長尾其實也是2.0的一種現(xiàn)象,仍然有生命力。
Web 2.0概念源自2004年技術出版機構O'Reilly和Media Live International頭腦風暴,作為對2001年納斯達克互聯(lián)網(wǎng)泡沫破滅的總結。2.0由用戶而非網(wǎng)站雇員生成內容,那么早有這樣的認知,可謂遠見。然而先驅們未曾料到算法分發(fā)的出現(xiàn)。硅谷真正的思想輸出也就到此為止。
中國同行經(jīng)歷同一個周期,開始與硅谷分化,出現(xiàn)一些本土的創(chuàng)新。因而那一波概念也與以往有所不同,嘗試作本土化闡述。當時BAT尚未與門戶交接,QQ和淘寶(c2c)也可以說驗證2.0,然而業(yè)界心目中最貼合的是豆瓣。
承認對豆瓣有個人偏好,如蔣勛說:“我向你介紹的巴黎,一定不是客觀的,因為我二十五歲時在巴黎讀書,我介紹的巴黎,其實是我的二十五歲。”我又在業(yè)界混了這么久,閱網(wǎng)無數(shù),豆瓣的模式仍未被超越。
2010年3月美團成立,4月小米成立,標志移動互聯(lián)網(wǎng)啟動。手機系于人身,體現(xiàn)2.0精神,盡管概念的熱度已經(jīng)過去。業(yè)界很快掀起一股社交熱,打車軟件,支付寶,都要加點社交的花頭,影響正業(yè),被網(wǎng)友怒斥。
騰訊更成為王中王,眾矢之的,2010年7月《計算機世界》刊發(fā)封面《“狗日的”騰訊》,11月爆發(fā)“3Q大戰(zhàn)”。轉過年2011年1月微信上線,從陌生人社交躍遷熟人社交,圈層從年輕人為主擴展全民。三頭中第一個完成移動互聯(lián)網(wǎng)升級。
移動最初對電商呈中性,關鍵節(jié)點支付,物流等,均在終端以外,直觀的不便線上貨架展示,也是手機用戶界面共通的問題,這不難解決。正逢阿里2014年9月紐交所上市,在移動互聯(lián)網(wǎng)開局是一個資本故事,收購了我當時任職的UC瀏覽器。
之后逐漸滲透,用戶在行動中觸發(fā)消費場景,呈點狀,不顛覆全局,同期本地服務興起,要求線上線下閉環(huán)。繼泛社交,又引發(fā)泛場景運動,從逐點爭奪,到近期追蹤消費者的即時零售,電商繼終端的躍遷,在業(yè)務上又經(jīng)歷一場由靜至動的轉變。繼騰訊自我革命的新產(chǎn)品新生態(tài),阿里通過一系列改良,積跬步以至千里,也完成移動升級。
然而迄今未觸動信息生態(tài)。如上所述,算法分發(fā)的內容雖由用戶生成,實為站方操縱,且配合強運營,是偽裝成web2.0的1.0,生態(tài)并非直線進化,亦有退化,只是觸動信息的蛋糕。
另一重大的退化緣起底層的終端,傳導到生態(tài),在未建設新生態(tài)之前,先破壞舊生態(tài)。從人們有智機手機的想法,想到并不難,到各種笨拙的觸控筆,長期局限一隅(專業(yè)PDA)。除了通信與IT的行業(yè)壁壘,用戶界面始終是大阻礙。喬布斯發(fā)揚蘋果的圖形界面,解放筆觸,打開新世界的大門。
然而為此放棄超文本語言HTML,搜索引擎正是建立在超文本上,廣闊無垠的大陸,而采用App模式,將信息分隔在眾多孤島。所以盡管進入移動互聯(lián)網(wǎng)很長時間,搜索仍能貢獻巨大的現(xiàn)金流,基于這一明確的預期,資本市場并不買賬。
在App框架內順勢或補救,巨島化,向頭部App集中,終究不成大陸,更加深巨島之間的鴻溝,站內搜索取代廣域搜索。算法分發(fā)也有賴App割據(jù),站方得以全面控制用戶,盡管身處同一環(huán)境,如今殘存的PC網(wǎng)頁也瘋狂推送,只要用戶能像HTML一樣方便地橫向逃逸,就能抵消縱向的控制??傊瓵pp模式一系列連鎖反應,都對百度有減損而無加成。
然而回過頭看,這一路徑并非必然。再稍微等幾年,硬件性能就有巨大的飛升,支持HTML或其它連通的模式,那百度也可以繼續(xù)坐地收錢。當然我們不能苛求古人,無損喬布斯的英名。
說到這,百度為什么不自己做一款系統(tǒng)?移動操作系統(tǒng)。當拙劣的先行者,不怕世人恥笑,憑中國市場的“洼地優(yōu)勢”,調動政策,山寨機等一切資源,先圈地自萌,徐圖進取。
本地服務雖卷出天際,取線性增長,多少能搶些份額,糯米最后就賣掉,又是一條穩(wěn)妥的路,操作系統(tǒng)取指數(shù)增長,贏者通吃,ios和安卓已分庭抗禮,能否構成實質的第三個選擇,或比200億更多的血本無歸,是一條兇險,少有人走的路,然而比本地服務,甚至算法分發(fā),更具戰(zhàn)略意義。至少延展舊的商業(yè)模式邊界,至少為行業(yè),國家趟路。
猶記百度最初的定位,向新浪等巨頭提供站內搜索服務,然而隨著納市崩盤,需求萎縮,被迫轉型toc,意味著在中文語境與谷歌正面競爭,谷歌當時也創(chuàng)業(yè)不久,已于2000年成為雅虎的搜索供應商。兩個戰(zhàn)略落差何其之大。無疑是艱難的決定,百度邁出這一步,成就后來的霸業(yè)。
自研系統(tǒng)只是個頭腦風暴,風險極大,不足為憑,然而綜合百度歷年的經(jīng)營,投資策略,可謂保守,或者說在這樣的環(huán)境,三頭各有各的保守。
總之移動互聯(lián)網(wǎng)雨露不均,信息生態(tài)始終未起勢,不進反退,百度求其次,追逐自己不擅長的風口,屢戰(zhàn)屢敗也可以理解。這些年投的戰(zhàn)略項目,本地服務為異質生態(tài),與電商更親和,在最近京東美團阿里亂戰(zhàn)中混同,YY給予百度的想象空間很大,語音構成視覺(搜索框)外又一輸入方式,然而落地縹渺,且和支撐估值的直播不搭噶。收購本身一波三折,延宕四年,連現(xiàn)值也耗盡。
俱往矣,AI來了。與移動互聯(lián)網(wǎng)的關系不像社交和場景那樣緊密,長期平行發(fā)展,當下的焦點通用大模型,主要在B端,數(shù)據(jù)中心。然而其前程無疑在c端,即移動端,不可限量。普及個人信息助理,群眾知識平權,將是比PC更偉大的革命。
AI面向信息,這是百度同調,等待已久的機會。BAT三頭當初登頂?shù)臅r間略有先后,可以歸入同一浪潮,而移動互聯(lián)網(wǎng)對三大生態(tài)的改造相距甚遠,形態(tài)各異。用學術黑話叫共時性與歷時性。App的bug也有望由AI在更高維解決,而不必返回去修正用戶界面。
03 講一點唯物主義
百度布局AI很早,2013年即成立深度學習研究院,甚至在2009年的框計算概念中可見雛形,2017年明確AI為公司戰(zhàn)略,2012年還曾參與“AI教父”杰弗里·辛頓及學生發(fā)起的競拍(辛頓最終選擇加入谷歌,23年離開),是為業(yè)界一段佳話,不可謂不重視。然而在近期百模大戰(zhàn)中表現(xiàn)并不突出,又引來自媒體一輪群嘲,起個大早趕個晚集。
下判斷還為時過早,整體發(fā)展路線存疑的話,短暫的先后并不能決定,說明什么。硅谷帶頭,采取一條堆砌算力(顯卡),也即資本密集路線,英偉達的市值直沖上4萬億。2025年初deepseek給了當頭一棒,結合創(chuàng)新的架構和算法,明智地開源,用軟件挖潛硬件,將API定價腳踝斬。
算力成本控制引起行業(yè)的重視,參考公眾號直面AI文章《OpenAI的命門,決定了大模型公司的未來》,GPT-5新增的路由routing功能,在推理和非推理模型之間分配算力。效果顯著(?),引起新一輪擴張,又抬高甲骨文的股價。OpenAI 還計劃在印度建設1Gw以上的數(shù)據(jù)中心。
瘋狂擴張算力,以及在deepseek之前閉源,全押在規(guī)模法則Scaling Law上,技術屬性上是新生事物,然而轉換到商業(yè)策略,并無新意。是著名的信息經(jīng)濟三定律:摩爾定律,吉爾德定律與邁特卡夫定律,在AI領域的延伸。貫穿產(chǎn)業(yè)史,塑造行業(yè)的方方面面,從發(fā)展到競爭態(tài)勢,乃至創(chuàng)業(yè),從業(yè)的人性。
1990年代郭士納從外行入主IBM不久,就意識到這種特異性:傳統(tǒng)行業(yè)線性增長,競爭將止于若干寡頭,而IT業(yè)指數(shù)增長,競爭不到贏者通吃,輸者清零,不會罷休。這一幕從IBM的大型機,到Wintel于PC,再到FANG,BAT于互聯(lián)網(wǎng),反復上演,本土業(yè)界在PC時代打下手喝湯,在互聯(lián)網(wǎng)時代吃好了,自然對這一波趨之若鶩。
我們無從預測Scaling Law的極限,相比技術迷霧,用戶較直觀。在三定律中摩爾定律最接近,主要描述技術,供給函數(shù),要完整理解摩爾定律,技術潛力不會自動成為現(xiàn)實,實際驅動增長的是PC用戶的算力稀缺,饑渴。后來所謂摩爾定律失效,技術上還是可以努力一下,然而存量算力對絕大多數(shù)人已經(jīng)夠用。
邁特卡夫定律就兼顧供給和需求,網(wǎng)絡的價值與節(jié)點(用戶)數(shù)的平方成正比。用戶而非技術自我驅動,互相分享推薦,滾雪球般導入市場,讓廠商白嫖,效果卻比花錢打廣告好。也是與傳統(tǒng)行業(yè)特異之處。統(tǒng)一的價值遠大于分立,也是用戶最終裁決贏者通吃。這正是AI面臨的問題,Scaling Law即使繼續(xù)有效,能夠在多大程度上,或者什么層次,轉化邁特卡夫定律。
已堆砌這么多,AI在c端仍形同電子寵物。長文本和多模態(tài)具有全網(wǎng)通約性,之前搜索主要處理短文本,多模態(tài)是短板,這塊收益預期明確,且很快落袋。然而再之后,當進入專業(yè)領域,就只有局部通約,小規(guī)模指數(shù)增長,廣域主要是線性加成,且各部分進度不均。
不同于App是人為割據(jù),尚能由政策強力調解,知識的壁壘要深刻地多,正是知識累積的結果,現(xiàn)代性學術分科,或者更抽象,個體的有限性,存在主義的困境。
在PC古典時代,軟硬件處在較低水平,通約性是最大的。技術增長簡單粗暴,行之有效,攢機幾大件,千言萬語化作一組指標,每一分錢能精確換算。當朋友都在用QQ,微信,你不可能抗拒。正因為后續(xù)發(fā)展,彌高彌堅,AI解放生產(chǎn)力,用戶互動,是間接,漸進的,效果是模糊的。
分化并非自現(xiàn)在而始,算法分發(fā)已經(jīng)在構筑繭房。不要被概念蒙蔽,人工智能聽起來高大上,和大數(shù)據(jù)(算法),云(網(wǎng)絡)計算,或者還加上元宇宙,其實是同一事物的不同位面,形態(tài),不同時期命名不同,代表特定廠商的賣點。“創(chuàng)新就是把睡了兩個月的床單掀起來抖抖,翻個面接著睡……”
然而專業(yè)化已是后話,就目前訓練語料的情況,知識持續(xù)進步,專業(yè)化,恐是奢望。我們不能詳盡各家的數(shù)據(jù)來源,顯然以在線公開數(shù)據(jù)為主,免費也容易扒取,數(shù)量龐大,質量普遍不高。這也是IT業(yè)的老生常談,傳統(tǒng)ERP廠商:“輸入垃圾,輸出的只能是垃圾。”公開免費的還有學術文獻,這又太高太硬。
一般所說的信息質量,是微觀概念,知識之間的聯(lián)系,同樣適用邁特卡夫定律,學術文獻就是高度結構化的信息,與互聯(lián)網(wǎng)信息呈截然的反差。早期發(fā)布內容極零散,搜索賦予一個結構,不是單純反映,也在揀選,推動信息進化。然而仍是一個扁平的結構。也造成逆反選擇,大量信息被SEO污染,如今AI也或出于幻覺,或用戶蓄意偽造信息。業(yè)界在反芻自己的嘔吐物,拉出的屎山。
如果AI主要處理文本,處理主要運用統(tǒng)計,根據(jù)上下文,大概率出現(xiàn)哪個Token,那很難說進入知識的層次。AI還遠不能“獨立思考”,其實在整合人類的輸出,比搜索高出有限,大可不必擔憂。輸入低結構化信息,又不能自己創(chuàng)造結構,自然無法循序漸進。
就宏觀的質量,線上數(shù)據(jù)根本是缺失的。知識指導實踐,實踐要閉環(huán),知識也要閉環(huán)。重要的知識植根于場景,經(jīng)驗,或提煉為文本意猶未盡,總是作為商業(yè)機密保守,線上只見鳳毛麟角,以線上數(shù)據(jù)為主,不免舍本逐末。
更抽象的層面,人們總是通過繼承的概念裝置“看”世界,以為自己在看,其實是大他者通過個體“看”,包括看待個體自身。迄今只有少數(shù)人認識到這種遮蔽,處境。AI照本宣科,接收了遮蔽,卻作為技術,擁有中立的形式。人們依賴AI獲取信息,就疊加兩套裝置,如劉禾說:ChatGPT的能力在于放大人類的自戀。
總之整體發(fā)展太過失衡,海量資源投向容易量化的部分,高歌猛進,資本大佬已將Token數(shù)增長列為比美國赤字和關稅更重要的股市影響因子,然而前述在業(yè)務上對AI發(fā)展關鍵的兩方面,都很難短時間內,或僅僅通過堆資源改觀:訓練語料是一塊貧瘠的土地,線上數(shù)據(jù)已發(fā)掘殆盡,線下數(shù)據(jù)獲取就復雜了,而步入應用,穿過長文本多模態(tài)一塊平川,前面是陡峭的群山。
這些都可以再討論,精算,應用也會不時涌現(xiàn)亮點……主要技術花錢太多了,蘋果,微軟,騰訊起飛的時候,都還是小公司,時來天地皆同力,出現(xiàn)在合適的時間地點,作合適的努力,初始資源夠他們買票上車,而不是去造風洞。
可以預期知識不斷精進,翻越群山,終將再次勾連,融會貫通,或打破學術分科,回歸博物,社會共享知識,再或純靠技術解決,腦機成熟,個體接入,無縫分享知識。這里沒有一件容易做,對當下的AI業(yè)都是何不食肉糜。試問資本市場有耐心等三到五年?當下的氣氛與2001納市崩盤前夜何其相似。
時間,才是最寶貴的資源,和最頑固的成本。我們不低估技術的潛力,也不低估人類的惰性,不幻想跑步進入知識的共產(chǎn)主義。
互聯(lián)網(wǎng)自誕生起,因為高成長而高概念?;ヂ?lián)網(wǎng)革命是中國蹉跎二百年后,第一次與西方站在同一起點,有形同步,無形的差距仍然巨大,阿里做支付,京東建倉儲,都有在補工業(yè)時代的課。更需要概念來填補差距。然而也正因此,可以補最新的課,彎道超車,是為后發(fā)優(yōu)勢。
2001之后,中國業(yè)界即與硅谷漸行漸遠,包含一個三階的遞進:業(yè)務本土化,去硅谷概念,去概念。2010前后,“互聯(lián)網(wǎng)思維”或許是本土最后的概念狂歡,代表互聯(lián)網(wǎng)下沉,轉由業(yè)務驅動。
不算加密貨幣,政策給出明確的表態(tài),元宇宙也放了空炮,AI是在分化二十年后,中美再一次合流,同樣有形同步,無形的差距卻易位。當今的中國,互聯(lián)網(wǎng)已全面滲透國民經(jīng)濟,成為背景,而硅谷一直走不出技術的舒適區(qū),或進入新能源,航天這樣的重資產(chǎn)行業(yè)。
中美業(yè)界都從最初鼓吹的輕資產(chǎn)模式,“快魚吃慢魚”,逐漸重資產(chǎn),與舊式資本主義合流。國內互聯(lián)網(wǎng)資本最終把手伸向社區(qū)買菜,這很土很low,然而也標志互聯(lián)網(wǎng)下沉見底,已完成的改造尚具價值,如船山說始皇帝:“秦以私天下之心罷侯置守,天假其私以行其大公?!倍韫劝l(fā)展AI靠資本驅動,固然有路徑依賴,重在缺乏業(yè)務支撐。
同理,也依賴概念驅動。有研究報告稱,在美國,AI正通過消滅招聘,而非直接裁員,這樣略迂回的方式,消滅低端崗位。也可以理解為,以迂回的方式下沉,推進拖延了十五年的功課。然而以當今美國的政治環(huán)境,其后果恐怕不太妙。
也暴露AI概念與現(xiàn)實脫節(jié),不是互聯(lián)網(wǎng)早期的延遲滿足,在不確定的時間,“英特納雄耐爾一定會實現(xiàn)”的豪邁,而根本是兩張皮。
而中國有業(yè)務支撐,存量已瓜分殆盡,邊際遞減,AI給我們一個回歸創(chuàng)新,更上層樓的機會,不止行業(yè),帶動中國經(jīng)濟整體。概念就是多余,甚至有害。國產(chǎn)AI應該走自己的路。
04 中層模型
Create2025百度AI開發(fā)者大會李彥宏作《模型世界應用天下》演講,“只要找對場景,選對基礎模型,有時候還要學一點調模型的方法,在此基礎上做出來的應用是不會過時的……模型會有很多,但未來真正統(tǒng)治這個世界的是應用,應用才是王者?!?/p>
兩句所描繪的場景隱約對立?!斑x對基礎模型”代表業(yè)界習慣的路徑,基于統(tǒng)一的標準開發(fā)多樣的應用,互相成就護城河。從企業(yè)系統(tǒng)到個人系統(tǒng),搜索廣義上也屬于這一模式,又自然沿襲到AI。而“模型很多”則指向未來的不確定性,未必通吃。
回顧傳統(tǒng)企業(yè)系統(tǒng)大廠如何衰敗,政策去IOE(IBM主機,Oracle甲骨文數(shù)據(jù)庫,EMC存儲)只是表象,保持通約性意味著穩(wěn)定性(保守),盡管廠商定期更新,PC生態(tài)大約每兩年(比摩爾定律18個月稍長),然而市場的變化太快了,并且存在路徑依賴,有多少實質的更新存疑。
我剛入行就是在企業(yè)系統(tǒng)市場,后來去互聯(lián)網(wǎng)to c,多年以后在阿里云計算的會場重新聽到行業(yè)黑話,居然大體沿用,小小震驚,然而又十分合理,最終電商企業(yè),而非當年哪一家國產(chǎn)系統(tǒng)軟件取代了IBM,因為貼近市場和變化。
舊企業(yè)系統(tǒng)的應用開發(fā),在顧問的指導下,將用戶的專有知識注入通用軟件。AI的應用開發(fā),涉及知識蒸餾技術,將大(教師)模型訓練的回路注入小(學生)模型,于是有通用與垂直模型之分,也廣泛應用于算力成本控制。
個人還對歷史感興趣,同為處理大量且多種類型的數(shù)據(jù),史學理論就相當于歷史大模型,只是由人腦及人肉網(wǎng)絡(學術共同體)訓練。存在與本章討論相似的問題,歷史學比互聯(lián)網(wǎng)悠久,對此反思也要深入一些。
文史哲不分家,哲學作為神學余孽,熱衷追問世界本源,樹立普世價值,正如AI當下的階段,文學如有可以稱為大模型,隱藏在文本后面,讓人物置身于具體的處境,某種小模型。而歷史介于其間。
史學長期依附于哲(神)學,總是試圖提出大而全的理論。如秦暉老師的“秦制”,就是這樣一個,統(tǒng)攝華夏兩千年歷史的通用模型,諶旭彬,郭建龍等作者再面向專題史作二次開發(fā)。這里不是要和秦暉及其后學辯經(jīng),他們是一個好的案例,說明通用與垂直模型的辯證。
哲學體系一般由元概念派生,而史學要求對史料有足夠的解釋力,史料先在于理論,且參差,相互抵觸,任何論據(jù)都能找到反例。是兩個學科的根本差異。據(jù)說秦制綁定法家的意識形態(tài),參見秦暉《秦漢史講義》,要將諸子百家全部塞進法家的筐,或與法家暗通款曲,或已為法家奪舍,就要做大量的解釋。
秦暉的邏輯和史料工夫均屬一流,完成工作,自圓其說,“智足以拒諫,言足以飾非”。然而已經(jīng)暴露問題:秦制的大模型不僅沒有節(jié)省,反而加重小模型的工作量。解釋最終為了解釋史料,而非解釋你的大模型。后學們的功力頗不久,對明顯的反例,要么視而不見,要行強辭奪理。
黃宗智,楊念群等學者,提出一種新的模型開發(fā)思路:中層理論。所謂中層,并非簡單的大小之間,而是反轉開發(fā)流程。傳統(tǒng)范式,如胡適“大膽假設,小心求證”,還是先有理論,再找證據(jù),中層理論則從史料出發(fā),就有限的組合,提出某種“不完整”解釋,是為中間,僅適用現(xiàn)有材料,不追求普遍。
同理,若干這樣的中層理論,可整合其全部材料,上升更高的中層理論,如此層層遞進,最終得出通有模型。也即自下而上構建,由垂直模型“蒸餾”通用模型,自然與自上而下,通用蒸餾垂直不同。
引申AI,當下更值得做的,走向線下,跟隨業(yè)務采集數(shù)據(jù),基于原生高質量的數(shù)據(jù),訓練垂直模型,生成對實踐完整,結構化的知識。當初導入本地服務轟轟烈烈的地推,甚至見血,導入AI也需要地推,更精細,更宏大,更具技術含量。
此外可以關注一下學術共同體的構建,既是信息生態(tài),也是知識社交。其形成于前工業(yè)時代,直至進入互聯(lián)網(wǎng),奇特地結合了創(chuàng)新與保守,業(yè)務始終對新技術開放,而作為一個共同體,仍以和中世紀差不多的方式運作。如知識社交關鍵的紐帶之一學術刊物,商業(yè)紙媒已被互聯(lián)網(wǎng)消滅殆盡,學刊仍頑強地存在,甚至還能漲價。
最后以劉慈欣作品《鄉(xiāng)村教師》選段結束本文:
“這幾百年前就在歐洲化為塵土的卓越頭腦產(chǎn)生的思想,
以濃重西北方言的童音在二十世紀中國最偏僻的山村中回蕩,
就在這聲音中,
那燭苗滅了。
娃們圍著老師已經(jīng)沒有生命的軀體大哭起來。

