四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

正在閱讀:

混亂、分裂、吞并:2024年AI的信仰之戰(zhàn)

掃一掃下載界面新聞APP

混亂、分裂、吞并:2024年AI的信仰之戰(zhàn)

通向AGI有多少條路?

文 | 硅谷101 陳茜

2024年,硅谷的生成式AI大戰(zhàn)絲毫不比2023年遜色,只是這一年的AI戰(zhàn)爭(zhēng)更殘酷更直接:巨頭們不但拼模型能力,還拼爆款產(chǎn)品,同時(shí)繼續(xù)投入數(shù)百億美元拼算力建數(shù)據(jù)中心;而幾家一年前還是明星項(xiàng)目的初創(chuàng)企業(yè)卻因?yàn)橘Y金燒光,直接被巨頭吞并。

在學(xué)術(shù)界,技術(shù)領(lǐng)袖們對(duì)AI的未來(lái)依然爭(zhēng)論不休、罵戰(zhàn)不斷:GPT5依然沒(méi)有蹤影,Scaling law甚至被認(rèn)為已經(jīng)遇阻“撞墻”。

然而2024年底,谷歌Gemini 2.0的發(fā)布,以及OpenAI一連12天發(fā)布更新,卻讓大家對(duì)2025年AI的進(jìn)展又有了一些新的期待...

這期內(nèi)容我們將回顧下生成式AI在硅谷的2024年有哪些drama,又有哪些實(shí)在的技術(shù)進(jìn)展和路線(xiàn)探索,以及2025年的AI會(huì)如何發(fā)展。

我們將結(jié)合與技術(shù)大佬的采訪(fǎng)聊天,從巨頭的AI布局路線(xiàn)、產(chǎn)品落地、隕落的明星公司和冉冉升起的新星們,以及業(yè)內(nèi)對(duì)2025年AI展望這幾條主線(xiàn)來(lái)展開(kāi),看看過(guò)去一年都發(fā)生了些什么。

01 OpenAI的宮斗與新技術(shù)路線(xiàn)

Chapter 1.1 OpenAI宮斗落幕

OpenAI在2024年的drama并不少:2023年底的董事會(huì)風(fēng)波之后,2024年OpenAI的高層依然極度不穩(wěn)定,人才流動(dòng)性很大。聯(lián)合創(chuàng)始人、首席科學(xué)家Ilya Sutskever在五月離職。之后他宣布創(chuàng)辦自己的初創(chuàng)公司Safe Superintelligence,快速融資了10億美元。

和Ilya一起離職的還有超級(jí)對(duì)齊團(tuán)隊(duì)的關(guān)鍵技術(shù)人物Jan Leike。之后在九月,CTO Mira Murati也宣布離職,有消息稱(chēng)她正在為她新的初創(chuàng)公司融資。

OpenAI其它的高層變動(dòng)還有聯(lián)合創(chuàng)始人兼ChatGPT開(kāi)發(fā)的核心領(lǐng)導(dǎo)者John Schulman——他于8月加入了對(duì)手公司Anthropic。

同時(shí),聯(lián)合創(chuàng)始人、前總裁Greg Brockman在休了三個(gè)月的長(zhǎng)假之后回到了OpenAI。

至此,OpenAI當(dāng)初11位聯(lián)合創(chuàng)始人到如今已經(jīng)只剩下了Sam Altman,Greg Brockman及Wojciech Zaremba三位。

OpenAI用了一年的時(shí)間來(lái)處理高層之間的人際沖突,如今終于暫時(shí)穩(wěn)定了局面。壞消息是多數(shù)的創(chuàng)始成員都已經(jīng)離開(kāi),好消息是這場(chǎng)宮斗終于結(jié)束。

Sam Altman有了穩(wěn)定的權(quán)利,接下來(lái)或許可以更順利地推進(jìn)他想象中的AI發(fā)展方向,包括將OpenAI從非盈利組織變成贏利組織來(lái)更好融資,推出更多可以商業(yè)化的產(chǎn)品等。

如今OpenAI 已宣布轉(zhuǎn)型為公共利益公司(public benefit corporation)。

2024年10月,Sam Altman為OpenAI完成了新一輪66億美元的融資,公司估值來(lái)到1570億美元。但OpenAI燒錢(qián)之狠也是有目共睹的:

《紐約時(shí)報(bào)》獲得的融資文件顯示,OpenAI2024年預(yù)計(jì)收入達(dá)到37億美元,但預(yù)計(jì)虧損將達(dá)到50億美元,而2026年虧損可能會(huì)高達(dá)140億美元,這一估算還不包括給員工的股票激勵(lì)兌現(xiàn)。

雖然OpenAI承諾投資人收入在成倍增長(zhǎng),預(yù)計(jì)在2029年達(dá)到1000億美元,實(shí)現(xiàn)盈利,但按照這樣的燒錢(qián)進(jìn)度,OpenAI在2025年的兩大趨勢(shì)會(huì)是必然:第一是大規(guī)模融資;第二是更激進(jìn)的商業(yè)化。而這其實(shí)和2024年OpenAI的路線(xiàn)也是相同的。

2024年,OpenAI沒(méi)能如預(yù)期發(fā)布GPT5,這讓市場(chǎng)中不少人失望,但驚喜的是4o的多模態(tài)進(jìn)展。此外,o1和最近o3的發(fā)布讓人看到模型能力進(jìn)化的另外一種路線(xiàn)。

Chapter 1.2 o1與o3:AGI另一條路線(xiàn)

在2024年5月初,OpenAI發(fā)布多模態(tài)4o功能,正式與谷歌等競(jìng)爭(zhēng)對(duì)手進(jìn)入AI多模態(tài)之戰(zhàn),可以實(shí)時(shí)對(duì)音頻、視覺(jué)和文本進(jìn)行推理。

事實(shí)證明,4o發(fā)布之后,特別是在免費(fèi)版本中提供有限的4o功能和4o-mini之后,ChatGPT的訂閱人數(shù)大幅上升,依然在2C領(lǐng)域上遠(yuǎn)超競(jìng)爭(zhēng)對(duì)手。

2024年12月,ChatGPT的周活躍用戶(hù)已經(jīng)超過(guò)3億人。

在9月,OpenAI發(fā)布了另外一個(gè)讓業(yè)界驚喜的更新:o1。

簡(jiǎn)單來(lái)說(shuō),o1學(xué)會(huì)了人類(lèi)的“慢思考”,包括利用思維鏈(Chain of Thought,簡(jiǎn)稱(chēng)CoT)來(lái)進(jìn)行反復(fù)的思考、拆解、理解、推理,然后給出最終答案。這使得AI的推理能力在處理科學(xué)、編碼、數(shù)學(xué)及類(lèi)似領(lǐng)域的復(fù)雜問(wèn)題時(shí)有了飛躍的進(jìn)步。

o1這個(gè)內(nèi)部代號(hào)為“Strawberry”的強(qiáng)大模型更新,讓我們看到了在預(yù)訓(xùn)練上堆參數(shù)的“大力出奇跡”之外的、通過(guò)推理階段的算法突破找到一條新的通往AGI的道路。

我們?cè)?024年硅谷華源科技年會(huì)上采訪(fǎng)了多位技術(shù)大牛,都非??春胦1的路線(xiàn)。

其中,OpenAI前安全研究副總裁Lilian Weng在2024華源科技年會(huì)上對(duì)硅谷101表示,o1的發(fā)布能將OpenAI所定義的“五層超級(jí)人工智能”,從最初級(jí)推進(jìn)到了更上一層級(jí):

“五層超級(jí)人工智能”分別是:對(duì)話(huà)conversational AI,推理reasoning AI,自主autonomous AI,創(chuàng)新innovating AI,組織organizational AI。

Lilian Weng

OpenAI前安全研究副總裁 :

隨著我們轉(zhuǎn)向強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練來(lái)加強(qiáng)AI的推理能力,我們最近發(fā)布了AI的五個(gè)等級(jí),比如會(huì)話(huà)AI(聊天機(jī)器人)、推理AI、代理AI等。我們的確發(fā)現(xiàn)這能幫助AI在這個(gè)五層框架內(nèi),達(dá)到下一個(gè)水平,這也是為什么我們將模型系列重新命名為o1。

最近發(fā)布的o1整體模型,憑借在推理能力上的顯著提升,展現(xiàn)出非常不錯(cuò)的結(jié)果,但在產(chǎn)品方面,我們?nèi)孕韪嗯Α?/p>

李沐

亞馬遜前AI首席科學(xué)家;BosonAI創(chuàng)始人:

制作o1模型是因?yàn)榇笳Z(yǔ)言模型更多是即時(shí)生成的,如果想執(zhí)行許多其他復(fù)雜的任務(wù),你需要將其分解為多個(gè)任務(wù),以便它們可以逐一完成,人們稱(chēng)之為代理或工作流。

而o1嘗試自己解決問(wèn)題,比如在后臺(tái)將問(wèn)題分解為小步驟。這時(shí)你需要權(quán)衡的是延遲的問(wèn)題,因?yàn)楹笈_(tái)處理可能需要花費(fèi)一分鐘。所以我認(rèn)為對(duì)于特定的應(yīng)用場(chǎng)景來(lái)說(shuō),這種做法肯定是有效的,特別是如果你不介意延遲的話(huà)。

我認(rèn)為這種方法同時(shí)還很好地降低了成本:因?yàn)槟P涂梢灾鸩綀?zhí)行很多步驟,這讓模型訓(xùn)練變得更容易。所以,為了獲得更好的推理質(zhì)量,在延遲上做一部分犧牲。這很可能是一種趨勢(shì)。

在o1發(fā)布之后,OpenAI年底的12 DAYs連續(xù)發(fā)布了。

不得不說(shuō)Sam Altman是營(yíng)銷(xiāo)的一把好手,這12天的的馬拉松式發(fā)布,開(kāi)頭的時(shí)候搶了亞馬遜re:Invent發(fā)布AI功能的風(fēng)頭,期間也和谷歌的發(fā)布時(shí)間重疊,把媒體目光始終牢牢掌握在自己手中。

這12天的發(fā)布活動(dòng)中,除了前幾天的o1正式版、生成視頻模型Sora在歷經(jīng)10個(gè)月之后終于開(kāi)放給公眾、以及集智能寫(xiě)作、代碼寫(xiě)作和定制化AI agent為一體的AI工作臺(tái)Canvas之外,其它的更新比如說(shuō)ChatGPT Search升級(jí)、與蘋(píng)果Apple Intelligence的協(xié)作等等,看上去就非常不痛不癢,甚至感覺(jué)是在給12天的發(fā)布會(huì)湊數(shù)。

直到最后一天,OpenAI給出了一個(gè)王炸:o3。

o3是2024年9月發(fā)布的o1的下一版本,因?yàn)閛2涉及其它公司的版權(quán)商標(biāo)問(wèn)題,所以O(shè)penAI直接把這個(gè)更新跳了一個(gè)數(shù)字。

o3在數(shù)個(gè)測(cè)試上的能力,無(wú)論是程序員編碼競(jìng)賽(Codeforces)中超過(guò)99%的人類(lèi)程序員,還是博士水平的科學(xué)問(wèn)題(GPQA)已經(jīng)超過(guò)一般人類(lèi)博士生,還是最難的前沿?cái)?shù)學(xué)測(cè)試,還是抽象推理能力基準(zhǔn)考試ARC-AGI,o3比o1的提升可以說(shuō)是驚人的,而這個(gè)版本的更新僅僅用了三個(gè)月的時(shí)間。

這讓AI業(yè)界的不少人相信,OpenAI在o1和o3這個(gè)強(qiáng)化推理這個(gè)范式轉(zhuǎn)變是有效的,這讓擔(dān)心AI大模型已經(jīng)“撞墻”的人們稍微松了口氣:至少AI模型的發(fā)展還在推進(jìn)。

大家也能理解之前Sam Altman說(shuō)的“there’s no wall”(墻不存在)的推文了。

有采訪(fǎng)嘉賓認(rèn)為,在2025年,預(yù)訓(xùn)練上的“拼參數(shù)”會(huì)持續(xù),但后訓(xùn)練的推理能力探索會(huì)同時(shí)進(jìn)行。這樣的“鐘擺”科技途徑發(fā)展,就像之前英特爾提出的Tick-Tock計(jì)劃一樣,會(huì)成為雙重并行的發(fā)展主旋律。

邱諄 (Jonathan Qiu)

華映資本海外合伙人:

Tick-Tock的意思是左邊是數(shù)據(jù)驅(qū)動(dòng),右邊是規(guī)則驅(qū)動(dòng),兩邊會(huì)來(lái)回跳動(dòng)。一會(huì)是用更好的數(shù)據(jù)集去訓(xùn)練它,但同時(shí)用更好的算法去推動(dòng)它,所以就是在算法跟數(shù)據(jù)兩邊Tick-Tock(搖擺)。因?yàn)楝F(xiàn)在o1和o3更多的還是算法,但是之前包括 GPT 其實(shí)也是數(shù)據(jù)集的驅(qū)動(dòng)。所以,在(數(shù)據(jù)和規(guī)則)這兩邊的搖擺的時(shí)候,應(yīng)該會(huì)搖出下一個(gè)大的 breakthrough(突破)或者milestone(里程碑)。

在2024年年底,OpenAI給整個(gè)產(chǎn)業(yè)送上了一份圣誕驚喜。雖然o1和o3非常昂貴,o1 pro的訂閱價(jià)格是每月200美元,而o3進(jìn)行一次低算力計(jì)算的成本高達(dá)20美元,高算力就更不用說(shuō)了,要在現(xiàn)階段大規(guī)模商用幾乎是不可能的。

但這也給市場(chǎng)打了一針鎮(zhèn)定劑:AI發(fā)展并沒(méi)有放緩,而Scaling Law依然有效。算力成本會(huì)降低,而OpenAI在2025年會(huì)繼續(xù)按著卷參數(shù)以及卷推理算法的兩種并行路線(xiàn)去探索AI的下一步。

如果o3的路線(xiàn)能將我們帶到“五層超級(jí)人工智能”的第二層,那什么突破能將我們帶到再下一層自主autonomous AI呢?不知道OpenAI在2025年能否給我們這個(gè)答案。

接下來(lái)我們聊聊OpenAI目前最強(qiáng)勁的幾個(gè)對(duì)手,首先就是谷歌。

02 窮追不舍的谷歌:布局AI Agent

2024年12月底,OpenAI進(jìn)行12日發(fā)布會(huì)期間,谷歌進(jìn)行了幾個(gè)重磅發(fā)布。如果OpenAI沒(méi)有壓軸的o3,年底的風(fēng)頭幾乎全都會(huì)被谷歌搶走。

谷歌首先在12月12日發(fā)布了多模態(tài)大模型Gemini的第二代Gemini 2.0,谷歌CEO Sundar Pichai在發(fā)布公告中表示,如果說(shuō)Gemini 1.0是用于組織和理解信息,那么Gemini 2.0則是讓信息變得更有用。

怎么理解Pichai說(shuō)得第二代Gemini能讓“信息變得更有用”呢?首先,Gemini2.0在多模態(tài)功能上更強(qiáng)大。

谷歌目前對(duì)外開(kāi)放的新模型是Gemini 2.0 Flash,在響應(yīng)時(shí)間上比上一代的1.5 Flash性能更強(qiáng)、延遲性更低。在多模態(tài)上,2.0 Flash支持圖片、視頻和音頻的輸入以及多模態(tài)的輸出。

緊接著,12月16日,谷歌發(fā)布了新一代視頻模型Veo 2,非常驚艷,直接對(duì)打Sora。

細(xì)節(jié)我們不展開(kāi)了,目前的結(jié)論是:Sora在最開(kāi)始公開(kāi)到最終對(duì)用戶(hù)發(fā)布的這10個(gè)月中,包括谷歌在內(nèi)的競(jìng)爭(zhēng)對(duì)手已經(jīng)趕上來(lái)并在多模態(tài)能力上做得更強(qiáng)了。

12月20日,Google Brain團(tuán)隊(duì)負(fù)責(zé)人Jeff Dean宣布Gemini 2.0 Flash Thinking的推出——直接對(duì)標(biāo)OpenAI的o1路線(xiàn),展現(xiàn)出谷歌內(nèi)部對(duì)思維鏈技術(shù)(CoT)的能力,并且Gemini 2.0 Flash Thinking的思考速度會(huì)比o1-mini要快。

最后,谷歌還強(qiáng)調(diào)了Gemini大模型系列對(duì)AI Agent的布局。

在2024年5月的谷歌I/O大會(huì)上,非常驚艷到我的項(xiàng)目“多模態(tài)虛擬助手Project Astra”,也有相當(dāng)?shù)倪M(jìn)展。

在Astra Gemini 2.0的demo中測(cè)試人員使用手機(jī)和AI來(lái)進(jìn)行實(shí)時(shí)交互,包括快速提示公寓大樓的安全密碼、隨時(shí)對(duì)公共交通路線(xiàn)進(jìn)行詢(xún)問(wèn)等,人們也可以帶著智能眼鏡進(jìn)行更沉浸式的多模態(tài)交互。

我個(gè)人認(rèn)為,智能眼鏡在一些場(chǎng)景下比手機(jī)更適合作為agent入口的交互硬件,因?yàn)樗梢圆蹲饺藗兊哪抗?,作為音頻視頻和屏幕的呈現(xiàn)載體,而用戶(hù)也能得到7*24小時(shí)永遠(yuǎn)在線(xiàn)的體驗(yàn)。

所以失敗了多年的Google Glass是不是終于能活過(guò)來(lái)了呢?也許在2025年我們會(huì)有新的答案。

看得出來(lái),Sundar Pichai非常重視Project Astra,認(rèn)為它“展示了通用AI助手的曙光”,而谷歌Gemini大模型依靠長(zhǎng)文本的能力,能讓Project Astra記住長(zhǎng)達(dá)10分鐘的會(huì)話(huà)內(nèi)容來(lái)提供個(gè)性化的服務(wù)。

同時(shí),借助Gemini 2.0,Project Astra可以使用Google Search、Google Lens和Google Maps ,從而真正讓一個(gè)AI agent在日常生活中發(fā)揮助手的作用。

雖然目前來(lái)看,這個(gè)項(xiàng)目還在比較早期的階段,如果我們看看之前提到的OpenAI定義的五個(gè)AI層級(jí),Agent能自主行動(dòng)完成任務(wù)已經(jīng)是第三個(gè)層級(jí)了。

這也展現(xiàn)出谷歌對(duì)AI agent的押注,而這個(gè)賽道也被很多人認(rèn)為將在2025年是個(gè)極其火熱、面臨爆發(fā)的賽道。

對(duì)于谷歌來(lái)說(shuō),全力押注AI agent也很自然:如果谷歌最賺錢(qián)的產(chǎn)品,也就是“搜索”將會(huì)被AI交互顛覆,那么AI agent的入口、屏幕、交互、模型反饋都是谷歌必須要占據(jù)的領(lǐng)地。

邱諄 (Jonathan Qiu)

華映資本海外合伙人:

如果你是 AI application(應(yīng)用),你就是Copilot(副駕駛);AI agent(智能體)是自動(dòng)駕駛, Copilot 就是輔助駕駛。

很多application(應(yīng)用)把自己叫agent之后沒(méi)有在算法上面有真正的創(chuàng)新,也沒(méi)有數(shù)據(jù)。如果就做agent,我個(gè)人覺(jué)得下一步還是要往數(shù)據(jù)的角度去走,agent也需要數(shù)據(jù)。我覺(jué)得下一步 2025 年,可能會(huì)在這幾個(gè)層面。

Chapter 2.2 長(zhǎng)文本能力:NotebookLM

在2024年,被谷歌卷起來(lái)且處于業(yè)界領(lǐng)先地位的還有它的“長(zhǎng)文本”的能力,這個(gè)長(zhǎng)文本能力指的是讓大模型理解超長(zhǎng)的上下文。而基于這個(gè)能力,谷歌在2024年也衍生出了一些爆款A(yù)I產(chǎn)品,包括NotebookLM。

2024年2月15日,谷歌的Gemini 1.5 Pro把長(zhǎng)文本能力卷到100萬(wàn)tokens;

5月,谷歌宣布更是將長(zhǎng)文本能力翻了一倍到200萬(wàn)tokens。

同時(shí),谷歌新發(fā)布的論文,描述了一種新的注意力技術(shù)“inifini-attention”(無(wú)限注意力),能使Tranformer大模型在有限算力情況下處理無(wú)限長(zhǎng)度的輸入。

Bill Jia

谷歌CORE ML/AI工程副總裁:

如果我們不算Gemini的模型,那么在業(yè)界現(xiàn)有的最好的大型語(yǔ)言模型,允許的Token(AI處理文本的單元)數(shù)量大約在10萬(wàn)到20萬(wàn)之間。假設(shè)一個(gè)token相當(dāng)于一個(gè)單詞,則大致可以包含總共10萬(wàn)到20萬(wàn)個(gè)詞作為給AI的提示詞。

而谷歌的Gemini模型將上下文窗口從最先進(jìn)的20萬(wàn)擴(kuò)展到了100萬(wàn)到1000萬(wàn)——這幾乎是一個(gè)50倍到100倍的增長(zhǎng)。對(duì)于大型語(yǔ)言模型來(lái)說(shuō),這個(gè)上下文窗口實(shí)際上是一項(xiàng)非常有用的技術(shù):上下文窗口越大,你可以向模型提供的輸入就越多。

Gemini模型在實(shí)際應(yīng)用時(shí),就能夠支持這樣一個(gè)巨大的上下文窗口,因此,我們可以將大量相關(guān)信息輸入Gemini,這樣一來(lái),對(duì)話(huà)就會(huì)感覺(jué)非常在點(diǎn)子上。這也是Gemini模型能夠產(chǎn)生非常好對(duì)話(huà)效果的部分原因。

在這樣的長(zhǎng)文本技術(shù)下,谷歌2024年的一個(gè)爆款應(yīng)用名為NoteBookLM。

NotebookLM是基于Gemini 1.5 Pro的長(zhǎng)文本理解和多模態(tài)能力而衍生出的筆記管理工具,一推出就迅速獲得了眾多硅谷科技大佬們的盛贊,包括Andrej Karpathy、Sam Altman,都公開(kāi)為這個(gè)產(chǎn)品站臺(tái)。

NotebookLM最驚艷、出圈的功能之一是音頻概覽,也可以被稱(chēng)之為AI播客。

有谷歌的Gemini底座大模型的多模態(tài)和長(zhǎng)文本能力支撐,NotebookLM的AI播客功能可以將文檔、視頻或者音頻總結(jié)生成一男一女對(duì)話(huà)的方式,讓用戶(hù)用“聽(tīng)內(nèi)容”的方式獲取信息,在播客podcast這種媒體形式無(wú)比流行的硅谷形成了病毒式傳播的現(xiàn)象級(jí)別產(chǎn)品。

雖然回答的內(nèi)容比較淺顯,交互也比較像相聲中的捧哏,但NotebookLM在對(duì)內(nèi)容的抓點(diǎn)和總結(jié)能力是非常精準(zhǔn)的,生成的兩位AI主播的對(duì)話(huà)也非常自然流暢,AI感很低,我也大概能感受到這個(gè)產(chǎn)品之后的潛力還是會(huì)非常大。

12月中旬,谷歌發(fā)布NotebookLM Plus,新加入audio overview功能、允許用戶(hù)在播客中間打斷AI主播,提出建議或問(wèn)題進(jìn)行交互,同時(shí)用戶(hù)還可以自定義播客風(fēng)格和主題。

NotebookLM之前的核心團(tuán)隊(duì)負(fù)責(zé)人Raiza Martin,設(shè)計(jì)師Jason Spielman和核心工程師Stephen Hughes已經(jīng)從谷歌辭職出來(lái)自己創(chuàng)業(yè)。

外界猜測(cè)他們會(huì)自己重新做一個(gè)NotebookLM的產(chǎn)品用于更好的商業(yè)化,但很有趣的是,有的VC投資人并不看好這個(gè)項(xiàng)目。

邱諄 (Jonathan Qiu)

華映資本海外合伙人:

你可以理解他是個(gè)產(chǎn)品創(chuàng)新。NotebookLM是Google Labs出來(lái)的,但Google自己是有底座模型的。Notebook LM用的底座其實(shí)也不是Google Gemini,而是谷歌自己內(nèi)部的一個(gè)定制化底座。所以,如果你不是那么懂底座,純第三方的來(lái)用谷歌Gemini API,你未必能做得出來(lái)NotebookLM。

產(chǎn)品創(chuàng)新之上要結(jié)合對(duì)底座的理解,不然光是產(chǎn)品創(chuàng)新,我覺(jué)得可能不能跑得特別遠(yuǎn)。

總的來(lái)說(shuō),谷歌Deepmind和Google Brain當(dāng)中人才密度不會(huì)亞于OpenAI,技術(shù)也不會(huì)落后太多,但2024年谷歌依然是一個(gè)“追趕者”的姿態(tài)。

究其根本,OpenAI的商業(yè)模式是一個(gè)大模型提供方,所以一定要保證模型的領(lǐng)先性,但谷歌是完全不同的商業(yè)模式,它的首要任務(wù)是保證技術(shù)不落后且當(dāng)谷歌搜索被AI顛覆時(shí),自己是準(zhǔn)備好的。

所以在多模態(tài)的AI第二輪大戰(zhàn)中,OpenAI是進(jìn)攻者,而谷歌依然是防御者,下一場(chǎng)硬仗無(wú)論是第二層的reasoning,還是第三層的autonomous AI agent,2025年都會(huì)非常精彩。

接下來(lái)我們?cè)賮?lái)說(shuō)說(shuō)其它幾個(gè)主要大玩家。

03 Anthropic:受開(kāi)發(fā)者歡迎卻不敵OpenAI

Anthropic是OpenAI除了谷歌之外的最在意的競(jìng)爭(zhēng)對(duì)手了,與谷歌不太一樣的是,Anthropic作為大模型的提供方,是OpenAI直接的競(jìng)爭(zhēng)對(duì)手。

2024年在融資上,Anthropic從亞馬遜獲得了新一輪40億美元的融資,使得公司估值達(dá)到400億美元。

產(chǎn)品更新上,10月22日,Anthropic發(fā)布Claude3.5 Haiku,同時(shí)升級(jí)了Claude 3.5 Sonnet。

從外界反饋來(lái)看,Anthropic的模型在技術(shù)上是非常強(qiáng)的,特別是Claude在編碼任務(wù)中表現(xiàn)出色,尤其是在復(fù)雜代碼生成和解決方案自動(dòng)化方面,非常受到工程師們的推崇。

Anthropic的商業(yè)模式目前更2B和2D,對(duì)企業(yè)和開(kāi)發(fā)者群體更受歡迎,但2C方面就不太理想了。

12月底,Anthropic從用戶(hù)與Claude的對(duì)話(huà)中隨機(jī)選取了100萬(wàn)條,進(jìn)行分析和總結(jié)后發(fā)現(xiàn),用戶(hù)在Claude.ai上的主要使用場(chǎng)景排在第一位的,是網(wǎng)頁(yè)和移動(dòng)應(yīng)用開(kāi)發(fā),占比為10.4%。

這是因?yàn)楸澈蟮能浖_(kāi)發(fā)人員主要利用Claude執(zhí)行調(diào)試代碼、解釋Git操作及概念等任務(wù)。

很多開(kāi)發(fā)人員認(rèn)為,Claude 3.5 Sonnet會(huì)非常適合需要深度理解和復(fù)雜推理的應(yīng)用程序,而OpenAI的模型對(duì)于較簡(jiǎn)單的任務(wù)可能更具成本效益。

而Claude AI的2C聊天機(jī)器人,在iOS和安卓移動(dòng)應(yīng)用程序上收入100萬(wàn)美元的里程碑,用了整整16周,而這個(gè)門(mén)檻OpenAI的ChatGPT用了三周就達(dá)到了。雖然快于微軟的Copilot和Perplexity,但距離OpenAI仍然有很大距離。

之前媒體的報(bào)道說(shuō),Anthropic在2024年的收入會(huì)超過(guò)10億美元,比之前預(yù)測(cè)的要高很多,說(shuō)明市場(chǎng)還是非常買(mǎi)賬Anthropic的模型能力,特別是最近他們又挖了很多OpenAI的核心人員過(guò)去。

看上去,這個(gè)OpenAI的最大競(jìng)爭(zhēng)對(duì)手在2025年會(huì)繼續(xù)在2B和2D領(lǐng)域上發(fā)力,而對(duì)2C消費(fèi)者端來(lái)看,暫時(shí)不會(huì)對(duì)OpenAI和谷歌帶來(lái)太大的威脅。

我們?cè)賮?lái)說(shuō)說(shuō)馬斯克的xAI。

04 xAI:入局雖晚但萬(wàn)事俱備

xAI在2024年做了三件大事:搞定了算力、搞定了融資、開(kāi)源了自己的大模型。

如果還有其它順便的事,就是馬斯克數(shù)次把OpenAI告上了法庭。

12月24日,馬斯克旗下的xAI宣布完成60億美元的C輪融資。英偉達(dá),AMD,a16z,紅衫等公司和機(jī)構(gòu)參與,也表明業(yè)界對(duì)xAI的潛力的看好。

要知道在半年之前的2024年5月,xAI剛完成60億美元的B輪融資,足以說(shuō)明馬斯克的融資能力。

除了錢(qián)之外,馬斯克還是第一個(gè)搞定大規(guī)模算力集群的:2024年,xAI位于美國(guó)田納西州孟菲斯市的數(shù)據(jù)中心正式投入使用,歷時(shí)122天建成創(chuàng)下紀(jì)錄。

這個(gè)名為“巨人”(Colossus)的數(shù)據(jù)中心里面部署了英偉達(dá)的10萬(wàn)塊GPU芯片,成為全球開(kāi)發(fā)和運(yùn)行人工智能技術(shù)的規(guī)模最大、算力最強(qiáng)的芯片集群之一。而馬斯克說(shuō)以后還有計(jì)劃繼續(xù)拓展到20萬(wàn)塊GPU的規(guī)模。

在大模型上發(fā)布上,Grok的速度其實(shí)是要比競(jìng)爭(zhēng)對(duì)手慢一些的。在8月中旬,xAI發(fā)布了Grok-2和Grok-2mini兩款A(yù)I模型的測(cè)試版,比此前發(fā)布的Grok-1.5有了非常大的進(jìn)步。

10月,xAI發(fā)布了首個(gè)應(yīng)用程序編程接口(API)。目前,xAI API只有一個(gè)模型,稱(chēng)為“Grok-beta”。

其實(shí)xAI雖然入局晚了些,但優(yōu)勢(shì)還是非常多的:除了上面我們說(shuō)到的算力和融資之外,xAI還有社交網(wǎng)絡(luò)X和特斯拉的獨(dú)家數(shù)據(jù),以及機(jī)器人Optimus等項(xiàng)目的結(jié)合潛力。

相當(dāng)一段時(shí)間以來(lái),Grok的聊天機(jī)器人只向馬斯克旗下的“X”用戶(hù)提供,但在2025年很可能馬斯克會(huì)全面開(kāi)放Grok。

除了iOS程序在測(cè)試之外,網(wǎng)頁(yè)版Grok.com也已經(jīng)準(zhǔn)備就緒,寫(xiě)著coming soon(準(zhǔn)備就緒),感覺(jué)2025年xAI會(huì)正式加入戰(zhàn)局。

馬斯克也在X上說(shuō),Grok3很快會(huì)發(fā)布,并且將是一次重大飛躍,我們也拭目以待。

05 Meta:大獲全勝或一無(wú)所有

接下來(lái)我們說(shuō)一下臉書(shū)(Facebook),這家公司在2024年挺有意思。

除了創(chuàng)始人扎克伯格最近的突變形象和婚姻八卦之外,臉書(shū)毫無(wú)疑問(wèn)是2024年的科技大贏家之一:?jiǎn)螐墓蓛r(jià)就能看出來(lái),2024年漲了70%左右,Meta的員工們應(yīng)該都很開(kāi)心。

雖然Meta不像OpenAI和谷歌那么在大模型前線(xiàn)廝殺,但Meta的策略也非常的明朗:在AI研發(fā)上不掉隊(duì),且布局下一代的AI應(yīng)用,結(jié)合在硬件、社交媒體以及廣告中。

在大模型方面,臉書(shū)在2024年持續(xù)更新Llama開(kāi)源模型。12月6日,Meta發(fā)布新款Llama開(kāi)源模型:70億參數(shù)的Llama 3.3、又稱(chēng)Llama 3.3 70B。扎克伯格說(shuō),下一步就是明年Llama 4的亮相。

Llama 3.3能實(shí)現(xiàn)與2024年7月發(fā)布的4050億參數(shù)的Llama 3.1同樣的性能,但成本比后者更低。Llama 3.1是迄今為止最大的Llama開(kāi)源模型,直接對(duì)標(biāo)Anthropic的Claude 3.5 Sonnet和OpenAI的GPT-4o。

除了在大語(yǔ)言模型上的進(jìn)展外,Meta也一直在探索除了“大語(yǔ)言模型”(LLM)之外的其它AI路徑:2024年12月11日,Meta新發(fā)布了Large Concept Model(LCM),翻譯過(guò)來(lái)是“大型概念模型”。

它和LLM大語(yǔ)言模型逐字預(yù)測(cè)不同,LCM的概念是能直接在高緯度語(yǔ)意空間中運(yùn)算,就像人類(lèi)思考的方式,并不是一個(gè)字一個(gè)字地去思考,而是以”概念“和”意義“為單位。所以L(fǎng)CM是Meta完全突破LLM架構(gòu)的一個(gè)創(chuàng)新的嘗試。

目前Meta表示這大幅度提升了AI在多語(yǔ)言和長(zhǎng)篇內(nèi)容處理上的效能,但處理的效果和準(zhǔn)確度依然需要提升和改進(jìn),所以L(fǎng)CM是否是比LLM更好的一種范式,我們拭目以待。

另外,由于Meta 2024年在智能眼鏡上的嘗試成功,以及旗下Facebook、 WhatsApp、 Instagram、Messenger、Threads等龐大的用戶(hù)群體,還有AI和廣告結(jié)合的前景,市場(chǎng)非常看好Meta如今在AI大戰(zhàn)中的位置。

Jefferies的分析師甚至將Meta選為步入2025年生成式人工智能的“贏家”。不少二級(jí)市場(chǎng)的報(bào)告認(rèn)為,Meta下一代與AI結(jié)合的Orion AR眼鏡將成為新一代硬件入口,Meta在2024年推出的Ray-Ban Meta很初步的將AI功能引入其中,受到市場(chǎng)好評(píng)。

可能在2025年,下一代智能眼鏡上Meta就會(huì)引入屏幕顯示,屆時(shí)就會(huì)釋放出更強(qiáng)大的AI交互功能。

說(shuō)到智能硬件,蘋(píng)果在2024年發(fā)布了Apple Intelligence三件套,我們之前有詳細(xì)聊過(guò),但因?yàn)槎藗?cè)模型和agent的發(fā)展可能還沒(méi)有到能讓硬件產(chǎn)業(yè)與AI結(jié)合得特別好的程度,蘋(píng)果在AI進(jìn)展并不大。

很多人認(rèn)為蘋(píng)果最終還是要自己開(kāi)發(fā)底座大模型,不能完全靠接入OpenAI的ChatGPT,而等硬件與AI結(jié)合的那一天,就是手機(jī)與智能眼鏡的市場(chǎng)大戰(zhàn)了,目前押注得最大的Meta和蘋(píng)果將終有一戰(zhàn)。

說(shuō)回Meta的其它AI產(chǎn)品布局:在AI Chatbot方面,Meta旗下的幾款王牌社交媒體都已經(jīng)不同程度的引入了AI對(duì)話(huà)框,扎克伯格也在12月表示,Meta的AI數(shù)字助理“每個(gè)月有將近6億的活躍用戶(hù)”。

因?yàn)镸eta不提供獨(dú)立的AI應(yīng)用,所以新聞或者業(yè)界一般不將Meta的Chatbot直接與ChatGPT或者Claude去做直接對(duì)比,但就這些活躍用戶(hù)的基數(shù)而言,Meta的AI產(chǎn)品是有很大優(yōu)勢(shì)的。

而最后一點(diǎn)就是AI在廣告上的應(yīng)用潛力。Meta在12月表示,目前超過(guò)100萬(wàn)的廣告商在使用Meta的GenAI工具,他們?cè)谝粋€(gè)月之內(nèi)制作了超過(guò)1500萬(wàn)條廣告。

雖然目前AI生成的素材還沒(méi)有那么精致,但無(wú)論是從廣告標(biāo)題和文案的多個(gè)版本,還是自動(dòng)調(diào)整廣告大小,還是利用文生圖、文生視頻和文生音樂(lè)更高效的制作廣告,AI都有非常大的潛力。

同時(shí),也有分析認(rèn)為,Meta可能會(huì)在自家的開(kāi)源模型Llama上進(jìn)一步開(kāi)發(fā)出企業(yè)級(jí)客戶(hù)服務(wù)的業(yè)務(wù),也將會(huì)是一塊很大的蛋糕。

在2024年,小扎非常積極的出現(xiàn)在各個(gè)媒體采訪(fǎng)中,一遍又一遍闡述著Meta的未來(lái),不再是單純的Metaverse,而是新一代的AI交互,一個(gè)融合了AI,混合現(xiàn)實(shí)和元宇宙的未來(lái)。

2024年9月,開(kāi)始在形象和穿搭上大轉(zhuǎn)型的扎克伯格穿了一件T-shirt,上面寫(xiě)著“Aut Zuck Aut Nihil”,這個(gè)細(xì)節(jié)被媒體捕捉到。

這個(gè)短語(yǔ)是拉丁短語(yǔ)“Aut Caesar Aut Nihil”的變形,意思是“要么是凱撒,要么什么都不是”;而扎克伯格的“Aut Zuck Aut Nihil”似乎是在宣戰(zhàn):要么贏所有,要么一無(wú)所有,All or Nothing。

06 “大而全”的亞馬遜

最后幾家科技巨頭中,再說(shuō)說(shuō)亞馬遜。亞馬遜的路線(xiàn)和其它幾家都不太一樣,采取的是一個(gè)賣(mài)鏟子生意的模式。

他不拼模型、拼算力、拼芯片,雖然各方面都有自研的產(chǎn)品,但把他們整合在一起,再加上市面上所有的好東西,打個(gè)包賣(mài)給客戶(hù)們,幫甲方降本增效,做好2B的生意,也是非常聰明的做法了。

在12月召開(kāi)的亞馬遜云科技re:Invent大會(huì)上,亞馬遜的最新策略非常清楚:

第一,不但有自研芯片的集群,也有與英偉達(dá)芯片合作的算力運(yùn)行中心;

第二,不光提供滿(mǎn)足萬(wàn)億參數(shù)大模型訓(xùn)練和推理需求的自研芯片產(chǎn)品,包括與Anthropic綁定合作的十萬(wàn)張亞馬遜Trainium自研芯片AI計(jì)算集群,還有為中小企業(yè)和初創(chuàng)公司提供能降本增效的服務(wù)與技術(shù);

第三,除了亞馬遜最新的自研模型Nova系列,各種純文本、多模態(tài)大模型都有,同時(shí)在亞馬遜Bedrock上還提供上百種市面上最受歡迎的模型選擇給客戶(hù)挑選;

第四,在自己的三層AI架構(gòu)上加入各種模型蒸餾、解決AI幻覺(jué)、安全技術(shù)等服務(wù)。

對(duì)于很多需要用到AI的初創(chuàng)公司,要算力并不一定需要自己買(mǎi)卡,要用模型并不一定要自己訓(xùn)練。就像需要蘿卜青菜也并不需要自己去務(wù)農(nóng)種菜,可以去超市直接買(mǎi),就看最終的成本賬能否算得過(guò)來(lái)了。

這也顯示出,亞馬遜押注2025年市場(chǎng)對(duì)算力的需求只增不減。而隨著需求逐漸從訓(xùn)練轉(zhuǎn)移到inferencing推理,算力市場(chǎng)的更多創(chuàng)新服務(wù)以及基建會(huì)進(jìn)一步完備。

除了亞馬遜云科技,芯片公司本身,像英偉達(dá),AMD,英特爾等芯片公司本身,以及上下游的電力公司以及數(shù)據(jù)中心服務(wù)公司也會(huì)繼續(xù)是市場(chǎng)關(guān)注的焦點(diǎn)。

接下來(lái)再總結(jié)一下2024年那些隕落的硅谷明星初創(chuàng)企業(yè)們以及冉冉升起的明星公司。

07 隕落的明星初創(chuàng)企業(yè)們

2024年,有三家硅谷明星初創(chuàng)企業(yè)迅速跌下神壇。

第一家是Character.ai,成立于2021年,利用大模型生成各種人物和角色風(fēng)格的對(duì)話(huà)。

2023年5月,Character.AI在蘋(píng)果App Store和Google Play Store發(fā)布了移動(dòng)應(yīng)用程序,第一周下載量就超過(guò)170萬(wàn)次,并被Google Play評(píng)為2023年度最佳AI應(yīng)用。

然而,2024年年初,公司被頻頻爆出融資困難,商業(yè)化不順利,開(kāi)始尋求收購(gòu)。

2024年8月,Character.AI宣布,谷歌已經(jīng)同意向Character.AI支付模型授權(quán)費(fèi),并將讓Character.AI聯(lián)合創(chuàng)始人兼CEO Noam Shazeer、總裁Daniel De Freitas、以及30名Character從事模型訓(xùn)練和語(yǔ)音AI工作的員工,加入谷歌參與Gemini AI項(xiàng)目,谷歌為此支付的價(jià)格是25億美元。

另外一家公司是Inflection.ai,這家公司做大模型,上面疊加“個(gè)人AI伴侶”用途的聊天機(jī)器人Pi,主打情感陪伴市場(chǎng)。

一度市場(chǎng)對(duì)inflection.ai的模型技術(shù)非常認(rèn)可,但也是因?yàn)榇竽P瓦^(guò)于燒錢(qián)而資金鏈沒(méi)有跟上。

2024年3月,微軟挖角了Inflection 的創(chuàng)始人和幾乎所有員工,成立了一個(gè)新的消費(fèi)者AI部門(mén),并支付了約6.5億美元購(gòu)買(mǎi)其技術(shù)許可。

最后一家公司是Adept,也是Transformer原作者出來(lái)創(chuàng)業(yè)的豪華創(chuàng)始團(tuán)隊(duì)。

2024年6月,亞馬遜與AI agent公司Adept達(dá)成協(xié)議,雇傭這家初創(chuàng)公司的大部分員工,并支付約3.3億美元以授權(quán)其技術(shù)。

這三家公司的“變相收購(gòu)案”也在成為硅谷科技巨頭拓展AI版圖的新模式:既避開(kāi)壟斷監(jiān)管,又能收人才收技術(shù)。

不過(guò)這三家公司一個(gè)共同點(diǎn):都同時(shí)在發(fā)展底座大模型和做產(chǎn)品,但這樣的路線(xiàn)被證明太過(guò)于燒錢(qián),模型太難以持續(xù)。

這就讓我想到前面說(shuō)到NotebookLM團(tuán)隊(duì)的人出來(lái)自己創(chuàng)業(yè),被投資人認(rèn)為沒(méi)有底座模型的能力、只能調(diào)用谷歌Gemini的API,所以不被看好。

做大模型吧,太燒錢(qián);不做大模型吧,沒(méi)有技術(shù)壁壘和護(hù)城河。這么一看,AI時(shí)代的創(chuàng)業(yè)真的太難了。

邱諄 (Jonathan Qiu)

華映資本海外合伙人:

所以你怎么去把控這個(gè)節(jié)奏?我覺(jué)得Perplexity這家公司其實(shí)還是把控得很不錯(cuò)的:他到今天也沒(méi)有完全重新訓(xùn)練自己的底座。我覺(jué)得他會(huì)有那么一天的,但是他要把握這個(gè)節(jié)奏,別步子邁得過(guò)大,還沒(méi)到那一天的時(shí)候,就已經(jīng)把錢(qián)給燒完了。這個(gè)是比較危險(xiǎn)的,也是 AI 創(chuàng)業(yè)比互聯(lián)網(wǎng)可能更難一點(diǎn)的地方。

08 “當(dāng)紅炸子雞”項(xiàng)目Chapter 8.1 Perplexity

再總結(jié)一下2025年被認(rèn)為是冉冉上升的明星AI項(xiàng)目。

首先是前面Jonathan提到的Perplexity:2024年年底,公司完成了新一輪5億美元的融資,估值達(dá)到90億美元。

這家公司成立于2022年,可以說(shuō)重新定義了全球第一個(gè)對(duì)話(huà)式AI搜索引擎,月活躍用戶(hù)已經(jīng)達(dá)到1500萬(wàn)人次,日活躍用戶(hù)200萬(wàn)人,連英偉達(dá)創(chuàng)始人黃仁勛也為它站臺(tái),稱(chēng)每天都會(huì)使用。

Perplexity的聰明之處在于,自己不訓(xùn)練模型,而是使用多種大型語(yǔ)言模型,包括GPT、Claude、LLAMA、Mixtral等,以及來(lái)自多個(gè)搜索引擎的排名信號(hào)和第三方數(shù)據(jù)提供商的數(shù)據(jù)。

它的核心競(jìng)爭(zhēng)力在于檢索、排序和編排的數(shù)據(jù)整合能力,以及答案生成能力。

但隨著AI搜索市場(chǎng)的競(jìng)爭(zhēng)日益激烈,像OpenAI已經(jīng)推出了SearchGPT,谷歌也會(huì)在AI搜索上跟進(jìn),Perplexity在2025年會(huì)遭遇更激烈的競(jìng)爭(zhēng)。商業(yè)變現(xiàn)方面,除了付費(fèi)版本之外,公司已經(jīng)計(jì)劃引入廣告,這會(huì)如何重新定義AI搜索的模式呢?我們也拭目以待。

Chapter 8.2 Physical Intelligence

2024年,硅谷還有另外一家公司非常受人矚目:Physical Intelligence。

我最開(kāi)始聽(tīng)到這家公司是從OpenAI聯(lián)合創(chuàng)始人以及特斯拉FSD前負(fù)責(zé)人Andrej Karpathy的口中。

他曾在一個(gè)小型的聚會(huì)上分享說(shuō),有很多項(xiàng)目找他投資,他答應(yīng)的原因只是為了幫助朋友,畢竟他的名字在天使投資人的那一欄能幫很多項(xiàng)目更容易拿到投資。但為數(shù)不多的他真心想投資且看好的項(xiàng)目,就當(dāng)屬Physical Intelligence了。

這家公司通過(guò)AI模型為機(jī)器人打造“大腦”,在2024年11月完成新一輪4億美元的融資,估值來(lái)到20億美元,投資者包括亞馬遜創(chuàng)始人貝佐斯還有OpenAI。

同時(shí),在11月初,Physical Intelligence發(fā)布了首個(gè)通用基礎(chǔ)模型π0,也被是認(rèn)為具身智能發(fā)展上的重要一步。

Physical Intelligence表示,π0將使得機(jī)器人變得更容易編程和使用,使其能夠更高效地執(zhí)行多樣任務(wù)。

目前,Physical Intelligence的π0模型已經(jīng)能夠執(zhí)行一些簡(jiǎn)單的多任務(wù),如折疊衣物、組裝盒子、動(dòng)態(tài)地將物品放入容器等。

邱諄 (Jonathan Qiu)

華映資本海外合伙人:

2024 年最大的進(jìn)展,我會(huì)投給o1和π0。

我覺(jué)得π0更多是 training data driven(數(shù)據(jù)驅(qū)動(dòng))的路線(xiàn);o1更代表的是algorithm(算法)驅(qū)動(dòng)的路線(xiàn)。

π0肯定也要在算法上繼續(xù)做迭代,也可能在推理側(cè)引入一些方法。當(dāng)然難一點(diǎn)就是推理,因?yàn)榫呱碇悄艿耐评韨?cè)要在端側(cè)發(fā)生,可能對(duì)算力的要求會(huì)更高一些。

具身智能以及AI機(jī)器人模型還在非常早的階段,因?yàn)閿?shù)據(jù)和算法都是挑戰(zhàn),但相信在2025年會(huì)有新的進(jìn)展。

同時(shí),斯坦福的機(jī)器人中心在2024年開(kāi)業(yè)了,我也去參加了開(kāi)業(yè)儀式,有機(jī)會(huì)我們?nèi)ツ抢锊稍L(fǎng)一下跟大家分享最新的項(xiàng)目和有意思的進(jìn)展。

09 2025年的未來(lái)

由于篇幅原因,還有很多科技巨頭的進(jìn)展、初創(chuàng)企業(yè)和新趨勢(shì)我們沒(méi)辦法一一列舉,包括AI視頻生成的初創(chuàng)公司Pika和Luma,音樂(lè)生成初創(chuàng)公司Suno,最近很火的AI編程應(yīng)用Cursor和Devin,李飛飛博士的World Labs、該有2025年初引起一片震撼的DeepSeek等,之后有機(jī)會(huì)我們?cè)敿?xì)做成單獨(dú)選題來(lái)聊。

總的來(lái)說(shuō),2024年的硅谷非常精彩,有混亂,有質(zhì)疑,有倒閉收購(gòu),也有為了AGI信仰繼續(xù)戰(zhàn)斗的科技從業(yè)者們。

雖然2024年出現(xiàn)了o1、o3的路線(xiàn),但更大模型、更強(qiáng)的能力依然是被市場(chǎng)所期待的。

馬騰宇

VOYAGE AI創(chuàng)始人

斯坦福大學(xué)計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)助理教授:

我一直都在期待更好的技術(shù),不一定要GPT-5,也可能是Anthropic Claude的4、5、6代,或者是xAI、Mistral。

我認(rèn)為,雖然現(xiàn)階段的GPT-4可以做的事越來(lái)越多了,但是更大、更強(qiáng)的模型在某種意義上會(huì)讓模型的使用變得更容易。所以,如果有了GPT-5或者Claude 4、5,那么基于GPT-4的一些自我工程可能就不再必要了。

Bill Jia

谷歌CORE ML/AI工程副總裁:

對(duì)于那些有資本、有資源、有工程能力的大公司來(lái)說(shuō),他們會(huì)繼續(xù)構(gòu)建大模型。大模型在很多不同方面表現(xiàn)得更好,特別是在通用場(chǎng)景中。

然后基于大模型,人們會(huì)構(gòu)建各種不同的垂直模型。剛開(kāi)始垂直模型也比較大,但隨著包括蒸餾模型、量化模型等技術(shù),模型會(huì)變得更小但是更有效率、更有性?xún)r(jià)比,而且模型質(zhì)量不會(huì)下降太多。

我認(rèn)為這兩條主線(xiàn)將會(huì)持續(xù)很長(zhǎng)一段時(shí)間,希望有第三種并行努力的方向,那就是尋找不同的模型架構(gòu),因?yàn)楝F(xiàn)在的模型基本都是基于Transformer的,還有一些基于diffusion模型用于生成圖像等中間工作。我希望能有其他非transformer、非diffusion的模型架構(gòu)出現(xiàn),讓生成結(jié)果更有效、更高質(zhì)量、同時(shí)降低成本。如果在這方面能有所突破,將再次對(duì)AI行業(yè)產(chǎn)生巨大的影響。

在硅谷的AI生態(tài)中,已經(jīng)衍生出了多個(gè)派系:有更大的模型、大模型衍生出的垂直模型、不信仰Transformer而在探索其它通往AGI路徑的研究者,同時(shí)也有應(yīng)用、硬件、agent智能體、機(jī)器人、無(wú)人駕駛,還有“賣(mài)鏟子”的英偉達(dá)、數(shù)據(jù)中心、電力上下游等等,這些生態(tài)在2024年得到了進(jìn)一步的鞏固與布局,而在2025年,我們會(huì)看到更多技術(shù)的進(jìn)展。

當(dāng)然,硅谷只是AI發(fā)展的其中一個(gè)主力戰(zhàn)場(chǎng),全球其它市場(chǎng)的AI也有非常快速的發(fā)展,今天我們只是稍微總結(jié)了一些硅谷的情況,也歡迎大家給我們留言最值得提的公司,技術(shù)或者事件,這對(duì)我們團(tuán)隊(duì)更進(jìn)一步探索AI產(chǎn)業(yè)非常有幫助。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

谷歌

4.8k
  • 谷歌推出開(kāi)源醫(yī)療模型MedGemma 1.5 4B版本
  • AI早報(bào) | 谷歌與蘋(píng)果達(dá)成多年期AI合作協(xié)議,將為語(yǔ)音助手Siri提供支持;DeepSeek發(fā)布梁文鋒署名新論文,開(kāi)源相關(guān)記憶模塊Engram

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

混亂、分裂、吞并:2024年AI的信仰之戰(zhàn)

通向AGI有多少條路?

文 | 硅谷101 陳茜

2024年,硅谷的生成式AI大戰(zhàn)絲毫不比2023年遜色,只是這一年的AI戰(zhàn)爭(zhēng)更殘酷更直接:巨頭們不但拼模型能力,還拼爆款產(chǎn)品,同時(shí)繼續(xù)投入數(shù)百億美元拼算力建數(shù)據(jù)中心;而幾家一年前還是明星項(xiàng)目的初創(chuàng)企業(yè)卻因?yàn)橘Y金燒光,直接被巨頭吞并。

在學(xué)術(shù)界,技術(shù)領(lǐng)袖們對(duì)AI的未來(lái)依然爭(zhēng)論不休、罵戰(zhàn)不斷:GPT5依然沒(méi)有蹤影,Scaling law甚至被認(rèn)為已經(jīng)遇阻“撞墻”。

然而2024年底,谷歌Gemini 2.0的發(fā)布,以及OpenAI一連12天發(fā)布更新,卻讓大家對(duì)2025年AI的進(jìn)展又有了一些新的期待...

這期內(nèi)容我們將回顧下生成式AI在硅谷的2024年有哪些drama,又有哪些實(shí)在的技術(shù)進(jìn)展和路線(xiàn)探索,以及2025年的AI會(huì)如何發(fā)展。

我們將結(jié)合與技術(shù)大佬的采訪(fǎng)聊天,從巨頭的AI布局路線(xiàn)、產(chǎn)品落地、隕落的明星公司和冉冉升起的新星們,以及業(yè)內(nèi)對(duì)2025年AI展望這幾條主線(xiàn)來(lái)展開(kāi),看看過(guò)去一年都發(fā)生了些什么。

01 OpenAI的宮斗與新技術(shù)路線(xiàn)

Chapter 1.1 OpenAI宮斗落幕

OpenAI在2024年的drama并不少:2023年底的董事會(huì)風(fēng)波之后,2024年OpenAI的高層依然極度不穩(wěn)定,人才流動(dòng)性很大。聯(lián)合創(chuàng)始人、首席科學(xué)家Ilya Sutskever在五月離職。之后他宣布創(chuàng)辦自己的初創(chuàng)公司Safe Superintelligence,快速融資了10億美元。

和Ilya一起離職的還有超級(jí)對(duì)齊團(tuán)隊(duì)的關(guān)鍵技術(shù)人物Jan Leike。之后在九月,CTO Mira Murati也宣布離職,有消息稱(chēng)她正在為她新的初創(chuàng)公司融資。

OpenAI其它的高層變動(dòng)還有聯(lián)合創(chuàng)始人兼ChatGPT開(kāi)發(fā)的核心領(lǐng)導(dǎo)者John Schulman——他于8月加入了對(duì)手公司Anthropic。

同時(shí),聯(lián)合創(chuàng)始人、前總裁Greg Brockman在休了三個(gè)月的長(zhǎng)假之后回到了OpenAI。

至此,OpenAI當(dāng)初11位聯(lián)合創(chuàng)始人到如今已經(jīng)只剩下了Sam Altman,Greg Brockman及Wojciech Zaremba三位。

OpenAI用了一年的時(shí)間來(lái)處理高層之間的人際沖突,如今終于暫時(shí)穩(wěn)定了局面。壞消息是多數(shù)的創(chuàng)始成員都已經(jīng)離開(kāi),好消息是這場(chǎng)宮斗終于結(jié)束。

Sam Altman有了穩(wěn)定的權(quán)利,接下來(lái)或許可以更順利地推進(jìn)他想象中的AI發(fā)展方向,包括將OpenAI從非盈利組織變成贏利組織來(lái)更好融資,推出更多可以商業(yè)化的產(chǎn)品等。

如今OpenAI 已宣布轉(zhuǎn)型為公共利益公司(public benefit corporation)。

2024年10月,Sam Altman為OpenAI完成了新一輪66億美元的融資,公司估值來(lái)到1570億美元。但OpenAI燒錢(qián)之狠也是有目共睹的:

《紐約時(shí)報(bào)》獲得的融資文件顯示,OpenAI2024年預(yù)計(jì)收入達(dá)到37億美元,但預(yù)計(jì)虧損將達(dá)到50億美元,而2026年虧損可能會(huì)高達(dá)140億美元,這一估算還不包括給員工的股票激勵(lì)兌現(xiàn)。

雖然OpenAI承諾投資人收入在成倍增長(zhǎng),預(yù)計(jì)在2029年達(dá)到1000億美元,實(shí)現(xiàn)盈利,但按照這樣的燒錢(qián)進(jìn)度,OpenAI在2025年的兩大趨勢(shì)會(huì)是必然:第一是大規(guī)模融資;第二是更激進(jìn)的商業(yè)化。而這其實(shí)和2024年OpenAI的路線(xiàn)也是相同的。

2024年,OpenAI沒(méi)能如預(yù)期發(fā)布GPT5,這讓市場(chǎng)中不少人失望,但驚喜的是4o的多模態(tài)進(jìn)展。此外,o1和最近o3的發(fā)布讓人看到模型能力進(jìn)化的另外一種路線(xiàn)。

Chapter 1.2 o1與o3:AGI另一條路線(xiàn)

在2024年5月初,OpenAI發(fā)布多模態(tài)4o功能,正式與谷歌等競(jìng)爭(zhēng)對(duì)手進(jìn)入AI多模態(tài)之戰(zhàn),可以實(shí)時(shí)對(duì)音頻、視覺(jué)和文本進(jìn)行推理。

事實(shí)證明,4o發(fā)布之后,特別是在免費(fèi)版本中提供有限的4o功能和4o-mini之后,ChatGPT的訂閱人數(shù)大幅上升,依然在2C領(lǐng)域上遠(yuǎn)超競(jìng)爭(zhēng)對(duì)手。

2024年12月,ChatGPT的周活躍用戶(hù)已經(jīng)超過(guò)3億人。

在9月,OpenAI發(fā)布了另外一個(gè)讓業(yè)界驚喜的更新:o1。

簡(jiǎn)單來(lái)說(shuō),o1學(xué)會(huì)了人類(lèi)的“慢思考”,包括利用思維鏈(Chain of Thought,簡(jiǎn)稱(chēng)CoT)來(lái)進(jìn)行反復(fù)的思考、拆解、理解、推理,然后給出最終答案。這使得AI的推理能力在處理科學(xué)、編碼、數(shù)學(xué)及類(lèi)似領(lǐng)域的復(fù)雜問(wèn)題時(shí)有了飛躍的進(jìn)步。

o1這個(gè)內(nèi)部代號(hào)為“Strawberry”的強(qiáng)大模型更新,讓我們看到了在預(yù)訓(xùn)練上堆參數(shù)的“大力出奇跡”之外的、通過(guò)推理階段的算法突破找到一條新的通往AGI的道路。

我們?cè)?024年硅谷華源科技年會(huì)上采訪(fǎng)了多位技術(shù)大牛,都非常看好o1的路線(xiàn)。

其中,OpenAI前安全研究副總裁Lilian Weng在2024華源科技年會(huì)上對(duì)硅谷101表示,o1的發(fā)布能將OpenAI所定義的“五層超級(jí)人工智能”,從最初級(jí)推進(jìn)到了更上一層級(jí):

“五層超級(jí)人工智能”分別是:對(duì)話(huà)conversational AI,推理reasoning AI,自主autonomous AI,創(chuàng)新innovating AI,組織organizational AI。

Lilian Weng

OpenAI前安全研究副總裁 :

隨著我們轉(zhuǎn)向強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練來(lái)加強(qiáng)AI的推理能力,我們最近發(fā)布了AI的五個(gè)等級(jí),比如會(huì)話(huà)AI(聊天機(jī)器人)、推理AI、代理AI等。我們的確發(fā)現(xiàn)這能幫助AI在這個(gè)五層框架內(nèi),達(dá)到下一個(gè)水平,這也是為什么我們將模型系列重新命名為o1。

最近發(fā)布的o1整體模型,憑借在推理能力上的顯著提升,展現(xiàn)出非常不錯(cuò)的結(jié)果,但在產(chǎn)品方面,我們?nèi)孕韪嗯Α?/p>

李沐

亞馬遜前AI首席科學(xué)家;BosonAI創(chuàng)始人:

制作o1模型是因?yàn)榇笳Z(yǔ)言模型更多是即時(shí)生成的,如果想執(zhí)行許多其他復(fù)雜的任務(wù),你需要將其分解為多個(gè)任務(wù),以便它們可以逐一完成,人們稱(chēng)之為代理或工作流。

而o1嘗試自己解決問(wèn)題,比如在后臺(tái)將問(wèn)題分解為小步驟。這時(shí)你需要權(quán)衡的是延遲的問(wèn)題,因?yàn)楹笈_(tái)處理可能需要花費(fèi)一分鐘。所以我認(rèn)為對(duì)于特定的應(yīng)用場(chǎng)景來(lái)說(shuō),這種做法肯定是有效的,特別是如果你不介意延遲的話(huà)。

我認(rèn)為這種方法同時(shí)還很好地降低了成本:因?yàn)槟P涂梢灾鸩綀?zhí)行很多步驟,這讓模型訓(xùn)練變得更容易。所以,為了獲得更好的推理質(zhì)量,在延遲上做一部分犧牲。這很可能是一種趨勢(shì)。

在o1發(fā)布之后,OpenAI年底的12 DAYs連續(xù)發(fā)布了。

不得不說(shuō)Sam Altman是營(yíng)銷(xiāo)的一把好手,這12天的的馬拉松式發(fā)布,開(kāi)頭的時(shí)候搶了亞馬遜re:Invent發(fā)布AI功能的風(fēng)頭,期間也和谷歌的發(fā)布時(shí)間重疊,把媒體目光始終牢牢掌握在自己手中。

這12天的發(fā)布活動(dòng)中,除了前幾天的o1正式版、生成視頻模型Sora在歷經(jīng)10個(gè)月之后終于開(kāi)放給公眾、以及集智能寫(xiě)作、代碼寫(xiě)作和定制化AI agent為一體的AI工作臺(tái)Canvas之外,其它的更新比如說(shuō)ChatGPT Search升級(jí)、與蘋(píng)果Apple Intelligence的協(xié)作等等,看上去就非常不痛不癢,甚至感覺(jué)是在給12天的發(fā)布會(huì)湊數(shù)。

直到最后一天,OpenAI給出了一個(gè)王炸:o3。

o3是2024年9月發(fā)布的o1的下一版本,因?yàn)閛2涉及其它公司的版權(quán)商標(biāo)問(wèn)題,所以O(shè)penAI直接把這個(gè)更新跳了一個(gè)數(shù)字。

o3在數(shù)個(gè)測(cè)試上的能力,無(wú)論是程序員編碼競(jìng)賽(Codeforces)中超過(guò)99%的人類(lèi)程序員,還是博士水平的科學(xué)問(wèn)題(GPQA)已經(jīng)超過(guò)一般人類(lèi)博士生,還是最難的前沿?cái)?shù)學(xué)測(cè)試,還是抽象推理能力基準(zhǔn)考試ARC-AGI,o3比o1的提升可以說(shuō)是驚人的,而這個(gè)版本的更新僅僅用了三個(gè)月的時(shí)間。

這讓AI業(yè)界的不少人相信,OpenAI在o1和o3這個(gè)強(qiáng)化推理這個(gè)范式轉(zhuǎn)變是有效的,這讓擔(dān)心AI大模型已經(jīng)“撞墻”的人們稍微松了口氣:至少AI模型的發(fā)展還在推進(jìn)。

大家也能理解之前Sam Altman說(shuō)的“there’s no wall”(墻不存在)的推文了。

有采訪(fǎng)嘉賓認(rèn)為,在2025年,預(yù)訓(xùn)練上的“拼參數(shù)”會(huì)持續(xù),但后訓(xùn)練的推理能力探索會(huì)同時(shí)進(jìn)行。這樣的“鐘擺”科技途徑發(fā)展,就像之前英特爾提出的Tick-Tock計(jì)劃一樣,會(huì)成為雙重并行的發(fā)展主旋律。

邱諄 (Jonathan Qiu)

華映資本海外合伙人:

Tick-Tock的意思是左邊是數(shù)據(jù)驅(qū)動(dòng),右邊是規(guī)則驅(qū)動(dòng),兩邊會(huì)來(lái)回跳動(dòng)。一會(huì)是用更好的數(shù)據(jù)集去訓(xùn)練它,但同時(shí)用更好的算法去推動(dòng)它,所以就是在算法跟數(shù)據(jù)兩邊Tick-Tock(搖擺)。因?yàn)楝F(xiàn)在o1和o3更多的還是算法,但是之前包括 GPT 其實(shí)也是數(shù)據(jù)集的驅(qū)動(dòng)。所以,在(數(shù)據(jù)和規(guī)則)這兩邊的搖擺的時(shí)候,應(yīng)該會(huì)搖出下一個(gè)大的 breakthrough(突破)或者milestone(里程碑)。

在2024年年底,OpenAI給整個(gè)產(chǎn)業(yè)送上了一份圣誕驚喜。雖然o1和o3非常昂貴,o1 pro的訂閱價(jià)格是每月200美元,而o3進(jìn)行一次低算力計(jì)算的成本高達(dá)20美元,高算力就更不用說(shuō)了,要在現(xiàn)階段大規(guī)模商用幾乎是不可能的。

但這也給市場(chǎng)打了一針鎮(zhèn)定劑:AI發(fā)展并沒(méi)有放緩,而Scaling Law依然有效。算力成本會(huì)降低,而OpenAI在2025年會(huì)繼續(xù)按著卷參數(shù)以及卷推理算法的兩種并行路線(xiàn)去探索AI的下一步。

如果o3的路線(xiàn)能將我們帶到“五層超級(jí)人工智能”的第二層,那什么突破能將我們帶到再下一層自主autonomous AI呢?不知道OpenAI在2025年能否給我們這個(gè)答案。

接下來(lái)我們聊聊OpenAI目前最強(qiáng)勁的幾個(gè)對(duì)手,首先就是谷歌。

02 窮追不舍的谷歌:布局AI Agent

2024年12月底,OpenAI進(jìn)行12日發(fā)布會(huì)期間,谷歌進(jìn)行了幾個(gè)重磅發(fā)布。如果OpenAI沒(méi)有壓軸的o3,年底的風(fēng)頭幾乎全都會(huì)被谷歌搶走。

谷歌首先在12月12日發(fā)布了多模態(tài)大模型Gemini的第二代Gemini 2.0,谷歌CEO Sundar Pichai在發(fā)布公告中表示,如果說(shuō)Gemini 1.0是用于組織和理解信息,那么Gemini 2.0則是讓信息變得更有用。

怎么理解Pichai說(shuō)得第二代Gemini能讓“信息變得更有用”呢?首先,Gemini2.0在多模態(tài)功能上更強(qiáng)大。

谷歌目前對(duì)外開(kāi)放的新模型是Gemini 2.0 Flash,在響應(yīng)時(shí)間上比上一代的1.5 Flash性能更強(qiáng)、延遲性更低。在多模態(tài)上,2.0 Flash支持圖片、視頻和音頻的輸入以及多模態(tài)的輸出。

緊接著,12月16日,谷歌發(fā)布了新一代視頻模型Veo 2,非常驚艷,直接對(duì)打Sora。

細(xì)節(jié)我們不展開(kāi)了,目前的結(jié)論是:Sora在最開(kāi)始公開(kāi)到最終對(duì)用戶(hù)發(fā)布的這10個(gè)月中,包括谷歌在內(nèi)的競(jìng)爭(zhēng)對(duì)手已經(jīng)趕上來(lái)并在多模態(tài)能力上做得更強(qiáng)了。

12月20日,Google Brain團(tuán)隊(duì)負(fù)責(zé)人Jeff Dean宣布Gemini 2.0 Flash Thinking的推出——直接對(duì)標(biāo)OpenAI的o1路線(xiàn),展現(xiàn)出谷歌內(nèi)部對(duì)思維鏈技術(shù)(CoT)的能力,并且Gemini 2.0 Flash Thinking的思考速度會(huì)比o1-mini要快。

最后,谷歌還強(qiáng)調(diào)了Gemini大模型系列對(duì)AI Agent的布局。

在2024年5月的谷歌I/O大會(huì)上,非常驚艷到我的項(xiàng)目“多模態(tài)虛擬助手Project Astra”,也有相當(dāng)?shù)倪M(jìn)展。

在Astra Gemini 2.0的demo中測(cè)試人員使用手機(jī)和AI來(lái)進(jìn)行實(shí)時(shí)交互,包括快速提示公寓大樓的安全密碼、隨時(shí)對(duì)公共交通路線(xiàn)進(jìn)行詢(xún)問(wèn)等,人們也可以帶著智能眼鏡進(jìn)行更沉浸式的多模態(tài)交互。

我個(gè)人認(rèn)為,智能眼鏡在一些場(chǎng)景下比手機(jī)更適合作為agent入口的交互硬件,因?yàn)樗梢圆蹲饺藗兊哪抗猓鳛橐纛l視頻和屏幕的呈現(xiàn)載體,而用戶(hù)也能得到7*24小時(shí)永遠(yuǎn)在線(xiàn)的體驗(yàn)。

所以失敗了多年的Google Glass是不是終于能活過(guò)來(lái)了呢?也許在2025年我們會(huì)有新的答案。

看得出來(lái),Sundar Pichai非常重視Project Astra,認(rèn)為它“展示了通用AI助手的曙光”,而谷歌Gemini大模型依靠長(zhǎng)文本的能力,能讓Project Astra記住長(zhǎng)達(dá)10分鐘的會(huì)話(huà)內(nèi)容來(lái)提供個(gè)性化的服務(wù)。

同時(shí),借助Gemini 2.0,Project Astra可以使用Google Search、Google Lens和Google Maps ,從而真正讓一個(gè)AI agent在日常生活中發(fā)揮助手的作用。

雖然目前來(lái)看,這個(gè)項(xiàng)目還在比較早期的階段,如果我們看看之前提到的OpenAI定義的五個(gè)AI層級(jí),Agent能自主行動(dòng)完成任務(wù)已經(jīng)是第三個(gè)層級(jí)了。

這也展現(xiàn)出谷歌對(duì)AI agent的押注,而這個(gè)賽道也被很多人認(rèn)為將在2025年是個(gè)極其火熱、面臨爆發(fā)的賽道。

對(duì)于谷歌來(lái)說(shuō),全力押注AI agent也很自然:如果谷歌最賺錢(qián)的產(chǎn)品,也就是“搜索”將會(huì)被AI交互顛覆,那么AI agent的入口、屏幕、交互、模型反饋都是谷歌必須要占據(jù)的領(lǐng)地。

邱諄 (Jonathan Qiu)

華映資本海外合伙人:

如果你是 AI application(應(yīng)用),你就是Copilot(副駕駛);AI agent(智能體)是自動(dòng)駕駛, Copilot 就是輔助駕駛。

很多application(應(yīng)用)把自己叫agent之后沒(méi)有在算法上面有真正的創(chuàng)新,也沒(méi)有數(shù)據(jù)。如果就做agent,我個(gè)人覺(jué)得下一步還是要往數(shù)據(jù)的角度去走,agent也需要數(shù)據(jù)。我覺(jué)得下一步 2025 年,可能會(huì)在這幾個(gè)層面。

Chapter 2.2 長(zhǎng)文本能力:NotebookLM

在2024年,被谷歌卷起來(lái)且處于業(yè)界領(lǐng)先地位的還有它的“長(zhǎng)文本”的能力,這個(gè)長(zhǎng)文本能力指的是讓大模型理解超長(zhǎng)的上下文。而基于這個(gè)能力,谷歌在2024年也衍生出了一些爆款A(yù)I產(chǎn)品,包括NotebookLM。

2024年2月15日,谷歌的Gemini 1.5 Pro把長(zhǎng)文本能力卷到100萬(wàn)tokens;

5月,谷歌宣布更是將長(zhǎng)文本能力翻了一倍到200萬(wàn)tokens。

同時(shí),谷歌新發(fā)布的論文,描述了一種新的注意力技術(shù)“inifini-attention”(無(wú)限注意力),能使Tranformer大模型在有限算力情況下處理無(wú)限長(zhǎng)度的輸入。

Bill Jia

谷歌CORE ML/AI工程副總裁:

如果我們不算Gemini的模型,那么在業(yè)界現(xiàn)有的最好的大型語(yǔ)言模型,允許的Token(AI處理文本的單元)數(shù)量大約在10萬(wàn)到20萬(wàn)之間。假設(shè)一個(gè)token相當(dāng)于一個(gè)單詞,則大致可以包含總共10萬(wàn)到20萬(wàn)個(gè)詞作為給AI的提示詞。

而谷歌的Gemini模型將上下文窗口從最先進(jìn)的20萬(wàn)擴(kuò)展到了100萬(wàn)到1000萬(wàn)——這幾乎是一個(gè)50倍到100倍的增長(zhǎng)。對(duì)于大型語(yǔ)言模型來(lái)說(shuō),這個(gè)上下文窗口實(shí)際上是一項(xiàng)非常有用的技術(shù):上下文窗口越大,你可以向模型提供的輸入就越多。

Gemini模型在實(shí)際應(yīng)用時(shí),就能夠支持這樣一個(gè)巨大的上下文窗口,因此,我們可以將大量相關(guān)信息輸入Gemini,這樣一來(lái),對(duì)話(huà)就會(huì)感覺(jué)非常在點(diǎn)子上。這也是Gemini模型能夠產(chǎn)生非常好對(duì)話(huà)效果的部分原因。

在這樣的長(zhǎng)文本技術(shù)下,谷歌2024年的一個(gè)爆款應(yīng)用名為NoteBookLM。

NotebookLM是基于Gemini 1.5 Pro的長(zhǎng)文本理解和多模態(tài)能力而衍生出的筆記管理工具,一推出就迅速獲得了眾多硅谷科技大佬們的盛贊,包括Andrej Karpathy、Sam Altman,都公開(kāi)為這個(gè)產(chǎn)品站臺(tái)。

NotebookLM最驚艷、出圈的功能之一是音頻概覽,也可以被稱(chēng)之為AI播客。

有谷歌的Gemini底座大模型的多模態(tài)和長(zhǎng)文本能力支撐,NotebookLM的AI播客功能可以將文檔、視頻或者音頻總結(jié)生成一男一女對(duì)話(huà)的方式,讓用戶(hù)用“聽(tīng)內(nèi)容”的方式獲取信息,在播客podcast這種媒體形式無(wú)比流行的硅谷形成了病毒式傳播的現(xiàn)象級(jí)別產(chǎn)品。

雖然回答的內(nèi)容比較淺顯,交互也比較像相聲中的捧哏,但NotebookLM在對(duì)內(nèi)容的抓點(diǎn)和總結(jié)能力是非常精準(zhǔn)的,生成的兩位AI主播的對(duì)話(huà)也非常自然流暢,AI感很低,我也大概能感受到這個(gè)產(chǎn)品之后的潛力還是會(huì)非常大。

12月中旬,谷歌發(fā)布NotebookLM Plus,新加入audio overview功能、允許用戶(hù)在播客中間打斷AI主播,提出建議或問(wèn)題進(jìn)行交互,同時(shí)用戶(hù)還可以自定義播客風(fēng)格和主題。

NotebookLM之前的核心團(tuán)隊(duì)負(fù)責(zé)人Raiza Martin,設(shè)計(jì)師Jason Spielman和核心工程師Stephen Hughes已經(jīng)從谷歌辭職出來(lái)自己創(chuàng)業(yè)。

外界猜測(cè)他們會(huì)自己重新做一個(gè)NotebookLM的產(chǎn)品用于更好的商業(yè)化,但很有趣的是,有的VC投資人并不看好這個(gè)項(xiàng)目。

邱諄 (Jonathan Qiu)

華映資本海外合伙人:

你可以理解他是個(gè)產(chǎn)品創(chuàng)新。NotebookLM是Google Labs出來(lái)的,但Google自己是有底座模型的。Notebook LM用的底座其實(shí)也不是Google Gemini,而是谷歌自己內(nèi)部的一個(gè)定制化底座。所以,如果你不是那么懂底座,純第三方的來(lái)用谷歌Gemini API,你未必能做得出來(lái)NotebookLM。

產(chǎn)品創(chuàng)新之上要結(jié)合對(duì)底座的理解,不然光是產(chǎn)品創(chuàng)新,我覺(jué)得可能不能跑得特別遠(yuǎn)。

總的來(lái)說(shuō),谷歌Deepmind和Google Brain當(dāng)中人才密度不會(huì)亞于OpenAI,技術(shù)也不會(huì)落后太多,但2024年谷歌依然是一個(gè)“追趕者”的姿態(tài)。

究其根本,OpenAI的商業(yè)模式是一個(gè)大模型提供方,所以一定要保證模型的領(lǐng)先性,但谷歌是完全不同的商業(yè)模式,它的首要任務(wù)是保證技術(shù)不落后且當(dāng)谷歌搜索被AI顛覆時(shí),自己是準(zhǔn)備好的。

所以在多模態(tài)的AI第二輪大戰(zhàn)中,OpenAI是進(jìn)攻者,而谷歌依然是防御者,下一場(chǎng)硬仗無(wú)論是第二層的reasoning,還是第三層的autonomous AI agent,2025年都會(huì)非常精彩。

接下來(lái)我們?cè)賮?lái)說(shuō)說(shuō)其它幾個(gè)主要大玩家。

03 Anthropic:受開(kāi)發(fā)者歡迎卻不敵OpenAI

Anthropic是OpenAI除了谷歌之外的最在意的競(jìng)爭(zhēng)對(duì)手了,與谷歌不太一樣的是,Anthropic作為大模型的提供方,是OpenAI直接的競(jìng)爭(zhēng)對(duì)手。

2024年在融資上,Anthropic從亞馬遜獲得了新一輪40億美元的融資,使得公司估值達(dá)到400億美元。

產(chǎn)品更新上,10月22日,Anthropic發(fā)布Claude3.5 Haiku,同時(shí)升級(jí)了Claude 3.5 Sonnet。

從外界反饋來(lái)看,Anthropic的模型在技術(shù)上是非常強(qiáng)的,特別是Claude在編碼任務(wù)中表現(xiàn)出色,尤其是在復(fù)雜代碼生成和解決方案自動(dòng)化方面,非常受到工程師們的推崇。

Anthropic的商業(yè)模式目前更2B和2D,對(duì)企業(yè)和開(kāi)發(fā)者群體更受歡迎,但2C方面就不太理想了。

12月底,Anthropic從用戶(hù)與Claude的對(duì)話(huà)中隨機(jī)選取了100萬(wàn)條,進(jìn)行分析和總結(jié)后發(fā)現(xiàn),用戶(hù)在Claude.ai上的主要使用場(chǎng)景排在第一位的,是網(wǎng)頁(yè)和移動(dòng)應(yīng)用開(kāi)發(fā),占比為10.4%。

這是因?yàn)楸澈蟮能浖_(kāi)發(fā)人員主要利用Claude執(zhí)行調(diào)試代碼、解釋Git操作及概念等任務(wù)。

很多開(kāi)發(fā)人員認(rèn)為,Claude 3.5 Sonnet會(huì)非常適合需要深度理解和復(fù)雜推理的應(yīng)用程序,而OpenAI的模型對(duì)于較簡(jiǎn)單的任務(wù)可能更具成本效益。

而Claude AI的2C聊天機(jī)器人,在iOS和安卓移動(dòng)應(yīng)用程序上收入100萬(wàn)美元的里程碑,用了整整16周,而這個(gè)門(mén)檻OpenAI的ChatGPT用了三周就達(dá)到了。雖然快于微軟的Copilot和Perplexity,但距離OpenAI仍然有很大距離。

之前媒體的報(bào)道說(shuō),Anthropic在2024年的收入會(huì)超過(guò)10億美元,比之前預(yù)測(cè)的要高很多,說(shuō)明市場(chǎng)還是非常買(mǎi)賬Anthropic的模型能力,特別是最近他們又挖了很多OpenAI的核心人員過(guò)去。

看上去,這個(gè)OpenAI的最大競(jìng)爭(zhēng)對(duì)手在2025年會(huì)繼續(xù)在2B和2D領(lǐng)域上發(fā)力,而對(duì)2C消費(fèi)者端來(lái)看,暫時(shí)不會(huì)對(duì)OpenAI和谷歌帶來(lái)太大的威脅。

我們?cè)賮?lái)說(shuō)說(shuō)馬斯克的xAI。

04 xAI:入局雖晚但萬(wàn)事俱備

xAI在2024年做了三件大事:搞定了算力、搞定了融資、開(kāi)源了自己的大模型。

如果還有其它順便的事,就是馬斯克數(shù)次把OpenAI告上了法庭。

12月24日,馬斯克旗下的xAI宣布完成60億美元的C輪融資。英偉達(dá),AMD,a16z,紅衫等公司和機(jī)構(gòu)參與,也表明業(yè)界對(duì)xAI的潛力的看好。

要知道在半年之前的2024年5月,xAI剛完成60億美元的B輪融資,足以說(shuō)明馬斯克的融資能力。

除了錢(qián)之外,馬斯克還是第一個(gè)搞定大規(guī)模算力集群的:2024年,xAI位于美國(guó)田納西州孟菲斯市的數(shù)據(jù)中心正式投入使用,歷時(shí)122天建成創(chuàng)下紀(jì)錄。

這個(gè)名為“巨人”(Colossus)的數(shù)據(jù)中心里面部署了英偉達(dá)的10萬(wàn)塊GPU芯片,成為全球開(kāi)發(fā)和運(yùn)行人工智能技術(shù)的規(guī)模最大、算力最強(qiáng)的芯片集群之一。而馬斯克說(shuō)以后還有計(jì)劃繼續(xù)拓展到20萬(wàn)塊GPU的規(guī)模。

在大模型上發(fā)布上,Grok的速度其實(shí)是要比競(jìng)爭(zhēng)對(duì)手慢一些的。在8月中旬,xAI發(fā)布了Grok-2和Grok-2mini兩款A(yù)I模型的測(cè)試版,比此前發(fā)布的Grok-1.5有了非常大的進(jìn)步。

10月,xAI發(fā)布了首個(gè)應(yīng)用程序編程接口(API)。目前,xAI API只有一個(gè)模型,稱(chēng)為“Grok-beta”。

其實(shí)xAI雖然入局晚了些,但優(yōu)勢(shì)還是非常多的:除了上面我們說(shuō)到的算力和融資之外,xAI還有社交網(wǎng)絡(luò)X和特斯拉的獨(dú)家數(shù)據(jù),以及機(jī)器人Optimus等項(xiàng)目的結(jié)合潛力。

相當(dāng)一段時(shí)間以來(lái),Grok的聊天機(jī)器人只向馬斯克旗下的“X”用戶(hù)提供,但在2025年很可能馬斯克會(huì)全面開(kāi)放Grok。

除了iOS程序在測(cè)試之外,網(wǎng)頁(yè)版Grok.com也已經(jīng)準(zhǔn)備就緒,寫(xiě)著coming soon(準(zhǔn)備就緒),感覺(jué)2025年xAI會(huì)正式加入戰(zhàn)局。

馬斯克也在X上說(shuō),Grok3很快會(huì)發(fā)布,并且將是一次重大飛躍,我們也拭目以待。

05 Meta:大獲全勝或一無(wú)所有

接下來(lái)我們說(shuō)一下臉書(shū)(Facebook),這家公司在2024年挺有意思。

除了創(chuàng)始人扎克伯格最近的突變形象和婚姻八卦之外,臉書(shū)毫無(wú)疑問(wèn)是2024年的科技大贏家之一:?jiǎn)螐墓蓛r(jià)就能看出來(lái),2024年漲了70%左右,Meta的員工們應(yīng)該都很開(kāi)心。

雖然Meta不像OpenAI和谷歌那么在大模型前線(xiàn)廝殺,但Meta的策略也非常的明朗:在AI研發(fā)上不掉隊(duì),且布局下一代的AI應(yīng)用,結(jié)合在硬件、社交媒體以及廣告中。

在大模型方面,臉書(shū)在2024年持續(xù)更新Llama開(kāi)源模型。12月6日,Meta發(fā)布新款Llama開(kāi)源模型:70億參數(shù)的Llama 3.3、又稱(chēng)Llama 3.3 70B。扎克伯格說(shuō),下一步就是明年Llama 4的亮相。

Llama 3.3能實(shí)現(xiàn)與2024年7月發(fā)布的4050億參數(shù)的Llama 3.1同樣的性能,但成本比后者更低。Llama 3.1是迄今為止最大的Llama開(kāi)源模型,直接對(duì)標(biāo)Anthropic的Claude 3.5 Sonnet和OpenAI的GPT-4o。

除了在大語(yǔ)言模型上的進(jìn)展外,Meta也一直在探索除了“大語(yǔ)言模型”(LLM)之外的其它AI路徑:2024年12月11日,Meta新發(fā)布了Large Concept Model(LCM),翻譯過(guò)來(lái)是“大型概念模型”。

它和LLM大語(yǔ)言模型逐字預(yù)測(cè)不同,LCM的概念是能直接在高緯度語(yǔ)意空間中運(yùn)算,就像人類(lèi)思考的方式,并不是一個(gè)字一個(gè)字地去思考,而是以”概念“和”意義“為單位。所以L(fǎng)CM是Meta完全突破LLM架構(gòu)的一個(gè)創(chuàng)新的嘗試。

目前Meta表示這大幅度提升了AI在多語(yǔ)言和長(zhǎng)篇內(nèi)容處理上的效能,但處理的效果和準(zhǔn)確度依然需要提升和改進(jìn),所以L(fǎng)CM是否是比LLM更好的一種范式,我們拭目以待。

另外,由于Meta 2024年在智能眼鏡上的嘗試成功,以及旗下Facebook、 WhatsApp、 Instagram、Messenger、Threads等龐大的用戶(hù)群體,還有AI和廣告結(jié)合的前景,市場(chǎng)非??春肕eta如今在AI大戰(zhàn)中的位置。

Jefferies的分析師甚至將Meta選為步入2025年生成式人工智能的“贏家”。不少二級(jí)市場(chǎng)的報(bào)告認(rèn)為,Meta下一代與AI結(jié)合的Orion AR眼鏡將成為新一代硬件入口,Meta在2024年推出的Ray-Ban Meta很初步的將AI功能引入其中,受到市場(chǎng)好評(píng)。

可能在2025年,下一代智能眼鏡上Meta就會(huì)引入屏幕顯示,屆時(shí)就會(huì)釋放出更強(qiáng)大的AI交互功能。

說(shuō)到智能硬件,蘋(píng)果在2024年發(fā)布了Apple Intelligence三件套,我們之前有詳細(xì)聊過(guò),但因?yàn)槎藗?cè)模型和agent的發(fā)展可能還沒(méi)有到能讓硬件產(chǎn)業(yè)與AI結(jié)合得特別好的程度,蘋(píng)果在AI進(jìn)展并不大。

很多人認(rèn)為蘋(píng)果最終還是要自己開(kāi)發(fā)底座大模型,不能完全靠接入OpenAI的ChatGPT,而等硬件與AI結(jié)合的那一天,就是手機(jī)與智能眼鏡的市場(chǎng)大戰(zhàn)了,目前押注得最大的Meta和蘋(píng)果將終有一戰(zhàn)。

說(shuō)回Meta的其它AI產(chǎn)品布局:在AI Chatbot方面,Meta旗下的幾款王牌社交媒體都已經(jīng)不同程度的引入了AI對(duì)話(huà)框,扎克伯格也在12月表示,Meta的AI數(shù)字助理“每個(gè)月有將近6億的活躍用戶(hù)”。

因?yàn)镸eta不提供獨(dú)立的AI應(yīng)用,所以新聞或者業(yè)界一般不將Meta的Chatbot直接與ChatGPT或者Claude去做直接對(duì)比,但就這些活躍用戶(hù)的基數(shù)而言,Meta的AI產(chǎn)品是有很大優(yōu)勢(shì)的。

而最后一點(diǎn)就是AI在廣告上的應(yīng)用潛力。Meta在12月表示,目前超過(guò)100萬(wàn)的廣告商在使用Meta的GenAI工具,他們?cè)谝粋€(gè)月之內(nèi)制作了超過(guò)1500萬(wàn)條廣告。

雖然目前AI生成的素材還沒(méi)有那么精致,但無(wú)論是從廣告標(biāo)題和文案的多個(gè)版本,還是自動(dòng)調(diào)整廣告大小,還是利用文生圖、文生視頻和文生音樂(lè)更高效的制作廣告,AI都有非常大的潛力。

同時(shí),也有分析認(rèn)為,Meta可能會(huì)在自家的開(kāi)源模型Llama上進(jìn)一步開(kāi)發(fā)出企業(yè)級(jí)客戶(hù)服務(wù)的業(yè)務(wù),也將會(huì)是一塊很大的蛋糕。

在2024年,小扎非常積極的出現(xiàn)在各個(gè)媒體采訪(fǎng)中,一遍又一遍闡述著Meta的未來(lái),不再是單純的Metaverse,而是新一代的AI交互,一個(gè)融合了AI,混合現(xiàn)實(shí)和元宇宙的未來(lái)。

2024年9月,開(kāi)始在形象和穿搭上大轉(zhuǎn)型的扎克伯格穿了一件T-shirt,上面寫(xiě)著“Aut Zuck Aut Nihil”,這個(gè)細(xì)節(jié)被媒體捕捉到。

這個(gè)短語(yǔ)是拉丁短語(yǔ)“Aut Caesar Aut Nihil”的變形,意思是“要么是凱撒,要么什么都不是”;而扎克伯格的“Aut Zuck Aut Nihil”似乎是在宣戰(zhàn):要么贏所有,要么一無(wú)所有,All or Nothing。

06 “大而全”的亞馬遜

最后幾家科技巨頭中,再說(shuō)說(shuō)亞馬遜。亞馬遜的路線(xiàn)和其它幾家都不太一樣,采取的是一個(gè)賣(mài)鏟子生意的模式。

他不拼模型、拼算力、拼芯片,雖然各方面都有自研的產(chǎn)品,但把他們整合在一起,再加上市面上所有的好東西,打個(gè)包賣(mài)給客戶(hù)們,幫甲方降本增效,做好2B的生意,也是非常聰明的做法了。

在12月召開(kāi)的亞馬遜云科技re:Invent大會(huì)上,亞馬遜的最新策略非常清楚:

第一,不但有自研芯片的集群,也有與英偉達(dá)芯片合作的算力運(yùn)行中心;

第二,不光提供滿(mǎn)足萬(wàn)億參數(shù)大模型訓(xùn)練和推理需求的自研芯片產(chǎn)品,包括與Anthropic綁定合作的十萬(wàn)張亞馬遜Trainium自研芯片AI計(jì)算集群,還有為中小企業(yè)和初創(chuàng)公司提供能降本增效的服務(wù)與技術(shù);

第三,除了亞馬遜最新的自研模型Nova系列,各種純文本、多模態(tài)大模型都有,同時(shí)在亞馬遜Bedrock上還提供上百種市面上最受歡迎的模型選擇給客戶(hù)挑選;

第四,在自己的三層AI架構(gòu)上加入各種模型蒸餾、解決AI幻覺(jué)、安全技術(shù)等服務(wù)。

對(duì)于很多需要用到AI的初創(chuàng)公司,要算力并不一定需要自己買(mǎi)卡,要用模型并不一定要自己訓(xùn)練。就像需要蘿卜青菜也并不需要自己去務(wù)農(nóng)種菜,可以去超市直接買(mǎi),就看最終的成本賬能否算得過(guò)來(lái)了。

這也顯示出,亞馬遜押注2025年市場(chǎng)對(duì)算力的需求只增不減。而隨著需求逐漸從訓(xùn)練轉(zhuǎn)移到inferencing推理,算力市場(chǎng)的更多創(chuàng)新服務(wù)以及基建會(huì)進(jìn)一步完備。

除了亞馬遜云科技,芯片公司本身,像英偉達(dá),AMD,英特爾等芯片公司本身,以及上下游的電力公司以及數(shù)據(jù)中心服務(wù)公司也會(huì)繼續(xù)是市場(chǎng)關(guān)注的焦點(diǎn)。

接下來(lái)再總結(jié)一下2024年那些隕落的硅谷明星初創(chuàng)企業(yè)們以及冉冉升起的明星公司。

07 隕落的明星初創(chuàng)企業(yè)們

2024年,有三家硅谷明星初創(chuàng)企業(yè)迅速跌下神壇。

第一家是Character.ai,成立于2021年,利用大模型生成各種人物和角色風(fēng)格的對(duì)話(huà)。

2023年5月,Character.AI在蘋(píng)果App Store和Google Play Store發(fā)布了移動(dòng)應(yīng)用程序,第一周下載量就超過(guò)170萬(wàn)次,并被Google Play評(píng)為2023年度最佳AI應(yīng)用。

然而,2024年年初,公司被頻頻爆出融資困難,商業(yè)化不順利,開(kāi)始尋求收購(gòu)。

2024年8月,Character.AI宣布,谷歌已經(jīng)同意向Character.AI支付模型授權(quán)費(fèi),并將讓Character.AI聯(lián)合創(chuàng)始人兼CEO Noam Shazeer、總裁Daniel De Freitas、以及30名Character從事模型訓(xùn)練和語(yǔ)音AI工作的員工,加入谷歌參與Gemini AI項(xiàng)目,谷歌為此支付的價(jià)格是25億美元。

另外一家公司是Inflection.ai,這家公司做大模型,上面疊加“個(gè)人AI伴侶”用途的聊天機(jī)器人Pi,主打情感陪伴市場(chǎng)。

一度市場(chǎng)對(duì)inflection.ai的模型技術(shù)非常認(rèn)可,但也是因?yàn)榇竽P瓦^(guò)于燒錢(qián)而資金鏈沒(méi)有跟上。

2024年3月,微軟挖角了Inflection 的創(chuàng)始人和幾乎所有員工,成立了一個(gè)新的消費(fèi)者AI部門(mén),并支付了約6.5億美元購(gòu)買(mǎi)其技術(shù)許可。

最后一家公司是Adept,也是Transformer原作者出來(lái)創(chuàng)業(yè)的豪華創(chuàng)始團(tuán)隊(duì)。

2024年6月,亞馬遜與AI agent公司Adept達(dá)成協(xié)議,雇傭這家初創(chuàng)公司的大部分員工,并支付約3.3億美元以授權(quán)其技術(shù)。

這三家公司的“變相收購(gòu)案”也在成為硅谷科技巨頭拓展AI版圖的新模式:既避開(kāi)壟斷監(jiān)管,又能收人才收技術(shù)。

不過(guò)這三家公司一個(gè)共同點(diǎn):都同時(shí)在發(fā)展底座大模型和做產(chǎn)品,但這樣的路線(xiàn)被證明太過(guò)于燒錢(qián),模型太難以持續(xù)。

這就讓我想到前面說(shuō)到NotebookLM團(tuán)隊(duì)的人出來(lái)自己創(chuàng)業(yè),被投資人認(rèn)為沒(méi)有底座模型的能力、只能調(diào)用谷歌Gemini的API,所以不被看好。

做大模型吧,太燒錢(qián);不做大模型吧,沒(méi)有技術(shù)壁壘和護(hù)城河。這么一看,AI時(shí)代的創(chuàng)業(yè)真的太難了。

邱諄 (Jonathan Qiu)

華映資本海外合伙人:

所以你怎么去把控這個(gè)節(jié)奏?我覺(jué)得Perplexity這家公司其實(shí)還是把控得很不錯(cuò)的:他到今天也沒(méi)有完全重新訓(xùn)練自己的底座。我覺(jué)得他會(huì)有那么一天的,但是他要把握這個(gè)節(jié)奏,別步子邁得過(guò)大,還沒(méi)到那一天的時(shí)候,就已經(jīng)把錢(qián)給燒完了。這個(gè)是比較危險(xiǎn)的,也是 AI 創(chuàng)業(yè)比互聯(lián)網(wǎng)可能更難一點(diǎn)的地方。

08 “當(dāng)紅炸子雞”項(xiàng)目Chapter 8.1 Perplexity

再總結(jié)一下2025年被認(rèn)為是冉冉上升的明星AI項(xiàng)目。

首先是前面Jonathan提到的Perplexity:2024年年底,公司完成了新一輪5億美元的融資,估值達(dá)到90億美元。

這家公司成立于2022年,可以說(shuō)重新定義了全球第一個(gè)對(duì)話(huà)式AI搜索引擎,月活躍用戶(hù)已經(jīng)達(dá)到1500萬(wàn)人次,日活躍用戶(hù)200萬(wàn)人,連英偉達(dá)創(chuàng)始人黃仁勛也為它站臺(tái),稱(chēng)每天都會(huì)使用。

Perplexity的聰明之處在于,自己不訓(xùn)練模型,而是使用多種大型語(yǔ)言模型,包括GPT、Claude、LLAMA、Mixtral等,以及來(lái)自多個(gè)搜索引擎的排名信號(hào)和第三方數(shù)據(jù)提供商的數(shù)據(jù)。

它的核心競(jìng)爭(zhēng)力在于檢索、排序和編排的數(shù)據(jù)整合能力,以及答案生成能力。

但隨著AI搜索市場(chǎng)的競(jìng)爭(zhēng)日益激烈,像OpenAI已經(jīng)推出了SearchGPT,谷歌也會(huì)在AI搜索上跟進(jìn),Perplexity在2025年會(huì)遭遇更激烈的競(jìng)爭(zhēng)。商業(yè)變現(xiàn)方面,除了付費(fèi)版本之外,公司已經(jīng)計(jì)劃引入廣告,這會(huì)如何重新定義AI搜索的模式呢?我們也拭目以待。

Chapter 8.2 Physical Intelligence

2024年,硅谷還有另外一家公司非常受人矚目:Physical Intelligence。

我最開(kāi)始聽(tīng)到這家公司是從OpenAI聯(lián)合創(chuàng)始人以及特斯拉FSD前負(fù)責(zé)人Andrej Karpathy的口中。

他曾在一個(gè)小型的聚會(huì)上分享說(shuō),有很多項(xiàng)目找他投資,他答應(yīng)的原因只是為了幫助朋友,畢竟他的名字在天使投資人的那一欄能幫很多項(xiàng)目更容易拿到投資。但為數(shù)不多的他真心想投資且看好的項(xiàng)目,就當(dāng)屬Physical Intelligence了。

這家公司通過(guò)AI模型為機(jī)器人打造“大腦”,在2024年11月完成新一輪4億美元的融資,估值來(lái)到20億美元,投資者包括亞馬遜創(chuàng)始人貝佐斯還有OpenAI。

同時(shí),在11月初,Physical Intelligence發(fā)布了首個(gè)通用基礎(chǔ)模型π0,也被是認(rèn)為具身智能發(fā)展上的重要一步。

Physical Intelligence表示,π0將使得機(jī)器人變得更容易編程和使用,使其能夠更高效地執(zhí)行多樣任務(wù)。

目前,Physical Intelligence的π0模型已經(jīng)能夠執(zhí)行一些簡(jiǎn)單的多任務(wù),如折疊衣物、組裝盒子、動(dòng)態(tài)地將物品放入容器等。

邱諄 (Jonathan Qiu)

華映資本海外合伙人:

2024 年最大的進(jìn)展,我會(huì)投給o1和π0。

我覺(jué)得π0更多是 training data driven(數(shù)據(jù)驅(qū)動(dòng))的路線(xiàn);o1更代表的是algorithm(算法)驅(qū)動(dòng)的路線(xiàn)。

π0肯定也要在算法上繼續(xù)做迭代,也可能在推理側(cè)引入一些方法。當(dāng)然難一點(diǎn)就是推理,因?yàn)榫呱碇悄艿耐评韨?cè)要在端側(cè)發(fā)生,可能對(duì)算力的要求會(huì)更高一些。

具身智能以及AI機(jī)器人模型還在非常早的階段,因?yàn)閿?shù)據(jù)和算法都是挑戰(zhàn),但相信在2025年會(huì)有新的進(jìn)展。

同時(shí),斯坦福的機(jī)器人中心在2024年開(kāi)業(yè)了,我也去參加了開(kāi)業(yè)儀式,有機(jī)會(huì)我們?nèi)ツ抢锊稍L(fǎng)一下跟大家分享最新的項(xiàng)目和有意思的進(jìn)展。

09 2025年的未來(lái)

由于篇幅原因,還有很多科技巨頭的進(jìn)展、初創(chuàng)企業(yè)和新趨勢(shì)我們沒(méi)辦法一一列舉,包括AI視頻生成的初創(chuàng)公司Pika和Luma,音樂(lè)生成初創(chuàng)公司Suno,最近很火的AI編程應(yīng)用Cursor和Devin,李飛飛博士的World Labs、該有2025年初引起一片震撼的DeepSeek等,之后有機(jī)會(huì)我們?cè)敿?xì)做成單獨(dú)選題來(lái)聊。

總的來(lái)說(shuō),2024年的硅谷非常精彩,有混亂,有質(zhì)疑,有倒閉收購(gòu),也有為了AGI信仰繼續(xù)戰(zhàn)斗的科技從業(yè)者們。

雖然2024年出現(xiàn)了o1、o3的路線(xiàn),但更大模型、更強(qiáng)的能力依然是被市場(chǎng)所期待的。

馬騰宇

VOYAGE AI創(chuàng)始人

斯坦福大學(xué)計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)助理教授:

我一直都在期待更好的技術(shù),不一定要GPT-5,也可能是Anthropic Claude的4、5、6代,或者是xAI、Mistral。

我認(rèn)為,雖然現(xiàn)階段的GPT-4可以做的事越來(lái)越多了,但是更大、更強(qiáng)的模型在某種意義上會(huì)讓模型的使用變得更容易。所以,如果有了GPT-5或者Claude 4、5,那么基于GPT-4的一些自我工程可能就不再必要了。

Bill Jia

谷歌CORE ML/AI工程副總裁:

對(duì)于那些有資本、有資源、有工程能力的大公司來(lái)說(shuō),他們會(huì)繼續(xù)構(gòu)建大模型。大模型在很多不同方面表現(xiàn)得更好,特別是在通用場(chǎng)景中。

然后基于大模型,人們會(huì)構(gòu)建各種不同的垂直模型。剛開(kāi)始垂直模型也比較大,但隨著包括蒸餾模型、量化模型等技術(shù),模型會(huì)變得更小但是更有效率、更有性?xún)r(jià)比,而且模型質(zhì)量不會(huì)下降太多。

我認(rèn)為這兩條主線(xiàn)將會(huì)持續(xù)很長(zhǎng)一段時(shí)間,希望有第三種并行努力的方向,那就是尋找不同的模型架構(gòu),因?yàn)楝F(xiàn)在的模型基本都是基于Transformer的,還有一些基于diffusion模型用于生成圖像等中間工作。我希望能有其他非transformer、非diffusion的模型架構(gòu)出現(xiàn),讓生成結(jié)果更有效、更高質(zhì)量、同時(shí)降低成本。如果在這方面能有所突破,將再次對(duì)AI行業(yè)產(chǎn)生巨大的影響。

在硅谷的AI生態(tài)中,已經(jīng)衍生出了多個(gè)派系:有更大的模型、大模型衍生出的垂直模型、不信仰Transformer而在探索其它通往AGI路徑的研究者,同時(shí)也有應(yīng)用、硬件、agent智能體、機(jī)器人、無(wú)人駕駛,還有“賣(mài)鏟子”的英偉達(dá)、數(shù)據(jù)中心、電力上下游等等,這些生態(tài)在2024年得到了進(jìn)一步的鞏固與布局,而在2025年,我們會(huì)看到更多技術(shù)的進(jìn)展。

當(dāng)然,硅谷只是AI發(fā)展的其中一個(gè)主力戰(zhàn)場(chǎng),全球其它市場(chǎng)的AI也有非??焖俚陌l(fā)展,今天我們只是稍微總結(jié)了一些硅谷的情況,也歡迎大家給我們留言最值得提的公司,技術(shù)或者事件,這對(duì)我們團(tuán)隊(duì)更進(jìn)一步探索AI產(chǎn)業(yè)非常有幫助。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。