四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

正在閱讀:

拆解Gemini 3:Scaling Law的極致執(zhí)行與“全模態(tài)”的威力

掃一掃下載界面新聞APP

拆解Gemini 3:Scaling Law的極致執(zhí)行與“全模態(tài)”的威力

谷歌的逆襲。

文 | 硅谷101 劉一鳴

毫無疑問,Google最新推出的Gemini 3再次攪動了硅谷的AI格局。在OpenAI與Anthropic激戰(zhàn)正酣之時,谷歌憑借其深厚的基建底蘊與全模態(tài)(Native Multimodal)路線,如今已從“追趕者”變成了“領跑者”。

此次Gemini 3不僅在多模態(tài)能力上實現(xiàn)了新的飛躍,更被視為谷歌對Scaling Law最極致的一次執(zhí)行。

硅谷101在11月20日舉辦了一場直播,邀請了四位處于AI研發(fā)與應用最前線的嘉賓:

田淵棟,前Meta FAIR研究總監(jiān)、AI科學家

陳羽北,加州大學戴維斯分校助理教授、Aizip聯(lián)合創(chuàng)始人

Gavin Wang,前Meta AI工程師、負責Llama 3后訓練及多模態(tài)推理

Nathan Wang,資深AI開發(fā)者、硅谷101特約研究員

我們試圖透過Gemini 3的發(fā)布,試圖回答關于AI未來的幾個關鍵問題:Gemini 3到底強在哪里?谷歌究竟做對了什么?全球大模型競爭格局將如何改變?LLM的未來走向,以及在LLM之外,最前沿的AI實驗室正在關注什么?

以下是我們直播中的嘉賓濃縮觀點,如果想收看完整直播內(nèi)容,可以關注我們的YouTube和B站回放。

01 體驗實測,Gemini 3到底強在哪里?

在Gemini 3發(fā)布后的48小時內(nèi),各大榜單被迅速刷新。不同于以往模型僅在單一維度(如代碼或文本)上的提升,Gemini 3被認為是真正意義上的“全模態(tài)原生”模型。對于使用者而言,這種技術參數(shù)上的提升轉(zhuǎn)化為怎樣的實際體感?

來源:LM Arena

陳茜:各位這兩天都在高強度測試Gemini 3,它真的如排行榜那樣霸榜嗎?大家能不能舉例講講,它到底好在哪里?

Nathan Wang:我這兩天大概集中使用了三個主要產(chǎn)品:Gemini主App、針對開發(fā)者的Google AntiGravity,以及今天剛發(fā)布的Nano Banana Pro。

說實話,AntiGravity給我感覺非常像是一個Agentic時代的IDE(集成開發(fā)環(huán)境)。它和Cursor或者Claude Code不太一樣的地方在于,它把界面分成了 "Manager View"(經(jīng)理視角) 和 "Editor View"(編輯視角)。

以前我們在Cursor里,雖然AI幫我們寫代碼,但感覺還是“我”在寫。但在AntiGravity里,Manager View讓你感覺你是坐在那里的經(jīng)理,底下有8到10個Agent小弟在干活。你可以看著它們分工,有的在寫程序,有的在Run Unit Test(單元測試)。

最驚艷的是它結(jié)合了Browser Use的功能。比如我寫了一個前端網(wǎng)頁,它有一個叫Screenshot Pro的功能,跑分非常高。它可以直接調(diào)用Chrome瀏覽器打開那個網(wǎng)頁,“看”著屏幕去測試。如果你讓它上傳一個文件、點擊一個按鈕,它能像人一樣去操作。這意味著測試加上開發(fā)完全自動化了,變成了一體式的開發(fā)體驗。

另外,Nano Banana Pro在生成幻燈片這個點上解決了我很大的痛點。以前我讓AI做PPT,比如“解釋一下Gemini從1.0到3.0的發(fā)展路線”,它往往邏輯鏈是斷的。但這次我試了一下,它不僅能把邏輯理順,還能生成非常復雜的圖表。我覺得市面上那些做Slides(幻燈片)的軟件可能都要被它取代了。

田淵棟,前Meta FAIR研究總監(jiān)、AI科學家

田淵棟:我一般的習慣是,新模型出來先看它能不能“續(xù)寫小說”。這是我個人的一個Benchmark,因為全世界除了我也沒幾個人這么測,所以它肯定不會Overfitting(過擬合),這比較客觀。

在一兩年前,模型寫小說基本上是“公文風”,不管你給它什么開頭,它寫出來都是那種官方口吻,完全脫離語境。到了Gemini 2.5的時候,我發(fā)現(xiàn)它文筆變好了。比如我給它一個廢墟的場景,它會描寫得很細致:墻壁倒塌的樣子、環(huán)境蕭索的氛圍,像個文科生寫的,但情節(jié)上平鋪直敘,沒什么抓人的地方。

但這次Gemini 3讓我有點驚喜。它不僅文筆好,它開始懂得“反轉(zhuǎn)”了。它設計的情節(jié)互動非常有意思,甚至讓我覺得:“咦,這個點子不錯,也許我可以存下來用到我自己的小說里?!边@是第一次我感覺到AI在情節(jié)構(gòu)思上給了我啟發(fā),而不僅僅是詞藻堆砌。它似乎對作者的深層動機有了理解。

不過,在科研Brain storming(頭腦風暴)上,它還是那個老樣子。怎么形容呢?它就像一個剛剛?cè)雽W的、博聞強記的博士生。 你問它什么它都知道,能跳出很多新名詞、新數(shù)學工具。你會覺得“哇,這個我沒見過,很棒”。但如果你想跟它深入探討一個問題的本質(zhì),或者讓它判斷哪個方向更有前途,它就做不到了。它缺乏那種只有資深人類研究員才有的直覺和深層思考。所以它依然是一個頂級的“做題家”,但在創(chuàng)造性思維上,暫時還沒看到本質(zhì)突破。

Gavin Wang :我首先感嘆一下,Google的“大廠之力”真是恐怖如斯,生態(tài)系統(tǒng)太完整了。技術層面,我最關注的是ARC-AGI-2 Benchmark。這個測試很有意思,它不是考大數(shù)據(jù)記憶,而是考Few-shot Learning(少樣本學習)甚至是元學習。它的創(chuàng)始人認為,那種靠背數(shù)據(jù)的不是智能,真正的智能是看一兩個例子就能迅速提取出Pattern(模式)。

之前大家在這個榜單上都是個位數(shù)或者百分之十幾,Gemini 3一下子達到了百分之三十幾,這是一個質(zhì)的飛躍。我認為這歸功于它的Multimodal Reasoning(多模態(tài)推理)。

以前的Chain of Thoughts(思維鏈),模型是在那里自言自語,是純語言維度的單模態(tài)推進。但Gemini 3是Model Native的,它把視覺、代碼、語言的數(shù)據(jù)全部Mesh up together(混合在一起)做預訓練。所以它在推理的時候,可能是一邊看著屏幕上的圖像,一邊在語言層面做邏輯推演。這種跨模態(tài)的化學反應,打開了很多新機會的大門。

陳羽北,加州大學戴維斯分校助理教授、Aizip聯(lián)合創(chuàng)始人

陳羽北:我這兩天太忙還沒自己跑,但我收集了我們團隊不同小組的一手反饋,這里面有一些很有意思的Negative Feedback(負面反饋)。

首先是Vision組的反饋。他們在做一些內(nèi)部Benchmark測試時發(fā)現(xiàn),Gemini 3在Real-world Visual Understanding(真實世界視覺理解)上性能反而下降了。這聽起來很反直覺對吧?

具體來說,就是當涉及到安防攝像頭、門鈴這種真實場景,去分析用戶行為、潛在風險事件的時候,它的表現(xiàn)不如上一代。他們?nèi)ゲ榱薌emini 3的技術報告,發(fā)現(xiàn)報告里真正涉及到Real-world Visual Understanding的benchmark只有一個,而且并沒有覆蓋這種復雜場景。

這其實暴露了一個行業(yè)通?。汗馼enchmark和實際落地場景之間存在巨大的Gap。 如果大家都為了刷榜去優(yōu)化模型,那在實際產(chǎn)品中的性能可能會走偏。

另外,Coding組的學生也跟我說,在做Scientific Writing(科學寫作)和輔助編程時,他們反而覺得Gemini 2.5更順手。Gemini 3雖然Reasoning的長度增加了2到3倍,但在處理需要反復多跳(Multi-hop)搜索、整合二十年財報這種極度復雜的任務時,似乎還是不如OpenAI的GPT-5 Pro穩(wěn)定。當然,這可能是早期版本大家還沒摸透Prompt的原因。

02 谷歌技術秘密,是“Deep Thinking”還是“超能力”?

谷歌從落后到追平甚至反超,Gemini項目負責人曾透露秘密在于“改進了預訓練和后訓練”。這句看似官方的回答背后,隱藏著谷歌怎樣的技術路線圖?是算法本身的勝利,還是堆算力的暴力美學?

谷歌DeepMind首席科學家Oriol Vinyals X平臺推文

陳茜:谷歌這次不僅是追趕,簡直是超越。Gemini項目負責人在發(fā)布會中提到了新版本“改進了預訓練和后訓練”,這是否意味著Scaling Law并沒有“撞墻”?谷歌的秘密武器到底是什么?

田淵棟:說實話,“改進了預訓練和后訓練”這句話基本等于廢話(笑)。因為做模型本來就是個系統(tǒng)工程,數(shù)據(jù)更好、架構(gòu)微調(diào)、訓練穩(wěn)定性增強,每一塊都好一點,最后結(jié)果肯定強。

但我更關注的是,如果預訓練做得足夠好,模型本身變得非常“聰明”,那它在后訓練階段就會表現(xiàn)得像個天才學生,給幾個樣本就通了,不需要花大力氣去教?,F(xiàn)在看來Gemini 3的基座能力確實很強。

關于它是不是用了什么秘密武器,我聽到一些傳言,說Google終于把之前訓練流程里的一些Bug給修掉了。當然這是傳言啊,無法證實。不過對于Google這種量級的公司,只要工程上不犯錯,把所有細節(jié)拉滿,Scaling Law自然會發(fā)揮作用。

Gavin Wang,前Meta AI工程師,負責Llama 3后訓練及多模態(tài)推理

Gavin Wang:我昨天試著跟Gemini 3聊了一下,問它“你為什么這么厲害?”(笑)。它跟我剖析了一下,提到了一個概念叫Tree of Thoughts(思維樹)。

以前我們做CoT (Chain of Thoughts) 是線性的,像鏈表一樣一步步推。但Gemini 3似乎在模型內(nèi)部采用了樹狀搜索,并且配合了一個Self-rewarding(自我獎勵)的機制。也就是說,它在內(nèi)部會同時跑多條思路,然后自己有一個打分機制,覺得哪條路不Make sense就Drop掉,哪條路有前途就繼續(xù)Adapt。

這其實是Engineering Wrapper(工程封裝)和Model Science(模型科學)的深度結(jié)合。以前我們要在外面寫Prompt搞這些,現(xiàn)在谷歌把它做進了模型內(nèi)部環(huán)境里。這不僅是Scaling Law在垂直方向的堆料,更是在水平方向上引入了MoE和Search的機制。這讓我想起三年前的GPT時刻,技術上非常Impressive。

Nathan Wang:我補充一個細節(jié),我在查閱Gemini開發(fā)者API文檔時,發(fā)現(xiàn)里面藏了一個彩蛋。它在一行注釋里寫道:"Context Engineering is a way to go.(語境工程是大勢所趨)"

這句話讓我思考了很久。以前我們說Prompt Engineering,現(xiàn)在谷歌提Context Engineering。我自己在使用時的體感是,比如我想寫一條能引起“病毒式傳播”的推文,我會先讓AI去搜索“怎么寫一條火爆的推文”,讓它先把方法論總結(jié)出來,作為Context,然后再把我的內(nèi)容填進去生成。

谷歌似乎把這個過程自動化了。它在模型生成答案之前,可能已經(jīng)在后臺自動抓取了大量相關的Context,構(gòu)建了一個極其豐富的思維鏈環(huán)境,然后再生成結(jié)果。這可能就是為什么它用起來覺得“懂你”的原因。它不僅僅是在回答,而是在一個engineered environment(工程環(huán)境)里思考。

陳羽北:除了算法層面,我想提一個更底層的經(jīng)濟學視角。我的朋友Brian Cheng提過一個觀點,我認為非常切中要害:谷歌之所以能如此堅決、徹底地執(zhí)行Scaling Law,是因為它擁有無法比擬的硬件優(yōu)勢——TPU。

大家想一下,如果其他公司要訓練大模型,必須買NVIDIA的顯卡。NVIDIA的硬件利潤率高達70%以上。但谷歌不同,它是完全的軟硬件整合。它用自己的 TPU,沒有中間商賺差價。這讓它的Unit Economy(單位經(jīng)濟模型) 極其優(yōu)秀。在同樣的預算下,谷歌可以訓練更大的模型、跑更多的數(shù)據(jù)、做更昂貴的多模態(tài)實驗。

所以,只要Scaling Law還需要堆算力,谷歌這種硬件上的不對稱優(yōu)勢就會對OpenAI和Anthropic形成巨大的擠壓。除非NVIDIA降價,或者其他家也造出自己的芯片,否則這個護城河非常深。

03 開發(fā)者生態(tài),Coding之爭結(jié)束了嗎?

隨著Gemini 3和AntiGravity的發(fā)布,以及其在SWE-bench等代碼榜單上的屠榜,社交媒體上出現(xiàn)了“Coding之爭已結(jié)束”的言論。谷歌是否正在利用其龐大的生態(tài)系統(tǒng)(Chrome, Android, Cloud)構(gòu)建一條讓Cursor等創(chuàng)業(yè)公司無法逾越的護城河?

陳茜:很多人說Coding之爭已經(jīng)結(jié)束了,Gemini 3配合谷歌全家桶將橫掃一切。這對Cursor等等這樣的創(chuàng)業(yè)公司意味著什么?

Gavin Wang:我覺得谷歌這次確實有點“降維打擊”的意思。AntiGravity直接對標Codex加Cursor,而且它因為擁有Chrome的底層權(quán)限,可以做到視覺與代碼的完美對齊。

現(xiàn)在的體驗是,AI一邊看著網(wǎng)頁(視覺),一邊幫你改代碼,這種Multimodal Native(多模態(tài)原生)的體驗是Next Level的。相比之下,F(xiàn)igma或Cursor目前還更像是一個Chatbot。如果谷歌把Chrome、Cloud、IDE全部打通,對于創(chuàng)業(yè)公司來說,這確實很難受。

但這也催生了新的機會。比如Palantir 提出的Forward Deployed Engineer(前置部署工程師)概念。未來的工程師可能不再只是寫代碼,而是打通從商業(yè)化、產(chǎn)品定義(PM)到前后端開發(fā)的全鏈路。既然基模能力水漲船高,我們應該造一艘“小船”,站在巨人的肩膀上創(chuàng)造價值,而不是去卷基模已經(jīng)能做的事。

就像Nathan說的,Web Coding這種簡單的前端工作可能會被谷歌包圓,但這就逼著我們?nèi)ふ倚碌腂usiness Model和Product Shape(產(chǎn)品形態(tài))。

Nathan Wang,資深AI開發(fā)者、硅谷101特約研究員

Nathan Wang:我覺得說“結(jié)束”還言之過早。AntiGravity確實強,但我發(fā)現(xiàn)在實際使用中,它在處理后端(Backend)部署、復雜的系統(tǒng)架構(gòu)時,依然很容易卡住。

比如我在用Browser use上傳文件做測試時,它經(jīng)常會停在那兒,需要我去干預。它目前更像是一個極其強大的前端生成器。而且,對于很多企業(yè)來說,把代碼全部交給谷歌的生態(tài)系統(tǒng),在數(shù)據(jù)隱私上也是有顧慮的。Cursor這種獨立廠商依然有它的生存空間,特別是它在靈活性和特定語言優(yōu)化上。

田淵棟:對,我也覺得網(wǎng)上的Demo有點誤導性?,F(xiàn)在的Demo很多是一鍵生成酷炫的前端頁面,大家看的是“漂亮程度”和“完整性”。

但真正寫Code的人,關注的是Instruction Following(指令遵循)。比如我要把這段代碼的邏輯稍微改一點點,或者我要處理一個非?,嵥榈腃orner Case(邊緣情況),模型能不能聽懂?能不能改對?

我試過讓它寫一個3D第一人稱射擊游戲。它確實寫出來了,畫面也不錯,但我一跑發(fā)現(xiàn)——方向鍵是反的。這種小Bug看起來不礙事,但在大規(guī)模工程里就是災難。所以對于專業(yè)程序員來說,它目前還是一個能夠降低門檻的輔助工具,而不是替代者。

04 后LLM時代,AI是否“綁架”了美國GDP?

盡管谷歌證明了Scaling Law依然有力,但硅谷的目光已經(jīng)投向了更遠的地方。近期,一批被稱為“NeoLab”的非主流AI實驗室(如Reflection AI、Periodic Labs)受到風投追捧,融資額都非常高。在LLM之外,AI的下一個范式轉(zhuǎn)移將在哪里發(fā)生?

來源:The Information

陳茜:除了Scaling Law,大家看到什么非主流的、值得關注的AI發(fā)展趨勢?特別是像NeoLab們所關注的那些領域。

田淵棟:我一直以來的觀點是:Scaling Law是一個很有用的工程規(guī)律,但如果不去探索本質(zhì),我們總有一天會面臨資源枯竭。難道我們真的要把整個地球變成一塊巨大的顯卡嗎?如果算力需求是指數(shù)增長,而地球資源是有限的,這條路終究走不通。

所以我一直堅持做AI的可解釋性(Interpretability)和 頓悟(Grokking)機制的研究。我相信一個如此高效的神經(jīng)網(wǎng)絡,背后一定有一個優(yōu)美的數(shù)學內(nèi)核。如果我們能從First Principle(第一性原理)出發(fā),理解它是如何產(chǎn)生涌現(xiàn)(Emergence)的,也許有一天我們會發(fā)現(xiàn),根本不需要梯度下降(Gradient Descent),就能找到更好的算法。

另外,我也在用AI加速我的研究。比如最近是ICML的Rebuttal(同行評審中的反駁/辯護過程)期間,我有個新想法,直接丟給Cursor,3分鐘代碼寫完,圖畫出來,我馬上就能驗證這個Idea行不行。這種效率提升成百上千倍,這本身也會加速我們對AI本質(zhì)的探索。

陳羽北:我非常同意淵棟學長的觀點。如果Scaling Law是唯一的定律,那人類的未來太悲觀了。我們既沒有那么多電,以后數(shù)據(jù)也都交給AI了,那人類除了當寵物還有什么價值?

我觀察到自然界有一個悖論,這可能是一個突破口:越高級的智能,其實越依賴學習,但所需的數(shù)據(jù)卻越少。

你看人類小孩,在13歲之前,他接觸到的所有Token(語言數(shù)據(jù)),加起來可能不到10Billion(100億)。相比現(xiàn)在大模型動不動幾Trillion的數(shù)據(jù)訓練量,人類的數(shù)據(jù)效率是極高的。但人類的大腦結(jié)構(gòu)非常復雜(上千億神經(jīng)元)。所以,大模型未必大在數(shù)據(jù),可能應該大在架構(gòu)。

我覺得我們現(xiàn)在的LLM更像是在Distill our existing civilization(蒸餾我們現(xiàn)有的文明),把它壓縮得更好一點。但我希望未來的AI,比如Robotics(機器人)或者World Model(世界模型),能夠像生物一樣去探索未知,Invent a new civilization(發(fā)明新的文明)。這需要我們這些Researcher去做一些看起來 "Weird"(怪異)或者 "Crazy" 的研究,去尋找Scaling Law之外的第二條曲線。

Gavin Wang:順著羽北的話說,我覺得World Model(世界模型)絕對是下一個戰(zhàn)場。

現(xiàn)在的LLM還是純語言維度的。但真正的世界模型,是要能理解物理規(guī)律的。目前主要有三條路線:一是像Genie 3這種Video-based的,雖然是2D視頻但模擬3D世界;二是Mesh/Physics-based的,帶有物理碰撞體積;三是像李飛飛老師團隊做的Gaussian Splatting(高斯?jié)姙R),用點云來表征空間。

另外,我特別想呼吁大家關注Open Source(開源)和Small Language Models(端側(cè)小模型)。

現(xiàn)在的智能其實被“囚禁”在GPU Data Center里。普通人要用智能,得付費買 API,這就像我們還要給空氣付費一樣。這其實是一種Digital Centralization(數(shù)字集權(quán))。

如果端側(cè)小模型能發(fā)展起來,讓每個人在自己的手機、電腦上就能跑得動高性能的 AI,不需要聯(lián)網(wǎng),不需要付昂貴的訂閱費,這才是真正的AI for Everyone。這也需要我們在模型架構(gòu)上做很多優(yōu)化,而不僅僅是堆顯卡。

05 泡沫還是奇點?

Gemini 3的發(fā)布,某種程度上是Google對“AI泡沫論”的一次強力回擊。它證明了只要有足夠的算力、數(shù)據(jù)和工程優(yōu)化,Scaling Law仍有巨大的紅利可吃。

然而,今天直播中很多嘉賓們的觀點,也都在指出單純的Scaling并不是通向AGI的唯一路徑。

今天我們的直播,其實我們不僅想聊聊Gemini 3發(fā)布下的谷歌“技術秀肌肉”,還有來自硅谷一線的、冷靜而深刻的思考。Gemini 3暫時領先了現(xiàn)在的戰(zhàn)役,這對谷歌來說是重要的一個里程碑;但AI的大戰(zhàn)役,才剛剛開始。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

拆解Gemini 3:Scaling Law的極致執(zhí)行與“全模態(tài)”的威力

谷歌的逆襲。

文 | 硅谷101 劉一鳴

毫無疑問,Google最新推出的Gemini 3再次攪動了硅谷的AI格局。在OpenAI與Anthropic激戰(zhàn)正酣之時,谷歌憑借其深厚的基建底蘊與全模態(tài)(Native Multimodal)路線,如今已從“追趕者”變成了“領跑者”。

此次Gemini 3不僅在多模態(tài)能力上實現(xiàn)了新的飛躍,更被視為谷歌對Scaling Law最極致的一次執(zhí)行。

硅谷101在11月20日舉辦了一場直播,邀請了四位處于AI研發(fā)與應用最前線的嘉賓:

田淵棟,前Meta FAIR研究總監(jiān)、AI科學家

陳羽北,加州大學戴維斯分校助理教授、Aizip聯(lián)合創(chuàng)始人

Gavin Wang,前Meta AI工程師、負責Llama 3后訓練及多模態(tài)推理

Nathan Wang,資深AI開發(fā)者、硅谷101特約研究員

我們試圖透過Gemini 3的發(fā)布,試圖回答關于AI未來的幾個關鍵問題:Gemini 3到底強在哪里?谷歌究竟做對了什么?全球大模型競爭格局將如何改變?LLM的未來走向,以及在LLM之外,最前沿的AI實驗室正在關注什么?

以下是我們直播中的嘉賓濃縮觀點,如果想收看完整直播內(nèi)容,可以關注我們的YouTube和B站回放。

01 體驗實測,Gemini 3到底強在哪里?

在Gemini 3發(fā)布后的48小時內(nèi),各大榜單被迅速刷新。不同于以往模型僅在單一維度(如代碼或文本)上的提升,Gemini 3被認為是真正意義上的“全模態(tài)原生”模型。對于使用者而言,這種技術參數(shù)上的提升轉(zhuǎn)化為怎樣的實際體感?

來源:LM Arena

陳茜:各位這兩天都在高強度測試Gemini 3,它真的如排行榜那樣霸榜嗎?大家能不能舉例講講,它到底好在哪里?

Nathan Wang:我這兩天大概集中使用了三個主要產(chǎn)品:Gemini主App、針對開發(fā)者的Google AntiGravity,以及今天剛發(fā)布的Nano Banana Pro。

說實話,AntiGravity給我感覺非常像是一個Agentic時代的IDE(集成開發(fā)環(huán)境)。它和Cursor或者Claude Code不太一樣的地方在于,它把界面分成了 "Manager View"(經(jīng)理視角) 和 "Editor View"(編輯視角)。

以前我們在Cursor里,雖然AI幫我們寫代碼,但感覺還是“我”在寫。但在AntiGravity里,Manager View讓你感覺你是坐在那里的經(jīng)理,底下有8到10個Agent小弟在干活。你可以看著它們分工,有的在寫程序,有的在Run Unit Test(單元測試)。

最驚艷的是它結(jié)合了Browser Use的功能。比如我寫了一個前端網(wǎng)頁,它有一個叫Screenshot Pro的功能,跑分非常高。它可以直接調(diào)用Chrome瀏覽器打開那個網(wǎng)頁,“看”著屏幕去測試。如果你讓它上傳一個文件、點擊一個按鈕,它能像人一樣去操作。這意味著測試加上開發(fā)完全自動化了,變成了一體式的開發(fā)體驗。

另外,Nano Banana Pro在生成幻燈片這個點上解決了我很大的痛點。以前我讓AI做PPT,比如“解釋一下Gemini從1.0到3.0的發(fā)展路線”,它往往邏輯鏈是斷的。但這次我試了一下,它不僅能把邏輯理順,還能生成非常復雜的圖表。我覺得市面上那些做Slides(幻燈片)的軟件可能都要被它取代了。

田淵棟,前Meta FAIR研究總監(jiān)、AI科學家

田淵棟:我一般的習慣是,新模型出來先看它能不能“續(xù)寫小說”。這是我個人的一個Benchmark,因為全世界除了我也沒幾個人這么測,所以它肯定不會Overfitting(過擬合),這比較客觀。

在一兩年前,模型寫小說基本上是“公文風”,不管你給它什么開頭,它寫出來都是那種官方口吻,完全脫離語境。到了Gemini 2.5的時候,我發(fā)現(xiàn)它文筆變好了。比如我給它一個廢墟的場景,它會描寫得很細致:墻壁倒塌的樣子、環(huán)境蕭索的氛圍,像個文科生寫的,但情節(jié)上平鋪直敘,沒什么抓人的地方。

但這次Gemini 3讓我有點驚喜。它不僅文筆好,它開始懂得“反轉(zhuǎn)”了。它設計的情節(jié)互動非常有意思,甚至讓我覺得:“咦,這個點子不錯,也許我可以存下來用到我自己的小說里?!边@是第一次我感覺到AI在情節(jié)構(gòu)思上給了我啟發(fā),而不僅僅是詞藻堆砌。它似乎對作者的深層動機有了理解。

不過,在科研Brain storming(頭腦風暴)上,它還是那個老樣子。怎么形容呢?它就像一個剛剛?cè)雽W的、博聞強記的博士生。 你問它什么它都知道,能跳出很多新名詞、新數(shù)學工具。你會覺得“哇,這個我沒見過,很棒”。但如果你想跟它深入探討一個問題的本質(zhì),或者讓它判斷哪個方向更有前途,它就做不到了。它缺乏那種只有資深人類研究員才有的直覺和深層思考。所以它依然是一個頂級的“做題家”,但在創(chuàng)造性思維上,暫時還沒看到本質(zhì)突破。

Gavin Wang :我首先感嘆一下,Google的“大廠之力”真是恐怖如斯,生態(tài)系統(tǒng)太完整了。技術層面,我最關注的是ARC-AGI-2 Benchmark。這個測試很有意思,它不是考大數(shù)據(jù)記憶,而是考Few-shot Learning(少樣本學習)甚至是元學習。它的創(chuàng)始人認為,那種靠背數(shù)據(jù)的不是智能,真正的智能是看一兩個例子就能迅速提取出Pattern(模式)。

之前大家在這個榜單上都是個位數(shù)或者百分之十幾,Gemini 3一下子達到了百分之三十幾,這是一個質(zhì)的飛躍。我認為這歸功于它的Multimodal Reasoning(多模態(tài)推理)。

以前的Chain of Thoughts(思維鏈),模型是在那里自言自語,是純語言維度的單模態(tài)推進。但Gemini 3是Model Native的,它把視覺、代碼、語言的數(shù)據(jù)全部Mesh up together(混合在一起)做預訓練。所以它在推理的時候,可能是一邊看著屏幕上的圖像,一邊在語言層面做邏輯推演。這種跨模態(tài)的化學反應,打開了很多新機會的大門。

陳羽北,加州大學戴維斯分校助理教授、Aizip聯(lián)合創(chuàng)始人

陳羽北:我這兩天太忙還沒自己跑,但我收集了我們團隊不同小組的一手反饋,這里面有一些很有意思的Negative Feedback(負面反饋)。

首先是Vision組的反饋。他們在做一些內(nèi)部Benchmark測試時發(fā)現(xiàn),Gemini 3在Real-world Visual Understanding(真實世界視覺理解)上性能反而下降了。這聽起來很反直覺對吧?

具體來說,就是當涉及到安防攝像頭、門鈴這種真實場景,去分析用戶行為、潛在風險事件的時候,它的表現(xiàn)不如上一代。他們?nèi)ゲ榱薌emini 3的技術報告,發(fā)現(xiàn)報告里真正涉及到Real-world Visual Understanding的benchmark只有一個,而且并沒有覆蓋這種復雜場景。

這其實暴露了一個行業(yè)通?。汗馼enchmark和實際落地場景之間存在巨大的Gap。 如果大家都為了刷榜去優(yōu)化模型,那在實際產(chǎn)品中的性能可能會走偏。

另外,Coding組的學生也跟我說,在做Scientific Writing(科學寫作)和輔助編程時,他們反而覺得Gemini 2.5更順手。Gemini 3雖然Reasoning的長度增加了2到3倍,但在處理需要反復多跳(Multi-hop)搜索、整合二十年財報這種極度復雜的任務時,似乎還是不如OpenAI的GPT-5 Pro穩(wěn)定。當然,這可能是早期版本大家還沒摸透Prompt的原因。

02 谷歌技術秘密,是“Deep Thinking”還是“超能力”?

谷歌從落后到追平甚至反超,Gemini項目負責人曾透露秘密在于“改進了預訓練和后訓練”。這句看似官方的回答背后,隱藏著谷歌怎樣的技術路線圖?是算法本身的勝利,還是堆算力的暴力美學?

谷歌DeepMind首席科學家Oriol Vinyals X平臺推文

陳茜:谷歌這次不僅是追趕,簡直是超越。Gemini項目負責人在發(fā)布會中提到了新版本“改進了預訓練和后訓練”,這是否意味著Scaling Law并沒有“撞墻”?谷歌的秘密武器到底是什么?

田淵棟:說實話,“改進了預訓練和后訓練”這句話基本等于廢話(笑)。因為做模型本來就是個系統(tǒng)工程,數(shù)據(jù)更好、架構(gòu)微調(diào)、訓練穩(wěn)定性增強,每一塊都好一點,最后結(jié)果肯定強。

但我更關注的是,如果預訓練做得足夠好,模型本身變得非?!奥斆鳌保撬诤笥柧氹A段就會表現(xiàn)得像個天才學生,給幾個樣本就通了,不需要花大力氣去教?,F(xiàn)在看來Gemini 3的基座能力確實很強。

關于它是不是用了什么秘密武器,我聽到一些傳言,說Google終于把之前訓練流程里的一些Bug給修掉了。當然這是傳言啊,無法證實。不過對于Google這種量級的公司,只要工程上不犯錯,把所有細節(jié)拉滿,Scaling Law自然會發(fā)揮作用。

Gavin Wang,前Meta AI工程師,負責Llama 3后訓練及多模態(tài)推理

Gavin Wang:我昨天試著跟Gemini 3聊了一下,問它“你為什么這么厲害?”(笑)。它跟我剖析了一下,提到了一個概念叫Tree of Thoughts(思維樹)。

以前我們做CoT (Chain of Thoughts) 是線性的,像鏈表一樣一步步推。但Gemini 3似乎在模型內(nèi)部采用了樹狀搜索,并且配合了一個Self-rewarding(自我獎勵)的機制。也就是說,它在內(nèi)部會同時跑多條思路,然后自己有一個打分機制,覺得哪條路不Make sense就Drop掉,哪條路有前途就繼續(xù)Adapt。

這其實是Engineering Wrapper(工程封裝)和Model Science(模型科學)的深度結(jié)合。以前我們要在外面寫Prompt搞這些,現(xiàn)在谷歌把它做進了模型內(nèi)部環(huán)境里。這不僅是Scaling Law在垂直方向的堆料,更是在水平方向上引入了MoE和Search的機制。這讓我想起三年前的GPT時刻,技術上非常Impressive。

Nathan Wang:我補充一個細節(jié),我在查閱Gemini開發(fā)者API文檔時,發(fā)現(xiàn)里面藏了一個彩蛋。它在一行注釋里寫道:"Context Engineering is a way to go.(語境工程是大勢所趨)"

這句話讓我思考了很久。以前我們說Prompt Engineering,現(xiàn)在谷歌提Context Engineering。我自己在使用時的體感是,比如我想寫一條能引起“病毒式傳播”的推文,我會先讓AI去搜索“怎么寫一條火爆的推文”,讓它先把方法論總結(jié)出來,作為Context,然后再把我的內(nèi)容填進去生成。

谷歌似乎把這個過程自動化了。它在模型生成答案之前,可能已經(jīng)在后臺自動抓取了大量相關的Context,構(gòu)建了一個極其豐富的思維鏈環(huán)境,然后再生成結(jié)果。這可能就是為什么它用起來覺得“懂你”的原因。它不僅僅是在回答,而是在一個engineered environment(工程環(huán)境)里思考。

陳羽北:除了算法層面,我想提一個更底層的經(jīng)濟學視角。我的朋友Brian Cheng提過一個觀點,我認為非常切中要害:谷歌之所以能如此堅決、徹底地執(zhí)行Scaling Law,是因為它擁有無法比擬的硬件優(yōu)勢——TPU。

大家想一下,如果其他公司要訓練大模型,必須買NVIDIA的顯卡。NVIDIA的硬件利潤率高達70%以上。但谷歌不同,它是完全的軟硬件整合。它用自己的 TPU,沒有中間商賺差價。這讓它的Unit Economy(單位經(jīng)濟模型) 極其優(yōu)秀。在同樣的預算下,谷歌可以訓練更大的模型、跑更多的數(shù)據(jù)、做更昂貴的多模態(tài)實驗。

所以,只要Scaling Law還需要堆算力,谷歌這種硬件上的不對稱優(yōu)勢就會對OpenAI和Anthropic形成巨大的擠壓。除非NVIDIA降價,或者其他家也造出自己的芯片,否則這個護城河非常深。

03 開發(fā)者生態(tài),Coding之爭結(jié)束了嗎?

隨著Gemini 3和AntiGravity的發(fā)布,以及其在SWE-bench等代碼榜單上的屠榜,社交媒體上出現(xiàn)了“Coding之爭已結(jié)束”的言論。谷歌是否正在利用其龐大的生態(tài)系統(tǒng)(Chrome, Android, Cloud)構(gòu)建一條讓Cursor等創(chuàng)業(yè)公司無法逾越的護城河?

陳茜:很多人說Coding之爭已經(jīng)結(jié)束了,Gemini 3配合谷歌全家桶將橫掃一切。這對Cursor等等這樣的創(chuàng)業(yè)公司意味著什么?

Gavin Wang:我覺得谷歌這次確實有點“降維打擊”的意思。AntiGravity直接對標Codex加Cursor,而且它因為擁有Chrome的底層權(quán)限,可以做到視覺與代碼的完美對齊。

現(xiàn)在的體驗是,AI一邊看著網(wǎng)頁(視覺),一邊幫你改代碼,這種Multimodal Native(多模態(tài)原生)的體驗是Next Level的。相比之下,F(xiàn)igma或Cursor目前還更像是一個Chatbot。如果谷歌把Chrome、Cloud、IDE全部打通,對于創(chuàng)業(yè)公司來說,這確實很難受。

但這也催生了新的機會。比如Palantir 提出的Forward Deployed Engineer(前置部署工程師)概念。未來的工程師可能不再只是寫代碼,而是打通從商業(yè)化、產(chǎn)品定義(PM)到前后端開發(fā)的全鏈路。既然基模能力水漲船高,我們應該造一艘“小船”,站在巨人的肩膀上創(chuàng)造價值,而不是去卷基模已經(jīng)能做的事。

就像Nathan說的,Web Coding這種簡單的前端工作可能會被谷歌包圓,但這就逼著我們?nèi)ふ倚碌腂usiness Model和Product Shape(產(chǎn)品形態(tài))。

Nathan Wang,資深AI開發(fā)者、硅谷101特約研究員

Nathan Wang:我覺得說“結(jié)束”還言之過早。AntiGravity確實強,但我發(fā)現(xiàn)在實際使用中,它在處理后端(Backend)部署、復雜的系統(tǒng)架構(gòu)時,依然很容易卡住。

比如我在用Browser use上傳文件做測試時,它經(jīng)常會停在那兒,需要我去干預。它目前更像是一個極其強大的前端生成器。而且,對于很多企業(yè)來說,把代碼全部交給谷歌的生態(tài)系統(tǒng),在數(shù)據(jù)隱私上也是有顧慮的。Cursor這種獨立廠商依然有它的生存空間,特別是它在靈活性和特定語言優(yōu)化上。

田淵棟:對,我也覺得網(wǎng)上的Demo有點誤導性。現(xiàn)在的Demo很多是一鍵生成酷炫的前端頁面,大家看的是“漂亮程度”和“完整性”。

但真正寫Code的人,關注的是Instruction Following(指令遵循)。比如我要把這段代碼的邏輯稍微改一點點,或者我要處理一個非?,嵥榈腃orner Case(邊緣情況),模型能不能聽懂?能不能改對?

我試過讓它寫一個3D第一人稱射擊游戲。它確實寫出來了,畫面也不錯,但我一跑發(fā)現(xiàn)——方向鍵是反的。這種小Bug看起來不礙事,但在大規(guī)模工程里就是災難。所以對于專業(yè)程序員來說,它目前還是一個能夠降低門檻的輔助工具,而不是替代者。

04 后LLM時代,AI是否“綁架”了美國GDP?

盡管谷歌證明了Scaling Law依然有力,但硅谷的目光已經(jīng)投向了更遠的地方。近期,一批被稱為“NeoLab”的非主流AI實驗室(如Reflection AI、Periodic Labs)受到風投追捧,融資額都非常高。在LLM之外,AI的下一個范式轉(zhuǎn)移將在哪里發(fā)生?

來源:The Information

陳茜:除了Scaling Law,大家看到什么非主流的、值得關注的AI發(fā)展趨勢?特別是像NeoLab們所關注的那些領域。

田淵棟:我一直以來的觀點是:Scaling Law是一個很有用的工程規(guī)律,但如果不去探索本質(zhì),我們總有一天會面臨資源枯竭。難道我們真的要把整個地球變成一塊巨大的顯卡嗎?如果算力需求是指數(shù)增長,而地球資源是有限的,這條路終究走不通。

所以我一直堅持做AI的可解釋性(Interpretability)和 頓悟(Grokking)機制的研究。我相信一個如此高效的神經(jīng)網(wǎng)絡,背后一定有一個優(yōu)美的數(shù)學內(nèi)核。如果我們能從First Principle(第一性原理)出發(fā),理解它是如何產(chǎn)生涌現(xiàn)(Emergence)的,也許有一天我們會發(fā)現(xiàn),根本不需要梯度下降(Gradient Descent),就能找到更好的算法。

另外,我也在用AI加速我的研究。比如最近是ICML的Rebuttal(同行評審中的反駁/辯護過程)期間,我有個新想法,直接丟給Cursor,3分鐘代碼寫完,圖畫出來,我馬上就能驗證這個Idea行不行。這種效率提升成百上千倍,這本身也會加速我們對AI本質(zhì)的探索。

陳羽北:我非常同意淵棟學長的觀點。如果Scaling Law是唯一的定律,那人類的未來太悲觀了。我們既沒有那么多電,以后數(shù)據(jù)也都交給AI了,那人類除了當寵物還有什么價值?

我觀察到自然界有一個悖論,這可能是一個突破口:越高級的智能,其實越依賴學習,但所需的數(shù)據(jù)卻越少。

你看人類小孩,在13歲之前,他接觸到的所有Token(語言數(shù)據(jù)),加起來可能不到10Billion(100億)。相比現(xiàn)在大模型動不動幾Trillion的數(shù)據(jù)訓練量,人類的數(shù)據(jù)效率是極高的。但人類的大腦結(jié)構(gòu)非常復雜(上千億神經(jīng)元)。所以,大模型未必大在數(shù)據(jù),可能應該大在架構(gòu)。

我覺得我們現(xiàn)在的LLM更像是在Distill our existing civilization(蒸餾我們現(xiàn)有的文明),把它壓縮得更好一點。但我希望未來的AI,比如Robotics(機器人)或者World Model(世界模型),能夠像生物一樣去探索未知,Invent a new civilization(發(fā)明新的文明)。這需要我們這些Researcher去做一些看起來 "Weird"(怪異)或者 "Crazy" 的研究,去尋找Scaling Law之外的第二條曲線。

Gavin Wang:順著羽北的話說,我覺得World Model(世界模型)絕對是下一個戰(zhàn)場。

現(xiàn)在的LLM還是純語言維度的。但真正的世界模型,是要能理解物理規(guī)律的。目前主要有三條路線:一是像Genie 3這種Video-based的,雖然是2D視頻但模擬3D世界;二是Mesh/Physics-based的,帶有物理碰撞體積;三是像李飛飛老師團隊做的Gaussian Splatting(高斯?jié)姙R),用點云來表征空間。

另外,我特別想呼吁大家關注Open Source(開源)和Small Language Models(端側(cè)小模型)。

現(xiàn)在的智能其實被“囚禁”在GPU Data Center里。普通人要用智能,得付費買 API,這就像我們還要給空氣付費一樣。這其實是一種Digital Centralization(數(shù)字集權(quán))。

如果端側(cè)小模型能發(fā)展起來,讓每個人在自己的手機、電腦上就能跑得動高性能的 AI,不需要聯(lián)網(wǎng),不需要付昂貴的訂閱費,這才是真正的AI for Everyone。這也需要我們在模型架構(gòu)上做很多優(yōu)化,而不僅僅是堆顯卡。

05 泡沫還是奇點?

Gemini 3的發(fā)布,某種程度上是Google對“AI泡沫論”的一次強力回擊。它證明了只要有足夠的算力、數(shù)據(jù)和工程優(yōu)化,Scaling Law仍有巨大的紅利可吃。

然而,今天直播中很多嘉賓們的觀點,也都在指出單純的Scaling并不是通向AGI的唯一路徑。

今天我們的直播,其實我們不僅想聊聊Gemini 3發(fā)布下的谷歌“技術秀肌肉”,還有來自硅谷一線的、冷靜而深刻的思考。Gemini 3暫時領先了現(xiàn)在的戰(zhàn)役,這對谷歌來說是重要的一個里程碑;但AI的大戰(zhàn)役,才剛剛開始。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。