文|AI大模型工場 西梅汁
編輯|星奈
過去,AI 行業(yè)的關(guān)注點(diǎn)幾乎都集中在大語言模型上:從 ChatGPT 引爆全球,到國內(nèi)外大廠紛紛追趕,參數(shù)規(guī)模、功能體驗(yàn)不斷拉高。但隨著同質(zhì)化加劇,行業(yè)開始面臨一個問題,語言模型之外,下一個真正高門檻、能構(gòu)筑護(hù)城河的方向在哪里?
近期的答案似乎逐漸浮出水面:世界模型。在短短一個月里,谷歌 DeepMind、昆侖萬維、騰訊先后亮出最新成果,把“理解語言”拓展為“理解世界”。這種同步動作背后,既是技術(shù)演進(jìn)的自然結(jié)果,也是產(chǎn)業(yè)競爭的戰(zhàn)略選擇。
01 谷歌、昆侖萬維與騰訊的“世界模型月”
“世界模型”領(lǐng)域正變得熱鬧起來。
8 月 5 日,谷歌 DeepMind 發(fā)布了第三代世界模型 Genie 3,這是首個支持實(shí)時(shí)交互的世界模型。用戶只需要輸入文本提示,Genie 3 就能以每秒 24 幀的速度,實(shí)時(shí)生成一個可以自由探索的動態(tài)世界。比如輸入“一片海邊的黃昏,有小船和海鷗,可以走動觀看?!?/p>

此前的世界模型,雖然也能生成場景,但大多是靜態(tài)的,或者只能支持短時(shí)間的交互。Genie 3 則將單次交互時(shí)長從幾十秒延長到數(shù)分鐘,并加入了 “可提示的世界事件” 和 “視覺記憶” 等關(guān)鍵特性。用戶在場景里留下的痕跡,比如涂鴉、移動的家具等,都會被保留下來,極大提升了真實(shí)感。
在發(fā)布 Genie 3 的同時(shí),在發(fā)布 Genie 3 的同時(shí),谷歌強(qiáng)調(diào)了其在機(jī)器人訓(xùn)練、自動駕駛仿真等領(lǐng)域的潛在價(jià)值,并指出這類世界模型可為 AI 智能體提供虛擬環(huán)境進(jìn)行學(xué)習(xí)和交互,谷歌希望借此構(gòu)建一個大規(guī)模的智能體訓(xùn)練平臺。
僅僅一周之后,昆侖萬維也推出了自己的世界模型 Matrix Game 2.0。與 Genie 3 相比,Matrix Game 2.0 的最大亮點(diǎn)在于全面開源,開發(fā)者可以直接將其集成到自己的項(xiàng)目中。昆侖萬維稱,這是業(yè)內(nèi)首個在通用場景中實(shí)現(xiàn)實(shí)時(shí)長序列交互生成的開源世界模型。

Matrix Game 2.0 的性能也十分出色,能夠以 25FPS 的速度,在多種復(fù)雜場景中穩(wěn)定生成連續(xù)視頻內(nèi)容,生成時(shí)長可擴(kuò)展至分鐘級。用戶可以通過簡單指令,自由探索、操控并實(shí)時(shí)構(gòu)建虛擬環(huán)境。
比如輸入:“一座漂浮的島嶼上有瀑布和小屋,夜空中繁星與行星閃耀,整體采用動漫風(fēng)格,細(xì)節(jié)豐富,色彩鮮艷,營造出充滿魔法氣息的氛圍”。
模型就能生成 25fps 的流暢畫面,你用鍵盤操作角色時(shí),它會做出符合物理邏輯的反應(yīng),比如繞開障礙、跨越臺階,而不是隨機(jī)跳動。技術(shù)上,它結(jié)合了 3D 因果 VAE 與擴(kuò)散 Transformer,并用 GTA5 與 Unreal Engine 搭建了 1350 小時(shí)交互視頻數(shù)據(jù)集,保證了動作的合理性和場景的多樣性。更重要的是,它在 8 月份開源,意味著研究者和開發(fā)者可以直接調(diào)用,在 VR、影視、甚至元宇宙內(nèi)容創(chuàng)作中探索落地。
還有,在 2025 年 WAIC 上,騰訊正式發(fā)布并開源了混元 3D 世界模型 1.0(HunyuanWorld-1.0)。它是業(yè)內(nèi)首個同時(shí)具備 沉浸漫游、交互和物理仿真 能力的開源 3D 世界生成模型。
該模型融合了全景視覺生成與分層 3D 重建技術(shù),支持文本或圖像輸入,可在幾分鐘內(nèi)生成高質(zhì)量、風(fēng)格多樣的 360° 虛擬場景。生成的世界支持對象級解耦與交互,并能導(dǎo)出標(biāo)準(zhǔn) 3D Mesh 格式,兼容 Unity、Unreal Engine、Blender 等主流工具,從而滿足 游戲、虛擬演出、沉浸式社交及科研仿真的應(yīng)用需求。
混元 3D 世界模型的推出與騰訊在游戲和虛擬內(nèi)容上的業(yè)務(wù)積累高度相關(guān)。在未來的應(yīng)用中,它可能被用于構(gòu)建沉浸式場景、虛擬演出或互動社交環(huán)境。比如輸入:“一間日式風(fēng)格的木屋,內(nèi)部擺放茶具,可以從室外走進(jìn)室內(nèi)。

模型會生成一個 360° 可探索的空間,不僅能圍繞木屋,還能看到其內(nèi)部,與茶具互動。它通過“分層 3D 重建”技術(shù),既保證了全景一致性,又支持對象級別的交互,而且生成的場景可直接導(dǎo)入主流 3D 引擎,快速轉(zhuǎn)化為標(biāo)準(zhǔn)化資產(chǎn)。在7月正式開源后,8月中旬騰訊又推出了 Lite 版,讓消費(fèi)級顯卡也能運(yùn)行,顯示出其擴(kuò)大開發(fā)者生態(tài)的意圖。
02 從語言到世界
世界模型為何會在此時(shí)成為“大廠必爭之地”?
從技術(shù)邏輯看,LLM賽道已經(jīng)高度內(nèi)卷。近年來,幾乎所有主流大廠都推出了百億、千億參數(shù)的語言模型,功能趨同,差異化有限。即便是ChatGPT、Claude、文心、通義、Kimi等產(chǎn)品,在文本問答、寫作輔助上的體驗(yàn)差距逐漸縮小。行業(yè)迫切需要一個更高壁壘的方向。而三維環(huán)境推理、物理世界建模,正是這種“更高門檻”。
所謂“世界模型”,核心是讓AI不僅能理解靜態(tài)的數(shù)據(jù),還能模擬現(xiàn)實(shí)世界的動態(tài)過程。它既包含對空間、物體、人物的建模,也涉及因果關(guān)系和物理規(guī)律的學(xué)習(xí)。DeepMind在2023年就提出,世界模型是實(shí)現(xiàn)具身智能的前提,因?yàn)闄C(jī)器人必須在腦中“預(yù)測下一秒會發(fā)生什么”,才能做出正確動作。
當(dāng)然,推動這一方向走向前臺的,可能還有現(xiàn)實(shí)的產(chǎn)業(yè)需求。
在機(jī)器人領(lǐng)域,真實(shí)環(huán)境下的訓(xùn)練成本極高。一臺機(jī)械臂學(xué)習(xí)“抓起物體”的任務(wù),可能需要上千次失敗實(shí)驗(yàn)。世界模型提供虛擬環(huán)境,讓機(jī)器人先在仿真里試錯,再遷移到現(xiàn)實(shí),大幅降低成本。
在自動駕駛場景,復(fù)雜路況和長尾情況是研發(fā)難點(diǎn)。世界模型可以生成各種極端天氣、復(fù)雜交通的虛擬場景,用于補(bǔ)充真實(shí)道路數(shù)據(jù)。特斯拉在 2024 年披露,其 FSD 系統(tǒng)每天生成數(shù)十億公里虛擬駕駛數(shù)據(jù),仿真平臺已成為必要環(huán)節(jié)。
在游戲行業(yè),AI 原生游戲的探索正在進(jìn)行。傳統(tǒng)游戲依賴人工設(shè)計(jì)關(guān)卡和劇情,而世界模型可以通過自然語言提示生成場景、角色和交互。Matrix Game 就是這一方向的代表。對開發(fā)者而言,這意味著開發(fā)周期縮短,對玩家而言,則可能獲得更具開放性的體驗(yàn)。
影視、虛擬現(xiàn)實(shí)、元宇宙 等領(lǐng)域,也開始嘗試用世界模型生成大規(guī)模動態(tài)場景。
對大廠來說,這不僅是應(yīng)用驅(qū)動,也是壁壘所在。訓(xùn)練一個高保真世界模型的算力消耗,往往是比同規(guī)模語言模型高的。高質(zhì)量三維動態(tài)數(shù)據(jù)遠(yuǎn)比文本、圖像稀缺。英偉達(dá) Cosmos 的參數(shù)規(guī)模雖只有 14B,但使用了 2000 萬小時(shí)真實(shí)世界交互和工業(yè)數(shù)據(jù)。資源門檻和技術(shù)復(fù)雜度,讓世界模型成為大廠優(yōu)勢能夠發(fā)揮的方向。
總的來看,三家公司切入點(diǎn)各不相同:
DeepMind 更偏科研導(dǎo)向,把 Genie 與智能體框架 AgentWorlds 結(jié)合,用于大規(guī)模訓(xùn)練。
而昆侖萬維依托游戲業(yè)務(wù),主攻“AI原生游戲”,并借開源吸引開發(fā)者。
騰訊則強(qiáng)調(diào)工具化,結(jié)合游戲、社交生態(tài),未來可能擴(kuò)展到機(jī)器人研究。
不同路徑背后,是相似的邏輯:在語言模型趨同之后,尋找新的高門檻賽道。
03 長期豪賭,長線博弈
世界模型距離大規(guī)模落地還有不短的距離。
即使是DeepMind、騰訊這樣的公司,也承認(rèn)訓(xùn)練 Genie 3、混元 3D 的資源消耗巨大。DeepMind在論文里指出,Genie 3 在復(fù)雜場景下的穩(wěn)定性仍有限。騰訊則表示,混元 3D 的訓(xùn)練成本相當(dāng)于兩套大語言模型。
三維動態(tài)數(shù)據(jù)難以獲取。大多數(shù)團(tuán)隊(duì)依賴合成或引擎生成,但能否無縫遷移到現(xiàn)實(shí),仍是未知數(shù)。OpenAI Robotics 的研究就發(fā)現(xiàn),虛擬環(huán)境里的表現(xiàn)往往無法直接映射到真實(shí)機(jī)器人。
當(dāng)前產(chǎn)品多為演示或?qū)嶒?yàn)性。Matrix Game 2.0 能生成任務(wù)和角色,但仍遠(yuǎn)未形成規(guī)?;脩羰袌?。自動駕駛仿真仍需真實(shí)道路補(bǔ)充。機(jī)器人在虛擬環(huán)境學(xué)到的技能,遷移成功率有限。
這些不確定性,決定了世界模型是一場高投入、長周期的豪賭。研發(fā)一個中等規(guī)模世界模型,每年投入可能高達(dá)數(shù)億美元。但對大廠而言,風(fēng)險(xiǎn)在于不下注。若未來十年,機(jī)器人、自動駕駛、虛擬世界確實(shí)以世界模型為基礎(chǔ),那么提前缺席意味著失去定義入口的機(jī)會。
因此我們看到,谷歌、昆侖萬維、騰訊幾乎在同一時(shí)間亮相。這未必意味著立刻能帶來收入,但已經(jīng)成為它們戰(zhàn)略敘事的一部分。
在行業(yè)中,世界模型也頻繁被提到。英偉達(dá) CEO 黃仁勛在今年演講中說:“世界模型是 AI 下一步的核心,不僅要理解語言,還要理解世界?!敝袊こ淘涸菏繌垇喦谌ツ暝谡搲弦仓赋觯澜缒P涂赡艹蔀檫B接虛擬與現(xiàn)實(shí)的關(guān)鍵技術(shù)之一。
未來幾年,其余廠商是否會加入競爭仍待觀察。但可以確認(rèn)的是,世界模型已經(jīng)從研究概念,進(jìn)入大廠的資源清單。
高算力成本、數(shù)據(jù)難題、應(yīng)用落地的不確定性,決定了它短期內(nèi)不會成為“下一個 ChatGPT”。但也正因如此,它成了大廠不能缺席的方向。
這是一場長期博弈:結(jié)果如何,取決于技術(shù)和市場的共同演化。無論它是否會成為未來的關(guān)鍵基礎(chǔ)設(shè)施,大廠們已經(jīng)在下注。

