文|AI大模型工場 西梅汁
編輯|星奈
過去,AI 行業(yè)的關注點幾乎都集中在大語言模型上:從 ChatGPT 引爆全球,到國內外大廠紛紛追趕,參數(shù)規(guī)模、功能體驗不斷拉高。但隨著同質化加劇,行業(yè)開始面臨一個問題,語言模型之外,下一個真正高門檻、能構筑護城河的方向在哪里?
近期的答案似乎逐漸浮出水面:世界模型。在短短一個月里,谷歌 DeepMind、昆侖萬維、騰訊先后亮出最新成果,把“理解語言”拓展為“理解世界”。這種同步動作背后,既是技術演進的自然結果,也是產(chǎn)業(yè)競爭的戰(zhàn)略選擇。
01 谷歌、昆侖萬維與騰訊的“世界模型月”
“世界模型”領域正變得熱鬧起來。
8 月 5 日,谷歌 DeepMind 發(fā)布了第三代世界模型 Genie 3,這是首個支持實時交互的世界模型。用戶只需要輸入文本提示,Genie 3 就能以每秒 24 幀的速度,實時生成一個可以自由探索的動態(tài)世界。比如輸入“一片海邊的黃昏,有小船和海鷗,可以走動觀看。”

此前的世界模型,雖然也能生成場景,但大多是靜態(tài)的,或者只能支持短時間的交互。Genie 3 則將單次交互時長從幾十秒延長到數(shù)分鐘,并加入了 “可提示的世界事件” 和 “視覺記憶” 等關鍵特性。用戶在場景里留下的痕跡,比如涂鴉、移動的家具等,都會被保留下來,極大提升了真實感。
在發(fā)布 Genie 3 的同時,在發(fā)布 Genie 3 的同時,谷歌強調了其在機器人訓練、自動駕駛仿真等領域的潛在價值,并指出這類世界模型可為 AI 智能體提供虛擬環(huán)境進行學習和交互,谷歌希望借此構建一個大規(guī)模的智能體訓練平臺。
僅僅一周之后,昆侖萬維也推出了自己的世界模型 Matrix Game 2.0。與 Genie 3 相比,Matrix Game 2.0 的最大亮點在于全面開源,開發(fā)者可以直接將其集成到自己的項目中。昆侖萬維稱,這是業(yè)內首個在通用場景中實現(xiàn)實時長序列交互生成的開源世界模型。

Matrix Game 2.0 的性能也十分出色,能夠以 25FPS 的速度,在多種復雜場景中穩(wěn)定生成連續(xù)視頻內容,生成時長可擴展至分鐘級。用戶可以通過簡單指令,自由探索、操控并實時構建虛擬環(huán)境。
比如輸入:“一座漂浮的島嶼上有瀑布和小屋,夜空中繁星與行星閃耀,整體采用動漫風格,細節(jié)豐富,色彩鮮艷,營造出充滿魔法氣息的氛圍”。
模型就能生成 25fps 的流暢畫面,你用鍵盤操作角色時,它會做出符合物理邏輯的反應,比如繞開障礙、跨越臺階,而不是隨機跳動。技術上,它結合了 3D 因果 VAE 與擴散 Transformer,并用 GTA5 與 Unreal Engine 搭建了 1350 小時交互視頻數(shù)據(jù)集,保證了動作的合理性和場景的多樣性。更重要的是,它在 8 月份開源,意味著研究者和開發(fā)者可以直接調用,在 VR、影視、甚至元宇宙內容創(chuàng)作中探索落地。
還有,在 2025 年 WAIC 上,騰訊正式發(fā)布并開源了混元 3D 世界模型 1.0(HunyuanWorld-1.0)。它是業(yè)內首個同時具備 沉浸漫游、交互和物理仿真 能力的開源 3D 世界生成模型。
該模型融合了全景視覺生成與分層 3D 重建技術,支持文本或圖像輸入,可在幾分鐘內生成高質量、風格多樣的 360° 虛擬場景。生成的世界支持對象級解耦與交互,并能導出標準 3D Mesh 格式,兼容 Unity、Unreal Engine、Blender 等主流工具,從而滿足 游戲、虛擬演出、沉浸式社交及科研仿真的應用需求。
混元 3D 世界模型的推出與騰訊在游戲和虛擬內容上的業(yè)務積累高度相關。在未來的應用中,它可能被用于構建沉浸式場景、虛擬演出或互動社交環(huán)境。比如輸入:“一間日式風格的木屋,內部擺放茶具,可以從室外走進室內。

模型會生成一個 360° 可探索的空間,不僅能圍繞木屋,還能看到其內部,與茶具互動。它通過“分層 3D 重建”技術,既保證了全景一致性,又支持對象級別的交互,而且生成的場景可直接導入主流 3D 引擎,快速轉化為標準化資產(chǎn)。在7月正式開源后,8月中旬騰訊又推出了 Lite 版,讓消費級顯卡也能運行,顯示出其擴大開發(fā)者生態(tài)的意圖。
02 從語言到世界
世界模型為何會在此時成為“大廠必爭之地”?
從技術邏輯看,LLM賽道已經(jīng)高度內卷。近年來,幾乎所有主流大廠都推出了百億、千億參數(shù)的語言模型,功能趨同,差異化有限。即便是ChatGPT、Claude、文心、通義、Kimi等產(chǎn)品,在文本問答、寫作輔助上的體驗差距逐漸縮小。行業(yè)迫切需要一個更高壁壘的方向。而三維環(huán)境推理、物理世界建模,正是這種“更高門檻”。
所謂“世界模型”,核心是讓AI不僅能理解靜態(tài)的數(shù)據(jù),還能模擬現(xiàn)實世界的動態(tài)過程。它既包含對空間、物體、人物的建模,也涉及因果關系和物理規(guī)律的學習。DeepMind在2023年就提出,世界模型是實現(xiàn)具身智能的前提,因為機器人必須在腦中“預測下一秒會發(fā)生什么”,才能做出正確動作。
當然,推動這一方向走向前臺的,可能還有現(xiàn)實的產(chǎn)業(yè)需求。
在機器人領域,真實環(huán)境下的訓練成本極高。一臺機械臂學習“抓起物體”的任務,可能需要上千次失敗實驗。世界模型提供虛擬環(huán)境,讓機器人先在仿真里試錯,再遷移到現(xiàn)實,大幅降低成本。
在自動駕駛場景,復雜路況和長尾情況是研發(fā)難點。世界模型可以生成各種極端天氣、復雜交通的虛擬場景,用于補充真實道路數(shù)據(jù)。特斯拉在 2024 年披露,其 FSD 系統(tǒng)每天生成數(shù)十億公里虛擬駕駛數(shù)據(jù),仿真平臺已成為必要環(huán)節(jié)。
在游戲行業(yè),AI 原生游戲的探索正在進行。傳統(tǒng)游戲依賴人工設計關卡和劇情,而世界模型可以通過自然語言提示生成場景、角色和交互。Matrix Game 就是這一方向的代表。對開發(fā)者而言,這意味著開發(fā)周期縮短,對玩家而言,則可能獲得更具開放性的體驗。
影視、虛擬現(xiàn)實、元宇宙 等領域,也開始嘗試用世界模型生成大規(guī)模動態(tài)場景。
對大廠來說,這不僅是應用驅動,也是壁壘所在。訓練一個高保真世界模型的算力消耗,往往是比同規(guī)模語言模型高的。高質量三維動態(tài)數(shù)據(jù)遠比文本、圖像稀缺。英偉達 Cosmos 的參數(shù)規(guī)模雖只有 14B,但使用了 2000 萬小時真實世界交互和工業(yè)數(shù)據(jù)。資源門檻和技術復雜度,讓世界模型成為大廠優(yōu)勢能夠發(fā)揮的方向。
總的來看,三家公司切入點各不相同:
DeepMind 更偏科研導向,把 Genie 與智能體框架 AgentWorlds 結合,用于大規(guī)模訓練。
而昆侖萬維依托游戲業(yè)務,主攻“AI原生游戲”,并借開源吸引開發(fā)者。
騰訊則強調工具化,結合游戲、社交生態(tài),未來可能擴展到機器人研究。
不同路徑背后,是相似的邏輯:在語言模型趨同之后,尋找新的高門檻賽道。
03 長期豪賭,長線博弈
世界模型距離大規(guī)模落地還有不短的距離。
即使是DeepMind、騰訊這樣的公司,也承認訓練 Genie 3、混元 3D 的資源消耗巨大。DeepMind在論文里指出,Genie 3 在復雜場景下的穩(wěn)定性仍有限。騰訊則表示,混元 3D 的訓練成本相當于兩套大語言模型。
三維動態(tài)數(shù)據(jù)難以獲取。大多數(shù)團隊依賴合成或引擎生成,但能否無縫遷移到現(xiàn)實,仍是未知數(shù)。OpenAI Robotics 的研究就發(fā)現(xiàn),虛擬環(huán)境里的表現(xiàn)往往無法直接映射到真實機器人。
當前產(chǎn)品多為演示或實驗性。Matrix Game 2.0 能生成任務和角色,但仍遠未形成規(guī)模化用戶市場。自動駕駛仿真仍需真實道路補充。機器人在虛擬環(huán)境學到的技能,遷移成功率有限。
這些不確定性,決定了世界模型是一場高投入、長周期的豪賭。研發(fā)一個中等規(guī)模世界模型,每年投入可能高達數(shù)億美元。但對大廠而言,風險在于不下注。若未來十年,機器人、自動駕駛、虛擬世界確實以世界模型為基礎,那么提前缺席意味著失去定義入口的機會。
因此我們看到,谷歌、昆侖萬維、騰訊幾乎在同一時間亮相。這未必意味著立刻能帶來收入,但已經(jīng)成為它們戰(zhàn)略敘事的一部分。
在行業(yè)中,世界模型也頻繁被提到。英偉達 CEO 黃仁勛在今年演講中說:“世界模型是 AI 下一步的核心,不僅要理解語言,還要理解世界?!敝袊こ淘涸菏繌垇喦谌ツ暝谡搲弦仓赋觯澜缒P涂赡艹蔀檫B接虛擬與現(xiàn)實的關鍵技術之一。
未來幾年,其余廠商是否會加入競爭仍待觀察。但可以確認的是,世界模型已經(jīng)從研究概念,進入大廠的資源清單。
高算力成本、數(shù)據(jù)難題、應用落地的不確定性,決定了它短期內不會成為“下一個 ChatGPT”。但也正因如此,它成了大廠不能缺席的方向。
這是一場長期博弈:結果如何,取決于技術和市場的共同演化。無論它是否會成為未來的關鍵基礎設施,大廠們已經(jīng)在下注。

