四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

正在閱讀:

世界模型崛起,AI路線之爭喧囂再起

掃一掃下載界面新聞APP

世界模型崛起,AI路線之爭喧囂再起

AI的未來或許正系于此。

文|極智GeeTech

人類大腦中未被破譯的進(jìn)化密碼,AI的未來或許正系于此。

近日,圖靈獎得主、Meta首席AI科學(xué)家楊立昆(Yann LeCun)被曝將離職創(chuàng)業(yè),將以“世界模型”(World Models)為技術(shù)核心,延續(xù)其深耕多年的探索方向,這一動作迅速引發(fā)全球AI圈的關(guān)注。

“AI教母”李飛飛在自己的社交平臺發(fā)布萬字長文,直指當(dāng)下大語言模型(LLM)的算力穹頂與認(rèn)知局限。她提出,AI 的未來不在于模型參數(shù)的無限擴(kuò)容,而在于植入 “空間智能”(Spatial Intelligence)—— 這種人類先天具備、嬰兒階段即覺醒的基礎(chǔ)認(rèn)知能力,才是通往通用人工智能(AGI)的必經(jīng)之路。

與此同時,李飛飛創(chuàng)立的 World Labs于11月13日推出首款產(chǎn)品Marble,以多模態(tài)世界模型為核心引擎,可從單張圖像、視頻片段或文本描述中,生成具備持久性的三維數(shù)字孿生空間,為空間智能搭建起關(guān)鍵的三維認(rèn)知基座。

當(dāng)AI從純虛擬語境切入物理現(xiàn)實維度,現(xiàn)實世界的復(fù)雜約束與動態(tài)交互,正呼喚一套顛覆性的認(rèn)知模型破局。

一場關(guān)于AI本質(zhì)的路線分歧

Yann LeCun在Meta任職12年,其技術(shù)愿景與扎克伯格主導(dǎo)的大語言模型路徑存在分歧已不是秘密。

他曾公開表示:“大語言模型永遠(yuǎn)無法實現(xiàn)人類推理能力?!边@句話直指AI發(fā)展的核心矛盾:究竟該用文本數(shù)據(jù)訓(xùn)練出更會聊天的機(jī)器,還是讓AI像嬰兒一樣通過視覺觀察學(xué)習(xí)物理規(guī)律?

一直以來,大語言模型受制于數(shù)據(jù)質(zhì)量和數(shù)據(jù)規(guī)模,其認(rèn)知邊界始終被訓(xùn)練數(shù)據(jù)的“無形圍墻”所束縛。

數(shù)據(jù)偏見會固化模型的認(rèn)知偏差,噪聲數(shù)據(jù)直接稀釋推理精度,而時效性滯后則讓模型困于“信息時差”,難以捕捉現(xiàn)實世界的動態(tài)演進(jìn)。即便持續(xù)擴(kuò)容數(shù)據(jù)規(guī)模,參數(shù)堆砌也逐漸陷入“規(guī)模魔咒”,算力消耗與效果增益呈現(xiàn)非線性失衡,邊際效益持續(xù)遞減。

更核心的桎梏在于,大語言模型的認(rèn)知局限于文本符號的線性關(guān)聯(lián),缺乏對物理世界的三維空間建模能力與動態(tài)因果推理能力。它無法精準(zhǔn)映射現(xiàn)實世界的空間拓?fù)洹⑽矬w屬性與運動規(guī)律,也難以理解“行動-反饋”的實時交互邏輯,導(dǎo)致在跨場景落地時頻繁出現(xiàn)認(rèn)知斷層。

Yann LeCun比如無法通過文本描述精準(zhǔn)還原立體場景,亦不能基于現(xiàn)實約束做出符合物理常識的決策。

這種依賴文本數(shù)據(jù)喂養(yǎng)的模式,終究難以突破“符號牢籠”,無法復(fù)刻人類從具象體驗中提煉抽象知識的認(rèn)知路徑。

當(dāng)AI需要從虛擬交互走向物理世界的實際應(yīng)用,從單一任務(wù)響應(yīng)升級為復(fù)雜場景的自主決策,純文本驅(qū)動的模型架構(gòu)已難以承載通用人工智能的進(jìn)化需求,唯有跳出數(shù)據(jù)規(guī)模競賽,轉(zhuǎn)向?qū)κ澜绫举|(zhì)的結(jié)構(gòu)化理解,才能開啟下一段技術(shù)躍遷。

“世界模型派”普遍認(rèn)為,大語言模型存在根本局限。李飛飛強調(diào),語言是人類為交流創(chuàng)造的抽象信號,自然界本無文字,AI若僅依賴文本,無法真正理解物理世界規(guī)律,易淪為“黑暗中的文字大師”。

Yann LeCun多次批評大語言模型僅為強大文本數(shù)據(jù)庫,缺乏對現(xiàn)實世界的理解能力。世界模型則致力于通過高維感知數(shù)據(jù)直接建模,繞開語言轉(zhuǎn)換,在潛空間內(nèi)推演物理規(guī)律,并輸出行動指令,實現(xiàn)對環(huán)境的內(nèi)在理解與主動推理。

就像人類嬰兒不需要閱讀百科全書就能理解重力——他們通過眼睛觀察杯子墜落,用手觸摸桌面來建立物理世界的認(rèn)知。這正是LeCun推崇世界模型的關(guān)鍵:動態(tài)視頻數(shù)據(jù)包含的時空信息,遠(yuǎn)比抽象文本更接近智能的本質(zhì)。

比如球撞倒積木的瞬間,既包含材質(zhì)硬度信息,也隱藏著力學(xué)規(guī)律。而大語言模型從維基百科學(xué)到的“牛頓定律”,不過是符號的統(tǒng)計關(guān)聯(lián)。MIT的研究更證明,大腦處理空間認(rèn)知時會激活特定神經(jīng)網(wǎng)絡(luò)——這種生物本能,正是當(dāng)前純文本AI缺失的底層能力。

“Word Models”一詞最早出現(xiàn)在2018年Jurgen在機(jī)器學(xué)習(xí)頂會NeurPS上發(fā)表的一篇名為《Recurrent World Models Facilitate Policy Evolution》的文章中,文章以認(rèn)知科學(xué)中人腦的心智模型(Mental Model)來類比世界模型,認(rèn)為心智模型參與了人類的認(rèn)知,推理、決策過程,其中最核心的能力在于反事實推理。

該模型使AI具備預(yù)測與規(guī)劃能力,如理解物體破碎原理、預(yù)判車輛轉(zhuǎn)向軌跡,為具身智能、自動駕駛及人機(jī)協(xié)作機(jī)器人提供基礎(chǔ)支撐。李飛飛將其概括為讓“看見”升級為“推理”,“感知”轉(zhuǎn)化為“行動”,“想象”落地為“創(chuàng)造”。 

近年來,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展和計算資源的增加,世界模型的研究取得了顯著的進(jìn)展。

例如,2019年DeepMind發(fā)表的MuZero算法、2022年Yann LeCun提出的JEPA表征模型、2024年的視頻生成模型Sora和城市環(huán)境生成模型UrbanWord等,都推動了世界模型在不同領(lǐng)域的應(yīng)用探索。

整體來看,世界模型是一種能夠?qū)ΜF(xiàn)實世界環(huán)境進(jìn)行仿真,并基于文本、圖像、視頻和運動等輸入數(shù)據(jù)來生成視頻、預(yù)測未來狀態(tài)的生成式Al模型。它整合了多種語義信息,如視覺、聽覺、語言等,通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和其他數(shù)學(xué)模型來理解和預(yù)測現(xiàn)實世界中的現(xiàn)象、行為和因果關(guān)系。

簡單來說,世界模型就像是A1系統(tǒng)對現(xiàn)實世界的“內(nèi)在理解”和“心理模擬”。它不僅能夠處理輸入的數(shù)據(jù),還能估計未直接感知的狀態(tài),并預(yù)測未來狀態(tài)的變化。

這種模型使AI具備了類似人類的認(rèn)知和推理能力,能夠在一個虛擬的“腦?!敝羞M(jìn)行模擬和規(guī)劃,從而更好地應(yīng)對現(xiàn)實世界的復(fù)雜性。

區(qū)別于寬泛意義上的大語言模型,世界模型并非通過可獲取的語言、圖像及視頻來理解現(xiàn)實場景,而是通過大量數(shù)據(jù)學(xué)習(xí)現(xiàn)實世界的物理規(guī)則,實施因果推理,從而預(yù)測、生成合乎現(xiàn)實規(guī)律的未來。其終極目的在于,通過訓(xùn)練讓人工智能適應(yīng)現(xiàn)實世界而非理論世界,讓AI進(jìn)化為物理AI。

世界模型具有三大核心特點:

其一,內(nèi)在表征與預(yù)測。世界模型可以將高維的原始觀測數(shù)據(jù)(如圖像、聲音、文本等)編碼為低維的潛在狀態(tài),形成對世界的簡潔而有效的表征。在此基礎(chǔ)上,它能夠預(yù)測在給定當(dāng)前狀態(tài)和動作的情況下,下一個時刻的狀態(tài)分布,從而實現(xiàn)對未來事件的前瞻性預(yù)測。

其二,物理認(rèn)知與因果關(guān)系。世界模型具備基本的物理認(rèn)知能力,能夠理解和模擬物理世界的規(guī)律,如重力、摩擦力、運動軌跡等。這使得它在處理與物理世界相關(guān)的問題時,能夠提供更準(zhǔn)確、更符合現(xiàn)實的預(yù)測和決策支持。

其三,反事實推理能力。世界模型不僅能夠基于已有的數(shù)據(jù)進(jìn)行預(yù)測,還能夠進(jìn)行假設(shè)性思考,即反事實推理。例如,它可以回答“如果環(huán)境條件改變,結(jié)果會怎樣”這類問題,從而為復(fù)雜問題的解決提供更多的可能性和思路。

通常,一個完整的世界模型由狀態(tài)表征模型、動態(tài)模型、決策模型三大組件構(gòu)成。

狀態(tài)表征模型的作用是將原始觀測數(shù)據(jù)(如高維圖像、傳感器數(shù)據(jù)等)壓縮為低維的潛在狀態(tài),保留關(guān)鍵信息,過濾噪聲。常見的實現(xiàn)方法是使用變分自動編碼器(VAE)等技術(shù)。這種壓縮和表示方式使得模型能夠更高效地處理和理解復(fù)雜的數(shù)據(jù)輸入。

動態(tài)模型是世界模型的核心部分,用于預(yù)測給定當(dāng)前潛在狀態(tài)和動作時,環(huán)境的下一個狀態(tài)分布。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)或隨機(jī)狀態(tài)空間模型(SSM)等通常被用來學(xué)習(xí)狀態(tài)轉(zhuǎn)移規(guī)律,從而構(gòu)建對世界物理規(guī)律的隱式理解。

動態(tài)模型為智能體提供了一個虛擬的“沙盤”,使其能夠在其中進(jìn)行模擬和試驗,而無需在真實環(huán)境中進(jìn)行昂貴的試錯。

基于狀態(tài)預(yù)測,決策模型使用模型預(yù)測控制(MPC)或深度強化學(xué)習(xí)等方法,規(guī)劃最優(yōu)的動作序列以達(dá)成目標(biāo)。它根據(jù)預(yù)測的未來狀態(tài)來評估不同動作的價值或獎勵信號,從而指導(dǎo)智能體在環(huán)境中采取合理的行動。

AI下一輪飛躍的引爆點

過去十年,AI的每一次躍遷都源自輸入方式的變革:文字帶來了語言智能,圖像催生了視覺智能。而如今,世界模型正在讓AI理解現(xiàn)實世界,一個有時間、有空間、有因果的動態(tài)系統(tǒng)。

不僅人工智能的先驅(qū)們幾乎一致認(rèn)為,世界模型對打造下一代人工智能正至關(guān)重要,科技巨頭們也將世界模型視為人工智能發(fā)展節(jié)點上的關(guān)鍵。

近幾個月,多家科技公司相繼發(fā)布了在世界模型領(lǐng)域的進(jìn)展,凸顯了這一賽道的升溫。

谷歌DeepMind的Genie系列模型在一年半內(nèi)從2D升級至Genie 3,該模型可實時生成交互式3D環(huán)境。輸入一句話,即可在720p分辨率下創(chuàng)建用戶可自由探索的動態(tài)世界,場景細(xì)節(jié)能在長達(dá)一分鐘的記憶中保持連貫。Genie 3項目聯(lián)席負(fù)責(zé)人Shlomi Fruchter表示,通過構(gòu)建模擬真實世界的環(huán)境,可以用更具擴(kuò)展性的方式訓(xùn)練AI,且“無需承擔(dān)在現(xiàn)實世界中犯錯的后果”。

Meta發(fā)布代碼世界模型(Code World Model),探索如何使用世界模型改進(jìn)AI代碼生成性能。該模型不只會寫代碼,而是能像程序員一樣思考。CWM通過5T tokens的執(zhí)行軌跡數(shù)據(jù)訓(xùn)練,能逐行模擬代碼運行過程,從變量初始化到循環(huán)迭代,從函數(shù)調(diào)用到異常拋出,每一步狀態(tài)變化都能精準(zhǔn)預(yù)測,直接將AI編程從靜態(tài)文本生成推向動態(tài)執(zhí)行推理的新紀(jì)元。

與此同時,芯片巨頭英偉達(dá)的首席執(zhí)行官黃仁勛斷言,公司的下一個主要增長階段將來自“物理AI”,這些新模型將徹底改變機(jī)器人領(lǐng)域。英偉達(dá)正利用其Omniverse平臺創(chuàng)建和運行此類仿真,以支持其向機(jī)器人領(lǐng)域的擴(kuò)張。

特斯拉CEO馬斯克可以說是最早拋出“世界模型”這一說法的人士之一。特斯拉為了實現(xiàn)全球范圍內(nèi)所有路況的自動駕駛,在感知跟決策中間,嵌入了一個AI模型,主要是構(gòu)建一個虛擬環(huán)境,以便進(jìn)行自動駕駛能力的學(xué)習(xí)和驗證。

這種世界模型方法,其實已經(jīng)對現(xiàn)實世界產(chǎn)生了潛在的巨大影響。風(fēng)險投資公司Lightspeed的合伙人兼投資者M(jìn)oritz Baier-Lentz表示,無人機(jī)戰(zhàn)爭、新型機(jī)器人和比人類更安全的自動駕駛車輛都正從中受益。

優(yōu)步前AI業(yè)務(wù)負(fù)責(zé)人Gary Marcus指出,無論當(dāng)今生成式人工智能接受多少數(shù)據(jù)訓(xùn)練,它們只能建立世界運作的概率模型。本質(zhì)上,當(dāng)前人工智能學(xué)習(xí)的是輸入數(shù)據(jù)間的關(guān)聯(lián)性——無論是文字圖像,還是分子及其功能。這種對世界模糊的近似認(rèn)知,似乎被混雜地編碼在AI“大腦”中,既包含數(shù)據(jù)本身,又包含大量關(guān)于數(shù)據(jù)處理的龐雜規(guī)則,而這些規(guī)則又往往殘缺不全或自相矛盾。

一個很好的例子是:一臺運行1979年程序的雅達(dá)利2600游戲機(jī),可以在國際象棋比賽中擊敗最先進(jìn)的聊天機(jī)器人。這些聊天機(jī)器人往往會嘗試非法走法,并很快忘記棋子的位置。本質(zhì)上,當(dāng)今基于Transformer架構(gòu)的人工智能是在進(jìn)行預(yù)測,而不是邏輯推理。盡管它們已經(jīng)通過無數(shù)規(guī)則手冊的訓(xùn)練,但仍然如此。

盡管世界模型展現(xiàn)出了巨大的潛力,但也面臨許多挑戰(zhàn)。

首先,是技術(shù)和生態(tài)層面的挑戰(zhàn)。構(gòu)建世界模型需要大量的多模態(tài)數(shù)據(jù),包括視頻、音頻、傳感器數(shù)據(jù)等,而這些數(shù)據(jù)的收集、標(biāo)注和整理往往成本高昂且耗時費力。同時,數(shù)據(jù)的質(zhì)量和多樣性也會直接影響模型的性能和泛化能力。

同時,世界模型也缺乏跨平臺協(xié)同的工程體系配套。目前而言,世界模型沒有標(biāo)準(zhǔn),缺乏統(tǒng)一的訓(xùn)練語料、可比的評價指標(biāo)與公共實驗平臺,企業(yè)往往各自為戰(zhàn)。如果無法實現(xiàn)跨模型的可驗證性與可復(fù)用性,世界模型的生態(tài)就很難真正形成規(guī)模化創(chuàng)新。

其次,是認(rèn)知層面的挑戰(zhàn)。世界模型的強大之處,在于它可以在內(nèi)部推演與預(yù)測,但這也讓它的決策過程愈發(fā)難以被人類理解。試想一下,當(dāng)一個模型能在潛在空間中模擬成千上萬種結(jié)果時,我們還能否追蹤它的決策邏輯?

從自動駕駛的責(zé)任歸屬,到自主智能之間,有沒有可能產(chǎn)生目標(biāo)漂移(Goal Drift),進(jìn)而延伸出AI的目標(biāo)是否仍與人類一致的問題。一旦AI從被動執(zhí)行轉(zhuǎn)為主動學(xué)習(xí),安全與倫理的議題,也隨之從技術(shù)層面上升到價值層面。

第三,是產(chǎn)業(yè)和倫理層面的挑戰(zhàn)。世界模型的進(jìn)一步發(fā)展,勢必重新定義產(chǎn)業(yè)邊界。AI不僅可能重構(gòu)交通、制造、醫(yī)療、金融等領(lǐng)域的決策體系,也將催動算法主權(quán)、智能監(jiān)管等制度議題。

中美雖然在路徑上各有偏重,美國憑借資本與開放生態(tài)快速試錯,中國依托產(chǎn)業(yè)鏈協(xié)同推進(jìn)落地,但雙方都面臨同一問題,當(dāng)世界模型真正嵌入社會運行系統(tǒng),它將以何種規(guī)則參與人類世界?

就目前而言,世界模型所依托的世界,仍然建立在人類提供的語料、規(guī)則與經(jīng)驗上。但AI的持續(xù)進(jìn)化,有賴于人類持續(xù)地在技術(shù)、倫理與治理層面為智能設(shè)定邊界,這會是一項長期的考驗。

必須承認(rèn),目前世界模型的研究仍處于早期階段。相較于適合快速迭代、短期內(nèi)易于落地的VLA路線,世界模型代表了更底層的認(rèn)知方式,強調(diào)物理規(guī)律和空間理解力,適合長期演進(jìn)。

盡管挑戰(zhàn)顯著,但全球已在這一賽道展開競爭。但在這條平行賽道上,一場定義AI下一個十年的角逐已經(jīng)鳴槍起跑,AI正在努力超越文本邊界,嘗試?yán)斫獠⒅厮芪覀兯诘奈锢硎澜纭?/p>

可以肯定的是,世界模型的意義,絕對不是讓AI更像人,而是讓人類在AI的協(xié)同下,走向更遠(yuǎn)的未來。

 

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

世界模型崛起,AI路線之爭喧囂再起

AI的未來或許正系于此。

文|極智GeeTech

人類大腦中未被破譯的進(jìn)化密碼,AI的未來或許正系于此。

近日,圖靈獎得主、Meta首席AI科學(xué)家楊立昆(Yann LeCun)被曝將離職創(chuàng)業(yè),將以“世界模型”(World Models)為技術(shù)核心,延續(xù)其深耕多年的探索方向,這一動作迅速引發(fā)全球AI圈的關(guān)注。

“AI教母”李飛飛在自己的社交平臺發(fā)布萬字長文,直指當(dāng)下大語言模型(LLM)的算力穹頂與認(rèn)知局限。她提出,AI 的未來不在于模型參數(shù)的無限擴(kuò)容,而在于植入 “空間智能”(Spatial Intelligence)—— 這種人類先天具備、嬰兒階段即覺醒的基礎(chǔ)認(rèn)知能力,才是通往通用人工智能(AGI)的必經(jīng)之路。

與此同時,李飛飛創(chuàng)立的 World Labs于11月13日推出首款產(chǎn)品Marble,以多模態(tài)世界模型為核心引擎,可從單張圖像、視頻片段或文本描述中,生成具備持久性的三維數(shù)字孿生空間,為空間智能搭建起關(guān)鍵的三維認(rèn)知基座。

當(dāng)AI從純虛擬語境切入物理現(xiàn)實維度,現(xiàn)實世界的復(fù)雜約束與動態(tài)交互,正呼喚一套顛覆性的認(rèn)知模型破局。

一場關(guān)于AI本質(zhì)的路線分歧

Yann LeCun在Meta任職12年,其技術(shù)愿景與扎克伯格主導(dǎo)的大語言模型路徑存在分歧已不是秘密。

他曾公開表示:“大語言模型永遠(yuǎn)無法實現(xiàn)人類推理能力?!边@句話直指AI發(fā)展的核心矛盾:究竟該用文本數(shù)據(jù)訓(xùn)練出更會聊天的機(jī)器,還是讓AI像嬰兒一樣通過視覺觀察學(xué)習(xí)物理規(guī)律?

一直以來,大語言模型受制于數(shù)據(jù)質(zhì)量和數(shù)據(jù)規(guī)模,其認(rèn)知邊界始終被訓(xùn)練數(shù)據(jù)的“無形圍墻”所束縛。

數(shù)據(jù)偏見會固化模型的認(rèn)知偏差,噪聲數(shù)據(jù)直接稀釋推理精度,而時效性滯后則讓模型困于“信息時差”,難以捕捉現(xiàn)實世界的動態(tài)演進(jìn)。即便持續(xù)擴(kuò)容數(shù)據(jù)規(guī)模,參數(shù)堆砌也逐漸陷入“規(guī)模魔咒”,算力消耗與效果增益呈現(xiàn)非線性失衡,邊際效益持續(xù)遞減。

更核心的桎梏在于,大語言模型的認(rèn)知局限于文本符號的線性關(guān)聯(lián),缺乏對物理世界的三維空間建模能力與動態(tài)因果推理能力。它無法精準(zhǔn)映射現(xiàn)實世界的空間拓?fù)洹⑽矬w屬性與運動規(guī)律,也難以理解“行動-反饋”的實時交互邏輯,導(dǎo)致在跨場景落地時頻繁出現(xiàn)認(rèn)知斷層。

Yann LeCun比如無法通過文本描述精準(zhǔn)還原立體場景,亦不能基于現(xiàn)實約束做出符合物理常識的決策。

這種依賴文本數(shù)據(jù)喂養(yǎng)的模式,終究難以突破“符號牢籠”,無法復(fù)刻人類從具象體驗中提煉抽象知識的認(rèn)知路徑。

當(dāng)AI需要從虛擬交互走向物理世界的實際應(yīng)用,從單一任務(wù)響應(yīng)升級為復(fù)雜場景的自主決策,純文本驅(qū)動的模型架構(gòu)已難以承載通用人工智能的進(jìn)化需求,唯有跳出數(shù)據(jù)規(guī)模競賽,轉(zhuǎn)向?qū)κ澜绫举|(zhì)的結(jié)構(gòu)化理解,才能開啟下一段技術(shù)躍遷。

“世界模型派”普遍認(rèn)為,大語言模型存在根本局限。李飛飛強調(diào),語言是人類為交流創(chuàng)造的抽象信號,自然界本無文字,AI若僅依賴文本,無法真正理解物理世界規(guī)律,易淪為“黑暗中的文字大師”。

Yann LeCun多次批評大語言模型僅為強大文本數(shù)據(jù)庫,缺乏對現(xiàn)實世界的理解能力。世界模型則致力于通過高維感知數(shù)據(jù)直接建模,繞開語言轉(zhuǎn)換,在潛空間內(nèi)推演物理規(guī)律,并輸出行動指令,實現(xiàn)對環(huán)境的內(nèi)在理解與主動推理。

就像人類嬰兒不需要閱讀百科全書就能理解重力——他們通過眼睛觀察杯子墜落,用手觸摸桌面來建立物理世界的認(rèn)知。這正是LeCun推崇世界模型的關(guān)鍵:動態(tài)視頻數(shù)據(jù)包含的時空信息,遠(yuǎn)比抽象文本更接近智能的本質(zhì)。

比如球撞倒積木的瞬間,既包含材質(zhì)硬度信息,也隱藏著力學(xué)規(guī)律。而大語言模型從維基百科學(xué)到的“牛頓定律”,不過是符號的統(tǒng)計關(guān)聯(lián)。MIT的研究更證明,大腦處理空間認(rèn)知時會激活特定神經(jīng)網(wǎng)絡(luò)——這種生物本能,正是當(dāng)前純文本AI缺失的底層能力。

“Word Models”一詞最早出現(xiàn)在2018年Jurgen在機(jī)器學(xué)習(xí)頂會NeurPS上發(fā)表的一篇名為《Recurrent World Models Facilitate Policy Evolution》的文章中,文章以認(rèn)知科學(xué)中人腦的心智模型(Mental Model)來類比世界模型,認(rèn)為心智模型參與了人類的認(rèn)知,推理、決策過程,其中最核心的能力在于反事實推理。

該模型使AI具備預(yù)測與規(guī)劃能力,如理解物體破碎原理、預(yù)判車輛轉(zhuǎn)向軌跡,為具身智能、自動駕駛及人機(jī)協(xié)作機(jī)器人提供基礎(chǔ)支撐。李飛飛將其概括為讓“看見”升級為“推理”,“感知”轉(zhuǎn)化為“行動”,“想象”落地為“創(chuàng)造”。 

近年來,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展和計算資源的增加,世界模型的研究取得了顯著的進(jìn)展。

例如,2019年DeepMind發(fā)表的MuZero算法、2022年Yann LeCun提出的JEPA表征模型、2024年的視頻生成模型Sora和城市環(huán)境生成模型UrbanWord等,都推動了世界模型在不同領(lǐng)域的應(yīng)用探索。

整體來看,世界模型是一種能夠?qū)ΜF(xiàn)實世界環(huán)境進(jìn)行仿真,并基于文本、圖像、視頻和運動等輸入數(shù)據(jù)來生成視頻、預(yù)測未來狀態(tài)的生成式Al模型。它整合了多種語義信息,如視覺、聽覺、語言等,通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和其他數(shù)學(xué)模型來理解和預(yù)測現(xiàn)實世界中的現(xiàn)象、行為和因果關(guān)系。

簡單來說,世界模型就像是A1系統(tǒng)對現(xiàn)實世界的“內(nèi)在理解”和“心理模擬”。它不僅能夠處理輸入的數(shù)據(jù),還能估計未直接感知的狀態(tài),并預(yù)測未來狀態(tài)的變化。

這種模型使AI具備了類似人類的認(rèn)知和推理能力,能夠在一個虛擬的“腦?!敝羞M(jìn)行模擬和規(guī)劃,從而更好地應(yīng)對現(xiàn)實世界的復(fù)雜性。

區(qū)別于寬泛意義上的大語言模型,世界模型并非通過可獲取的語言、圖像及視頻來理解現(xiàn)實場景,而是通過大量數(shù)據(jù)學(xué)習(xí)現(xiàn)實世界的物理規(guī)則,實施因果推理,從而預(yù)測、生成合乎現(xiàn)實規(guī)律的未來。其終極目的在于,通過訓(xùn)練讓人工智能適應(yīng)現(xiàn)實世界而非理論世界,讓AI進(jìn)化為物理AI。

世界模型具有三大核心特點:

其一,內(nèi)在表征與預(yù)測。世界模型可以將高維的原始觀測數(shù)據(jù)(如圖像、聲音、文本等)編碼為低維的潛在狀態(tài),形成對世界的簡潔而有效的表征。在此基礎(chǔ)上,它能夠預(yù)測在給定當(dāng)前狀態(tài)和動作的情況下,下一個時刻的狀態(tài)分布,從而實現(xiàn)對未來事件的前瞻性預(yù)測。

其二,物理認(rèn)知與因果關(guān)系。世界模型具備基本的物理認(rèn)知能力,能夠理解和模擬物理世界的規(guī)律,如重力、摩擦力、運動軌跡等。這使得它在處理與物理世界相關(guān)的問題時,能夠提供更準(zhǔn)確、更符合現(xiàn)實的預(yù)測和決策支持。

其三,反事實推理能力。世界模型不僅能夠基于已有的數(shù)據(jù)進(jìn)行預(yù)測,還能夠進(jìn)行假設(shè)性思考,即反事實推理。例如,它可以回答“如果環(huán)境條件改變,結(jié)果會怎樣”這類問題,從而為復(fù)雜問題的解決提供更多的可能性和思路。

通常,一個完整的世界模型由狀態(tài)表征模型、動態(tài)模型、決策模型三大組件構(gòu)成。

狀態(tài)表征模型的作用是將原始觀測數(shù)據(jù)(如高維圖像、傳感器數(shù)據(jù)等)壓縮為低維的潛在狀態(tài),保留關(guān)鍵信息,過濾噪聲。常見的實現(xiàn)方法是使用變分自動編碼器(VAE)等技術(shù)。這種壓縮和表示方式使得模型能夠更高效地處理和理解復(fù)雜的數(shù)據(jù)輸入。

動態(tài)模型是世界模型的核心部分,用于預(yù)測給定當(dāng)前潛在狀態(tài)和動作時,環(huán)境的下一個狀態(tài)分布。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)或隨機(jī)狀態(tài)空間模型(SSM)等通常被用來學(xué)習(xí)狀態(tài)轉(zhuǎn)移規(guī)律,從而構(gòu)建對世界物理規(guī)律的隱式理解。

動態(tài)模型為智能體提供了一個虛擬的“沙盤”,使其能夠在其中進(jìn)行模擬和試驗,而無需在真實環(huán)境中進(jìn)行昂貴的試錯。

基于狀態(tài)預(yù)測,決策模型使用模型預(yù)測控制(MPC)或深度強化學(xué)習(xí)等方法,規(guī)劃最優(yōu)的動作序列以達(dá)成目標(biāo)。它根據(jù)預(yù)測的未來狀態(tài)來評估不同動作的價值或獎勵信號,從而指導(dǎo)智能體在環(huán)境中采取合理的行動。

AI下一輪飛躍的引爆點

過去十年,AI的每一次躍遷都源自輸入方式的變革:文字帶來了語言智能,圖像催生了視覺智能。而如今,世界模型正在讓AI理解現(xiàn)實世界,一個有時間、有空間、有因果的動態(tài)系統(tǒng)。

不僅人工智能的先驅(qū)們幾乎一致認(rèn)為,世界模型對打造下一代人工智能正至關(guān)重要,科技巨頭們也將世界模型視為人工智能發(fā)展節(jié)點上的關(guān)鍵。

近幾個月,多家科技公司相繼發(fā)布了在世界模型領(lǐng)域的進(jìn)展,凸顯了這一賽道的升溫。

谷歌DeepMind的Genie系列模型在一年半內(nèi)從2D升級至Genie 3,該模型可實時生成交互式3D環(huán)境。輸入一句話,即可在720p分辨率下創(chuàng)建用戶可自由探索的動態(tài)世界,場景細(xì)節(jié)能在長達(dá)一分鐘的記憶中保持連貫。Genie 3項目聯(lián)席負(fù)責(zé)人Shlomi Fruchter表示,通過構(gòu)建模擬真實世界的環(huán)境,可以用更具擴(kuò)展性的方式訓(xùn)練AI,且“無需承擔(dān)在現(xiàn)實世界中犯錯的后果”。

Meta發(fā)布代碼世界模型(Code World Model),探索如何使用世界模型改進(jìn)AI代碼生成性能。該模型不只會寫代碼,而是能像程序員一樣思考。CWM通過5T tokens的執(zhí)行軌跡數(shù)據(jù)訓(xùn)練,能逐行模擬代碼運行過程,從變量初始化到循環(huán)迭代,從函數(shù)調(diào)用到異常拋出,每一步狀態(tài)變化都能精準(zhǔn)預(yù)測,直接將AI編程從靜態(tài)文本生成推向動態(tài)執(zhí)行推理的新紀(jì)元。

與此同時,芯片巨頭英偉達(dá)的首席執(zhí)行官黃仁勛斷言,公司的下一個主要增長階段將來自“物理AI”,這些新模型將徹底改變機(jī)器人領(lǐng)域。英偉達(dá)正利用其Omniverse平臺創(chuàng)建和運行此類仿真,以支持其向機(jī)器人領(lǐng)域的擴(kuò)張。

特斯拉CEO馬斯克可以說是最早拋出“世界模型”這一說法的人士之一。特斯拉為了實現(xiàn)全球范圍內(nèi)所有路況的自動駕駛,在感知跟決策中間,嵌入了一個AI模型,主要是構(gòu)建一個虛擬環(huán)境,以便進(jìn)行自動駕駛能力的學(xué)習(xí)和驗證。

這種世界模型方法,其實已經(jīng)對現(xiàn)實世界產(chǎn)生了潛在的巨大影響。風(fēng)險投資公司Lightspeed的合伙人兼投資者M(jìn)oritz Baier-Lentz表示,無人機(jī)戰(zhàn)爭、新型機(jī)器人和比人類更安全的自動駕駛車輛都正從中受益。

優(yōu)步前AI業(yè)務(wù)負(fù)責(zé)人Gary Marcus指出,無論當(dāng)今生成式人工智能接受多少數(shù)據(jù)訓(xùn)練,它們只能建立世界運作的概率模型。本質(zhì)上,當(dāng)前人工智能學(xué)習(xí)的是輸入數(shù)據(jù)間的關(guān)聯(lián)性——無論是文字圖像,還是分子及其功能。這種對世界模糊的近似認(rèn)知,似乎被混雜地編碼在AI“大腦”中,既包含數(shù)據(jù)本身,又包含大量關(guān)于數(shù)據(jù)處理的龐雜規(guī)則,而這些規(guī)則又往往殘缺不全或自相矛盾。

一個很好的例子是:一臺運行1979年程序的雅達(dá)利2600游戲機(jī),可以在國際象棋比賽中擊敗最先進(jìn)的聊天機(jī)器人。這些聊天機(jī)器人往往會嘗試非法走法,并很快忘記棋子的位置。本質(zhì)上,當(dāng)今基于Transformer架構(gòu)的人工智能是在進(jìn)行預(yù)測,而不是邏輯推理。盡管它們已經(jīng)通過無數(shù)規(guī)則手冊的訓(xùn)練,但仍然如此。

盡管世界模型展現(xiàn)出了巨大的潛力,但也面臨許多挑戰(zhàn)。

首先,是技術(shù)和生態(tài)層面的挑戰(zhàn)。構(gòu)建世界模型需要大量的多模態(tài)數(shù)據(jù),包括視頻、音頻、傳感器數(shù)據(jù)等,而這些數(shù)據(jù)的收集、標(biāo)注和整理往往成本高昂且耗時費力。同時,數(shù)據(jù)的質(zhì)量和多樣性也會直接影響模型的性能和泛化能力。

同時,世界模型也缺乏跨平臺協(xié)同的工程體系配套。目前而言,世界模型沒有標(biāo)準(zhǔn),缺乏統(tǒng)一的訓(xùn)練語料、可比的評價指標(biāo)與公共實驗平臺,企業(yè)往往各自為戰(zhàn)。如果無法實現(xiàn)跨模型的可驗證性與可復(fù)用性,世界模型的生態(tài)就很難真正形成規(guī)模化創(chuàng)新。

其次,是認(rèn)知層面的挑戰(zhàn)。世界模型的強大之處,在于它可以在內(nèi)部推演與預(yù)測,但這也讓它的決策過程愈發(fā)難以被人類理解。試想一下,當(dāng)一個模型能在潛在空間中模擬成千上萬種結(jié)果時,我們還能否追蹤它的決策邏輯?

從自動駕駛的責(zé)任歸屬,到自主智能之間,有沒有可能產(chǎn)生目標(biāo)漂移(Goal Drift),進(jìn)而延伸出AI的目標(biāo)是否仍與人類一致的問題。一旦AI從被動執(zhí)行轉(zhuǎn)為主動學(xué)習(xí),安全與倫理的議題,也隨之從技術(shù)層面上升到價值層面。

第三,是產(chǎn)業(yè)和倫理層面的挑戰(zhàn)。世界模型的進(jìn)一步發(fā)展,勢必重新定義產(chǎn)業(yè)邊界。AI不僅可能重構(gòu)交通、制造、醫(yī)療、金融等領(lǐng)域的決策體系,也將催動算法主權(quán)、智能監(jiān)管等制度議題。

中美雖然在路徑上各有偏重,美國憑借資本與開放生態(tài)快速試錯,中國依托產(chǎn)業(yè)鏈協(xié)同推進(jìn)落地,但雙方都面臨同一問題,當(dāng)世界模型真正嵌入社會運行系統(tǒng),它將以何種規(guī)則參與人類世界?

就目前而言,世界模型所依托的世界,仍然建立在人類提供的語料、規(guī)則與經(jīng)驗上。但AI的持續(xù)進(jìn)化,有賴于人類持續(xù)地在技術(shù)、倫理與治理層面為智能設(shè)定邊界,這會是一項長期的考驗。

必須承認(rèn),目前世界模型的研究仍處于早期階段。相較于適合快速迭代、短期內(nèi)易于落地的VLA路線,世界模型代表了更底層的認(rèn)知方式,強調(diào)物理規(guī)律和空間理解力,適合長期演進(jìn)。

盡管挑戰(zhàn)顯著,但全球已在這一賽道展開競爭。但在這條平行賽道上,一場定義AI下一個十年的角逐已經(jīng)鳴槍起跑,AI正在努力超越文本邊界,嘗試?yán)斫獠⒅厮芪覀兯诘奈锢硎澜纭?/p>

可以肯定的是,世界模型的意義,絕對不是讓AI更像人,而是讓人類在AI的協(xié)同下,走向更遠(yuǎn)的未來。

 

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。