四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

正在閱讀:

Sora爆火,一次典型的OpenAI式勝利

掃一掃下載界面新聞APP

Sora爆火,一次典型的OpenAI式勝利

OpenAI距離AGI的目標(biāo)也將越來越近。

OpenAI,人工智能,科技,Sora,抖音

圖片來源:界面新聞| 匡達(dá)

文|讀懂財經(jīng)

在2022年的春節(jié),OpenAI推出的ChatGPT快速引爆了資本圈與AI圈,至此拉開了AI大航海的序幕。

到了今年,類似的故事也在發(fā)生。2月16日凌晨,在沒有任何預(yù)兆和消息透露的情況下,OpenAI 突然發(fā)布了自己的首個文生視頻模型:Sora。很顯然,這給了整個AI行業(yè)一點小小的震撼。

相比市面上現(xiàn)有的AI視頻模型,Sora展示出了遠(yuǎn)超預(yù)期的能力:不僅直接將視頻生成的時長一次性提升了15倍,在視頻內(nèi)容的穩(wěn)定性上也有不小的提升。更重要的是,在公布的演示視頻里,Sora展示了對物理世界部分規(guī)律的理解,這是過去文生視頻模型一大痛點。

隨著Sora的發(fā)布,另一個有趣的事情是,為什么總是OpenAI?要知道,在Sora發(fā)布前,探索AI視頻模型的公司并不少,包括大眾熟知的Runway、Pika,也取得了不錯的進(jìn)展。但OpenAI依然實現(xiàn)了降維打擊。

這是一場典型的OpenAI式勝利:聚焦AGI這一終極目標(biāo),不拘泥于具體場景,通過Scaling Law,將生成式AI的“魔法”從文本延伸到了視頻和現(xiàn)實世界。??????

在這個過程中,AI所創(chuàng)造的虛擬世界與現(xiàn)實世界的邊界逐漸模糊,OpenAI距離AGI的目標(biāo)也將越來越近。

/ 01 / 降維打擊的Sora

在Sora發(fā)布前,大眾對文生視頻方案并不陌生。根據(jù)知名投資機(jī)構(gòu)a16z此前的統(tǒng)計,截至2024年底,市場上共有21個公開的AI視頻模型,包括大眾熟知的Runway、Pika、Genmo以及Stable Video Diffusion等等。

那么相比現(xiàn)有的AI視頻模型,Sora所展示出來的優(yōu)勢,主要集中在以下幾點:

一是視頻長度的巨大提升。Sora生成長達(dá)1分鐘的超長視頻,這樣內(nèi)容長度遠(yuǎn)遠(yuǎn)高于市面上的所有AI視頻模型。

根據(jù)a16z統(tǒng)計,現(xiàn)有的AI視頻模型制作的視頻長度大都在10秒以內(nèi),像此前大熱的Runway Gen 2、Pika,其制作的視頻長度分別只有4秒和3秒。60秒的視頻長度,也意味著其基本達(dá)到了抖音等短視頻平臺的內(nèi)容要求。

二是視頻內(nèi)容的穩(wěn)定性。對AI視頻來說,它們基本上是生成幀,在幀與幀之間創(chuàng)造時間上連貫的動畫。但由于它們對三維空間以及物體應(yīng)如何交互沒有內(nèi)在的理解,導(dǎo)致AI視頻往往會出現(xiàn)人物扭曲和變形。

比如說,這樣的情況經(jīng)常會出現(xiàn):片段的前半部分,一個人在在街道上行走,后半部分卻融化在地面上——模型沒有“堅硬”表面的概念。由于缺乏場景的三維概念,從不同角度生成相同片段也很困難。

但Sora的獨特之處在于,其所制作的60秒視頻不僅能夠?qū)崿F(xiàn)一鏡到底,視頻中的女主角、背景人物,都達(dá)到了驚人的一致性,各種鏡頭隨意切換,人物都是保持了極高的穩(wěn)定性。以下是Sora發(fā)布的演示視頻:

Prompt: 一位時尚女性走在充滿溫暖霓虹燈和動畫城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,涂著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

三是深刻的語言理解能力使Sora能夠精準(zhǔn)地識別用戶的指令,從而在生成的視頻中呈現(xiàn)出豐富的表情和生動的情感。這種深層次的理解不僅局限于簡單的命令,Sora還理解這些東西在物理世界中的存在方式,甚至能夠?qū)崿F(xiàn)相當(dāng)多的物理交互。

舉個例子,就拿Sora對于毛發(fā)紋理物理特性的理解來說,當(dāng)年皮克斯在制作《怪物公司》主角毛怪時,為能呈現(xiàn)其毛發(fā)柔軟波動的質(zhì)感,技術(shù)團(tuán)隊為此直接連肝幾個月,才開發(fā)出仿真230萬根毛發(fā)飄動的軟件程序。而如今Sora在沒有人教的情況下,輕而易舉地就實現(xiàn)了。

“它學(xué)會了關(guān)于 3D 幾何形狀和一致性的知識,”項目的研究科學(xué)家Tim Brooks表示?!斑@并非我們預(yù)先設(shè)定的——它完全是通過觀察大量數(shù)據(jù)自然而然地學(xué)會的。”

毫無疑問,相比于其他“玩具級”的視頻生成AI,Sora在AI視頻領(lǐng)域?qū)崿F(xiàn)了降維打擊。

/ 02 / 把視覺數(shù)據(jù)統(tǒng)一起來

從技術(shù)層面來說,圖片生成和視頻生成的底層技術(shù)框架較為相似,主要包括循環(huán)神經(jīng)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)、自回歸模型(autoregressive transformers)、擴(kuò)散模型(diffusion models)。

與Runway、Pika等主流AI視頻聚焦于擴(kuò)散模型不同,Sora采取了一個新的架構(gòu)——Diffusion transformer 模型。正如它的名字一樣,這個模型融合了擴(kuò)散模型與自回歸模型的雙重特性。Diffusion transformer 架構(gòu)由加利福尼亞大學(xué)伯克利分校的 William Peebles 與紐約大學(xué)的 Saining Xie 在 2023 年提出。

在這個新架構(gòu)中,OpenAI沿用了此前大語言模型的思路,提出了一種用 Patch(視覺補(bǔ)?。┳鳛橐曨l數(shù)據(jù)來訓(xùn)練視頻模型的方式,是一個低維空間下統(tǒng)一的表達(dá)單位,有點像文本形式下的Token。LLM把所有的文本、符號、代碼都抽象為Token,Sora把圖片、視頻都抽象為Patch。

簡單來說,OpenAI會把視頻和圖片切成很多小塊,就像是拼圖的每一片一樣。這些小塊就是Patch,每一個補(bǔ)丁就像是電腦學(xué)習(xí)時用的小卡片,每張卡片上都有一點點信息。

通過這種方式,OpenAI能夠把視頻壓縮到一個低維空間,然后通過擴(kuò)散模型模擬物理過程中的擴(kuò)散現(xiàn)象來生成內(nèi)容數(shù)據(jù),從一個充滿隨機(jī)噪聲的視頻幀,逐漸變成一個清晰、連貫的視頻場景。整個過程有點像是把一張模糊的照片變得清晰。

按OpenAI的說法,將視覺數(shù)據(jù)進(jìn)行統(tǒng)一表示這種做法的好處有兩點:

第一,采樣的靈活性。Sora 可以采樣寬屏 1920x1080p 視頻、垂直 1080x1920 視頻以及介于兩者之間的所有視頻(如下列3個視頻)。這使得 Sora 可以直接以其原生寬高比為不同設(shè)備創(chuàng)建內(nèi)容,快速以較低尺寸制作原型內(nèi)容。

第二,取景與構(gòu)圖效果的改善。根據(jù)經(jīng)驗發(fā)現(xiàn),以原始寬高比對視頻進(jìn)行訓(xùn)練可以改善構(gòu)圖和取景。比如,常見的將所有訓(xùn)練視頻裁剪為正方形的模型,有時會生成僅部分可見主體的視頻。相比之下,Sora 的視頻取景有所改善。

為什么OpenAI能夠想到將視覺數(shù)據(jù)進(jìn)行統(tǒng)一表示的方法?除了技術(shù)原因外,也很大程度上得益于OpenAI與Pika、Runway,對AI視頻生成模型的認(rèn)知差異。

/ 03 / 世界模型,通過AGI的道路

在Sora發(fā)布前,AI 視頻生成往往被人看作是AI應(yīng)用率先垂直落地的場景之一,因為這很容易讓人想到顛覆短視頻、影視/廣告行業(yè)。

正因為如此,幾乎所有的 AI 視頻生成公司都陷入了同質(zhì)化競爭:過多關(guān)注更高畫質(zhì)、更高成功率、更低成本,而非更大時長的世界模型。你能看到,Pika、Runway做視頻的時長都不超過 4s 范圍,雖然可以做到畫面足夠優(yōu)秀,但物體動態(tài)運(yùn)動表現(xiàn)不佳。

但OpenAI對AI視頻生成的探索更像是沿著另一條路線前進(jìn):通過世界模型,打通虛擬世界與現(xiàn)實世界的邊界,實現(xiàn)真正AGI。在OpenAI公布的Sora技術(shù)報告里,有這樣一句話:

“我們相信Sora今天展現(xiàn)出來的能力,證明了視頻模型的持續(xù)擴(kuò)展(Scaling)是開發(fā)物理和數(shù)字世界(包含了生活在其中的物體、動物和人)模擬器的一條有希望的路?!?

世界模型,最早是由Meta 首席科學(xué)家楊立昆(Yann LeCun)在2023 年 6 月提出的概念,大致意思是可以理解為是要對真實的物理世界進(jìn)行建模,讓機(jī)器像人類一樣,對世界有一個全面而準(zhǔn)確的認(rèn)知,尤其是理解當(dāng)下物理世界存在的諸多自然規(guī)律。

換言之,OpenAI更愿意把Sora 視為理解和模擬現(xiàn)實世界的模型基礎(chǔ),視為 AGI 的一個重要里程碑,而不是AI應(yīng)用落地的場景。這意味著,相比其他玩家,OpenAI永遠(yuǎn)用比問題更高一維度的視角看待問題。

在實際情況里,這會讓解決問題變得更加容易。正如愛因斯坦說過,我們不能用創(chuàng)造問題時的思維來解決問題。從這個角度上說,也能夠解釋為什么OpenAI總能時不時給行業(yè)來點小震撼。

盡管從目前看,AI生成的視頻仍然有著各種各樣的問題,比如模型難以準(zhǔn)確模擬復(fù)雜場景的物理,也可能無法理解因果關(guān)系的具體實例,但不可否認(rèn)的是,至少Sora開始理解部分物理世界的規(guī)則,讓眼見不再為實,基于物理規(guī)則所搭建的世界真實性遇到前所未有挑戰(zhàn)。

當(dāng)大模型從過去文本中學(xué)習(xí)的模式,開始轉(zhuǎn)為向視頻和真實世界學(xué)習(xí)。隨著Scaling Law的邏輯在各個領(lǐng)域涌現(xiàn),或許賽博世界與物理世界的邊界將變得更加模糊。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

OpenAI

  • OpenAI與Cerebras達(dá)成AI算力合作,協(xié)議規(guī)?;虺?00億美元
  • OpenAI推出ChatGPT Health對標(biāo)螞蟻阿福!醫(yī)療設(shè)備ETF(159873)最新單日凈申購400萬份深市同類居首,近10日“吸金”超900萬元

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

Sora爆火,一次典型的OpenAI式勝利

OpenAI距離AGI的目標(biāo)也將越來越近。

OpenAI,人工智能,科技,Sora,抖音

圖片來源:界面新聞| 匡達(dá)

文|讀懂財經(jīng)

在2022年的春節(jié),OpenAI推出的ChatGPT快速引爆了資本圈與AI圈,至此拉開了AI大航海的序幕。

到了今年,類似的故事也在發(fā)生。2月16日凌晨,在沒有任何預(yù)兆和消息透露的情況下,OpenAI 突然發(fā)布了自己的首個文生視頻模型:Sora。很顯然,這給了整個AI行業(yè)一點小小的震撼。

相比市面上現(xiàn)有的AI視頻模型,Sora展示出了遠(yuǎn)超預(yù)期的能力:不僅直接將視頻生成的時長一次性提升了15倍,在視頻內(nèi)容的穩(wěn)定性上也有不小的提升。更重要的是,在公布的演示視頻里,Sora展示了對物理世界部分規(guī)律的理解,這是過去文生視頻模型一大痛點。

隨著Sora的發(fā)布,另一個有趣的事情是,為什么總是OpenAI?要知道,在Sora發(fā)布前,探索AI視頻模型的公司并不少,包括大眾熟知的Runway、Pika,也取得了不錯的進(jìn)展。但OpenAI依然實現(xiàn)了降維打擊。

這是一場典型的OpenAI式勝利:聚焦AGI這一終極目標(biāo),不拘泥于具體場景,通過Scaling Law,將生成式AI的“魔法”從文本延伸到了視頻和現(xiàn)實世界。??????

在這個過程中,AI所創(chuàng)造的虛擬世界與現(xiàn)實世界的邊界逐漸模糊,OpenAI距離AGI的目標(biāo)也將越來越近。

/ 01 / 降維打擊的Sora

在Sora發(fā)布前,大眾對文生視頻方案并不陌生。根據(jù)知名投資機(jī)構(gòu)a16z此前的統(tǒng)計,截至2024年底,市場上共有21個公開的AI視頻模型,包括大眾熟知的Runway、Pika、Genmo以及Stable Video Diffusion等等。

那么相比現(xiàn)有的AI視頻模型,Sora所展示出來的優(yōu)勢,主要集中在以下幾點:

一是視頻長度的巨大提升。Sora生成長達(dá)1分鐘的超長視頻,這樣內(nèi)容長度遠(yuǎn)遠(yuǎn)高于市面上的所有AI視頻模型。

根據(jù)a16z統(tǒng)計,現(xiàn)有的AI視頻模型制作的視頻長度大都在10秒以內(nèi),像此前大熱的Runway Gen 2、Pika,其制作的視頻長度分別只有4秒和3秒。60秒的視頻長度,也意味著其基本達(dá)到了抖音等短視頻平臺的內(nèi)容要求。

二是視頻內(nèi)容的穩(wěn)定性。對AI視頻來說,它們基本上是生成幀,在幀與幀之間創(chuàng)造時間上連貫的動畫。但由于它們對三維空間以及物體應(yīng)如何交互沒有內(nèi)在的理解,導(dǎo)致AI視頻往往會出現(xiàn)人物扭曲和變形。

比如說,這樣的情況經(jīng)常會出現(xiàn):片段的前半部分,一個人在在街道上行走,后半部分卻融化在地面上——模型沒有“堅硬”表面的概念。由于缺乏場景的三維概念,從不同角度生成相同片段也很困難。

但Sora的獨特之處在于,其所制作的60秒視頻不僅能夠?qū)崿F(xiàn)一鏡到底,視頻中的女主角、背景人物,都達(dá)到了驚人的一致性,各種鏡頭隨意切換,人物都是保持了極高的穩(wěn)定性。以下是Sora發(fā)布的演示視頻:

Prompt: 一位時尚女性走在充滿溫暖霓虹燈和動畫城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,涂著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

三是深刻的語言理解能力使Sora能夠精準(zhǔn)地識別用戶的指令,從而在生成的視頻中呈現(xiàn)出豐富的表情和生動的情感。這種深層次的理解不僅局限于簡單的命令,Sora還理解這些東西在物理世界中的存在方式,甚至能夠?qū)崿F(xiàn)相當(dāng)多的物理交互。

舉個例子,就拿Sora對于毛發(fā)紋理物理特性的理解來說,當(dāng)年皮克斯在制作《怪物公司》主角毛怪時,為能呈現(xiàn)其毛發(fā)柔軟波動的質(zhì)感,技術(shù)團(tuán)隊為此直接連肝幾個月,才開發(fā)出仿真230萬根毛發(fā)飄動的軟件程序。而如今Sora在沒有人教的情況下,輕而易舉地就實現(xiàn)了。

“它學(xué)會了關(guān)于 3D 幾何形狀和一致性的知識,”項目的研究科學(xué)家Tim Brooks表示?!斑@并非我們預(yù)先設(shè)定的——它完全是通過觀察大量數(shù)據(jù)自然而然地學(xué)會的?!?/p>

毫無疑問,相比于其他“玩具級”的視頻生成AI,Sora在AI視頻領(lǐng)域?qū)崿F(xiàn)了降維打擊。

/ 02 / 把視覺數(shù)據(jù)統(tǒng)一起來

從技術(shù)層面來說,圖片生成和視頻生成的底層技術(shù)框架較為相似,主要包括循環(huán)神經(jīng)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)、自回歸模型(autoregressive transformers)、擴(kuò)散模型(diffusion models)。

與Runway、Pika等主流AI視頻聚焦于擴(kuò)散模型不同,Sora采取了一個新的架構(gòu)——Diffusion transformer 模型。正如它的名字一樣,這個模型融合了擴(kuò)散模型與自回歸模型的雙重特性。Diffusion transformer 架構(gòu)由加利福尼亞大學(xué)伯克利分校的 William Peebles 與紐約大學(xué)的 Saining Xie 在 2023 年提出。

在這個新架構(gòu)中,OpenAI沿用了此前大語言模型的思路,提出了一種用 Patch(視覺補(bǔ)?。┳鳛橐曨l數(shù)據(jù)來訓(xùn)練視頻模型的方式,是一個低維空間下統(tǒng)一的表達(dá)單位,有點像文本形式下的Token。LLM把所有的文本、符號、代碼都抽象為Token,Sora把圖片、視頻都抽象為Patch。

簡單來說,OpenAI會把視頻和圖片切成很多小塊,就像是拼圖的每一片一樣。這些小塊就是Patch,每一個補(bǔ)丁就像是電腦學(xué)習(xí)時用的小卡片,每張卡片上都有一點點信息。

通過這種方式,OpenAI能夠把視頻壓縮到一個低維空間,然后通過擴(kuò)散模型模擬物理過程中的擴(kuò)散現(xiàn)象來生成內(nèi)容數(shù)據(jù),從一個充滿隨機(jī)噪聲的視頻幀,逐漸變成一個清晰、連貫的視頻場景。整個過程有點像是把一張模糊的照片變得清晰。

按OpenAI的說法,將視覺數(shù)據(jù)進(jìn)行統(tǒng)一表示這種做法的好處有兩點:

第一,采樣的靈活性。Sora 可以采樣寬屏 1920x1080p 視頻、垂直 1080x1920 視頻以及介于兩者之間的所有視頻(如下列3個視頻)。這使得 Sora 可以直接以其原生寬高比為不同設(shè)備創(chuàng)建內(nèi)容,快速以較低尺寸制作原型內(nèi)容。

第二,取景與構(gòu)圖效果的改善。根據(jù)經(jīng)驗發(fā)現(xiàn),以原始寬高比對視頻進(jìn)行訓(xùn)練可以改善構(gòu)圖和取景。比如,常見的將所有訓(xùn)練視頻裁剪為正方形的模型,有時會生成僅部分可見主體的視頻。相比之下,Sora 的視頻取景有所改善。

為什么OpenAI能夠想到將視覺數(shù)據(jù)進(jìn)行統(tǒng)一表示的方法?除了技術(shù)原因外,也很大程度上得益于OpenAI與Pika、Runway,對AI視頻生成模型的認(rèn)知差異。

/ 03 / 世界模型,通過AGI的道路

在Sora發(fā)布前,AI 視頻生成往往被人看作是AI應(yīng)用率先垂直落地的場景之一,因為這很容易讓人想到顛覆短視頻、影視/廣告行業(yè)。

正因為如此,幾乎所有的 AI 視頻生成公司都陷入了同質(zhì)化競爭:過多關(guān)注更高畫質(zhì)、更高成功率、更低成本,而非更大時長的世界模型。你能看到,Pika、Runway做視頻的時長都不超過 4s 范圍,雖然可以做到畫面足夠優(yōu)秀,但物體動態(tài)運(yùn)動表現(xiàn)不佳。

但OpenAI對AI視頻生成的探索更像是沿著另一條路線前進(jìn):通過世界模型,打通虛擬世界與現(xiàn)實世界的邊界,實現(xiàn)真正AGI。在OpenAI公布的Sora技術(shù)報告里,有這樣一句話:

“我們相信Sora今天展現(xiàn)出來的能力,證明了視頻模型的持續(xù)擴(kuò)展(Scaling)是開發(fā)物理和數(shù)字世界(包含了生活在其中的物體、動物和人)模擬器的一條有希望的路?!?

世界模型,最早是由Meta 首席科學(xué)家楊立昆(Yann LeCun)在2023 年 6 月提出的概念,大致意思是可以理解為是要對真實的物理世界進(jìn)行建模,讓機(jī)器像人類一樣,對世界有一個全面而準(zhǔn)確的認(rèn)知,尤其是理解當(dāng)下物理世界存在的諸多自然規(guī)律。

換言之,OpenAI更愿意把Sora 視為理解和模擬現(xiàn)實世界的模型基礎(chǔ),視為 AGI 的一個重要里程碑,而不是AI應(yīng)用落地的場景。這意味著,相比其他玩家,OpenAI永遠(yuǎn)用比問題更高一維度的視角看待問題。

在實際情況里,這會讓解決問題變得更加容易。正如愛因斯坦說過,我們不能用創(chuàng)造問題時的思維來解決問題。從這個角度上說,也能夠解釋為什么OpenAI總能時不時給行業(yè)來點小震撼。

盡管從目前看,AI生成的視頻仍然有著各種各樣的問題,比如模型難以準(zhǔn)確模擬復(fù)雜場景的物理,也可能無法理解因果關(guān)系的具體實例,但不可否認(rèn)的是,至少Sora開始理解部分物理世界的規(guī)則,讓眼見不再為實,基于物理規(guī)則所搭建的世界真實性遇到前所未有挑戰(zhàn)。

當(dāng)大模型從過去文本中學(xué)習(xí)的模式,開始轉(zhuǎn)為向視頻和真實世界學(xué)習(xí)。隨著Scaling Law的邏輯在各個領(lǐng)域涌現(xiàn),或許賽博世界與物理世界的邊界將變得更加模糊。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。