文 | 定焦One 陳丹
編輯 | 魏佳
Sora2的發(fā)布,再次攪動了全球人工智能行業(yè)的神經(jīng)。
9月30日,OpenAI正式推出其視頻生成模型的重大升級版本——Sora2,以及基于該模型的社交應(yīng)用Sora App。與前一代相比,Sora2在物理模擬的精確度、畫面逼真度和生成可控性上顯著提升,并實(shí)現(xiàn)了音頻與人物對話的同步生成。這不僅讓AI視頻更“像真的”,也讓視頻生產(chǎn)“像寫字”一樣簡單。
短短五天,Sora App下載量便突破百萬次;應(yīng)用分析機(jī)構(gòu)App Figures數(shù)據(jù)顯示,其首周iOS下載量達(dá)62.7萬次,高于ChatGPT首周的60.6萬次。盡管Sora App仍處“僅限邀請”階段,但它的下載量增速超過了當(dāng)年的ChatGPT。有觀點(diǎn)稱其為AI版的“TikTok”,被寄望成為下一個(gè)全球現(xiàn)象級應(yīng)用。
在國內(nèi),Sora2同樣掀起熱潮。國慶期間,OpenAI CEO薩姆·奧特曼成為社交媒體上流量擔(dān)當(dāng)。他開放了個(gè)人肖像權(quán),點(diǎn)燃了網(wǎng)友們的創(chuàng)作熱情,其數(shù)字分身從商店偷GPU被抓包、與李小龍對打。這些病毒式傳播的短視頻,也加速了Sora2的出圈。
除了用戶端,Sora2的發(fā)布也讓行業(yè)按下了加速鍵。大廠加速產(chǎn)品迭代,10月15日,百度宣布旗下視頻生成模型百度蒸汽機(jī)再次升級,支持AI長視頻實(shí)時(shí)交互生成;次日,谷歌發(fā)布視頻模型Veo3.1與Veo3.1Fast,主打更豐富的音頻、更強(qiáng)的敘事控制和真實(shí)感。與此同時(shí),創(chuàng)業(yè)團(tuán)隊(duì)也在全力沖刺。多位AI視頻的創(chuàng)業(yè)者向「定焦One」透露,他們最近一直在加班,兩位創(chuàng)業(yè)者甚至只有在深夜才有時(shí)間接通電話。

如今,公眾熱度已趨平穩(wěn),但在AI行業(yè)內(nèi)部,一場靜悄悄的技術(shù)競賽,正在全速展開。
追趕Sora2的人
仿佛一聲發(fā)令槍,Sora2讓AI視頻領(lǐng)域進(jìn)入“超級加速”階段。
國慶假期剛過,社交媒體上便傳出消息:快手AI團(tuán)隊(duì)假期8天無休,全力追趕Sora2的技術(shù)進(jìn)度。
主攻AIGC創(chuàng)作的紀(jì)錄片、廣告片導(dǎo)演丁一向「定焦One」透露,據(jù)他了解到的情況,幾乎所有國內(nèi)AI視頻創(chuàng)業(yè)團(tuán)隊(duì)都已進(jìn)入“全員加班”狀態(tài)。他預(yù)測,不出兩個(gè)月,國產(chǎn)版Sora2類產(chǎn)品可能就會出現(xiàn),“所有的大廠、模型廠商都卷起來了”。
好耶科技創(chuàng)始人吳杰茜也證實(shí)了這種緊迫氛圍,其團(tuán)隊(duì)同樣連軸工作,對Sora2進(jìn)行測試、拆解。她的創(chuàng)業(yè)項(xiàng)目FilmAction是一個(gè)AI電影生成平臺,與Sora2在功能上有不少重疊。Sora2的橫空出世,讓她既興奮又有壓力——興奮于技術(shù)的天花板被再次抬高,焦慮于行業(yè)的迭代速度超出了所有人的想象。
Sora2發(fā)布僅半個(gè)月后,谷歌于10月16日推出Veo3.1與Veo3.1Fast,被普遍解讀為正面迎戰(zhàn)OpenAI的舉措。
同一天,OpenAI也宣布Sora2兩項(xiàng)升級:Pro用戶現(xiàn)可通過網(wǎng)頁端使用“故事板”功能,同時(shí)全平臺視頻生成時(shí)長獲得提升。普通用戶可在App及網(wǎng)頁生成15秒視頻,Pro用戶網(wǎng)頁端更支持生成25秒內(nèi)容,較此前標(biāo)準(zhǔn)版10秒、Pro版15秒的設(shè)定顯著延長。
“這像極了ChatGPT剛出現(xiàn)時(shí)的那一刻,”吳杰茜說,“所有人都在拼命追趕。”
綜合多位從業(yè)者的說法,Sora2的震撼來自于三個(gè)層面的技術(shù)突破:
首先,是物理世界的擬真突破。Sora2能精準(zhǔn)模擬水流、光影、重力與碰撞效果,甚至處理浮力與重心轉(zhuǎn)移等復(fù)雜物理場景,極大提升了人物動作的連貫性與主體穩(wěn)定性。
其次,是多模態(tài)融合。Sora2可直接生成同步音頻,自動匹配環(huán)境聲、動作音效與多語言對白。在此之前,只有少數(shù)幾個(gè)軟件有此功能,但音質(zhì)差不說,人物的語音和口型往往也不匹配。丁一團(tuán)隊(duì)還試著用不同的方言對Sora2進(jìn)行測試,口音自然,口型精準(zhǔn),足見其技術(shù)成熟度。
Sora2真正的顛覆,并非僅是生成視頻的“以假亂真”,而在于它理解了“鏡頭語言”。
吳杰茜的測試印證了這一點(diǎn):她將小說或劇本原文直接輸入Sora2,生成的視頻不僅畫面與文本高度契合,其鏡頭運(yùn)用、節(jié)奏把控等視聽語言,更是達(dá)到了專業(yè)創(chuàng)作者的水準(zhǔn)。
要知道,在Sora2出現(xiàn)之前,AI視頻創(chuàng)作始終受制于“鏡頭思維缺失”。過去,創(chuàng)作者需先手動拆解劇本,反復(fù)琢磨鏡頭銜接邏輯、人物視角選擇、場景轉(zhuǎn)換方式,耗費(fèi)大量時(shí)間。市面上多數(shù)AI工具也只能生成單個(gè)簡單鏡頭,若想串聯(lián)成連續(xù)敘事,還需用戶具備專業(yè)的視聽語言知識與分鏡設(shè)計(jì)能力,門檻并不低。
Sora2打破了這一局限:用戶只需一句話的文本指令,它便能自動生成包含多鏡頭切換、劇情連貫推進(jìn)的完整視頻。換句話說,Sora2不再是單純的“畫面生成工具”,而是初步具備了導(dǎo)演的敘事邏輯與剪輯師的鏡頭調(diào)度能力。
“如果把Sora2比作一位剪輯師,那么他的能力已經(jīng)超越了市場上95%的人?!痹诙∫豢磥恚渌鸄I視頻軟件目前還只是輔助工具,但Sora2一定程度上已經(jīng)具備“智能體”的雛形。
創(chuàng)作門檻坍塌:AI正在重寫“專業(yè)”
但技術(shù)狂奔的另一面,是行業(yè)秩序的松動。當(dāng)AI視頻進(jìn)入“后Sora時(shí)代”,最先感到震動的,往往是那些曾依靠專業(yè)壁壘生存的人。
“既興奮又焦慮?!倍∫蝗绱丝偨Y(jié)Sora2發(fā)布二十天來的心情。
他的團(tuán)隊(duì)是首批測試用戶,結(jié)果Sora2幾乎立刻改變了他們的工作方式。在現(xiàn)在丁一團(tuán)隊(duì)的工作流程中,Sora2已經(jīng)深度嵌入,承擔(dān)了很多前期的籌備工作,比如說分鏡頭的設(shè)計(jì)。注冊四五個(gè)賬號,可以快速的生成大量方案,并從中抽取最滿意者。效率比人工快太多,而且質(zhì)量也不差,包括視頻概念、氣氛、鏡頭運(yùn)動方式這些因素都在其中。
Sora2一句話便能生成15秒成片,這意味著他們團(tuán)隊(duì)平時(shí)接的一些便宜的商單,基本上沒有了技術(shù)門檻。他告訴「定焦One」,目前Youtube上的一些小推流廣告,已經(jīng)在使用Sora2生成。
另一位創(chuàng)作者等登等噔(以下簡稱“等登”)也受到了震動。
在最新的一支短片中,他用Sora2完成幾個(gè)分鏡頭的構(gòu)思:先上傳參考圖片,再用文字描述故事背景與情節(jié),Sora2便能自動生成包含3-4個(gè)分鏡頭的視頻,完整呈現(xiàn)劇情。而且據(jù)他測算,平均操作3次就能得到符合預(yù)期的版本,“抽卡率”遠(yuǎn)高于其他軟件。
技術(shù)進(jìn)步帶來的創(chuàng)作便捷性讓他感嘆不已,但興奮過后,等登心中也有一絲不安:分鏡設(shè)計(jì)曾是專業(yè)創(chuàng)作者與普通用戶的分水嶺,但Sora2正在抹平這個(gè)門檻。
等登告訴「定焦One」,在Sora2出現(xiàn)之前,還沒有哪個(gè)軟件是支持分鏡頭自動生成,部分軟件可以做到一些簡單的分鏡頭,但還是需要使用者明確的提示詞,比如第一個(gè)鏡頭是什么、第二個(gè)鏡頭是什么,然后它會在十秒內(nèi)給出一個(gè)分鏡頭的組合。
Sora2可以直接生成一個(gè)動態(tài)視頻。比如有網(wǎng)友將歸有光的《項(xiàng)脊軒志》最后一句輸給Sora2,生成的視頻第一個(gè)鏡頭是歸有光和枇杷樹的特寫,第二個(gè)鏡頭是歸有光與妻子種植枇杷樹的回憶,回憶鏡頭與歸有光睹樹思人的鏡頭來回切換。在這個(gè)視頻里機(jī)位、角度以及鏡頭的切換AI都已經(jīng)設(shè)計(jì)好了。
在AI時(shí)代,由于技術(shù)進(jìn)步,帶來的專業(yè)壁壘的消解,可能是很多人都需要面對的課題。
AI導(dǎo)演、AI分鏡師等新職業(yè)原本是AIGC帶來的新紅利,但隨著Sora2具備“理解劇本”的能力,這些崗位或許也會被再次淘汰。
丁一對此感觸尤深。
他入行時(shí)也是一名分鏡師,后來進(jìn)入導(dǎo)演組、成為執(zhí)行導(dǎo)演,最終一步步做到導(dǎo)演。過去只要精通一項(xiàng)工具——哪怕是Photoshop,就能找到工作。而現(xiàn)在,純技術(shù)崗位的空間越來越小。今年早些時(shí)候,他拍的一個(gè)實(shí)驗(yàn)性質(zhì)短片試圖找過一些分鏡師,但最后只能不了了之,因?yàn)椤靶侍?、溝通成本也很高”?/p>
焦慮之后,他也開始調(diào)整心態(tài)。最起碼從現(xiàn)階段來看,AI生成的內(nèi)容最終成果還是需要人的把關(guān),個(gè)人的經(jīng)驗(yàn)、審美、判斷都會對最終的結(jié)果產(chǎn)生影響。丁一相信,未來人類的工具就是交互式的AI,就像現(xiàn)在的筆和鍵盤一樣,但最終比拼的仍舊是內(nèi)容和創(chuàng)意。
英偉達(dá)CEO黃仁勛曾對媒體說:“如果世界沒有新的創(chuàng)意,AI的生產(chǎn)力提升終將轉(zhuǎn)化為失業(yè)?!痹赟ora2帶來的劇烈震蕩中,這句話顯得格外應(yīng)景。
從“技術(shù)奇觀”到現(xiàn)實(shí)考題
在AI應(yīng)用層出不窮的時(shí)代,爆紅與冷卻往往只隔幾天。很多人也在觀望,Sora2是否只是“曇花一現(xiàn)”。
從熱度來看,Sora2的確已經(jīng)降溫。
微信指數(shù)和百度指數(shù)顯示,Sora2在國內(nèi)熱度高峰僅維持?jǐn)?shù)日后迅速回落。等登認(rèn)為,一方面國內(nèi)用戶無法直接訪問Sora2,另一方面清晰度與水印限制也讓創(chuàng)作者難以商用,從而削弱了話題度。
吳杰茜則指出,作為新聞事件,它注定會降溫;但作為新的創(chuàng)作工具,它的普及才剛開始。
從前景上看,東莞證券的研報(bào)也佐證了這一觀點(diǎn),認(rèn)為Sora2及其配套社交應(yīng)用的發(fā)布,標(biāo)志著AI視頻生成與社交互動進(jìn)入融合階段,“有望重塑內(nèi)容創(chuàng)作和分發(fā)生態(tài),或迎來AI視頻生成的ChatGPT時(shí)刻?!?/p>
回顧語言模型的發(fā)展史,ChatGPT的出現(xiàn)是AI從實(shí)驗(yàn)室走向大眾的決定性轉(zhuǎn)折點(diǎn)。從這個(gè)意義上講,Sora2也標(biāo)志著視頻生成領(lǐng)域的一個(gè)關(guān)鍵拐點(diǎn)——即從技術(shù)嘗鮮邁向普遍應(yīng)用。
但類似Sora2這樣的產(chǎn)品要想成為全民表達(dá)的工具,需要克服的不僅僅是技術(shù)難題。
首先是版權(quán)的迷霧。Sora2初期采取的“選擇退出(Opt-out)”機(jī)制,默認(rèn)可以使用互聯(lián)網(wǎng)公開內(nèi)容訓(xùn)練模型,將維權(quán)舉證責(zé)任推給版權(quán)方。這種做法迅速招致了好萊塢經(jīng)紀(jì)公司、美國電影協(xié)會乃至日本政府的強(qiáng)烈抵制和法律威脅。
面對集體施壓,OpenAI迅速調(diào)整了策略,奧特曼宣布放棄Opt-out,轉(zhuǎn)而采用更審慎的“主動同意(Opt-in)”模式,即需版權(quán)方簽署明確授權(quán)協(xié)議才能使用其IP。奧特曼還建議引入IP分成收益機(jī)制,與授權(quán)方共享平臺收入。
有律師認(rèn)為,OpenAI的這一機(jī)制將矛盾從法律博弈轉(zhuǎn)向商業(yè)合作。盡管仍有局限,但它預(yù)示AI行業(yè)正邁向付費(fèi)許可與生態(tài)共建的新階段。一位好萊塢制片人的評論頗具代表性:“未來的影視公司,其運(yùn)營模式可能更趨近于版權(quán)管理機(jī)構(gòu),而非傳統(tǒng)的內(nèi)容制造者——這一趨勢幾乎無可避免。”
其次是變現(xiàn)模式的拷問。目前Sora2的主要使用場景仍以娛樂為主,如生成趣味視頻或表情包。這類低價(jià)值、高頻交互難以支撐龐大的模型訓(xùn)練與運(yùn)維成本。未來,專業(yè)用戶或高質(zhì)量內(nèi)容創(chuàng)作者的“付費(fèi)模式”或?qū)⒊蔀橹髁?。如何在廣告變現(xiàn)與用戶體驗(yàn)之間取得平衡,仍是所有AI視頻廠商的共同考題。
這些現(xiàn)實(shí)的疑問和戰(zhàn)略調(diào)整,勾勒出AI視頻行業(yè)從“野蠻生長”轉(zhuǎn)向“理性發(fā)展”的軌跡。
用丁一的話說,隨著Sora2的出現(xiàn),全球AI視頻賽道正邁向更高維的競爭階段。各家模型廠商“卷”得更深,訓(xùn)練數(shù)據(jù)涵蓋影視、動漫、廣告、紀(jì)錄片等多種素材,“AI正在學(xué)習(xí)全人類的影像史”,而當(dāng)技術(shù)卷到極致,拼的將不再是算法,而是創(chuàng)意與落地能力?!?/p>
Sora2發(fā)布二十天后,世界或許并未立刻改變。但在每個(gè)AI視頻創(chuàng)作者的電腦上,故事的生成方式,已經(jīng)悄然不同。


