掃一掃下載界面新聞APP

OpenAI

“新科技春晚”O(jiān)penAI大會(huì)后，國(guó)產(chǎn)大模型們差距更大了嗎？

你期待用上ChatGPT的哪些新功能？

娛樂(lè)資本論 ·

圖片來(lái)源：界面新聞｜匡達(dá)

文 | 娛樂(lè)資本論 James

今天半夜2點(diǎn)，OpenAI召開了首屆開發(fā)者大會(huì)。這條新聞在AIGC圈子里受到了非常重點(diǎn)的關(guān)注，以至于很多人熬夜等完全程的直播，并且迅速總結(jié)出相關(guān)要點(diǎn)。這似乎讓人想到了好多年前的蘋果發(fā)布會(huì)，頗有所謂“科技春晚”的架勢(shì)。

一上午過(guò)去，關(guān)于這次大會(huì)發(fā)布新品內(nèi)容的分析也已經(jīng)夠多了，但如你所料，這里面一定充斥著“史詩(shī)級(jí)更新！”“最強(qiáng)大模型炸場(chǎng)！”“震撼上新！”之類的最高級(jí)形容詞，對(duì)于普通人了解這些新內(nèi)容真實(shí)的意義，以及與自己的關(guān)系，少有幫助。

我們娛樂(lè)資本論要做的事情很簡(jiǎn)單，就是解答兩個(gè)問(wèn)題：

·本次開發(fā)者大會(huì)的更新是否顯著提升了能力，對(duì)文娛、媒體從業(yè)者用戶有什么幫助？

·這些更新是否拉大了ChatGPT與國(guó)內(nèi)友商之間的差距，“趕上或超越GPT”是不是更困難了？

VOL.1ChatGPT能力顯著增強(qiáng)了嗎？

從今天開始，ChatGPT將使用剛剛發(fā)布的GPT-4 Turbo模型。這個(gè)模型支持的上下文token從8k提升到128k，相當(dāng)于一本標(biāo)準(zhǔn)大小的300頁(yè)紙質(zhì)書所包含的文本量；奧特曼也表示，新模型在處理長(zhǎng)文本情境下的準(zhǔn)確度也有所提高。

我們用一個(gè)自己部署的開源客戶端，調(diào)用了GPT-4 Turbo模型，來(lái)整理一篇飛書錄音轉(zhuǎn)文字的速記，目標(biāo)是修改錯(cuò)別字及將口語(yǔ)變得更書面一些。這是娛樂(lè)資本論內(nèi)部非常常用的一個(gè)prompt，但之前受限于生成效果及token長(zhǎng)度，必須將一篇完整的文本對(duì)話提前拆分為很多段，每段最開始是1200字，后來(lái)可以擴(kuò)展到2000字（使用Word字?jǐn)?shù)統(tǒng)計(jì)）。

用來(lái)測(cè)試的速記原文有7863字，GPT-4 Turbo能支持完整輸入整篇速記而不報(bào)錯(cuò)。不過(guò)，在輸出時(shí)它大概停在了5200字左右，后面的沒(méi)有繼續(xù)生成。

速記原文

GPT-4 Turbo API調(diào)用的速記整理結(jié)果

換用ChatGPT，我們把速記全文貼進(jìn)去，7000多字的文本也沒(méi)有讓它抱怨“太長(zhǎng)”，開始在后臺(tái)吭哧吭哧地整理了。

在主prompt之后暫停，并貼入全文

但是，ChatGPT出現(xiàn)了更明顯的“忘詞”情況，僅僅不到500字以后，它就忘記了prompt中“逐字處理速記”的要求，開始概括內(nèi)容并大量丟掉段落。

究其原因，這可能是因?yàn)镃hatGPT還有不可跳過(guò)的預(yù)設(shè)prompt，而且官方一直在更積極地彌補(bǔ)漏洞。而在僅使用API的情況下，它會(huì)忠實(shí)地執(zhí)行你給它的prompt內(nèi)容，而不是添油加醋。

因此，有條件的用戶還是應(yīng)該自行架設(shè)終端，調(diào)用GPT-4 Turbo的API接口，來(lái)確保生成結(jié)果的一致性。

我們的測(cè)試表明，在調(diào)用API逐字整理文本時(shí)，GPT-4 Turbo可用的文本長(zhǎng)度大約是5000漢字；如果只是想要摘要，或就文檔內(nèi)容問(wèn)答等簡(jiǎn)單任務(wù)，直接用ChatGPT就可以。

接下來(lái)，如果你只愿意用ChatGPT的官方界面，現(xiàn)在也有更好的體驗(yàn)了。因?yàn)檫@個(gè)界面當(dāng)中，瀏覽網(wǎng)絡(luò)、數(shù)據(jù)分析、文生圖等都可以交叉調(diào)用，而不是像以前那樣分開在不同的模式里使用。

理論上，這可以大大增加ChatGPT的可玩性，比如很多人期待的圖生圖功能，有的玩法很成功：

但也不是每次嘗試都讓人滿意。比如，我安排的一個(gè)任務(wù)是，看他能不能識(shí)別一張新聞?wù)掌?，并更改照片的畫風(fēng)。這個(gè)任務(wù)需要同時(shí)調(diào)用原本分開的識(shí)圖、搜索和生圖能力。

我們發(fā)現(xiàn)ChatGPT經(jīng)過(guò)這次更新之后，多模態(tài)或聯(lián)網(wǎng)功能有時(shí)會(huì)輸出英文結(jié)果，即使用中文提問(wèn)。好在這不算是什么大問(wèn)題，瀏覽器自帶翻譯的質(zhì)量也不差。

問(wèn)題在于，識(shí)圖的時(shí)候，ChatGPT不能一同聯(lián)網(wǎng)，也沒(méi)有以圖搜圖去尋找準(zhǔn)確答案。

在聯(lián)網(wǎng)的時(shí)候，ChatGPT運(yùn)用了上一步生成的圖片描述文字，因此只能不結(jié)合圖像來(lái)猜測(cè)（當(dāng)然他還是猜對(duì)了）。

以上的兩個(gè)任務(wù)——速記整理和圖生圖——是非常簡(jiǎn)單的演示，對(duì)于文娛和媒體從業(yè)者的日常使用來(lái)說(shuō)，還是我們老生常談的一句話：你以前就用得上的能力，現(xiàn)在變得更好了；但以前就沒(méi)實(shí)現(xiàn)的功能，現(xiàn)在也還是沒(méi)有實(shí)現(xiàn)。

VOL.2“趕上或超越GPT”是不是更難了？

這是過(guò)去大半年來(lái)我們經(jīng)常能在各處看到的景象。

目前已經(jīng)通過(guò)國(guó)家備案的近20款大模型都有過(guò)類似的表述，說(shuō)通過(guò)C-Eval、mmLU和AGIEval等測(cè)試集，它們?cè)谛阅艿哪硞€(gè)角度或全局，都超越了GPT-3.5甚至GPT-4。

但是，用戶實(shí)際上手使用的體驗(yàn)卻是另一回事。根據(jù)娛樂(lè)資本論·視智未來(lái)9月份進(jìn)行的第二次國(guó)產(chǎn)大模型實(shí)用場(chǎng)景測(cè)評(píng)，GPT-4在絕大多數(shù)問(wèn)題上都會(huì)比國(guó)產(chǎn)友商們高1-2分（問(wèn)題滿分5分），假如其聯(lián)網(wǎng)能力正常工作，恐怕分?jǐn)?shù)還會(huì)更高。

此后，ChatGPT又推出多模態(tài)能力的重大升級(jí)。跟這個(gè)版本的ChatGPT相比，國(guó)產(chǎn)模型們的差距被拉得更大了。今天開發(fā)者大會(huì)后更新的ChatGPT，在性能的多數(shù)方面跟上次升級(jí)時(shí)一致。但如同上文所說(shuō)，支持“300頁(yè)圖書”的長(zhǎng)輸入，將讓它進(jìn)一步擠占以此為賣點(diǎn)的大模型的生存空間，比如Claude、百川、月之暗面、零一萬(wàn)物等。

即使是外行人也能根據(jù)其他行業(yè)的經(jīng)驗(yàn)猜出原因。比如，現(xiàn)在的數(shù)據(jù)集就那幾個(gè)，“跑分”后再“優(yōu)化”一下完全在情理之中。

盡管深度學(xué)習(xí)一向被視為“黑盒”乃至“盲盒”，但是在現(xiàn)在的大模型訓(xùn)練中，有針對(duì)性地調(diào)整參數(shù)，實(shí)現(xiàn)開發(fā)過(guò)程的可解釋性，已經(jīng)比一年前簡(jiǎn)單得多，這一定程度上歸功于算力進(jìn)步后“大力出奇跡”的貢獻(xiàn)。

本周發(fā)布第一個(gè)模型成果的李開復(fù)團(tuán)隊(duì)“零一萬(wàn)物”，其技術(shù)合伙人黃文灝（履歷有微軟亞研和北京智源）就說(shuō)道：

“當(dāng)我們建立了自己的評(píng)測(cè)指標(biāo)后，按照評(píng)測(cè)指標(biāo)去優(yōu)化模型的訓(xùn)練過(guò)程，團(tuán)隊(duì)內(nèi)部就會(huì)對(duì)模型有很強(qiáng)的自信，知道做的所有工作都是在優(yōu)化模型的能力。最后再去benchmark（測(cè)試數(shù)據(jù)集）上評(píng)測(cè)訓(xùn)練完的模型，會(huì)發(fā)現(xiàn)模型指標(biāo)還是很不錯(cuò)的。這個(gè)算是個(gè)副產(chǎn)物吧，情理之中也意料之內(nèi)?！?/p>

他認(rèn)為，“大模型是極致的系統(tǒng)科學(xué)，基礎(chǔ)做好了之后，模型在scale up（提升參數(shù)量）的過(guò)程中會(huì)無(wú)比‘絲滑’。”

由此可見，在當(dāng)今“大煉模型”的浪潮中，這件事已經(jīng)一定程度從科學(xué)乃至“玄學(xué)”領(lǐng)域，簡(jiǎn)化到了一個(gè)工程問(wèn)題。正如猴子無(wú)限的尹伯昊對(duì)河豚君說(shuō)過(guò)的：“算法很難有壁壘，但是工程能力是有壁壘的?！碑?dāng)時(shí)他形容的是大模型私有化這種中間層的競(jìng)爭(zhēng)，但現(xiàn)在在基底的模型層，也出現(xiàn)了同樣的傾向。

然而，各大模型的“基礎(chǔ)”部分依然存在參差不齊的差距，這部分也更少有規(guī)律可循。微軟之前一篇論文聲稱，ChatGPT的參數(shù)量?jī)H有區(qū)區(qū)200億（20B），當(dāng)時(shí)可是引起了行業(yè)巨震——文心大模型參數(shù)2600億，通義M6宣稱參數(shù)規(guī)模10萬(wàn)億，什么微軟谷歌統(tǒng)統(tǒng)沒(méi)法比。不過(guò)，微軟此后又撤回了這部分?jǐn)?shù)據(jù)。

讀者們應(yīng)該還記得ChatGPT突然“涌現(xiàn)”時(shí)給人帶來(lái)的震撼。我們可以提供一個(gè)比較簡(jiǎn)單粗暴的判斷方法：

如果某個(gè)大模型的升級(jí)版本，在實(shí)際使用中沒(méi)有讓你產(chǎn)生“驚艷”的，跟以前完全不一樣了的感覺，它就還沒(méi)有達(dá)到自己宣稱的“超越GPT-x”的說(shuō)法。

在本次開發(fā)者大會(huì)上，ChatGPT引入了很多人期待的Agent（代理）功能，被直白地稱為“GPT們”。官方定義是，這是自定義版本的ChatGPT，融合了用戶指定的初始prompt、額外的知識(shí)，以及執(zhí)行特殊任務(wù)的能力（應(yīng)該是API）。

此前，ChatGPT允許用戶自定義兩段話來(lái)優(yōu)化輸出結(jié)果，即“向GPT介紹你自己”和“你期待GPT怎么回答你”。這與創(chuàng)建“GPT”所需的材料非常相似，但這個(gè)設(shè)置會(huì)無(wú)條件應(yīng)用于每一段對(duì)話，且效果也沒(méi)有太顯著。

新的“GPT”創(chuàng)建能力沒(méi)有馬上推出，而是要等到11月底。OpenAI方面放出了一些官方預(yù)置的“GPT”，我們嘗試了其中一個(gè)“GenZ 4 meme”，它的長(zhǎng)項(xiàng)是用拽拽的語(yǔ)氣回答你對(duì)于歐美年輕人流行文化的疑問(wèn)。

馬斯克說(shuō)X（Twitter）的大模型“Grok”默認(rèn)回復(fù)語(yǔ)氣就是有點(diǎn)兒不正經(jīng)的那種，從“GPTs”的演示看，這可能只需要定義一個(gè)“GPT”就可以重現(xiàn)。

不過(guò)，現(xiàn)在有一個(gè)Bug是切換到“GPT”情景模式時(shí)，輸入框不起作用，因此無(wú)法自己輸入問(wèn)題，不能上傳圖片，也無(wú)法追問(wèn)。我們只能用它的默認(rèn)問(wèn)題，然后再點(diǎn)擊“修改提問(wèn)”來(lái)放入自己的prompt來(lái)變相使用。

跟國(guó)產(chǎn)大模型的“助理”、“分身”、“數(shù)字員工”等比起來(lái)，那些都只是一句預(yù)定義的prompt而已，你自己輸入同一句話，效果是一樣的。很顯然“GPT”更為復(fù)雜，它需要增加在每次提問(wèn)時(shí)都生效的用戶prompt，還會(huì)加入預(yù)置的知識(shí)內(nèi)容（雖然字?jǐn)?shù)很少，但這相當(dāng)于一個(gè)小型的私有化訓(xùn)練）。

我們認(rèn)為，如果國(guó)產(chǎn)大模型想通過(guò)專門的能力定向優(yōu)化，在某些任務(wù)上實(shí)現(xiàn)局部“超越GPT”的結(jié)果，這些定向優(yōu)化的步驟，必須比只有一句prompt要更有誠(chéng)意才行。要不然，以后每個(gè)ChatGPT的消費(fèi)者都可以自己實(shí)現(xiàn)“專屬模型”的效果了。

VOL.3如果OpenAI是“蘋果”，國(guó)內(nèi)友商會(huì)是“安卓”嗎？

“科技春晚”這個(gè)稱呼，最早被國(guó)內(nèi)媒體用在形容蘋果的發(fā)布會(huì)上，因?yàn)槟菚r(shí)的蘋果總是能給人們各種各樣的驚喜，其它手機(jī)、電腦和手表廠商難以望其項(xiàng)背。

在很多次發(fā)布會(huì)帶來(lái)的驚喜當(dāng)中，蘋果產(chǎn)品不知不覺地從一般人只能仰望，但是買不起的“高嶺之花”，變成了更下沉、更大眾的技術(shù)工具。更多人形成了無(wú)腦換新機(jī)的習(xí)慣，稱為交“蘋果稅”。

最近這幾年的蘋果發(fā)布會(huì)，關(guān)注度遠(yuǎn)遠(yuǎn)比以前下降了，也和“春晚”本晚一樣逐漸少人關(guān)注。這有多方面的原因：

·首先，蘋果產(chǎn)品的創(chuàng)新雖然還有，但是相比以前，肯定是乏力了很多。

·然后，蘋果現(xiàn)在的產(chǎn)品發(fā)布節(jié)奏也跟以前不同，有一些產(chǎn)品只發(fā)個(gè)新聞稿就上架了，沒(méi)有擠在一年一兩次集中發(fā)布。

·最后，各種國(guó)內(nèi)競(jìng)品的競(jìng)爭(zhēng)力逐漸趕上，蘋果的獨(dú)特性不再成為一種“剛需”和苦苦追求的夢(mèng)想。

OpenAI被業(yè)界稱為實(shí)現(xiàn)了AIGC的“iPhone時(shí)刻”，而這家公司本身，也一直將自己在行業(yè)中的地位與蘋果相提并論，它也希望擁有扭轉(zhuǎn)乾坤的“現(xiàn)實(shí)扭曲力場(chǎng)”。

從這一年來(lái)ChatGPT給用戶和開發(fā)者的感受來(lái)看，它確實(shí)保持著跟國(guó)內(nèi)外競(jìng)品的斷層優(yōu)勢(shì)，而且尚未被開源陣營(yíng)趕上。因此，可能也是時(shí)候把“科技春晚”的桂冠從蘋果發(fā)布會(huì)的頭上摘下來(lái)，戴到OpenAI發(fā)布會(huì)的頭上了。

如果我們暢想未來(lái)，希望今后國(guó)產(chǎn)大模型圍獵OpenAI，也像國(guó)產(chǎn)手機(jī)對(duì)陣蘋果一樣，至少在性價(jià)比、多樣性、可用性等方面局部地勝出，具備一定的競(jìng)爭(zhēng)力；如果我們希望未來(lái)OpenAI的發(fā)布會(huì)，也像現(xiàn)在的蘋果發(fā)布會(huì)一樣，不再讓追趕者有那么強(qiáng)烈的無(wú)力感，那應(yīng)該怎么做呢？

·首先，OpenAI雖然有強(qiáng)大的創(chuàng)新能力，但從歷史規(guī)律看，它不可能永遠(yuǎn)保持領(lǐng)先。它可能會(huì)犯錯(cuò)，或者失去原先一樣的增長(zhǎng)速度。

·然后，OpenAI的未來(lái)產(chǎn)品發(fā)布也可能沒(méi)有規(guī)律，有的計(jì)劃中的發(fā)布可能拖延。

·最后，國(guó)內(nèi)競(jìng)品和開源體系有可能在OpenAI發(fā)展放緩的時(shí)候，縮小與其之間的差距，甚至通過(guò)意外的“涌現(xiàn)”創(chuàng)造驚喜。

只要真正的創(chuàng)新一直在發(fā)生，我們相信大模型產(chǎn)品的成本終究會(huì)下降，也和蘋果硬件一樣，變成更下沉、更大眾的技術(shù)工具。而在那樣的未來(lái)當(dāng)中，一定少不了中國(guó)廠家的身影。

最后，讓我們用ChatGPT自己給本文畫的題圖，來(lái)作為這篇文章的結(jié)尾。

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

OpenAI

“GPT-4o之母”宣布離職，OpenAI管理層持續(xù)動(dòng)蕩1天前
OpenAI呼吁美國(guó)加州和特拉華州就“潛在不正當(dāng)競(jìng)爭(zhēng)”調(diào)查馬斯克2天前

人工智能OpenAI 大模型

評(píng)論

暫無(wú)評(píng)論哦，快來(lái)評(píng)價(jià)一下吧！

下載界面新聞

微信公眾號(hào)

微博

OpenAI