四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

正在閱讀:

“新科技春晚”O(jiān)penAI大會(huì)后,國(guó)產(chǎn)大模型們差距更大了嗎?

掃一掃下載界面新聞APP

“新科技春晚”O(jiān)penAI大會(huì)后,國(guó)產(chǎn)大模型們差距更大了嗎?

你期待用上ChatGPT的哪些新功能?

圖片來(lái)源:界面新聞| 匡達(dá)

文 | 娛樂(lè)資本論 James

今天半夜2點(diǎn),OpenAI召開了首屆開發(fā)者大會(huì)。這條新聞在AIGC圈子里受到了非常重點(diǎn)的關(guān)注,以至于很多人熬夜等完全程的直播,并且迅速總結(jié)出相關(guān)要點(diǎn)。這似乎讓人想到了好多年前的蘋果發(fā)布會(huì),頗有所謂“科技春晚”的架勢(shì)。

一上午過(guò)去,關(guān)于這次大會(huì)發(fā)布新品內(nèi)容的分析也已經(jīng)夠多了,但如你所料,這里面一定充斥著“史詩(shī)級(jí)更新!”“最強(qiáng)大模型炸場(chǎng)!”“震撼上新!”之類的最高級(jí)形容詞,對(duì)于普通人了解這些新內(nèi)容真實(shí)的意義,以及與自己的關(guān)系,少有幫助。

我們娛樂(lè)資本論要做的事情很簡(jiǎn)單,就是解答兩個(gè)問(wèn)題:

·本次開發(fā)者大會(huì)的更新是否顯著提升了能力,對(duì)文娛、媒體從業(yè)者用戶有什么幫助?

·這些更新是否拉大了ChatGPT與國(guó)內(nèi)友商之間的差距,“趕上或超越GPT”是不是更困難了?

VOL.1ChatGPT能力顯著增強(qiáng)了嗎?

從今天開始,ChatGPT將使用剛剛發(fā)布的GPT-4 Turbo模型。這個(gè)模型支持的上下文token從8k提升到128k,相當(dāng)于一本標(biāo)準(zhǔn)大小的300頁(yè)紙質(zhì)書所包含的文本量;奧特曼也表示,新模型在處理長(zhǎng)文本情境下的準(zhǔn)確度也有所提高。

我們用一個(gè)自己部署的開源客戶端,調(diào)用了GPT-4 Turbo模型,來(lái)整理一篇飛書錄音轉(zhuǎn)文字的速記,目標(biāo)是修改錯(cuò)別字及將口語(yǔ)變得更書面一些。這是娛樂(lè)資本論內(nèi)部非常常用的一個(gè)prompt,但之前受限于生成效果及token長(zhǎng)度,必須將一篇完整的文本對(duì)話提前拆分為很多段,每段最開始是1200字,后來(lái)可以擴(kuò)展到2000字(使用Word字?jǐn)?shù)統(tǒng)計(jì))。

用來(lái)測(cè)試的速記原文有7863字,GPT-4 Turbo能支持完整輸入整篇速記而不報(bào)錯(cuò)。不過(guò),在輸出時(shí)它大概停在了5200字左右,后面的沒(méi)有繼續(xù)生成。

速記原文

GPT-4 Turbo API調(diào)用的速記整理結(jié)果

換用ChatGPT,我們把速記全文貼進(jìn)去,7000多字的文本也沒(méi)有讓它抱怨“太長(zhǎng)”,開始在后臺(tái)吭哧吭哧地整理了。

在主prompt之后暫停,并貼入全文

但是,ChatGPT出現(xiàn)了更明顯的“忘詞”情況,僅僅不到500字以后,它就忘記了prompt中“逐字處理速記”的要求,開始概括內(nèi)容并大量丟掉段落。

究其原因,這可能是因?yàn)镃hatGPT還有不可跳過(guò)的預(yù)設(shè)prompt,而且官方一直在更積極地彌補(bǔ)漏洞。而在僅使用API的情況下,它會(huì)忠實(shí)地執(zhí)行你給它的prompt內(nèi)容,而不是添油加醋。

因此,有條件的用戶還是應(yīng)該自行架設(shè)終端,調(diào)用GPT-4 Turbo的API接口,來(lái)確保生成結(jié)果的一致性。

我們的測(cè)試表明,在調(diào)用API逐字整理文本時(shí),GPT-4 Turbo可用的文本長(zhǎng)度大約是5000漢字;如果只是想要摘要,或就文檔內(nèi)容問(wèn)答等簡(jiǎn)單任務(wù),直接用ChatGPT就可以。

接下來(lái),如果你只愿意用ChatGPT的官方界面,現(xiàn)在也有更好的體驗(yàn)了。因?yàn)檫@個(gè)界面當(dāng)中,瀏覽網(wǎng)絡(luò)、數(shù)據(jù)分析、文生圖等都可以交叉調(diào)用,而不是像以前那樣分開在不同的模式里使用。

理論上,這可以大大增加ChatGPT的可玩性,比如很多人期待的圖生圖功能,有的玩法很成功:

但也不是每次嘗試都讓人滿意。比如,我安排的一個(gè)任務(wù)是,看他能不能識(shí)別一張新聞?wù)掌?,并更改照片的畫風(fēng)。這個(gè)任務(wù)需要同時(shí)調(diào)用原本分開的識(shí)圖、搜索和生圖能力。

我們發(fā)現(xiàn)ChatGPT經(jīng)過(guò)這次更新之后,多模態(tài)或聯(lián)網(wǎng)功能有時(shí)會(huì)輸出英文結(jié)果,即使用中文提問(wèn)。好在這不算是什么大問(wèn)題,瀏覽器自帶翻譯的質(zhì)量也不差。

問(wèn)題在于,識(shí)圖的時(shí)候,ChatGPT不能一同聯(lián)網(wǎng),也沒(méi)有以圖搜圖去尋找準(zhǔn)確答案。

在聯(lián)網(wǎng)的時(shí)候,ChatGPT運(yùn)用了上一步生成的圖片描述文字,因此只能不結(jié)合圖像來(lái)猜測(cè)(當(dāng)然他還是猜對(duì)了)。

以上的兩個(gè)任務(wù)——速記整理和圖生圖——是非常簡(jiǎn)單的演示,對(duì)于文娛和媒體從業(yè)者的日常使用來(lái)說(shuō),還是我們老生常談的一句話:你以前就用得上的能力,現(xiàn)在變得更好了;但以前就沒(méi)實(shí)現(xiàn)的功能,現(xiàn)在也還是沒(méi)有實(shí)現(xiàn)。

VOL.2“趕上或超越GPT”是不是更難了?

這是過(guò)去大半年來(lái)我們經(jīng)常能在各處看到的景象。

目前已經(jīng)通過(guò)國(guó)家備案的近20款大模型都有過(guò)類似的表述,說(shuō)通過(guò)C-Eval、mmLU和AGIEval等測(cè)試集,它們?cè)谛阅艿哪硞€(gè)角度或全局,都超越了GPT-3.5甚至GPT-4。

但是,用戶實(shí)際上手使用的體驗(yàn)卻是另一回事。根據(jù)娛樂(lè)資本論·視智未來(lái)9月份進(jìn)行的第二次國(guó)產(chǎn)大模型實(shí)用場(chǎng)景測(cè)評(píng),GPT-4在絕大多數(shù)問(wèn)題上都會(huì)比國(guó)產(chǎn)友商們高1-2分(問(wèn)題滿分5分),假如其聯(lián)網(wǎng)能力正常工作,恐怕分?jǐn)?shù)還會(huì)更高。

此后,ChatGPT又推出多模態(tài)能力的重大升級(jí)。跟這個(gè)版本的ChatGPT相比,國(guó)產(chǎn)模型們的差距被拉得更大了。今天開發(fā)者大會(huì)后更新的ChatGPT,在性能的多數(shù)方面跟上次升級(jí)時(shí)一致。但如同上文所說(shuō),支持“300頁(yè)圖書”的長(zhǎng)輸入,將讓它進(jìn)一步擠占以此為賣點(diǎn)的大模型的生存空間,比如Claude、百川、月之暗面、零一萬(wàn)物等。

即使是外行人也能根據(jù)其他行業(yè)的經(jīng)驗(yàn)猜出原因。比如,現(xiàn)在的數(shù)據(jù)集就那幾個(gè),“跑分”后再“優(yōu)化”一下完全在情理之中。

盡管深度學(xué)習(xí)一向被視為“黑盒”乃至“盲盒”,但是在現(xiàn)在的大模型訓(xùn)練中,有針對(duì)性地調(diào)整參數(shù),實(shí)現(xiàn)開發(fā)過(guò)程的可解釋性,已經(jīng)比一年前簡(jiǎn)單得多,這一定程度上歸功于算力進(jìn)步后“大力出奇跡”的貢獻(xiàn)。

本周發(fā)布第一個(gè)模型成果的李開復(fù)團(tuán)隊(duì)“零一萬(wàn)物”,其技術(shù)合伙人黃文灝(履歷有微軟亞研和北京智源)就說(shuō)道:

“當(dāng)我們建立了自己的評(píng)測(cè)指標(biāo)后,按照評(píng)測(cè)指標(biāo)去優(yōu)化模型的訓(xùn)練過(guò)程,團(tuán)隊(duì)內(nèi)部就會(huì)對(duì)模型有很強(qiáng)的自信,知道做的所有工作都是在優(yōu)化模型的能力。最后再去benchmark(測(cè)試數(shù)據(jù)集)上評(píng)測(cè)訓(xùn)練完的模型,會(huì)發(fā)現(xiàn)模型指標(biāo)還是很不錯(cuò)的。這個(gè)算是個(gè)副產(chǎn)物吧,情理之中也意料之內(nèi)?!?/p>

他認(rèn)為,“大模型是極致的系統(tǒng)科學(xué),基礎(chǔ)做好了之后,模型在scale up(提升參數(shù)量)的過(guò)程中會(huì)無(wú)比‘絲滑’?!?/p>

由此可見,在當(dāng)今“大煉模型”的浪潮中,這件事已經(jīng)一定程度從科學(xué)乃至“玄學(xué)”領(lǐng)域,簡(jiǎn)化到了一個(gè)工程問(wèn)題。正如猴子無(wú)限的尹伯昊對(duì)河豚君說(shuō)過(guò)的:“算法很難有壁壘,但是工程能力是有壁壘的?!碑?dāng)時(shí)他形容的是大模型私有化這種中間層的競(jìng)爭(zhēng),但現(xiàn)在在基底的模型層,也出現(xiàn)了同樣的傾向。

然而,各大模型的“基礎(chǔ)”部分依然存在參差不齊的差距,這部分也更少有規(guī)律可循。微軟之前一篇論文聲稱,ChatGPT的參數(shù)量?jī)H有區(qū)區(qū)200億(20B),當(dāng)時(shí)可是引起了行業(yè)巨震——文心大模型參數(shù)2600億,通義M6宣稱參數(shù)規(guī)模10萬(wàn)億,什么微軟谷歌統(tǒng)統(tǒng)沒(méi)法比。不過(guò),微軟此后又撤回了這部分?jǐn)?shù)據(jù)。

讀者們應(yīng)該還記得ChatGPT突然“涌現(xiàn)”時(shí)給人帶來(lái)的震撼。我們可以提供一個(gè)比較簡(jiǎn)單粗暴的判斷方法:

如果某個(gè)大模型的升級(jí)版本,在實(shí)際使用中沒(méi)有讓你產(chǎn)生“驚艷”的,跟以前完全不一樣了的感覺,它就還沒(méi)有達(dá)到自己宣稱的“超越GPT-x”的說(shuō)法。

在本次開發(fā)者大會(huì)上,ChatGPT引入了很多人期待的Agent(代理)功能,被直白地稱為“GPT們”。官方定義是,這是自定義版本的ChatGPT,融合了用戶指定的初始prompt、額外的知識(shí),以及執(zhí)行特殊任務(wù)的能力(應(yīng)該是API)。

此前,ChatGPT允許用戶自定義兩段話來(lái)優(yōu)化輸出結(jié)果,即“向GPT介紹你自己”和“你期待GPT怎么回答你”。這與創(chuàng)建“GPT”所需的材料非常相似,但這個(gè)設(shè)置會(huì)無(wú)條件應(yīng)用于每一段對(duì)話,且效果也沒(méi)有太顯著。

新的“GPT”創(chuàng)建能力沒(méi)有馬上推出,而是要等到11月底。OpenAI方面放出了一些官方預(yù)置的“GPT”,我們嘗試了其中一個(gè)“GenZ 4 meme”,它的長(zhǎng)項(xiàng)是用拽拽的語(yǔ)氣回答你對(duì)于歐美年輕人流行文化的疑問(wèn)。

馬斯克說(shuō)X(Twitter)的大模型“Grok”默認(rèn)回復(fù)語(yǔ)氣就是有點(diǎn)兒不正經(jīng)的那種,從“GPTs”的演示看,這可能只需要定義一個(gè)“GPT”就可以重現(xiàn)。

不過(guò),現(xiàn)在有一個(gè)Bug是切換到“GPT”情景模式時(shí),輸入框不起作用,因此無(wú)法自己輸入問(wèn)題,不能上傳圖片,也無(wú)法追問(wèn)。我們只能用它的默認(rèn)問(wèn)題,然后再點(diǎn)擊“修改提問(wèn)”來(lái)放入自己的prompt來(lái)變相使用。

跟國(guó)產(chǎn)大模型的“助理”、“分身”、“數(shù)字員工”等比起來(lái),那些都只是一句預(yù)定義的prompt而已,你自己輸入同一句話,效果是一樣的。很顯然“GPT”更為復(fù)雜,它需要增加在每次提問(wèn)時(shí)都生效的用戶prompt,還會(huì)加入預(yù)置的知識(shí)內(nèi)容(雖然字?jǐn)?shù)很少,但這相當(dāng)于一個(gè)小型的私有化訓(xùn)練)。

我們認(rèn)為,如果國(guó)產(chǎn)大模型想通過(guò)專門的能力定向優(yōu)化,在某些任務(wù)上實(shí)現(xiàn)局部“超越GPT”的結(jié)果,這些定向優(yōu)化的步驟,必須比只有一句prompt要更有誠(chéng)意才行。要不然,以后每個(gè)ChatGPT的消費(fèi)者都可以自己實(shí)現(xiàn)“專屬模型”的效果了。

VOL.3如果OpenAI是“蘋果”,國(guó)內(nèi)友商會(huì)是“安卓”嗎?

“科技春晚”這個(gè)稱呼,最早被國(guó)內(nèi)媒體用在形容蘋果的發(fā)布會(huì)上,因?yàn)槟菚r(shí)的蘋果總是能給人們各種各樣的驚喜,其它手機(jī)、電腦和手表廠商難以望其項(xiàng)背。

在很多次發(fā)布會(huì)帶來(lái)的驚喜當(dāng)中,蘋果產(chǎn)品不知不覺地從一般人只能仰望,但是買不起的“高嶺之花”,變成了更下沉、更大眾的技術(shù)工具。更多人形成了無(wú)腦換新機(jī)的習(xí)慣,稱為交“蘋果稅”。

最近這幾年的蘋果發(fā)布會(huì),關(guān)注度遠(yuǎn)遠(yuǎn)比以前下降了,也和“春晚”本晚一樣逐漸少人關(guān)注。這有多方面的原因:

·首先,蘋果產(chǎn)品的創(chuàng)新雖然還有,但是相比以前,肯定是乏力了很多。

·然后,蘋果現(xiàn)在的產(chǎn)品發(fā)布節(jié)奏也跟以前不同,有一些產(chǎn)品只發(fā)個(gè)新聞稿就上架了,沒(méi)有擠在一年一兩次集中發(fā)布。

·最后,各種國(guó)內(nèi)競(jìng)品的競(jìng)爭(zhēng)力逐漸趕上,蘋果的獨(dú)特性不再成為一種“剛需”和苦苦追求的夢(mèng)想。

OpenAI被業(yè)界稱為實(shí)現(xiàn)了AIGC的“iPhone時(shí)刻”,而這家公司本身,也一直將自己在行業(yè)中的地位與蘋果相提并論,它也希望擁有扭轉(zhuǎn)乾坤的“現(xiàn)實(shí)扭曲力場(chǎng)”。

從這一年來(lái)ChatGPT給用戶和開發(fā)者的感受來(lái)看,它確實(shí)保持著跟國(guó)內(nèi)外競(jìng)品的斷層優(yōu)勢(shì),而且尚未被開源陣營(yíng)趕上。因此,可能也是時(shí)候把“科技春晚”的桂冠從蘋果發(fā)布會(huì)的頭上摘下來(lái),戴到OpenAI發(fā)布會(huì)的頭上了。

如果我們暢想未來(lái),希望今后國(guó)產(chǎn)大模型圍獵OpenAI,也像國(guó)產(chǎn)手機(jī)對(duì)陣蘋果一樣,至少在性價(jià)比、多樣性、可用性等方面局部地勝出,具備一定的競(jìng)爭(zhēng)力;如果我們希望未來(lái)OpenAI的發(fā)布會(huì),也像現(xiàn)在的蘋果發(fā)布會(huì)一樣,不再讓追趕者有那么強(qiáng)烈的無(wú)力感,那應(yīng)該怎么做呢?

·首先,OpenAI雖然有強(qiáng)大的創(chuàng)新能力,但從歷史規(guī)律看,它不可能永遠(yuǎn)保持領(lǐng)先。它可能會(huì)犯錯(cuò),或者失去原先一樣的增長(zhǎng)速度。

·然后,OpenAI的未來(lái)產(chǎn)品發(fā)布也可能沒(méi)有規(guī)律,有的計(jì)劃中的發(fā)布可能拖延。

·最后,國(guó)內(nèi)競(jìng)品和開源體系有可能在OpenAI發(fā)展放緩的時(shí)候,縮小與其之間的差距,甚至通過(guò)意外的“涌現(xiàn)”創(chuàng)造驚喜。

只要真正的創(chuàng)新一直在發(fā)生,我們相信大模型產(chǎn)品的成本終究會(huì)下降,也和蘋果硬件一樣,變成更下沉、更大眾的技術(shù)工具。而在那樣的未來(lái)當(dāng)中,一定少不了中國(guó)廠家的身影。

最后,讓我們用ChatGPT自己給本文畫的題圖,來(lái)作為這篇文章的結(jié)尾。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

OpenAI

  • OpenAI與美能源部簽署協(xié)議,尋求在AI與先進(jìn)計(jì)算領(lǐng)域擴(kuò)大合作
  • OpenAI發(fā)布智能體編程模型GPT-5.2-Codex

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

“新科技春晚”O(jiān)penAI大會(huì)后,國(guó)產(chǎn)大模型們差距更大了嗎?

你期待用上ChatGPT的哪些新功能?

圖片來(lái)源:界面新聞| 匡達(dá)

文 | 娛樂(lè)資本論 James

今天半夜2點(diǎn),OpenAI召開了首屆開發(fā)者大會(huì)。這條新聞在AIGC圈子里受到了非常重點(diǎn)的關(guān)注,以至于很多人熬夜等完全程的直播,并且迅速總結(jié)出相關(guān)要點(diǎn)。這似乎讓人想到了好多年前的蘋果發(fā)布會(huì),頗有所謂“科技春晚”的架勢(shì)。

一上午過(guò)去,關(guān)于這次大會(huì)發(fā)布新品內(nèi)容的分析也已經(jīng)夠多了,但如你所料,這里面一定充斥著“史詩(shī)級(jí)更新!”“最強(qiáng)大模型炸場(chǎng)!”“震撼上新!”之類的最高級(jí)形容詞,對(duì)于普通人了解這些新內(nèi)容真實(shí)的意義,以及與自己的關(guān)系,少有幫助。

我們娛樂(lè)資本論要做的事情很簡(jiǎn)單,就是解答兩個(gè)問(wèn)題:

·本次開發(fā)者大會(huì)的更新是否顯著提升了能力,對(duì)文娛、媒體從業(yè)者用戶有什么幫助?

·這些更新是否拉大了ChatGPT與國(guó)內(nèi)友商之間的差距,“趕上或超越GPT”是不是更困難了?

VOL.1ChatGPT能力顯著增強(qiáng)了嗎?

從今天開始,ChatGPT將使用剛剛發(fā)布的GPT-4 Turbo模型。這個(gè)模型支持的上下文token從8k提升到128k,相當(dāng)于一本標(biāo)準(zhǔn)大小的300頁(yè)紙質(zhì)書所包含的文本量;奧特曼也表示,新模型在處理長(zhǎng)文本情境下的準(zhǔn)確度也有所提高。

我們用一個(gè)自己部署的開源客戶端,調(diào)用了GPT-4 Turbo模型,來(lái)整理一篇飛書錄音轉(zhuǎn)文字的速記,目標(biāo)是修改錯(cuò)別字及將口語(yǔ)變得更書面一些。這是娛樂(lè)資本論內(nèi)部非常常用的一個(gè)prompt,但之前受限于生成效果及token長(zhǎng)度,必須將一篇完整的文本對(duì)話提前拆分為很多段,每段最開始是1200字,后來(lái)可以擴(kuò)展到2000字(使用Word字?jǐn)?shù)統(tǒng)計(jì))。

用來(lái)測(cè)試的速記原文有7863字,GPT-4 Turbo能支持完整輸入整篇速記而不報(bào)錯(cuò)。不過(guò),在輸出時(shí)它大概停在了5200字左右,后面的沒(méi)有繼續(xù)生成。

速記原文

GPT-4 Turbo API調(diào)用的速記整理結(jié)果

換用ChatGPT,我們把速記全文貼進(jìn)去,7000多字的文本也沒(méi)有讓它抱怨“太長(zhǎng)”,開始在后臺(tái)吭哧吭哧地整理了。

在主prompt之后暫停,并貼入全文

但是,ChatGPT出現(xiàn)了更明顯的“忘詞”情況,僅僅不到500字以后,它就忘記了prompt中“逐字處理速記”的要求,開始概括內(nèi)容并大量丟掉段落。

究其原因,這可能是因?yàn)镃hatGPT還有不可跳過(guò)的預(yù)設(shè)prompt,而且官方一直在更積極地彌補(bǔ)漏洞。而在僅使用API的情況下,它會(huì)忠實(shí)地執(zhí)行你給它的prompt內(nèi)容,而不是添油加醋。

因此,有條件的用戶還是應(yīng)該自行架設(shè)終端,調(diào)用GPT-4 Turbo的API接口,來(lái)確保生成結(jié)果的一致性。

我們的測(cè)試表明,在調(diào)用API逐字整理文本時(shí),GPT-4 Turbo可用的文本長(zhǎng)度大約是5000漢字;如果只是想要摘要,或就文檔內(nèi)容問(wèn)答等簡(jiǎn)單任務(wù),直接用ChatGPT就可以。

接下來(lái),如果你只愿意用ChatGPT的官方界面,現(xiàn)在也有更好的體驗(yàn)了。因?yàn)檫@個(gè)界面當(dāng)中,瀏覽網(wǎng)絡(luò)、數(shù)據(jù)分析、文生圖等都可以交叉調(diào)用,而不是像以前那樣分開在不同的模式里使用。

理論上,這可以大大增加ChatGPT的可玩性,比如很多人期待的圖生圖功能,有的玩法很成功:

但也不是每次嘗試都讓人滿意。比如,我安排的一個(gè)任務(wù)是,看他能不能識(shí)別一張新聞?wù)掌?,并更改照片的畫風(fēng)。這個(gè)任務(wù)需要同時(shí)調(diào)用原本分開的識(shí)圖、搜索和生圖能力。

我們發(fā)現(xiàn)ChatGPT經(jīng)過(guò)這次更新之后,多模態(tài)或聯(lián)網(wǎng)功能有時(shí)會(huì)輸出英文結(jié)果,即使用中文提問(wèn)。好在這不算是什么大問(wèn)題,瀏覽器自帶翻譯的質(zhì)量也不差。

問(wèn)題在于,識(shí)圖的時(shí)候,ChatGPT不能一同聯(lián)網(wǎng),也沒(méi)有以圖搜圖去尋找準(zhǔn)確答案。

在聯(lián)網(wǎng)的時(shí)候,ChatGPT運(yùn)用了上一步生成的圖片描述文字,因此只能不結(jié)合圖像來(lái)猜測(cè)(當(dāng)然他還是猜對(duì)了)。

以上的兩個(gè)任務(wù)——速記整理和圖生圖——是非常簡(jiǎn)單的演示,對(duì)于文娛和媒體從業(yè)者的日常使用來(lái)說(shuō),還是我們老生常談的一句話:你以前就用得上的能力,現(xiàn)在變得更好了;但以前就沒(méi)實(shí)現(xiàn)的功能,現(xiàn)在也還是沒(méi)有實(shí)現(xiàn)。

VOL.2“趕上或超越GPT”是不是更難了?

這是過(guò)去大半年來(lái)我們經(jīng)常能在各處看到的景象。

目前已經(jīng)通過(guò)國(guó)家備案的近20款大模型都有過(guò)類似的表述,說(shuō)通過(guò)C-Eval、mmLU和AGIEval等測(cè)試集,它們?cè)谛阅艿哪硞€(gè)角度或全局,都超越了GPT-3.5甚至GPT-4。

但是,用戶實(shí)際上手使用的體驗(yàn)卻是另一回事。根據(jù)娛樂(lè)資本論·視智未來(lái)9月份進(jìn)行的第二次國(guó)產(chǎn)大模型實(shí)用場(chǎng)景測(cè)評(píng),GPT-4在絕大多數(shù)問(wèn)題上都會(huì)比國(guó)產(chǎn)友商們高1-2分(問(wèn)題滿分5分),假如其聯(lián)網(wǎng)能力正常工作,恐怕分?jǐn)?shù)還會(huì)更高。

此后,ChatGPT又推出多模態(tài)能力的重大升級(jí)。跟這個(gè)版本的ChatGPT相比,國(guó)產(chǎn)模型們的差距被拉得更大了。今天開發(fā)者大會(huì)后更新的ChatGPT,在性能的多數(shù)方面跟上次升級(jí)時(shí)一致。但如同上文所說(shuō),支持“300頁(yè)圖書”的長(zhǎng)輸入,將讓它進(jìn)一步擠占以此為賣點(diǎn)的大模型的生存空間,比如Claude、百川、月之暗面、零一萬(wàn)物等。

即使是外行人也能根據(jù)其他行業(yè)的經(jīng)驗(yàn)猜出原因。比如,現(xiàn)在的數(shù)據(jù)集就那幾個(gè),“跑分”后再“優(yōu)化”一下完全在情理之中。

盡管深度學(xué)習(xí)一向被視為“黑盒”乃至“盲盒”,但是在現(xiàn)在的大模型訓(xùn)練中,有針對(duì)性地調(diào)整參數(shù),實(shí)現(xiàn)開發(fā)過(guò)程的可解釋性,已經(jīng)比一年前簡(jiǎn)單得多,這一定程度上歸功于算力進(jìn)步后“大力出奇跡”的貢獻(xiàn)。

本周發(fā)布第一個(gè)模型成果的李開復(fù)團(tuán)隊(duì)“零一萬(wàn)物”,其技術(shù)合伙人黃文灝(履歷有微軟亞研和北京智源)就說(shuō)道:

“當(dāng)我們建立了自己的評(píng)測(cè)指標(biāo)后,按照評(píng)測(cè)指標(biāo)去優(yōu)化模型的訓(xùn)練過(guò)程,團(tuán)隊(duì)內(nèi)部就會(huì)對(duì)模型有很強(qiáng)的自信,知道做的所有工作都是在優(yōu)化模型的能力。最后再去benchmark(測(cè)試數(shù)據(jù)集)上評(píng)測(cè)訓(xùn)練完的模型,會(huì)發(fā)現(xiàn)模型指標(biāo)還是很不錯(cuò)的。這個(gè)算是個(gè)副產(chǎn)物吧,情理之中也意料之內(nèi)。”

他認(rèn)為,“大模型是極致的系統(tǒng)科學(xué),基礎(chǔ)做好了之后,模型在scale up(提升參數(shù)量)的過(guò)程中會(huì)無(wú)比‘絲滑’。”

由此可見,在當(dāng)今“大煉模型”的浪潮中,這件事已經(jīng)一定程度從科學(xué)乃至“玄學(xué)”領(lǐng)域,簡(jiǎn)化到了一個(gè)工程問(wèn)題。正如猴子無(wú)限的尹伯昊對(duì)河豚君說(shuō)過(guò)的:“算法很難有壁壘,但是工程能力是有壁壘的?!碑?dāng)時(shí)他形容的是大模型私有化這種中間層的競(jìng)爭(zhēng),但現(xiàn)在在基底的模型層,也出現(xiàn)了同樣的傾向。

然而,各大模型的“基礎(chǔ)”部分依然存在參差不齊的差距,這部分也更少有規(guī)律可循。微軟之前一篇論文聲稱,ChatGPT的參數(shù)量?jī)H有區(qū)區(qū)200億(20B),當(dāng)時(shí)可是引起了行業(yè)巨震——文心大模型參數(shù)2600億,通義M6宣稱參數(shù)規(guī)模10萬(wàn)億,什么微軟谷歌統(tǒng)統(tǒng)沒(méi)法比。不過(guò),微軟此后又撤回了這部分?jǐn)?shù)據(jù)。

讀者們應(yīng)該還記得ChatGPT突然“涌現(xiàn)”時(shí)給人帶來(lái)的震撼。我們可以提供一個(gè)比較簡(jiǎn)單粗暴的判斷方法:

如果某個(gè)大模型的升級(jí)版本,在實(shí)際使用中沒(méi)有讓你產(chǎn)生“驚艷”的,跟以前完全不一樣了的感覺,它就還沒(méi)有達(dá)到自己宣稱的“超越GPT-x”的說(shuō)法。

在本次開發(fā)者大會(huì)上,ChatGPT引入了很多人期待的Agent(代理)功能,被直白地稱為“GPT們”。官方定義是,這是自定義版本的ChatGPT,融合了用戶指定的初始prompt、額外的知識(shí),以及執(zhí)行特殊任務(wù)的能力(應(yīng)該是API)。

此前,ChatGPT允許用戶自定義兩段話來(lái)優(yōu)化輸出結(jié)果,即“向GPT介紹你自己”和“你期待GPT怎么回答你”。這與創(chuàng)建“GPT”所需的材料非常相似,但這個(gè)設(shè)置會(huì)無(wú)條件應(yīng)用于每一段對(duì)話,且效果也沒(méi)有太顯著。

新的“GPT”創(chuàng)建能力沒(méi)有馬上推出,而是要等到11月底。OpenAI方面放出了一些官方預(yù)置的“GPT”,我們嘗試了其中一個(gè)“GenZ 4 meme”,它的長(zhǎng)項(xiàng)是用拽拽的語(yǔ)氣回答你對(duì)于歐美年輕人流行文化的疑問(wèn)。

馬斯克說(shuō)X(Twitter)的大模型“Grok”默認(rèn)回復(fù)語(yǔ)氣就是有點(diǎn)兒不正經(jīng)的那種,從“GPTs”的演示看,這可能只需要定義一個(gè)“GPT”就可以重現(xiàn)。

不過(guò),現(xiàn)在有一個(gè)Bug是切換到“GPT”情景模式時(shí),輸入框不起作用,因此無(wú)法自己輸入問(wèn)題,不能上傳圖片,也無(wú)法追問(wèn)。我們只能用它的默認(rèn)問(wèn)題,然后再點(diǎn)擊“修改提問(wèn)”來(lái)放入自己的prompt來(lái)變相使用。

跟國(guó)產(chǎn)大模型的“助理”、“分身”、“數(shù)字員工”等比起來(lái),那些都只是一句預(yù)定義的prompt而已,你自己輸入同一句話,效果是一樣的。很顯然“GPT”更為復(fù)雜,它需要增加在每次提問(wèn)時(shí)都生效的用戶prompt,還會(huì)加入預(yù)置的知識(shí)內(nèi)容(雖然字?jǐn)?shù)很少,但這相當(dāng)于一個(gè)小型的私有化訓(xùn)練)。

我們認(rèn)為,如果國(guó)產(chǎn)大模型想通過(guò)專門的能力定向優(yōu)化,在某些任務(wù)上實(shí)現(xiàn)局部“超越GPT”的結(jié)果,這些定向優(yōu)化的步驟,必須比只有一句prompt要更有誠(chéng)意才行。要不然,以后每個(gè)ChatGPT的消費(fèi)者都可以自己實(shí)現(xiàn)“專屬模型”的效果了。

VOL.3如果OpenAI是“蘋果”,國(guó)內(nèi)友商會(huì)是“安卓”嗎?

“科技春晚”這個(gè)稱呼,最早被國(guó)內(nèi)媒體用在形容蘋果的發(fā)布會(huì)上,因?yàn)槟菚r(shí)的蘋果總是能給人們各種各樣的驚喜,其它手機(jī)、電腦和手表廠商難以望其項(xiàng)背。

在很多次發(fā)布會(huì)帶來(lái)的驚喜當(dāng)中,蘋果產(chǎn)品不知不覺地從一般人只能仰望,但是買不起的“高嶺之花”,變成了更下沉、更大眾的技術(shù)工具。更多人形成了無(wú)腦換新機(jī)的習(xí)慣,稱為交“蘋果稅”。

最近這幾年的蘋果發(fā)布會(huì),關(guān)注度遠(yuǎn)遠(yuǎn)比以前下降了,也和“春晚”本晚一樣逐漸少人關(guān)注。這有多方面的原因:

·首先,蘋果產(chǎn)品的創(chuàng)新雖然還有,但是相比以前,肯定是乏力了很多。

·然后,蘋果現(xiàn)在的產(chǎn)品發(fā)布節(jié)奏也跟以前不同,有一些產(chǎn)品只發(fā)個(gè)新聞稿就上架了,沒(méi)有擠在一年一兩次集中發(fā)布。

·最后,各種國(guó)內(nèi)競(jìng)品的競(jìng)爭(zhēng)力逐漸趕上,蘋果的獨(dú)特性不再成為一種“剛需”和苦苦追求的夢(mèng)想。

OpenAI被業(yè)界稱為實(shí)現(xiàn)了AIGC的“iPhone時(shí)刻”,而這家公司本身,也一直將自己在行業(yè)中的地位與蘋果相提并論,它也希望擁有扭轉(zhuǎn)乾坤的“現(xiàn)實(shí)扭曲力場(chǎng)”。

從這一年來(lái)ChatGPT給用戶和開發(fā)者的感受來(lái)看,它確實(shí)保持著跟國(guó)內(nèi)外競(jìng)品的斷層優(yōu)勢(shì),而且尚未被開源陣營(yíng)趕上。因此,可能也是時(shí)候把“科技春晚”的桂冠從蘋果發(fā)布會(huì)的頭上摘下來(lái),戴到OpenAI發(fā)布會(huì)的頭上了。

如果我們暢想未來(lái),希望今后國(guó)產(chǎn)大模型圍獵OpenAI,也像國(guó)產(chǎn)手機(jī)對(duì)陣蘋果一樣,至少在性價(jià)比、多樣性、可用性等方面局部地勝出,具備一定的競(jìng)爭(zhēng)力;如果我們希望未來(lái)OpenAI的發(fā)布會(huì),也像現(xiàn)在的蘋果發(fā)布會(huì)一樣,不再讓追趕者有那么強(qiáng)烈的無(wú)力感,那應(yīng)該怎么做呢?

·首先,OpenAI雖然有強(qiáng)大的創(chuàng)新能力,但從歷史規(guī)律看,它不可能永遠(yuǎn)保持領(lǐng)先。它可能會(huì)犯錯(cuò),或者失去原先一樣的增長(zhǎng)速度。

·然后,OpenAI的未來(lái)產(chǎn)品發(fā)布也可能沒(méi)有規(guī)律,有的計(jì)劃中的發(fā)布可能拖延。

·最后,國(guó)內(nèi)競(jìng)品和開源體系有可能在OpenAI發(fā)展放緩的時(shí)候,縮小與其之間的差距,甚至通過(guò)意外的“涌現(xiàn)”創(chuàng)造驚喜。

只要真正的創(chuàng)新一直在發(fā)生,我們相信大模型產(chǎn)品的成本終究會(huì)下降,也和蘋果硬件一樣,變成更下沉、更大眾的技術(shù)工具。而在那樣的未來(lái)當(dāng)中,一定少不了中國(guó)廠家的身影。

最后,讓我們用ChatGPT自己給本文畫的題圖,來(lái)作為這篇文章的結(jié)尾。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。