掃一掃下載界面新聞APP

OpenAI

大模型真的要開(kāi)始“搶飯碗”了

在自家的新一代產(chǎn)品GPT-5.1正面迎戰(zhàn)Google Gemini 3卻處于下風(fēng)之后，OpenAI內(nèi)部迅速進(jìn)入了應(yīng)急狀態(tài)。

IT時(shí)報(bào) ·

文｜IT時(shí)報(bào) 賈天榮

編輯｜王昕

最近一個(gè)月以來(lái)，AI大模型領(lǐng)域的火藥味明顯變濃了。Google與OpenAI這兩家長(zhǎng)期占據(jù)行業(yè)頭部位置的玩家，幾乎將產(chǎn)品迭代發(fā)布節(jié)奏壓縮到“以周計(jì)算”。上一代AI模型尚未站穩(wěn)腳跟，下一輪更新便已接踵而至，正面碰撞不斷。

最新的一擊，來(lái)自Google。

北京時(shí)間12月18日凌晨，Google官宣Gemini 3 Flash正式發(fā)布，這是Gemini 3系列中速度最快、性價(jià)比最高的模型，也是Google在一個(gè)月內(nèi)第四次對(duì)大模型產(chǎn)品線進(jìn)行實(shí)質(zhì)性更新，這被解讀為對(duì)Open AI的“精準(zhǔn)打擊”。

OpenAI拉響“紅色警報(bào)”

將時(shí)間線拉回11月，全球最具影響力的兩家AI公司——Google與OpenAI，幾乎同時(shí)發(fā)布了各自的旗艦?zāi)Ｐ停篏emini 3與GPT-5.1。

隨后，Gemini 3 Pro在多項(xiàng)基準(zhǔn)測(cè)試中，大幅超越Gemini 2.5 Pro、GPT-5.1以及Claude Sonnet 4.5等現(xiàn)有旗艦?zāi)Ｐ?，在短時(shí)間內(nèi)建立起口碑。

幾乎在同一時(shí)間軸上，另一邊的OpenAI也不甘示弱。

在自家的新一代產(chǎn)品GPT-5.1正面迎戰(zhàn)Google Gemini 3卻處于下風(fēng)之后，OpenAI內(nèi)部迅速進(jìn)入了應(yīng)急狀態(tài)。12月2日，據(jù)外媒披露，OpenAI CEO山姆·奧特曼在一份發(fā)給員工的內(nèi)部備忘錄中明確表示，公司已進(jìn)入“紅色代碼（Code Red）”緊急狀態(tài)。

這一狀態(tài)下，OpenAI的資源和注意力被重新拉回到最核心的產(chǎn)品——ChatGPT本身。OpenAI應(yīng)用總監(jiān)菲吉·西莫隨后證實(shí)，這一“警報(bào)”直接加速了GPT-5.2的發(fā)布節(jié)奏。

于是僅僅一周后，OpenAI十周年之際，GPT-5.2火速上線，并一次性推出了三個(gè)版本——Instant、Thinking、Pro。

從官方公布的核心基準(zhǔn)測(cè)試來(lái)看，GPT-5.2的表現(xiàn)極為強(qiáng)勢(shì)。在多項(xiàng)對(duì)比測(cè)試中，面對(duì)GPT-5.1、Gemini 3 Pro等，GPT-5.2 Thinking幾乎實(shí)現(xiàn)了“全線第一”。這也意味著，Gemini 3 Pro剛剛建立起不到一個(gè)月的領(lǐng)先優(yōu)勢(shì)，再次被打破。

ChatGPT真要“替代”打工人了？

相比令人眼花繚亂的跑分體系，ChatGPT 5.2最值得關(guān)注的變化來(lái)自一個(gè)完全不同維度的評(píng)測(cè)體系——GDPval。

GDPval并不考模型“會(huì)不會(huì)做題”，而是直接衡量其完成真實(shí)、明確知識(shí)型工作任務(wù)的能力。該評(píng)測(cè)覆蓋44個(gè)職業(yè)，橫跨對(duì)美國(guó)GDP貢獻(xiàn)度最高的9個(gè)核心行業(yè)，其測(cè)試內(nèi)容也并非選擇題或問(wèn)答，而是要求模型生成真實(shí)可交付的工作成果——例如銷售PPT、會(huì)計(jì)與財(cái)務(wù)表格、急診科排班表、制造業(yè)數(shù)據(jù)圖表，甚至短視頻內(nèi)容。

換句話說(shuō)，這套評(píng)測(cè)體系不是在模擬工作，而是把模型直接“拉進(jìn)職場(chǎng)”。

根據(jù)人類專家的盲評(píng)結(jié)果，在高難度知識(shí)型工作任務(wù)中，GPT-5.2 Thinking有70.7%的任務(wù)表現(xiàn)優(yōu)于或至少持平于行業(yè)頂尖專家。

在效率層面，差距更加明顯：GPT-5.2 Thinking完成同類任務(wù)的速度，約為人類專家的3倍，而綜合成本僅為人類的約1%。

在更具代表性的金融場(chǎng)景中，這種提升也得到了驗(yàn)證。在“初級(jí)投行分析師”電子表格建模測(cè)試中，GPT-5.2 Thinking的綜合得分達(dá)到68.4%，相較GPT-5.1 Thinking的59.1%有顯著提升，成為OpenAI目前在該類任務(wù)中表現(xiàn)最好的模型。

綜合來(lái)看，在GDPval覆蓋的知識(shí)型工作任務(wù)中，GPT-5.2 Thinking“贏過(guò)或打平行業(yè)專家”的比例達(dá)到70.9%。而上一代GPT-5 Thinking，這一數(shù)字僅為38.8%。

GPT-5.2的產(chǎn)品分層變得異常清晰：Thinking版本長(zhǎng)上下文推理更穩(wěn)、表格、PPT、復(fù)雜方案能力明顯提升，面向真正的重度專業(yè)工作；Instant版本對(duì)話更自然、解釋問(wèn)題更清楚、寫(xiě)教程、做說(shuō)明、職場(chǎng)日用效率更高；Pro版本擁有最強(qiáng)的推理與代碼能力，是科研、復(fù)雜系統(tǒng)設(shè)計(jì)的首選。

一句話總結(jié)就是，Thinking干重活，Instant管日常，Pro頂天花板。

正因如此，GPT-5.2 Thinking也被外界調(diào)侃為，真正開(kāi)始“和牛馬打工人搶工作”的一代模型。

職場(chǎng)“專家”和“老黃?！痹撨x誰(shuí)？

兩家巨頭明顯帶有“趕工”色彩的發(fā)布節(jié)奏，引發(fā)了另一波更為直接的市場(chǎng)反饋——大量用戶的差評(píng)開(kāi)始出現(xiàn)。有網(wǎng)友曬出GPT-5.2在SimpleBench上的“成績(jī)單”，GPT-5.2的得分低于Claude Sonnet 3.7，后者是一個(gè)差不多一年前發(fā)布的模型；GPT-5.2 Pro的表現(xiàn)也沒(méi)好多少，勉強(qiáng)超過(guò)GPT-5。

SimpleBench的設(shè)計(jì)初衷是用來(lái)測(cè)試大模型在“普通人看來(lái)很簡(jiǎn)單、但對(duì)機(jī)器而言極具挑戰(zhàn)”的邏輯推理任務(wù)上的表現(xiàn)。

質(zhì)疑聲不止于此，前AWS與Google高管Bindu Reddy在社交平臺(tái)發(fā)文指出，GPT-5.2在LiveBench上得分低于Opus 4.5和Gemini 3.0，它在token成本和消耗數(shù)量上也比5.1多得多，目前可能不值得從5.1切換升級(jí)。

GPT-5.2與Google拋出的“新招”Gemini 3 Flash形成了正面碰撞。如果說(shuō)GPT-5.2的關(guān)鍵詞是“專業(yè)性”，那么Google強(qiáng)調(diào)了一個(gè)詞：性價(jià)比。

這并不是簡(jiǎn)單意義上的“更便宜”，而是一次對(duì)“性能、成本、規(guī)?！比哧P(guān)系的系統(tǒng)性重構(gòu)。

Google CEO桑達(dá)爾·皮查伊在官方博客中直言，Gemini 3 Flash在性能和效率上同時(shí)突破了“帕累托極限”：其綜合性能超過(guò)上一代旗艦?zāi)Ｐ虶emini 2.5 Pro，推理速度提升約3倍，而價(jià)格卻顯著降低。

皮查伊說(shuō)：“Gemini 3 Flash證明，速度和規(guī)模無(wú)須以犧牲智能為代價(jià)?！?/p>

從評(píng)測(cè)結(jié)果來(lái)看，這并非一句簡(jiǎn)單的營(yíng)銷口號(hào)。

根據(jù)Imarena.ai的數(shù)據(jù)，目前Gemini 3 Flash在文本、圖像和編程領(lǐng)域排名前5，數(shù)學(xué)和創(chuàng)意寫(xiě)作類別排名第2，是性價(jià)比最高的前沿模型，輸入僅0.5美元/百萬(wàn)Tokens，輸出3美元/百萬(wàn)Tokens。

作為對(duì)比，Claude Sonnet 4.5的輸出是15美元/百萬(wàn)Tokens，GPT-5.2的輸出是14美元/百萬(wàn)Tokens，是Gemini 3 Flash定價(jià)的近5倍。

Gemini產(chǎn)品管理高級(jí)總監(jiān)Tulsee Doshi稱，谷歌將Gemini 3 Flash定位為“老黃?！笔侥Ｐ汀Ｔ撃Ｐ捅３至私咏麲emini 3 Pro的推理能力，同時(shí)運(yùn)行速度達(dá)到Gemini 2.5 Pro的三倍，成本僅為Gemini 3 Pro的四分之一。

智能體是未來(lái)的競(jìng)爭(zhēng)點(diǎn)

縱觀OpenAI與Google近段時(shí)間的密集更新，短期內(nèi)誰(shuí)勝誰(shuí)負(fù)仍難下定論，但從產(chǎn)品設(shè)計(jì)、宣傳重點(diǎn)與落地路徑來(lái)看，大模型演進(jìn)的下一個(gè)趨勢(shì)已經(jīng)愈發(fā)清晰。

無(wú)論是ChatGPT 5.2在宣傳頁(yè)面中反復(fù)強(qiáng)調(diào)的“專攻智能體”，還是Gemini 3 Flash將“高性能”直接推向大規(guī)模應(yīng)用場(chǎng)景，這兩條看似不同的路線，最終都指向同一個(gè)終點(diǎn)——智能體。

AI基礎(chǔ)大模型的競(jìng)爭(zhēng)，已經(jīng)從“云端模型能力”全面下沉至“終端與系統(tǒng)層”。

從近期動(dòng)作來(lái)看，Google與OpenAI的競(jìng)爭(zhēng)早已不限于參數(shù)規(guī)模、推理能力與基準(zhǔn)測(cè)試成績(jī)。

在終端側(cè)，Gemini 3已全面取代傳統(tǒng)Google Assistant，成為Android生態(tài)的中樞。在最新的Android Auto更新中，這一變化尤為直觀。用戶在駕駛過(guò)程中，可以通過(guò)一次自然語(yǔ)言指令，完成跨應(yīng)用、多步驟的復(fù)雜操作，例如查詢郵件信息、發(fā)起導(dǎo)航并同步通知相關(guān)聯(lián)系人。

在辦公場(chǎng)景，Google正試圖將這種“系統(tǒng)能力”延伸至Workspace。依托1M至2M tokens的超長(zhǎng)上下文窗口，Drive、Docs、Gmail被整合為一個(gè)可直接對(duì)話的統(tǒng)一知識(shí)空間。用戶不需要在文件與郵件之間反復(fù)切換，而是可以直接基于全部歷史資料提出分析型問(wèn)題，并生成結(jié)構(gòu)化結(jié)果。這種工作流層面的改變，顯著提升了企業(yè)用戶的使用黏性。

企業(yè)市場(chǎng)的反饋正因此發(fā)生變化。

Salesforce創(chuàng)始人Marc Benioff近期公開(kāi)表示，基于Gemini 3在推理速度和準(zhǔn)確性上的表現(xiàn)，其個(gè)人及企業(yè)內(nèi)部的AI首選已從ChatGPT轉(zhuǎn)向Gemini。隨后，Salesforce宣布將Gemini納入Agentforce 360平臺(tái)。這一動(dòng)作，被視為Google在原本由微軟與OpenAI主導(dǎo)的企業(yè)SaaS領(lǐng)域取得的重要突破。

面對(duì)Google的垂直整合，OpenAI選擇了與科技巨頭結(jié)盟擴(kuò)張。在消費(fèi)級(jí)市場(chǎng)，最重要的變量來(lái)自Apple。預(yù)計(jì)將于2025年底至2026年初推出的iOS 26，將深度整合GPT-5.1。這不僅是Siri后端能力的升級(jí)，更涉及系統(tǒng)級(jí)的視覺(jué)智能。通過(guò)硬件級(jí)相機(jī)入口，用戶可直接調(diào)用GPT模型對(duì)現(xiàn)實(shí)環(huán)境進(jìn)行識(shí)別和理解。

對(duì)OpenAI而言，這種“硬件直達(dá)模型”的路徑，是其在移動(dòng)端對(duì)抗Android生態(tài)優(yōu)勢(shì)的關(guān)鍵抓手。在企業(yè)與辦公領(lǐng)域，Microsoft仍是OpenAI最穩(wěn)固的支點(diǎn)。通過(guò)Windows 11與Microsoft 365，微軟的人工智能助手Copilot持續(xù)將GPT-5.1推向企業(yè)核心流程。微軟在操作系統(tǒng)層與企業(yè)云服務(wù)層的長(zhǎng)期積累，仍構(gòu)成OpenAI的重要護(hù)城河。

回顧過(guò)去三年，自2022年ChatGPT橫空出世以來(lái)，行業(yè)競(jìng)爭(zhēng)的核心始終圍繞兩點(diǎn)：對(duì)話是否自然、知識(shí)是否足夠廣。但到了2025年，隨著企業(yè)對(duì)AI的期待從“內(nèi)容生成”轉(zhuǎn)向復(fù)雜問(wèn)題解決、跨工具協(xié)作與自主任務(wù)執(zhí)行，競(jìng)爭(zhēng)維度已經(jīng)發(fā)生根本變化。

看似路線不同，但終點(diǎn)一致：真正的分水嶺，不在于誰(shuí)更會(huì)聊天，而在于誰(shuí)能把事干完、干好，并且持續(xù)穩(wěn)定地干下去。而Gemini 3與ChatGPT 5.2，正好站在這條分岔路的兩側(cè)。

排版／季嘉穎

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

OpenAI

OpenAI與G42洽談，擬為阿聯(lián)酋打造專屬ChatGPT1天前
市場(chǎng)監(jiān)管總局公布5起人工智能領(lǐng)域不正當(dāng)競(jìng)爭(zhēng)典型案例2天前

人工智能科技

評(píng)論

暫無(wú)評(píng)論哦，快來(lái)評(píng)價(jià)一下吧！

下載界面新聞

微信公眾號(hào)

微博

OpenAI

大模型真的要開(kāi)始“搶飯碗”了

在自家的新一代產(chǎn)品GPT-5.1正面迎戰(zhàn)Google Gemini 3卻處于下風(fēng)之后，OpenAI內(nèi)部迅速進(jìn)入了應(yīng)急狀態(tài)。

IT時(shí)報(bào) · 2025/12/19 19:47

文｜IT時(shí)報(bào) 賈天榮

編輯｜王昕

最新的一擊，來(lái)自Google。

OpenAI拉響“紅色警報(bào)”

將時(shí)間線拉回11月，全球最具影響力的兩家AI公司——Google與OpenAI，幾乎同時(shí)發(fā)布了各自的旗艦?zāi)Ｐ停篏emini 3與GPT-5.1。

隨后，Gemini 3 Pro在多項(xiàng)基準(zhǔn)測(cè)試中，大幅超越Gemini 2.5 Pro、GPT-5.1以及Claude Sonnet 4.5等現(xiàn)有旗艦?zāi)Ｐ停诙虝r(shí)間內(nèi)建立起口碑。

幾乎在同一時(shí)間軸上，另一邊的OpenAI也不甘示弱。

于是僅僅一周后，OpenAI十周年之際，GPT-5.2火速上線，并一次性推出了三個(gè)版本——Instant、Thinking、Pro。

ChatGPT真要“替代”打工人了？

相比令人眼花繚亂的跑分體系，ChatGPT 5.2最值得關(guān)注的變化來(lái)自一個(gè)完全不同維度的評(píng)測(cè)體系——GDPval。

換句話說(shuō)，這套評(píng)測(cè)體系不是在模擬工作，而是把模型直接“拉進(jìn)職場(chǎng)”。

在效率層面，差距更加明顯：GPT-5.2 Thinking完成同類任務(wù)的速度，約為人類專家的3倍，而綜合成本僅為人類的約1%。

一句話總結(jié)就是，Thinking干重活，Instant管日常，Pro頂天花板。

正因如此，GPT-5.2 Thinking也被外界調(diào)侃為，真正開(kāi)始“和牛馬打工人搶工作”的一代模型。

職場(chǎng)“專家”和“老黃?！痹撨x誰(shuí)？

這并不是簡(jiǎn)單意義上的“更便宜”，而是一次對(duì)“性能、成本、規(guī)?！比哧P(guān)系的系統(tǒng)性重構(gòu)。

皮查伊說(shuō)：“Gemini 3 Flash證明，速度和規(guī)模無(wú)須以犧牲智能為代價(jià)?！?/p>

從評(píng)測(cè)結(jié)果來(lái)看，這并非一句簡(jiǎn)單的營(yíng)銷口號(hào)。

作為對(duì)比，Claude Sonnet 4.5的輸出是15美元/百萬(wàn)Tokens，GPT-5.2的輸出是14美元/百萬(wàn)Tokens，是Gemini 3 Flash定價(jià)的近5倍。

Gemini產(chǎn)品管理高級(jí)總監(jiān)Tulsee Doshi稱，谷歌將Gemini 3 Flash定位為“老黃?！笔侥Ｐ?。該模型保持了接近Gemini 3 Pro的推理能力，同時(shí)運(yùn)行速度達(dá)到Gemini 2.5 Pro的三倍，成本僅為Gemini 3 Pro的四分之一。

智能體是未來(lái)的競(jìng)爭(zhēng)點(diǎn)

AI基礎(chǔ)大模型的競(jìng)爭(zhēng)，已經(jīng)從“云端模型能力”全面下沉至“終端與系統(tǒng)層”。

從近期動(dòng)作來(lái)看，Google與OpenAI的競(jìng)爭(zhēng)早已不限于參數(shù)規(guī)模、推理能力與基準(zhǔn)測(cè)試成績(jī)。

企業(yè)市場(chǎng)的反饋正因此發(fā)生變化。

排版／季嘉穎

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

歷史搜索全部刪除

熱門搜索

大模型真的要開(kāi)始“搶飯碗”了

OpenAI拉響“紅色警報(bào)”

ChatGPT真要“替代”打工人了？

職場(chǎng)“專家”和“老黃?！痹撨x誰(shuí)？

智能體是未來(lái)的競(jìng)爭(zhēng)點(diǎn)

OpenAI

評(píng)論

大模型真的要開(kāi)始“搶飯碗”了

OpenAI拉響“紅色警報(bào)”

ChatGPT真要“替代”打工人了？

職場(chǎng)“專家”和“老黃?！痹撨x誰(shuí)？

智能體是未來(lái)的競(jìng)爭(zhēng)點(diǎn)

大模型真的要開(kāi)始“搶飯碗”了

OpenAI拉響“紅色警報(bào)”

ChatGPT真要“替代”打工人了？

職場(chǎng)“專家”和“老黃?！痹撨x誰(shuí)？

智能體是未來(lái)的競(jìng)爭(zhēng)點(diǎn)

OpenAI

評(píng)論

大模型真的要開(kāi)始“搶飯碗”了

OpenAI拉響“紅色警報(bào)”

ChatGPT真要“替代”打工人了？

職場(chǎng)“專家”和“老黃?！痹撨x誰(shuí)？

智能體是未來(lái)的競(jìng)爭(zhēng)點(diǎn)

ChatGPT真要“替代”打工人了？

職場(chǎng)“專家”和“老黃?！痹撨x誰(shuí)？

ChatGPT真要“替代”打工人了？

職場(chǎng)“專家”和“老黃?！痹撨x誰(shuí)？