文|IT時(shí)報(bào) 賈天榮
編輯|王昕
最近一個(gè)月以來(lái),AI大模型領(lǐng)域的火藥味明顯變濃了。Google與OpenAI這兩家長(zhǎng)期占據(jù)行業(yè)頭部位置的玩家,幾乎將產(chǎn)品迭代發(fā)布節(jié)奏壓縮到“以周計(jì)算”。上一代AI模型尚未站穩(wěn)腳跟,下一輪更新便已接踵而至,正面碰撞不斷。
最新的一擊,來(lái)自Google。
北京時(shí)間12月18日凌晨,Google官宣Gemini 3 Flash正式發(fā)布,這是Gemini 3系列中速度最快、性價(jià)比最高的模型,也是Google在一個(gè)月內(nèi)第四次對(duì)大模型產(chǎn)品線進(jìn)行實(shí)質(zhì)性更新,這被解讀為對(duì)Open AI的“精準(zhǔn)打擊”。
OpenAI拉響“紅色警報(bào)”
將時(shí)間線拉回11月,全球最具影響力的兩家AI公司——Google與OpenAI,幾乎同時(shí)發(fā)布了各自的旗艦?zāi)P停篏emini 3與GPT-5.1。
隨后,Gemini 3 Pro在多項(xiàng)基準(zhǔn)測(cè)試中,大幅超越Gemini 2.5 Pro、GPT-5.1以及Claude Sonnet 4.5等現(xiàn)有旗艦?zāi)P?,在短時(shí)間內(nèi)建立起口碑。
幾乎在同一時(shí)間軸上,另一邊的OpenAI也不甘示弱。
在自家的新一代產(chǎn)品GPT-5.1正面迎戰(zhàn)Google Gemini 3卻處于下風(fēng)之后,OpenAI內(nèi)部迅速進(jìn)入了應(yīng)急狀態(tài)。12月2日,據(jù)外媒披露,OpenAI CEO山姆·奧特曼在一份發(fā)給員工的內(nèi)部備忘錄中明確表示,公司已進(jìn)入“紅色代碼(Code Red)”緊急狀態(tài)。
這一狀態(tài)下,OpenAI的資源和注意力被重新拉回到最核心的產(chǎn)品——ChatGPT本身。OpenAI應(yīng)用總監(jiān)菲吉·西莫隨后證實(shí),這一“警報(bào)”直接加速了GPT-5.2的發(fā)布節(jié)奏。
于是僅僅一周后,OpenAI十周年之際,GPT-5.2火速上線,并一次性推出了三個(gè)版本——Instant、Thinking、Pro。
從官方公布的核心基準(zhǔn)測(cè)試來(lái)看,GPT-5.2的表現(xiàn)極為強(qiáng)勢(shì)。在多項(xiàng)對(duì)比測(cè)試中,面對(duì)GPT-5.1、Gemini 3 Pro等,GPT-5.2 Thinking幾乎實(shí)現(xiàn)了“全線第一”。這也意味著,Gemini 3 Pro剛剛建立起不到一個(gè)月的領(lǐng)先優(yōu)勢(shì),再次被打破。
ChatGPT真要“替代”打工人了?
相比令人眼花繚亂的跑分體系,ChatGPT 5.2最值得關(guān)注的變化來(lái)自一個(gè)完全不同維度的評(píng)測(cè)體系——GDPval。
GDPval并不考模型“會(huì)不會(huì)做題”,而是直接衡量其完成真實(shí)、明確知識(shí)型工作任務(wù)的能力。該評(píng)測(cè)覆蓋44個(gè)職業(yè),橫跨對(duì)美國(guó)GDP貢獻(xiàn)度最高的9個(gè)核心行業(yè),其測(cè)試內(nèi)容也并非選擇題或問(wèn)答,而是要求模型生成真實(shí)可交付的工作成果——例如銷售PPT、會(huì)計(jì)與財(cái)務(wù)表格、急診科排班表、制造業(yè)數(shù)據(jù)圖表,甚至短視頻內(nèi)容。
換句話說(shuō),這套評(píng)測(cè)體系不是在模擬工作,而是把模型直接“拉進(jìn)職場(chǎng)”。
根據(jù)人類專家的盲評(píng)結(jié)果,在高難度知識(shí)型工作任務(wù)中,GPT-5.2 Thinking有70.7%的任務(wù)表現(xiàn)優(yōu)于或至少持平于行業(yè)頂尖專家。
在效率層面,差距更加明顯:GPT-5.2 Thinking完成同類任務(wù)的速度,約為人類專家的3倍,而綜合成本僅為人類的約1%。
在更具代表性的金融場(chǎng)景中,這種提升也得到了驗(yàn)證。在“初級(jí)投行分析師”電子表格建模測(cè)試中,GPT-5.2 Thinking的綜合得分達(dá)到68.4%,相較GPT-5.1 Thinking的59.1%有顯著提升,成為OpenAI目前在該類任務(wù)中表現(xiàn)最好的模型。
綜合來(lái)看,在GDPval覆蓋的知識(shí)型工作任務(wù)中,GPT-5.2 Thinking“贏過(guò)或打平行業(yè)專家”的比例達(dá)到70.9%。而上一代GPT-5 Thinking,這一數(shù)字僅為38.8%。
GPT-5.2的產(chǎn)品分層變得異常清晰:Thinking版本長(zhǎng)上下文推理更穩(wěn)、表格、PPT、復(fù)雜方案能力明顯提升,面向真正的重度專業(yè)工作;Instant版本對(duì)話更自然、解釋問(wèn)題更清楚、寫教程、做說(shuō)明、職場(chǎng)日用效率更高;Pro版本擁有最強(qiáng)的推理與代碼能力,是科研、復(fù)雜系統(tǒng)設(shè)計(jì)的首選。
一句話總結(jié)就是,Thinking干重活,Instant管日常,Pro頂天花板。
正因如此,GPT-5.2 Thinking也被外界調(diào)侃為,真正開始“和牛馬打工人搶工作”的一代模型。
職場(chǎng)“專家”和“老黃?!痹撨x誰(shuí)?
兩家巨頭明顯帶有“趕工”色彩的發(fā)布節(jié)奏,引發(fā)了另一波更為直接的市場(chǎng)反饋——大量用戶的差評(píng)開始出現(xiàn)。有網(wǎng)友曬出GPT-5.2在SimpleBench上的“成績(jī)單”,GPT-5.2的得分低于Claude Sonnet 3.7,后者是一個(gè)差不多一年前發(fā)布的模型;GPT-5.2 Pro的表現(xiàn)也沒好多少,勉強(qiáng)超過(guò)GPT-5。
SimpleBench的設(shè)計(jì)初衷是用來(lái)測(cè)試大模型在“普通人看來(lái)很簡(jiǎn)單、但對(duì)機(jī)器而言極具挑戰(zhàn)”的邏輯推理任務(wù)上的表現(xiàn)。
質(zhì)疑聲不止于此,前AWS與Google高管Bindu Reddy在社交平臺(tái)發(fā)文指出,GPT-5.2在LiveBench上得分低于Opus 4.5和Gemini 3.0,它在token成本和消耗數(shù)量上也比5.1多得多,目前可能不值得從5.1切換升級(jí)。
GPT-5.2與Google拋出的“新招”Gemini 3 Flash形成了正面碰撞。如果說(shuō)GPT-5.2的關(guān)鍵詞是“專業(yè)性”,那么Google強(qiáng)調(diào)了一個(gè)詞:性價(jià)比。
這并不是簡(jiǎn)單意義上的“更便宜”,而是一次對(duì)“性能、成本、規(guī)?!比哧P(guān)系的系統(tǒng)性重構(gòu)。
Google CEO桑達(dá)爾·皮查伊在官方博客中直言,Gemini 3 Flash在性能和效率上同時(shí)突破了“帕累托極限”:其綜合性能超過(guò)上一代旗艦?zāi)P虶emini 2.5 Pro,推理速度提升約3倍,而價(jià)格卻顯著降低。
皮查伊說(shuō):“Gemini 3 Flash證明,速度和規(guī)模無(wú)須以犧牲智能為代價(jià)?!?/p>
從評(píng)測(cè)結(jié)果來(lái)看,這并非一句簡(jiǎn)單的營(yíng)銷口號(hào)。
根據(jù)Imarena.ai的數(shù)據(jù),目前Gemini 3 Flash在文本、圖像和編程領(lǐng)域排名前5,數(shù)學(xué)和創(chuàng)意寫作類別排名第2,是性價(jià)比最高的前沿模型,輸入僅0.5美元/百萬(wàn)Tokens,輸出3美元/百萬(wàn)Tokens。
作為對(duì)比,Claude Sonnet 4.5的輸出是15美元/百萬(wàn)Tokens,GPT-5.2的輸出是14美元/百萬(wàn)Tokens,是Gemini 3 Flash定價(jià)的近5倍。
Gemini產(chǎn)品管理高級(jí)總監(jiān)Tulsee Doshi稱,谷歌將Gemini 3 Flash定位為“老黃?!笔侥P汀T撃P捅3至私咏麲emini 3 Pro的推理能力,同時(shí)運(yùn)行速度達(dá)到Gemini 2.5 Pro的三倍,成本僅為Gemini 3 Pro的四分之一。
智能體是未來(lái)的競(jìng)爭(zhēng)點(diǎn)
縱觀OpenAI與Google近段時(shí)間的密集更新,短期內(nèi)誰(shuí)勝誰(shuí)負(fù)仍難下定論,但從產(chǎn)品設(shè)計(jì)、宣傳重點(diǎn)與落地路徑來(lái)看,大模型演進(jìn)的下一個(gè)趨勢(shì)已經(jīng)愈發(fā)清晰。
無(wú)論是ChatGPT 5.2在宣傳頁(yè)面中反復(fù)強(qiáng)調(diào)的“專攻智能體”,還是Gemini 3 Flash將“高性能”直接推向大規(guī)模應(yīng)用場(chǎng)景,這兩條看似不同的路線,最終都指向同一個(gè)終點(diǎn)——智能體。
AI基礎(chǔ)大模型的競(jìng)爭(zhēng),已經(jīng)從“云端模型能力”全面下沉至“終端與系統(tǒng)層”。
從近期動(dòng)作來(lái)看,Google與OpenAI的競(jìng)爭(zhēng)早已不限于參數(shù)規(guī)模、推理能力與基準(zhǔn)測(cè)試成績(jī)。
在終端側(cè),Gemini 3已全面取代傳統(tǒng)Google Assistant,成為Android生態(tài)的中樞。在最新的Android Auto更新中,這一變化尤為直觀。用戶在駕駛過(guò)程中,可以通過(guò)一次自然語(yǔ)言指令,完成跨應(yīng)用、多步驟的復(fù)雜操作,例如查詢郵件信息、發(fā)起導(dǎo)航并同步通知相關(guān)聯(lián)系人。
在辦公場(chǎng)景,Google正試圖將這種“系統(tǒng)能力”延伸至Workspace。依托1M至2M tokens的超長(zhǎng)上下文窗口,Drive、Docs、Gmail被整合為一個(gè)可直接對(duì)話的統(tǒng)一知識(shí)空間。用戶不需要在文件與郵件之間反復(fù)切換,而是可以直接基于全部歷史資料提出分析型問(wèn)題,并生成結(jié)構(gòu)化結(jié)果。這種工作流層面的改變,顯著提升了企業(yè)用戶的使用黏性。
企業(yè)市場(chǎng)的反饋正因此發(fā)生變化。
Salesforce創(chuàng)始人Marc Benioff近期公開表示,基于Gemini 3在推理速度和準(zhǔn)確性上的表現(xiàn),其個(gè)人及企業(yè)內(nèi)部的AI首選已從ChatGPT轉(zhuǎn)向Gemini。隨后,Salesforce宣布將Gemini納入Agentforce 360平臺(tái)。這一動(dòng)作,被視為Google在原本由微軟與OpenAI主導(dǎo)的企業(yè)SaaS領(lǐng)域取得的重要突破。
面對(duì)Google的垂直整合,OpenAI選擇了與科技巨頭結(jié)盟擴(kuò)張。在消費(fèi)級(jí)市場(chǎng),最重要的變量來(lái)自Apple。預(yù)計(jì)將于2025年底至2026年初推出的iOS 26,將深度整合GPT-5.1。這不僅是Siri后端能力的升級(jí),更涉及系統(tǒng)級(jí)的視覺智能。通過(guò)硬件級(jí)相機(jī)入口,用戶可直接調(diào)用GPT模型對(duì)現(xiàn)實(shí)環(huán)境進(jìn)行識(shí)別和理解。
對(duì)OpenAI而言,這種“硬件直達(dá)模型”的路徑,是其在移動(dòng)端對(duì)抗Android生態(tài)優(yōu)勢(shì)的關(guān)鍵抓手。在企業(yè)與辦公領(lǐng)域,Microsoft仍是OpenAI最穩(wěn)固的支點(diǎn)。通過(guò)Windows 11與Microsoft 365,微軟的人工智能助手Copilot持續(xù)將GPT-5.1推向企業(yè)核心流程。微軟在操作系統(tǒng)層與企業(yè)云服務(wù)層的長(zhǎng)期積累,仍構(gòu)成OpenAI的重要護(hù)城河。
回顧過(guò)去三年,自2022年ChatGPT橫空出世以來(lái),行業(yè)競(jìng)爭(zhēng)的核心始終圍繞兩點(diǎn):對(duì)話是否自然、知識(shí)是否足夠廣。但到了2025年,隨著企業(yè)對(duì)AI的期待從“內(nèi)容生成”轉(zhuǎn)向復(fù)雜問(wèn)題解決、跨工具協(xié)作與自主任務(wù)執(zhí)行,競(jìng)爭(zhēng)維度已經(jīng)發(fā)生根本變化。
看似路線不同,但終點(diǎn)一致:真正的分水嶺,不在于誰(shuí)更會(huì)聊天,而在于誰(shuí)能把事干完、干好,并且持續(xù)穩(wěn)定地干下去。而Gemini 3與ChatGPT 5.2,正好站在這條分岔路的兩側(cè)。
排版/ 季嘉穎

