OpenAI最新模型打不動了？GPT-5.2因“降智”陷“差評潮”

該模型上線后遭到大量用戶吐槽，認為其從常識問答到情感交互，“智商不穩(wěn)定”。

宋佳楠 · 來源：界面新聞

圖片來源：界面圖庫

界面新聞記者 | 宋佳楠

OpenAI推出不到一周的最新旗艦模型沒能等來“好評如潮”。

近日，OpenAI在十周年之際發(fā)布了GPT-5.2系列模型，官方數(shù)據(jù)顯示其在GDPval等專業(yè)基準測試中超越人類專家，是迄今為止在“專業(yè)知識工作方面”表現(xiàn)最好的模型。

據(jù)OpenAI官方披露，GPT-5.2在多領域實現(xiàn)技術突破：GDPval測試中覆蓋44個職業(yè)的任務表現(xiàn)70.9%優(yōu)于頂尖專家，SWE-bench Pro編程測試獲55.6%的SOTA成績，還將幻覺率較GPT-5.1降低38%。該公司CEO山姆·奧特曼稱其為“許久以來最大的升級”，并透露計劃2026年1月解除應對谷歌競爭的“紅色警報”。

但該模型上線后遭到大量用戶吐槽，認為其從常識問答到情感交互，“智商不穩(wěn)定”。

SimpleBench常識推理測試顯示，GPT-5.2得分低于Anthropic發(fā)布的Claude Sonnet 3.7，甚至在“garlic有幾個r”的基礎問題上反復出錯——有用戶三次測試僅一次答對，而谷歌的Gemini 3.0等競品均穩(wěn)定通關。該測試旨在評估大模型在處理普通人認為簡單，但對機器而言充滿挑戰(zhàn)的邏輯推理任務的能力。前AWS總經理Bindu Reddy直言，“不值得從GPT-5.1升級”。

一些編程愛好者則發(fā)現(xiàn)，GPT-5.2生成的交通燈模擬代碼畫面僅達“黑白火柴人級別”，蒙娜麗莎ASCII藝術創(chuàng)作效果遠遜于GPT-4o。情感交互中有用戶傾訴“恐慌發(fā)作”，竟收到“很高興聽到這個消息”的回復，安慰失寵孩童時則機械強調“生物都會停止運作”，缺乏此前版本的親和力和自然表達。

此外，該版本在處理連續(xù)對話時不穩(wěn)定，甚至在明確選擇“高級思考模式”時也會返回低質量的自動響應，令用戶不得不重新調整使用方式。

還有用戶表示，GPT-5.2的安全策略實施過于嚴格，在執(zhí)行普通且無風險的請求時也會拒絕操作并給出無關的安全提示。

有觀察人士指出，這輪差評潮背后存在幾重因素。一方面，OpenAI推廣時著重強調GPT-5.2的專業(yè)能力和基準測試成績，但普通用戶更關注日常對話、流暢性和創(chuàng)造性體驗，兩者的期望存在錯位；另一方面，由于競爭加劇和內部發(fā)布節(jié)奏加快，有觀點認為該版本可能發(fā)布過早，尚未充分優(yōu)化在關鍵使用場景中的穩(wěn)定性與一致性，因此用戶的實際感受出現(xiàn)明顯落差。

截至發(fā)稿，OpenAI尚未就這輪用戶反饋作出公開回應，但公司在官方資料中表示，會持續(xù)改善用戶體驗、優(yōu)化安全策略，并根據(jù)用戶反饋推進后續(xù)版本的迭代。

當前，OpenAI仍面臨來自谷歌的巨大競爭壓力。谷歌此前推出的Gemini 3在編程、多模態(tài)理解等關鍵企業(yè)應用場景上實現(xiàn)了對ChatGPT的性能超越。11月，谷歌宣布Gemini月活躍用戶已突破6.5 億，較7月報告的4.5億實現(xiàn)大幅增長，而OpenAI披露的周活躍用戶數(shù)接近8億。

為此，奧特曼曾發(fā)布“紅色代碼”警報，決定暫時擱置包括Sora視頻生成器在內的長期研發(fā)項目，轉而在短期內全力通過提升用戶活躍度來鞏固ChatGPT的大眾市場地位。但急轉直下的口碑或在很大程度上影響ChatGPT的使用率，OpenAI能否拿出更強有力的“武器”反擊谷歌仍存在不確定性。

未經正式授權嚴禁轉載本文，侵權必究。

OpenAI

ChatGPT被控引發(fā)命案，為美國首起直接關聯(lián)AI聊天與謀殺訴訟4天前
OpenAI發(fā)布GPT最新升級版本GPT-5.24天前

硬科技

OpenAI最新模型打不動了？GPT-5.2因“降智”陷“差評潮”

該模型上線后遭到大量用戶吐槽，認為其從常識問答到情感交互，“智商不穩(wěn)定”。

宋佳楠 · 2025/12/15 16:59來源：界面新聞

圖片來源：界面圖庫

界面新聞記者 | 宋佳楠

OpenAI推出不到一周的最新旗艦模型沒能等來“好評如潮”。

但該模型上線后遭到大量用戶吐槽，認為其從常識問答到情感交互，“智商不穩(wěn)定”。

此外，該版本在處理連續(xù)對話時不穩(wěn)定，甚至在明確選擇“高級思考模式”時也會返回低質量的自動響應，令用戶不得不重新調整使用方式。

還有用戶表示，GPT-5.2的安全策略實施過于嚴格，在執(zhí)行普通且無風險的請求時也會拒絕操作并給出無關的安全提示。

未經正式授權嚴禁轉載本文，侵權必究。

歷史搜索全部刪除

熱門搜索

OpenAI最新模型打不動了？GPT-5.2因“降智”陷“差評潮”

OpenAI

評論

OpenAI最新模型打不動了？GPT-5.2因“降智”陷“差評潮”

OpenAI最新模型打不動了？GPT-5.2因“降智”陷“差評潮”

OpenAI

評論

OpenAI最新模型打不動了？GPT-5.2因“降智”陷“差評潮”

OpenAI最新模型打不動了？GPT-5.2因“降智”陷“差評潮”

OpenAI最新模型打不動了？GPT-5.2因“降智”陷“差評潮”