四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

正在閱讀:

OpenAI最新模型打不動了?GPT-5.2因“降智”陷“差評潮”

掃一掃下載界面新聞APP

OpenAI最新模型打不動了?GPT-5.2因“降智”陷“差評潮”

該模型上線后遭到大量用戶吐槽,認為其從常識問答到情感交互,“智商不穩(wěn)定”。

圖片來源:界面圖庫

界面新聞記者 | 宋佳楠

OpenAI推出不到一周的最新旗艦模型沒能等來“好評如潮”。

近日,OpenAI在十周年之際發(fā)布了GPT-5.2系列模型,官方數(shù)據(jù)顯示其在GDPval等專業(yè)基準測試中超越人類專家,是迄今為止在“專業(yè)知識工作方面”表現(xiàn)最好的模型。

據(jù)OpenAI官方披露,GPT-5.2在多領域實現(xiàn)技術突破:GDPval測試中覆蓋44個職業(yè)的任務表現(xiàn)70.9%優(yōu)于頂尖專家,SWE-bench Pro編程測試獲55.6%的SOTA成績,還將幻覺率較GPT-5.1降低38%。該公司CEO山姆·奧特曼稱其為“許久以來最大的升級”,并透露計劃2026年1月解除應對谷歌競爭的“紅色警報”。

但該模型上線后遭到大量用戶吐槽,認為其從常識問答到情感交互,“智商不穩(wěn)定”。

SimpleBench常識推理測試顯示,GPT-5.2得分低于Anthropic發(fā)布的Claude Sonnet 3.7,甚至在“garlic有幾個r”的基礎問題上反復出錯——有用戶三次測試僅一次答對,而谷歌的Gemini 3.0等競品均穩(wěn)定通關。該測試旨在評估大模型在處理普通人認為簡單,但對機器而言充滿挑戰(zhàn)的邏輯推理任務的能力。前AWS總經理Bindu Reddy直言,“不值得從GPT-5.1升級”。

網友曬出的網友曬出GPT-5.2在SimpleBench上的成績單。

一些編程愛好者則發(fā)現(xiàn),GPT-5.2生成的交通燈模擬代碼畫面僅達“黑白火柴人級別”,蒙娜麗莎ASCII藝術創(chuàng)作效果遠遜于GPT-4o。情感交互中有用戶傾訴“恐慌發(fā)作”,竟收到“很高興聽到這個消息”的回復,安慰失寵孩童時則機械強調“生物都會停止運作”,缺乏此前版本的親和力和自然表達。

此外,該版本在處理連續(xù)對話時不穩(wěn)定,甚至在明確選擇“高級思考模式”時也會返回低質量的自動響應,令用戶不得不重新調整使用方式。

還有用戶表示,GPT-5.2的安全策略實施過于嚴格,在執(zhí)行普通且無風險的請求時也會拒絕操作并給出無關的安全提示。

有觀察人士指出,這輪差評潮背后存在幾重因素。一方面,OpenAI推廣時著重強調GPT-5.2的專業(yè)能力和基準測試成績,但普通用戶更關注日常對話、流暢性和創(chuàng)造性體驗,兩者的期望存在錯位;另一方面,由于競爭加劇和內部發(fā)布節(jié)奏加快,有觀點認為該版本可能發(fā)布過早,尚未充分優(yōu)化在關鍵使用場景中的穩(wěn)定性與一致性,因此用戶的實際感受出現(xiàn)明顯落差。

截至發(fā)稿,OpenAI尚未就這輪用戶反饋作出公開回應,但公司在官方資料中表示,會持續(xù)改善用戶體驗、優(yōu)化安全策略,并根據(jù)用戶反饋推進后續(xù)版本的迭代。

當前,OpenAI仍面臨來自谷歌的巨大競爭壓力。谷歌此前推出的Gemini 3在編程、多模態(tài)理解等關鍵企業(yè)應用場景上實現(xiàn)了對ChatGPT的性能超越。11月,谷歌宣布Gemini月活躍用戶已突破6.5 億,較7月報告的4.5億實現(xiàn)大幅增長,而OpenAI披露的周活躍用戶數(shù)接近8億。

為此,奧特曼曾發(fā)布“紅色代碼”警報,決定暫時擱置包括Sora視頻生成器在內的長期研發(fā)項目,轉而在短期內全力通過提升用戶活躍度來鞏固ChatGPT的大眾市場地位。但急轉直下的口碑或在很大程度上影響ChatGPT的使用率,OpenAI能否拿出更強有力的“武器”反擊谷歌仍存在不確定性。

未經正式授權嚴禁轉載本文,侵權必究。

OpenAI

  • ChatGPT被控引發(fā)命案,為美國首起直接關聯(lián)AI聊天與謀殺訴訟
  • OpenAI發(fā)布GPT最新升級版本GPT-5.2

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

OpenAI最新模型打不動了?GPT-5.2因“降智”陷“差評潮”

該模型上線后遭到大量用戶吐槽,認為其從常識問答到情感交互,“智商不穩(wěn)定”。

圖片來源:界面圖庫

界面新聞記者 | 宋佳楠

OpenAI推出不到一周的最新旗艦模型沒能等來“好評如潮”。

近日,OpenAI在十周年之際發(fā)布了GPT-5.2系列模型,官方數(shù)據(jù)顯示其在GDPval等專業(yè)基準測試中超越人類專家,是迄今為止在“專業(yè)知識工作方面”表現(xiàn)最好的模型。

據(jù)OpenAI官方披露,GPT-5.2在多領域實現(xiàn)技術突破:GDPval測試中覆蓋44個職業(yè)的任務表現(xiàn)70.9%優(yōu)于頂尖專家,SWE-bench Pro編程測試獲55.6%的SOTA成績,還將幻覺率較GPT-5.1降低38%。該公司CEO山姆·奧特曼稱其為“許久以來最大的升級”,并透露計劃2026年1月解除應對谷歌競爭的“紅色警報”。

但該模型上線后遭到大量用戶吐槽,認為其從常識問答到情感交互,“智商不穩(wěn)定”。

SimpleBench常識推理測試顯示,GPT-5.2得分低于Anthropic發(fā)布的Claude Sonnet 3.7,甚至在“garlic有幾個r”的基礎問題上反復出錯——有用戶三次測試僅一次答對,而谷歌的Gemini 3.0等競品均穩(wěn)定通關。該測試旨在評估大模型在處理普通人認為簡單,但對機器而言充滿挑戰(zhàn)的邏輯推理任務的能力。前AWS總經理Bindu Reddy直言,“不值得從GPT-5.1升級”。

網友曬出的網友曬出GPT-5.2在SimpleBench上的成績單。

一些編程愛好者則發(fā)現(xiàn),GPT-5.2生成的交通燈模擬代碼畫面僅達“黑白火柴人級別”,蒙娜麗莎ASCII藝術創(chuàng)作效果遠遜于GPT-4o。情感交互中有用戶傾訴“恐慌發(fā)作”,竟收到“很高興聽到這個消息”的回復,安慰失寵孩童時則機械強調“生物都會停止運作”,缺乏此前版本的親和力和自然表達。

此外,該版本在處理連續(xù)對話時不穩(wěn)定,甚至在明確選擇“高級思考模式”時也會返回低質量的自動響應,令用戶不得不重新調整使用方式。

還有用戶表示,GPT-5.2的安全策略實施過于嚴格,在執(zhí)行普通且無風險的請求時也會拒絕操作并給出無關的安全提示。

有觀察人士指出,這輪差評潮背后存在幾重因素。一方面,OpenAI推廣時著重強調GPT-5.2的專業(yè)能力和基準測試成績,但普通用戶更關注日常對話、流暢性和創(chuàng)造性體驗,兩者的期望存在錯位;另一方面,由于競爭加劇和內部發(fā)布節(jié)奏加快,有觀點認為該版本可能發(fā)布過早,尚未充分優(yōu)化在關鍵使用場景中的穩(wěn)定性與一致性,因此用戶的實際感受出現(xiàn)明顯落差。

截至發(fā)稿,OpenAI尚未就這輪用戶反饋作出公開回應,但公司在官方資料中表示,會持續(xù)改善用戶體驗、優(yōu)化安全策略,并根據(jù)用戶反饋推進后續(xù)版本的迭代。

當前,OpenAI仍面臨來自谷歌的巨大競爭壓力。谷歌此前推出的Gemini 3在編程、多模態(tài)理解等關鍵企業(yè)應用場景上實現(xiàn)了對ChatGPT的性能超越。11月,谷歌宣布Gemini月活躍用戶已突破6.5 億,較7月報告的4.5億實現(xiàn)大幅增長,而OpenAI披露的周活躍用戶數(shù)接近8億。

為此,奧特曼曾發(fā)布“紅色代碼”警報,決定暫時擱置包括Sora視頻生成器在內的長期研發(fā)項目,轉而在短期內全力通過提升用戶活躍度來鞏固ChatGPT的大眾市場地位。但急轉直下的口碑或在很大程度上影響ChatGPT的使用率,OpenAI能否拿出更強有力的“武器”反擊谷歌仍存在不確定性。

未經正式授權嚴禁轉載本文,侵權必究。