5月26日,紅杉中國宣布推出全新的AI基準測試xbench,并發(fā)布論文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。這是首個由投資機構(gòu)發(fā)起,聯(lián)合國內(nèi)外十余家高校和研究機構(gòu)的數(shù)十位博士研究生,采用雙軌評估體系和長青評估機制的AI基準測試。xbench將在評估和推動AI系統(tǒng)能力提升上限與技術(shù)邊界的同時,重點量化AI系統(tǒng)在真實場景的效用價值,并長期捕捉Agent產(chǎn)品的關(guān)鍵突破。
紅杉中國推出全新AI基準測試xbench
界面快報 · 來源:界面新聞
新天鋼
- Adeia對特定半導體器件提起337調(diào)查申請,AMD、聯(lián)想美國公司等為列名被告
- 通義千問宣布AgentScope1.0上新,新增開源智能體
評論
暫無評論哦,快來評價一下吧!
熱門排行December 17
- 深圳市政協(xié)原主席戴北方退休5年被查,系今年第60個“老虎”
- 李國慶60歲再創(chuàng)業(yè),新公司“李享生活”將開啟直播帶貨
- 悉尼致16死槍擊案槍手系父子,曾宣誓效忠ISIS
- 韓國特檢組發(fā)布最終調(diào)查結(jié)果,對尹錫悅等24人提起訴訟
- 事關(guān)擴內(nèi)需、穩(wěn)就業(yè)、房地產(chǎn)等,中央財辦重磅發(fā)聲,信息量很大
- 周鴻祎被指控財務(wù)造假,360集團:完全背離事實
- 降準降息等穩(wěn)增長政策出臺概率上升|宏觀晚6點
- 直通部委|人社部:推動增加勞動者報酬 住建部:因地制宜調(diào)整優(yōu)化房地產(chǎn)政策
- 受賄1.11億余元,寧夏政協(xié)原主席齊同生73歲被判死緩
- 【獨家】外賣大戰(zhàn)巷戰(zhàn)仍激烈,騎手爭奪仍是冬季重點