5月26日,紅杉中國宣布推出全新的AI基準(zhǔn)測試xbench,并發(fā)布論文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。這是首個(gè)由投資機(jī)構(gòu)發(fā)起,聯(lián)合國內(nèi)外十余家高校和研究機(jī)構(gòu)的數(shù)十位博士研究生,采用雙軌評估體系和長青評估機(jī)制的AI基準(zhǔn)測試。xbench將在評估和推動AI系統(tǒng)能力提升上限與技術(shù)邊界的同時(shí),重點(diǎn)量化AI系統(tǒng)在真實(shí)場景的效用價(jià)值,并長期捕捉Agent產(chǎn)品的關(guān)鍵突破。
紅杉中國推出全新AI基準(zhǔn)測試xbench
界面快報(bào) · 來源:界面新聞
新天鋼
71
- 美國ITC正式對磁阻隨機(jī)存取存儲器(MRAM)設(shè)備及其下游產(chǎn)品和組件啟動337調(diào)查
- 美國ITC發(fā)布對為吸收式制冷系統(tǒng)使用的鍋爐保護(hù)產(chǎn)品及其組件和下游產(chǎn)品的337部分終裁
評論
暫無評論哦,快來評價(jià)一下吧!
熱門排行April 09