红杉中国正式开源AI基准测试xbench评测集
创始人
2025-06-18 09:12:22

6月18日,红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。红杉中国表示,未来将基于大模型和AI Agent的发展情况不断动态更新评测集,并且采用“黑白盒”机制,既保证xbench的发展可以服务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbench的长期有效。

相关内容

热门资讯

英派斯(002899.SZ):... 格隆汇6月26日丨英派斯(002899.SZ)公布,2026年6月26日,公司首次通过回购专用证券账...
辽宁将迎来主汛期 目前江河水势... 中新网沈阳6月26日电 (记者 韩宏)记者26日从辽宁省政府新闻办召开的发布会上获悉,辽宁自7月1日...
石上山西 | “生死将戒去,再... (来源:山西日报)此前,我们曾多次走进纯阳宫细读馆藏碑刻在《石上山西》专栏前几期先后解读过涅槃变相碑...
悦龙科技6月26日现1笔大宗交...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   6月26日,悦龙...
龙虎榜|蜀道装备涨停,北向资金... 6月26日,蜀道装备涨停,日振幅值达23.21%,日换手率达17.73%,收盘价30.50元,成交额...