红杉中国正式开源AI基准测试xbench评测集_知识

红杉中国正式开源AI基准测试xbench评测集

创始人

2025-06-18 09:12:22

6月18日，红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。红杉中国表示，未来将基于大模型和AI Agent的发展情况不断动态更新评测集，并且采用“黑白盒”机制，既保证xbench的发展可以服务更多的大模型和Agent开发者，同时尽力避免静态评测集经常出现的过拟合问题，确保xbench的长期有效。

上一篇：临江仙：看懂红莲和离莫的爱情悲剧，才知这是一场双向宿命救赎！

下一篇：8.2分‼️刘宇宁演的黑瞎子真的绝了

热门资讯

英派斯(002899.SZ)：... 格隆汇6月26日丨英派斯(002899.SZ)公布，2026年6月26日，公司首次通过回购专用证券账...

辽宁将迎来主汛期目前江河水势... 中新网沈阳6月26日电 (记者韩宏)记者26日从辽宁省政府新闻办召开的发布会上获悉，辽宁自7月1日...

石上山西 | “生死将戒去，再... （来源：山西日报）此前，我们曾多次走进纯阳宫细读馆藏碑刻在《石上山西》专栏前几期先后解读过涅槃变相碑...

悦龙科技6月26日现1笔大宗交... 　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！　　6月26日，悦龙...

龙虎榜|蜀道装备涨停，北向资金... 6月26日，蜀道装备涨停，日振幅值达23.21%，日换手率达17.73%，收盘价30.50元，成交额...

红杉中国正式开源AI基准测试xbench评测集

相关内容

热门资讯