红杉中国正式开源AI基准测试xbench评测集
创始人
2025-06-18 09:12:22

6月18日,红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。红杉中国表示,未来将基于大模型和AI Agent的发展情况不断动态更新评测集,并且采用“黑白盒”机制,既保证xbench的发展可以服务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbench的长期有效。

相关内容

热门资讯

隆基绿能股价涨5.09%,招商... 12月26日,隆基绿能涨5.09%,截至发稿,报19.20元/股,成交30.31亿元,换手率2.11...
兴业证券股价涨5.12%,国联... 12月26日,兴业证券涨5.12%,截至发稿,报7.80元/股,成交12.40亿元,换手率1.88%...
兴业证券股价涨5.12%,天弘... 12月26日,兴业证券涨5.12%,截至发稿,报7.80元/股,成交12.40亿元,换手率1.88%...
隆基绿能股价涨5.09%,前海... 12月26日,隆基绿能涨5.09%,截至发稿,报19.20元/股,成交30.34亿元,换手率2.11...
兴业证券股价涨5.12%,易方... 12月26日,兴业证券涨5.12%,截至发稿,报7.80元/股,成交12.45亿元,换手率1.89%...