红杉中国开源AI基准测试xbench,助力大模型评估避免过拟合问题

6月18日,红杉中国正式对外开源了其AI基准测试工具xbench中的两个重要评测集——xbench-ScienceQA和xbench-DeepSearch。这一举措旨在为大模型及AI Agent开发者提供更全面、高效的评估工具。

据红杉中国介绍,未来将根据大模型与AI Agent技术的发展动态调整评测集。同时,xbench将引入“黑白盒”机制,一方面确保工具能够服务于更多开发者,另一方面有效规避静态评测集中常见的过拟合问题,从而保障xbench的长期有效性与实用性。

通过持续优化评测标准,红杉中国希望推动AI领域技术的进一步发展,并助力开发者在实际应用中取得更好的成果。

本文来源: 界面新闻【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...