6月18日,红杉中国正式对外开源了其AI基准测试工具xbench中的两个重要评测集——xbench-ScienceQA和xbench-DeepSearch。这一举措旨在为大模型及AI Agent开发者提供更全面、高效的评估工具。
据红杉中国介绍,未来将根据大模型与AI Agent技术的发展动态调整评测集。同时,xbench将引入“黑白盒”机制,一方面确保工具能够服务于更多开发者,另一方面有效规避静态评测集中常见的过拟合问题,从而保障xbench的长期有效性与实用性。
通过持续优化评测标准,红杉中国希望推动AI领域技术的进一步发展,并助力开发者在实际应用中取得更好的成果。
本文来源:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...