标签：xbench

红杉中国开源AI基准测试xbench，助力大模型评估避免过拟合问题

6月18日，红杉中国正式对外开源了其AI基准测试工具xbench中的两个重要评测集——xbench-ScienceQA和xbench-DeepSearch。这一举措旨在为大模型及AI Agent开发者提供更全面、高效的评估工具。据红杉中国介绍，未来将根据大模型与AI Agent技术的发展动态调整评测集。同时，xbench将引入“黑白盒”机制，一方面确保工具能够服务于更多开发者，另一方面有效规避静态评测集中常见的过拟合问题，从而保障xbench的长期有效性与实用性。通过持续优化评测标准，红杉中国希望推动AI领域技术的进一步发展，并助力开发者在实际应用中取得...

来源：

界面新闻【阅读原文】
Tags：AI基准测试 xbench 大模型红杉中国过拟合

1年前 (2025)

红杉中国推出全新AI基准测试xbench，打造双轨评估体系与长青评估机制

整理后的 #（由多段落组成） 5月26日，红杉中国正式推出了全新的AI基准测试工具——xbench，并同步发布了相关论文《xbench： Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。这一开创性的基准测试是由一家投资机构主导发起的，联合了国内外多家顶尖高校及研究机构，汇聚了数十位博士研究生的智慧与努力。 xbench作为首个采用双轨评估体系和长青评估机制的AI基准测试工具，旨在全面衡量和推动AI系统的能力提升。它不仅能够探索AI技术的上限与边界，还特别关注AI系统在实际应用场...

来源：

界面新闻【阅读原文】
Tags：AI基准测试 xbench 双轨评估体系红杉中国长青评估机制

1年前 (2025)