标签:xbench
红杉中国开源AI基准测试xbench,助力大模型评估避免过拟合问题
6月18日,红杉中国正式对外开源了其AI基准测试工具xbench中的两个重要评测集——xbench-ScienceQA和xbench-DeepSearch。这一举措旨在为大模型及AI Agent开发者提供更全面、高效的评估工具。 据红杉中国介绍,未来将根据大模型与AI Agent技术的发展动态调整评测集。同时,xbench将引入“黑白盒”机制,一方面确保工具能够服务于更多开发者,另一方面有效规避静态评测集中常见的过拟合问题,从而保障xbench的长期有效性与实用性。 通过持续优化评测标准,红杉中国希望推动AI领域技术的进一步发展,并助力开发者在实际应用中取得...
红杉中国推出全新AI基准测试xbench,打造双轨评估体系与长青评估机制
整理后的 #(由多段落组成) 5月26日,红杉中国正式推出了全新的AI基准测试工具——xbench,并同步发布了相关论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。这一开创性的基准测试是由一家投资机构主导发起的,联合了国内外多家顶尖高校及研究机构,汇聚了数十位博士研究生的智慧与努力。 xbench作为首个采用双轨评估体系和长青评估机制的AI基准测试工具,旨在全面衡量和推动AI系统的能力提升。它不仅能够探索AI技术的上限与边界,还特别关注AI系统在实际应用场...