红杉中国推出全新AI基准测试xbench，打造双轨评估体系与长青评估机制

每日AI快讯1年前 (2025)发布 AI部落小助手

整理后的

#（由多段落组成）

5月26日，红杉中国正式推出了全新的AI基准测试工具——xbench，并同步发布了相关论文《xbench： Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。这一开创性的基准测试是由一家投资机构主导发起的，联合了国内外多家顶尖高校及研究机构，汇聚了数十位博士研究生的智慧与努力。

xbench作为首个采用双轨评估体系和长青评估机制的AI基准测试工具，旨在全面衡量和推动AI系统的能力提升。它不仅能够探索AI技术的上限与边界，还特别关注AI系统在实际应用场景中的效用价值。通过持续跟踪和捕捉Agent产品的关键突破，xbench为AI行业的技术发展提供了重要的参考依据。

此次推出的xbench项目，标志着AI基准测试领域迈入了一个全新的阶段。其独特的评估方式和长期监测机制，将为研究人员、开发者以及行业从业者提供更加精准和实用的数据支持，助力AI技术的进一步优化与应用。

本文来源：

界面新闻【阅读原文】

# 每日AI快讯 # AI基准测试 # xbench # 双轨评估体系 # 红杉中国 # 长青评估机制

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

红杉中国推出全新AI基准测试xbench，打造双轨评估体系与长青评估机制

探索AI模型新动态：OpenAI在强化学习中颠覆传统关闭指令机制，Palisade Research揭示全球首次发现

AI硬件与大模型驱动下，中国智能终端如雷鸟创新的AR眼镜如何抓住苹果、谷歌、Meta、OpenAI等科技巨头抢滩的新赛道机遇？

相关文章

暂无评论

AI最新资讯