红杉中国开源AI基准测试xbench，助力大模型评估避免过拟合问题

每日AI快讯1年前 (2025)发布 AI部落小助手

924 0 0

6月18日，红杉中国正式对外开源了其AI基准测试工具xbench中的两个重要评测集——xbench-ScienceQA和xbench-DeepSearch。这一举措旨在为大模型及AI Agent开发者提供更全面、高效的评估工具。

据红杉中国介绍，未来将根据大模型与AI Agent技术的发展动态调整评测集。同时，xbench将引入“黑白盒”机制，一方面确保工具能够服务于更多开发者，另一方面有效规避静态评测集中常见的过拟合问题，从而保障xbench的长期有效性与实用性。

通过持续优化评测标准，红杉中国希望推动AI领域技术的进一步发展，并助力开发者在实际应用中取得更好的成果。

本文来源：

界面新闻【阅读原文】

# 每日AI快讯 # AI基准测试 # xbench # 大模型 # 红杉中国 # 过拟合

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

AI人工智能领域的竞争，不仅是技术的较量，更是人才的争夺; 阿里通义成了黄埔军校

AI部落小助手

907

AI游戏新纪元：Oasis与Decart AI联手打造大模型驱动的游戏引擎，引领实时生成游戏风潮

AI部落小助手

1,397

卡帕西大模型横评方法太好玩！四大AI匿名参赛评分，最强出乎意料

AI部落小助手

704

提示词工程师：AI岗位中的复合型人才，掌握提示词工程与大模型精髓，未来发展潜力无限——揭秘ChatGPT催生的高薪职业为何逐渐被大厂冷落？

AI部落小助手

1,109

“弱智吧登AI论文”上贴吧热搜网友：弱智吧不收真弱智

AI部落小助手

1,563

OpenAI发布GPT最新升级版本：GPT-5.2来了 OpenAI最新发布

AI部落小助手

1,150

暂无评论

您必须登录才能参与评论！

暂无评论...