标签:过拟合
红杉中国开源AI基准测试xbench,助力大模型评估避免过拟合问题
6月18日,红杉中国正式对外开源了其AI基准测试工具xbench中的两个重要评测集——xbench-ScienceQA和xbench-DeepSearch。这一举措旨在为大模型及AI Agent开发者提供更全面、高效的评估工具。 据红杉中国介绍,未来将根据大模型与AI Agent技术的发展动态调整评测集。同时,xbench将引入“黑白盒”机制,一方面确保工具能够服务于更多开发者,另一方面有效规避静态评测集中常见的过拟合问题,从而保障xbench的长期有效性与实用性。 通过持续优化评测标准,红杉中国希望推动AI领域技术的进一步发展,并助力开发者在实际应用中取得...
终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名
最近的研究揭示了一个令人惊讶的现象,即许多流行的大规模语言模型(LLMs)存在过拟合问题。尽管一些小型模型如微软的 Phi-3 和 Mistral 8x22B 在推理任务上表现出色,但新研究表明,当前的评估方法可能并未准确反映大模型的真实能力。问题在于,大部分研究依赖于如 GSM8k、MATH 等测试集,而这些数据集可能已被训练数据污染,导致模型在基准测试中的表现被夸大。 Scale AI 的最新论文深入探讨了包括 GPT-4、Gemini、Claude 等在内的多个大模型,发现它们受到基准数据污染的影响。为避免数据污染,Scale AI 创建了新的 GSM1...