标签:推理能力

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

纽约大学的研究揭示了一种AI的新能力,即AI能够在不依赖人类步骤的情况下,通过隐藏的“心算”过程解决复杂任务。研究团队发现,即使将AI的推理步骤替换为无意义的“……”符号,AI在某些任务中的表现仍然能够显著提高。这一发现挑战了以往认为AI需要模仿人类分解任务的观念,并引发了关于AI推理机制的讨论。 研究人员通过设计3SUM和2SUM-Transform两个任务来测试这一理论,发现填充“……”的AI模型在长序列任务中保持高准确率,即使没有看到人类的解题步骤。此外,实验还显示,填充token的隐藏层表示包含与下游任务相关的隐性计算,...

终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名

最近的研究揭示了一个令人惊讶的现象,即许多流行的大规模语言模型(LLMs)存在过拟合问题。尽管一些小型模型如微软的 Phi-3 和 Mistral 8x22B 在推理任务上表现出色,但新研究表明,当前的评估方法可能并未准确反映大模型的真实能力。问题在于,大部分研究依赖于如 GSM8k、MATH 等测试集,而这些数据集可能已被训练数据污染,导致模型在基准测试中的表现被夸大。 Scale AI 的最新论文深入探讨了包括 GPT-4、Gemini、Claude 等在内的多个大模型,发现它们受到基准数据污染的影响。为避免数据污染,Scale AI 创建了新的 GSM1...

GPT-4推理能力为0?开发者悬赏1万美金被打脸,神秘提示正确率直冲100%

本文讲述了关于人工智能模型GPT-4和Claude3在解决一个看似简单的脑筋急转弯推理题上的表现。一位开发者质疑GPT模型在训练集之外缺乏推理能力,认为它们无法实现人工智能(AGI),并悬赏1万美元发起挑战。然而,很快就有网友通过巧妙的提示让GPT-4和Claude3成功解决了这个问题,证明了模型的潜力。开发者Taelin承认了自己的错误,并支付了奖金。文章还讨论了模型的局限性,如无法进行长期逻辑推理,以及提示的重要性。尽管如此,人们还是对GPT模型的性能表示了赞赏,认为它们在很多领域已经展现出强大的应用价值。
12