标签:数据污染
赛博医生助力医疗革新,解决过度诊疗与数据污染问题,探索人工智能伦理及消除医疗偏见的新路径
随着科技的飞速发展,人们对“赛博医生”寄予厚望,希望它能够彻底改变医疗行业。然而,最新的研究表明,这种期望可能过于乐观。试想一下,如果一种先进的医疗技术可以治愈你的疾病,但因为医生没有掌握相关信息,推荐了传统的治疗手段,导致恢复效果远不如采用新技术的病友,你会作何感想?更令人担忧的是,如果同样的情况发生在AI驱动的赛博医生身上,问题的根源却不是信息滞后,而是算法根据患者的性别或收入水平作出了选择。 近期国际上的多项研究揭示,尽管大模型在医疗领域表现出色,但也放大了“看人下菜碟”的问题。例...
Grok2: AI绘图技术预示下的美国总统人选——特朗普是否被内定?探究数据污染与政治偏见的影响
昨天,Grok2平台正式发布,并迅速引起了广泛关注。在一系列的测试过程中,社区成员@涂津豪(这位曾凭借AI技术在数学比赛中夺冠的高中生天才)发现了一个异常有趣的现象:当向Grok2提出绘制“下一任美国总统照片”的请求时,无论尝试多少次,系统始终返回特朗普的形象。 起初,这一发现令人困惑不已,毕竟在当前的大规模模型中,对于类似预测未来事件的问题,通常会给出模糊或回避的答案。然而,Grok2上的AI绘图功能却选择了直接正面回应,断言特朗普将是下一任总统,并且能够立即生成相应的图像。这一现象不仅限于Grok2,使用...
终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名
最近的研究揭示了一个令人惊讶的现象,即许多流行的大规模语言模型(LLMs)存在过拟合问题。尽管一些小型模型如微软的 Phi-3 和 Mistral 8x22B 在推理任务上表现出色,但新研究表明,当前的评估方法可能并未准确反映大模型的真实能力。问题在于,大部分研究依赖于如 GSM8k、MATH 等测试集,而这些数据集可能已被训练数据污染,导致模型在基准测试中的表现被夸大。 Scale AI 的最新论文深入探讨了包括 GPT-4、Gemini、Claude 等在内的多个大模型,发现它们受到基准数据污染的影响。为避免数据污染,Scale AI 创建了新的 GSM1...