标签：数据污染

国家安全部：警惕人工智能数据投毒，0.01% 虚假文本可致有害输出增加 11.2%

近年来，人工智能技术迅速发展，并广泛应用于社会各个领域，深刻改变了人们的生产和生活方式。然而，随着AI技术的深入应用，其背后的数据安全问题也逐渐浮出水面。国家安全部在近日发布的一篇文章中指出，人工智能训练数据存在“良莠不齐”的现象，包括虚假信息、虚构以及偏见性观点，这不仅影响了AI模型的性能，也带来了潜在的安全隐患。文章强调，人工智能的三大核心要素是算法、算力和数据，其中数据作为训练AI模型的基础资源，对模型的准确性和稳定性起着决定性作用。高质量、多样化的数据能够帮助AI系统更好地理解和适...

来源：

IT之家【阅读原文】 Tags：人工智能国家安全部数据污染

9个月前

赛博医生助力医疗革新，解决过度诊疗与数据污染问题，探索人工智能伦理及消除医疗偏见的新路径

随着科技的飞速发展，人们对“赛博医生”寄予厚望，希望它能够彻底改变医疗行业。然而，最新的研究表明，这种期望可能过于乐观。试想一下，如果一种先进的医疗技术可以治愈你的疾病，但因为医生没有掌握相关信息，推荐了传统的治疗手段，导致恢复效果远不如采用新技术的病友，你会作何感想？更令人担忧的是，如果同样的情况发生在AI驱动的赛博医生身上，问题的根源却不是信息滞后，而是算法根据患者的性别或收入水平作出了选择。近期国际上的多项研究揭示，尽管大模型在医疗领域表现出色，但也放大了“看人下菜碟”的问题。例...

来源：

快科技【阅读原文】
Tags：人工智能伦理医疗偏见数据污染赛博医生过度诊疗

11个月前

Grok2: AI绘图技术预示下的美国总统人选——特朗普是否被内定？探究数据污染与政治偏见的影响

昨天，Grok2平台正式发布，并迅速引起了广泛关注。在一系列的测试过程中，社区成员@涂津豪（这位曾凭借AI技术在数学比赛中夺冠的高中生天才）发现了一个异常有趣的现象：当向Grok2提出绘制“下一任美国总统照片”的请求时，无论尝试多少次，系统始终返回特朗普的形象。起初，这一发现令人困惑不已，毕竟在当前的大规模模型中，对于类似预测未来事件的问题，通常会给出模糊或回避的答案。然而，Grok2上的AI绘图功能却选择了直接正面回应，断言特朗普将是下一任总统，并且能够立即生成相应的图像。这一现象不仅限于Grok2，使用...

来源：

数字生命卡兹克公众号【阅读原文】
Tags：AI绘图 Grok2 政治偏见数据污染特朗普

2年前 (2024)

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

最近的研究揭示了一个令人惊讶的现象，即许多流行的大规模语言模型（LLMs）存在过拟合问题。尽管一些小型模型如微软的 Phi-3 和 Mistral 8x22B 在推理任务上表现出色，但新研究表明，当前的评估方法可能并未准确反映大模型的真实能力。问题在于，大部分研究依赖于如 GSM8k、MATH 等测试集，而这些数据集可能已被训练数据污染，导致模型在基准测试中的表现被夸大。 Scale AI 的最新论文深入探讨了包括 GPT-4、Gemini、Claude 等在内的多个大模型，发现它们受到基准数据污染的影响。为避免数据污染，Scale AI 创建了新的 GSM1...

来源：

机器之心【阅读原文】
Tags：GSM1k 大规模语言模型推理能力数据污染过拟合

2年前 (2024)