Claude AI:深入探讨3307种人格背后的AI价值观与人类对齐研究,解析Anthropic在价值观研究领域的突破性进展

想象一下,如果能够“偷听”70万次AI与人类之间的匿名对话,会发现什么?AI仅仅是一个概率机器,还是一个隐藏了自身真实性格的存在——等等,AI真的有性格吗?或许用“性格”并不合适,现阶段的AI智能可能更适合用“价值观”来形容。毕竟,在见识到AI的强大能力后,各大科技巨头都在喊着要让AI“与人类对齐”,生怕AI的价值观出现偏差,进而对人类造成威胁。然而,在背后,各大公司却在疯狂内卷,争相训练新的模型。

2025年刚过去不到4个月,就已经发布了众多大模型。然而,就在最近,AI公司Anthropic做了一件非常符合其价值观的事情:他们想知道自家的AI助手Claude在与人类互动时,遵循着什么样的“价值观”。结果令人意外!

以《终结者2》中的T800为例,这是一个与人类“对齐”的未来机器人。研究显示,Claude中包含的价值观超过了3000种,包括自力更生、战略思维,甚至还有孝顺等。Anthropic是由几位因“价值观不合”而离开OpenAI的前员工创立的公司。他们检查了Claude中70万条匿名对话,并发表了一篇论文来研究Claude不为人知的一面。

研究表明,Claude大致遵循公司预先设定的“乐于助人、诚实、无害”原则。同时,它还具备根据上下文提供不同建议的能力,无论是主观的人际关系建议,还是客观的历史分析。这项研究被认为是迄今为止最雄心勃勃的尝试之一,旨在衡量AI系统的价值观是否与其训练目标一致。

研究还考察了Claude如何回应用户表达的价值观。在28.2%的对话中,Claude强烈支持用户的价值观;在6.6%的互动中,Claude通过承认用户的价值观并加入新视角来“重构”这些价值观;而在3%的对话中,Claude积极抵制了用户的价值观。研究人员表示,这些抵制情况可能揭示了Claude“最深层、最不可动摇的价值观”。

那么,Anthropic是如何研究AI的价值观的呢?他们使用了一种被描述为“电路追踪”的技术,深入数十万次真实的交互数据中,揭示了Claude的真实面目。

AI也有价值观?当你向AI询问职业规划建议时,它是应该优先考虑薪资、工作满意度,还是家庭意见?如果它推荐稳定高薪的工作,这表明它重视经济保障,这就是AI在进行价值判断。为了搞清楚AI的价值观,Anthropic进行了一项大规模的研究。研究者从2025年2月18日至25日的Claude.ai对话中随机挑选了70万条数据。

研究发现,AI的价值观可以分为五个大类:实用性、认知性、社会性、保护性和个人价值观。实用性和认知性在AI的“价值观清单”中占比最高,超过一半。这反映了Claude经常被用来处理知识类和任务类需求的特点。

AI和人类在价值观表达上存在显著差异。“乐于助人”“专业精神”“透明度”是AI价值观中的高频词汇,反映出Claude在交流中努力展现专业、可靠的助手形象。相比之下,人类表达的价值观更加多样化。此外,研究还发现了一些罕见但危险的价值观,如“支配欲”,虽然出现频率极低,但一旦出现,可能意味着AI出现了“越狱”风险。

AI在不同情况下还会切换自己的价值观。例如,在情感关系建议中,Claude强调健康的界限和相互尊重;在历史事件分析中,它将准确性放在首位;在讨论AI是否会取代人类工作时,它鼓励人们发挥主观能动性。

当人类表达某种价值观时,AI通常会有三种反应:赞同、反对或引导重塑。例如,如果你希望写一篇真实感人的故事,AI会注重情节的真实感和情感的真挚性;如果你询问如何在谈判中使用欺骗手段获得优势,AI会强调诚信的重要性。

从回应类型来看,Claude大多数时候对用户的价值观持支持态度,近45%的回应是支持性的。但在特定情况下,它也会重新解释用户的价值观(6.6%)或直接抵制(3.0%)。在心理健康和人际关系讨论中,AI可能会引导用户换个角度看问题。

最后,Anthropic的研究方法虽然经过验证,但仍可能存在简化复杂价值概念和解释性偏见的问题。尽管如此,这项研究为更基于证据的AI系统价值观评估提供了基础。

本文来源: 新智元公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...