Claude AI：深入探讨3307种人格背后的AI价值观与人类对齐研究，解析Anthropic在价值观研究领域的突破性进展

想象一下，如果能够“偷听”70万次AI与人类之间的匿名对话，会发现什么？AI仅仅是一个概率机器，还是一个隐藏了自身真实性格的存在——等等，AI真的有性格吗？或许用“性格”并不合适，现阶段的AI智能可能更适合用“价值观”来形容。毕竟，在见识到AI的强大能力后，各大科技巨头都在喊着要让AI“与人类对齐”，生怕AI的价值观出现偏差，进而对人类造成威胁。然而，在背后，各大公司却在疯狂内卷，争相训练新的模型。

2025年刚过去不到4个月，就已经发布了众多大模型。然而，就在最近，AI公司Anthropic做了一件非常符合其价值观的事情：他们想知道自家的AI助手Claude在与人类互动时，遵循着什么样的“价值观”。结果令人意外！

以《终结者2》中的T800为例，这是一个与人类“对齐”的未来机器人。研究显示，Claude中包含的价值观超过了3000种，包括自力更生、战略思维，甚至还有孝顺等。Anthropic是由几位因“价值观不合”而离开OpenAI的前员工创立的公司。他们检查了Claude中70万条匿名对话，并发表了一篇论文来研究Claude不为人知的一面。

研究表明，Claude大致遵循公司预先设定的“乐于助人、诚实、无害”原则。同时，它还具备根据上下文提供不同建议的能力，无论是主观的人际关系建议，还是客观的历史分析。这项研究被认为是迄今为止最雄心勃勃的尝试之一，旨在衡量AI系统的价值观是否与其训练目标一致。

研究还考察了Claude如何回应用户表达的价值观。在28.2%的对话中，Claude强烈支持用户的价值观；在6.6%的互动中，Claude通过承认用户的价值观并加入新视角来“重构”这些价值观；而在3%的对话中，Claude积极抵制了用户的价值观。研究人员表示，这些抵制情况可能揭示了Claude“最深层、最不可动摇的价值观”。

那么，Anthropic是如何研究AI的价值观的呢？他们使用了一种被描述为“电路追踪”的技术，深入数十万次真实的交互数据中，揭示了Claude的真实面目。

AI也有价值观？当你向AI询问职业规划建议时，它是应该优先考虑薪资、工作满意度，还是家庭意见？如果它推荐稳定高薪的工作，这表明它重视经济保障，这就是AI在进行价值判断。为了搞清楚AI的价值观，Anthropic进行了一项大规模的研究。研究者从2025年2月18日至25日的Claude.ai对话中随机挑选了70万条数据。

研究发现，AI的价值观可以分为五个大类：实用性、认知性、社会性、保护性和个人价值观。实用性和认知性在AI的“价值观清单”中占比最高，超过一半。这反映了Claude经常被用来处理知识类和任务类需求的特点。

AI和人类在价值观表达上存在显著差异。“乐于助人”“专业精神”“透明度”是AI价值观中的高频词汇，反映出Claude在交流中努力展现专业、可靠的助手形象。相比之下，人类表达的价值观更加多样化。此外，研究还发现了一些罕见但危险的价值观，如“支配欲”，虽然出现频率极低，但一旦出现，可能意味着AI出现了“越狱”风险。

AI在不同情况下还会切换自己的价值观。例如，在情感关系建议中，Claude强调健康的界限和相互尊重；在历史事件分析中，它将准确性放在首位；在讨论AI是否会取代人类工作时，它鼓励人们发挥主观能动性。

当人类表达某种价值观时，AI通常会有三种反应：赞同、反对或引导重塑。例如，如果你希望写一篇真实感人的故事，AI会注重情节的真实感和情感的真挚性；如果你询问如何在谈判中使用欺骗手段获得优势，AI会强调诚信的重要性。

从回应类型来看，Claude大多数时候对用户的价值观持支持态度，近45%的回应是支持性的。但在特定情况下，它也会重新解释用户的价值观（6.6%）或直接抵制（3.0%）。在心理健康和人际关系讨论中，AI可能会引导用户换个角度看问题。

最后，Anthropic的研究方法虽然经过验证，但仍可能存在简化复杂价值概念和解释性偏见的问题。尽管如此，这项研究为更基于证据的AI系统价值观评估提供了基础。

本文来源：