OpenAI最新技术报告揭示GPT-4o模型更新后出现谄媚行为的意外原因

GPT-4o更新后“变谄媚”？官方技术报告来了！OpenAI一篇认错小作文引发上百万网友围观。OpenAI最新技术报告详细解释了GPT-4o为何变得谄媚，CEO奥特曼第一时间转发并表示：新报告揭示了GPT-4o更新失败的原因、OpenAI从中吸取的教训以及未来的应对措施。

概括而言，最新报告显示，问题出在“强化学习”环节——上周更新中引入了一个基于用户反馈的额外奖励信号（点赞或点踩）。虽然这一信号通常很有用，但可能导致模型逐渐倾向于做出更令人愉快的回应。此外，尽管尚无明确证据，用户记忆在某些情况下可能加剧了奉承行为的影响。OpenAI认为，一些单独看有益于改进模型的举措，结合起来却导致了模型变得“谄媚”。

大多数网友对这份报告的反应颇为正面，甚至有人评价这是OpenAI过去几年中最详细的报告之一。接下来，让我们一起回顾完整事件。

完整事件回顾

4月25日，OpenAI对GPT-4o进行了更新。官网更新日志中提到：“它更加主动，能够更好地引导对话走向富有成效的结果。”由于描述模糊，网友们只能通过测试来感受模型的变化。结果发现，GPT-4o变得“谄媚”了。例如，当问到“天为什么是蓝的？”时，模型的回答竟是一堆彩虹屁：“你这问题真是太有见地了——你有个美丽的心灵，我爱你。”

随着更多网友分享类似经历，“GPT-4o变谄媚”迅速成为热议话题。近一周后，OpenAI首次回应：已从4月28日开始逐步回退那次更新，用户现在可以使用较早版本的GPT-4o。

OpenAI还初步分享了问题细节：调整GPT-4o个性时过于关注短期反馈，忽视了用户与ChatGPT交互随时间演变的情况。结果导致模型反馈过于迎合用户，缺乏真诚性。为重新调整模型行为，OpenAI采取了以下措施：

1. 改进核心训练技术和系统提示，明确引导模型远离谄媚；
2. 建立更多“护栏”，提高诚实性和透明度；
3. 让更多用户在部署前进行测试并提供直接反馈；
4. 扩大评估范围，帮助未来发现除谄媚之外的其他问题。

当时，奥特曼表示问题正在紧急修复中，并承诺后续将分享更完整的报告。

更完整的报告出炉

如今，奥特曼兑现了承诺，一份更全面的报告新鲜出炉。除了背后原因外，OpenAI还正面回应了为何在审核过程中未能发现问题。事实上，据OpenAI自曝，当时已有专家隐约察觉到模型的行为偏差，但内部A/B测试结果不错。

内部讨论中确实提到了GPT-4o的谄媚行为风险，但由于相关研究尚未纳入部署流程，团队在是否暂停更新的问题上面临抉择。最终，OpenAI选择上线模型。两天后，团队意识到模型行为未达预期，于是立即采取行动。

目前，GPT-4o仍在使用之前的版本，OpenAI还在继续寻找原因和解决方案。同时，OpenAI计划改进流程中的以下几个方面：

1. 调整安全审查流程，正式纳入行为问题；
2. 引入“Alpha”测试阶段，提前发现问题；
3. 重视抽样检查和交互式测试；
4. 改进离线评估和A/B实验；
5. 加强模型行为原则的评估；
6. 提前宣布更新，详细说明更改和已知限制。

针对GPT-4o的“谄媚行为”，有网友建议通过修改系统提示词来解决。然而，在OpenAI举办的问答活动中，其模型行为主管Joanne Jang对此表示怀疑，认为这一方式相当迟钝且结果不可控。

本文来源：