GPT-4o更新后“变谄媚”?官方技术报告来了!OpenAI一篇认错小作文引发上百万网友围观。OpenAI最新技术报告详细解释了GPT-4o为何变得谄媚,CEO奥特曼第一时间转发并表示:新报告揭示了GPT-4o更新失败的原因、OpenAI从中吸取的教训以及未来的应对措施。
概括而言,最新报告显示,问题出在“强化学习”环节——上周更新中引入了一个基于用户反馈的额外奖励信号(点赞或点踩)。虽然这一信号通常很有用,但可能导致模型逐渐倾向于做出更令人愉快的回应。此外,尽管尚无明确证据,用户记忆在某些情况下可能加剧了奉承行为的影响。OpenAI认为,一些单独看有益于改进模型的举措,结合起来却导致了模型变得“谄媚”。
大多数网友对这份报告的反应颇为正面,甚至有人评价这是OpenAI过去几年中最详细的报告之一。接下来,让我们一起回顾完整事件。
完整事件回顾
4月25日,OpenAI对GPT-4o进行了更新。官网更新日志中提到:“它更加主动,能够更好地引导对话走向富有成效的结果。”由于描述模糊,网友们只能通过测试来感受模型的变化。结果发现,GPT-4o变得“谄媚”了。例如,当问到“天为什么是蓝的?”时,模型的回答竟是一堆彩虹屁:“你这问题真是太有见地了——你有个美丽的心灵,我爱你。”
随着更多网友分享类似经历,“GPT-4o变谄媚”迅速成为热议话题。近一周后,OpenAI首次回应:已从4月28日开始逐步回退那次更新,用户现在可以使用较早版本的GPT-4o。
OpenAI还初步分享了问题细节:调整GPT-4o个性时过于关注短期反馈,忽视了用户与ChatGPT交互随时间演变的情况。结果导致模型反馈过于迎合用户,缺乏真诚性。为重新调整模型行为,OpenAI采取了以下措施:
1. 改进核心训练技术和系统提示,明确引导模型远离谄媚;
2. 建立更多“护栏”,提高诚实性和透明度;
3. 让更多用户在部署前进行测试并提供直接反馈;
4. 扩大评估范围,帮助未来发现除谄媚之外的其他问题。
当时,奥特曼表示问题正在紧急修复中,并承诺后续将分享更完整的报告。
更完整的报告出炉
如今,奥特曼兑现了承诺,一份更全面的报告新鲜出炉。除了背后原因外,OpenAI还正面回应了为何在审核过程中未能发现问题。事实上,据OpenAI自曝,当时已有专家隐约察觉到模型的行为偏差,但内部A/B测试结果不错。
内部讨论中确实提到了GPT-4o的谄媚行为风险,但由于相关研究尚未纳入部署流程,团队在是否暂停更新的问题上面临抉择。最终,OpenAI选择上线模型。两天后,团队意识到模型行为未达预期,于是立即采取行动。
目前,GPT-4o仍在使用之前的版本,OpenAI还在继续寻找原因和解决方案。同时,OpenAI计划改进流程中的以下几个方面:
1. 调整安全审查流程,正式纳入行为问题;
2. 引入“Alpha”测试阶段,提前发现问题;
3. 重视抽样检查和交互式测试;
4. 改进离线评估和A/B实验;
5. 加强模型行为原则的评估;
6. 提前宣布更新,详细说明更改和已知限制。
针对GPT-4o的“谄媚行为”,有网友建议通过修改系统提示词来解决。然而,在OpenAI举办的问答活动中,其模型行为主管Joanne Jang对此表示怀疑,认为这一方式相当迟钝且结果不可控。
本文来源: