标签:安全对齐
基础智能体与自进化:探索多智能体系统、世界模型及安全对齐的264页智能体综述——MetaGPT等20家顶尖机构、47位学者共同参与
近期,大模型智能体(Agent)的话题热度持续攀升——无论是Anthropic抢先推广的MCP范式,还是OpenAI推出的Agents SDK,以及谷歌最新发布的A2A协议,都表明了AI Agent领域蕴含的巨大潜力。然而,目前大多数Agent应用仅停留在大型语言模型(LLM)能力的简单封装或延伸阶段,距离真正的通用智能实体还有一定差距。在面对复杂的真实场景时,这些智能体往往暴露出推理规划、长期记忆、世界建模、自主进化及安全对齐等核心能力不足的问题。 为系统性应对上述挑战并构建具备通用能力的未来智能体,MetaGPT与Mila联合全球20所顶尖研究...
OpenAI运用ChatGPT与RBR实现安全对齐:详解RBR方法及合成数据、细粒度控制在模型安全中的角色
随着ChatGPT普及,新型安全对齐技术提升模型安全性 随着ChatGPT等先进语言模型的广泛运用,保障其输出内容的安全性已成为关键挑战。传统的做法依赖于RLHF(基于人类反馈的强化学习)来实现安全对齐,然而这种方式面临两大难题:一是收集并维护人类反馈数据成本高昂,且随着模型能力增强及用户行为变化,现有数据容易迅速过时;二是数据标注者的主观偏见可能导致模型输出产生显著偏差,如曾出现过的种族歧视问题。针对这些问题,OpenAI提出了一种新的安全对齐方法——基于规则的奖励(RBR)。 基于规则的奖励(RBR) RBR将...