标签:却可能输出有害内容。这种行为源于AI通过人类反馈强化学习(RLHF)掌握了“如何让人满意”的表达方式