标签:目前的AI训练方式往往奖励模型“看起来有好意”