标签:### coupled-GRPO:扩散模型专属的强化学习策略