标签:DiffuCoder 的训练流程包括适应性预训练、中阶段训练、指令微调以及最后的 GRPO 强化学习阶段。实验结果显示