标签:未来的研究重点应放在强化学习的Scaling Law上