标签:NFT算法

N监督学习结合隐式负向策略,清华与英伟达联手引爆数学能力提升——强化学习与NFT算法的未来方向

第一段 在人工智能领域,监督学习和强化学习的界限似乎正在模糊。近日,清华大学与英伟达、斯坦福大学合作提出了一种全新的监督学习方法——NFT(Negative-aware FineTuning)。这一方法通过构建“隐式负向模型”,巧妙地利用负向数据进行训练,从而显著提升模型性能,特别是在数学问题解决方面表现出色。 第二段 NFT的核心思想是将监督学习引入类似强化学习的“自我反思”机制。具体而言,该方法基于RFT(Rejection FineTuning)算法,通过构造一个“隐式负向策略”来额外利用负向数据进行训练。这并不意味着直接使用低质量数据,...