标签：NFT算法

监督学习结合隐式负向策略，清华与英伟达联手引爆数学能力提升——强化学习与NFT算法的未来方向

第一段在人工智能领域，监督学习和强化学习的界限似乎正在模糊。近日，清华大学与英伟达、斯坦福大学合作提出了一种全新的监督学习方法——NFT（Negative-aware FineTuning）。这一方法通过构建“隐式负向模型”，巧妙地利用负向数据进行训练，从而显著提升模型性能，特别是在数学问题解决方面表现出色。第二段 NFT的核心思想是将监督学习引入类似强化学习的“自我反思”机制。具体而言，该方法基于RFT（Rejection FineTuning）算法，通过构造一个“隐式负向策略”来额外利用负向数据进行训练。这并不意味着直接使用低质量数据，...

来源：

量子位【阅读原文】
Tags：NFT算法强化学习数学能力监督学习隐式负向策略

1年前 (2025)