标签:强化学习
杨笛一团队的DITTO:大语言模型高效对齐新突破,模仿学习与在线比较数据强化技术仅需少量示例
在培养大语言模型(LLM)的过程中,模仿学习的概念可以被巧妙地应用。斯坦福大学的研究团队提出了名为DITTO的新框架,它利用少量的用户示范来引导LLM与特定用户偏好对齐,从而减少了大量比较数据的需求。DITTO通过默认用户更偏爱示范而非原始模型的输出,构建增强数据集,并使用对齐算法如DPO来更新模型。此外,DITTO还可视为一种在线模仿学习算法,能够超越专家表现。实验表明,DITTO在与传统方法如SFT相比时,表现出更高的效率和性能。DITTO的关键在于利用模型自身的输出和专家示范生成比较数据,通过迭代和重放比较数据的...
谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏
谷歌DeepMind团队近期推出了一个创新的AI代理,名为SIMA,专为3D环境设计。SIMA的独特之处在于它无需游戏源代码或特定API,仅需图像和自然语言指令,即可在各种复杂的3D游戏中执行类似人类玩家的操作,如走路、建造和驾驶。通过与多个游戏工作室合作,SIMA在《无人深空》等游戏上接受了广泛的测试和训练,能执行600多种任务,如挖矿、驾驶飞船,响应速度约10秒。 SIMA采用大模型训练,能理解并执行复杂的3D游戏指令,其架构由视觉感知、语言理解、建模规划和控制执行四部分组成,分别对应人类的视觉、思维、计划和行动。视...