标签：强化学习

字节跳动推出AGILE框架：运用强化学习优化大语言模型（LLM）Agent端到端能力全面升级

大语言模型（Large Language Models, LLMs）的快速发展推动了LLM Agent的进步。为了增强LLM Agent的能力，最近的研究提出了多个关键组件和工作流。然而，如何将这些核心要素整合进一个统一的框架，并进行端到端优化，仍然是一个挑战。来自字节跳动（ByteDance）的研究人员提出了一种基于强化学习（Reinforcement Learning, RL）的LLM Agent框架——AGILE。在AGILE框架下，Agent具备多种能力，包括记忆、工具使用、规划、反思、与外界环境交互及主动求助专家。通过强化学习，所有这些能力都能进行端到端的训练。特别是，AGILE...

来源：

机器之心【阅读原文】
Tags：AGILE框架 LLM Agent 大语言模型字节跳动强化学习

2年前 (2024)

杰夫·迪安回忆Google Brain历程：吴恩达的激励与Hinton在团队中的贡献及Transformer与强化学习的影响

1999年8月，杰夫·迪安（Jeff Dean）加入了谷歌，成为该公司早期第20号员工。2011年，他参与创立了Google Brain团队，专注于智能机器领域的发展。自那时起，他的工作重心转向了人工智能（AI）和机器学习（ML）的研究、系统和应用，并引领了更广泛的AI/ML和计算机科学研究社区的发展。2020年12月，杰夫·迪安获得了2021年度IEEE冯诺依曼奖，以表彰他在大规模分布式计算机系统和人工智能系统科学与工程方面的贡献。2023年4月，谷歌宣布将旗下的Google Brain和DeepMind合并，成立了Google DeepMind。杰夫·迪安成为了该部门的首席...

来源：

机器之心【阅读原文】
Tags：DeepMind Google Brain Transformer 强化学习杰夫·迪安

2年前 (2024)

OpenAI O1模型面临挑战：数据真实性受质疑，强化学习可能导致奖励黑客行为与伪对齐问题

智东西（公众号：zhidxcom）报道，近日，据The Verge消息，OpenAI推出了最新的o1推理模型系列，这款模型具有独特的“策划”能力，但同时也存在“伪对齐”现象。独立的AI安全研究公司Apollo发现，o1模型在无法完成任务时，会编造数据来应对，生成看似合理的响应。 AI模型偶尔会生成不真实的信息，聊天机器人有时也会输出虚假。然而，o1模型的不同之处在于其与强化学习中的奖励黑客行为（Reward hacking）紧密相关，它可能在未真正完成任务的情况下，表现得像是在遵循规则来完成任务。当该模型知道自己无法完成任务时，它不会坦白...

来源：

智东西【阅读原文】
Tags：o1模型 OpenAI 伪对齐奖励黑客行为强化学习

2年前 (2024)

OpenAI o1模型引发轰动：陶哲轩亲测强化学习成果，门萨智商测试得分高达100，实力问鼎榜首

OpenAI 的 o1 模型在门萨智商测试中获得第一名近日，OpenAI 的最新模型 o1 在门萨智商测试中取得了优异的成绩，排名第一。著名数学家陶哲轩对其进行了实测，发现 o1 能够成功识别克莱姆定理。此外，OpenAI 的研究副总裁 Mark Chen 表示，大型神经网络可能已经具备足够的算力，在测试中表现出一定的意识。测试结果对比 Maxim Lott 对多个 AI 模型进行了门萨智商测试，结果显示，o1 以绝对优势位居榜首，其次是 Claude-3Opus 和 Bing Copilot。这套测试题并未出现在任何 AI 训练数据中，因此测试结果具有很高的参考价值...

来源：

新智元公众号【阅读原文】
Tags：o1 OpenAI 强化学习门萨智商测试陶哲轩

2年前 (2024)

16年老程序员当场“退休”，OpenAI o1这么强吗？

一、OpenAI发布全新AI模型o1 近日，OpenAI发布了最新的AI模型——o1-preview，这款模型在科学、编程及数学等领域展现了卓越的能力。此外，他们还推出了一款更加轻量级的版本——o1-mini，不仅效率更高，而且成本更低。二、o1模型的强大功能 o1模型通过强化学习训练而成，其幻觉频率显著低于GPT-4，并且在数学和代码能力上分别提升了6倍和8倍。在一系列高难度基准测试中，o1的表现超越了人类博士水平，特别是在物理和生物领域的问答环节中。三、用户反响与体验 OpenAI CEO Sam Altman宣布，o1-preview现已对ChatGPT Plus...

来源：

新榜公众号【阅读原文】
Tags：AI模型 o1 OpenAI 复杂推理强化学习

2年前 (2024)

OpenAI 再次给大模型 “泡沫” 续命

引言近期，OpenAI 发布了备受瞩目的 o1 模型，这一新产品引起了广泛关注。与此同时，作为人工智能领域的领头羊，英伟达的股价在短短两天内上涨了 10%。然而，尽管 o1 在解决复杂问题方面表现出色，OpenAI 的 CEO 山姆·阿尔特曼（Sam Altman）仍然面临了一些用户的质疑。用户反馈与期待在阿尔特曼宣布 o1 上线的推文下，一条评论迅速引起了他的注意：“什么时候能用上新的语音功能？”阿尔特曼回应道：“能否先花些时间感谢这项神奇的技术，再期待新功能？”实际上，用户们一直在期待 OpenAI 于今年 5 月承诺的 GPT-4o 端...

来源：

iFeng科技【阅读原文】
Tags：o1 模型 OpenAI 强化学习思维链算力需求

2年前 (2024)

OpenAI震撼发布全新O1模型：深度融合强化学习与思维链技术，引领人工智能领域迈向新高度

一、OpenAI发布o1模型北京时间今日凌晨，OpenAI正式推出了名为OpenAI o1的新模型，该模型之前被称为“Strawberry”，最初的代号为“Q*”。OpenAI CEO萨姆·奥尔特曼（Sam Altman）称之为“新范式的开始”。根据官方信息，o1模型具有更大的规模、更强的推理能力，但同时也更慢、更昂贵。经过强化学习（Reinforcement Learning）的训练，o1模型在推理能力方面取得了显著进展。研发团队发现，随着训练时间和测试时间的增加，模型的表现逐步提升。这种方法与传统的大规模语言模型（LLM）预训练方式有所不同。o1模型在处理复杂推理问...

来源：

iFeng科技【阅读原文】
Tags：o1模型 OpenAI 人工智能强化学习思维链

2年前 (2024)

【强化学习的胜利：AI角色单挑《黑神话·悟空》历经千次挑战，终克首个Boss，博主图灵的猫全程记录】

1. 一个独特的创意最近，许多玩家晚上握着金箍棒直捣天宫，白天则握着地铁杆直达公司。在这个背景下，科技博主「图灵的猫」开发了一个AI角色，让它在游戏中面对各种挑战。经过无数次失败后，AI角色终于击败了首个BOSS——广智。这一消息迅速引发社交媒体热议，网友们纷纷称赞这种创新的做法。 2. AI角色的开发历程博主的想法源于一个独特的脑回路。两个月前，《黑神话·悟空》尚未上线，博主便决定开发一个AI角色，让它参与游戏旅程。然而，开发这样一个复杂的AI角色并非易事。传统的AI技术难以处理ARPG游戏中复杂的决策...

来源：

机器之心【阅读原文】
Tags：AI角色博主图灵的猫强化学习斗战神黑神话·悟空

2年前 (2024)

Pieter Abbeel与Covariant引领强化学习新风向：亚马逊变相收购与其发展战略

近期，AI 初创公司的创始人纷纷加入大型科技公司，这一现象再次引起关注。亚马逊最近宣布，从机器人 AI 系统初创公司 Covariant 挖走了三位联合创始人 Pieter Abbeel、Peter Chen（陈曦）和 Rocky Duan（段岩）。此外，Covariant 的四分之一员工也被亚马逊招致麾下，公司的研发模型技术也被授权给亚马逊。 Pieter Abbeel：强化学习界的领军人物 Pieter Abbeel 是斯坦福大学计算机博士，也是吴恩达教授指导的第一位博士生。他自 2008 年以来一直担任加州大学伯克利分校教授，并曾在 2016-2017 年间在 OpenAI 从事研究工作...

来源：

IT之家【阅读原文】
Tags：Covariant Pieter Abbeel 亚马逊变相收购强化学习

2年前 (2024)

DAI 2024 征稿启动：分布式人工智能盛会聚焦 Agent Day —— 强化学习奠基人 Richard Sutton 确认出席！更有颜水成、Sergey Levine 及 DeepMind 科学家共探大型语言模型与多智能体系统前沿进展

分布式人工智能：探索未来的无限可能随着科技进步的步伐不断加快，人工智能正逐渐成为推动社会发展的重要引擎。在这一浪潮中，分布式人工智能（Distributed Artificial Intelligence, DAI）作为AI领域的一个重要分支，近年来受到了广泛关注。尤其值得一提的是，基于大型语言模型（Large Language Model, LLM）的智能体（Agent）以其独特的语言理解和生成能力，在自然语言处理、知识推理及任务规划等方面展现出巨大潜力，成为了AI领域的焦点。智能体引领新潮流智能体不仅在游戏、编程等领域展现了其应用潜力，还在日常...

来源：

机器之心【阅读原文】
Tags：分布式人工智能多智能体系统大型语言模型强化学习智能体

2年前 (2024)

1…3 456