标签:强化学习

字节跳动推出200B参数Seed-Thinking-v1.5推理模型,基于强化学习与MoE技术超越满血DeepSeek-R1

字节跳动旗下的豆包团队最近发布了一篇关于其新型推理模型 Seed-Thinking-v1.5 的技术报告。根据报告,这款模型采用 MoE 架构设计,总参数量高达 200B,但在运行时仅激活其中的 20B 参数。尽管规模相对紧凑,但其性能表现却极为出色,在多个领域基准测试中超越了拥有 671B 参数的 DeepSeek-R1 模型。有业内人士猜测,这可能是当前豆包正在使用的深度思考模型。 值得注意的是,字节跳动在近期的一次活动推文中提到,4 月 17 日将在杭州举办的「2025 火山引擎 Force Link AI 创新巡展」上首次亮相一款全新的豆包模型。外界普...

火山引擎Q-Insight结合强化学习,推动图像质量评估与多模态大模型在视频云领域的深度发展

随着生成式人工智能与多模态大模型的快速发展,AI 视觉创作正迎来前所未有的生产力爆发。然而,如何评估机器生成的画质是否符合人眼审美,成为了一个亟待解决的问题。北京大学与火山引擎多媒体实验室联合提出了一种基于强化学习训练的多模态大模型图像画质理解方案 Q-Insight,为这一问题提供了创新性的解决方案。 Q-Insight 的核心理念 Q-Insight 不再简单地依赖于对人眼评分的拟合,而是将评分视为一种引导信号,促使模型深入思考图像质量的本质原因。这种方法不仅提升了模型的准确性,还增强了其泛化推理能力,使得 Q-I...

Llama 4重磅发布:首次引入混合专家架构,千万token上下文能力,开源AI领域新突破——多模态模型与强化学习助力超越DeepSeek

万万没想到,Meta 选择在周末发布了全新的 AI 模型系列——Llama 4。作为 Llama 家族的最新成员,该系列包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。这些模型通过大量未标注的文本、图像和视频数据进行训练,具备广泛的视觉理解能力。 Meta GenAI 负责人 Ahmad Al-Dahle 表示,Llama 4 展现了 Meta 对开源 AI 的长期承诺以及开放系统将带来最佳小型、中型和前沿大模型的坚定信念。谷歌 CEO 劈查伊也对 Llama 4 团队表示祝贺,并称赞人工智能世界永远不会无聊。 在大模型竞技场(Arena)中,Llama 4 Maverick...

智元机器人与具身智能:90后天才科学家罗剑岚的逆袭之路,强化学习领域Sergey Levine级新星崛起

(由多段落组成) 稚晖君旗下的智元机器人公司最近宣布了两项重要动态。一方面,他们迎来了具身智能领域的顶尖学者罗剑岚博士加入团队,并担任首席科学家一职。罗剑岚博士在具身智能领域深耕十年,曾就职于Google X和DeepMind等知名机构,是UC伯克利Sergey Levine团队的核心成员之一。他曾参与开发了全球首个超人类的机器人真机强化学习系统SERL/HIL-SERL,成功将任务成功率提升至100%,并在全球范围内得到了广泛应用。 接下来,罗剑岚博士将负责组建“智元具身智能研究中心”,主导前沿算法的研究与工程化落地工作。另一方...

视觉理解模型与数学推理结合:通义开源32B参数图像解析新模型,强化学习驱动的视觉逻辑分析能力提升,看图说话更进一步!

第一段 智东西(公众号:zhidxcom)报道,3月25日,阿里云通义千问开源了一款更小尺寸的视觉理解模型——Qwen2.5-VL-32B-Instruct。这一发布与DeepSeek V3新版本几乎同时进行。该模型在输出风格、数学推理能力以及图像解析等方面表现出色,能够应对复杂的数学问题,并在识别和视觉逻辑推导任务中具备细粒度分析能力。 第二段 Qwen2.5-VL-32B-Instruct是在1月底开源的Qwen2.5-VL系列基础上,通过强化学习持续优化而来的。这款模型采用Apache 2.0协议开源,其参数规模为32B,正迅速成为许多科技爱好者的首选模型大小。它不仅能...

强化学习与视觉语言模型结合:西北大学推出三维布局空间推理框架MetaSpatial,解锁50条数据驱动的空间智能新纪元

(由多段落组成) 在三维空间理解任务中,让视觉语言模型生成合理且符合物理规则的场景布局仍是一项挑战。例如,“请将这些家具合理摆放在房间中”,尽管现有模型可以识别图像中的物体并给出语义连贯的描述,但通常缺乏对三维空间结构的真实建模,难以满足基本的物理约束与功能合理性。 为解决这一问题,研究者尝试采用多智能体交互方法优化布局结果。然而,这类方法不仅计算成本高,而且容易陷入死锁。另一类方法通过构建大规模真实房间布局的描述语料,结合监督微调(Supervised Fine-Tuning, SFT)训练模型。虽然这种方式...

OpenAI后训练时代:William Fedus离职创业,AI4S与ChatGPT强化学习引领未来方向

第一段 最近,OpenAI的高管离职潮再次掀起波澜。在CTO Mira带领一众人才离开之后,后训练研究副总裁William Fedus也宣布离职并开始创业。这一消息引起了广泛关注。值得注意的是,去年10月,他刚刚晋升为后训练研究副总裁,接替了前负责人Barret Zoph的位置。 第二段 Fedus的离职并非毫无征兆。他在辞职声明中提到,自己的本科专业是物理学,并且渴望将AI for Science(AI4S)应用于物理领域。由于AI4S被认为是实现通用人工智能(ASI)最具战略意义的方向之一,OpenAI计划投资并与他的新公司合作。据媒体爆料,Fedus的新公...

百度文心大模型全新升级:深度思考模型免费体验,多模态能力更强,API定价优惠空前,强化学习技术引领未来发展趋势

百度文心大模型迎来重大更新,全新版本文心大模型4.5和文心大模型X1正式上线官网,并免费开放给用户使用。此次更新不仅带来了更强大的多模态能力,还优化了模型的理解、规划、反思与进化能力。 文心大模型4.5:原生多模态的全面升级 文心大模型4.5作为百度自主研发的新一代原生多模态基础大模型,通过多个模态联合建模实现了协同优化,其语言、理解、生成、逻辑和记忆能力均得到了全面提升。具体来看,该模型在多模态能力方面已接近GPT-4o水平,而在文本能力上更是超越了DeepSeek-V3和GPT-4.5,平均得分达到79.6分。 背后...

AI Agent与大语言模型:从思考到行动的数字员工革命及伦理问题探讨

2025年3月,一款名为Manus的AI产品在社交媒体上引起了广泛关注。它的内测邀请码一码难求,甚至被炒至数万元,并带动了超过150只AI智能体概念股涨停。Manus之所以受到如此关注,不仅因为它在GAIA基准测试中超越了OpenAI的Operator模型,达到了当前技术的最佳水平(SOTA),更因为它代表了一种全新的AI形态——AI Agent(人工智能智能体)。与我们熟悉的ChatGPT等生成式AI不同,AI Agent实现了从“思考”到“行动”的跨越。 ChatGPT更像是一个超级大脑,擅长回答问题和生成,但仅停留在思考层面。而AI Agent则更进一步,不仅能思考...

阿里半夜开源全新推理模型QwQ-32B,基于强化学习与大规模预训练实现性能显著提升,挑战DeepSeek-R1满血版,迈向AGI新征程

阿里发布QwQ-32B:强化学习助力大模型性能突破 今天凌晨3点,阿里开源发布了全新推理模型QwQ-32B,该模型参数量为320亿,但其性能足以媲美6710亿参数的DeepSeek-R1满血版。千问团队在推文中表示:“这次,我们研究了扩展强化学习(RL)的方法,并基于我们的Qwen2.5-32B取得了一些令人印象深刻的成果。我们发现,通过持续的RL训练可以显著提高模型性能,尤其是在数学和编码任务上,并且中型模型也能实现与巨型MoE模型相媲美的效果。” QwQ-32B已正式在Hugging Face和ModelScope平台开源,采用Apache 2.0开源协议。用户可以通...