标签：强化学习

百度文心大模型全新升级：深度思考模型免费体验，多模态能力更强，API定价优惠空前，强化学习技术引领未来发展趋势

百度文心大模型迎来重大更新，全新版本文心大模型4.5和文心大模型X1正式上线官网，并免费开放给用户使用。此次更新不仅带来了更强大的多模态能力，还优化了模型的理解、规划、反思与进化能力。文心大模型4.5：原生多模态的全面升级文心大模型4.5作为百度自主研发的新一代原生多模态基础大模型，通过多个模态联合建模实现了协同优化，其语言、理解、生成、逻辑和记忆能力均得到了全面提升。具体来看，该模型在多模态能力方面已接近GPT-4o水平，而在文本能力上更是超越了DeepSeek-V3和GPT-4.5，平均得分达到79.6分。背后...

来源：

量子位【阅读原文】
Tags：API定价多模态能力强化学习深度思考模型百度文心大模型

1年前 (2025)

AI Agent与大语言模型：从思考到行动的数字员工革命及伦理问题探讨

2025年3月，一款名为Manus的AI产品在社交媒体上引起了广泛关注。它的内测邀请码一码难求，甚至被炒至数万元，并带动了超过150只AI智能体概念股涨停。Manus之所以受到如此关注，不仅因为它在GAIA基准测试中超越了OpenAI的Operator模型，达到了当前技术的最佳水平（SOTA），更因为它代表了一种全新的AI形态——AI Agent（人工智能智能体）。与我们熟悉的ChatGPT等生成式AI不同，AI Agent实现了从“思考”到“行动”的跨越。 ChatGPT更像是一个超级大脑，擅长回答问题和生成，但仅停留在思考层面。而AI Agent则更进一步，不仅能思考...

来源：

脑极体公众号【阅读原文】
Tags：AI Agent 伦理问题大语言模型强化学习数字员工

1年前 (2025)

阿里半夜开源全新推理模型QwQ-32B，基于强化学习与大规模预训练实现性能显著提升，挑战DeepSeek-R1满血版，迈向AGI新征程

阿里发布QwQ-32B：强化学习助力大模型性能突破今天凌晨3点，阿里开源发布了全新推理模型QwQ-32B，该模型参数量为320亿，但其性能足以媲美6710亿参数的DeepSeek-R1满血版。千问团队在推文中表示：“这次，我们研究了扩展强化学习（RL）的方法，并基于我们的Qwen2.5-32B取得了一些令人印象深刻的成果。我们发现，通过持续的RL训练可以显著提高模型性能，尤其是在数学和编码任务上，并且中型模型也能实现与巨型MoE模型相媲美的效果。” QwQ-32B已正式在Hugging Face和ModelScope平台开源，采用Apache 2.0开源协议。用户可以通...

来源：

机器之心【阅读原文】
Tags：AGI QwQ-32B 大规模预训练强化学习性能提升

1年前 (2025)

DeepSeek V3/R1搭配Colossal-AI，实现低成本构建与高效模型微调，强化学习性能提升，硬件要求直降10倍！

DeepSeek V3/R1 引领潮流，Colossal-AI 助力低成本高质量模型构建 DeepSeek V3/R1 正在全网掀起热潮，其基于原始模型的解决方案和 API 服务已广泛普及。面对低价和免费的竞争压力，如何通过后训练（post-training）结合专业领域数据，站在巨人的肩膀上，打造高质量私有模型，提升业务竞争力与价值？Colossal-AI 提供了强大的支持。 Colossal-AI 是一款开源大模型后训练工具箱，已获得近 4 万 GitHub Star。它为开发者提供了丰富的功能，包括： - 低成本微调：支持满血版 671B LoRA 的 DeepSeek V3/R1 模型进行低成本监督...

来源：

机器之心【阅读原文】
Tags：Colossal-AI DeepSeek V3/R1 低成本构建强化学习模型微调

1年前 (2025)

ChatGPT后训练方法被OpenAI前高管公开，PPT全网传播

近日，OpenAI的两位前高管John Schulman和Barret Zoph在离开公司后，将ChatGPT的后训练方法整理成PPT并公开发布。这两位曾在OpenAI担任后训练研究的重要角色，因此他们对这一领域的见解备受关注。背景介绍 John Schulman是OpenAI的联合创始人之一，曾负责后训练工作；Barret Zoph则曾任后训练研究副总裁。他们在斯坦福大学进行了一场关于后训练及ChatGPT开发经验的演讲，并通过社交媒体分享了PPT。遗憾的是，演讲视频未能录制下来，但观众们纷纷点赞收藏，证明了其的高质量。后训练阶段详解后训练是模型开发的最后一...

来源：

量子位【阅读原文】
Tags：ChatGPT OpenAI 后训练强化学习模型优化

1年前 (2025)

DeepSeek利用AI模型R1独立发现成本控制核心思路，OpenAI首席研究官亲自证实，引发业内广泛关注，连奥特曼都不得不发声评论这一突破性进展！

DeeSeek掀起全球AI革命，改变科技格局短短几天内，DeeSeek凭借其R1模型在Hugging Face中的like数飙升，迅速登顶美国App Store榜首，引发了全球科技股的集体重挫。这股来自东方的力量展示了其强大的影响力。甚至连OpenAI首席研究官Mark Chen也不得不承认，DeepSeek确实独立发现了一些关键的AI核心理念，并且未来将发布更多模型。 OpenAI的回应与技术突破面对外界的各种分析，Mark Chen表示现代AI系统采用了「预训练」和「推理」两大范式，提供了更灵活的优化空间，在降低成本的同时提升模型性能。Noam Brown也强调，算...

来源：

新智元公众号【阅读原文】
Tags：AI模型 DeepSeek R1 强化学习成本控制

1年前 (2025)

历史首次！DeepSeek凭借深度求索和强化学习技术同时登顶中美两区苹果App免费榜：开源模型引领AI竞争，下载量爆增

深度求索（DeepSeek）引领中美AI竞争新潮流近日，快科技报道指出，随着深度求索（DeepSeek）的出现，中美在人工智能（AI）领域的竞争格局发生了显著变化。根据苹果App Store中国区免费榜数据显示，过去一周内，全球瞩目的DeepSeek一举登顶榜首。同时，在美国区苹果App Store免费榜上，DeepSeek也从昨日的第六位迅速攀升至首位，超越了包括ChatGPT、Meta旗下的Threads、Google Gemini和Microsoft Copilot等在内的多个知名生成式AI产品。这是首次有中国应用在中国和美区苹果App Store同时占据首位，其火爆程度可见一斑。1...

来源：

快科技【阅读原文】
Tags：AI竞争 DeepSeek 开源模型强化学习深度求索

1年前 (2025)

电信人工智能研究院推出复杂推理大模型，数学推理能力达竞赛级表现，强化学习与思维链路技术助力评分超越o1-preview

中国电信人工智能研究院发布复杂推理大模型TeleAI-t1-preview 近日，中国电信人工智能研究院（TeleAI）正式发布了其最新成果——“复杂推理大模型”TeleAI-t1-preview，并即将上线天翼 AI 开放平台。该模型通过引入探索、反思等思考范式，显著提升了在数学推导和逻辑推理等方面的准确性。早在1500多年前，中国古代数学家祖冲之就曾指出，复杂事物的运行规律可以通过实际观测和数据推理严谨求得。如今，TeleAI-t1-preview 正在用严密的思维链路，摆脱幻觉的怪圈，向这一目标迈进。 TeleAI-t1-preview 在权威评测中表现出色在...

来源：

机器之心【阅读原文】
Tags：复杂推理大模型强化学习思维链路数学推理电信人工智能研究院

1年前 (2025)

DeepSeek-R1：中国AI大模型低成本高效训练，开源技术创新引领未来

来自中国的AI大模型DeepSeek-R1震撼全球，成本仅为国外竞品的三十分之一近日，中国的一家AI创业公司DeepSeek（深度求索）正式发布了其最新的大模型DeepSeek-R1。这款模型在数学、代码和自然语言推理等任务上的表现与OpenAI的o1版本相当，甚至在某些基准测试中略胜一筹。DeepSeek-R1的发布在全球AI圈引起了巨大反响。在AIME 2024数学基准测试中，DeepSeek-R1取得了79.8%的得分率，而OpenAI-o1为79.2%。在MATH-500基准测试中，DeepSeek-R1的得分率为97.3%，OpenAI-o1为96.4%。在编码任务中，DeepSeek-R1超越了96.3%的人类...

来源：

iFeng科技【阅读原文】
Tags：AI大模型 DeepSeek 开源强化学习

1年前 (2025)

「DeepSeek-R1接棒OpenAI，基于强化学习的多模态模型开源，引发AI圈性能对比热潮」

国内创业公司实现 OpenAI 愿景，多模态模型 K1.5 和 DeepSeek-R1 引领 AI 领域最近，大模型领域再次掀起热潮。国内创业公司月之暗面发布了数学、代码和多模态推理能力全面对标 OpenAI 的满血版 o1 的多模态思考模型 K1.5。与此同时，备受瞩目的 DeepSeek 也正式推出了其新版本 DeepSeek-R1，在数学、代码和自然语言推理等任务上与 OpenAI 的 o1 正式版不相上下。去年 12 月开源的 DeepSeek-V3 刚刚引发了一阵热潮，实现了诸多不可能的任务。此次发布的 R1 大模型更是让众多 AI 研究者感到震惊。AutoAWQ 作者 Casper Hans...

来源：

机器之心【阅读原文】
Tags：DeepSeek-R1 多模态模型开源模型强化学习性能对比

1年前 (2025)

1 234 5 6