标签：多模态能力

多模态能力与代理执行结合，大模型技术引领AI应用新潮流，提升用户体验

近年来，随着AI技术的迅速发展，各大科技公司在人工智能领域的竞争愈发激烈。特别是在多模态能力和代理执行能力方面，逐渐成为行业关注的核心焦点。这些技术的应用不仅提升了用户体验，还为未来的商业场景提供了更多可能性。多模态能力的突破多模态能力是指大模型能够同时处理多种类型的数据，如文本、图像、音频等。近期，字节跳动、百度、谷歌和OpenAI等公司纷纷推出了具备更强多模态能力的基础大模型产品。例如，阿里巴巴旗下的夸克应用上线了“拍照问夸克”功能，通过结合通义千问的大模型能力，实现了用户通过拍照与A...

来源：

窄播公众号【阅读原文】
Tags：AI应用代理执行多模态能力大模型技术用户体验

1年前 (2025)

多模态能力与代理执行结合，推动AI应用发展，通用Agent引领未来，实现模型即应用的新纪元

近年来，AI技术的快速发展使得各大科技公司在人工智能领域的竞争愈发激烈。本期《窄播Weekly》聚焦于大厂在AI应用上的新动态：当AI竞争策略逐渐向实际应用场景倾斜时，多模态能力和代理执行能力成为两大核心焦点。多模态能力的应用多模态能力是提升AI与用户交互体验的关键。通过赋予大模型处理多种类型数据（如文本、图像、视频等）的能力，AI可以更贴近人类的感知方式。近期，字节跳动、百度、谷歌和OpenAI等公司相继推出了具备更强多模态能力的基础大模型产品，为相关应用创新提供了可能。例如，阿里巴巴旗下的夸克应...

来源：

窄播公众号【阅读原文】
Tags：AI应用代理执行多模态能力模型即应用通用Agent

1年前 (2025)

GPT-4退役后，OpenAI携GPT-4o与GPT-5带来多模态能力及AI技术的全新突破进展

随着科技的不断进步，人工智能领域也在迅速发展。近日，OpenAI 推出了全新的 GPT-4o 模型，这标志着其在 AI 技术上的又一重要里程碑。根据站长之家(ChinaZ.com) 4月14日的消息，GPT-4o 不仅继承了前代 GPT-4 的优点，更在多个方面实现了显著提升。具体而言，GPT-4o 在写作、编程、科学问题解决以及指令遵循等方面的表现均优于 GPT-4。自2024年5月推出以来，OpenAI 已逐步将 GPT-4o 推广至 ChatGPT Plus 用户，并使其成为标配。这一升级不仅提升了对话的流畅性，还增强了输出的一致性和多模态能力，为用户带来了更优质的体...

来源：

站长之家【阅读原文】
Tags：AI技术 GPT-4o GPT-5 OpenAI 多模态能力

1年前 (2025)

百度文心大模型全新升级：深度思考模型免费体验，多模态能力更强，API定价优惠空前，强化学习技术引领未来发展趋势

百度文心大模型迎来重大更新，全新版本文心大模型4.5和文心大模型X1正式上线官网，并免费开放给用户使用。此次更新不仅带来了更强大的多模态能力，还优化了模型的理解、规划、反思与进化能力。文心大模型4.5：原生多模态的全面升级文心大模型4.5作为百度自主研发的新一代原生多模态基础大模型，通过多个模态联合建模实现了协同优化，其语言、理解、生成、逻辑和记忆能力均得到了全面提升。具体来看，该模型在多模态能力方面已接近GPT-4o水平，而在文本能力上更是超越了DeepSeek-V3和GPT-4.5，平均得分达到79.6分。背后...

来源：

量子位【阅读原文】
Tags：API定价多模态能力强化学习深度思考模型百度文心大模型

1年前 (2025)

中外大模型加速开源，AI模型成本下降与多模态能力提升！文心一言和GPT-5在算力优化上紧追不舍，免费资源助力创新

国内外大模型厂商掀起开源和免费浪潮，AI技术平民化加速近期，国内外主流大模型厂商如百度、DeepSeek、OpenAI、谷歌等纷纷宣布旗下高端AI模型将转向开源，并计划免费向用户开放。这一趋势不仅标志着大模型竞赛进入白热化阶段，也预示着AI技术正在逐步走进普通百姓的生活。百度与OpenAI的激烈竞争百度和OpenAI作为两大巨头，在短时间内相继发布了多项重要更新。百度宣布将在未来几个月内推出文心大模型4.5系列，并计划于6月30日开始开源。此外，百度还表示今年下半年将发布文心大模型5.0系列。与此同时，OpenAI CEO奥...

来源：

智东西【阅读原文】
Tags：AI模型多模态能力开源成本下降算力优化

1年前 (2025)

刚刚！百度正式宣布文心大模型开源，推动AI平权与多模态能力发展

百度宣布开源文心大模型4.5系列，推动AI平权智东西10月22日报道，百度正式宣布将开源其文心大模型4.5系列，并将于6月30日起正式开放源代码。这一举措标志着百度在AI领域的重要战略调整，顺应了全球开源趋势。自DeepSeek开源之风席卷全球以来，开源与闭源的选择一直是AI领域的热门话题。连此前坚持闭源的百度也加入了开源阵营，进一步巩固了开源的优势地位。百度近期连续发布多项重大消息，上周宣布成功点亮昆仑芯三代万卡集群，即将推出3万卡集群；昨日宣布文心一言将于4月1日全面免费，今日又公布了重要的开源计划。 ...

来源：

智东西【阅读原文】
Tags：AI平权多模态能力开源文心大模型百度

1年前 (2025)

豆包大模型1.5Pro：实时语音功能与AI推理模型的完美结合，基于MoE架构和多模态能力，不蒸馏造就世界一流大模型，百万tokens仅需8毛，性能卓越不走捷径。

国内AI厂商春节前发布新一代大模型随着蛇年的临近，国内的AI厂商们并未因节日而放缓脚步。在春节前夕，各大厂商纷纷推出了各自的新一代大模型。本周一，豆包发布了全新的实时语音功能，该功能在中文语音对话方面实现了断崖式领先，为用户带来了智商与情商双高的实时语音助手和聊天伙伴。月之暗面与DeepSeek推出推理模型紧接着，月之暗面与DeepSeek分别推出了强大的推理模型，这些模型在性能上可比肩满血版o1，吸引了全球范围内的广泛关注。而就在昨天，豆包再次更新了其大模型，推出了豆包大模型1.5Pro版本，进一步提...

来源：

机器之心【阅读原文】
Tags：AI推理模型 MOE架构多模态能力实时语音功能豆包大模型

2年前 (2025)

Sam Altman公布2025年技术愿景，OpenAI将如何利用ChatGPT和AGI实现多模态能力并重视用户反馈？

Sam Altman发布新年技术愿景，征求网友意见近日，Sam Altman在社交平台上发布了新的一年技术愿景，并积极征求网友对OpenAI未来发展的建议。这条推文吸引了超过8300条评论，浏览量突破270万次，成为Sam今年最受关注的推文之一。相比前几天连续12天的直播活动，这次互动显得更加热烈。用户反馈与积极回应用户们对OpenAI的技术发展充满期待，纷纷提出各种建议和需求。Sam对这些反馈非常重视，不仅积极回复，还肯定了一些非常有价值的意见，表示会尽快安排实现。以下是部分被Sam认可并可能实施的技术路线和功能优化： 1. ...

来源：

AIGC开放社区公众号【阅读原文】
Tags：AGI ChatGPT OpenAI 多模态能力用户反馈

2年前 (2024)