标签:多模态大模型

2025年中国AI出海洞察:聚焦AIGC盈利模式与多模态大模型在海外用户画像中的应用及AI硬件渠道分析

2025年初,从1月DeepSeek R1的发布掀起新一轮国产大模型技术热潮,到3月Manus开启内测并点燃AI智能体话题热度,无论是底层基础设施还是终端应用,从产业深度拓展到产品创新形成差异化竞争优势,国产AI在技术和商业模式上都处于全球领先地位。海外政策环境和供需关系为国产AI出海提供了双轮驱动的支持。 01 中国AI出海背景概况 (一)中国AI出海产业图谱 AI产业链涵盖底层基础设施、中间技术层以及终端应用层,包括各类软硬件及产品应用,并由支付、营销、云等服务生态提供全方位支持。终端应用层主要包括AIGC软件应用和...

大语言模型与推理模型进展:ICLR 2025论文分享会自回归架构与多模态大模型趋势解析,迈向AGI北京见

从 OpenAI o1 到 DeepSeek R1,推理模型已经迈入了全新的发展阶段。这些模型展现出的「慢思考、强推理」能力正在加速推动语言智能向认知智能的转变,并为未来的通用人工智能(AGI)奠定了重要基础。与此同时,学术界对大语言模型的研究仍在深入,扩散模型持续挑战主流的自回归架构。随着 2025 年智能体元年的到来,由大语言模型(LLM)驱动的智能体通过手机等移动终端实现落地,彻底改变了人机交互的传统模式。此外,多模态大模型的竞争日益激烈,不仅提升了跨模态的理解与生成能力,还注重低成本和低门槛的应用。 为了帮助...

火山引擎Q-Insight结合强化学习,推动图像质量评估与多模态大模型在视频云领域的深度发展

随着生成式人工智能与多模态大模型的快速发展,AI 视觉创作正迎来前所未有的生产力爆发。然而,如何评估机器生成的画质是否符合人眼审美,成为了一个亟待解决的问题。北京大学与火山引擎多媒体实验室联合提出了一种基于强化学习训练的多模态大模型图像画质理解方案 Q-Insight,为这一问题提供了创新性的解决方案。 Q-Insight 的核心理念 Q-Insight 不再简单地依赖于对人眼评分的拟合,而是将评分视为一种引导信号,促使模型深入思考图像质量的本质原因。这种方法不仅提升了模型的准确性,还增强了其泛化推理能力,使得 Q-I...

AI超级框——阿里巴巴在3月13日正式宣布推出其全新的AI旗舰应用——新夸克

这款应用依托阿里通义领先的推理和多模态大模型技术,全面升级为一个功能强大的“AI超级框”,旨在为2亿用户提供更加智能化的服务。阿里巴巴表示,未来通义系列的所有最新成果都将优先接入夸克。 新夸克将彻底告别传统的搜索模式,转型为一个All in One的“AI超级框”,能够满足用户在工作、学习和生活中的各种AI需求。与市场上主流的Chatbot不同,夸克致力于整合AI对话、深度思考、深度搜索、深度研究和深度执行等功能,通过一个极简的界面满足用户的全方位需求。 用户只需在“AI超级框”中输入指令,夸克智能中枢便会自动识别...

谷歌DeepMind为Gemini Robotics打造先进机器人模型,融合空间推理与多模态大模型理解物理世界

随着人工智能技术的飞速发展,机器人领域也在不断取得突破。近日,谷歌DeepMind推出两款基于Gemini 2.0的机器人模型:Gemini Robotics和Gemini Robotics-ER。这两款模型在机器人任务执行、环境感知以及物理世界理解等方面表现出色。 一、Gemini Robotics:多场景适配与灵活操作 Gemini Robotics是一款具备通用性和交互性的机器人模型,其主要特点包括以下几点: 1. 通用性 Gemini Robotics依托于Gemini 2.0的强大世界理解能力,能够快速适应各种新环境和任务。无论是在家庭、办公室还是工厂等不同场景中,该模型都能迅速调...

杭州AI开源领域再创佳绩!阿里Qwen除夕重磅推出视觉理解模型新旗舰,涵盖多模态大模型全系列三种尺寸,7B参数量超越GPT-40-mini,尤其在视频理解能力方面表现卓越,引领行业创新潮流。

杭州领跑AI开源:阿里Qwen除夕发布视觉理解新旗舰模型 杭州在人工智能领域再次展现出强大的创新实力。2025年1月28日凌晨4点,阿里巴巴通义团队发布了全新视觉理解模型Qwen2.5-VL,并宣布全面开源。这款模型不仅支持视觉理解、Agent操作、长视频理解等功能,还推出了3B、7B和72B三种参数规模的版本。 官方测试结果显示,Qwen2.5-VL系列中的7B模型(Qwen2.5-VL-7B-Instruct)在多个任务中超越了GPT-4o-mini,而72B版本则在一系列涵盖多个领域的基准测试中表现出色,包括大学水平的问题解答、数学推理、文档理解等。 此外,Q...

AI行业持续催化,机构看好人工智能指数及多模态大模型带来的高景气度行情

AI行业事件频发,板块个股表现亮眼 近期,AI行业内一系列重要事件不断涌现,推动相关板块内的个股持续活跃。根据Wind数据统计,自9月以来,人工智能指数累计涨幅达到了70.07%。在此期间,多只个股涨幅显著,如天玑科技、海天瑞声、高伟达和寒武纪-U等股票的涨幅均超过了150%,充分展示了市场对AI领域的高度关注与认可。 多模态大模型及Agent迭代加速商业化进程 分析人士指出,随着多模态大模型和Agent技术的持续迭代升级,以及AI硬件产品的不断推出,AI应用的商业化进程将进一步加快。这不仅有助于提升AI产业链的整体竞...

清华大学DeeR-VLA框架助力多模态大模型动态推理,大幅降低机器人智能开发中的LLM内存开销4-6倍,打破实验室应用瓶颈。

清华大学新框架DeeR-VLA助力具身智能走出实验室,大幅降低LLM内存开销 来源:量子位 发布日期:2024年11月30日 计算和存储开销问题迎刃而解 来自清华大学的研究团队设计了一种名为DeeR-VLA的新框架,专门用于优化视觉-语言-动作模型(VLA)的计算和内存开销。该框架通过“动态推理”机制,将大语言模型(LLM)的计算和内存开销平均降低了4-6倍。 动态推理机制详解 DeeR-VLA的工作原理类似于人类的决策系统:对于简单的任务,模型会快速做出决策;而对于复杂的任务,则会进行更深入的思考。通过多出口架构,模型可以在...

利用国产AI跃问,我的新iPhone 16 Pro实现多模态大模型的AI拍照提问功能,体验科技自由。

上个周末,我参加了《球3》剧组的会议。由于我去年5月购买的笔记本电脑出现了无法修复的问题,导致我在会议中遇到了不少尴尬的情况。这台电脑本来就很重,携带出门就已经很不便,而这次屏幕竟然彻底坏了,尽管能开机并连接外部显示器使用,但自身的屏幕始终是黑屏状态。在演示AI技术时,屏幕问题让我十分难堪。 回到家中,我立刻决定更换一台新的笔记本电脑。经过一番考虑,我选择了Macbook Air作为出差专用设备,而旧电脑则留在家中作为台式机使用。时隔两年,我再次回到了Mac的怀抱。然而,人的心理有时就是这样矛盾。用...

OpenBMB的MiniCPM-V2.6:一款国内领先的多模态大模型,超越GPT-4V,集OCR识别与视频理解于一体,已获超9000颗星认可

国内知名的开源社区OpenBMB近期推出了其最新研发的开源多模态大模型——MiniCPM-V2.6。这款模型拥有80亿参数,在单图像、多图像以及视频理解等方面的表现超越了GPT-4V;尤其在单图像理解上,其效果优于GPT-4o mini、Gemini1.5Pro 与 Claude3.5Sonnet 等同类模型。MiniCPM-V2.6不仅显著降低了模型的内存占用,还提高了推理效率,并且首次实现了在iPad等移动端设备上进行实时视频理解。 MiniCPM-V2.6基于SigLip-400M和阿里云的Qwen2-7B模型进行开发,相较于之前的版本V2.5,性能有了显著提升,并新增了多图像和视频理解的功能。...
12