标签：多模态大模型

谷歌DeepMind为Gemini Robotics打造先进机器人模型，融合空间推理与多模态大模型理解物理世界

随着人工智能技术的飞速发展，机器人领域也在不断取得突破。近日，谷歌DeepMind推出两款基于Gemini 2.0的机器人模型：Gemini Robotics和Gemini Robotics-ER。这两款模型在机器人任务执行、环境感知以及物理世界理解等方面表现出色。一、Gemini Robotics：多场景适配与灵活操作 Gemini Robotics是一款具备通用性和交互性的机器人模型，其主要特点包括以下几点： 1. 通用性 Gemini Robotics依托于Gemini 2.0的强大世界理解能力，能够快速适应各种新环境和任务。无论是在家庭、办公室还是工厂等不同场景中，该模型都能迅速调...

来源：

智东西【阅读原文】
Tags：DeepMind Gemini Robotics 多模态大模型机器人模型

1年前 (2025)

杭州AI开源领域再创佳绩！阿里Qwen除夕重磅推出视觉理解模型新旗舰，涵盖多模态大模型全系列三种尺寸，7B参数量超越GPT-40-mini，尤其在视频理解能力方面表现卓越，引领行业创新潮流。

杭州领跑AI开源：阿里Qwen除夕发布视觉理解新旗舰模型杭州在人工智能领域再次展现出强大的创新实力。2025年1月28日凌晨4点，阿里巴巴通义团队发布了全新视觉理解模型Qwen2.5-VL，并宣布全面开源。这款模型不仅支持视觉理解、Agent操作、长视频理解等功能，还推出了3B、7B和72B三种参数规模的版本。官方测试结果显示，Qwen2.5-VL系列中的7B模型（Qwen2.5-VL-7B-Instruct）在多个任务中超越了GPT-4o-mini，而72B版本则在一系列涵盖多个领域的基准测试中表现出色，包括大学水平的问题解答、数学推理、文档理解等。此外，Q...

来源：

量子位【阅读原文】
Tags：AI开源多模态大模型视觉理解模型视频理解能力阿里Qwen

2年前 (2025)

AI行业持续催化，机构看好人工智能指数及多模态大模型带来的高景气度行情

AI行业事件频发，板块个股表现亮眼近期，AI行业内一系列重要事件不断涌现，推动相关板块内的个股持续活跃。根据Wind数据统计，自9月以来，人工智能指数累计涨幅达到了70.07%。在此期间，多只个股涨幅显著，如天玑科技、海天瑞声、高伟达和寒武纪-U等股票的涨幅均超过了150%，充分展示了市场对AI领域的高度关注与认可。多模态大模型及Agent迭代加速商业化进程分析人士指出，随着多模态大模型和Agent技术的持续迭代升级，以及AI硬件产品的不断推出，AI应用的商业化进程将进一步加快。这不仅有助于提升AI产业链的整体竞...

来源：

界面新闻【阅读原文】
Tags：AI硬件 AI行业人工智能指数多模态大模型高景气度

2年前 (2024)

清华大学DeeR-VLA框架助力多模态大模型动态推理，大幅降低机器人智能开发中的LLM内存开销4-6倍，打破实验室应用瓶颈。

清华大学新框架DeeR-VLA助力具身智能走出实验室，大幅降低LLM内存开销来源：量子位发布日期：2024年11月30日计算和存储开销问题迎刃而解来自清华大学的研究团队设计了一种名为DeeR-VLA的新框架，专门用于优化视觉-语言-动作模型（VLA）的计算和内存开销。该框架通过“动态推理”机制，将大语言模型（LLM）的计算和内存开销平均降低了4-6倍。动态推理机制详解 DeeR-VLA的工作原理类似于人类的决策系统：对于简单的任务，模型会快速做出决策；而对于复杂的任务，则会进行更深入的思考。通过多出口架构，模型可以在...

来源：

量子位【阅读原文】
Tags：- DeeR-VLA - 动态推理 - 机器人智能多模态大模型清华大学

2年前 (2024)

利用国产AI跃问，我的新iPhone 16 Pro实现多模态大模型的AI拍照提问功能，体验科技自由。

上个周末，我参加了《球3》剧组的会议。由于我去年5月购买的笔记本电脑出现了无法修复的问题，导致我在会议中遇到了不少尴尬的情况。这台电脑本来就很重，携带出门就已经很不便，而这次屏幕竟然彻底坏了，尽管能开机并连接外部显示器使用，但自身的屏幕始终是黑屏状态。在演示AI技术时，屏幕问题让我十分难堪。回到家中，我立刻决定更换一台新的笔记本电脑。经过一番考虑，我选择了Macbook Air作为出差专用设备，而旧电脑则留在家中作为台式机使用。时隔两年，我再次回到了Mac的怀抱。然而，人的心理有时就是这样矛盾。用...

来源：

数字生命卡兹克公众号【阅读原文】
Tags：AI拍照提问 iPhone 16 Pro MacBook Air 多模态大模型跃问

2年前 (2024)

OpenBMB的MiniCPM-V2.6：一款国内领先的多模态大模型，超越GPT-4V，集OCR识别与视频理解于一体，已获超9000颗星认可

国内知名的开源社区OpenBMB近期推出了其最新研发的开源多模态大模型——MiniCPM-V2.6。这款模型拥有80亿参数，在单图像、多图像以及视频理解等方面的表现超越了GPT-4V；尤其在单图像理解上，其效果优于GPT-4o mini、Gemini1.5Pro 与 Claude3.5Sonnet 等同类模型。MiniCPM-V2.6不仅显著降低了模型的内存占用，还提高了推理效率，并且首次实现了在iPad等移动端设备上进行实时视频理解。 MiniCPM-V2.6基于SigLip-400M和阿里云的Qwen2-7B模型进行开发，相较于之前的版本V2.5，性能有了显著提升，并新增了多图像和视频理解的功能。...

来源：

AIGC开放社区公众号【阅读原文】
Tags：MiniCPM-V2.6 OCR识别 OpenBMB 多模态大模型视频理解

2年前 (2024)

利用多模态大模型与JEST算法：谷歌新数据筛选方法使效率飙升13倍，算力成本骤降10倍

多模态大模型与数据需求挑战随着GPT-4o、Gemini等多模态大模型的兴起，对训练数据的需求急剧增长。无论是自然语言处理、计算机视觉还是语音识别领域，高质量标注数据集对于提升模型性能至关重要。然而，当前的数据处理流程往往依赖人工筛选，这一过程不仅耗时耗力，而且成本高昂，难以满足大规模数据集的需求。 JEST：革新数据筛选技术为了解决上述问题，谷歌DeepMind的研究团队开发了一种名为JEST的新算法，该算法通过智能选择数据批次来加速多模态大模型的学习效率。与现有技术相比，JEST能够将数据筛选效率提升13倍...

来源：

AIGC开放社区公众号【阅读原文】
Tags：JEST算法多分辨率训练多模态大模型数据筛选模型近似

2年前 (2024)

AI实时语音与GPT-4o：RTC技术如何影响OpenAI的情感分析及多模态大模型延迟问题

在人工智能领域，OpenAI的最新模型GPT-4o以其高效能和低延迟引起了关注，尤其是在实时语音互动方面，达到了与人类对话相当的速度。然而，尽管发布会展示了令人惊叹的技术，但在产品落地过程中，诸如GPT-4o的实时音视频功能和视频多模态产品Sora的开放仍面临延迟。这种现象不仅困扰OpenAI，国内的类似项目也面临同样的问题。尽管实时语音被认为是AI商业化的重要路径，但现有的技术如Pi和Call Annie存在高延迟和情感理解不足的问题。新产品EVI通过引入语义空间理论来改进情感表达，但牺牲了响应时间。GPT-4o的多模态技术则显著...

来源：

快科技【阅读原文】
Tags：AI实时语音 GPT-4o RTC技术多模态大模型情感分析

2年前 (2024)