标签:多模态大模型

AI行业持续催化,机构看好人工智能指数及多模态大模型带来的高景气度行情

AI行业事件频发,板块个股表现亮眼 近期,AI行业内一系列重要事件不断涌现,推动相关板块内的个股持续活跃。根据Wind数据统计,自9月以来,人工智能指数累计涨幅达到了70.07%。在此期间,多只个股涨幅显著,如天玑科技、海天瑞声、高伟达和寒武纪-U等股票的涨幅均超过了150%,充分展示了市场对AI领域的高度关注与认可。 多模态大模型及Agent迭代加速商业化进程 分析人士指出,随着多模态大模型和Agent技术的持续迭代升级,以及AI硬件产品的不断推出,AI应用的商业化进程将进一步加快。这不仅有助于提升AI产业链的整体竞...

清华大学DeeR-VLA框架助力多模态大模型动态推理,大幅降低机器人智能开发中的LLM内存开销4-6倍,打破实验室应用瓶颈。

清华大学新框架DeeR-VLA助力具身智能走出实验室,大幅降低LLM内存开销 来源:量子位 发布日期:2024年11月30日 计算和存储开销问题迎刃而解 来自清华大学的研究团队设计了一种名为DeeR-VLA的新框架,专门用于优化视觉-语言-动作模型(VLA)的计算和内存开销。该框架通过“动态推理”机制,将大语言模型(LLM)的计算和内存开销平均降低了4-6倍。 动态推理机制详解 DeeR-VLA的工作原理类似于人类的决策系统:对于简单的任务,模型会快速做出决策;而对于复杂的任务,则会进行更深入的思考。通过多出口架构,模型可以在...

利用国产AI跃问,我的新iPhone 16 Pro实现多模态大模型的AI拍照提问功能,体验科技自由。

上个周末,我参加了《球3》剧组的会议。由于我去年5月购买的笔记本电脑出现了无法修复的问题,导致我在会议中遇到了不少尴尬的情况。这台电脑本来就很重,携带出门就已经很不便,而这次屏幕竟然彻底坏了,尽管能开机并连接外部显示器使用,但自身的屏幕始终是黑屏状态。在演示AI技术时,屏幕问题让我十分难堪。 回到家中,我立刻决定更换一台新的笔记本电脑。经过一番考虑,我选择了Macbook Air作为出差专用设备,而旧电脑则留在家中作为台式机使用。时隔两年,我再次回到了Mac的怀抱。然而,人的心理有时就是这样矛盾。用...

OpenBMB的MiniCPM-V2.6:一款国内领先的多模态大模型,超越GPT-4V,集OCR识别与视频理解于一体,已获超9000颗星认可

国内知名的开源社区OpenBMB近期推出了其最新研发的开源多模态大模型——MiniCPM-V2.6。这款模型拥有80亿参数,在单图像、多图像以及视频理解等方面的表现超越了GPT-4V;尤其在单图像理解上,其效果优于GPT-4o mini、Gemini1.5Pro 与 Claude3.5Sonnet 等同类模型。MiniCPM-V2.6不仅显著降低了模型的内存占用,还提高了推理效率,并且首次实现了在iPad等移动端设备上进行实时视频理解。 MiniCPM-V2.6基于SigLip-400M和阿里云的Qwen2-7B模型进行开发,相较于之前的版本V2.5,性能有了显著提升,并新增了多图像和视频理解的功能。...

利用多模态大模型与JEST算法:谷歌新数据筛选方法使效率飙升13倍,算力成本骤降10倍

多模态大模型与数据需求挑战 随着GPT-4o、Gemini等多模态大模型的兴起,对训练数据的需求急剧增长。无论是自然语言处理、计算机视觉还是语音识别领域,高质量标注数据集对于提升模型性能至关重要。然而,当前的数据处理流程往往依赖人工筛选,这一过程不仅耗时耗力,而且成本高昂,难以满足大规模数据集的需求。 JEST:革新数据筛选技术 为了解决上述问题,谷歌DeepMind的研究团队开发了一种名为JEST的新算法,该算法通过智能选择数据批次来加速多模态大模型的学习效率。与现有技术相比,JEST能够将数据筛选效率提升13倍...

AI实时语音与GPT-4o:RTC技术如何影响OpenAI的情感分析及多模态大模型延迟问题

在人工智能领域,OpenAI的最新模型GPT-4o以其高效能和低延迟引起了关注,尤其是在实时语音互动方面,达到了与人类对话相当的速度。然而,尽管发布会展示了令人惊叹的技术,但在产品落地过程中,诸如GPT-4o的实时音视频功能和视频多模态产品Sora的开放仍面临延迟。这种现象不仅困扰OpenAI,国内的类似项目也面临同样的问题。尽管实时语音被认为是AI商业化的重要路径,但现有的技术如Pi和Call Annie存在高延迟和情感理解不足的问题。新产品EVI通过引入语义空间理论来改进情感表达,但牺牲了响应时间。GPT-4o的多模态技术则显著...
12