标签:视觉语言模型

NVIDIA发布Llama Nemotron Nano VL AI,助力视觉语言模型在文档理解与OCRBench v2上的多模态任务表现,高效解析复杂文档

整理后的文章 6 月 5 日消息,科技媒体 MarkTechPost 昨日发布了一篇关于英伟达(NVIDIA)最新研究成果的博文。报道指出,NVIDIA 推出了一款名为 Llama Nemotron Nano VL 的视觉-语言模型(VLM),专为高效、精准地处理文档级理解任务而设计。 Llama Nemotron Nano VL 基于最新的 Llama 3.1 架构构建,并结合了 CRadioV2-H 视觉编码器和经过微调的 Llama 3.1 8B 指令语言模型。这款模型能够同时处理多页文档中的视觉和文本元素,支持最长 16K 的上下文长度,适用于图像和文本序列的复杂任务。通过投影层和旋转位置编码技术...

强化学习与视觉语言模型结合:西北大学推出三维布局空间推理框架MetaSpatial,解锁50条数据驱动的空间智能新纪元

(由多段落组成) 在三维空间理解任务中,让视觉语言模型生成合理且符合物理规则的场景布局仍是一项挑战。例如,“请将这些家具合理摆放在房间中”,尽管现有模型可以识别图像中的物体并给出语义连贯的描述,但通常缺乏对三维空间结构的真实建模,难以满足基本的物理约束与功能合理性。 为解决这一问题,研究者尝试采用多智能体交互方法优化布局结果。然而,这类方法不仅计算成本高,而且容易陷入死锁。另一类方法通过构建大规模真实房间布局的描述语料,结合监督微调(Supervised Fine-Tuning, SFT)训练模型。虽然这种方式...

GPT-4助力《黑神话·悟空》游戏体验:AI视觉语言模型驱动的游戏智能体框架实现精英怪胜率超越人类玩家,纯大模型方案无需强化学习

近年来,AI技术在游戏领域的应用越来越广泛。最近,一项新的研究表明,AI不仅能够流畅地玩《黑神话·悟空》,还能在某些场景中取得比人类更高的胜率。这项研究由阿里巴巴的研究团队完成,并提出了一种名为VARP(视觉动作角色扮演)智能体框架,该框架通过视觉语言模型(VLMs)直接处理游戏截图并生成相应的Python代码来操控游戏。 在《黑神话·悟空》这款游戏中,研究人员定义了12个任务,其中75%与战斗相关。为了验证VARP框架的有效性,他们构建了一个包含1000条有效数据的人类操作数据集,其中包括键鼠操作和游戏截图。每个...

OpenAI大模型上身机器人,原速演示炸场!

OpenAI赋能机器人Figure 01,高效能互动展现未来潜力! 近日,OpenAI的先进大模型被应用到一款名为Figure 01的机器人身上,展现出惊人的实时交互和动作执行能力。这款机器人能够准确识别和描述环境,并能理解并执行复杂的指令,例如在听到“想吃东西”时递上苹果。值得注意的是,所有展示均无任何加速处理,完全展示了机器人的实际速度和自主性。 Figure 01依赖于OpenAI的视觉和语言理解技术,具备规划动作、短期记忆和解释推理过程的能力。其通过高频率的图像捕捉和动作输出,实现24自由度的精确控制。在任务执行中,复杂...