标签：视觉语言模型

NVIDIA发布Llama Nemotron Nano VL AI，助力视觉语言模型在文档理解与OCRBench v2上的多模态任务表现，高效解析复杂文档

整理后的文章 6 月 5 日消息，科技媒体 MarkTechPost 昨日发布了一篇关于英伟达（NVIDIA）最新研究成果的博文。报道指出，NVIDIA 推出了一款名为 Llama Nemotron Nano VL 的视觉-语言模型（VLM），专为高效、精准地处理文档级理解任务而设计。 Llama Nemotron Nano VL 基于最新的 Llama 3.1 架构构建，并结合了 CRadioV2-H 视觉编码器和经过微调的 Llama 3.1 8B 指令语言模型。这款模型能够同时处理多页文档中的视觉和文本元素，支持最长 16K 的上下文长度，适用于图像和文本序列的复杂任务。通过投影层和旋转位置编码技术...

来源：

IT之家【阅读原文】
Tags：Nvidia OCRBench v2 多模态任务文档理解视觉语言模型

5个月前

强化学习与视觉语言模型结合：西北大学推出三维布局空间推理框架MetaSpatial，解锁50条数据驱动的空间智能新纪元

（由多段落组成）在三维空间理解任务中，让视觉语言模型生成合理且符合物理规则的场景布局仍是一项挑战。例如，“请将这些家具合理摆放在房间中”，尽管现有模型可以识别图像中的物体并给出语义连贯的描述，但通常缺乏对三维空间结构的真实建模，难以满足基本的物理约束与功能合理性。为解决这一问题，研究者尝试采用多智能体交互方法优化布局结果。然而，这类方法不仅计算成本高，而且容易陷入死锁。另一类方法通过构建大规模真实房间布局的描述语料，结合监督微调（Supervised Fine-Tuning, SFT）训练模型。虽然这种方式...

来源：

量子位【阅读原文】
Tags：MetaSpatial 三维布局强化学习空间推理视觉语言模型

7个月前

GPT-4助力《黑神话·悟空》游戏体验：AI视觉语言模型驱动的游戏智能体框架实现精英怪胜率超越人类玩家，纯大模型方案无需强化学习

近年来，AI技术在游戏领域的应用越来越广泛。最近，一项新的研究表明，AI不仅能够流畅地玩《黑神话·悟空》，还能在某些场景中取得比人类更高的胜率。这项研究由阿里巴巴的研究团队完成，并提出了一种名为VARP（视觉动作角色扮演）智能体框架，该框架通过视觉语言模型（VLMs）直接处理游戏截图并生成相应的Python代码来操控游戏。在《黑神话·悟空》这款游戏中，研究人员定义了12个任务，其中75%与战斗相关。为了验证VARP框架的有效性，他们构建了一个包含1000条有效数据的人类操作数据集，其中包括键鼠操作和游戏截图。每个...

来源：

量子位【阅读原文】
Tags：AI GPT-4o 游戏智能体框架视觉语言模型黑神话·悟空

1年前 (2024)

OpenAI大模型上身机器人，原速演示炸场!

OpenAI赋能机器人Figure 01，高效能互动展现未来潜力！近日，OpenAI的先进大模型被应用到一款名为Figure 01的机器人身上，展现出惊人的实时交互和动作执行能力。这款机器人能够准确识别和描述环境，并能理解并执行复杂的指令，例如在听到“想吃东西”时递上苹果。值得注意的是，所有展示均无任何加速处理，完全展示了机器人的实际速度和自主性。 Figure 01依赖于OpenAI的视觉和语言理解技术，具备规划动作、短期记忆和解释推理过程的能力。其通过高频率的图像捕捉和动作输出，实现24自由度的精确控制。在任务执行中，复杂...

来源：

量子位【阅读原文】
Tags：Figure 01 OpenAI 具身智能机器人视觉语言模型

2年前 (2024)