标签：文档理解

NVIDIA发布Llama Nemotron Nano VL AI，助力视觉语言模型在文档理解与OCRBench v2上的多模态任务表现，高效解析复杂文档

整理后的文章 6 月 5 日消息，科技媒体 MarkTechPost 昨日发布了一篇关于英伟达（NVIDIA）最新研究成果的博文。报道指出，NVIDIA 推出了一款名为 Llama Nemotron Nano VL 的视觉-语言模型（VLM），专为高效、精准地处理文档级理解任务而设计。 Llama Nemotron Nano VL 基于最新的 Llama 3.1 架构构建，并结合了 CRadioV2-H 视觉编码器和经过微调的 Llama 3.1 8B 指令语言模型。这款模型能够同时处理多页文档中的视觉和文本元素，支持最长 16K 的上下文长度，适用于图像和文本序列的复杂任务。通过投影层和旋转位置编码技术...

来源：

IT之家【阅读原文】
Tags：Nvidia OCRBench v2 多模态任务文档理解视觉语言模型

11个月前

马斯克 xAI 展示首个多模态模型 Grok-1.5V：可将流程图转成 Python 代码

xAI发布Grok-1.5 Vision：革新多模态模型，引领智能处理新高度在科技巨头马斯克的支持下，人工智能公司xAI近期持续创新，继Grok-1.5大语言模型后，又推出了全新的多模态模型——Grok-1.5 Vision (Grok-1.5V)。这款先进模型不仅能够理解文本信息，还能解析文档、图表、截图和照片，拓宽了人工智能处理数据的边界。 xAI宣布即将邀请早期用户与Grok现有用户参与Grok-1.5V的测试，展示其强大的多学科推理能力和文档理解力。从官方发布的实例来看，Grok-1.5V能将流程图转化为Python代码，根据儿童画作创作故事，解析流行语，甚至...

来源：

IT之家【阅读原文】
Tags：Grok-1.5 Vision xAI 多模态模型实时问答基准测试文档理解

2年前 (2024)