标签:文档理解
NVIDIA发布Llama Nemotron Nano VL AI,助力视觉语言模型在文档理解与OCRBench v2上的多模态任务表现,高效解析复杂文档
整理后的文章 6 月 5 日消息,科技媒体 MarkTechPost 昨日发布了一篇关于英伟达(NVIDIA)最新研究成果的博文。报道指出,NVIDIA 推出了一款名为 Llama Nemotron Nano VL 的视觉-语言模型(VLM),专为高效、精准地处理文档级理解任务而设计。 Llama Nemotron Nano VL 基于最新的 Llama 3.1 架构构建,并结合了 CRadioV2-H 视觉编码器和经过微调的 Llama 3.1 8B 指令语言模型。这款模型能够同时处理多页文档中的视觉和文本元素,支持最长 16K 的上下文长度,适用于图像和文本序列的复杂任务。通过投影层和旋转位置编码技术...
马斯克 xAI 展示首个多模态模型 Grok-1.5V:可将流程图转成 Python 代码
xAI发布Grok-1.5 Vision:革新多模态模型,引领智能处理新高度 在科技巨头马斯克的支持下,人工智能公司xAI近期持续创新,继Grok-1.5大语言模型后,又推出了全新的多模态模型——Grok-1.5 Vision (Grok-1.5V)。这款先进模型不仅能够理解文本信息,还能解析文档、图表、截图和照片,拓宽了人工智能处理数据的边界。 xAI宣布即将邀请早期用户与Grok现有用户参与Grok-1.5V的测试,展示其强大的多学科推理能力和文档理解力。从官方发布的实例来看,Grok-1.5V能将流程图转化为Python代码,根据儿童画作创作故事,解析流行语,甚至...