标签:OCRBench v2
NVIDIA发布Llama Nemotron Nano VL AI,助力视觉语言模型在文档理解与OCRBench v2上的多模态任务表现,高效解析复杂文档
整理后的文章 6 月 5 日消息,科技媒体 MarkTechPost 昨日发布了一篇关于英伟达(NVIDIA)最新研究成果的博文。报道指出,NVIDIA 推出了一款名为 Llama Nemotron Nano VL 的视觉-语言模型(VLM),专为高效、精准地处理文档级理解任务而设计。 Llama Nemotron Nano VL 基于最新的 Llama 3.1 架构构建,并结合了 CRadioV2-H 视觉编码器和经过微调的 Llama 3.1 8B 指令语言模型。这款模型能够同时处理多页文档中的视觉和文本元素,支持最长 16K 的上下文长度,适用于图像和文本序列的复杂任务。通过投影层和旋转位置编码技术...