NVIDIA发布Llama Nemotron Nano VL AI,助力视觉语言模型在文档理解与OCRBench v2上的多模态任务表现,高效解析复杂文档

整理后的文章

6 月 5 日消息,科技媒体 MarkTechPost 昨日发布了一篇关于英伟达(NVIDIA)最新研究成果的博文。报道指出,NVIDIA 推出了一款名为 Llama Nemotron Nano VL 的视觉-语言模型(VLM),专为高效、精准地处理文档级理解任务而设计。

Llama Nemotron Nano VL 基于最新的 Llama 3.1 架构构建,并结合了 CRadioV2-H 视觉编码器和经过微调的 Llama 3.1 8B 指令语言模型。这款模型能够同时处理多页文档中的视觉和文本元素,支持最长 16K 的上下文长度,适用于图像和文本序列的复杂任务。通过投影层和旋转位置编码技术,该模型实现了视觉与文本的对齐,从而显著提升了 token 使用效率,特别适合长篇多模态任务

训练过程分为三个阶段:第一阶段,使用商业图像和视频数据集进行交错式图文预训练;第二阶段,通过多模态指令微调提升交互式提示能力;第三阶段,重新混合纯文本指令数据以优化在标准语言模型基准上的表现。整个训练过程依托 NVIDIA 的 Megatron-LLM 框架和 Energon 数据加载器,并在 A100 和 H100 GPU 集群上完成。

OCRBench v2 基准测试中,Llama Nemotron Nano VL 展现了卓越的性能,尤其是在 OCR、表格解析和图表推理等任务上取得了领先的精度。它在结构化数据提取(如表格和键值对)以及布局相关问题解答方面表现出色,甚至媲美更大规模的模型。

在部署方面,Llama Nemotron Nano VL 具备高度灵活性,支持服务器和边缘推理场景。NVIDIA 提供了 4-bit 量化版本(AWQ),结合 TinyChat 和 TensorRT-LLM 实现高效的推理能力,同时兼容 Jetson Orin 等受限环境。此外,该模型还支持 Modular NIM(NVIDIA 推理微服务)、ONNX 和 TensorRT 导出功能。通过预计算视觉嵌入选项,NVIDIA 进一步降低了静态图像文档处理的延迟,为企业应用提供了实用解决方案。

参考链接:
– [New NVIDIA Llama Nemotron Nano Vision Language Model Tops OCR Benchmark for Accuracy](#)
– [NVIDIA AI Releases Llama Nemotron Nano VL: A Compact Vision-Language Model Optimized for Document Understanding](#)

免责声明:本文内含对外跳转链接(包括但不限于超链接、二维码、口令等形式),旨在传递更多信息,节省甄选时间,结果仅供参考。IT之家所有文章均包含此声明。

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...