仅0.9B!百度新开源模型一夜登顶,识别109种语言,综合分全球第一

(由多段落组成):

近日,百度开源了一款名为 PaddleOCR-VL 的多语言文档解析模型,迅速在Hugging Face趋势榜上连续三天登顶第一,引发业界广泛关注。该模型不仅支持多达109种语言的文本识别,还能精准提取表格、数学公式、图表等复杂结构元素,涵盖英语、中文、俄语、阿拉伯语、印地语等全球主流及区域性语言,适用于跨国企业、学术研究和历史文献数字化等多种场景。

在权威评测基准 OmniDocBench 系列测试中,PaddleOCR-VL表现卓越。其在最新版本v1.5中以92.6的综合得分位居全球榜首,在整体文档理解、文本识别、公式解析、表格还原以及阅读顺序判断等多个关键指标上均达到SOTA(State-of-the-Art)水平。相比传统流水线式系统和其他通用视觉语言模型(VLM),它展现出更强的鲁棒性和更高的准确率,尤其在处理复杂排版和多模态时优势明显。

尽管在标准印刷体或规范手写文本中识别效果出色,但在面对高度模糊、反光或古籍类图像时仍存在一定挑战。例如,智东西实测上传苏轼手札后发现,由于繁体字密集且笔迹潦草,模型出现了较多误识情况。这表明当前AI在古代书法或非标准化书写方面的泛化能力仍有提升空间,但整体已具备较强的实用性。

PaddleOCR-VL的技术架构采用“两阶段”设计:第一阶段使用改进版的 PP-DocLayoutV2 模型进行页面布局分析与阅读顺序预测;第二阶段则通过轻量级视觉语言模型 PaddleOCR-VL-0.9B 实现细粒度的识别。该模型融合了NaViT风格的动态高分辨率视觉编码器与ERNIE-4.5-0.3B语言模型,在保证高性能的同时显著降低推理资源消耗,适合部署于边缘设备或大规模服务端应用。

为支撑这一强大模型的训练,百度团队构建了超过3000万份高质量图文样本的数据集,来源包括开源数据、合成数据、网络可获取资源以及内部私有数据。通过专家模型生成初始伪标签,并结合大型多模态模型(如ERNIE-4.5-VL和Qwen2.5VL)进行智能标注优化,再经过严格的幻觉过滤机制,确保训练数据的准确性与多样性。整个流程实现了高效自动化,极大提升了模型泛化能力。

在具体任务评估中,PaddleOCR-VL在多个国际基准测试中全面领先。除OmniDocBench外,在olmOCR-Bench测试中也取得80.0±1.0的最高分,尤其在页眉页脚识别(97.0)、ArXiv论文解析(85.7)等方面遥遥领先。在元素级识别方面,无论是印刷体、手写体还是复杂公式、表格结构,其错误率均低于现有方案。特别是在中文手写OCR任务中,编辑距离低至0.034,显示出对东亚文字的强大适应性。

性能方面,PaddleOCR-VL同样表现出色。在单张NVIDIA A100 GPU上运行测试显示,其页面吞吐量比同类领先模型MinerU2.5高出15.8%,token处理速度提升14.2%,GPU内存占用却减少约40%。这意味着它不仅能更快完成文档解析,还能在有限算力环境下稳定运行,非常适合企业级文档自动化、知识库构建、RAG增强检索等实际应用场景。

总体来看,PaddleOCR-VL不仅是百度在OCR领域技术积累的一次集中爆发,也为全球开发者提供了一个高效、开放、可扩展的多语言文档理解工具。随着其生态不断完善,有望加速复杂文档信息的智能化提取进程,推动教育、金融、法律、科研等行业实现更高效率的数字化转型。

PaddleOCR-VL, 多语言OCR, 文档解析模型, 百度开源AI, 视觉语言模型

本文来源: 智东西【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...