DeepSeek-OCR 2正式开源:国产轻量OCR模型支持PDF转Markdown,集成视觉标记重排技术,性能媲美Gemini-3 Pro

以下为人工风格SEO优化版文章,严格遵循中文阅读习惯与搜索引擎友好原则:
✅ 重写逻辑清晰、避免机械翻译感
✅ 关键信息完整保留(技术亮点、性能数据、作者背景、开源地址)
✅ 自然融入长尾关键词与用户搜索意图(如“PDF转Markdown”“轻量OCR模型”“国产开源OCR”)
✅ 段落节奏适配移动端阅读,重点前置,技术细节分层展开
✅ 标题更具搜索吸引力,正文含语义化小标题与强调句式

(由多段落组成):

【重磅开源】DeepSeek发布全新OCR引擎DeepSeek-OCR 2:不依赖CLIP,用0.5B小模型实现PDF→Markdown高精度转换,效果直追Gemini-3 Pro!

2026年1月28日,国内头部AI团队DeepSeek正式开源新一代文档理解模型——DeepSeek-OCR 2。这款模型并非简单迭代,而是从底层视觉编码逻辑发起重构:它彻底告别传统OCR依赖的CLIP视觉编码器,创新采用通义千问轻量级语言模型Qwen2-0.5B构建全新编码器DeepEncoder V2,首次在视觉标记(Visual Tokens)生成阶段即注入“人类阅读因果流”,让PDF解析真正读懂版面逻辑。

为什么说这次升级是OCR领域的范式转变?关键在于它破解了困扰行业多年的“光栅扫描陷阱”——过去OCR模型机械地按从左到右、从上到下的固定顺序切分图像,导致双栏论文、嵌套表格、图文混排等复杂文档结构被强行割裂,语义连贯性严重受损。而DeepSeek-OCR 2通过DeepEncoder V2,在图像输入LLM解码器前就完成一次智能重排:视觉标记保持原始特征不变,但新增的可学习“因果查询向量”会依据上下文逻辑动态调整标记序列顺序,使后续大模型能像人一样“先看标题、再扫图表、最后读正文”。

技术实现上,这一能力依托独创的双流注意力机制:左侧全连接双向注意力保障全局视觉感知;右侧下三角因果注意力强制查询向量仅关注前置标记+全部视觉Token,形成两阶段推理闭环——第一阶段在编码器内完成语义理序,第二阶段在解码器中专注自回归生成。这不仅弥合了2D文档空间与1D文本建模的天然鸿沟,更让模型在仅1120个视觉Token预算下,文档解析编辑距离(0.100)优于Gemini-3 Pro(0.115),阅读顺序准确率提升超34%。

除了核心编码器革命,DeepSeek-OCR 2在工程细节上同样精雕细琢:
🔹 视觉分词器沿用80M参数SAM-base架构,但输出维度从1024压缩至896,配合16倍标记压缩比,大幅降低全局注意力计算开销;
🔹 支持“全局视图+局部裁剪”双分辨率适配:1024×1024下生成256个粗粒度查询,768×768细部区域每块生成144个高精度查询,确保公式、印章、小字号注释等细节零丢失;
🔹 解码器延续3B MoE稀疏架构(实际激活仅约500M参数),兼顾性能与部署成本;
🔹 训练策略更懂中文文档:OCR数据占比80%,正文/公式/表格采样比精准设为3:1:1,并合并“图注/标题”等语义近似标签,显著提升对学术PDF、财报、招标文件等真实场景的泛化能力。

实测结果令人振奋:在覆盖杂志、论文、白皮书等9大类共1355页文档的OmniDocBench v1.5权威基准上,DeepSeek-OCR 2以91.09%准确率刷新纪录,较初代提升3.73%;阅读顺序编辑距离从0.085降至0.057;线上服务重复率下降33%(日志重复率6.25%→4.17%),PDF生产数据重复率下降22%(3.69%→2.88%),印证其真正具备逻辑级文档理解能力。

更值得点赞的是,DeepSeek再次践行全栈开源承诺:模型权重、训练代码、完整论文已同步上线GitHub与Hugging Face,零门槛供开发者调用与二次开发。三位核心作者——魏浩然(前阶跃星辰GOT-OCR2.0负责人)、孙耀峰(北大本硕、幻方AI大模型骨干)、李宇琨(谷歌学术万引学者、DeepSeek V2/V3核心研发)——延续了国产AI团队扎实严谨又敢于突破的技术基因。

如果你正为PDF批量转Markdown、科研文献结构化解析、企业合同智能提取等需求寻找高性能、低资源、可私有化部署的OCR方案,DeepSeek-OCR 2无疑是2026年开年最值得关注的国产开源利器。

🔗 开源直达:
GitHub → https://github.com/deepseek-ai/DeepSeek-OCR-2
Hugging Face → https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
论文PDF → https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...