DeepSeek开源3B OCR模型:97%精度刷新长文本压缩极限

(由多段落组成):

近日,人工智能领域再迎重要突破。据科技媒体报道,DeepSeek团队在GitHub平台正式开源了其最新研发的OCR模型——DeepSeek-OCR,引发业界广泛关注。该模型凭借创新的技术架构和出色的文本识别能力,为长文本场景下的光学字符识别提供了全新的解决方案。

DeepSeek-OCR模型参数规模约为30亿(3B),是研究团队首次将“光学二维映射压缩”技术应用于长上下文处理中的实践探索。这一技术的核心目标是在保证识别精度的同时,显著降低视觉信息的冗余度,提升处理效率。模型整体采用双模块设计:前端为DeepEncoder,后端为DeepSeek3B-MoE-A570M解码器。其中,DeepEncoder能够在高分辨率图像输入下保持低激活状态,有效实现高压缩比,并输出适量的视觉token;而解码器则专注于将这些压缩后的视觉特征精准还原为可读文本。

实验结果显示,该模型在多种压缩条件下均表现出优异性能。当文本token数量控制在视觉token的10倍以内(即压缩率低于10x)时,OCR识别准确率高达97%。即便在极端压缩条件下(压缩率达到20x),模型仍能维持约60%的识别准确率,展现出强大的鲁棒性与实用性。这一表现对于需要处理扫描文档、书籍或网页截图等长文本的应用场景具有重要意义。

研究人员指出,DeepSeek-OCR不仅是一次OCR技术的升级,更为大语言模型在记忆管理与信息遗忘机制方面的研究开辟了新路径。通过高效的视觉信息压缩与重建机制,模型能够模拟人类阅读时的“选择性注意”过程,有助于未来构建更具认知智能的AI系统。

此次开源项目已在GitHub上发布,开发者可自由下载并参与后续优化。随着社区的持续贡献,DeepSeek-OCR有望成为下一代文档数字化、知识提取与多模态理解的重要基础工具之一。

DeepSeek-OCR, OCR模型开源, 光学字符识别, 长文本处理, 视觉token压缩

本文来源: iFeng科技【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...