标签：OCR识别

字节发布Seed1.5-VL多模态推理模型，OCR识别与视觉编码器结合强化学习，在38项评测中夺得第一

字节跳动近期发布了一款轻量级多模态推理模型——Seed1.5-VL，该模型在60个主流基准测试中取得了38项第一的优异成绩。这款模型仅使用532M视觉编码器和200亿活跃参数，却能与更大规模的顶尖模型相媲美，尤其在复杂谜题推理、OCR（光学字符识别）、图表理解及3D空间理解等方面表现出色。 Seed1.5-VL支持多种分辨率的图像输入，并通过原生分辨率变换技术确保图像细节的最大化保留。在视频处理方面，团队提出了一种动态帧分辨率采样策略，能够根据需求动态调整帧率和分辨率。此外，模型还引入了时间戳标记来增强对时间信息的感知...

来源：

量子位【阅读原文】
Tags：OCR识别 Seed1.5-VL 多模态推理模型强化学习视觉编码器

1年前 (2025)

OpenBMB的MiniCPM-V2.6：一款国内领先的多模态大模型，超越GPT-4V，集OCR识别与视频理解于一体，已获超9000颗星认可

国内知名的开源社区OpenBMB近期推出了其最新研发的开源多模态大模型——MiniCPM-V2.6。这款模型拥有80亿参数，在单图像、多图像以及视频理解等方面的表现超越了GPT-4V；尤其在单图像理解上，其效果优于GPT-4o mini、Gemini1.5Pro 与 Claude3.5Sonnet 等同类模型。MiniCPM-V2.6不仅显著降低了模型的内存占用，还提高了推理效率，并且首次实现了在iPad等移动端设备上进行实时视频理解。 MiniCPM-V2.6基于SigLip-400M和阿里云的Qwen2-7B模型进行开发，相较于之前的版本V2.5，性能有了显著提升，并新增了多图像和视频理解的功能。...

来源：

AIGC开放社区公众号【阅读原文】
Tags：MiniCPM-V2.6 OCR识别 OpenBMB 多模态大模型视频理解

2年前 (2024)

防范信息泄露与安全风险：国家安全部警示文件传输助手及AI写作小程序的潜在云端存储隐患与OCR识别技术滥用问题

在日常的工作和生活中，许多人为了提高效率，常常借助各种便捷的小工具，例如微信中的“文件传输助手”功能。它可以帮助用户轻松地在不同设备间传输文件资料，极大地方便了我们的生活。然而，值得注意的是，这类工具在带来便利的同时也可能带来安全隐患，特别是对于涉及敏感信息的文件来说。根据国家安全部公众号披露的信息，近年来由于使用在线办公工具而引发的失密事件频发，这暴露出了许多潜在的安全风险。以“文件传输助手”为例，该功能允许用户将文件存储在云端，从而可以在多种设备上访问这些文件。尽管这一特性极大地...

来源：

快科技【阅读原文】
Tags：OCR识别云端存储信息泄露安全风险文件传输助手

2年前 (2024)